CN106202224B - 搜索处理方法及装置 - Google Patents

搜索处理方法及装置 Download PDF

Info

Publication number
CN106202224B
CN106202224B CN201610491571.9A CN201610491571A CN106202224B CN 106202224 B CN106202224 B CN 106202224B CN 201610491571 A CN201610491571 A CN 201610491571A CN 106202224 B CN106202224 B CN 106202224B
Authority
CN
China
Prior art keywords
query
title
webpage
webpage title
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610491571.9A
Other languages
English (en)
Other versions
CN106202224A (zh
Inventor
张军
蒲松柏
陈熙
董大祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610491571.9A priority Critical patent/CN106202224B/zh
Publication of CN106202224A publication Critical patent/CN106202224A/zh
Application granted granted Critical
Publication of CN106202224B publication Critical patent/CN106202224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种搜索处理方法及装置,其中,该方法包括:获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,其中,M为大于1的正整数;按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包;将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。

Description

搜索处理方法及装置
技术领域
本申请涉及信息搜索技术领域,尤其涉及一种搜索处理方法及装置。
背景技术
随着深度学习技术的发展,使用一个深度学习模型来计算查询语句(Query)与待排序文档(title)之间的相关性,从而决定搜索引擎的排序结果的方法由于能使排序结果更精准,已逐渐成为当前搜索引擎排序技术当中的主流方法。
但是,由于深度学习技术的计算逻辑通常带有大量的数值计算,如何能够快速的根据用户输入的query,通过需要大量计算的深度学习模型的计算给用户快速的返回搜索的排序结果,成为了当代搜索引擎的一项重要挑战。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种搜索处理方法,该方法实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
本申请的第二个目的在于提出一种搜索处理装置。
为达上述目的,本申请第一方面实施例提出了一种搜索处理方法,包括:获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,其中,M为大于1的正整数;按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包;将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。
本申请实施例的搜索处理方法,首先获取同一时刻的M个查询语句及与M个查询语句分别对应的M个网页标题组,之后按照第一预设的规则,根据M个查询语句及M个网页标题组,确定待运算的数据包;然后再将待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
为达上述目的,本申请第二方面实施例提出了一种搜索处理装置,包括:获取模块,用于获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,其中,M为大于1的正整数;第一确定模块,用于按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包;发送模块,用于将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。
本申请实施例的搜索处理装置,首先获取同一时刻的M个查询语句及与M个查询语句分别对应的M个网页标题组,之后按照第一预设的规则,根据M个查询语句及M个网页标题组,确定待运算的数据包;然后再将待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的搜索处理方法的流程图;
图2为本申请提供的搜索处理方法的原理示意图;
图3是本申请另一个实施例的搜索处理方法的流程图;
图4是本申请一个实施例的搜索处理装置的结构示意图;
图5是本申请另一个实施例的搜索处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的搜索处理方法及装置。
图1是本申请一个实施例的搜索处理方法的流程图。
如图1所示,该搜索处理方法包括:
步骤101,获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组。
其中,M为大于1的正整数。
具体地,本发明实施例提供的搜索处理方法的执行主体为搜索处理装置,该装置可以被配置在具有搜索功能的终端设备中。
其中,终端设备的类型很多,例如:智能手机、平板电脑,计算机等。
通常,当用户在搜索引擎的输入框当中输入一个查询语句(Query)的时候,搜索引擎的服务器会接收到这个Query,对于访问量巨大的搜索引擎来说,会同时(在足够小的时间间隔内)接收到大量的搜索Query,记为Query1,Query2,…,QueryM,服务器即可根据这M个Query,从搜索库中获取对应的查询结果。
其中,查询结果通常包含多条网页信息,每条网页信息包括网页标题(title)、摘要(网页正文的摘要)和网页地址(url)。与每个查询语句对应的查询结果中的标题,即可组成与该查询语句对应的网页标题组。
即上述步骤101,包括:
从接收的查询语句中,选取时间间隔小于预设值的M个查询语句;
根据所述M个查询语句,分别获取与所述M个查询语句对应的M个网页标题集合;
按照第二预设的规则,分别根据所述M个网页标题集合,确定M个网页标题组。
其中,预设的值可以根据搜索引擎的搜索负担确定,比如可以为0.1毫秒(ms)、0.2ms等等,本实施例对此不作限定。
另外,第二预设的规则,可以为倒排索引规则、相关词数量、相关词词性等规则。
具体的,搜索引擎根据查询语句,从搜索库中可能获得数个搜索结果,之后,搜索引擎可对多个搜索结果按照第二预设的规则,进行初步筛选,确定每个查询语句对应的网页标题组。
举例来说,若针对查询语句“北京天气”,从搜索库中,获得了100个搜索结果,而100个搜索结果中,仅有10个搜索结果的网页标题中包括“北京”和“天气”的关键词,之后根据“相关词数量”规则,即可从100个搜索结果中,选择10个搜索结果的网页标题组成与该查询语句对应的网页标题组。
需要说明的是,可以根据需要,为不同的查询语句选择不同数量的网页标题,组成网页标题组。
步骤102,按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包。
步骤103,将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。
具体的,本申请实施例中,将同一时刻的M个查询语句与对应的M个网页标题组,发送给图形处理单元,使图形处理单元可以对M个查询语句与各个网页标题同时进行相似度运算,从而提高了搜索结果排序的速度和准确性。
其中,GPU是一种专门用来处理在个人电脑或游戏机上的图像运算工作的微处理器,与用于复杂计算的CPU不同,GPU最初用途是用于图像渲染和输出,采用单指令流多数据流处理。随着统一计算架构(Compute Unified Device Architecture,简称CUDA)的发展,GPU在并行计算方面显示了极大的优势。目前GPU主要应用于图像处理算法和模式识别算法中。在模式识别算法中的应用主要集中在人脸识别、汉字识别和神经网络这几个部分。
CUDA是基于GPU的软硬件结合的统一计算架构,它将显卡的功能扩展到图像计算以外。CUDA在编程中,习惯称CPU为主机端Host,GPU为设备端Device,线程Thread是并行运算的基本单位,线程块Block是相互合作的一组线程,可以彼此同步,快速交换数据,线程网格Grid包括一组Block,可以共享全局内存,核Kernel为在GPU上执行的程序,一个Kernel对应一个Grid。
本申请中,利用CUDA的并行计算优势,一个thread可以完成一个查询语句与一个网页标题之间的相似度运算,一个block就可以同时完成一个查询语句与一个网页标题组中各个网页标题之间相似度的运算,相应的一个Grid就可以完成M个查询语句与M个网页标题组之间的相似度的运算。
从而,本实施例中,在获取M个查询语句和M个网页标题组后,首先将M个查询语句与M个网页标题组,按照第一预设的规则,归并至一个Grid待计算的数据包中。
举例来说,若第i个查询语句对应的第i个标题组中包括j个标题,其中,i为大于或等于1、且小于M的正整数,j为大于1的正整数,则上述步骤102,包括:
按照查询语句与网页标题的形式,根据所述第i个查询语句及第i个网页标题组,构成j个数据对。
具体的,图2为本申请提供的搜索处理方法的原理示意图。如图2所示,
如图2所示,在搜索处理装置中为核1、核2等分配不同的任务,即一个核完成一个时刻的查询语句与网页标题之间的相似度计算,一个核按照线程网格的概念在设备端执行。每个线程网格包含很多个线程块,每个线程块完成一个查询语句与网页标题组的相似度计算,每个线程块又把任务分配给多个线程,每个线程完成一个查询语句与一个网页标题的相似度的计算,各线程间共享数据,并行工作。
具体的,每个核将粗选出的与查询语句对应的网页标题,以查询语句和网页标题的形式,构成多个数据对,其中,每个数据对中包括一个查询语句和一个与之对应的网页标题,之后在将各个数据对发送给图形处理单元,由图形处理单元中的各个线程分别完成一个数据对的相似度的计算。
可以理解的是,GPU可以利用多种方式,比如深度学习计算模型,确定各个查询语句与网页标题的相似度。举例来说,GPU中的每个线程,可以分别对Query以及Title的分成相加,得到Query对应的词向量Query_EmbSum,和Title对应的词向量Title_EmbSum,然后分别经过全联通矩阵的计算得到变换后的查询语句向量Query_rep和网页标题向量Title_rep,接下来,再采用Cosine函数来计算Query_rep与Title_rep的相似度,作为该查询语句与网页标题的相似度分数。
需要说明的是,本实施例中利用GPU实现多个查询语句与多个网页标题相似度的运算的方法,并非对本方案的实现形式的限制,其它任何可进行并行运算的运算处理装置都可以作为实施例中提供的搜索处理方法的执行主体,比如现场可编程逻辑门阵列(FieldProgrammable Gate Array,简称FPGA),本发明对此不做限定。
本申请实施例的搜索处理方法,首先获取同一时刻的M个查询语句及与M个查询语句分别对应的M个网页标题组,之后按照第一预设的规则,根据M个查询语句及M个网页标题组,确定待运算的数据包;然后再将待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
图3是本申请另一个实施例的搜索处理方法的流程图。
如图3所示,该搜索处理方法可以包括以下步骤:
步骤201,从接收的查询语句中,选取时间间隔小于预设值的M个查询语句。
步骤202,根据所述M个查询语句,分别获取与所述M个查询语句对应的M个网页标题集合。
步骤203,按照第二预设的规则,分别根据所述M个网页标题集合,确定M个网页标题组。
步骤204,按照查询语句与网页标题的形式,根据所述M个查询语句及M个网页标题组,确定待运算的数据包。
具体的,若第第i个查询语句对应的第i个标题组中包括j个标题,则,确定的数据包中,包括的数据对的数量Q为:
Figure BDA0001033786150000061
步骤205,通过远程直接内存访问网络,将所述待运算的数据包发送给图形处理单元。
具体的,本实施例中,采用远程直接内存访问网络(Remote Direct MemoryAccess,简称RDMA)将待运算的数据包发送给GPU,可以保证数据包能够快速的放入GPU显存当中。
步骤206,接收所述图形处理单元返回的运算结果。
步骤207,根据所述运算结果,确定所述M个网页标题组中各网页标题的显示顺序。
具体的,GPU在分别确定了M个查询语句与对应的网页标题组中各网页标题的相似度后,即可将运算结果返回搜索引擎,从而搜索引擎即可根据查询语句与网页标题的相似度值,确定各个网页标题的显示顺序。
举例来说,若与任一查询语句对应的网页标题组中,查询语句与网页标题之间的相似度分别为0.8、0.6、0.7、075、0.68、0.81、0.76,则可根据网页标题与查询语句的相似度由高到低的顺序,确定与该查询语句对应的各个网页标题的显示顺序。
在一种可能的实现形式中,也可以由GPU在确定各查询语句与网页标题之间的相似度后,再根据各相似度将网页标题进行排序,然后再发送给搜索引擎,由搜索引擎根据排序结果直接进行排序显示。
本申请实施例的搜索处理方法,首先,获取时间间隔小于预设值的M个查询语句,然后分别获取与M个查询语句对应的M个网页标题集合,再根据预设的规则,分别从M个网页标题集合中,选择M个网页标题组,然后再根据查询语句与网页标题的形式,将M个查询语句和M个网页标题组,打包成数据包,通过RDMA网络发送给GPU,使GPU对M个查询语句和M个网页标题组进行并行运算,确定M个查询语句和M个网页标题组之间的相似度,进而根据运算结果,确定各个网页标题的显示顺序。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
为了实现上述实施例,本申请还提出一种搜索处理装置。
图4是本申请一个实施例的搜索处理装置的结构示意图。
如图4所示,该搜索处理装置包括:
获取模块41,用于获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,其中,M为大于1的正整数;
第一确定模块42,用于按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包;
发送模块43,用于将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。
具体的,本实施例提供的搜索处理装置,可以被配置在具有搜索功能的终端设备中,用于执行上述实施例的搜索处理方法。
其中,上述获取模块41,具体用于:
从接收的查询语句中,选取时间间隔小于预设值的M个查询语句;
根据所述M个查询语句,分别获取与所述M个查询语句对应的M个网页标题集合;
按照第二预设的规则,分别根据所述M个网页标题集合,确定M个网页标题组。
另外,若第i个查询语句对应的第i个标题组中包括j个标题,其中,i为大于或等于1、且小于M的正整数,j为大于1的正整数;
则第一确定模块42,具体用于:
按照查询语句与网页标题的形式,根据所述第i个查询语句及第i个网页标题组,构成j个数据对。
需要说明的是,前述对搜索处理方法实施例的解释说明也适用于该实施例的搜索处理装置,此处不再赘述。
本申请实施例的搜索处理装置,首先获取同一时刻的M个查询语句及与M个查询语句分别对应的M个网页标题组,之后按照第一预设的规则,根据M个查询语句及M个网页标题组,确定待运算的数据包;然后再将待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
图5是本申请另一个实施例的搜索处理装置的结构示意图。
如图5所示,基于上述实施例,该搜索处理装置,还包括:
接收模块51,用于接收所述图形处理单元返回的运算结果;
第二确定模块52,用于根据所述运算结果,确定所述M个网页标题组中各网页标题的显示顺序。
进一步地,所述发送模块43具体用于:
通过远程直接内存访问网络,将所述待运算的数据包发送给图形处理单元。
需要说明的是,前述对搜索处理方法实施例的解释说明也适用于该实施例的搜索处理装置,此处不再赘述。
本申请实施例的搜索处理装置,首先,获取时间间隔小于预设值的M个查询语句,然后分别获取与M个查询语句对应的M个网页标题集合,再根据预设的规则,分别从M个网页标题集合中,选择M个网页标题组,然后再根据查询语句与网页标题的形式,将M个查询语句和M个网页标题组,打包成数据包,通过RDMA网络发送给GPU,使GPU对M个查询语句和M个网页标题组进行并行运算,确定M个查询语句和M个网页标题组之间的相似度,进而根据运算结果,确定各个网页标题的显示顺序。由此,实现了对同一时刻多个查询语句与网页标题之间相似度的并行计算,从而缩短了搜索结果的处理时间,提高了搜索效率和搜索结果的准确性,提高了用户体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种搜索处理方法,其特征在于,包括以下步骤:
获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,其中,M为大于1的正整数,每个查询语句对应的网页标题组中的标题为每个查询语句对应的查询结果中的标题;
按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包;
将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度;
其中,图形处理单元GPU具有统一计算架构CUDA,图形处理单元GPU的线程网格包括至少一个线程块,每个线程块包括至少一个线程,所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度包括:
一个线程完成一个查询语句与一个网页标题之间的相似度运算,一个线程块同时完成一个查询语句与一个网页标题组中各个网页标题之间相似度的运算,相应的一个线程网格M个查询语句与M个网页标题组之间的相似度的运算;
其中,一个线程完成一个查询语句与一个网页标题之间的相似度运算包括:
针对每个线程:获取查询语句Query对应的词向量Query_EmbSum,以及网页标题Title对应的词向量Title_EmbSum;
对所述词向量Query_EmbSum和所述词向量Title_EmbSum分别经过全联通矩阵的计算得到变换后的查询语句向量Query_rep和网页标题向量Title_rep;
采用Cosine函数来计算Query_rep与Title_rep的相似度,作为查询语句与网页标题的相似度分数。
2.如权利要求1所述的方法,其特征在于,第i个查询语句对应的第i个标题组中包括j个标题,其中,i为大于或等于1、且小于M的正整数,j为大于1的正整数;
所述按照预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包,包括:
按照查询语句与网页标题的形式,根据所述第i个查询语句及第i个网页标题组,构成j个数据对。
3.如权利要求1所述的方法,其特征在于,还包括:
接收所述图形处理单元返回的运算结果;
根据所述运算结果,确定所述M个网页标题组中各网页标题的显示顺序。
4.如权利要求1所述的方法,其特征在于,所述将所述待运算的数据包发送给图形处理单元,包括:
通过远程直接内存访问网络,将所述待运算的数据包发送给图形处理单元。
5.如权利要求1-4任一所述的方法,其特征在于,所述获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,包括:
从接收的查询语句中,选取时间间隔小于预设值的M个查询语句;
根据所述M个查询语句,分别获取与所述M个查询语句对应的M个网页标题集合;
按照第二预设的规则,分别根据所述M个网页标题集合,确定M个网页标题组。
6.一种搜索处理装置,其特征在于,包括:
获取模块,用于获取同一时刻的M个查询语句及与所述M个查询语句分别对应的M个网页标题组,其中,M为大于1的正整数,每个查询语句对应的网页标题组中的标题为每个查询语句对应的查询结果中的标题;
第一确定模块,用于按照第一预设的规则,根据所述M个查询语句及M个网页标题组,确定待运算的数据包;
发送模块,用于将所述待运算的数据包发送给图形处理单元,以使所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度;
其中,图形处理单元GPU具有统一计算架构CUDA,图形处理单元GPU的线程网格包括至少一个线程块,每个线程块包括至少一个线程,所述图形处理单元对所述待运算数据包进行运算处理,确定所述M个网页标题组中各网页标题与M个查询语句的相似度包括:
一个线程完成一个查询语句与一个网页标题之间的相似度运算,一个线程块同时完成一个查询语句与一个网页标题组中各个网页标题之间相似度的运算,相应的一个线程网格M个查询语句与M个网页标题组之间的相似度的运算;
其中,一个线程完成一个查询语句与一个网页标题之间的相似度运算包括:
针对每个线程:获取查询语句Query对应的词向量Query_EmbSum,以及网页标题Title对应的词向量Title_EmbSum;
对所述词向量Query_EmbSum和所述词向量Title_EmbSum分别经过全联通矩阵的计算得到变换后的查询语句向量Query_rep和网页标题向量Title_rep;
采用Cosine函数来计算Query_rep与Title_rep的相似度,作为查询语句与网页标题的相似度分数。
7.如权利要求6所述的装置,其特征在于,第i个查询语句对应的第i个标题组中包括j个标题,其中,i为大于或等于1、且小于M的正整数,j为大于1的正整数;
所述第一确定模块,具体用于:
按照查询语句与网页标题的形式,根据所述第i个查询语句及第i个网页标题组,构成j个数据对。
8.如权利要求6所述的装置,其特征在于,还包括:
接收模块,用于接收所述图形处理单元返回的运算结果;
第二确定模块,用于根据所述运算结果,确定所述M个网页标题组中各网页标题的显示顺序。
9.如权利要求6所述的装置,其特征在于,所述发送模块,具体用于:
通过远程直接内存访问网络,将所述待运算的数据包发送给图形处理单元。
10.如权利要求6-9任一所述的装置,其特征在于,所述获取模块,具体用于:
从接收的查询语句中,选取时间间隔小于预设值的M个查询语句;
根据所述M个查询语句,分别获取与所述M个查询语句对应的M个网页标题集合;
按照第二预设的规则,分别根据所述M个网页标题集合,确定M个网页标题组。
CN201610491571.9A 2016-06-29 2016-06-29 搜索处理方法及装置 Active CN106202224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610491571.9A CN106202224B (zh) 2016-06-29 2016-06-29 搜索处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610491571.9A CN106202224B (zh) 2016-06-29 2016-06-29 搜索处理方法及装置

Publications (2)

Publication Number Publication Date
CN106202224A CN106202224A (zh) 2016-12-07
CN106202224B true CN106202224B (zh) 2022-01-07

Family

ID=57461088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610491571.9A Active CN106202224B (zh) 2016-06-29 2016-06-29 搜索处理方法及装置

Country Status (1)

Country Link
CN (1) CN106202224B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609106B (zh) * 2017-09-12 2020-10-30 马上消费金融股份有限公司 一种相似文章查找方法、装置、设备及存储介质
CN111768215B (zh) * 2019-04-01 2023-08-11 百度在线网络技术(北京)有限公司 广告投放方法、装置、计算机设备和存储介质
CN110430444B (zh) * 2019-08-12 2022-06-07 中科寒武纪科技股份有限公司 一种视频流处理方法及系统
CN111078893A (zh) * 2019-12-11 2020-04-28 竹间智能科技(上海)有限公司 一种大规模高效获取识别对话意图用语料的方法
CN111061853B (zh) * 2019-12-26 2024-01-12 竹间智能科技(上海)有限公司 一种快速获取faq模型训练语料的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2716266A1 (en) * 2009-10-01 2011-04-01 Crim (Centre De Recherche Informatique De Montreal) Content based audio copy detection
CN102547289A (zh) * 2012-01-17 2012-07-04 西安电子科技大学 基于gpu并行实现的快速运动估计方法
CN103177414A (zh) * 2013-03-27 2013-06-26 天津大学 一种基于结构的图节点相似度并行计算方法
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200979A (zh) * 2010-03-26 2011-09-28 上海市浦东科技信息中心 一种分布式并行信息检索系统及其方法
US9747413B2 (en) * 2010-07-20 2017-08-29 King Abdullah University Of Science And Technology Adaptive processing for sequence alignment
CN102479207B (zh) * 2010-11-29 2013-07-03 阿里巴巴集团控股有限公司 一种信息搜索的方法、系统及信息搜索设备
CN103235835B (zh) * 2013-05-22 2017-03-29 曙光信息产业(北京)有限公司 用于数据库集群的查询实现方法和装置
CN103324698A (zh) * 2013-06-08 2013-09-25 北京航空航天大学 一种基于数据级并行gpu加速的大规模哼唱旋律匹配系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2716266A1 (en) * 2009-10-01 2011-04-01 Crim (Centre De Recherche Informatique De Montreal) Content based audio copy detection
CN102547289A (zh) * 2012-01-17 2012-07-04 西安电子科技大学 基于gpu并行实现的快速运动估计方法
CN103177414A (zh) * 2013-03-27 2013-06-26 天津大学 一种基于结构的图节点相似度并行计算方法
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Approximate similarity search for online multimedia services on distributed CPU-GPU platforms;George Teodoro等;《The VLDB Journal》;20130727;427-448 *
互联网热点搜索与追踪的研究和实现;张维楚等;《广播与电视技术》;20150615;第42卷(第S1期);27-29 *
面向水利信息资源目录服务的分布式语义检索方法研究;冯钧等;《计算机与现代化》;20150309(第2期);122-126 *

Also Published As

Publication number Publication date
CN106202224A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202224B (zh) 搜索处理方法及装置
US10579654B2 (en) Method and device for generating online question paths from existing question banks using a knowledge graph
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN111709533A (zh) 机器学习模型的分布式训练方法、装置以及计算机设备
TW201942826A (zh) 支付方式推薦方法、裝置及設備
CN111984400B (zh) 神经网络的内存分配方法及装置
CN107209853A (zh) 定位和地图构建方法
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN112800095A (zh) 一种数据处理方法、装置、设备及存储介质
CN111563192A (zh) 实体对齐方法、装置、电子设备及存储介质
CN103838626A (zh) 一种处理串行任务的数据处理装置及方法
CN113806487A (zh) 基于神经网络的语义搜索方法、装置、设备和存储介质
CN103699573A (zh) 社交平台的ugc标签聚类方法和装置
CN103383772A (zh) 用于实施图形着色的系统、方法以及计算机程序产品
EP3104335A1 (en) Analysis model creation assistance system, analysis model creation assistance device and analysis model creation assistance program
CN111645687A (zh) 变道策略确定方法、装置及存储介质
CN104572588A (zh) 矩阵求逆处理方法和装置
KR20190013907A (ko) 정보 처리 시스템 및 방법, 및 프로그램
EP4357924A1 (en) Application performance testing method, method and apparatus for establishing performance testing model
WO2022262632A1 (zh) 网页搜索方法、装置及存储介质
CN113792170B (zh) 图数据划分方法、装置和计算机设备
CN112100446B (zh) 搜索方法、可读存储介质和电子设备
EP4182850A1 (en) Hardware-optimized neural architecture search
CN110309367B (zh) 信息分类的方法、信息处理的方法和装置
CN116187464B (zh) 盲量子计算处理方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant