CN105975639A - 搜索结果排序方法和装置 - Google Patents

搜索结果排序方法和装置 Download PDF

Info

Publication number
CN105975639A
CN105975639A CN201610518052.7A CN201610518052A CN105975639A CN 105975639 A CN105975639 A CN 105975639A CN 201610518052 A CN201610518052 A CN 201610518052A CN 105975639 A CN105975639 A CN 105975639A
Authority
CN
China
Prior art keywords
webpage
vector
web page
searching request
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610518052.7A
Other languages
English (en)
Other versions
CN105975639B (zh
Inventor
尹维冲
孙宇
魏轶彬
李昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610518052.7A priority Critical patent/CN105975639B/zh
Publication of CN105975639A publication Critical patent/CN105975639A/zh
Application granted granted Critical
Publication of CN105975639B publication Critical patent/CN105975639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种搜索结果排序方法和装置,其中,该搜索结果排序方法包括:根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;采用预先训练的深度神经网络模型获取搜索请求的第二表示向量;根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度;根据每个网页与搜索请求的匹配度确定搜索结果展示顺序。本发明的搜索结果排序方法,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。

Description

搜索结果排序方法和装置
技术领域
本发明涉及互联网技术领域,特别涉及一种搜索结果排序方法和装置。
背景技术
随着信息和网络技术的不断发展,搜索引擎已经成为人们获取信息的重要途径。用户通过在搜索引擎中输入搜索词(query),获取搜索引擎针对该搜索词返回的搜索结果,其中,搜索结果中包含与搜索词有关的各种各样的网页,例如,与搜索词有关的新闻网页、知道网页、百科网页、博客网页等。为了能够为用户提供准确的搜索结果,通常搜索引擎会根据一系列的评分策略和排序算法对搜索结果进行排序。
近年来,随着深度学习技术的发展,出现了利用深层神经网络技术来学习文本的表示,将搜索词和网页标题表示成向量,向量之间的相似度则代表了搜索词和搜索结果之间的匹配程度,即排序的分数,从而可以使用这个打分作为搜索结果条目排序的依据。其中,网页的标题包括标签标题和网页正文内容的标题(网页正文标题),虽然网页正文标题是对网页内容的描述,更客观的刻画整个网页,而这种正文标题的覆盖率不高。标签标题由网站的作者描述,对于用户来说是不可见的,存在与网页内容不符的情况,因此,通过这种方法所获得的排序分数准确度也不高,进而使得结果排序不够准确。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种搜索结果排序方法,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
本发明的第二个目的在于提出一种搜索结果排序装置。
为达上述目的,根据本发明第一方面实施例提出了一种搜索结果排序方法,包括以下步骤:根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序。
本发明实施例的搜索结果排序方法,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
本发明第二方面实施例提出了一种搜索结果排序装置,包括:处理模块,用于根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;第一获取模块,用于根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;第二获取模块,用于采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;第三获取模块,用于根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;确定模块,用于根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序。
本发明实施例的搜索结果排序装置,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的搜索结果排序方法的流程图;
图2为根据本发明一个实施例的根据每个网页的分层表示结果获取每个网页的第一表示向量的细化流程图;
图3为根据网页的第一表示向量和搜索请求的第二表示向量计算网页和搜索请求的匹配度的具体图例;
图4为根据本发明一个实施例的搜索结果排序装置的结构示意图;
图5为根据本发明另一个实施例的搜索结果排序的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的搜索结果排序方法和装置。
图1为根据本发明一个实施例的搜索结果排序方法的流程图。
如图1所示,根据本发明实施例的搜索结果排序方法,包括以下步骤。
S11,根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示。
具体地,在用户通过搜索引擎进行搜索时,搜索引擎可提供搜索入口,并通过搜索入口接收用户输入的包括搜索词的搜索请求。
其中,搜索词(即query)可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
搜索引擎在接收到搜索请求后,获取与搜索请求中的搜索词有关的多个网页,并将所获得的每个网页通过预先训练的深度神经网络模型将每个网页的全部信息进行分层表示。
其中,网页的全部信息可以包括但不限于网页标题信息、网页内容信息、链接到当前网页的锚文本、网页历史点击数据和网页的统一资源定位符URL(Uniform Resource Locator)。
其中,网页标题信息可以包括标签标题(Tagtitle)、网页正文标题(Realtitle)和主标题(Maintitle)。
其中,标签标题由网页的作者描述,保存在网页的HTML代码。在需要标签标题时,可从网页的HTML代码中提取到。
其中,网页正文标题是对网页内容的描述,可通过现有的网页解析技术准确获取到。
其中,主标题是根据标签标题和网页正文标题所聚合生成的网页信息。
其中,网页历史点击数据包括网页历史点击搜索词集合,关联查询词的相关,是否尾点击、满意点击等。
其中,网页历史点击搜索词集合是指用户点击网页时,曾经所使用的搜索词集合。
例如,对于网页1,假设用户曾经用搜索词1进行搜索,并点击过该网页1,曾经用搜索词2进行搜索,并点击过该网页1,此时,该网页1对应的网页历史点击搜索词集合包括搜索词1和搜索词2。
其中,需要说明的是,该实施例中的深度神经网络模型是利用深度神经网络算法对大量训练搜索词和与训练搜索词有关的网页的全部信息进行训练建立的。
在本发明的一个实施例中,为了提高对每个网页的全部信息进行分层表示的效率,在根据搜索请求获取到多个网页后,可将网页的全部信息输入值预先训练的深度神经网络模型,预先训练的深度神经网络模型根据由下至上的分层表示结构对网页进行分层表示。
其中,每个网页的全部信息由下至上的分层表示结构包括:
第一层包括:网页标题信息。
第二层包括:网页内容信息。
第三层包括:链接到当前网页的锚文本。
第四层包括:网页历史点击数据。
也就是说,该实施例在获取到与搜索请求对应的网页后,利用预先训练的深度神经网络模型对整个网页的全部信息进行分析,并通过一个统一的分层架构将网页进行分层表示出来,由此,以提高后续获取每个网页的表示向量的效率。
其中,需要说明的是,该实施例中的深度神经网络模型在对网页进行分析时,通过统一的分层框架对网页进行分析,因此,相对于通过人工总结不同种类的情况(例如,总结badcase和goodcase是由哪些特征值发生变化造成的)来调节网页各个域信息(如标签标题、锚文本等)的权重,从而加权得到最终网页的打分的方式来说,该实施例对任何一个网页均可以进行分析,可避免由于网页的某些域信息未曾出现过而不能对网页进行打分情况的发生。
S12,根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量。
在本发明的一个实施例中,根据每个网页的分层表示结果获取每个网页的第一表示向量的过程,如图2所示,可以包括以下步骤:
S21,在根据每个网页的分层表示结果,从第一层提取网页标题信息的第一特征向量。
S22,从第二层提取网页内容信息的第二特征向量,并将第二特征向量与第一特征向量进行融合生成第一融合特征向量。
S23,从第三层提取链接到当前网页的锚文本的第三特征向量,并将第三特征向量与第一融合特征向量进行融合生成第二融合特征向量。
S24,从第四层提取网页历史点击数据的第四特征向量,并将第四特征向量与第二融合特征向量进行融合获取每个网页的第一表示向量。
也就是说,该实施例在利用预先训练的深度神经网络模型对整个网页的全部信息进行分析,并通过一个统一的分层架构将网页进行分层表示出来后,通过由下至上对各个层提取特征,并进行融合,逐步融合了网页各个域的信息,加强了多个域之间的补充作用,所生成的第一表示向量中融合了网页的各个域的信息,可以准确表示整个网页的特征。
其中,需要理解的是,在将网页的各个域的信息进行融合的过程中,先对网页的各个域中的文本信息进行切词处理(例如,可通过使用NLP(Natural Language Processing,自然语言处理)的分词技术对文本信息进行切词处理),并将切词之后的各个域的信息表示为特征向量,并按照由下至上逐层融合网页中各个域的信息融合,以生成网页的第一表示向量,由此,可以提高后续计算网页和搜索请求的匹配度的准确度。
S13,采用预先训练的深度神经网络模型获取搜索请求的第二表示向量。
在本发明的一个实施例中,为了可以准确获取搜索请求与网页的匹配度,可先对搜索请求进行切词处理,并采用预先训练的深度神经网络模型对切词结果进行序列转换生成第二表示向量。
具体地,可使用NLP(Natural Language Processing,自然语言处理)的分词技术对搜索词进行切词,然后,对切词结果进行序列转换生成第二表示向量。
其中,对切词结果进行序列转换生成第二表示向量的方式有多种,举例说明如下:
作为一种示例,可通过卷积算法对切词结果进行序列转换以生成搜索请求对应的第二表示向量。
作为另一种示例,可通过BOW模型(Bag Of Words,词袋模型)对切词结果进行序列转换以生成搜索请求对应的第二表示向量。
其中,需要说明的是,上述卷积算法和BOW算法仅是切词结果进行序列转换生成第二表示向量的示例,还可以通过其他算法对对切词结果进行序列转换生成第二表示向量,该实施例对切词结果进行序列转换生成第二表示向量的方式不作限定。
其中,需要说明的是,通过对查询词切词处理,可使得即使对于未出现过的查询词,由于查询词中的切词之后片段在训练集中出现过,深度神经网络模型能合理的泛化到这些查询词,进而在后续处理过程中可准确提供搜索结果排序结果。
S14,根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度。
其中,对网页的各个层提取特征,并进行融合,以及根据网页的第一表示向量和搜索请求的第二表示向量计算网页和搜索请求的匹配度的过程,如图3所示。
在本发明的一个实施例中,为了更加准确地计算出每个网页与搜索请的匹配度,在获取到第一表示向量和第二表示向量后,可使用单个全连接层(隐层)分别对第一表示向量和第二表示向量进行变换,获取第一处理向量和第二处理向量,并对第一处理向量和第二处理向量计算内积,获取每个网页与搜索请求的匹配度。
S15,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序。
综上可以看出,本发明实施例的搜索结果排序方法,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
为了实现上述实施例,本发明还提出一种搜索结果排序装置。
图4为根据本发明一个实施例的搜索结果排序装置的结构示意图。
如图4所示,根据本发明实施例的搜索结果排序装置,包括:处理模块110、第一获取模块120、第二获取模块130、第三获取模块140和确定模块150,其中:
处理模块110用于根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示。
其中,搜索请求中包括搜索词。
其中,搜索词(即query)可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
其中,网页的全部信息可以包括但不限于网页标题信息、网页内容信息、链接到当前网页的锚文本、网页历史点击数据和网页的统一资源定位符URL(Uniform Resource Locator)。
其中,网页标题信息可以包括标签标题(Tagtitle)、网页正文标题(Realtitle)和主标题(Maintitle)。
其中,标签标题由网页的作者描述,保存在网页的HTML代码。在需要标签标题时,可从网页的HTML代码中提取到。
其中,网页正文标题是对网页内容的描述,可通过现有的网页解析技术准确获取到。
其中,主标题是根据标签标题和网页正文标题所聚合生成的网页信息。
其中,网页历史点击数据包括网页历史点击搜索词集合,关联查询词的相关,是否尾点击、满意点击等。
其中,网页历史点击搜索词集合是指用户点击网页时,曾经所使用的搜索词集合。
在本发明的一个实施例中,处理模块110具体用于可采用预先训练的深度神经网络模型将每个网页的全部信息由下至上的分层表示结构,
其中,分层表示结构包括:
第一层包括:网页标题信息。
第二层包括:网页内容信息。
第三层包括:链接到当前网页的锚文本。
第四层包括:网页历史点击数据。
第一获取模块120用于根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量。
第二获取模块130用于采用预先训练的深度神经网络模型获取搜索请求的第二表示向量。
第三获取模块140用于根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度。
确定模块150用于根据每个网页与搜索请求的匹配度确定搜索结果展示顺序。
在本发明的一个实施例中,基于上述图4所示的基础上,如图5所示,第一获取模块120可以包括:
提取单元121用于根据每个网页的分层表示结果,从第一层提取网页标题信息的第一特征向量。
第一融合单元122用于从第二层提取网页内容信息的第二特征向量,并将第二特征向量与第一特征向量进行融合生成第一融合特征向量。
第二融合单元123用于从第三层提取链接到当前网页的锚文本的第三特征向量,并将第三特征向量与第一融合特征向量进行融合生成第二融合特征向量。
第三融合单元124用于从第四层提取网页历史点击数据的第四特征向量,并将第四特征向量与第二融合特征向量进行融合获取每个网页的第一表示向量。
在本发明的一个实施例中,为了可准确获取网页与搜索请求之间的匹配度,第二获取模块130具体用于:
对搜索请求进行切词处理,并采用预先训练的深度神经网络模型对切词结果进行序列转换生成第二表示向量。
在本发明的一个实施例中,为了准确计算出每个网页与搜索请求的匹配度,第三获取模块140具体用于:
使用单个全连接层分别对第一表示向量和第二表示向量进行变换,获取第一处理向量和第二处理向量,并对第一处理向量和第二处理向量计算内积,获取每个网页与搜索请求的匹配度。
其中,需要说明的是,前述对搜索结果排序方法的解释说明也适用于该实施例的搜索结果排序装置,此处不再赘述。
本发明实施例的搜索结果排序装置,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种搜索结果排序方法,其特征在于,包括以下步骤:
根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;
根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;
采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;
根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;
根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序。
2.如权利要求1所述的方法,其特征在于,所述采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示,包括:
采用预先训练的深度神经网络模型将每个网页的全部信息由下至上的分层表示结构包括:
第一层包括:网页标题信息;
第二层包括:网页内容信息;
第三层包括:链接到当前网页的锚文本;
第四层包括:网页历史点击数据。
3.如权利要求2所述的方法,其特征在于,所述根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量,包括:
根据每个网页的分层表示结果,从所述第一层提取所述网页标题信息的第一特征向量;
从所述第二层提取所述网页内容信息的第二特征向量,并将所述第二特征向量与所述第一特征向量进行融合生成第一融合特征向量;
从所述第三层提取所述链接到当前网页的锚文本的第三特征向量,并将所述第三特征向量与所述第一融合特征向量进行融合生成第二融合特征向量;
从所述第四层提取所述网页历史点击数据的第四特征向量,并将所述第四特征向量与所述第二融合特征向量进行融合获取每个网页的第一表示向量。
4.如权利要求1所述的方法,其特征在于,所述采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量,包括:
对所述搜索请求进行切词处理;
采用预先训练的深度神经网络模型对所述切词结果进行序列转换生成所述第二表示向量。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度,包括:
使用单个全连接层分别对所述第一表示向量和所述第二表示向量进行变换,获取第一处理向量和第二处理向量;
对所述第一处理向量和所述第二处理向量计算内积,获取每个网页与所述搜索请求的匹配度。
6.一种搜索结果排序装置,其特征在于,包括:
处理模块,用于根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;
第一获取模块,用于根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;
第二获取模块,用于采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;
第三获取模块,用于根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;
确定模块,用于根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序。
7.如权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
采用预先训练的深度神经网络模型将每个网页的全部信息由下至上的分层表示结构包括:
第一层包括:网页标题信息;
第二层包括:网页内容信息;
第三层包括:链接到当前网页的锚文本;
第四层包括:网页历史点击数据。
8.如权利要求6所述的装置,其特征在于,所述第一获取模块,包括:
提取单元,用于根据每个网页的分层表示结果,从所述第一层提取所述网页标题信息的第一特征向量;
第一融合单元,用于从所述第二层提取所述网页内容信息的第二特征向量,并将所述第二特征向量与所述第一特征向量进行融合生成第一融合特征向量;
第二融合单元,用于从所述第三层提取所述链接到当前网页的锚文本的第三特征向量,并将所述第三特征向量与所述第一融合特征向量进行融合生成第二融合特征向量;
第三融合单元,用于从所述第四层提取所述网页历史点击数据的第四特征向量,并将所述第四特征向量与所述第二融合特征向量进行融合获取每个网页的第一表示向量。
9.如权利要求6所述的装置,其特征在于,所述第二获取模块,具体用于:
对所述搜索请求进行切词处理,并采用预先训练的深度神经网络模型对所述切词结果进行序列转换生成所述第二表示向量。
10.如权利要求6所述的装置,其特征在于,所述第三获取模块,具体用于:
使用单个全连接层分别对所述第一表示向量和所述第二表示向量进行变换,获取第一处理向量和第二处理向量,并对所述第一处理向量和所述第二处理向量计算内积,获取每个网页与所述搜索请求的匹配度。
CN201610518052.7A 2016-07-04 2016-07-04 搜索结果排序方法和装置 Active CN105975639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610518052.7A CN105975639B (zh) 2016-07-04 2016-07-04 搜索结果排序方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610518052.7A CN105975639B (zh) 2016-07-04 2016-07-04 搜索结果排序方法和装置

Publications (2)

Publication Number Publication Date
CN105975639A true CN105975639A (zh) 2016-09-28
CN105975639B CN105975639B (zh) 2019-12-06

Family

ID=56954874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610518052.7A Active CN105975639B (zh) 2016-07-04 2016-07-04 搜索结果排序方法和装置

Country Status (1)

Country Link
CN (1) CN105975639B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547871A (zh) * 2016-10-31 2017-03-29 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
CN108205532A (zh) * 2016-12-16 2018-06-26 百度在线网络技术(北京)有限公司 生成网页的方法和装置
CN108268466A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于神经网络模型的网页排序方法和装置
CN109543836A (zh) * 2018-11-30 2019-03-29 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN110909245A (zh) * 2019-11-29 2020-03-24 北京函子科技有限公司 一种多标签的网页查找方法、浏览器、服务器及存储介质
CN112989232A (zh) * 2019-12-17 2021-06-18 北京搜狗科技发展有限公司 一种搜索结果排序方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1691019A (zh) * 2004-04-15 2005-11-02 微软公司 检验关键字和Web站点内容之间的相关性
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
US20110238662A1 (en) * 1999-04-15 2011-09-29 Hoshiko Limited Liability Company Method and system for searching a wide area network
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110238662A1 (en) * 1999-04-15 2011-09-29 Hoshiko Limited Liability Company Method and system for searching a wide area network
CN1691019A (zh) * 2004-04-15 2005-11-02 微软公司 检验关键字和Web站点内容之间的相关性
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547871A (zh) * 2016-10-31 2017-03-29 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN106547871B (zh) * 2016-10-31 2020-04-07 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置
CN108205532A (zh) * 2016-12-16 2018-06-26 百度在线网络技术(北京)有限公司 生成网页的方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
US10831769B2 (en) 2016-12-27 2020-11-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device for asking type query based on deep question and answer
CN108268466A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于神经网络模型的网页排序方法和装置
CN108268466B (zh) * 2016-12-30 2020-11-06 广东精点数据科技股份有限公司 一种基于神经网络模型的网页排序方法和装置
CN109543836A (zh) * 2018-11-30 2019-03-29 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN109543836B (zh) * 2018-11-30 2021-08-03 上海寒武纪信息科技有限公司 运算方法、装置及相关产品
CN110909245A (zh) * 2019-11-29 2020-03-24 北京函子科技有限公司 一种多标签的网页查找方法、浏览器、服务器及存储介质
CN112989232A (zh) * 2019-12-17 2021-06-18 北京搜狗科技发展有限公司 一种搜索结果排序方法及装置

Also Published As

Publication number Publication date
CN105975639B (zh) 2019-12-06

Similar Documents

Publication Publication Date Title
CN105975639A (zh) 搜索结果排序方法和装置
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN103514299B (zh) 信息搜索方法和装置
CN102262634B (zh) 一种自动问答方法及系统
Obaidat et al. Enhancing the determination of aspect categories and their polarities in arabic reviews using lexicon-based approaches
CN106649760A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN108829822A (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106682194A (zh) 基于深度问答的答案定位方法及装置
US20200372025A1 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN105095444A (zh) 信息获取方法和装置
JP7150842B2 (ja) 文書構造抽出に基づいた多言語文書の検索
CN103544176A (zh) 用于生成多个页面所对应的页面结构模板的方法和设备
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN103886020B (zh) 一种房地产信息快速搜索方法
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN110222654A (zh) 文本分割方法、装置、设备及存储介质
EP3862891A2 (en) Method and apparatus for retrieving multi-turn dialogue, storage medium, and electronic device
CN111400478A (zh) 一种基于词嵌入匹配技术的知识图谱问答方法及装置
Shekhawat Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN113269477B (zh) 一种科研项目查询评分模型训练方法、查询方法及装置
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN110516162A (zh) 一种信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant