CN105975639B - 搜索结果排序方法和装置 - Google Patents
搜索结果排序方法和装置 Download PDFInfo
- Publication number
- CN105975639B CN105975639B CN201610518052.7A CN201610518052A CN105975639B CN 105975639 B CN105975639 B CN 105975639B CN 201610518052 A CN201610518052 A CN 201610518052A CN 105975639 B CN105975639 B CN 105975639B
- Authority
- CN
- China
- Prior art keywords
- webpage
- vector
- web page
- layer
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提出一种搜索结果排序方法和装置,其中,该搜索结果排序方法包括:根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;采用预先训练的深度神经网络模型获取搜索请求的第二表示向量;根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度;根据每个网页与搜索请求的匹配度确定搜索结果展示顺序。本发明的搜索结果排序方法,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种搜索结果排序方法和装置。
背景技术
随着信息和网络技术的不断发展,搜索引擎已经成为人们获取信息的重要途径。用户通过在搜索引擎中输入搜索词(query),获取搜索引擎针对该搜索词返回的搜索结果,其中,搜索结果中包含与搜索词有关的各种各样的网页,例如,与搜索词有关的新闻网页、知道网页、百科网页、博客网页等。为了能够为用户提供准确的搜索结果,通常搜索引擎会根据一系列的评分策略和排序算法对搜索结果进行排序。
近年来,随着深度学习技术的发展,出现了利用深层神经网络技术来学习文本的表示,将搜索词和网页标题表示成向量,向量之间的相似度则代表了搜索词和搜索结果之间的匹配程度,即排序的分数,从而可以使用这个打分作为搜索结果条目排序的依据。其中,网页的标题包括标签标题和网页正文内容的标题(网页正文标题),虽然网页正文标题是对网页内容的描述,更客观的刻画整个网页,而这种正文标题的覆盖率不高。标签标题由网站的作者描述,对于用户来说是不可见的,存在与网页内容不符的情况,因此,通过这种方法所获得的排序分数准确度也不高,进而使得结果排序不够准确。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种搜索结果排序方法,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
本发明的第二个目的在于提出一种搜索结果排序装置。
为达上述目的,根据本发明第一方面实施例提出了一种搜索结果排序方法,包括以下步骤:根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序。
本发明实施例的搜索结果排序方法,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
本发明第二方面实施例提出了一种搜索结果排序装置,包括:处理模块,用于根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;第一获取模块,用于根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;第二获取模块,用于采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;第三获取模块,用于根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;确定模块,用于根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序。
本发明实施例的搜索结果排序装置,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的搜索结果排序方法的流程图;
图2为根据本发明一个实施例的根据每个网页的分层表示结果获取每个网页的第一表示向量的细化流程图;
图3为根据网页的第一表示向量和搜索请求的第二表示向量计算网页和搜索请求的匹配度的具体图例;
图4为根据本发明一个实施例的搜索结果排序装置的结构示意图;
图5为根据本发明另一个实施例的搜索结果排序的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的搜索结果排序方法和装置。
图1为根据本发明一个实施例的搜索结果排序方法的流程图。
如图1所示,根据本发明实施例的搜索结果排序方法,包括以下步骤。
S11,根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示。
具体地,在用户通过搜索引擎进行搜索时,搜索引擎可提供搜索入口,并通过搜索入口接收用户输入的包括搜索词的搜索请求。
其中,搜索词(即query)可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
搜索引擎在接收到搜索请求后,获取与搜索请求中的搜索词有关的多个网页,并将所获得的每个网页通过预先训练的深度神经网络模型将每个网页的全部信息进行分层表示。
其中,网页的全部信息可以包括但不限于网页标题信息、网页内容信息、链接到当前网页的锚文本、网页历史点击数据和网页的统一资源定位符URL(Uniform ResourceLocator)。
其中,网页标题信息可以包括标签标题(Tagtitle)、网页正文标题(Realtitle)和主标题(Maintitle)。
其中,标签标题由网页的作者描述,保存在网页的HTML代码。在需要标签标题时,可从网页的HTML代码中提取到。
其中,网页正文标题是对网页内容的描述,可通过现有的网页解析技术准确获取到。
其中,主标题是根据标签标题和网页正文标题所聚合生成的网页信息。
其中,网页历史点击数据包括网页历史点击搜索词集合,关联查询词的相关,是否尾点击、满意点击等。
其中,网页历史点击搜索词集合是指用户点击网页时,曾经所使用的搜索词集合。
例如,对于网页1,假设用户曾经用搜索词1进行搜索,并点击过该网页1,曾经用搜索词2进行搜索,并点击过该网页1,此时,该网页1对应的网页历史点击搜索词集合包括搜索词1和搜索词2。
其中,需要说明的是,该实施例中的深度神经网络模型是利用深度神经网络算法对大量训练搜索词和与训练搜索词有关的网页的全部信息进行训练建立的。
在本发明的一个实施例中,为了提高对每个网页的全部信息进行分层表示的效率,在根据搜索请求获取到多个网页后,可将网页的全部信息输入值预先训练的深度神经网络模型,预先训练的深度神经网络模型根据由下至上的分层表示结构对网页进行分层表示。
其中,每个网页的全部信息由下至上的分层表示结构包括:
第一层包括:网页标题信息。
第二层包括:网页内容信息。
第三层包括:链接到当前网页的锚文本。
第四层包括:网页历史点击数据。
也就是说,该实施例在获取到与搜索请求对应的网页后,利用预先训练的深度神经网络模型对整个网页的全部信息进行分析,并通过一个统一的分层架构将网页进行分层表示出来,由此,以提高后续获取每个网页的表示向量的效率。
其中,需要说明的是,该实施例中的深度神经网络模型在对网页进行分析时,通过统一的分层框架对网页进行分析,因此,相对于通过人工总结不同种类的情况(例如,总结badcase和goodcase是由哪些特征值发生变化造成的)来调节网页各个域信息(如标签标题、锚文本等)的权重,从而加权得到最终网页的打分的方式来说,该实施例对任何一个网页均可以进行分析,可避免由于网页的某些域信息未曾出现过而不能对网页进行打分情况的发生。
S12,根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量。
在本发明的一个实施例中,根据每个网页的分层表示结果获取每个网页的第一表示向量的过程,如图2所示,可以包括以下步骤:
S21,在根据每个网页的分层表示结果,从第一层提取网页标题信息的第一特征向量。
S22,从第二层提取网页内容信息的第二特征向量,并将第二特征向量与第一特征向量进行融合生成第一融合特征向量。
S23,从第三层提取链接到当前网页的锚文本的第三特征向量,并将第三特征向量与第一融合特征向量进行融合生成第二融合特征向量。
S24,从第四层提取网页历史点击数据的第四特征向量,并将第四特征向量与第二融合特征向量进行融合获取每个网页的第一表示向量。
也就是说,该实施例在利用预先训练的深度神经网络模型对整个网页的全部信息进行分析,并通过一个统一的分层架构将网页进行分层表示出来后,通过由下至上对各个层提取特征,并进行融合,逐步融合了网页各个域的信息,加强了多个域之间的补充作用,所生成的第一表示向量中融合了网页的各个域的信息,可以准确表示整个网页的特征。
其中,需要理解的是,在将网页的各个域的信息进行融合的过程中,先对网页的各个域中的文本信息进行切词处理(例如,可通过使用NLP(Natural Language Processing,自然语言处理)的分词技术对文本信息进行切词处理),并将切词之后的各个域的信息表示为特征向量,并按照由下至上逐层融合网页中各个域的信息融合,以生成网页的第一表示向量,由此,可以提高后续计算网页和搜索请求的匹配度的准确度。
S13,采用预先训练的深度神经网络模型获取搜索请求的第二表示向量。
在本发明的一个实施例中,为了可以准确获取搜索请求与网页的匹配度,可先对搜索请求进行切词处理,并采用预先训练的深度神经网络模型对切词结果进行序列转换生成第二表示向量。
具体地,可使用NLP(Natural Language Processing,自然语言处理)的分词技术对搜索词进行切词,然后,对切词结果进行序列转换生成第二表示向量。
其中,对切词结果进行序列转换生成第二表示向量的方式有多种,举例说明如下:
作为一种示例,可通过卷积算法对切词结果进行序列转换以生成搜索请求对应的第二表示向量。
作为另一种示例,可通过BOW模型(Bag Of Words,词袋模型)对切词结果进行序列转换以生成搜索请求对应的第二表示向量。
其中,需要说明的是,上述卷积算法和BOW算法仅是切词结果进行序列转换生成第二表示向量的示例,还可以通过其他算法对对切词结果进行序列转换生成第二表示向量,该实施例对切词结果进行序列转换生成第二表示向量的方式不作限定。
其中,需要说明的是,通过对查询词切词处理,可使得即使对于未出现过的查询词,由于查询词中的切词之后片段在训练集中出现过,深度神经网络模型能合理的泛化到这些查询词,进而在后续处理过程中可准确提供搜索结果排序结果。
S14,根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度。
其中,对网页的各个层提取特征,并进行融合,以及根据网页的第一表示向量和搜索请求的第二表示向量计算网页和搜索请求的匹配度的过程,如图3所示。
在本发明的一个实施例中,为了更加准确地计算出每个网页与搜索请的匹配度,在获取到第一表示向量和第二表示向量后,可使用单个全连接层(隐层)分别对第一表示向量和第二表示向量进行变换,获取第一处理向量和第二处理向量,并对第一处理向量和第二处理向量计算内积,获取每个网页与搜索请求的匹配度。
S15,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序。
综上可以看出,本发明实施例的搜索结果排序方法,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
为了实现上述实施例,本发明还提出一种搜索结果排序装置。
图4为根据本发明一个实施例的搜索结果排序装置的结构示意图。
如图4所示,根据本发明实施例的搜索结果排序装置,包括:处理模块110、第一获取模块120、第二获取模块130、第三获取模块140和确定模块150,其中:
处理模块110用于根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示。
其中,搜索请求中包括搜索词。
其中,搜索词(即query)可以是各种语言的字符(如文字、拼音、符号和/或数字等)中的一种或者它们的组合。
其中,网页的全部信息可以包括但不限于网页标题信息、网页内容信息、链接到当前网页的锚文本、网页历史点击数据和网页的统一资源定位符URL(Uniform ResourceLocator)。
其中,网页标题信息可以包括标签标题(Tagtitle)、网页正文标题(Realtitle)和主标题(Maintitle)。
其中,标签标题由网页的作者描述,保存在网页的HTML代码。在需要标签标题时,可从网页的HTML代码中提取到。
其中,网页正文标题是对网页内容的描述,可通过现有的网页解析技术准确获取到。
其中,主标题是根据标签标题和网页正文标题所聚合生成的网页信息。
其中,网页历史点击数据包括网页历史点击搜索词集合,关联查询词的相关,是否尾点击、满意点击等。
其中,网页历史点击搜索词集合是指用户点击网页时,曾经所使用的搜索词集合。
在本发明的一个实施例中,处理模块110具体用于可采用预先训练的深度神经网络模型将每个网页的全部信息由下至上的分层表示结构,
其中,分层表示结构包括:
第一层包括:网页标题信息。
第二层包括:网页内容信息。
第三层包括:链接到当前网页的锚文本。
第四层包括:网页历史点击数据。
第一获取模块120用于根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量。
第二获取模块130用于采用预先训练的深度神经网络模型获取搜索请求的第二表示向量。
第三获取模块140用于根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度。
确定模块150用于根据每个网页与搜索请求的匹配度确定搜索结果展示顺序。
在本发明的一个实施例中,基于上述图4所示的基础上,如图5所示,第一获取模块120可以包括:
提取单元121用于根据每个网页的分层表示结果,从第一层提取网页标题信息的第一特征向量。
第一融合单元122用于从第二层提取网页内容信息的第二特征向量,并将第二特征向量与第一特征向量进行融合生成第一融合特征向量。
第二融合单元123用于从第三层提取链接到当前网页的锚文本的第三特征向量,并将第三特征向量与第一融合特征向量进行融合生成第二融合特征向量。
第三融合单元124用于从第四层提取网页历史点击数据的第四特征向量,并将第四特征向量与第二融合特征向量进行融合获取每个网页的第一表示向量。
在本发明的一个实施例中,为了可准确获取网页与搜索请求之间的匹配度,第二获取模块130具体用于:
对搜索请求进行切词处理,并采用预先训练的深度神经网络模型对切词结果进行序列转换生成第二表示向量。
在本发明的一个实施例中,为了准确计算出每个网页与搜索请求的匹配度,第三获取模块140具体用于:
使用单个全连接层分别对第一表示向量和第二表示向量进行变换,获取第一处理向量和第二处理向量,并对第一处理向量和第二处理向量计算内积,获取每个网页与搜索请求的匹配度。
其中,需要说明的是,前述对搜索结果排序方法的解释说明也适用于该实施例的搜索结果排序装置,此处不再赘述。
本发明实施例的搜索结果排序装置,在对搜索结果进行排序的过程中,通过预先训练的深度神经网络模型充分对网页的各个域的信息进行分析,生成了网页的分层表示结构,并根据分层表示结构由下至上逐层融合网页中各个域的信息生成网页的第一表示向量,以及通过预先训练的深度神经网络模型获取搜索请求的第二表示向量,并根据第一表示向量和第二表示向量获取每个网页与搜索请求的匹配度,根据每个网页与搜索请求的匹配度确定搜索结果展示顺序,由此,通过融合网页的全部信息的第一表示向量与搜索请求的第二表示向量准确计算出网页与搜索请求的匹配度,从而能够为用户提供更准确的搜索排序结果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种搜索结果排序方法,其特征在于,包括以下步骤:
根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;
根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;
采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;
根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;
根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序;所述采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示,包括:
采用预先训练的深度神经网络模型将每个网页的全部信息由下至上的分层表示结构包括:
第一层包括:网页标题信息;
第二层包括:网页内容信息;
第三层包括:链接到当前网页的锚文本;
第四层包括:网页历史点击数据。
2.如权利要求1所述的方法,其特征在于,所述根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量,包括:
根据每个网页的分层表示结果,从所述第一层提取所述网页标题信息的第一特征向量;
从所述第二层提取所述网页内容信息的第二特征向量,并将所述第二特征向量与所述第一特征向量进行融合生成第一融合特征向量;
从所述第三层提取所述链接到当前网页的锚文本的第三特征向量,并将所述第三特征向量与所述第一融合特征向量进行融合生成第二融合特征向量;
从所述第四层提取所述网页历史点击数据的第四特征向量,并将所述第四特征向量与所述第二融合特征向量进行融合获取每个网页的第一表示向量。
3.如权利要求1所述的方法,其特征在于,所述采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量,包括:
对所述搜索请求进行切词处理;
采用预先训练的深度神经网络模型对所述切词结果进行序列转换生成所述第二表示向量。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度,包括:
使用单个全连接层分别对所述第一表示向量和所述第二表示向量进行变换,获取第一处理向量和第二处理向量;
对所述第一处理向量和所述第二处理向量计算内积,获取每个网页与所述搜索请求的匹配度。
5.一种搜索结果排序装置,其特征在于,包括:
处理模块,用于根据用户的搜索请求获取多个网页,采用预先训练的深度神经网络模型将每个网页的全部信息进行分层表示;
第一获取模块,用于根据每个网页的分层表示结果,由下至上逐层融合网页中各个域的信息,获取每个网页的第一表示向量;
第二获取模块,用于采用预先训练的深度神经网络模型获取所述搜索请求的第二表示向量;
第三获取模块,用于根据所述第一表示向量和所述第二表示向量获取每个网页与所述搜索请求的匹配度;
确定模块,用于根据每个网页与所述搜索请求的匹配度确定搜索结果展示顺序;
所述处理模块,具体用于:
采用预先训练的深度神经网络模型将每个网页的全部信息由下至上的分层表示结构包括:
第一层包括:网页标题信息;
第二层包括:网页内容信息;
第三层包括:链接到当前网页的锚文本;
第四层包括:网页历史点击数据。
6.如权利要求5所述的装置,其特征在于,所述第一获取模块,包括:
提取单元,用于根据每个网页的分层表示结果,从所述第一层提取所述网页标题信息的第一特征向量;
第一融合单元,用于从所述第二层提取所述网页内容信息的第二特征向量,并将所述第二特征向量与所述第一特征向量进行融合生成第一融合特征向量;
第二融合单元,用于从所述第三层提取所述链接到当前网页的锚文本的第三特征向量,并将所述第三特征向量与所述第一融合特征向量进行融合生成第二融合特征向量;
第三融合单元,用于从所述第四层提取所述网页历史点击数据的第四特征向量,并将所述第四特征向量与所述第二融合特征向量进行融合获取每个网页的第一表示向量。
7.如权利要求5所述的装置,其特征在于,所述第二获取模块,具体用于:
对所述搜索请求进行切词处理,并采用预先训练的深度神经网络模型对所述切词结果进行序列转换生成所述第二表示向量。
8.如权利要求5所述的装置,其特征在于,所述第三获取模块,具体用于:
使用单个全连接层分别对所述第一表示向量和所述第二表示向量进行变换,获取第一处理向量和第二处理向量,并对所述第一处理向量和所述第二处理向量计算内积,获取每个网页与所述搜索请求的匹配度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610518052.7A CN105975639B (zh) | 2016-07-04 | 2016-07-04 | 搜索结果排序方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610518052.7A CN105975639B (zh) | 2016-07-04 | 2016-07-04 | 搜索结果排序方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105975639A CN105975639A (zh) | 2016-09-28 |
CN105975639B true CN105975639B (zh) | 2019-12-06 |
Family
ID=56954874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610518052.7A Active CN105975639B (zh) | 2016-07-04 | 2016-07-04 | 搜索结果排序方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105975639B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547871B (zh) * | 2016-10-31 | 2020-04-07 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN108205532A (zh) * | 2016-12-16 | 2018-06-26 | 百度在线网络技术(北京)有限公司 | 生成网页的方法和装置 |
CN106649760A (zh) | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN108268466B (zh) * | 2016-12-30 | 2020-11-06 | 广东精点数据科技股份有限公司 | 一种基于神经网络模型的网页排序方法和装置 |
CN109543836B (zh) * | 2018-11-30 | 2021-08-03 | 上海寒武纪信息科技有限公司 | 运算方法、装置及相关产品 |
CN110909245A (zh) * | 2019-11-29 | 2020-03-24 | 北京函子科技有限公司 | 一种多标签的网页查找方法、浏览器、服务器及存储介质 |
CN112989232B (zh) * | 2019-12-17 | 2024-06-14 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及系统 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775396B2 (en) * | 1999-04-15 | 2014-07-08 | Intellectual Ventures I Llc | Method and system for searching a wide area network |
US7260568B2 (en) * | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
CN103186574B (zh) * | 2011-12-29 | 2016-08-10 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
-
2016
- 2016-07-04 CN CN201610518052.7A patent/CN105975639B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及系统 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105975639A (zh) | 2016-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105975639B (zh) | 搜索结果排序方法和装置 | |
US11755885B2 (en) | Joint learning of local and global features for entity linking via neural networks | |
US10360303B2 (en) | Learning document embeddings with convolutional neural network architectures | |
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US9009134B2 (en) | Named entity recognition in query | |
CN106649603B (zh) | 一种基于网页文本数据情感分类的指定信息推送方法 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN111832290B (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN109376309A (zh) | 基于语义标签的文档推荐方法和装置 | |
US20150074112A1 (en) | Multimedia Question Answering System and Method | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN105139237A (zh) | 信息推送的方法和装置 | |
US20200004792A1 (en) | Automated website data collection method | |
US20200265074A1 (en) | Searching multilingual documents based on document structure extraction | |
CN107066589B (zh) | 一种基于综合知识的实体语义和词频的排序方法及装置 | |
CN113614711A (zh) | 基于嵌入的图像搜索检索 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
WO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
Yang et al. | Social tag embedding for the recommendation with sparse user-item interactions | |
CN111260428A (zh) | 一种商品推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |