CN106815252B - 一种搜索方法和设备 - Google Patents

一种搜索方法和设备 Download PDF

Info

Publication number
CN106815252B
CN106815252B CN201510867108.5A CN201510867108A CN106815252B CN 106815252 B CN106815252 B CN 106815252B CN 201510867108 A CN201510867108 A CN 201510867108A CN 106815252 B CN106815252 B CN 106815252B
Authority
CN
China
Prior art keywords
document
semantic vector
search
vector
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510867108.5A
Other languages
English (en)
Other versions
CN106815252A (zh
Inventor
杨旭东
黄云平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510867108.5A priority Critical patent/CN106815252B/zh
Publication of CN106815252A publication Critical patent/CN106815252A/zh
Application granted granted Critical
Publication of CN106815252B publication Critical patent/CN106815252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种搜索方法和设备,包括:接收用户输入的搜索关键词,并基于搜索关键词,得到与搜索关键词相关的至少一个搜索文档,确定搜索关键词的语义向量;根据搜索关键词的语义向量和每一个搜索文档的语义向量,分别计算每一个搜索文档与搜索关键词之间的语义相关性;根据语义相关性,对所述搜索文档进行排序,并按照排序结果将搜索文档输出给用户。由于搜索引擎中文档的语义向量根据文档标题的语义向量、文档标识的语义向量以及文档所属类目的语义向量融合得到的,因而能够更加精准地表达文档的语义信息,使得计算得到的文档与搜索关键词之间的语义相关性的精度提高,进而有助于提高搜索引擎的搜索精度,改善用户对搜索引擎的体验。

Description

一种搜索方法和设备
技术领域
本申请涉及互联网信息搜索技术领域,尤其涉及一种搜索方法和设备。
背景技术
相关性的高低是用来表征搜索引擎的搜索精度高低的重要因素,也是影响用户对搜索引擎反馈的搜索结果的满意度的重要因素之一。
目前搜索引擎在接收到用户发送的查询请求时,通过判断该查询请求中包含的关键词与索引库中包含的文档的主题是否相关,进而将判断结果为相关的文档作为搜索结果输出显示给用户。
在现有技术中判断该查询请求中包含的关键词与索引库中包含的文档的主题是否相关的方式一般使用基于词袋方法的主题模型法。具体方法为:首先,确定查询请求中包含的关键词对应的主题向量;其次,确定索引库中包含的每一个文档的主题向量;再次,依次利用每一个文档的主题向量与查询请求中包含的关键词对应的主题向量,计算得到文档与查询请求中包含的关键词之间的相似度;最后,按照计算得到的相似度将索引库中的文档进行排序,并按照排序结果依次将文档作为搜索结果推送给用户。
经研究发现,在使用这种基于词袋方法的主题模型确定主题向量的过程中,对于不同的文档,只要这些文档中使用了相同的词,那么确定的这些文档的主题向量是一样的。
然而由于基于词袋方法的主题模型属于无监督的机器学习模型,其训练语料通常是一个静态的文档集合,这样基于词袋方法的主题模型无法使用额外的标签信息,较容易产生过拟合现象。而且基于词袋方法的主题模型难以度量词与词之间的相似性,从而限制了主题模型的应用范围。比如,假设某个主题下有三个词:“食府”、“酒楼”、“饺子馆”,基于词袋方法的主题模型无法比较“食府”、“酒楼”以及“饺子馆”之间的不同,那么在执行搜索操作的时候,得到的搜索结果中这三个词同时出现的概率很高,使得用户对这一搜索结果体验比较差。
发明内容
有鉴于此,本申请实施例提供了一种搜索方法和设备,用于解决现有搜索引擎存在的搜索结果语义相关度较低使得用户体验差的问题。
一种搜索方法,包括:
接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档;
确定所述搜索关键词的语义向量,其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;
根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的;
根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户。
一种搜索设备,包括:
接收单元,用于接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档;
确定单元,用于确定所述搜索关键词的语义向量,其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;
计算单元,用于根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的;
排序单元,用于根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户。
本申请有益效果如下:
本申请实施例接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档,确定所述搜索关键词的语义向量,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档类目的语义向量融合得到的;根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户。这样,由于搜索引擎中文档的语义向量根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的,因而能够更加精准地表达文档的语义信息,使得计算得到的文档与搜索关键词之间的语义相关性的精度提高,进而有助于提高搜索引擎的搜索精度,改善用户对搜索引擎的体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种搜索方法的流程示意图;
图2为优化文档的语义向量的示意图;
图3为本申请实施例提供了一种搜索设备的结构示意图。
具体实施方式
为了实现本申请的目的,本申请实施例提供了一种搜索方法和设备,接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档,确定所述搜索关键词的语义向量,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档类目的语义向量融合得到的;根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户。这样,由于搜索引擎中文档的语义向量根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的,因而能够更加精准地表达文档的语义信息,使得计算得到的文档与搜索关键词之间的语义相关性的精度提高,进而有助于提高搜索引擎的搜索精度,改善用户对搜索引擎的体验。
下面结合说明书附图对本申请各个实施例作进一步地详细描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种搜索方法的流程示意图。所述方法可以如下所示。本申请实施例的执行主体是搜索引擎。
步骤101:接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档。
在步骤101中,搜索引擎在接收到用户输入的搜索关键词时,需要基于该搜索关键词,从文档库中查找与该搜索关键词相关的文档,查找到的文档可以被称为搜索文档。
在本申请实施例中,与搜索关键词相关的文档可以是指包含搜索关键词的文档,也可以是指主题与搜索关键词的主题相关性满足设定条件的文档,还可以是指其他方式确定的满足该搜索关键词需要的文档,这里不做限定。
步骤102:确定所述搜索关键词的语义向量。
其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置。
在步骤102中,在接收到用户输入的搜索关键词时,可以通过融合搜索关键词中包含的词和/或短语对应的词向量,得到该搜索关键词的语义向量,其中,词和/或短语对应的词向量可以通过词向量学习工具得到。
具体地,首先,对该搜索关键词进行归一化处理。
这里的归一化处理包含特殊符号过滤,大小写字母转换、时态语态转换、繁体与简体之间的转换、全角转半角转换等操作。
其次,对归一化处理后的所述搜索关键词进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料。
其中,实体短语识别可以借助于知识库来完成。
具体地,使用切词工具对归一化处理后的所述搜索关键词进行切词处理,得到所述搜索关键词中包含的词组或者短语。这里的实体短语识别是通过将切词处理后得到的词组或者短语对应的各个词重新连接得到。每一个搜索关键词的切词结果构成词向量学习工具所需要的训练语料中的一个训练样本。
再次,基于所述训练语料和词向量模型,训练得到所述关键词中包含的词的词向量和包含的短语的词向量。
具体地,将得到的训练语料输入词向量学习工具,通过word2vec算法学习得到所述搜索关键词中包含的词和/或短语对应的词向量。
最后,将得到的所述词的词向量和所述短语的词向量,融合得到所述搜索关键词的语义向量。
具体地,通过加权融合得到的词的词向量和/或短语的词向量,得到所述搜索关键词的语义向量。
在本申请实施例中实体短语可以是指商户名称、区域名称、品牌名称等;也可以包含商品标识、产品标识等,这里对于实体词所具体指的范围不做限定。
步骤103:根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性。
其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的。
在步骤103中,首先说明确定文档的语义向量的方式。
本申请实施例中确定文档的语义向量的方式以利用深度神经网络模型确定为例进行说明。也就是说,在确定文档的语义向量时,除了可以利用深度神经网络模型之外,还可以使用其他模型,这里对于所使用的模型不做限定。
具体地,确定文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量;根据预设的权重值,分别确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值;利用所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量对应的权重值和所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到所述文档的语义向量。
下面分别说明如何确定所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量。
第一,确定所述文档标识的语义向量。
具体方式包括:
第一步,确定文档库中包含的每一个文档的三元组表达式。
其中,所述三元组表达式中包含所述文档标识、所述文档所属类目以及所述文档标题。
例如:所述三元组表达式可以表示为<文档标识、文档所属类目、文档标题>。这里文档标题可以是指文档的标题中包含的切词或者短语列表。
第二步,根据所述文档标题中包含的切词列表,将所述三元组表达式转换成一组深度神经网络模型的第一训练样本。
其中,所述第一训练样本中包含正训练样本和负训练样本。所述训练样本中包含上下文信息和所述上下文信息生成目标词的概率值,所述上下文信息中包含所述文档的标题中包含的切词片段、所述文档的标识、所述文档的类目。
例如:针对文档的标题中包含的切词或者短语列表,设置一个长度为X的滑动窗口,那么映射在滑动窗口中间位置的切词或者短语作为一个训练样本中的目标词,同时将映射在滑动窗口中其他位置的切词或者短语结合所述文档的标识和所述文档的类目构成该关键词的上下文信息;进一步地根据得到的上下文信息确定在满足上下文信息的条件下得到目标词的概率值,此时,根据上下文信息以及所述所述上下文信息生成目标词的概率值,得到正训练样本,即<上下文信息,概率值>,这里的概率值是指在上下文信息的条件下得到目标词的概率。
此时,根据设定策略随机采样几个词,在保持上下文信息不变的前提下,用随机采样的词替换掉原来的目标词,即得到几个负训练样本。
这里需要说明的是,正训练样本中的概率值尽可能接近1,负训练样本中的概率值尽可能接近0。
第三步,基于得到的所述第一训练样本,采用随机梯度下降算法训练得到文档标识对应的权重矩阵,其中,所述权重矩阵的一个行向量表示一个文档标识的语义向量。
具体地,根据初始的用于确定所述文档标识的语义向量的权重矩阵和得到的训练样本,采用随机梯度下降算法,不断更新权重矩阵,直至权重矩阵结果收敛,此时得到用于确定所述文档的标识的语义向量的权重矩阵。权重矩阵中行向量表示文档标识的语义向量。
需要说明的是,本申请实施例中训练模型时使用的损失函数为对数损失函数,即L(Y,p(Y|X))=-log p(Y|X),其中,X表示自变量,Y表示因变量。
这里需要进一步说明的是,初始的用于确定所述文档标识的语义向量的权重矩阵的确定方式:
由于本申请实施例中以深度神经网络模型学习的方式确定文档的语义向量,而深度神经网络模型是一个半监督的机器学习模型,能够通过自学习的方式对初始的权重矩阵进行优化。
针对一个文档,在训练得优化的权重矩阵之前,需要确定一个初始的权重矩阵。即将该文档标题包含的切词/短语列表、该文档标识以及该文档所属类目作为输入参数输入至深度神经网络模型,并通过映射方式得到每一个输入参数的固定长度的向量,并将得到的向量进行变换后输出,即得到初始化的权重矩阵。
其中,文档标题包含的切词/短语列表通过映射之后得到用于确定文档标题的语义向量;文档标识和文档所属类目通过映射之后得到权重矩阵的初始值,这里的初始值可以是一个随机数。
在映射得到每一个输入参数的固定长度的向量时,利用深度神经网络模型中包含神经元个数,得到每一个输入参数的固定长度的向量。
将得到的向量进行变换是指利用变换函数对输入参数进行非线性变换,使得变换后输出一个长度满足设定条件的向量。
需要说明的是,本申请实施例中深度神经网络模型所使用的最大化似然函数可以表示为:L=Σwlog p(w|context(w),docw,catw),其中,w表示目标文档中的一个词,context(w)表示词w的上下文,docw表示标题中包含词w的文档的标识,catw表示标题中包含词w的文档的类目。
可选地,所述方法还包括:
获取用户的行为历史数据,其中,所述行为历史数据中包含所述用户发送的查询请求中包含的关键词以及所述用户查看的与所述关键词对应的所述文档的标识;
将所述行为历史数据转换成为深度神经网络模型的第二训练样本;第二训练样本形式上同第一训练样本类似,即<上下文信息,概率值>,这里的概率值是指在上下文信息的条件下得到目标词的概率。区别在于这里的目标词来自于查询请求中的关键词,而不再是文档标题中的关键词。
基于得到的所述第二训练样本,采用随机梯度下降算法对得到的所述文档标识对应的权重矩阵进行更新,得到更新后的权重矩阵,其中,所述更新后的权重矩阵的一个行向量表示一个文档标识的语义向量。
由于搜索引擎中用户的行为历史数据中蕴含着用户对搜索结果的反馈,也就是说,用户基于搜索引擎返回的与搜索关键词相关的搜索文档是否被点击表达了用户对搜索结果是否满意,换个角度来讲,也表征了搜索文档与搜索关键词之间的相关程度,即搜索文档与搜索关键词越相关,那么搜索文档被点击的概率越高,由此可见,可以利用用户的行为历史数据对文档的语义向量进行优化。
如图2所示,为优化文档的语义向量的示意图。优化所使用的最大化似然函数可以表示为:L=Σ(q,doc)∈RΣw∈qlog p(w|doc),其中,q表示搜索关键词,doc表示行为数据中包含的用户点击的文档,R表示搜索关键词与基于该搜索关键词的搜索文档中被点击的文档所组成的集合。
基于得到的所述第二训练样本,采用随机梯度下降算法对得到的所述文档标识对应的权重矩阵进行更新,得到更新后的权重矩阵,具体包括:
根据所述行为历史数据,抽取被点击的所述文档以及与所述文档对应的搜索关键词,生成包含所述文档以及与所述文档对应的搜索关键词的二元组,例如:<文档的标识,搜索关键词包含的切词或短语列表>。将生成的二元组作为正训练样本,同步随机采样得到负训练样本。
根据确定的文档标识对应的的权重矩阵和得到的训练样本,采用随机梯度下降算法,不断更新该权重矩阵,直至权重矩阵结果收敛,此时得到用于确定所述文档的标识的语义向量的权重矩阵。权重矩阵中行向量表示所述文档的标识的语义向量。
这里需要说明的是,本申请实施例中用于确定文档的标识的语义向量的方式与用于确定文档的类目的语义向量的方式相同,这里不再做详细描述。
第二,确定所述文档标题的语义向量。
具体方式包括:
对所述文档的标题进行归一化处理;
对归一化处理后的所述文档的标题进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述文档标题中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述文档标题的语义向量。详细步骤和确定搜索关键词的语义向量是一样的,不再赘述。
词的词向量或短语的词向量对应的权重值可以根据词义标签来确定,例如:对于表示产品或服务的词或短语、表示品牌的词或短语的权重值可以设置为2,其他词的权重设置为1。
在得到所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量之后,如何通过语义向量融合的方式得到所述文档的语义向量。
可以使用的一种方式是:直接将得到所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量进行求和,将得到的和值作为所述文档的语义向量。
还可以使用的另一种方式是:确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值,采用加权求和的方式得到所述文档的语义向量。
在本申请实施例中,假设根据预设的权重值,确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值,即所述文档标题的语义向量的权重值为1、所述文档标识的语义向量的权重值为3以及所述文档所属类目的语义向量的权重值为3。
那么利用所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值和所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量加权求和融合得到所述文档的语义向量。
具体地,根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述文档与所述搜索关键词之间的语义相关性,包括:
针针对每一个所述搜索文档,根据所述搜索文档的语义向量与所述搜索关键词的语义向量,利用余弦相似度计算方法,计算得到所述文档与所述搜索关键词之间的语义相关性。
具体地,通过以下方式计算得到到所述搜索文档与所述搜索关键词之间的语义相关性:
Figure BDA0000864374280000111
其中,Q表示所述搜索关键词的语义向量,D表示所述搜索文档的语义向量。
步骤104:根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户。
在步骤104中,根据搜索文档与所述搜索关键词相关性的强弱和所述语义相关性,将所述搜索文档进行排序。
需要说明的是,本申请实施例中所述的文档可以是指用于描述商品信息的文档,也可以是普通的文档。
通过本申请实施例中所述的技术方案,由于搜索引擎中文档的语义向量根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的,因而能够更加精准地表达文档的语义信息,使得计算得到的文档与搜索关键词之间的语义相关性的精度提高,进而有助于提高搜索引擎的搜索精度,改善用户对搜索引擎的体验。
图3为本申请实施例提供了一种搜索设备的结构示意图。所述搜索设备包括:接收单元31、确定单元32、计算单元33和排序单元34,其中:
接收单元31,用于接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档;
确定单元32,用于确定所述搜索关键词的语义向量,其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;
计算单元33,用于根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的;
排序单元34,用于根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户。
在本申请的另一个实施例中,所述搜索设备还包括:语义向量融合单元35,其中:
所述语义向量融合单元35,用于根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的所述文档的语义向量,包括:
确定文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量;
根据预设的权重值,分别确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值;
利用所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量对应的权重值和所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到所述文档的语义向量。
在本申请的另一个实施例中,所述语义向量融合单元35确定所述文档标识的语义向量,包括:
确定文档库中包含的每一个文档的三元组表达式,其中,所述三元组表达式中包含所述文档标识、所述文档所属类目以及所述文档标题;
根据所述文档标题中包含的切词列表,将每一个所述三元组表达式转换成深度神经网络模型的第一训练样本,其中,所述第一训练样本中包含正训练样本和负训练样本,所述正训练样本中包含上下文信息和所述上下文信息生成词的概率值,所述上下文信息中包含所述文档标题中包含的切词片段、所述文档标识、所述文档所属类目;
基于得到的所述第一训练样本,采用随机梯度下降算法训练得到文档标识对应的权重矩阵,其中,所述权重矩阵的一个行向量表示一个文档标识的语义向量。
在本申请的另一个实施例中,所述搜索设备还包括:更新单元36,其中:
所述更新单元36,用于获取用户的行为历史数据,其中,所述行为历史数据中包含所述用户发送的查询请求中包含的关键词以及所述用户查看的与所述关键词对应的所述文档的标识;
将所述行为历史数据转换成为深度神经网络模型的第二训练样本;
基于得到的所述第二训练样本,采用随机梯度下降算法对得到的所述文档标识对应的权重矩阵进行更新,得到更新后的权重矩阵,其中,所述更新后的权重矩阵的一个行向量表示一个文档标识的语义向量。
在本申请的另一个实施例中,所述语义向量融合单元35确定所述文档标题的语义向量,包括:
对所述文档的标题进行归一化处理;
对归一化处理后的所述文档的标题进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述文档标题中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述文档标题的语义向量。
在本申请的另一个实施例中,所述确定单元32确定所述搜索关键词的语义向量,包括:
对所述搜索关键词进行归一化处理;
对归一化处理后的所述搜索关键词进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述搜索关键词中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述搜索关键词的语义向量。
在本申请的另一个实施例中,所述计算单元33计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,包括:
针对每一个所述搜索文档,根据所述搜索文档的语义向量与所述搜索关键词的语义向量,利用余弦相似度计算方法,计算得到所述搜索文档与所述搜索关键词之间的语义相关性。
在本申请的另一个实施例中,所述排序单元34根据所述语义相关性,对所述搜索文档进行排序,包括:
根据搜索文档与所述搜索关键词相关性的强弱和所述语义相关性,将所述搜索文档进行排序。
需要说明的是,本申请实施例中所述的搜索设备可以通过硬件方式实现,也可以通过软件方式实现,这里不做限定。
由于搜索引擎中文档的语义向量根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的,因而能够更加精准地表达文档的语义信息,使得计算得到的文档与搜索关键词之间的语义相关性的精度提高,进而有助于提高搜索引擎的搜索精度,改善用户对搜索引擎的体验。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种搜索方法,其特征在于,包括:
接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档;
确定所述搜索关键词的语义向量,其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;
根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的;
根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户;
其中,所述文档标识的语义向量的确定过程包括:
确定文档库中包含的每一个文档的三元组表达式,其中,所述三元组表达式中包含所述文档标识、所述文档所属类目以及所述文档标题;
根据所述文档标题中包含的切词列表,将每一个所述三元组表达式转换成一组深度神经网络模型的第一训练样本,其中,所述第一训练样本中包含正训练样本和负训练样本;所述训练样本中包含上下文信息和所述上下文信息生成目标词的概率值,所述上下文信息中包含所述文档标题中包含的切词片段、所述文档标识、所述文档所属类目;
基于得到的所述第一训练样本,采用随机梯度下降算法训练得到文档标识对应的权重矩阵,其中,所述权重矩阵的一个行向量表示一个文档标识的语义向量。
2.如权利要求1所述的搜索方法,其特征在于,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的,包括:
确定文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量;
根据预设的权重值,分别确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值;
利用所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量对应的权重值和所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到所述文档的语义向量。
3.如权利要求2所述的搜索方法,其特征在于,所述方法还包括:
获取用户的行为历史数据,其中,所述行为历史数据中包含所述用户发送的查询请求中包含的关键词以及所述用户查看的与所述关键词对应的所述文档的标识;
将所述行为历史数据转换成为深度神经网络模型的第二训练样本;
基于得到的所述第二训练样本,采用随机梯度下降算法对得到的所述文档标识对应的权重矩阵进行更新,得到更新后的权重矩阵,其中,所述更新后的权重矩阵的一个行向量表示一个文档标识的语义向量。
4.如权利要求2所述的搜索方法,其特征在于,确定所述文档标题的语义向量,包括:
对所述文档的标题进行归一化处理;
对归一化处理后的所述文档的标题进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述文档标题中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述文档标题的语义向量。
5.如权利要求1所述的搜索方法,其特征在于,确定所述搜索关键词的语义向量,包括:
对所述搜索关键词进行归一化处理;
对归一化处理后的所述搜索关键词进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述搜索关键词中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述搜索关键词的语义向量。
6.如权利要求1至5任一项所述的搜索方法,其特征在于,计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,包括:
针对每一个所述搜索文档,根据所述搜索文档的语义向量与所述搜索关键词的语义向量,利用余弦相似度计算方法,计算得到所述搜索文档与所述搜索关键词之间的语义相关性。
7.一种搜索设备,其特征在于,包括:
接收单元,用于接收用户输入的搜索关键词,并基于所述搜索关键词,得到与所述搜索关键词相关的至少一个搜索文档;
确定单元,用于确定所述搜索关键词的语义向量,其中,所述语义向量用于表征所述搜索关键词在语义向量空间中的位置;
计算单元,用于根据所述搜索关键词的语义向量和每一个所述搜索文档的语义向量,分别计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,其中,所述文档的语义向量是根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的;
排序单元,用于根据所述语义相关性,对所述搜索文档进行排序,并按照排序结果将所述搜索文档输出给所述用户;
所述文档标识的语义向量的确定过程包括:
确定文档库中包含的每一个文档的三元组表达式,其中,所述三元组表达式中包含所述文档标识、所述文档所属类目以及所述文档标题;
根据所述文档标题中包含的切词列表,将每一个所述三元组表达式转换成一组深度神经网络模型的第一训练样本,其中,所述第一训练样本中包含正训练样本和负训练样本;所述训练样本中包含上下文信息和所述上下文信息生成目标词的概率值,所述上下文信息中包含所述文档标题中包含的切词片段、所述文档标识、所述文档所属类目;
基于得到的所述第一训练样本,采用随机梯度下降算法训练得到文档标识对应的权重矩阵,其中,所述权重矩阵的一个行向量表示一个文档标识的语义向量。
8.如权利要求7所述的搜索设备,其特征在于,所述搜索设备还包括:语义向量融合单元,其中:
所述语义向量融合单元,用于根据所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到的所述文档的语义向量,包括:
确定文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量;
根据预设的权重值,分别确定所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量的权重值;
利用所述文档标题的语义向量的权重值、所述文档标识的语义向量的权重值以及所述文档所属类目的语义向量对应的权重值和所述文档标题的语义向量、所述文档标识的语义向量以及所述文档所属类目的语义向量融合得到所述文档的语义向量。
9.如权利要求8所述的搜索设备,其特征在于,所述搜索设备还包括:更新单元,其中:
所述更新单元,用于获取用户的行为历史数据,其中,所述行为历史数据中包含所述用户发送的查询请求中包含的关键词以及所述用户查看的与所述关键词对应的所述文档的标识;
将所述行为历史数据转换成为深度神经网络模型的第二训练样本;
基于得到的所述第二训练样本,采用随机梯度下降算法对得到的所述文档标识对应的权重矩阵进行更新,得到更新后的权重矩阵,其中,所述更新后的权重矩阵的一个行向量表示一个文档标识的语义向量。
10.如权利要求8所述的搜索设备,其特征在于,所述语义向量融合单元确定所述文档标题的语义向量,包括:
对所述文档的标题进行归一化处理;
对归一化处理后的所述文档的标题进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述文档标题中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述文档标题的语义向量。
11.如权利要求7所述的搜索设备,其特征在于,所述确定单元确定所述搜索关键词的语义向量,包括:
对所述搜索关键词进行归一化处理;
对归一化处理后的所述搜索关键词进行切词处理以及实体短语识别,得到用于训练词向量模型的训练语料;
基于所述训练语料和词向量模型,训练得到所述搜索关键词中包含的词的词向量和包含的短语的词向量;
将得到的所述词的词向量和所述短语的词向量,融合得到所述搜索关键词的语义向量。
12.如权利要求7至11任一项所述的搜索设备,其特征在于,所述计算单元计算每一个所述搜索文档与所述搜索关键词之间的语义相关性,包括:
针对每一个所述搜索文档,根据所述搜索文档的语义向量与所述搜索关键词的语义向量,利用余弦相似度计算方法,计算得到所述搜索文档与所述搜索关键词之间的语义相关性。
CN201510867108.5A 2015-12-01 2015-12-01 一种搜索方法和设备 Active CN106815252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510867108.5A CN106815252B (zh) 2015-12-01 2015-12-01 一种搜索方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510867108.5A CN106815252B (zh) 2015-12-01 2015-12-01 一种搜索方法和设备

Publications (2)

Publication Number Publication Date
CN106815252A CN106815252A (zh) 2017-06-09
CN106815252B true CN106815252B (zh) 2020-08-25

Family

ID=59108178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510867108.5A Active CN106815252B (zh) 2015-12-01 2015-12-01 一种搜索方法和设备

Country Status (1)

Country Link
CN (1) CN106815252B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291871B (zh) * 2017-06-15 2021-02-19 北京百度网讯科技有限公司 基于人工智能的多域信息的匹配度评估方法、设备及介质
CN109388793B (zh) * 2017-08-03 2023-04-07 阿里巴巴集团控股有限公司 实体标注方法、意图识别方法及对应装置、计算机存储介质
CN107491518B (zh) * 2017-08-15 2020-08-04 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN107491547B (zh) 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN108509411B (zh) * 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置
US11163811B2 (en) 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness
CN108280920A (zh) * 2018-02-02 2018-07-13 成都科木信息技术有限公司 基于ar技术的旅游实景显示系统
CN108346166A (zh) * 2018-02-02 2018-07-31 成都科木信息技术有限公司 一种旅游虚拟现实系统
CN108228892A (zh) * 2018-02-02 2018-06-29 成都科木信息技术有限公司 一种基于旅游大数据的ar检索算法
US20190251422A1 (en) * 2018-02-09 2019-08-15 Microsoft Technology Licensing, Llc Deep neural network architecture for search
CN110309255A (zh) * 2018-03-07 2019-10-08 同济大学 一种融入实体描述分布式表示的实体搜索方法
CN108536791B (zh) * 2018-03-30 2019-07-30 北京百度网讯科技有限公司 基于神经网络的搜索方法、设备及存储介质
CN108595620B (zh) * 2018-04-23 2022-04-26 百度在线网络技术(北京)有限公司 转义识别方法、装置、计算机设备及存储介质
CN109902283B (zh) * 2018-05-03 2023-06-06 华为技术有限公司 一种信息输出方法及装置
CN111078858B (zh) * 2018-10-19 2023-06-09 阿里巴巴集团控股有限公司 文章搜索方法、装置及电子设备
CN109460469B (zh) * 2018-10-25 2020-08-07 中南民族大学 一种基于网络轨迹的安全协议格式的挖掘方法及装置
CN109522389B (zh) * 2018-11-07 2020-09-01 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
JP6651189B1 (ja) * 2019-03-29 2020-02-19 株式会社 情報システムエンジニアリング 機械学習用のデータ構造、学習方法及び情報提供システム
CN110427400A (zh) * 2019-06-21 2019-11-08 贵州电网有限责任公司 基于电网运行信息交互式情报用户需求深度挖掘检索方法
CN110275943B (zh) * 2019-06-26 2021-02-09 南京中孚信息技术有限公司 文章推送方法及装置
CN110472018A (zh) * 2019-08-22 2019-11-19 子长科技(北京)有限公司 基于深度学习的信息处理方法、装置及计算机存储介质
CN111078842A (zh) * 2019-12-31 2020-04-28 北京每日优鲜电子商务有限公司 查询结果的确定方法、装置、服务器及存储介质
CN111738000B (zh) * 2020-07-22 2020-11-24 腾讯科技(深圳)有限公司 一种短语推荐的方法以及相关装置
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质
CN112732870B (zh) * 2020-12-31 2024-03-05 平安科技(深圳)有限公司 基于词向量的搜索方法、装置、设备及存储介质
CN113343704A (zh) * 2021-04-15 2021-09-03 山东师范大学 一种基于词嵌入向量的文本检索方法及系统
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质
CN113505194B (zh) * 2021-06-15 2022-09-13 北京三快在线科技有限公司 改写词生成模型的训练方法及装置
CN114139041B (zh) * 2022-01-28 2022-05-13 浙江口碑网络技术有限公司 类目相关性预测网络训练及类目相关性预测方法及装置
CN115858568A (zh) * 2022-07-21 2023-03-28 北京百度网讯科技有限公司 基于上下文的模型训练方法、装置、电子设备及存储介质
CN115408491B (zh) * 2022-11-02 2023-01-17 京华信息科技股份有限公司 一种历史数据的文本检索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN104298776A (zh) * 2014-11-04 2015-01-21 苏州大学 基于lda模型的搜索引擎结果优化系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606627B2 (en) * 2008-06-12 2013-12-10 Microsoft Corporation Sponsored search data structure

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855252A (zh) * 2011-06-30 2013-01-02 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN104298776A (zh) * 2014-11-04 2015-01-21 苏州大学 基于lda模型的搜索引擎结果优化系统
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法

Also Published As

Publication number Publication date
CN106815252A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN106815252B (zh) 一种搜索方法和设备
CN108509463B (zh) 一种问题的应答方法及装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN106709040B (zh) 一种应用搜索方法和服务器
CN112100529B (zh) 搜索内容排序方法、装置、存储介质和电子设备
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN109388743B (zh) 语言模型的确定方法和装置
CN109829045A (zh) 一种问答方法和装置
CN112084307B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
JP2018022496A (ja) 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN111553140B (zh) 数据处理方法、数据处理设备及计算机存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
CN114138969A (zh) 文本处理方法及装置
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
US20230308360A1 (en) Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant