CN111368161A - 一种搜索意图的识别方法、意图识别模型训练方法和装置 - Google Patents
一种搜索意图的识别方法、意图识别模型训练方法和装置 Download PDFInfo
- Publication number
- CN111368161A CN111368161A CN201811603039.7A CN201811603039A CN111368161A CN 111368161 A CN111368161 A CN 111368161A CN 201811603039 A CN201811603039 A CN 201811603039A CN 111368161 A CN111368161 A CN 111368161A
- Authority
- CN
- China
- Prior art keywords
- intention
- official website
- keyword
- search
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 168
- 238000012216 screening Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 10
- 239000002537 cosmetic Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种搜索意图的识别方法,为了确定待识别关键词是否具有官网意图,从待识别关键词所对应搜索结果中筛选出目标百科类条目,根据目标百科类条目与特征词的匹配结果确定待识别关键词的特征向量,由于特征词是根据与官网意图所关联百科类条目确定的,而目标百科类条目是根据待识别关键词搜索得到的,故确定出的特征向量可以体现出待识别关键词的官网意图信息,通过意图识别模型计算该特征向量对应的官网意图评分,官网意图评分能够表示出待识别关键词所对应搜索意图为官网意图的可能性,将官网意图评分作为搜索引擎判断待识别关键词的官网意图强弱的依据,能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
Description
技术领域
本申请涉及数据处理领域,特别是涉及搜索意图的识别以及意图识别模型的训练。
背景技术
用户在接触、了解到一些对象例如产品或者服务后,会有进一步获知该对象相关信息的需求,而该对象的相关信息,一般会较为准确、全面的记载在该对象的官网中,例如产品的官方主页、提供服务的公司网站等。
在互联网时代,用户可以通过搜索引擎满足上述需求,例如,用户输入与待了解对象相关的关键词,搜索引擎向用户展示与该关键词关联的搜索结果。在搜索过程中,如果搜索引擎能够识别出用户的搜索意图为查询官网的意图(以下简称官网意图),那么搜索引擎可以在搜索结果中优先展示该对象官网对应的条目,从而提高用户的搜索体验。
然而,目前并没有准确的识别方式用于识别搜索意图是否为官网意图。
发明内容
为了解决上述技术问题,本申请提供了一种搜索意图的识别以及意图识别模型的训练,将确定出的官网意图评分作为搜索引擎判断待识别关键词的官网意图强弱的依据,从而能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种搜索意图的识别方法,所述方法包括:
获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。
可选的,所述根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词对应的特征向量,包括:
根据所述目标百科类条目的内容与特征词的匹配结果,以及所述目标百科类条目的类别标签确定所述待识别关键词对应的特征向量。
可选的,所述方法还包括:
确定所述目标百科类条目与所述待识别关键词间的关联程度;
根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述根据意图识别模型确定所述特征向量对应的官网意图评分,包括:
根据意图识别模型确定所述调整后的特征向量对应的官网意图评分。
可选的,所述目标百科类条目包括多个,所述根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量,包括:
选择任意一个目标百科类条目的内容;
根据所选择的目标百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;
根据多个所述目标百科类条目分别确定出的多个子特征向量计算所述待识别关键词的特征向量。
可选的,所述方法还包括:
根据所述官网意图评分调整所述搜索结果中所述待识别关键词对应官网条目的展示位置。
第二方面,本申请实施例提供一种搜索意图的识别装置,所述装置包括获取单元、第一确定单元和第二确定单元:
所述获取单元,用于获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
所述第一确定单元,用于根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
所述第二确定单元,用于根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。
可选的,所述第一确定单元,具体用于根据所述目标百科类条目的内容与特征词的匹配结果,以及所述目标百科类条目的类别标签确定所述待识别关键词对应的特征向量。
可选的,所述装置还包括第三确定单元和第一调整单元:
所述第三确定单元,用于确定所述目标百科类条目与所述待识别关键词间的关联程度;
所述第一调整单元,用于根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述第二确定单元,具体用于根据意图识别模型确定所述调整后的特征向量对应的官网意图评分。
可选的,所述目标百科类条目包括多个,所述第一确定单元,具体用于选择任意一个目标百科类条目的内容;根据所选择的目标百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;根据多个所述目标百科类条目分别确定出的多个子特征向量计算所述待识别关键词的特征向量。
可选的,所述装置还包括第二调整单元:
所述第二调整单元,用于根据所述官网意图评分调整所述搜索结果中所述待识别关键词对应官网条目的展示位置。
第三方面,本申请实施例提供一种搜索意图识别模型的训练方法,所述方法包括:
根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
可选的,所述根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量,包括:
根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果,以及所述百科类条目的类别标签确定所述历史关键词的特征向量。
可选的,所述方法还包括:
确定所述百科类条目与所述历史关键词间的关联程度;
根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述根据所述特征向量和历史官网意图评分训练意图识别模型,包括:
根据所述调整后的特征向量和历史官网意图评分训练意图识别模型。
可选的,所述百科类条目包括多个,所述根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量,包括:
选择任意一个百科类条目的内容;
根据所选择的百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;
根据多个所述百科类条目分别确定出的多个子特征向量计算所述历史关键词的特征向量。
可选的,所述特征词包括官网特征词和非官网特征词,
所述官网特征词是根据第一关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的;所述第一关键词为历史官网意图评分高于第一阈值的历史关键词;
所述非官网特征词是根据第二关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的;所述第二关键词为历史官网意图评分低于第二阈值的历史关键词。
第四方面,本申请实施例提供一种搜索意图识别模型的训练装置,所述装置包括第一确定单元、第二确定单元和训练单元:
所述第一确定单元,用于根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
所述第二确定单元,用于根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
所述训练单元,用于根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
可选的,所述第二确定单元,具体用于根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果,以及所述百科类条目的类别标签确定所述历史关键词的特征向量。
可选的,所述装置还包括第三确定单元和调整单元:
所述第三确定单元,用于确定所述百科类条目与所述历史关键词间的关联程度;
所述调整单元,用于根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述训练单元,具体用于根据所述调整后的特征向量和历史官网意图评分训练意图识别模型。
可选的,所述百科类条目包括多个,所述第二确定单元,具体用于选择任意一个百科类条目的内容;根据所选择的百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;根据多个所述百科类条目分别确定出的多个子特征向量计算所述历史关键词的特征向量。
可选的,所述特征词包括官网特征词和非官网特征词,
所述官网特征词是根据第一关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的;所述第一关键词为历史官网意图评分高于第一阈值的历史关键词;
所述非官网特征词是根据第二关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的;所述第二关键词为历史官网意图评分低于第二阈值的历史关键词。
第五方面,本申请实施例提供一种处理设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性;
或者,
根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
第六方面,本申请实施例提供一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如第一方面中或第三方面中一个或多个所述的方法。
由上述技术方案可以看出,为了确定用户输入的待识别关键词是否具有官网意图,可以从待识别关键词所对应搜索结果中筛选出目标百科类条目,根据目标百科类条目与特征词的匹配结果确定待识别关键词的特征向量,由于特征词是根据与官网意图所关联百科类条目确定的,而目标百科类条目是根据待识别关键词搜索得到的,故根据上述匹配结果确定出的特征向量可以体现出待识别关键词的官网意图信息,通过意图识别模型计算该特征向量对应的官网意图评分,计算出的官网意图评分能够表示出待识别关键词所对应搜索意图为官网意图的可能性,该官网意图评分可以作为搜索引擎判断待识别关键词的官网意图强弱的依据,从而能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种搜索意图的识别方法的流程图;
图2为本申请实施例提供的一种搜索意图识别模型的训练方法的流程图;
图3为本申请实施例提供的一种搜索意图的识别装置的结构图;
图4为本申请实施例提供的一种搜索意图识别模型的训练装置的结构图;
图5为本申请实施例提供的一种终端设备的结构图;
图6为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在一些情况下,用户在搜索引擎中输入与待了解对象相关的关键词,可能希望查询该待了解对象相关的官网,以进一步获知该待了解对象的相关信息。然而,在目前的搜索过程中,搜索引擎仅是向用户展示与该关键词关联的搜索结果,即使用户输入的关键词所对应搜索意图可能是官网意图,由于搜索引擎无法识别搜索关键词的官网意图,进而使得搜索引擎不能在搜索结果中优先展示官网对应的条目。
例如,用户输入待识别关键词“熙薇”,以希望了解“熙薇化妆品”的相关信息,其中,“熙薇化妆品”为待了解对象。那么,用户最希望通过搜索引擎获得“熙薇化妆品”的官网。由于待识别关键词“熙薇”还具有其他含义,例如,“熙薇”所对应的对象可以是人或者其他对象,也就是说,待识别关键词“熙薇”还有可能对应其他搜索意图。如果不对待识别关键词“熙薇”的搜索意图进行识别,若“熙薇化妆品”官网对应的条目与待识别关键词关联程度较低,搜索引擎在展示搜索结果时,可能会将“熙薇化妆品”官网对应的条目排序在靠后的位置,而优先展示的“熙薇”这个人所对应的搜索结果。这样,用户需要在相对于其他条目更为靠后的位置才能找到“熙薇化妆品”官网对应的条目,用户的搜索体验不好。
据此,本申请实施例提供一种搜索意图的识别方法,该方法可以从待识别关键词所对应搜索结果中筛选出目标百科类条目,由于目标百科类条目是与待识别关键词相关的知识类信息或简介类信息,能够体现出待识别关键词与官网意图之间的关联程度,如果知识类信息或简介类信息中介绍的仅是待识别关键词是什么,怎么使用等等,而没有涉及该待识别关键词所对应的官网方面的介绍,则说明该待识别关键词对应的搜索结果与官网意图之间的关联程度很低,进而说明搜索待识别关键词时没有搜索官网的搜索意图;如果知识类信息或简介类信息中介绍了待识别关键词所对应的官网方面的介绍,则说明待识别关键词所对应的对象存在官网,进而说明搜索待识别关键词时可能有搜索官网的搜索意图。故,目标百科类条目的内容能体现出待识别关键词与官网意图之间的关联程度。目标百科类条目可以包括百科结果、黄页、天眼查网站等。
根据目标百科类条目的内容与特征词的匹配结果确定待识别关键词的特征向量,由于特征词是根据与官网意图所关联百科类条目确定的,而目标百科类条目是根据待识别关键词搜索得到的,故根据上述匹配结果确定出的特征向量可以体现出待识别关键词所体现出的官网意图信息。
需要说明的是,特征词是根据与官网意图所关联百科类条目确定的,官网意图是通过关键词体现的,而关键词所体现的官网意图可能有强有弱,若该关键词所体现的官网意图与其他关键词所体现的官网意图相比较强,即该关键词所对应搜索意图为官网意图的可能性与其他关键词对应搜索意图为官网意图的可能性相比较大,根据与强官网意图所关联百科类条目确定出特征词,该特征词与强官网意图相关;若该关键词所体现的官网意图与其他关键词所体现的官网意图相比较弱,即该关键词所对应搜索意图为官网意图的可能性与其他关键词对应搜索意图为官网意图的可能性相比较小,根据与弱官网意图所关联百科类条目确定出特征词,该特征词与弱官网意图相关,甚至可能与非官网意图相关。
根据意图识别模型确定特征向量对应的官网意图评分,官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。根据官网意图评分可以对官网对应的条目进行适当地调整。
以上述待识别关键词“熙薇”为例,如果在搜索过程中,从待识别关键词所对应搜索结果中筛选出目标百科类条目,若确定出目标百科类条目的内容中存在官网、公司、产品等特征词,这些特征词与强官网意图相关,与特征词相关的官网意图越强,确定出的官网意图评分越高,则可以认为待识别关键词“熙薇”对应的待了解对象越有可能为“熙薇化妆品”,而不是一个人。也就是说,该待识别关键词“熙薇”所对应搜索意图为官网意图的可能性非常大,用户输入待识别关键词“熙薇”希望得到的搜索结果为“熙薇化妆品”官网的可能性比希望得到其它搜索结果的可能性大,从而可以将官网对应的条目优先展示,方便用户查看该官网。
接下来,将结合附图对本申请实施例提供的一种搜索意图的识别方法进行介绍。参见图1,所述方法包括:
S101、获取待识别关键词对应的搜索结果。
当用户在搜索引擎中输入待识别关键词后,根据待识别关键词得到的搜索结果中可能包括各种类别的条目,例如,百科类条目、新闻类条目、博客类条目等。本实施例中,S101可以从搜索结果中筛选出目标百科类条目,利用目标百科类条目执行后续确定官网意图评分的操作。
例如,用户在搜索引擎中输入待识别关键词“熙薇”,根据待识别关键词得到的搜索结果中的条目可能包括网名为熙薇的个人微博,该微博为博客类条目,以及“上海汀澜生物科技有限公司”的搜狗百科,该搜狗百科为百科类条目等。
从搜索结果中筛选出的百科类条目可以包括一条,也可以包括多条。目标百科类条目为筛选出的百科类条目中的一个或多个。例如,若筛选出的百科类条目包括“上海汀澜生物科技有限公司”的搜狗百科,可以将该搜狗百科作为目标百科类条目。
S102、根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量。
目标百科类条目的内容中出现特征词,或者目标百科类条目的内容中存在与特征词语义相似的词,则可以认为目标百科类条目的内容与特征词相匹配。
由于特征词可能与强官网意图相关,也可能与弱官网意图相关,甚至可能与非官网意图相关,相应的,目标百科类条目的内容与特征词的匹配结果可以包括匹配到强官网意图的特征词、匹配到弱官网意图的特征词、甚至可能包括匹配到非官网意图的特征词。
在本实施例中,可以通过特征向量来量化匹配结果。特征向量可以包括多个维度,目标百科类条目的内容与一个特征词的匹配结果可以通过特征向量中的一维特征体现。
目标百科类条目的内容与特征词的匹配结果可以包括不同的粒度,例如,目标百科类条目的内容与特征词是否匹配,目标百科类条目的内容与特征词匹配的次数,和/或目标百科类条目的内容与某特征词匹配时,该特征词对确定官网意图可能性影响的大小。
其中,若匹配结果包括目标百科类条目的内容与特征词是否匹配,那么,目标百科类条目的内容与特征词匹配,则在特征向量中该特征词所对应的数值可以为1,若目标百科类条目的内容与特征词不匹配,则在特征向量中该特征词所对应的数值可以为0。
若匹配结果还包括目标百科类条目的内容与特征词匹配的次数,匹配的次数越多,则说明该特征词对于计算官网意图评分的影响越大。因此,可以根据匹配的次数设置该特征词的权重,从而利用权重调整该特征词对计算官网意图评分的影响大小。
另外,官网意图的可能性不同,与官网意图相关的特征词对于计算官网意图评分的影响不同。与特征词相关的官网意图的可能性越大,则说明该特征词对计算官网意图评分的影响越大,则在确定特征向量时为该特征词设置的权重越大。
需要说明的是,在很多百科类条目中,尤其是百科结果例如搜狗百科,通常会具有类别标签,类别标签可以体现出待识别关键词对应的对象是否是一个公司、企业等提供的产品或者服务,类别标签能够明确的体现出待识别关键词的搜索意图为官网意图的可能性。类别标签可以包括企业、品牌、化妆品、人物等。
如果一个百科类条目的类别标签为企业,则该百科类条目为一个企业的百科,可以认为待识别关键词对应的对象为企业提供的产品或服务。用户通过输入待识别关键词希望了解待识别关键词对应的对象,如果通过类别标签确定出该对象为企业提供的产品或服务,由于该企业的官网可以更好的满足用户进一步获知该对象相关信息的需求,因此,与待识别关键词的搜索结果中百科类条目的类别标签不是企业相比,待识别关键词的搜索结果中百科类条目的类别标签为企业时,该待识别关键词的搜索意图为官网意图的可能性更大。
在这种情况下,可以结合目标百科类条目的内容与特征词的匹配结果以及目标百科类条目的类别标签确定特征向量。通过这种方式确定出的特征向量可以体现出更多与确定官网意图相关的信息,进而为确定官网意图评分提供更多的依据。将类别标签增加至特征向量中,增加了官网意图评分的可信程度。
在一些情况下,目标百科类条目可以包括多个,针对任意一个目标百科类条目的内容,都可以执行将目标百科类条目的内容与特征词进行匹配,得到对应的匹配结果的操作。此时,S102的实现方式可以是选择任意一个目标百科类条目的内容,针对所选择的目标百科类条目的内容与特征词的匹配结果确定一个子特征向量,从而根据多个目标百科类条目分别确定出的多个子特征向量计算待识别关键词的特征向量。
S103、根据意图识别模型确定所述特征向量对应的官网意图评分。
将特征向量输入到意图识别模型中,便可以得到官网意图评分。其中,意图识别模型可以是梯度提升树(Gradient Boosting Decision Tree,简称GBDT)模型,也可以是其他模型。意图识别模型是预先训练得到的,其训练方法将在后续实施例进行介绍。
官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。官网意图评分越高,待识别关键词所对应搜索意图为官网意图的可能性越大。
可以理解的是,为了使得待识别关键词对应官网条目在搜索结果中处于合适的位置,增强用户搜索体验,可以根据所述官网意图评分调整所述搜索结果中所述待识别关键词对应官网条目的展示位置。
例如,当前官网对应的条目在搜索结果中与其他条目相比处于比较靠后的位置,若得到的官网意图评分越高,说明待识别关键词所对应搜索意图为官网意图的可能性越大,那么,可以根据官网意图评分将官网对应的条目适当地向前调整,优先展示官网对应的条目,便于用户快速的查找到官网对应的条目。
由上述技术方案可以看出,为了确定用户输入的待识别关键词是否具有官网意图,可以从待识别关键词所对应搜索结果中筛选出目标百科类条目,根据目标百科类条目与特征词的匹配结果确定待识别关键词的特征向量,由于特征词是根据与官网意图所关联百科类条目确定的,而目标百科类条目是根据待识别关键词搜索得到的,故根据上述匹配结果确定出的特征向量可以体现出待识别关键词的官网意图信息,通过意图识别模型计算该特征向量对应的官网意图评分,计算出的官网意图评分能够表示出待识别关键词所对应搜索意图为官网意图的可能性,该官网意图评分可以作为搜索引擎判断待识别关键词的官网意图强弱的依据,从而能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
需要说明的是,在通过S102确定出特征向量后,由于目标百科类条目与待识别关键词之间的关联程度可能不同,关联程度的大小决定了目标百科类条目对于确定官网意图评分的重要程度,那么,在确定特征向量时,可以确定目标百科类条目与所述待识别关键词间的关联程度;根据关联程度调整特征向量,得到调整后的特征向量。具体的,可以根据关联程度设置目标百科类条目对于确定特征向量的权重,关联程度越高,为目标百科类条目设置的权重越大,使得目标百科类条目所对应信息在特征向量中的影响越大,反之,为目标百科类条目设置的权重越小,使得目标百科类条目所对应信息在特征向量中的影响越小。需要说明的是,相关程度可以是根据目标百科类条目的相关信息确定的,该相关信息例如可以是基于待识别关键词进行搜索时目标百科类条目的点击情况、基于待识别关键词进行搜索时目标百科类条目在搜索结果中的排序以及基于待识别关键词进行搜索时返回搜索结果中百科类条目的数目中至少一种进行确定的。其中,点击情况可以是点击次数、点击率等。
若相关信息为基于待识别关键词进行搜索时目标百科类条目的点击次数,如果基于待识别关键词进行搜索时目标百科类条目的点击次数越多,则可以认为目标百科类条目与待识别关键词之间的关联程度越高,该目标百科类条目对于确定官网意图评分的重要程度越高,可以为得到的特征向量设置越大的权重以对该特征向量进行调整,从而使得该目标百科类条目对于确定官网意图评分的影响越大;反之,则为得到的特征向量设置越小的权重以对该特征向量进行调整,从而使得该目标百科类条目对于确定官网意图评分的影响越小。
若相关信息为基于待识别关键词进行搜索时目标百科类条目在搜索结果中的排序,如果基于待识别关键词进行搜索时目标百科类条目在搜索结果中的排序越靠前,则可以认为目标百科类条目与待识别关键词之间的关联程度越高,该目标百科类条目对于确定官网意图评分的重要程度越高,可以为得到的特征向量设置越大的权重以对该特征向量进行调整,从而使得该目标百科类条目对于确定官网意图评分的影响越大;反之,该目标百科类条目对于确定官网意图评分的重要程度越低,为得到的特征向量设置比越小的权重以对该特征向量进行调整,从而使得该目标百科类条目对于确定官网意图评分的影响越小。
若相关信息为基于待识别关键词进行搜索时返回搜索结果中百科类条目的数目,在百科类条目中包括目标百科类条目的情况下,百科类条目的数目越少,则可以认为目标百科类条目与待识别关键词之间的关联程度越高,该目标百科类条目对于确定官网意图评分的重要程度越高,可以为得到的特征向量设置越大的权重以对该特征向量进行调整,从而使得该目标百科类条目对于确定官网意图评分的影响越大;反之,该目标百科类条目对于确定官网意图评分的重要程度越低,为得到的特征向量设置越小的权重以对该特征向量进行调整,从而使得该目标百科类条目对于确定官网意图评分的影响越小。
这样,在执行S103时,便可以将调整后的特征向量输入到意图识别模型,根据意图识别模型确定调整后的特征向量对应的官网意图评分。
通过关联程度对特征向量进行调整,调整后的特征向量可以反映出目标百科类条目对于确定官网意图评分的重要程度,从而增大与其他条目相比重要程度较高的目标百科类条目对于确定官网意图评分的影响,减小与其他条目相比重要程度较低的目标百科类条目对于确定官网意图评分的影响,提高官网意图评分的准确性。
在通过S103确定官网意图评分时,需要使用意图识别模型,意图识别模型是通过训练数据训练得到的。接下来,将对本申请实施例提供的一种搜索意图识别模型的训练方法进行介绍。参见图2,所述方法包括:
S201、根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分。
历史搜索数据中可以记录了搜索历史关键词后,用户针对官网对应条目的点击情况,该点击情况可以反映历史关键词对应的历史官网意图的可能性,历史官网意图的可能性可以通过历史官网意图评分来表示,即根据点击情况可以得到历史关键词对应的历史官网意图评分。其中,点击情况可以包括点击次数、点击率等。
以点击情况为点击率为例,用户搜索历史关键词后,在搜索结果中,用户点击过条目的总点击次数为1000次,其中,用户点击官网对应条目的点击次数为800次,则官网对应条目的点击率为80%,该点击率反映历史官网意图的可能性,则可以将点击率80%作为历史官网意图评分,或者可以根据点击率80%确定其他表示形式的历史官网意图评分,例如,分值形式。
所述特征词是根据与官网意图所关联百科类条目确定的,与官网意图所关联百科类条目可以是指已知官网意图可能性的关键词所对应历史搜索结果中的百科类条目。官网意图通过关键词体现,关键词所体现的官网意图的可能性大小不同,得到的特征词也会有所不同。当官网意图的可能性大于一定阈值例如第一阈值时,可以认为根据与官网意图所关联百科类条目确定出的特征词为官网特征词;当官网意图的可能性小于一定阈值例如第二阈值时,可以认为根据与官网意图所关联百科类条目确定出的特征词为非官网特征词。
在本实施例中,特征词可以包括官网特征词和非官网特征词,或者,特征词可以包括官网特征词。官网特征词是根据第一关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的,第一关键词为历史官网意图评分高于第一阈值的历史关键词;非官网特征词是根据第二关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的,第二关键词为历史官网意图评分低于第二阈值的历史关键词。其中,历史官网意图评分标识历史关键词所体现的官网意图的可能性。
S202、根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量。
S202确定特征向量的方式可以参见S102,此处不再赘述。
S203、根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
通过历史官网意图评分可以知晓历史关键词的搜索意图为官网意图的可能性,在得到历史官网意图评分后,还需要对历史关键词所体现的官网意图信息进行量化,历史关键词对应的搜索结果中的百科类条目可以作为量化历史关键词的官网意图信息的依据,例如根据历史关键词对应的搜索结果中百科类条目与特征词的匹配结果确定历史关键词的特征向量,该特征向量可以反映历史关键词所体现的官网意图信息,是对历史关键词所体现官网意图信息的量化。这样,根据特征向量和历史官网意图评分训练意图识别模型,当使用该意图识别模型确定一个待识别关键词的官网意图评分时,若输入到该意图识别模型中的待识别关键词对应的特征向量与某个历史关键词的特征向量相同或相似,则该待识别关键词与该历史关键词具有相同或相似的搜索意图,待识别关键词所对应搜索意图为官网意图的可能性与该历史关键词所对应搜索意图为官网意图的可能性相近,那么,该意图识别模型输出的官网意图评分与该历史关键词的官网意图评分相近。
由上述技术方案可以看出,意图识别模型是根据特征向量和历史官网意图评分训练得到的,由于特征词是根据与官网意图所关联百科类条目确定的,而百科类条目是根据历史关键词搜索得到的,故根据上述匹配结果确定出的特征向量可以体现出历史关键词所体现出的官网意图信息,而官网意图评分能标识出待识别关键词所对应搜索意图为官网意图的可能性,故,该意图识别模型可以用于计算待识别关键词的特征向量对应的官网意图评分,该官网意图评分可以作为搜索引擎判断待识别关键词的官网意图强弱的依据,从而能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
需要说明的是,在一些情况下,在执行S202时,可以根据目标百科类条目的内容与特征词的匹配结果,以及目标百科类条目的类别标签确定所述待识别关键词对应的特征向量。这样,增加了得到的特征向量的维度,进而为确定官网意图评分提供更多的依据,增加了官网意图评分的可信程度。
需要说明的是,在一些情况下,S202的一种实现方式可以是确定所述百科类条目与所述历史关键词间的关联程度;根据所述关联程度调整所述特征向量,得到调整后的特征向量。相应的,S203的一种实现方式可以是根据所述调整后的特征向量和历史官网意图评分训练意图识别模型。
由于在训练意图识别模型时,考虑到百科类条目与历史关键词间的关联程度对历史官网意图评分的影响,使得训练意图识别模型所使用的特征向量更加准确,训练得到的意图识别模型也更加准确。这样,在使用意图识别模型计算官网意图评分时,也能够考虑到目标百科类条目对于确定官网意图评分的影响,提高官网意图评分的准确性。
在一些情况下,百科类条目可以包括多个,针对任意一个百科类条目的内容,都可以执行将百科类条目的内容与特征词进行匹配,得到对应的匹配结果的操作。此时,S202的实现方式可以是选择任意一个百科类条目的内容,针对所选择的百科类条目的内容与特征词的匹配结果确定一个子特征向量,根据每个匹配结果分别可以确定出一个子特征向量,从而根据多个百科类条目分别确定出的多个子特征向量计算历史关键词的特征向量。
基于图1对应的实施例,本实施提供一种搜索意图的识别装置,参见图3,所述装置包括获取单元301、第一确定单元302和第二确定单元303:
所述获取单元301,用于获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
所述第一确定单元302,用于根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
所述第二确定单元303,用于根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。
可选的,所述第一确定单元,具体用于根据所述目标百科类条目的内容与特征词的匹配结果,以及所述目标百科类条目的类别标签确定所述待识别关键词对应的特征向量。
可选的,所述装置还包括第三确定单元和第一调整单元:
所述第三确定单元,用于确定所述目标百科类条目与所述待识别关键词间的关联程度;
所述第一调整单元,用于根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述第二确定单元,具体用于根据意图识别模型确定所述调整后的特征向量对应的官网意图评分。
可选的,所述目标百科类条目包括多个,所述第一确定单元,具体用于选择任意一个目标百科类条目的内容;根据所选择的目标百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;根据多个所述目标百科类条目分别确定出的多个子特征向量计算所述待识别关键词的特征向量。
可选的,所述装置还包括第二调整单元:
所述第二调整单元,用于根据所述官网意图评分调整所述搜索结果中所述待识别关键词对应官网条目的展示位置。
由上述技术方案可以看出,为了确定用户输入的待识别关键词是否具有官网意图,可以从待识别关键词所对应搜索结果中筛选出目标百科类条目,根据目标百科类条目与特征词的匹配结果确定待识别关键词的特征向量,由于特征词是根据与官网意图所关联百科类条目确定的,而目标百科类条目是根据待识别关键词搜索得到的,故根据上述匹配结果确定出的特征向量可以体现出待识别关键词的官网意图信息,通过意图识别模型计算该特征向量对应的官网意图评分,计算出的官网意图评分能够表示出待识别关键词所对应搜索意图为官网意图的可能性,该官网意图评分可以作为搜索引擎判断待识别关键词的官网意图强弱的依据,从而能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
基于图2对应的实施例,本申请实施例提供一种搜索意图识别模型的训练装置,参见图4,所述装置包括第一确定单元401、第二确定单元402和训练单元403:
所述第一确定单元401,用于根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
所述第二确定单元402,用于根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
所述训练单元403,用于根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
可选的,所述第二确定单元,具体用于根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果,以及所述百科类条目的类别标签确定所述历史关键词的特征向量。
可选的,所述装置还包括第三确定单元和调整单元:
所述第三确定单元,用于确定所述百科类条目与所述历史关键词间的关联程度;
所述调整单元,用于根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述训练单元,具体用于根据所述调整后的特征向量和历史官网意图评分训练意图识别模型。
可选的,所述百科类条目包括多个,所述第二确定单元,具体用于选择任意一个百科类条目的内容;根据所选择的百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;根据多个所述百科类条目分别确定出的多个子特征向量计算所述历史关键词的特征向量。
可选的,所述特征词包括官网特征词和非官网特征词,
所述官网特征词是根据第一关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的;所述第一关键词为历史官网意图评分高于第一阈值的历史关键词;
所述非官网特征词是根据第二关键词所对应历史搜索结果的百科类条目中出现词频高于预设条件的词确定的;所述第二关键词为历史官网意图评分低于第二阈值的历史关键词。
由上述技术方案可以看出,意图识别模型是根据特征向量和历史官网意图评分训练得到的,由于特征词是根据与官网意图所关联百科类条目确定的,而百科类条目是根据历史关键词搜索得到的,故根据上述匹配结果确定出的特征向量可以体现出历史关键词所体现出的官网意图信息,而官网意图评分能标识出待识别关键词所对应搜索意图为官网意图的可能性,故,该意图识别模型可以用于计算待识别关键词的特征向量对应的官网意图评分,该官网意图评分可以作为搜索引擎判断待识别关键词的官网意图强弱的依据,从而能够提高优先展示待识别关键词对应官网的准确性,增强用户搜索体验。
本实施例还提供一种处理设备,该处理设备可以是终端设备,图5是根据一示例性实施例示出的一种终端设备500的框图。例如,终端设备500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,终端设备500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制终端设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在终端设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为终端设备500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述终端设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为终端设备500提供各个方面的状态评估。例如,传感器组件514可以检测到终端设备500的打开/关闭状态,组件的相对定位,例如所述组件为终端设备500的显示器和小键盘,传感器组件514还可以检测终端设备500或终端设备500一个组件的位置改变,用户与终端设备500接触的存在或不存在,终端设备500方位或加速/减速和终端设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于终端设备500和其他设备之间有线或无线方式的通信。终端设备500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由终端设备500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种搜索意图的识别方法,所述方法包括:
获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。
本实施例提供的处理设备还可以是服务器,图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在服务器600上执行存储介质630中的一系列指令操作。
服务器600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,一个或一个以上键盘656,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移服务器的处理器执行时,使得服务器能够执行以下方法:
获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性;
或者,
根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种搜索意图的识别方法,其特征在于,所述方法包括:
获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词对应的特征向量,包括:
根据所述目标百科类条目的内容与特征词的匹配结果,以及所述目标百科类条目的类别标签确定所述待识别关键词对应的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标百科类条目与所述待识别关键词间的关联程度;
根据所述关联程度调整所述特征向量,得到调整后的特征向量;
所述根据意图识别模型确定所述特征向量对应的官网意图评分,包括:
根据意图识别模型确定所述调整后的特征向量对应的官网意图评分。
4.根据权利要求1所述的方法,其特征在于,所述目标百科类条目包括多个,所述根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量,包括:
选择任意一个目标百科类条目的内容;
根据所选择的目标百科类条目的内容与所述特征词的匹配结果确定一个子特征向量;
根据多个所述目标百科类条目分别确定出的多个子特征向量计算所述待识别关键词的特征向量。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
根据所述官网意图评分调整所述搜索结果中所述待识别关键词对应官网条目的展示位置。
6.一种搜索意图的识别装置,其特征在于,所述装置包括获取单元、第一确定单元和第二确定单元:
所述获取单元,用于获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
所述第一确定单元,用于根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
所述第二确定单元,用于根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性。
7.一种搜索意图识别模型的训练方法,其特征在于,
根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
8.一种搜索意图识别模型的训练装置,其特征在于,所述装置包括第一确定单元、第二确定单元和训练单元:
所述第一确定单元,用于根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
所述第二确定单元,用于根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
所述训练单元,用于根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
9.一种处理设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别关键词对应的搜索结果,所述搜索结果中包括目标百科类条目;
根据所述目标百科类条目的内容与特征词的匹配结果确定所述待识别关键词的特征向量;所述特征词是根据与官网意图所关联百科类条目确定的;
根据意图识别模型确定所述特征向量对应的官网意图评分,所述官网意图评分用于标识所述待识别关键词所对应搜索意图为官网意图的可能性;
或者,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
根据历史搜索数据,确定特征词以及历史关键词对应的历史官网意图评分;所述特征词是根据与官网意图所关联百科类条目确定的;
根据所述历史关键词对应的搜索结果中百科类条目与所述特征词的匹配结果确定所述历史关键词的特征向量;
根据所述特征向量和历史官网意图评分训练意图识别模型,所述意图识别模型用于识别关键词所对应搜索意图为官网意图的可能性。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至5中一个或多个,或7中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811603039.7A CN111368161B (zh) | 2018-12-26 | 2018-12-26 | 一种搜索意图的识别方法、意图识别模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811603039.7A CN111368161B (zh) | 2018-12-26 | 2018-12-26 | 一种搜索意图的识别方法、意图识别模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368161A true CN111368161A (zh) | 2020-07-03 |
CN111368161B CN111368161B (zh) | 2024-01-09 |
Family
ID=71209047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811603039.7A Active CN111368161B (zh) | 2018-12-26 | 2018-12-26 | 一种搜索意图的识别方法、意图识别模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368161B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507726A (zh) * | 2020-12-14 | 2021-03-16 | 北京搜狗科技发展有限公司 | 一种义项嵌入向量的训练方法及装置 |
CN113627161A (zh) * | 2021-08-09 | 2021-11-09 | 杭州网易云音乐科技有限公司 | 数据处理方法及装置、存储介质、电子设备 |
CN114077371A (zh) * | 2021-11-12 | 2022-02-22 | 北京百度网讯科技有限公司 | 信息展示方法、装置、电子设备以及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120271843A1 (en) * | 2011-04-19 | 2012-10-25 | International Business Machines Corporation | Computer Processing Method and System for Searching |
CN103514299A (zh) * | 2013-10-18 | 2014-01-15 | 北京奇虎科技有限公司 | 信息搜索方法和装置 |
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN105760508A (zh) * | 2016-02-23 | 2016-07-13 | 北京搜狗科技发展有限公司 | 一种信息推送方法、装置及电子设备 |
CN105787102A (zh) * | 2016-03-18 | 2016-07-20 | 北京搜狗科技发展有限公司 | 搜索方法、装置以及用于搜索的装置 |
WO2017071578A1 (zh) * | 2015-10-27 | 2017-05-04 | 广州神马移动信息科技有限公司 | 搜索方法、装置、系统以及搜索结果调序依据的确定方法 |
CN108804532A (zh) * | 2018-05-03 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
CN108932253A (zh) * | 2017-05-25 | 2018-12-04 | 合网络技术(北京)有限公司 | 多媒体搜索结果展示方法及装置 |
-
2018
- 2018-12-26 CN CN201811603039.7A patent/CN111368161B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120271843A1 (en) * | 2011-04-19 | 2012-10-25 | International Business Machines Corporation | Computer Processing Method and System for Searching |
CN103514299A (zh) * | 2013-10-18 | 2014-01-15 | 北京奇虎科技有限公司 | 信息搜索方法和装置 |
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
WO2017024884A1 (zh) * | 2015-08-07 | 2017-02-16 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
WO2017071578A1 (zh) * | 2015-10-27 | 2017-05-04 | 广州神马移动信息科技有限公司 | 搜索方法、装置、系统以及搜索结果调序依据的确定方法 |
CN105760508A (zh) * | 2016-02-23 | 2016-07-13 | 北京搜狗科技发展有限公司 | 一种信息推送方法、装置及电子设备 |
WO2017143797A1 (zh) * | 2016-02-23 | 2017-08-31 | 北京搜狗科技发展有限公司 | 一种信息推送方法、装置及电子设备 |
CN105787102A (zh) * | 2016-03-18 | 2016-07-20 | 北京搜狗科技发展有限公司 | 搜索方法、装置以及用于搜索的装置 |
WO2017157040A1 (zh) * | 2016-03-18 | 2017-09-21 | 北京搜狗科技发展有限公司 | 搜索方法、装置以及用于搜索的装置 |
CN108932253A (zh) * | 2017-05-25 | 2018-12-04 | 合网络技术(北京)有限公司 | 多媒体搜索结果展示方法及装置 |
CN108804532A (zh) * | 2018-05-03 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
Non-Patent Citations (2)
Title |
---|
刘东飞;白瑾;: "基于群用户兴趣模型的搜索结果排序研究", 武汉理工大学学报(信息与管理工程版), no. 06 * |
郝强;高占春;: "基于SolrCloud的网络百科检索服务的实现", 软件, no. 12 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507726A (zh) * | 2020-12-14 | 2021-03-16 | 北京搜狗科技发展有限公司 | 一种义项嵌入向量的训练方法及装置 |
CN113627161A (zh) * | 2021-08-09 | 2021-11-09 | 杭州网易云音乐科技有限公司 | 数据处理方法及装置、存储介质、电子设备 |
CN113627161B (zh) * | 2021-08-09 | 2024-06-04 | 杭州网易云音乐科技有限公司 | 数据处理方法及装置、存储介质、电子设备 |
CN114077371A (zh) * | 2021-11-12 | 2022-02-22 | 北京百度网讯科技有限公司 | 信息展示方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111368161B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11120078B2 (en) | Method and device for video processing, electronic device, and storage medium | |
CN107526744B (zh) | 一种基于搜索的信息展示方法和装置 | |
CN107992604B (zh) | 一种任务条目的分发方法及相关装置 | |
CN109933714B (zh) | 一种词条权重的计算方法、搜索方法及相关装置 | |
CN109918565B (zh) | 一种搜索数据的处理方法、装置及电子设备 | |
CN108874827B (zh) | 一种搜索方法及相关装置 | |
CN111368161B (zh) | 一种搜索意图的识别方法、意图识别模型训练方法和装置 | |
CN106815291B (zh) | 搜索结果项展现方法、装置和用于搜索结果项展现的装置 | |
CN112148923B (zh) | 搜索结果的排序方法、排序模型的生成方法、装置及设备 | |
CN110929176A (zh) | 一种信息推荐方法、装置及电子设备 | |
CN110110207B (zh) | 一种信息推荐方法、装置及电子设备 | |
CN112307281A (zh) | 一种实体推荐方法及装置 | |
CN112784142A (zh) | 一种信息推荐方法及装置 | |
CN109977293B (zh) | 一种搜索结果相关性的计算方法及装置 | |
CN110110046B (zh) | 同名实体推荐方法及装置 | |
CN111241844A (zh) | 一种信息推荐方法及装置 | |
CN110147426B (zh) | 一种查询文本的分类标签确定方法及相关装置 | |
CN108073664B (zh) | 一种信息处理方法、装置、设备及客户端设备 | |
CN112052395B (zh) | 一种数据处理方法及装置 | |
CN107301188B (zh) | 一种获取用户兴趣的方法及电子设备 | |
CN110020206B (zh) | 一种搜索结果排序方法及装置 | |
CN111382367B (zh) | 一种搜索结果排序方法和装置 | |
CN112083811B (zh) | 一种候选项展示方法和装置 | |
CN111324805B (zh) | 查询意图确定方法及装置、搜索方法及搜索引擎 | |
CN110020153B (zh) | 一种搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |