CN111324805B - 查询意图确定方法及装置、搜索方法及搜索引擎 - Google Patents

查询意图确定方法及装置、搜索方法及搜索引擎 Download PDF

Info

Publication number
CN111324805B
CN111324805B CN201811523459.4A CN201811523459A CN111324805B CN 111324805 B CN111324805 B CN 111324805B CN 201811523459 A CN201811523459 A CN 201811523459A CN 111324805 B CN111324805 B CN 111324805B
Authority
CN
China
Prior art keywords
query
intention
search
type information
strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811523459.4A
Other languages
English (en)
Other versions
CN111324805A (zh
Inventor
肖佳坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811523459.4A priority Critical patent/CN111324805B/zh
Publication of CN111324805A publication Critical patent/CN111324805A/zh
Application granted granted Critical
Publication of CN111324805B publication Critical patent/CN111324805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种查询意图确定方法及装置,所述方法包括:接收查询词;获取所述查询词的历史查询信息;根据所述查询词的历史查询信息得到所述查询词的意图识别特征;利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。利用本发明,可以准确识别用户输入的查询词的意图。

Description

查询意图确定方法及装置、搜索方法及搜索引擎
技术领域
本发明涉及信息搜索领域,具体涉及一种查询意图确定方法及装置,还涉及一种搜索方法及搜索引擎。
背景技术
目前,随着互联网上信息量的不断增加,用户在使用传统搜索引擎进行信息检索时,经常会获得海量搜索结果,而这些搜索结果中经常会有很大一部分与用户搜索意图相去甚远,使用户对这些信息无所适从。为此,人们迫切希望在信息检索过程中,搜索引擎能理解其个性化信息需求,返回与其查询意图高度匹配的搜索结果,尤其是对于热点事件或新闻类事件,用户会更希望能够获取到最新的相关信息。
发明内容
本发明实施例一方面提供一种查询意图确定方法及装置,以准确识别用户输入的查询词查询指定类型信息的意图。
本发明实施例一方面提供一种搜索方法及搜索引擎,能够准确地向用户提供与查询意图相匹配的搜索结果。
为此,本发明提供如下技术方案:
一种查询意图确定方法,所述方法包括:
接收查询词;
获取所述查询词的历史查询信息;
根据所述查询词的历史查询信息得到所述查询词的意图识别特征;
利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
可选地,所述获取所述查询词的历史查询信息包括:
统计所述查询词在预设时间段内至少一个单位时间内的查询次数,得到查询次数列表。
可选地,所述根据所述查询词的历史查询信息得到所述查询词的意图识别特征包括:
将所述查询次数列表转换成折线图;
获取所述折线图的变化趋势特征,并将所述变化趋势特征作为所述查询词对应所述时间段的意图识别特征。
可选地,所述变化趋势特征包括以下任意一项或多项:波峰的数量、波峰的位置、波峰的宽度、波峰的高度;所述波峰的宽度包括时间最近的波峰宽度、和/或最宽的波峰宽度;所述波峰的高度包括时间最近的波峰高度、和/或最高的波峰高度。
可选地,所述预设时间段有多个,多个不同时间段具有包含关系,并且不同时间段内的单位时间粒度不同;
所述方法还包括:
对所述查询词基于不同粒度级别查询指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询指定类型信息的意图强度。
可选地,所述方法还包括:
获取所述查询词的关联词,并确定所述关联词查询指定类型信息的意图强度,所述关联词包括同义词和/或近义词;
根据所述关联词查询指定类型信息的意图强度对所述查询词查询所述指定类型信息的意图强度进行修正。
可选地,所述根据所述关联词查询指定类型信息的意图强度对所述查询词查询所述指定类型信息的意图强度进行修正包括:
将所述查询词查询指定类型信息的意图强度与所述关联词查询所述指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询所述指定类型信息的意图强度。
一种搜索方法,包括:
接收用户输入的搜索语句,并从所述搜索语句中提取查询词;
获取对应所述查询词的搜索结果;
利用前面所述的方法确定所述查询词查询指定类型信息的意图强度;
根据所述查询指定类型信息的意图强度对所述搜索结果进行排序。
可选地,所述根据所述查询指定类型信息的意图强度对所述搜索结果进行排序包括:
如果所述查询指定类型信息的意图强度大于设定值,则将所述搜索结果中对应所述指定类型信息的文档排到其它文档之前。
一种查询意图确定装置,所述装置包括:
查询词获取模块,用于接收查询词;
历史信息获取模块,用于获取所述查询词的历史查询信息;
特征获取模块,用于根据所述历史查询信息得到所述查询词的意图识别特征;
意图确定模块,用于利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
可选地,所述历史信息获取模块,具体用于统计所述查询词在预设时间段内至少一个单位时间内的查询次数,得到查询次数列表。
可选地,所述特征获取模块包括:
数据转换单元,用于将所述查询次数列表转换成折线图;
特征确定单元,用于获取所述折线图的变化趋势特征,并将所述变化趋势特征作为所述查询词对应所述时间段的意图识别特征。
可选地,所述变化趋势特征包括以下任意一项或多项:波峰的数量、波峰的位置、波峰的宽度、波峰的高度;所述波峰的宽度包括时间最近的波峰宽度、和/或最宽的波峰宽度;所述波峰的高度包括时间最近的波峰高度、和/或最高的波峰高度。
可选地,所述预设时间段有至少两个,不同时间段具有包含关系,并且不同时间段内的单位时间粒度不同;
所述装置还包括:
加权处理模块,用于对所述意图确定模块得到的所述查询词基于不同粒度级别查询指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询指定类型信息的意图强度。
可选地,所述装置还包括:关联词获取模块、修正模块;
所述关联词获取模块,用于获取所述查询词的关联词,所述关联词包括同义词和/或近义词;
所述历史信息获取模块,还用于获取所述关联词的历史查询信息;
特征获取模块,还用于根据所述关联词的历史查询信息得到所述关联词的意图识别特征;
所述意图确定模块,用于利用所述关联词的意图识别特征确定所述关联词查询指定类型信息的意图强度。
所述修正模块,用于根据所述关联词查询指定类型信息的意图强度对所述查询词查询所述指定类型信息的意图强度进行修正。
可选地,所述修正模块,具体用于将所述查询词查询指定类型信息的意图强度与所述关联词查询所述指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询所述指定类型信息的意图强度。
一种搜索引擎,包括:搜索前端、搜索后端、以及前面所述的查询意图确定装置;
所述搜索前端,用于接收用户输入的搜索语句,并将所述搜索语句传送给所述搜索后端;
所述搜索后端,用于从所述搜索语句中提取查询词,获取对应所述查询词的搜索结果;
所述查询意图确定装置,用于确定所述查询词查询指定类型信息的意图强度;
所述搜索后端,还用于根据所述查询词查询指定类型信息的意图强度对所述搜索结果进行排序。
可选地,所述搜索后端在所述查询指定类型信息的意图强度大于设定值时,将所述搜索结果中对应所述指定类型信息的文档排到其它文档之前。
一种电子设备,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。
一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。
本发明实施例提供的查询意图确定方法及装置,根据查询词的历史查询信息得到查询词的意图识别特征,然后利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
由于查询次数的变化情况从侧面反映了查询词的热门程度,因此,本发明方案进一步统计查询词的查询次数,将查询次数的变化情况作为查询词的意图识别特征,可以更好地预测查询词查询指定类型信息的意图。尤其是对于某些突发性新闻,如果网络上很多媒体都没有来得及发布文章,那么利用现有技术则得不到太多的新闻文档,可能预测不出查询词查询新闻类型信息的意图;如果利用本发明方案,由于用户对突发性新闻的查询量往往很大,从而可以准确预测出查询词查询新闻类信息的意图。
进一步地,可以针对多个不同粒度的时间段,分别预测查询词基于不同单位时间粒度查询指定类型信息的意图强度,然后综合这些不同单位时间粒度的意图强度确定查询词的意图强度,使最终的预测结果更加准确。
进一步地,综合查询词的同义词和/或近义词查询指定类型信息的意图强度,对查询词查询所述指定类型信息的意图强度进行修正,可以得到更准确的预测结果,尤其是针对同一指定类型信息的文档有多种语义表达方式的情况,可以避免单一查询词对预测结果的影响。
本发明实施例提供的搜索方法及搜索引擎,根据查询词查询指定类型信息的意图强度对搜索结果进行排序,可以大大提升用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例查询意图确定方法的一种流程图;
图2是本发明实施例中对应查询次数列表的折线图示例;
图3是本发明实施例查询意图确定方法的另一种流程图;
图4是本发明实施例搜索方法的流程图;
图5是本发明实施例查询意图确定装置的一种结构框图;
图6是本发明实施例查询意图确定装置的另一种结构框图;
图7是本发明实施例查询意图确定装置的另一种结构框图;
图8是本发明实施例搜索引擎的结构框图;
图9是根据一示例性实施例示出的一种用于查询意图确定方法的装置的框图;
图10是本发明实施例中服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供一种查询意图确定方法及装置,根据查询词的历史查询信息得到查询词的意图识别特征,然后利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
如图1所示,是本发明实施例查询意图确定方法的一种流程图,包括以下步骤:
步骤101,接收查询词。
所述查询词可以是用户输入的搜索语句中的全部或部分文本,所述搜索语句可以由用户通过智能设备提供的多种输入方法输入至浏览器的搜索栏中,比如,可以通过语音输入、文字输入、手写输入等方式输入所述搜索语句。
需要说明的是,查询词的获取需要对所述搜索语句进行一定的处理,比如去掉所述搜索语句中的一些非关键词、对部分词语进行适当变换等,以增加召回的搜索结果的准确性及全面性。这些处理可以采用现有技术,在此不再赘述。
步骤102,获取所述查询词的历史查询信息。
所述查询词的历史查询信息主要是指针对该查询词的历史查询次数,查询次数的变化情况可以反映查询词的热度变化情况,从而可以在一定程度上体现该查询词查询指定类型信息的意图强度。
具体地,可以统计最近一段时间内,比如48小时内、一周内、一个月内等,该查询词在单位时间内的查询次数,得到查询次数列表。所述单位时间可以根据统计时段的不同设置不同的粒度,比如:
对于48小时内的历史查询信息,分别统计其中每小时的查询次数;
对于一周内的历史查询信息,分别统计其中每天的查询次数;
对于一个月内的历史查询信息,分别统计其中每周的查询次数。
需要说明的是,上面的单位时间粒度仅仅是一种举例,在实际应用中,可以根据需要设定,比如,对于一个月内的历史查询信息,也可以分别统计其中每天或每小时的查询次数,对此本发明实施例不做限定。
步骤103,根据所述查询词的历史查询信息得到所述查询词的意图识别特征。
由于查询次数的变化情况从侧面反映了查询词的热门程度,为此,在本发明实施例中,可以将查询次数的变化情况作为查询词的意图识别特征。
为了更便于描述查询次数的变化情况,可以将所述查询次数列表转换成折线图,所述折线图的横轴代表时间,纵轴代表统计次数。然后获取所述折线图的变化趋势特征,并将所述变化趋势特征作为所述查询词对应所述时间段的意图识别特征。
所述折线图的变化趋势特征具体可以包括但不限于:所述折线图的波峰的数量、波峰的位置、波峰的宽度、波峰的高度。其中,所述波峰的宽度可以是时间最近的波峰宽度、和/或最宽的波峰宽度;所述波峰的高度可以是时间最近的波峰高度、和/或最高的波峰高度。比如,针对某查询词,最近15天内每天的查询次数如下:
(53,105,85,106,77,32,10,0,0,0,0,0,0,0,0)。
对应上述统计数据,得到对应的折线图如图2所示。
其中,波峰的位置为2和4,数量为2,波峰的高度、宽度如图所示。
其中,波峰的数量为2,其位置分别为t=2、t=4,波峰的高度为105,波峰的宽度为2。
步骤104,利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
所述指定类型信息主要是一些时效性比较强的信息,比如,新闻类、股票类、汇率类等信息。时效性是指同一件事物在不同的时间,具有很大的性质或效果或价值上的差异。
所述指定类型意图强度预测模型可以采用GBDT(Gradient Boosting DecisionTree,梯度迭代决策树),所述GBDT模型是利用GB的策略训练出来的DT模型。所述指定类型意图强度预测模型的输入为查询词的意图识别特征,输出为该查询词查询指定类型信息的意图强度得分。
所述指定类型意图强度预测模型的训练方式与常规GBDT的训练方式类似,在此不再赘述。
在确定所述查询词查询指定类型信息的意图强度时,将步骤103得到的所述查询词的意图识别特征输入所述指定类型意图强度预测模型,根据模型输出即可得到该查询词查询指定类型信息的意图强度。
比如,对于一个查询词,统计该查询词在最近48小时内每小时的查询次数,即每小时的pv(page view)数,根据这些pv数可以看出该查询词最近48小时查询次数的变化情况,使用这些信息确定所述查询词的意图识别特征,利用所述意图识别特征及所述指定类型意图强度预测模型,得到该查询词“小时”级别的意图强度。
本发明实施例提供的查询意图确定方法,不依赖于查询词召回的文档特征进行意图的判断,而是基于查询词的历史查询信息对查询词查询指定类型信息的意图进行预测,从而可以使预测结果达到较高的准确率,尤其是对于一些与突发新闻或热点事件等相关的查询词,可以及时反映查询词查询该类信息的意图。
需要说明的是,在实际应用中,对于一个查询词,可以同时统计多个不同时间段及不同单位时间粒度的查询次数,得到该查询词基于不同粒度级别查询指定类型信息的意图强度,然后再综合考虑这些基于不同粒度级别的意图强度,比如通过加权计算,确定最终的意图强度。所述多个不同时间段具有包含关系,而且不同时间段内的单位时间粒度不同。
比如,对于查询词“重庆公交车坠江原因”,确定其查询新闻类信息的意图强度(为了描述方便,后面将其称为新闻意图强度)的过程如下:
(1)统计该查询词在最近48小时内每小时被查询的次数,构成查询次数列表(1825 29 26 31 21 11 5 0 0 2 9 6 20 19 21 32 34 44 16 2 1 1 0 3 4 3 1 0 0 0 0 00 0 2 2 6 0 1 2 1 0 3 2 3 3 5)。该列表表示过去0-1小时,该词被搜索了18次,过去1-2小时,该词被搜索了25次,以此类推。
利用该查询次数列表的信息,绘制折线图,其横轴代表时间,纵轴代表统计次数。利用该折线图的波峰、波谷等信息,可以构建多种特征,如波峰的位置、波峰的数量、波峰的宽度、波峰的长度等等。
将上述这些特征输入到新闻类意图强度预测模型,进行预测,可以得到该查询词“小时”级别的新闻意图强度。
(2)同样对于该查询词,统计其一个月内每天被查询的次数,如(219 78 43 25 2659 37 105 14 11 20 10 6 7 7 7 9 9 15 1 6 5 14 7 5 0 3 15 12 12)。
采用与步骤(1)类似方法,可以得到该查询词“天”级别的新闻意图强度。
(3)继续对该查询词统计其最近48周每周被查询的次数,得到该查询词“周”级别的新闻意图强度。
(4)对上述基于不同粒度级别的新闻意图强度进行加权,将加权结果作为所述查询词的新闻意图强度。
比如,对于一个查询词,如果其小时级别的新闻意图很强,则该新闻可能是最近几小时发生的,其整体新闻意图很强。如果小时级别的新闻意图弱,天级别的新闻意图强,则该新闻可能是最近1-2天发生的,其整体新闻意图也较强,但比小时级别的新闻意图弱。如果小时级别和天级别的新闻意图都很弱,而周级别的新闻意图强,则该新闻可能是最近1-2周发生的,其整体新闻意图会稍弱一些。对“小时级别”“天级别”“周级别”的新闻意图强度赋予不同的权重,相加即可获得所述查询词最终的新闻意图强度。
进一步地,考虑到语言表达的丰富性,对于同一指定类型信息的文档,可能会被多种不同表达方式的查询词召回,针对这种情况,在本发明方法另一实施例中,还可对查询词的关联词进行意图预测,根据所述关联词查询指定类型信息的意图强度对查询词查询所述指定类型信息的意图强度进行修正,进一步提高预测结果的准确性。其中,所述查询词的关联词可以包括:所述查询词的同义词和/或近义词。
如图3所示,是本发明实施例查询意图确定方法的另一种流程图,包括以下步骤:
步骤301,获取查询词及其关联词,所述关联词包括同义词和/或近义词。
所述查询词可以是用户输入的搜索语句中的全部或部分文本,所述关联词可以通过查询相应的词典确定,比如查询同义词词典得到所述查询词的同义词,查询近义词词典得到所述查询词的近义词。
对于一个查询词,其同义词或者近义词可以有一个或多个,如果有多个同义词或者近义词,可以同时获取这些同义词或者近义词。
步骤302,获取所述查询词的历史查询信息、以及所述关联词的历史查询信息。
步骤303,利用所述历史查询信息及指定类型意图强度预测模型分别确定所述查询词查询指定类型信息的意图强度以及所述关联词查询指定类型信息的意图强度。
需要说明的是,对于查询词查询指定类型信息的意图强度预测,可以按照前面所述的方法,同时统计多个不同时间段及不同单位时间粒度的所述查询词的查询次数,得到该查询词基于不同粒度级别的意图强度,然后再综合考虑这些基于不同粒度级别的意图强度,确定所述查询词查询指定类型信息的意图强度。
对于查询词的关联词,同样按照前面所述的方法,同时统计多个不同时间段及不同单位时间粒度的所述关联词的查询次数,得到该关联词基于不同粒度级别查询指定类型信息的意图强度,然后再综合考虑这些基于不同粒度级别的意图强度,确定所述关联词查询指定类型信息的意图强度。需要说明的是,对应一个查询词有多个关联词的情况,可以分别预测其中的一个或者多个或者全部关联词查询所述指定类型信息的意图强度。
步骤304,根据所述关联词查询指定类型信息的意图强度对所述查询词查询指定类型信息的意图强度进行修正。
比如,可以将所述查询词查询指定类型信息的意图强度与所述关联词查询指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询指定类型信息的意图强度。每个关联词对应的权重比如可以根据该关联词的历史查询次数来确定。当然,也可以采用其它的修正方式,对此本发明实施例不做限定。
前面提到,所述关联词可以包括同义词和近义词,考虑到同义词和近义词在词义上与所述关联词的差异,对所述查询词查询指定类型信息的意图强度进行修正时,可以对同义词查询指定类型信息的意图强度和近义词查询指定类型信息的意图强度赋予不同的权重,以使修正后的所述查询词查询所述指定类型信息的意图强度更准确。
本发明实施例提供的查询意图确定方法,不仅根据查询词的历史查询信息对查询词查询指定类型信息的意图进行预测,而且对查询词的关联词查询所述指定类型信息的意图进行预测,并根据关联词的预测结果对查询词查询所述指定类型信息的意图强度进行修正,可以得到更准确的预测结果,尤其是针对同一文档对应有多种语义表达方式的情况,可以避免单一查询词对预测结果的影响。
相应地,基于上述对查询词查询指定类型信息的意图的预测,本发明实施例还提供一种搜索方法,如图4所示,是该搜索方法的流程图,包括以下步骤:
步骤401,接收用户输入的搜索语句,并从所述搜索语句中提取查询词。
步骤402,获取对应所述查询词的搜索结果。
所述搜索结果可以是由搜索引擎采用现有的一些搜索技术得到的搜索结果,其内容可以包括文档、图片、音频、视频等形式。
步骤403,确定所述查询词查询指定类型信息的意图强度。
步骤404,根据所述查询词查询指定类型信息的意图强度对所述搜索结果进行排序。
当然,在对搜索结果进行排序时,可以在现有的排序规则基础上,将查询词查询指定类型信息的意图强度考虑进来,比如,如果所述查询词查询新闻类信息的意图强度大于设定值,则将所述搜索结果中新闻类文档排到其它文档之前;否则,将所述搜索结果中新闻类文档排到其它文档之后。
比如,查询词为“重庆公交客车”。若“重庆公交客车坠江”事件发生在最近几小时或最近一两天,则可以判断出新闻意图很强,叙述重庆公交客车的相关新闻类文档则应该排到其他文档之前。如果“重庆公交客车坠江”事件发生在几周之前,或者最近没有与重庆公交客车相关的新闻,则排到前面的文档就应该是“重庆公交车时刻表”、“重庆公交车线路查询”等文档。
将上述排序后的搜索结果返回并呈现给用户,可以大大提高用户的搜索体验。
相应地,本发明实施例还提供一种查询意图确定装置,如图5所示,是该查询意图确定装置的一种结构框图。
在该实施例中,所述装置包括以下各模块:
查询词获取模块501,用于接收查询词;
历史信息获取模块502,用于获取所述查询词的历史查询信息;
特征获取模块503,用于根据所述历史查询信息得到所述查询词的意图识别特征;
意图确定模块504,用于利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
所述查询词的历史查询信息主要是指针对该查询词的历史查询次数。查询次数的变化情况可以反映查询词的热度变化情况,从而可以在一定程度上体现该查询词查询指定类型信息的意图强度。相应地,所述历史信息获取模块502具体可以统计所述查询词在预设时间段内至少一个单位时间内的查询次数,得到查询次数列表。
相应地,所述特征获取模块503可以将查询次数的变化情况作为查询词的意图识别特征。所述特征获取模块503的一种具体结构可以包括以下各单元:
数据转换单元,用于将所述查询次数列表转换成折线图;
特征确定单元,用于获取所述折线图的变化趋势特征,并将所述变化趋势特征作为所述查询词对应所述时间段的意图识别特征。
所述折线图的变化趋势特征具体可以包括但不限于:波峰的数量、波峰的位置、波峰的宽度、波峰的高度;所述波峰的宽度包括时间最近的波峰宽度、和/或最宽的波峰宽度;所述波峰的高度包括时间最近的波峰高度、和/或最高的波峰高度。
所述意图确定模块504可以将上述特征获取模块503得到的各特征输入输入所述指定类型意图强度预测模型,根据模型输出即可得到该查询词查询指定类型信息的意图强度。
本发明实施例中的指定类型意图强度预测模型可以由模型构建模块(未图示)预先构建,所述模型构建模块可以作为本发明装置的一部分,也可以独立于该装置,对此不做限定。
所述指定类型意图强度预测模型可以采用GBDT模型,其输入为查询词的意图识别特征,输出为该查询词查询指定类型信息的意图强度得分。所述指定类型意图强度预测模型的训练方式与常规GBDT的训练方式类似,在此不再赘述。
本发明实施例提供的查询意图确定装置,不依赖于查询词召回的文档特征进行意图的判断,而是基于查询词的历史查询信息对查询词查询指定类型信息的意图进行预测,从而可以使预测结果达到较高的准确率,尤其是对于一些与突发新闻或热点事件等相关的查询词,可以及时反映查询词查询该类信息的意图。
需要说明的是,在实际应用中,对于一个查询词,可以同时统计多个不同时间段及不同单位时间粒度的查询次数,得到该查询词基于不同粒度级别查询指定类型信息的意图强度,然后再综合考虑这些基于不同粒度级别的意图强度,比如通过加权计算,确定最终的意图强度。
如图6所示,是本发明实施例查询意图确定装置的另一种结构框图。
与图5所示实施例相比,在该实施例中,历史信息获取模块502需要获取对应所述查询词的多个不同时间段及不同单位时间粒度的查询次数,比如,对于一个查询词,分别统计该查询词在最近48小时内每小时被查询的次数、在最近一周内每天被查询的次数、在最近一个月内每周被查询的次数等。
相应地,特征获取模块503根据上述不同时间段内所述查询词的历史查询信息,得到所述查询词在各时间段内的意图识别特征;意图确定模块504利用各时间段内所述查询词的意图识别特征及指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
在该实施例中,所述装置还包括:加权处理模块505,用于对所述意图确定模块得到的基于不同粒度级别查询指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询指定类型信息的意图强度。也就是说,融合多个不同粒度级别的意图强度,确定所述查询词最终的意图强度,使最终的预测结果更加准确。
如图7所示,是本发明实施例查询意图确定装置的另一种结构框图。
与图6所示实施例不同的是,在该实施例中,所述装置还包括:关联词获取模块601和修正模块602。
其中,所述关联词获取模块601用于获取所述查询词的关联词,所述关联词包括同义词和/或近义词。比如,可以通过查询同义词词典得到所述查询词的同义词,通过查询近义词词典得到所述查询词的近义词。所述同义词和所述近义词均可以有一个或多个。
另外,在该实施例中,所述历史信息获取模块502不仅要获取所述查询词的历史查询信息,而且还要获取所述关联词的历史查询信息;同样,所述特征获取模块503不仅要根据所述查询词的历史查询信息得到所述查询词的意图识别特征,还要根据所述关联词的历史查询信息得到所述关联词的意图识别特征;所述意图确定模块504需要根据所述特征获取模块503得到的意图识别特征分别确定所述查询词查询指定类型信息的意图强度及所述关联词查询所述指定类型信息的意图强度。
在该实施例中,所述加权处理模块505是可选模块,也就是说,对于查询词及其关联词,可以分别融合多个不同粒度级别查询指定类型信息的意图强度,确定所述查询词及其关联词查询指定类型信息的意图强度;也可以只统计单一时间段内的历史查询信息,确定各自查询指定类型信息的意图强度;当然,也可以只针对查询词或关联词,统计单一时间段或多个时间段内的历史查询信息,利用这些信息得到各自最终的意图强度。
在该实施例中,所述修正模块602用于根据所述关联词查询指定类型信息的意图强度对所述查询词查询指定类型信息的意图强度进行修正,比如可以将所述查询词查询指定类型信息的意图强度与所述关联词查询指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询所述指定类型信息的意图强度。当然,也可以采用其它的修正方式,对此本发明实施例不做限定。
本发明实施例提供的查询意图确定装置,不仅根据查询词的历史查询信息对查询词查询指定类型信息的意图进行预测,而且对查询词的关联词查询所述指定类型信息的意图进行预测,并根据关联词的预测结果对查询词查询所述指定类型信息的意图强度进行修正,可以得到更准确的预测结果,尤其是针对同一文档对应有多种语义表达方式的情况,可以避免单一查询词对预测结果的影响。
相应地,基于上述各实施例的查询意图确定装置,本发明实施例还提供一种搜索引擎,能够根据预测的查询词查询指定类型信息的意图强度对搜索结果进行排序,将排序后的搜索结果返回并呈现给用户,可以大大提高用户的搜索体验。
如图8所示,是本发明实施例搜索引擎的结构框图,包括:搜索前端71、搜索后端72、以及前面所述的查询意图确定装置70。其中:
所述搜索前端71用于接收用户输入的搜索语句,并将所述搜索语句传送给所述搜索后端;
所述搜索后端72用于从所述搜索语句中提取查询词,获取对应所述查询词的搜索结果;
所述查询意图确定装置70用于确定所述查询词查询指定类型信息的意图强度;
所述搜索后端72还用于根据所述查询词查询指定类型信息的意图强度对所述搜索结果进行排序。比如,在所述查询词查询新闻类信息的意图强度大于设定值时,将所述搜索结果中新闻类文档排到其它文档之前;否则,将所述搜索结果中新闻类文档排到其它文档之后。
这样,所述搜索后端72将排序后的搜索结果返回给搜索前端71,搜索前端71将所述搜索结果呈现给用户,可以使用户方便、快速地找到自己想查询的文档,大大提升用户体验。
图9是根据一示例性实施例示出的一种用于查询意图确定方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。
图10是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种查询意图确定方法,其特征在于,所述方法包括:
接收查询词;
统计所述查询词在预设时间段内至少一个单位时间内的查询次数,得到查询次数列表;
将所述查询次数列表转换成折线图;所述折线图的横轴代表时间,所述折线图的纵轴代表统计次数;
获取所述折线图的变化趋势特征,并将所述变化趋势特征作为所述查询词对应所述时间段的意图识别特征,得到所述查询词的意图识别特征;所述折线图的变化趋势特征包括所述折线图的波峰的数量、波峰的位置、波峰的宽度、波峰的高度;
利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
2.根据权利要求1所述的方法,其特征在于,所述预设时间段有多个,多个不同时间段具有包含关系,并且不同时间段内的单位时间粒度不同;所述方法还包括:
对所述查询词基于不同粒度级别查询指定类型信息的意图强度进行加权,将加权结果作为所述查询词查询指定类型信息的意图强度。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取所述查询词的关联词,并确定所述关联词查询指定类型信息的意图强度,所述关联词包括同义词和/或近义词;
根据所述关联词查询指定类型信息的意图强度对所述查询词查询所述指定类型信息的意图强度进行修正。
4.一种搜索方法,其特征在于,包括:
接收用户输入的搜索语句,并从所述搜索语句中提取查询词;
获取对应所述查询词的搜索结果;
利用权利要求1至3任一项所述的方法确定所述查询词查询指定类型信息的意图强度;
根据所述查询指定类型信息的意图强度对所述搜索结果进行排序。
5.一种查询意图确定装置,其特征在于,所述装置包括:
查询词获取模块,用于接收查询词;
历史信息获取模块,用于统计所述查询词在预设时间段内至少一个单位时间内的查询次数,得到查询次数列表;
特征获取模块,用于将所述查询次数列表转换成折线图;所述折线图的横轴代表时间,所述折线图的纵轴代表统计次数;获取所述折线图的变化趋势特征,并将所述变化趋势特征作为所述查询词对应所述时间段的意图识别特征,得到所述查询词的意图识别特征;所述折线图的变化趋势特征包括所述折线图的波峰的数量、波峰的位置、波峰的宽度、波峰的高度;
意图确定模块,用于利用所述查询词的意图识别特征及预先构建的指定类型意图强度预测模型确定所述查询词查询指定类型信息的意图强度。
6.一种搜索引擎,其特征在于,包括:搜索前端、搜索后端、以及如权利要求5所述的查询意图确定装置;
所述搜索前端,用于接收用户输入的搜索语句,并将所述搜索语句传送给所述搜索后端;
所述搜索后端,用于从所述搜索语句中提取查询词,获取对应所述查询词的搜索结果;
所述查询意图确定装置,用于确定所述查询词查询指定类型信息的意图强度;
所述搜索后端,还用于根据所述查询词查询指定类型信息的意图强度对所述搜索结果进行排序。
7.一种电子设备,其特征在于,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现如权利要求1至4任一项所述的方法。
8.一种可读存储介质,其上存储有指令,所述指令被执行以实现如权利要求1至4任一项所述的方法。
CN201811523459.4A 2018-12-13 2018-12-13 查询意图确定方法及装置、搜索方法及搜索引擎 Active CN111324805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811523459.4A CN111324805B (zh) 2018-12-13 2018-12-13 查询意图确定方法及装置、搜索方法及搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523459.4A CN111324805B (zh) 2018-12-13 2018-12-13 查询意图确定方法及装置、搜索方法及搜索引擎

Publications (2)

Publication Number Publication Date
CN111324805A CN111324805A (zh) 2020-06-23
CN111324805B true CN111324805B (zh) 2024-02-13

Family

ID=71162869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523459.4A Active CN111324805B (zh) 2018-12-13 2018-12-13 查询意图确定方法及装置、搜索方法及搜索引擎

Country Status (1)

Country Link
CN (1) CN111324805B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076080B (zh) * 2021-04-21 2022-05-17 百度在线网络技术(北京)有限公司 模型训练方法和装置、意图识别方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755685A (zh) * 2004-09-30 2006-04-05 微软公司 查询图
EP1705588A1 (en) * 2005-03-25 2006-09-27 Sony Corporation Content searching method, content list searching method, content searching apparatus, content list searching apparatus, and searching server
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN104778176A (zh) * 2014-01-13 2015-07-15 阿里巴巴集团控股有限公司 一种数据搜索处理方法及装置
CN105678229A (zh) * 2015-12-29 2016-06-15 中国科学院深圳先进技术研究院 一种高光谱影像检索方法
CN105991699A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种互联网爬虫的分布式下载系统
CN106484671A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种时效性查询内容的识别方法
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1755685A (zh) * 2004-09-30 2006-04-05 微软公司 查询图
EP1705588A1 (en) * 2005-03-25 2006-09-27 Sony Corporation Content searching method, content list searching method, content searching apparatus, content list searching apparatus, and searching server
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN104778176A (zh) * 2014-01-13 2015-07-15 阿里巴巴集团控股有限公司 一种数据搜索处理方法及装置
CN105991699A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种互联网爬虫的分布式下载系统
CN106484671A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种时效性查询内容的识别方法
CN105678229A (zh) * 2015-12-29 2016-06-15 中国科学院深圳先进技术研究院 一种高光谱影像检索方法
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户查询意图的搜索排序算法;张美珍;王治莹;;天津理工大学学报(第03期);第48-53页 *

Also Published As

Publication number Publication date
CN111324805A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107608532B (zh) 一种联想输入方法、装置及电子设备
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN111291069B (zh) 一种数据处理方法、装置和电子设备
CN111984749B (zh) 一种兴趣点排序方法和装置
CN111708943B (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN107315487B (zh) 一种输入处理方法、装置及电子设备
CN108345612B (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN112307281B (zh) 一种实体推荐方法及装置
CN110019885B (zh) 一种表情数据推荐方法及装置
CN109977293B (zh) 一种搜索结果相关性的计算方法及装置
CN111381685B (zh) 一种句联想方法和装置
CN111368161B (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN111324805B (zh) 查询意图确定方法及装置、搜索方法及搜索引擎
CN110399468B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112052395B (zh) 一种数据处理方法及装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN110020206B (zh) 一种搜索结果排序方法及装置
CN111382566B (zh) 一种站点主题的确定方法、装置和电子设备
CN110020153B (zh) 一种搜索方法及装置
CN114077712B (zh) 一种搜索结果排序方法及装置
CN114238705B (zh) 一种相关搜索推荐方法、装置及电子设备
CN112883295B (zh) 一种数据处理方法、装置和介质
CN112837813A (zh) 自动问诊方法及装置
CN112989232B (zh) 一种搜索结果排序方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant