CN114168810A - 搜索意图确定方法、装置、设备以及存储介质 - Google Patents
搜索意图确定方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114168810A CN114168810A CN202111402741.9A CN202111402741A CN114168810A CN 114168810 A CN114168810 A CN 114168810A CN 202111402741 A CN202111402741 A CN 202111402741A CN 114168810 A CN114168810 A CN 114168810A
- Authority
- CN
- China
- Prior art keywords
- search
- search session
- session
- intention
- intent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 38
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 239000013598 vector Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种搜索意图确定方法、装置、设备以及存储介质,涉及人工智能技术领域,以至少解决现有技术中确定的搜索意向准确率低的问题。该方法包括:获取搜索会话序列,搜索会话序列包括至少两个连续的搜索会话;针对搜索会话序列中的每个搜索会话,获取搜索会话对应的维度特征,维度特征包括目标特征;目标特征为基于搜索会话对应的账户的历史搜索会话的停顿时间,对搜索会话的搜索意图进行预估得到的;根据搜索会话对应的维度特征,确定搜索会话的意图标签;意图标签用于表征搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种搜索意图确定方法、装置、设备以及存储介质。
背景技术
通常情况下,当用户需要了解某些信息时,会通过在网络上搜索得到对应信息。其中,对应信息是根据用户的搜索意图确定出的。
相关技术中,用户的搜索意图大多是通过用户的查询时间或查询词确定的。这种确定方式使用的特征较为单一,使得最终得到的搜索意图不太准确。
发明内容
本公开提供一种搜索意图确定方法、装置、设备以及存储介质,以至少解决现有技术中确定的搜索意图准确率低的问题。
本公开的技术方案如下:
根据本公开的第一方面,提供一种搜索意图确定方法,该搜索意图确定方法包括:搜索意图确定装置获取搜索会话序列,搜索会话序列包括至少两个连续的搜索会话;针对搜索会话序列中的每个搜索会话,获取搜索会话对应的维度特征,维度特征包括目标特征;目标特征为基于搜索会话对应的账户的历史搜索会话的停顿时间,对搜索会话的搜索意图进行预估得到的;根据搜索会话对应的维度特征,确定搜索会话的意图标签;意图标签用于表征搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。
可选的,搜索会话对应的维度特征还包括下述至少一个:公共词长度特征、分词后的重合度特征和相似度特征;公共词长度特征包括:第一长度参数或第二长度参数,第一长度参数用于表征公共词的长度值相对于相邻搜索会话的词的长度值的占比,第二长度参数用于表征公共词的长度值相对于搜索会话的词的长度值的占比;公共词为搜索会话和相邻搜索会话中共有的词;分词后的重合度特征包括:第一重合度参数或第二重合度参数,第一重合度参数用于表征公共语素相对于相邻搜索会话对应的分词的重合程度,第二重合度参数用于表征公共语素相对于搜索会话的分词的重合程度;公共语素为对搜索会话和相邻搜索会话中具备相同属性的词;相似度特征包括:搜索会话和相邻搜索会话的文本余弦距离。
可选的,在相邻搜索会话包括搜索会话的前一个搜索会话的情况下,维度特征包括第一时间间隔,第一时间间隔为搜索会话与前一个搜索会话的时间间隔;在相邻搜索会话包括搜索会话的后一个搜索会话的情况下,维度特征包括第二时间间隔,第二时间间隔为搜索会话与后一个搜索会话的时间间隔。
可选的,根据每个搜索会话对应的维度特征,确定每个搜索会话的意图标签,包括:将每个搜索会话对应的维度特征输入搜索意图确定模型,得到每个搜索会话的意图标签,搜索意图确定模型为梯度提升决策树模型。
可选的,方法还包括:获取搜索会话序列样本和搜索会话序列样本中每个搜索会话样本的标准意图标签;其中,标准意图标签为第一标签或者第二标签,第一标签用于表征搜索会话样本为搜索会话序列样本中的第一个搜索会话样本,且第一个搜索会话样本为搜索意图对应的起始搜索会话样本,或者搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图不一致;第二标签用于表征搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图类似;搜索意图类似包括搜索意图相同、搜索意图的范围缩小、搜索意图的范围扩大或搜索意图相关。根据搜索会话序列样本和标准意图标签训练预设模型,得到搜索意图确定模型。
可选的,方法还包括:基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话进行归类,得到搜索会话库;或,基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话对应的搜索结果进行整合,得到搜索结果库。
可选的,方法还包括:获取第一搜索会话和第二搜索会话,第一搜索会话和第二搜索会话均属于搜索会话序列中具备相同意图标签且连续的搜索会话;获取第一搜索会话对应的搜索结果的第一条目数,以及第二搜索会话对应的搜索结果的第二条目数;根据第一条目数与第二条目数的关系,确定第一搜索会话与第二搜索会话之间的意图关系。
可选的,方法还包括:在第一条目数大于第二条目数的情况下,确定第一搜索会话的搜索意图的范围大于第二搜索会话的搜索意图的范围;在第一条目数小于第二条目数的情况下,确定第一搜索会话的搜索意图的范围小于第二搜索会话的搜索意图的范围。
可选的,方法还包括:获取搜索会话序列中具备相同意图标签的连续的搜索会话的数量;基于数量,确定用户的满意度。
根据本公开的第二方面,提供一种搜索意图确定装置,该搜索意图确定装置包括获取模块和处理模块。获取模块,被配置为获取搜索会话序列,搜索会话序列包括至少两个连续的搜索会话;处理模块,被配置为针对搜索会话序列中的每个搜索会话,获取搜索会话对应的维度特征,维度特征包括目标特征;目标特征为基于搜索会话对应的账户的历史搜索会话的停顿时间,对搜索会话的搜索意图进行预估得到的;处理模块,还被配置为根据搜索会话对应的维度特征,确定搜索会话的意图标签;意图标签用于表征搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。
可选的,搜索会话对应的维度特征还包括下述至少一个:公共词长度特征、分词后的重合度特征和相似度特征;公共词长度特征包括:第一长度参数或第二长度参数,第一长度参数用于表征公共词的长度值相对于相邻搜索会话的词的长度值的占比,第二长度参数用于表征公共词的长度值相对于搜索会话的词的长度值的占比;公共词为搜索会话和相邻搜索会话中共有的词;分词后的重合度特征包括:第一重合度参数或第二重合度参数,第一重合度参数用于表征公共语素相对于相邻搜索会话对应的分词的重合程度,第二重合度参数用于表征公共语素相对于搜索会话的分词的重合程度;公共语素为对搜索会话和相邻搜索会话中具备相同属性的词;相似度特征包括:搜索会话和相邻搜索会话的文本余弦距离。
可选的,在相邻搜索会话包括搜索会话的前一个搜索会话的情况下,维度特征包括第一时间间隔,第一时间间隔为搜索会话与前一个搜索会话的时间间隔;在相邻搜索会话包括搜索会话的后一个搜索会话的情况下,维度特征包括第二时间间隔,第二时间间隔为搜索会话与后一个搜索会话的时间间隔。
可选的,处理模块,还被配置为将每个搜索会话对应的维度特征输入搜索意图确定模型,得到每个搜索会话的意图标签,搜索意图确定模型为梯度提升决策树模型。
可选的,获取模块,还被配置为获取搜索会话序列样本和搜索会话序列样本中每个搜索会话样本的标准意图标签;其中,标准意图标签为第一标签或者第二标签,第一标签用于表征搜索会话样本为搜索会话序列样本中的第一个搜索会话样本,且第一个搜索会话样本为搜索意图对应的起始搜索会话样本,或者搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图不一致;第二标签用于表征搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图类似;搜索意图类似包括搜索意图相同、搜索意图的范围缩小、搜索意图的范围扩大或搜索意图相关。处理模块,还被配置为根据搜索会话序列样本和标准意图标签训练预设模型,得到搜索意图确定模型。
可选的,处理模块,还被配置为基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话进行归类,得到搜索会话库;或,基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话对应的搜索结果进行整合,得到搜索结果库。获取模块,还被配置为获取第一搜索会话和第二搜索会话,第一搜索会话和第二搜索会话均属于搜索会话序列中具备相同意图标签且连续的搜索会话;获取模块,还被配置为获取第一搜索会话对应的搜索结果的第一条目数,以及第二搜索会话对应的搜索结果的第二条目数;处理模块,还被配置为根据第一条目数与第二条目数的关系,确定第一搜索会话与第二搜索会话之间的意图关系。
可选的,处理模块,还被配置为在第一条目数大于第二条目数的情况下,确定第一搜索会话的搜索意图的范围大于第二搜索会话的搜索意图的范围;处理模块,还被配置为在第一条目数小于第二条目数的情况下,确定第一搜索会话的搜索意图的范围小于第二搜索会话的搜索意图的范围。
可选的,获取模块,还被配置为获取搜索会话序列中具备相同意图标签的连续的搜索会话的数量;处理模块,还被配置为基于数量,确定用户的满意度。
根据本公开的第三方面,提供一种电子设备,包括:处理器和用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现如上述第一方面中任一种可选的搜索意图确定方法。
根据本公开的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面中任一种可选的搜索意图确定方法。
根据本公开的第五方面,提供一种计算机程序产品,包含指令,当该计算机程序产品中的指令由电子设备的处理器执行时,实现如上述第一方面中任一种可选的搜索意图确定方法。
本公开实施例提供的技术方案至少带来以下有益效果:
上述方案中,电子设备获取搜索会话序列,并确定搜索会话序列中每个搜索会话的维度特征,该维度特征包括目标特征,目标特征为基于搜索会话对应的账户的历史搜索会话的时间特征进行搜索意图预估得到的,因此,基于目标特征确定出的搜索会话的意图标签将更准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种搜索意图确定方法的流程图之一;
图2是根据一示例性实施例示出的一种搜索意图确定方法的流程图之二;
图3是根据一示例性实施例示出的一种搜索意图确定方法的流程图之三;
图4是根据一示例性实施例示出的一种搜索意图确定方法的流程图之四;
图5是根据一示例性实施例示出的一种搜索意图确定方法的流程图之五;
图6是根据一示例性实施例示出的一种搜索意图确定方法的流程图之六;
图7是根据一示例性实施例示出的一种搜索意图确定装置的结构框图;
图8是根据一示例性实施例提供的搜索意图确定方法的计算机程序产品的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
基于背景技术,本公开实施例提供一种搜索意图确定方法。该方法为电子设备获取搜索会话序列,并确定搜索会话序列中每个搜索会话的维度特征,该维度特征包括目标特征,目标特征为基于搜索会话对应的账户的历史搜索会话的时间特征进行搜索意图预估得到的,因此,基于目标特征确定出的搜索会话的意图标签将更准确。
以下对本公开实施例提供的搜索意图确定方法进行示例性说明:
本公开提供的搜索意图确定方法可以应用于电子设备。
在一些实施例中,电子设备可以是服务器,也可以是终端,还可以是其他用于进行模型训练的电子设备,本公开对此不作限定。
其中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
终端可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备等可以安装并使用内容社区应用(如快手)的设备,本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
如图1所示,当搜索意图确定方法应用于电子设备时,该搜索意图确定方法可以包括:
S11、电子设备获取搜索会话序列。
其中,搜索会话序列包括至少两个连续的搜索会话。
在一种实施例中,电子设备获取的搜索会话序列为:在一段时间内,用户输入的多个连续的搜索会话。其中,搜索会话包括用户账户、时间戳及搜索词等信息。示例性的,用户账户可以是用户ID,用于对属于同一个用户的搜索会话进行归类。时间戳为搜索会话的输入时间,用于为搜索意图的判断提供时间特征。搜索词,用于表征想要获取的召回资源。需要说明的是,多个搜索会话包括搜索会话A和搜索会话B。连续是指,用户输入搜索会话A之前或之后输入了搜索会话B,搜索会话A与搜索会话B之间可以有停顿时间,也可以没有停顿时间,而并不限定搜索会话A和搜索会话B之间必须没有停顿时间。
S12、电子设备针对搜索会话序列中的每个搜索会话,获取搜索会话对应的维度特征。
其中,维度特征包括目标特征;目标特征为基于搜索会话对应的账户的历史搜索会话的停顿时间,对搜索会话的搜索意图进行预估得到的。
在一种实施例中,电子设备提取搜索会话序列中每个搜索会话的维度特征。具体的,维度特征中的目标特征是电子设备将搜索会话序列中的搜索会话输入核密度估计模型(Kernel density estimation,KDE)得到的。KDE利用的是概率函数的非参数估计方法,可以基于不同用户的不同搜索习惯形成概率函数,后续根据该概率函数得出搜索会话的目标特征。
S13、电子设备根据搜索会话对应的维度特征,确定搜索会话的意图标签。其中,意图标签用于表征搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。
在一种实施例中,电子设备在得到搜索会话对应的维度特征后,通过对维度特征进行归一化处理,得出每个搜索会话的搜索意图标签。示例性的,意图标签可以用B或I标识,其中,B用于表示一个搜索会话的搜索意图与上一个搜索会话的搜索意图不一致,即一个新的搜索意图的开始,I用于表示一个搜索意图的中间,认为该搜索会话对应的搜索意图与上一个搜索会话的搜索意图一致。
上述实施例提供的技术方案至少具有以下有益效果:采用上述技术特征,可以得出搜索会话序列中每个搜索会话的维度特征,该维度特征表征描述搜索会话的详细信息,那么基于搜索会话对应的维度特征,得出的搜索会话的意图标签将更准确。
可选的,搜索会话对应的维度特征还包括下述至少一个:公共词长度特征、分词后的重合度特征和相似度特征。
公共词长度特征包括:第一长度参数或第二长度参数,第一长度参数用于表征公共词的长度值相对于相邻搜索会话的词的长度值的占比,第二长度参数用于表征公共词的长度值相对于搜索会话的词的长度值的占比;公共词为搜索会话和相邻搜索会话中共有的词;
分词后的重合度特征包括:第一重合度参数或第二重合度参数,第一重合度参数用于表征公共语素相对于相邻搜索会话对应的分词的重合程度,第二重合度参数用于表征公共语素相对于搜索会话的分词的重合程度;公共语素为对搜索会话和相邻搜索会话中具备相同属性的词;
相似度特征包括:搜索会话和相邻搜索会话的文本余弦距离。
在一些实施例中,相邻搜索会话为搜索会话的前一个搜索会话或者后一个搜索会话。对于搜索会话序列中的搜索会话i而言,搜索会话i的相似度特征包括:搜索会话i与搜索会话i+1的文本余弦距离或者搜索会话i与搜索会话i-1的文本余弦距离。
搜索会话i的公共词长度特征包括:第一长度参数或第二长度参数,第一长度参数是根据搜索会话i与搜索会话i-1(或者搜索会话i+1)中共有的词的长度除以搜索会话i-1(或者搜索会话i+1)对应的词的长度得到的。第二长度参数具体是根据搜索会话i与搜索会话i-1(或者搜索会话i+1)中共有的词的长度除以搜索会话i对应的词的长度得到的。
将搜索会话i和搜索会话i-1(或者搜索会话i+1)中的逗号,句号等无关的符号去掉,然后将搜索会话i和搜索会话i-1(或者搜索会话i+1)按照分词规则进行分词,得到分词结果。分词规则是指将具备相同属性的词放置在一起。在得到分词结果后,搜索会话i分词后的重合度特征包括:第一重合度参数或第二重合度参数。第一重合度是根据搜索会话i与搜索会话i-1(或者搜索会话i+1)中公共语素的个数除以搜索会话i-1(或者搜索会话i+1)对应的分词得到的。第二重合度是根据以及搜索会话i与搜索会话i-1(或者搜索会话i+1)中公共语素的个数除以搜索会话i对应的分词得到的。
示例性的,对于搜索会话i“我考上北大了”、搜索会话i-1“我考上清华了”和搜索会话i+1“星期四”而言,搜索会话i的相似度特征为:将“我考上北大了”、“我考上清华了”和“星期四”处理成词向量形式,并计算“我考上北大了”对应的词向量和“星期四”对应的词向量之间的余弦距离,以及计算“我考上北大了”对应的词向量和“我考上清华了”对应的词向量之间的余弦距离。
搜索会话i“我考上北大了”和搜索会话i-1“我考上清华了”之间公共词的长度为4。对于搜索会话i的公共词长度特征,第一长度参数为搜索会话i与搜索会话i-1中相同词的长度除以搜索会话i-1的词的长度=4/6=2/3;第二长度参数为搜索会话i与搜索会话i-1中相同词的长度除以搜索会话i的词的长度=4/6=2/3。
将“我考上北大了”按照属性分为3个词,分别是主语“我”、谓语“考上”、宾语“北大”和宾补“了”。“我考上清华了”分为3个词,分别是主语“我”、谓语“考上”、宾语“清华”和宾补“了”。对于搜索会话i分词后的重合度特征,第一重合度参数为搜索会话i与搜索会话i-1中公共语素的个数除以搜索会话i-1分词后的个数=3/4,第二重合度参数为搜索会话i与搜索会话i-1中公共语素的个数除以搜索会话i分词后的个数=3/4。
上述实施例提供的技术方案至少具有以下有益效果:维度特征增加公共词长度特征、分词后的重合度特征和相似度特征这3个选项,通过这3个特征的添加,能进一步深入的分析搜索会话,以便于后续得到更精确的意图标签结果。
可选的,在相邻搜索会话包括搜索会话的前一个搜索会话的情况下,维度特征包括第一时间间隔,第一时间间隔为搜索会话与前一个搜索会话的时间间隔。
在相邻搜索会话包括搜索会话的后一个搜索会话的情况下,维度特征包括第二时间间隔,第二时间间隔为搜索会话与后一个搜索会话的时间间隔。
在一些实施例中,当明确搜索会话序列中搜索会话i的发生时间、搜索会话i+1的发生时间和搜索会话i-1的发生时间后,根据搜索会话i的发生时间和搜索会话i-1的发生时间,可以确定出第一时间间隔,第一时间间隔为搜索会话i和搜索会话i-1的停顿时间。根据搜索会话i的发生时间和搜索会话i+1的发生时间,可以确定出第二时间间隔,第二时间间隔为搜索会话i和搜索会话i+1的停顿时间。第一时间间隔和第二时间间隔的差值,还可以作为评价是否属于同一个搜索意图的参考因素。
上述实施例提供的技术方案至少具有以下有益效果:采用上述技术特征,维度特征还包括第一时间间隔和第二时间间隔,第一时间间隔和第二时间间隔的差值还可以用于判断搜索会话的搜索意图,以进一步精准判断搜索会话的意图标签。
示例性的,如图2所示,S13根据每个搜索会话对应的维度特征,确定每个搜索会话的意图标签,还包括:
S131、电子设备将每个搜索会话对应的维度特征输入搜索意图确定模型,得到每个搜索会话的意图标签。
其中,搜索意图确定模型为梯度提升决策树模型(Gradient Boosting DecisionTree,GBDT)。
在一种实施例中,电子设备得到搜索会话的对应的维度特征后,输入搜索意图确定模型中,搜索意图确定模型对维度特征中的第一时间间隔和第二时间间隔的差值进行归一化处理,对搜索会话的公共词长度特征进行归一化处理,以及对以及搜索会话分词后的重合度特征分别进行归一化处理,得到处理结果。再将处理结果结合维度特征中的目标特征以及搜索会话的相似度特征输出搜索会话的意图标签。得到的意图标签可以用于刻画用户满意度场景、优化搜索结果页场景、对属于同一个搜索意图的不同搜索会话进行聚簇场景,以及对书写错误的搜索会话进行纠错等多个场景,本公开对此不作限制。
示例性的,电子设备获取到的搜索会话序列,搜索会话序列包括“奥特曼动画片”、“张三”、“张三钓鱼”、“张三钓鱼监控”、“李四”、“有钱人的生活”、“富人的生活”、“土豪的生活”、“手机截屏”和“苹果手机怎么截屏”等多个搜索会话,将这些搜索会话输入到搜索意图确定模型中,搜索意图确定模型通过判断,可以确定出“奥特曼动画片”属于一个新的搜索意图;“张三”属于一个新的搜索意图;“张三钓鱼”和“张三钓鱼监控”属于同一个意图,与“张三”对应的搜索意图相关;“李四”属于一个新的搜索意图;“有钱人的生活”属于一个新的搜索意图;“富人的生活”和“土豪的生活”属于同一个意图,为“有钱人的生活”对应的搜索意图相关;“手机截屏”属于一个新的搜索意图;“苹果手机怎么截屏”和“手机截屏”属于同一个意图。最终,搜索意图确定模型输出如表1所示的意图标签结果。
表1
上述实施例提供的技术方案至少具有以下有益效果:采用上述技术特征,通过搜索意图确定模型对维度特征中的多个特征进行处理,避免了异常数据对结果的影响,得到准确率更高的意图标签。
可选的,在确定出每个搜索会话的搜索意图标签后,可以根据搜索意图标签的准确率和召回率来判断搜索意图确定模型的效果。
准确率表示的是预测为新的搜索意图的样本中有多少是真正的新的搜索意图。其中,预测为新的搜索意图有两种可能,一种就是把新的搜索意图预测为新的搜索意图(TP),另一种就是把非新的搜索意图预测为新的搜索意图(FP)。那么,精确率满足表达式:准确率=TP/(TP+FP)。
召回率表示的是针对搜索会话而言,有多少新的搜索意图被预测正确了。其中,新的搜索意图被预测正确有两种情况,一种是把原来的新的搜索意图预测成新的搜索意图(TP),另一种就是把原来的新的搜索意图预测为非新的搜索意图(FN)。那么,召回率满足如下表达式:召回率=TP/(TP+FN),一些实验表明,使用GBDT的方法,得到的搜索会话序列的意图标签的准确率为0.9765,召回率为0.9735,准确率和召回率拟合的结果为0.9748。这些结果都可表明使用GBDT的方法,带来的效果很显著。
在一种实施例中,结合图1,如图3所示,方法还包括:
S31、电子设备获取搜索会话序列样本和搜索会话序列样本中每个搜索会话样本的标准意图标签。
其中,标准意图标签为第一标签或者第二标签,第一标签用于表征搜索会话样本为搜索会话序列样本中的第一个搜索会话样本,且第一个搜索会话样本为搜索意图对应的起始搜索会话样本,或者搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图不一致;第二标签用于表征搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图类似;搜索意图类似包括搜索意图相同、搜索意图的范围缩小、搜索意图的范围扩大或搜索意图相关。
在一种实施例中,搜索会话序列样本为一段时间内,用户搜索的所有搜索会话样本,每个搜索会话样本的标准意图标签为针对每个搜索会话样本进行标记后的结果。
具体的,每个搜索会话样本的标准意图标签是通过如下方式确定的。根据获取搜索会话序列样本的会话时间和搜索词,对搜索会话序列样本进行切割,得到多个子搜索会话;通过判断每个子搜索会话与前一个子搜索意图的搜索意图是否一致,得出每个子搜索会话的意图标签。
示例性的,标准意图标签中的第一标签用于表示前后两个搜索会话完全无关。如:第一个搜索会话是:王者荣耀,第二个搜索会话是:张三。标准意图标签中的第二标签用于表示前后两个搜索会话的搜索意图类型。搜索意图类似包括重复搜索意图、细化搜索意图、泛化搜索意图、相关搜索意图或重构搜索意图。其中,重复搜索意图用于表示两个连续的搜索会话完全一致;如:第一个搜索会话是:王者荣耀,第二个搜索会话也是:王者荣耀。细化搜索意图用于表示相比于第一个搜索会话,第二个搜索会话的查询词更加详细;如:第一个搜索会话:王者荣耀,第二个搜索会话是:王者荣耀刘备打野附文。泛化搜索意图用于表示相比于第一个搜索会话,第二个搜索会话的查询词更加粗犷,范围更大;如:第一个搜索会话:王者荣耀刘备打野附文,第二个搜索会话是:王者荣耀。相关搜索意图用于表示前后两个搜索会话中的关键词包括部分相同的字样;如:第一个搜索会话:智商测试,第二个搜索会话是:智力测试。重构搜索意图用于表示前后两个搜索会话表达的含义相似;如:第一个搜索会话:中国首都,第二个搜索会话是:北京。
S32、电子设备根据搜索会话序列样本和标准意图标签训练预设模型,得到搜索意图确定模型。
具体的,电子设备将每个搜索会话样本输入预设模型,预设模型输出每个搜索会话样本的样本意图标签,然后将每个搜索会话样本的样本意图标签和对应的标准意图标签进行比较,确定两者之间的差异值;根据差异值对预设模型的参数进行调整,调整后再次输入搜索会话样本,重复上述操作,直到得到的差异值小于或者等于预设阈值。此时,将该预设模型中的参数认为是标准参数,该预设模型也认为是搜索意图确定模型。
上述实施例提供的技术方案至少具有以下有益效果:采用上述技术特征,使用大量的样本数据对预设模型进行训练,从而得到满足要求的搜索意图确定模型。
在一种实施例中,如图4所示,方法还包括:
S41a、电子设备基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话进行归类,得到搜索会话库。
S41b、电子设备基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话对应的搜索结果进行整合,得到搜索结果库。
在一种实施例中,获取已标注意图标签的搜索会话序列。对相邻的且属于同一意图标签的搜索会话进行归类,从而得到搜索会话库。该搜索会话库包括多个搜索会话子库,每个搜索会话子库中的搜索会话的意图标签一致。对属于同一意图标签的搜索会话对应的搜索结果也进行分类整理,得到搜索结果库,该搜索结果库包括多个搜索结果子库,每个搜索结果子库中的搜索结果具有相似的意图。多个搜索会话子库中的每个搜索会话子库与每个搜索结果子库基于搜索意图建立对应关系。
在实际应用中,合理利用搜索会话库、搜索结果库以及搜索会话库和搜索结果库对应关系,能大大提高工作人员的工作效率。
在一种实施例中,结合图1,如图5所示,方法还包括:
S51、电子设备获取第一搜索会话和第二搜索会话。
其中,第一搜索会话和第二搜索会话均属于搜索会话序列中具备相同意图标签且连续的搜索会话。
示例性的,第一搜索会话和第二搜索会话可以是搜索会话库中的一个搜索会话子库中的两个连续的搜索会话,还可以是电子设备获取的当前用户输入的具有相同意图且连续的搜索会话。
S52、电子设备获取第一搜索会话对应的搜索结果的第一条目数,以及第二搜索会话对应的搜索结果的第二条目数。
示例性的,第一条目数可以是基于搜索结果页中第一搜索会话对应的搜索结果得出的,还可以是基于搜索会话库和搜索结果库的对应关系查找得到的。第二条目数可以是基于搜索结果页中第二搜索会话对应的搜索结果得出的,还可以是基于搜索会话库和搜索结果库的对应关系查找得到的。
S53、电子设备根据第一条目数与第二条目数的关系,确定第一搜索会话与第二搜索会话之间的意图关系。
示例性的,结合图5,S53、电子设备根据第一条目数与第二条目数的关系,确定第一搜索会话与第二搜索会话之间的意图关系包括:
S531a、在第一条目数大于第二条目数的情况下,确定第一搜索会话的搜索意图的范围大于第二搜索会话的搜索意图的范围。
S531b、在第一条目数小于第二条目数的情况下,确定第一搜索会话的搜索意图的范围小于第二搜索会话的搜索意图的范围。
由于第一搜索会话和第二搜索会话为具备相同意图标签的搜索会话,因此,第一搜索会话和第二搜索会话的搜索结果必然有重叠的部分。基于第一条目数和第二条目数,可以确定出第一搜索会话对应的搜索范围大,还是第二搜索会话的搜索范围大,搜索范围越大代表搜索会话对应的意图更宽泛,搜索范围越小代表搜索会话对应的意图更具体。基于搜索范围的大小关系为第一搜索会话和第二搜索会话建立意图关联性。在确定出搜索意图的范围的关联性后,可基于该关联性对第一搜索会话和第二搜索会话进行进一步分析。
示例性的,第一搜索会话是“王者荣耀”,第二搜索会话是“王者荣耀的英雄”。第一搜索会话对应的第一条目数是10000条。第二搜索会话对应的第二条目数是5000条。基于条目数,认为第一搜索会话的搜索意图的范围等级高于第二搜索会话的搜索意图的范围等级。
示例性的,结合图6,本公开的方法还包括:
S61、获取搜索会话序列中具备相同意图标签的连续的搜索会话的数量。
S62、基于数量,确定用户的满意度。
在一些实施例中,统计一段连续的且具有相同意图标签的搜索会话的数量,根据搜索会话的数据,来确定出用户的满意度。
示例性的,搜索会话1“王者荣耀”、搜索会话2“王者荣耀的英雄”、搜索会话3“王者荣耀的英雄刘备”、搜索会话4“王者荣耀刘备打野附文”。搜索会话1到搜索会话4都是和王者荣耀相关的,都具有相同的意图标签,用户通过4次搜索才确定出最终想要的搜索结果。基于数量设定用户满意度的判断规则,该判断规则可以是当用户搜索具备相同意图标签的连续搜索会话次数小于等于2次,认为用户满意度为90%,当用户搜索次数大于2次后,每增加一次,用户满意度降低5%;还可以是设定预设阈值,当搜索会话的数量超过预设阈值后,认为用户不满意,当搜索会话的数量未超过预设阈值时,认为用户满意。判断规则还可以是其它规则,本公开对此不作限制。
以上结合图1-图6详细说明了本公开实施例提供的方法。为了实现上述功能,搜索意图确定装置包含了执行各个功能相应的硬件结构和/或软件模块,这些执行各个功能相应的硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,电子设备可以包括搜索意图确定装置,搜索意图确定装置可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
以下,结合图7详细说明本公开实施例提供的搜索意图确定装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。
图7是根据一示例性实施例示出的一种搜索意图确定装置的结构示意图,应用于电子设备,参见图7所示,该搜索意图确定装置包括:获取模块71和处理模块72。
获取模块71,被配置为获取搜索会话序列,搜索会话序列包括至少两个连续的搜索会话;例如,参照图1所示,获取模块71,被配置为执行S11。
处理模块72,被配置为针对搜索会话序列中的每个搜索会话,获取搜索会话对应的维度特征,维度特征包括目标特征;目标特征为基于搜索会话对应的账户的历史搜索会话的停顿时间,对搜索会话的搜索意图进行预估得到的;例如,参照图1所示,处理模块72,被配置为执行S12。
处理模块72,还被配置为根据搜索会话对应的维度特征,确定搜索会话的意图标签;意图标签用于表征搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。例如,参照图1所示,处理模块72,被配置为执行S13。
可选的,搜索会话对应的维度特征还包括下述至少一个:公共词长度特征、分词后的重合度特征和相似度特征;
公共词长度特征包括:第一长度参数或第二长度参数,第一长度参数用于表征公共词的长度值相对于相邻搜索会话的词的长度值的占比,第二长度参数用于表征公共词的长度值相对于搜索会话的词的长度值的占比;公共词为搜索会话和相邻搜索会话中共有的词;
分词后的重合度特征包括:第一重合度参数或第二重合度参数,第一重合度参数用于表征公共语素相对于相邻搜索会话对应的分词的重合程度,第二重合度参数用于表征公共语素相对于搜索会话的分词的重合程度;公共语素为对搜索会话和相邻搜索会话中具备相同属性的词;
相似度特征包括:搜索会话和相邻搜索会话的文本余弦距离。
可选的,在相邻搜索会话包括搜索会话的前一个搜索会话的情况下,维度特征包括第一时间间隔,第一时间间隔为搜索会话与前一个搜索会话的时间间隔;
在相邻搜索会话包括搜索会话的后一个搜索会话的情况下,维度特征包括第二时间间隔,第二时间间隔为搜索会话与后一个搜索会话的时间间隔。
可选的,处理模块72,还被配置为将每个搜索会话对应的维度特征输入搜索意图确定模型,得到每个搜索会话的意图标签,搜索意图确定模型为梯度提升决策树模型。例如,参照图2所示,处理模块72,被配置为执行S131。
可选的,获取模块71,还被配置为获取搜索会话序列样本和搜索会话序列样本中每个搜索会话样本的标准意图标签;其中,标准意图标签为第一标签或者第二标签,第一标签用于表征搜索会话样本为搜索会话序列样本中的第一个搜索会话样本,且第一个搜索会话样本为搜索意图对应的起始搜索会话样本,或者搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图不一致;第二标签用于表征搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图类似;搜索意图类似包括搜索意图相同、搜索意图的范围缩小、搜索意图的范围扩大或搜索意图相关。例如,参照图3所示,获取模块71,被配置为执行S31。
处理模块72,还被配置为根据搜索会话序列样本和标准意图标签训练预设模型,得到搜索意图确定模型。例如,参照图3所示,处理模块72,被配置为执行S32。
可选的,处理模块72,还被配置为基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话进行归类,得到搜索会话库;或,基于搜索会话序列和每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话对应的搜索结果进行整合,得到搜索结果库。例如,参照图4所示,处理模块72,被配置为执行S41a和S41b。
可选的,获取模块71,还被配置为获取第一搜索会话和第二搜索会话,第一搜索会话和第二搜索会话均属于搜索会话序列中具备相同意图标签且连续的搜索会话;例如,参照图5所示,获取模块71,被配置为执行S51。
获取模块71,还被配置为获取第一搜索会话对应的搜索结果的第一条目数,以及第二搜索会话对应的搜索结果的第二条目数;例如,参照图5所示,获取模块71,被配置为执行S52。
处理模块72,还被配置为根据第一条目数与第二条目数的关系,确定第一搜索会话与第二搜索会话之间的意图关系。例如,参照图5所示,处理模块72,被配置为执行S53。
可选的,处理模块72,还被配置为在第一条目数大于第二条目数的情况下,确定第一搜索会话的搜索意图的范围大于第二搜索会话的搜索意图的范围;例如,参照图5所示,处理模块72,被配置为执行S531a。
处理模块72,还被配置为在第一条目数小于第二条目数的情况下,确定第一搜索会话的搜索意图的范围小于第二搜索会话的搜索意图的范围。例如,参照图5所示,处理模块72,被配置为执行S531b。
可选的,获取模块71,还被配置为获取搜索会话序列中具备相同意图标签的连续的搜索会话的数量;例如,参照图6所示,获取模块71,被配置为执行S61。
处理模块72,还被配置为基于数量,确定用户的满意度。例如,参照图1所示,处理模块72,被配置为执行S62。
当然,本公开实施例提供的搜索意图确定装置包括但不限于上述模块,例如搜索意图确定装置还可以包括存储模块73。存储模块73可以用于存储该写搜索意图确定装置的程序代码,还可以用于存储写搜索意图确定装置在运行过程中生成的数据,如写请求中的数据等。
在实际实现时,获取模块71和处理模块72具体的执行过程可参考图1-图6中所示的任一种搜索意图确定方法部分的描述,这里不再赘述。
本公开另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在电子设备上运行时,该电子设备执行如上述图1-图6中所示的任一种搜索意图确定方法。
图8示意性地示出本公开实施例提供的计算机程序产品的概念性局部视图,计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
在一个实施例中,计算机程序产品是使用信号承载介质810来提供的。信号承载介质810可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此,例如,参考图1中所示的实施例,S11~S13的一个或多个特征可以由与信号承载介质810相关联的一个或多个指令来承担。此外,图8中的程序指令也描述示例指令。
在一些示例中,信号承载介质810可以包含计算机可读介质811,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。
在一些实施方式中,信号承载介质810可以包含计算机可记录介质812,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。
在一些实施方式中,信号承载介质810可以包含通信介质813,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
信号承载介质810可以由无线形式的通信介质813来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。
在一些示例中,诸如针对图7描述的搜索意图确定装置可以被配置为,响应于通过计算机可读介质811、计算机可记录介质812、和/或通信介质813中的一个或多个程序指令,提供各种操作、功能、或者动作。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全分类部或者部分功能。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全分类部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全分类部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本公开各个实施例方法的全分类部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何在本公开揭露的技术范围内的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种搜索意图确定方法,其特征在于,包括:
获取搜索会话序列,所述搜索会话序列包括至少两个连续的搜索会话;
针对所述搜索会话序列中的每个搜索会话,获取所述搜索会话对应的维度特征,所述维度特征包括目标特征;所述目标特征为基于所述搜索会话对应的账户的历史搜索会话的停顿时间,对所述搜索会话的搜索意图进行预估得到的;
根据所述搜索会话对应的维度特征,确定所述搜索会话的意图标签;所述意图标签用于表征所述搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。
2.根据权利要求1所述的方法,其特征在于,所述搜索会话对应的维度特征还包括下述至少一个:公共词长度特征、分词后的重合度特征和相似度特征;
所述公共词长度特征包括:第一长度参数或第二长度参数,所述第一长度参数用于表征公共词的长度值相对于所述相邻搜索会话的词的长度值的占比,所述第二长度参数用于表征公共词的长度值相对于所述搜索会话的词的长度值的占比;所述公共词为所述搜索会话和所述相邻搜索会话中共有的词;
所述分词后的重合度特征包括:第一重合度参数或第二重合度参数,所述第一重合度参数用于表征公共语素相对于所述相邻搜索会话对应的分词的重合程度,所述第二重合度参数用于表征所述公共语素相对于所述搜索会话的分词的重合程度;所述公共语素为对所述搜索会话和所述相邻搜索会话中具备相同属性的词;
所述相似度特征包括:所述搜索会话和所述相邻搜索会话的文本余弦距离。
3.根据权利要求2所述的方法,其特征在于,
在所述相邻搜索会话包括所述搜索会话的前一个搜索会话的情况下,所述维度特征包括第一时间间隔,所述第一时间间隔为所述搜索会话与所述前一个搜索会话的时间间隔;
在所述相邻搜索会话包括所述搜索会话的后一个搜索会话的情况下,所述维度特征包括第二时间间隔,所述第二时间间隔为所述搜索会话与所述后一个搜索会话的时间间隔。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述每个搜索会话对应的维度特征,确定所述每个搜索会话的意图标签,包括:
将所述每个搜索会话对应的维度特征输入搜索意图确定模型,得到所述每个搜索会话的意图标签,所述搜索意图确定模型为梯度提升决策树模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取搜索会话序列样本和所述搜索会话序列样本中每个搜索会话样本的标准意图标签;其中,所述标准意图标签为第一标签或者第二标签,所述第一标签用于表征所述搜索会话样本为所述搜索会话序列样本中的第一个搜索会话样本,且所述第一个搜索会话样本为搜索意图对应的起始搜索会话样本,或者所述搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图不一致;所述第二标签用于表征搜索会话样本的搜索意图与前一个搜索会话样本的搜索意图类似;所述搜索意图类似包括搜索意图相同、搜索意图的范围缩小、搜索意图的范围扩大或搜索意图相关;
根据所述搜索会话序列样本和所述标准意图标签训练预设模型,得到所述搜索意图确定模型。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
基于所述搜索会话序列和所述每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话进行归类,得到搜索会话库;
或,
基于所述搜索会话序列和所述每个搜索会话对应的意图标签,对属于同一意图标签的搜索会话对应的搜索结果进行整合,得到搜索结果库。
7.一种搜索意图确定装置,其特征在于,包括:
获取模块,被配置为获取搜索会话序列,所述搜索会话序列包括至少两个连续的搜索会话;
处理模块,被配置为针对所述搜索会话序列中的每个搜索会话,获取所述搜索会话对应的维度特征,所述维度特征包括目标特征;所述目标特征为基于所述搜索会话对应的账户的历史搜索会话的停顿时间,对所述搜索会话的搜索意图进行预估得到的;
所述处理模块,还被配置为根据所述搜索会话对应的维度特征,确定所述搜索会话的意图标签;所述意图标签用于表征所述搜索会话的搜索意图与相邻搜索会话的搜索意图之间的连续性。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-6中任一项所述的搜索意图确定方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的搜索意图确定方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,当所述计算机指令被电子设备执行时,实现如权利要求1-6中任一项所述的搜索意图确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111402741.9A CN114168810A (zh) | 2021-11-19 | 2021-11-19 | 搜索意图确定方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111402741.9A CN114168810A (zh) | 2021-11-19 | 2021-11-19 | 搜索意图确定方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168810A true CN114168810A (zh) | 2022-03-11 |
Family
ID=80480232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111402741.9A Pending CN114168810A (zh) | 2021-11-19 | 2021-11-19 | 搜索意图确定方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168810A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399855A (zh) * | 2013-07-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 基于多数据源的行为意图确定方法及装置 |
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN109918565A (zh) * | 2019-02-02 | 2019-06-21 | 北京搜狗科技发展有限公司 | 一种搜索数据的处理方法、装置及电子设备 |
CN111859148A (zh) * | 2020-07-30 | 2020-10-30 | 深圳前海微众银行股份有限公司 | 主题的提取方法、装置、设备及计算机可读存储介质 |
CN113516491A (zh) * | 2020-04-09 | 2021-10-19 | 百度在线网络技术(北京)有限公司 | 推广信息展示方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-19 CN CN202111402741.9A patent/CN114168810A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399855A (zh) * | 2013-07-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 基于多数据源的行为意图确定方法及装置 |
CN106407178A (zh) * | 2016-08-25 | 2017-02-15 | 中国科学院计算技术研究所 | 一种会话摘要生成方法及装置 |
CN109918565A (zh) * | 2019-02-02 | 2019-06-21 | 北京搜狗科技发展有限公司 | 一种搜索数据的处理方法、装置及电子设备 |
CN113516491A (zh) * | 2020-04-09 | 2021-10-19 | 百度在线网络技术(北京)有限公司 | 推广信息展示方法、装置、电子设备及存储介质 |
CN111859148A (zh) * | 2020-07-30 | 2020-10-30 | 深圳前海微众银行股份有限公司 | 主题的提取方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
US11436831B2 (en) | Method and apparatus for video processing | |
US11556572B2 (en) | Systems and methods for coverage analysis of textual queries | |
CN107193962B (zh) | 一种互联网推广信息的智能配图方法及装置 | |
CN110852231A (zh) | 违规视频检测方法、装置以及存储介质 | |
CN109117777A (zh) | 生成信息的方法和装置 | |
US20190180327A1 (en) | Systems and methods of topic modeling for large scale web page classification | |
CN104836720A (zh) | 交互式通信中进行信息推荐的方法及装置 | |
WO2016155493A1 (zh) | 数据处理方法及装置 | |
US20220027572A1 (en) | Systems and methods for generating a summary of a multi-speaker conversation | |
CN110837581A (zh) | 视频舆情分析的方法、装置以及存储介质 | |
CN111767382A (zh) | 生成反馈信息的方法、装置及终端设备 | |
Parihar et al. | Multiview video summarization using video partitioning and clustering | |
CN116049379A (zh) | 知识推荐方法、装置、电子设备和存储介质 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN112115710B (zh) | 一种行业信息识别方法及装置 | |
CN111435369B (zh) | 音乐推荐方法、装置、终端及存储介质 | |
CN111538852A (zh) | 多媒体资源处理方法、装置、存储介质及设备 | |
CN112818868B (zh) | 基于行为序列特征数据的违规用户识别方法和装置 | |
CN113596352A (zh) | 视频的处理方法、处理装置和电子设备 | |
CN110351183B (zh) | 即时通讯中的资源收藏方法以及装置 | |
CN114168810A (zh) | 搜索意图确定方法、装置、设备以及存储介质 | |
CN113065329A (zh) | 数据的处理方法和装置 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |