CN115905664A - 意图识别方法及装置 - Google Patents
意图识别方法及装置 Download PDFInfo
- Publication number
- CN115905664A CN115905664A CN202111205780.XA CN202111205780A CN115905664A CN 115905664 A CN115905664 A CN 115905664A CN 202111205780 A CN202111205780 A CN 202111205780A CN 115905664 A CN115905664 A CN 115905664A
- Authority
- CN
- China
- Prior art keywords
- target
- entity
- title
- search
- search result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 75
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 30
- 230000009467 reduction Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000009910 sargent gloryvine Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241001300193 Speranskia Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种意图识别方法及装置。该方法包括:从至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;对搜索词进行第一特征提取处理,得到搜索词的搜索词特征;对至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征;对搜索词、目标标题中的一个或多个进行实体识别处理,得到实体特征;对搜索词特征、目标标题特征、实体特征进行融合处理,得到融合特征;基于融合特征对搜索词对应的搜索意图进行预测,确定搜索词对应的目标意图类别;以及确定与目标意图类别对应的目标内容。基于搜索词特征、目标标题特征、实体特征的融合特征预测搜索意图,提高了意图识别的准确性。
Description
本申请为在2021年08月18日提交中国专利局、申请号为202110951767.2、申请名称为“意图识别方法及装置”的中国专利申请的分案申请,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及神经网络技术领域,尤其涉及一种意图识别方法及装置。
背景技术
在搜索场景中,用户在搜索引擎中输入搜索词(query),准确地识别用户的搜索意图可以提高搜索的准确性。
因此,如何提高意图识别的准确性,是本申请需要解决的问题。
发明内容
本申请实施例提供了一种意图识别方法及装置,以提高意图识别的准确性。
第一方面,提供了一种意图识别方法,所述方法包括:
响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;其中,所述第一搜索结果页面用于显示基于第一搜索词得到的至少一个搜索结果的标题;
对所述第一搜索词进行第一特征提取处理,得到所述第一搜索词的搜索词特征;
对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征;
对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征;
对所述搜索词特征、所述目标标题特征、所述实体特征进行融合处理,得到融合特征;
基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别;
确定与所述目标意图类别对应的目标内容,所述目标内容用于在与所述第一搜索词关联的搜索结果页面中展示。
在一种可能的实现中,所述响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题,包括:
响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,获取对所述至少一个搜索结果的标题的点击率,其中,所述至少一个搜索结果的标题中每个搜索结果的标题的点击率为:设定时间段内多个用户对所述每个搜索结果的标题的点击次数分别与所述多个用户对所述至少一个搜索结果的标题的总的点击次数的比值,所述多个用户为输入所述第一搜索词以及与所述第一搜索词关联的信息的用户;
对所述至少一个搜索结果的标题的点击率按从多到少的顺序进行排序;
根据所述至少一个搜索结果的标题的点击率的排序结果,筛选所述点击率的排序小于或等于设定值的至少一个搜索结果的标题,作为至少一个目标搜索结果的目标标题。
在又一种可能的实现中,所述对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征,包括:
对所述至少一个目标搜索结果的目标标题进行特征提取,得到所述至少一个目标搜索结果的目标标题的文本特征向量;
以所述至少一个目标搜索结果的目标标题的点击率为权重,对所述至少一个目标搜索结果的目标标题的文本特征向量进行加权求和,得到所述目标标题特征。
在又一种可能的实现中,所述对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征,包括:
识别所述第一搜索词、所述目标标题的一个或多个中的至少一个实体,得到实体集;
确定所述实体集中的每个实体分别所属的至少一个意图类别;
获取所述每个实体分别所属的每个意图类别的先验概率,所述先验概率为对实体所属的意图类别的概率的历史统计信息,所述每个实体分别所属的每个意图类别的先验概率为:属于每个意图类别的每个实体对应的第一次数与属于所述至少一个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;其中,属于每个意图类别的每个实体对应的第一次数为属于每个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数;
根据所述每个实体所属的每个意图类别的先验概率,生成所述实体集对应的实体特征。
在又一种可能的实现中,所述根据所述每个实体所属的每个意图类别的先验概率,生成所述实体集对应的实体特征,包括:
获取所述实体集中的每个实体出现的频率,所述每个实体出现的频率为:所述每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数与所述实体集在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;
以所述实体集中的每个实体出现的频率为权重,对所述实体集中的每个实体所属的每个意图类别的先验概率进行加权求和,得到所述实体集对应的实体特征。
在又一种可能的实现中,所述方法还包括:
对所述实体集中的每个实体所属的每个意图类别的先验概率进行降维处理,处理后得到的所述实体集中的每个实体所属的每个意图类别的先验概率的维度与所述目标意图类别的数目一致。
在又一种可能的实现中,所述对所述搜索词特征、所述目标标题特征、所述实体特征进行融合处理,得到融合特征,包括:
对所述搜索词特征、所述目标标题特征、所述实体特征的向量进行拼接,得到所述融合特征。
在又一种可能的实现中,所述基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别,包括:
将所述融合特征进行降维处理,处理后得到的融合特征的维度与所述目标意图类别的数目一致;
根据所述处理后得到的融合特征,得到至少一种意图类别对应的分类概率;
对所述至少一种意图类别对应的分类概率进行归一化处理;
在归一化处理后得到的至少一种意图类别对应的分类概率中,确定分类概率最大的意图类别,作为所述目标意图类别。
第二方面,提供了一种意图识别装置,所述装置包括:
第一确定单元,用于响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;其中,所述第一搜索结果页面用于显示基于第一搜索词得到的至少一个搜索结果的标题;
第一特征提取单元,用于对所述第一搜索词进行第一特征提取处理,得到所述第一搜索词的搜索词特征;
第二特征提取单元,用于对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征;
第三特征提取单元,用于对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征;
特征融合单元,用于对所述搜索词特征、所述目标标题特征、所述实体特征进行融合处理,得到融合特征;
预测单元,用于基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别;
第二确定单元,用于确定与所述目标意图类别对应的目标内容,所述目标内容用于在与所述第一搜索词关联的搜索结果页面中展示。
在一种可能的实现中,所述第一确定单元包括:
第一获取单元,用于响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,获取对所述至少一个搜索结果的标题的点击率,其中,所述至少一个搜索结果的标题中每个搜索结果的标题的点击率为:设定时间段内多个用户对所述每个搜索结果的标题的点击次数分别与所述多个用户对所述至少一个搜索结果的标题的总的点击次数的比值,所述多个用户为输入所述第一搜索词以及与所述第一搜索词关联的信息的用户;
排序单元,用于对所述至少一个搜索结果的标题的点击率按从多到少的顺序进行排序;
筛选单元,用于根据所述至少一个搜索结果的标题的点击率的排序结果,筛选所述点击率的排序小于或等于设定值的至少一个搜索结果的标题,作为至少一个目标搜索结果的目标标题。
在又一种可能的实现中,所述第二特征提取单元包括:
第二获取单元,用于对所述至少一个目标搜索结果的目标标题进行特征提取,得到所述至少一个目标搜索结果的目标标题的文本特征向量;
第一加权求和单元,用于以所述至少一个目标搜索结果的目标标题的点击率为权重,对所述至少一个目标搜索结果的目标标题的文本特征向量进行加权求和,得到所述目标标题特征。
在又一种可能的实现中,所述第三特征提取单元包括:
识别单元,用于识别所述第一搜索词、所述目标标题的一个或多个中的至少一个实体,得到实体集;
第三确定单元,用于确定所述实体集中的每个实体分别所属的至少一个意图类别;
第三获取单元,用于获取所述每个实体分别所属的每个意图类别的先验概率,所述先验概率为对实体所属的意图类别的概率的历史统计信息,所述每个实体所属的每个意图类别的先验概率为:属于每个意图类别的每个实体对应的第一次数与属于所述至少一个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中中出现的总次数的比值;其中,属于每个意图类别的每个实体对应的第一次数为属于每个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数;
生成单元,用于根据所述每个实体所属的每个意图类别的先验概率,生成所述实体集对应的实体特征。
在又一种可能的实现中,所述生成单元包括:
第四获取单元,用于获取所述实体集中的每个实体出现的频率,所述每个实体出现的频率为:所述每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数与所述实体集在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;
第二加权求和单元,用于以所述实体集中的每个实体出现的频率为权重,对所述实体集中的每个实体所属的每个意图类别的先验概率进行加权求和,得到所述实体集对应的实体特征。
在又一种可能的实现中,所述装置还包括:
第一降维处理单元,用于对所述实体集中的每个实体所属的每个意图类别的先验概率进行降维处理,处理后得到的所述实体集中的每个实体所属的每个意图类别的先验概率的维度与所述目标意图类别的数目一致。
在又一种可能的实现中,所述特征融合单元用于对所述搜索词特征、所述目标标题特征、所述实体特征的向量进行拼接,得到所述融合特征。
在又一种可能的实现中,所述第二确定单元包括:
第二降维处理单元,用于将所述融合特征进行降维处理,处理后得到的融合特征的维度与所述目标意图类别的数目一致;
第五获取单元,用于根据所述处理后得到的融合特征,得到至少一种意图类别对应的分类概率;
归一化处理单元,用于对所述至少一种意图类别对应的分类概率进行归一化处理;
第四确定单元,用于在归一化处理后得到的至少一种意图类别对应的分类概率中,确定分类概率最大的意图类别,作为所述目标意图类别。
第三方面,提供了一种意图识别装置,包括输入设备和输出设备,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行第一方面或第一方面的任一实现所述的方法。
第四方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行第一方面或第一方面的任一实现所述的方法。
采用本申请实施例提供的方案,具有如下有益效果:
基于搜索词特征、目标标题特征、实体特征的融合特征预测搜索意图,提高了意图识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种意图识别方法的流程示意图;
图2是本申请实施例提供的另一种意图识别方法的流程示意图;
图3是本申请实施例提供的一种意图识别模型示意图;
图4是本申请实施例提供的一种意图识别装置的结构示意图;
图5是本申请实施例提供的另一种意图识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如本申请所公开的意图识别方法,其中的相关信息、数据可保存于区块链上。
如图1所示,是本申请实施例提供的一种意图识别方法的流程示意图,示例性地,该方法可以包括以下步骤:
101、响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;其中,第一搜索结果页面用于显示基于第一搜索词得到的至少一个搜索结果的标题。
在搜索场景中,用户在搜索引擎的搜索框中输入第一搜索词。该第一搜索词可以是任意的文本内容,包括字、词语、句子等。例如,输入“司藤在线观看”。
在输入第一搜索词后,会在第一搜索结果页面显示至少一个搜索结果的标题(title)。其中,搜索结果可以包括文章、图片等内容资源。每个搜索结果有一个标题。该标题为搜索结果的一种摘要,包含了重要的特征。用户点击该标题,可以进一步在第一搜索结果页面显示至少一个搜索结果,或者向第三方服务器请求该标题对应的搜索结果。
第一搜索结果页面上显示的基于第一搜索词得到的至少一个搜索结果的标题,对应着用户想要搜索的内容,用户可以对至少一个搜索结果的标题中的全部或部分标题进行触发操作。且不同的用户输入第一搜索词以及与第一搜索词相似的搜索词后,可能会对相同或不同的搜索结果的标题进行触发操作。因此,可以响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题。该目标搜索结果的目标标题可以反映用户的搜索意图。
102、对第一搜索词进行第一特征提取处理,得到第一搜索词的搜索词特征。
第一搜索词是用户输入到搜索引擎中的内容,直接反映了用户想要搜索的内容,反映了用户的搜索意图。因此,可以对第一搜索词进行第一特征提取处理,得到第一搜索词的搜索词特征。该搜索词特征为包含从第一搜索词中提取到的信息的向量。
103、对至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征。
在确定了至少一个目标搜索结果的目标标题后,目标标题不仅包括了丰富的文本特征,还包括了用户的触发操作特征,能够进一步反映用户的搜索意图。因此,可以对至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征。该目标标题特征为包含从目标标题中提取到的信息的向量。
104、对第一搜索词、目标标题中的一个或多个进行实体识别处理,得到实体特征。
除了第一搜索词、目标标题,第一搜索词、目标标题中的实体(entity)也是重要的反映用户的意图的信息之一。例如“司藤电视剧结局”中的“司藤”,“小说大主宰”中的“大主宰”,这些实体包含了用户的意图的重要信息。因此,在模型中引入了实体特征。
实体是指常见的人物、电影、歌曲、地点、机构等。具体地,第一搜索词中可以包含实体,目标标题中也可以包含实体,或者第一搜索词和目标标题中均包含实体。
在预处理阶段,对第一搜索词、目标标题中的一个或多个进行实体识别处理,识别出第一搜索词、目标标题中的一个或多个的实体。
然后,可以对识别出的实体进行处理,得到实体特征。该实体特征为包含从实体中提取到的信息的向量。
105、对搜索词特征、目标标题特征、实体特征进行融合处理,得到融合特征。
对提取到的搜索词特征、目标标题特征和实体特征进行融合处理,可以以从搜索词、目标标题和实体的维度综合体现用户的搜索意图。
106、基于融合特征对第一搜索词对应的搜索意图进行预测,确定第一搜索词对应的目标意图类别。
对于用户输入的第一搜索词,可以对应有一个或多个意图类别。该意图类别可以是根据内容、实体等划分得到的。例如,用户输入第一搜索词“姜子牙”,“姜子牙”可以被视为一个实体,根据该实体,可以划分为查询电影和查询人物两个意图类别。
然而,根据搜索词特征、目标标题特征、实体特征,可以唯一地预测一个意图类别,即目标意图类别。该融合特征综合地、全面地、准确地反映了用户的搜索意图,因此,基于融合特征对第一搜索词对应的搜索意图进行预测,可以准确地确定第一搜索词对应的目标意图类别。
示例性地,可以将融合特征输入分类器,从而可以获取搜索意图的分类结果。该搜索意图的分类结果具体包括各个意图类别对应的分类概率。例如,用户输入第一搜索词“姜子牙”,意图类别包括:查询电影《姜子牙》和查询人物“姜子牙”,其中,查询电影《姜子牙》对应的分类概率为90%,查询人物“姜子牙”对应的分类概率为10%,则获取搜索意图的分类结果为查询电影《姜子牙》,即目标意图类别为查询电影《姜子牙》。
107、确定与目标意图类别对应的目标内容。
在确定目标意图类别后,可以获取与目标意图类别对应的目标内容。可以在与第一搜索词关联的搜索结果页面中展示该目标内容。示例性地,可以是在用户输入第一搜索词后,在第一搜索结果页面展示该目标内容;也可以是用户基于确定的目标意图类别,再次输入与第一搜索词类似的搜索词(修正后的搜索词)后,在第二搜索结果页面展示该目标内容。
结合上述步骤,可以训练得到准确的意图识别模型。
搜索流程一般包含搜索词理解、结果页召回、结果页排序三个环节。其中,意图识别是搜索词理解中重要的一环。以一个具体的搜索进行说明,用户搜索“司藤在线观看”,根据本实施例训练的意图识别模型会判断该第一搜索词对应的目标意图类别为“电视剧观看”类别。后续的结果页召回环节接收到目标意图类别,会召回司藤电视剧相关的视频资源,例如“司藤阿拉丁大卡”、“司藤小视频”等资源。最终结果页排序环节会对召回的资源进行排序,将更重要的资源排在结果页的前面。例如,“司藤电视剧”大卡会出现在结果页第一位,用户可以直接点击司藤电视剧大卡进行电视剧观看。
根据本申请实施例提供的一种意图识别方法,基于搜索词特征、目标标题特征、实体特征的融合特征预测搜索意图,提高了意图识别的准确性。
另外的实施例还提供了一种意图识别方法是基于规则模板的方法,根据每个意图类别下有代表性的搜索词数据,人工整理出对应的规则模版,然后对用户输入的搜索词进行模版匹配以判断目标意图类别(例如,查询天气,查询电影)。这种方式有较高的准确率,但是需要人工收集数据并制定相应规则,从大量数据中找出对应意图类别的数据,需要耗费非常多的人力,且模版的生成依赖于人的先验知识。并且,基于规则模版的方案只能覆盖每个意图类别中热门的搜索词类型,存在召回率低的问题。本实施例的意图识别方法相对于基于规则模板的方法,无需人工收集数据并制定相应规则,可以准确地确定目标意图类别,且召回率高。
如图2所示,是本申请实施例提供的另一种意图识别方法的流程示意图,示例性地,该方法可以包括以下步骤:
201、响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,获取对至少一个搜索结果的标题的点击率。
在搜索场景中,用户在搜索引擎的搜索框中输入第一搜索词。该第一搜索词可以是任意的文本内容,包括字、词语、句子等。例如,输入“司藤在线观看”。
在输入第一搜索词后,会在第一搜索结果页面显示至少一个搜索结果的标题(title)。其中,搜索结果可以包括文章、图片等内容资源。每个搜索结果有一个标题。该标题为搜索结果的一种摘要,包含了重要的特征。用户点击该标题,可以进一步在第一搜索结果页面显示至少一个搜索结果,或者向第三方服务器请求该标题对应的搜索结果。
第一搜索结果页面上显示的基于第一搜索词得到的至少一个搜索结果的标题,对应着用户想要搜索的内容。在第一搜索结果页面上输出至少一个搜索结果的标题后,用户可以在第一搜索结果页面上点击自己感兴趣的标题。
用户点击自己感兴趣的标题,反映了用户的搜索意图。具体地,可以获取对至少一个搜索结果的标题中每个搜索结果的标题的点击率。其中,至少一个搜索结果的标题中每个搜索结果的标题的点击率为:设定时间段内多个用户对每个搜索结果的标题的点击次数分别与多个用户对至少一个搜索结果的标题的总的点击次数的比值,多个用户为输入第一搜索词以及与第一搜索词关联的信息的用户。
示例性地,可以收集或存储设定时间段内(例如,7天内)所有用户在同一搜索引擎上输入第一搜索词以及与第一搜索词关联的信息后,所有用户对至少一个搜索结果的标题中每个标题的点击次数。例如,将第一搜索词表示为q,对应的至少一个搜索结果的标题中每个标题的点击率表示为集合 其中,ti表示第i条标题,表示第i条标题对应的点击率,计算方式如下公式1所示:
例如,输入第一搜索词之后,在第一搜索结果页面输出10个搜索结果的标题,在7天内所有用户对这10个搜索结果的标题的点击次数分别为100、200、300、500、100、800、600、1000、200、300,则第1个标题的点击率为:100/(100+200+300+500+100+800+600+1000+200+300)=2.44%;以此类推。
202、对至少一个搜索结果的标题的点击率按从多到少的顺序进行排序。
在实际模型中,假设第一搜索结果页面显示M个搜索结果的标题,可以只选取点击率排序为前K个的标题作为模型的目标标题输入,K≤M,K、M为正整数。因此,在获取对至少一个搜索结果的标题中每个搜索结果的标题的点击率后,可以对至少一个搜索结果的标题的点击率按从多到少的顺序进行排序。
203、根据至少一个搜索结果的标题的点击率的排序结果,筛选点击率的排序小于或等于设定值的至少一个搜索结果的标题,作为至少一个目标搜索结果的目标标题。
对至少一个搜索结果的标题的点击率按从多到少的顺序进行排序后,筛选点击率的排序小于或等于设定值的至少一个搜索结果的标题,作为至少一个目标搜索结果的目标标题。例如,假设第一搜索结果页面显示M个搜索结果的标题,选取点击率排序为前K个的标题作为至少一个目标搜索结果的目标标题。
204、获取第一搜索词的文本特征向量,得到第一搜索词的搜索词特征。
第一搜索词作为一种短文本,可以采用已有的预训练的文本提取模型进行特征提取。
例如,可以采用预训练的文本提取模型进行特征提取。该文本提取模型例如可以是以下任一个文本提取模型:来自变换器的双向解码器(bidirectional encoderrepresentations from transformers,BERT)模型、强力优化的BERT方法(robustlyoptimized BERT pretrainning approach,RoBERTa)、生成式的预训练(generative pre-training,GPT)模型。其中,RoBERTa模型为BERT的升级模型。示例性地,可以将第一搜索词形式化的表示字序列q=w1w2…wL,其中L表示第一搜索词的长度,wi表示第i个字。模型输出表示为d维的特征向量Q∈Rd,即第一搜索词的搜索词特征。
如图3所示的意图识别模型,输入第一搜索词,经过上述预训练模型进行特征提取,输出第一搜索词的搜索词特征向量Q。
205、对所述至少一个目标搜索结果的目标标题进行特征提取,得到至少一个目标搜索结果的目标标题的文本特征向量。
目标标题也是一种短文本,在确定了至少一个目标搜索结果的目标标题后,也可以采用上述预训练的文本提取模型对每一个目标搜索结果的目标标题进行特征提取,得到该目标标题的文本特征向量。
例如,对于任意一个目标搜索结果的目标标题ti,文本提取模型输出d维的特征向量Ti∈Rd,即该目标搜索结果的目标标题的文本特征向量。
如图3所示的意图识别模型,对K个目标搜索结果的目标标题经过文本提取模型进行特征提取,输出title1~titleK的文本特征向量T1~TK。
206、以至少一个目标搜索结果的目标标题的点击率为权重,对至少一个目标搜索结果的目标标题的文本特征向量进行加权求和,得到目标标题特征。
在获取至少一个目标搜索结果的目标标题的文本特征向量时,考虑到采用了至少一个目标标题,而每一个目标标题的重要度并不相同,并且可能存在用户误点的目标标题。因此,本实施例还可以考虑注意力机制,用于突出重要的目标标题,并降低不重要的目标标题或者误点的目标标题的影响。因此,以至少一个目标搜索结果的目标标题的点击率为权重,对至少一个目标搜索结果的目标标题的文本特征向量进行加权求和,得到目标标题特征。计算方式如下公式2所示:
如图3所示的意图识别模型,对title1~titleK的文本特征向量T1~TK进行加权操作后,获得目标标题特征T。
207、识别第一搜索词、目标标题的一个或多个中的至少一个实体,得到实体集。
除了第一搜索词、目标标题,第一搜索词、目标标题中的实体也是重要的反映用户的意图的信息之一。例如“司藤电视剧结局”中的“司藤”,“小说大主宰”中的“大主宰”,这些实体包含了用户的意图的重要信息。因此,在模型中引入了实体特征。
实体是指常见的人物、电影、歌曲、地点、机构等。具体地,第一搜索词中可以包含实体,目标标题中也可以包含实体,或者第一搜索词和目标标题中均包含实体。
在预处理阶段,对第一搜索词、目标标题中的一个或多个进行实体识别处理,识别出第一搜索词、目标标题中的一个或多个的实体,得到实体集。
示例性地,可以利用预训练好的实体识别模型,用于识别第一搜索词、目标标题中的一个或多个的实体,得到实体集。
208、确定实体集中的每个实体分别所属的至少一个意图类别。
对于用户输入的第一搜索词,可以对应有一个或多个意图类别。该意图类别可以是根据内容、实体等划分得到的。例如,用户输入第一搜索词“姜子牙”,“姜子牙”可以被视为一个实体,根据该实体,可以划分为查询电影和查询人物两个意图类别。
在获得实体集后,确定实体集中的每个实体分别所属的至少一个意图类别。
209、获取每个实体分别所属的每个意图类别的先验概率。
不同于文本,实体存在歧义问题。例如“姜子牙”,同时存在电影“姜子牙”和人物“姜子牙”,很难通过单个实体判断用户想搜索电影还是人物,本实施例引入实体的先验概率。其中,先验概率为对实体所属的意图类别的概率的历史统计信息,每个实体分别所属的每个意图类别的先验概率为:属于每个意图类别的每个实体对应的第一次数与属于至少一个意图类别的每个实体在第一搜索词、目标标题的一个或多个中出现的总次数的比值。其中,属于每个意图类别的每个实体对应的第一次数为属于每个意图类别的每个实体在第一搜索词、目标标题的一个或多个中出现的次数。
示例性地,可以将实体e的先验概率形式化的表示为:
其中,ci表示属于类别i的实体e在第一搜索词、目标标题中的一个或多个中出现的次数。例如,电影《姜子牙》出现9次,人物“姜子牙”出现1次,那么姜子牙属于电影类别的先验概率为0.9,属于人物的先验概率为0.1。先验概率作为一种统计得来的先验信息,可以提高意图识别的准确性。
210、根据每个实体所属的每个意图类别的先验概率,生成实体集对应的实体特征。
在获得了实体集中的每个实体所属的每个意图类别的先验概率后,可以根据每个实体所属的每个意图类别的先验概率,生成该实体集对应的实体特征。
如果直接将实体集中的每个实体所属的每个意图类别的先验概率作为实体集对应的实体特征与搜索词特征、目标标题特征进行融合,由于先验概率维度较高,会降低搜索词特征、目标标题特征的影响力。因此,进一步地,在步骤209之后以及步骤210之前,还可以包括:
对实体集中的每个实体所属的每个意图类别的先验概率进行降维处理,处理后得到的实体集中的每个实体所属的每个意图类别的先验概率的维度与目标意图类别的数目一致。
示例性地,可以根据公式4对实体集中的每个实体所属的每个意图类别的先验概率进行降维处理,得到实体集中的每个实体所属的每个意图类别的先验概率的预分类结果如下:
另外,不同的实体在第一搜索词、目标标题的一个或多个中出现的次数不同,其重要度也不同。本实施例在实体特征提取过程中考虑注意力机制。
具体地,步骤210可以包括:
A1、获取实体集中的每个实体出现的频率。
其中,每个实体出现的频率为:每个实体在第一搜索词、目标标题的一个或多个中出现的次数与实体集在第一搜索词、目标标题的一个或多个中出现的总次数的比值。
A2、以实体集中的每个实体出现的频率为权重,对实体集中的每个实体所属的每个意图类别的先验概率进行加权求和,得到实体集对应的实体特征。
示例性地,对实体集中的每个实体所属的每个意图类别的先验概率进行加权求和,得到实体集对应的实体特征如下公式6所示:
如图3所示的意图识别模型,在提取实体entity1~entityK对应的实体特征时,引入实体先验概率,得到实体集中的每个实体所属的每个意图类别的先验概率E1~EK。然后,采用注意力机制对实体集中的每个实体所属的每个意图类别的先验概率E1~EK进行加权求和得到实体集对应的实体特征E。
211、对搜索词特征、目标标题特征、实体特征的向量进行拼接,得到融合特征。
212、将融合特征进行降维处理,处理后得到的融合特征的维度与目标意图类别的数目一致。
对于拼接之后的操作,可以利用一个全联接层,将融合特征的维度大小变化为意图类别的数目。全联接层表示为如下公式7:
F′=WFF+bF……公式7
其中,WF为可训练的参数矩阵,bF为偏置向量,F为融合特征,F′为降维处理后的融合特征。
213、根据处理后得到的融合特征,得到至少一种意图类别对应的分类概率。
将降维处理后得到的融合特征F′输入最终分类模块,可以得到至少一种意图类别对应的分类概率。
例如,查询电影《姜子牙》对应的分类概率为0.9,查询人物《姜子牙》对应的分类概率为0.5,查询电视介绍《姜子牙》对应的分类概率为0.4。
214、对至少一种意图类别对应的分类概率进行归一化处理。
上述至少一种意图类别对应的分类概率之和不等于1,不利于直观地区分分类概率最大的意图类别,因此,可以根据如下公式8使用一个回归模型(softmax)对至少一种意图类别对应的分类概率进行归一化处理,获取最终的分类概率分布:
P=softmax(F′)……公式8
其中,
Pi为归一化处理后的第i个意图类别对应的分类概率。
215、在归一化处理后得到的至少一种意图类别对应的分类概率中,确定分类概率最大的意图类别,作为目标意图类别。
在归一化处理后得到的至少一种意图类别对应的分类概率中,确定分类概率最大的意图类别为L=argmax(P),作为目标意图类别。
如图3所示的意图识别模型,对目标标题特征T、搜索词特征Q和实体特征E进行拼接,然后进行降维处理和归一化处理后,得到概率最大的意图类别L。
216、确定与目标意图类别对应的目标内容,目标内容用于在与第一搜索词关联的搜索结果页面中展示。
在确定目标意图类别后,可以获取与目标意图类别对应的目标内容。可以在与第一搜索词关联的搜索结果页面中展示该目标内容。示例性地,可以是在用户输入第一搜索词后,在第一搜索结果页面展示该目标内容;也可以是用户基于确定的目标意图类别,再次输入与第一搜索词类似的搜索词(修正后的搜索词)后,在第二搜索结果页面展示该目标内容。
结合上述步骤,可以训练得到准确的意图识别模型。
根据本申请实施例提供的一种意图识别方法,基于搜索词特征、目标标题特征、实体特征的融合特征预测搜索意图,提高了意图识别的准确性。
大多数搜索词中包含的上下文信息较少,搜索结果的标题不仅包含了用户对标题的点击特征,还包含更加丰富的文本特征。因此,引入目标标题特征,进一步提高了意图识别的准确性。
另外的实施例还提供了另一种意图识别方式是基于深度学习模型的方法,这类方法将意图识别当作一个分类模型,通过大量人工标注的数据训练深度学习模型,模型一般选用基于循环神经网络(recurrent neural network,RNN)的模型。基于深度学习的方式,相较于基于模版的方式更加先进,使用范围更广,召回率也更高。但是,获取高质量的训练数据是难点之一。其次,大多数模型只从搜索词本身获取特征,而搜索词作为短文本,本身特征较少且存在歧义词问题,导致模型效果并不理想。大多数实体存在歧义问题,尤其是在小说、影视等泛娱乐领域,本实施例训练的意图识别模型借助先验概率可以对实体进行消歧并作为一种特征,可以有效地在模型中引入先验知识,进一步提高了意图识别的准确性。
基于上述意图识别方法的同一构思,如图4所示,本申请实施例还提供一种意图识别装置,该意图识别装置400包括:第一确定单元401、第一特征提取单元402、第二特征提取单元403、第三特征提取单元404、特征融合单元405、预测单元406和第二确定单元407;还可以包括第一降维处理单元408(图中以虚线表示和连接)。其中:
第一确定单元401,用于响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;其中,所述第一搜索结果页面用于显示基于第一搜索词得到的至少一个搜索结果的标题;
第一特征提取单元402,用于对所述第一搜索词进行第一特征提取处理,得到所述第一搜索词的搜索词特征;
第二特征提取单元403,用于对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征;
第三特征提取单元404,用于对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征;
特征融合单元405,用于对所述搜索词特征、所述目标标题特征、所述实体特征进行融合处理,得到融合特征;
预测单元406,用于基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别;
第二确定单元407,用于确定与所述目标意图类别对应的目标内容,所述目标内容用于在与所述第一搜索词关联的搜索结果页面中展示。
在一种可能的实现中,所述第一确定单元401包括:
第一获取单元4011,用于响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,获取对所述至少一个搜索结果的标题的点击率,其中,所述至少一个搜索结果的标题中每个搜索结果的标题的点击率为:设定时间段内多个用户对所述每个搜索结果的标题的点击次数分别与所述多个用户对所述至少一个搜索结果的标题的总的点击次数的比值,所述多个用户为输入所述第一搜索词以及与所述第一搜索词关联的信息的用户;
排序单元4012,用于对所述至少一个搜索结果的标题的点击率按从多到少的顺序进行排序;
筛选单元4013,用于根据所述至少一个搜索结果的标题的点击率的排序结果,筛选所述点击率的排序小于或等于设定值的至少一个搜索结果的标题,作为至少一个目标搜索结果的目标标题。
在又一种可能的实现中,所述第二特征提取单元403包括:
第二获取单元4031,用于对所述至少一个目标搜索结果的目标标题进行特征提取,得到所述至少一个目标搜索结果的目标标题的文本特征向量;
第一加权求和单元4032,用于以所述至少一个目标搜索结果的目标标题的点击率为权重,对所述至少一个目标搜索结果的目标标题的文本特征向量进行加权求和,得到所述目标标题特征。
在又一种可能的实现中,所述第三特征提取单元404包括:
识别单元4041,用于识别所述第一搜索词、所述目标标题的一个或多个中的至少一个实体,得到实体集;
第三确定单元4042,用于确定所述实体集中的每个实体分别所属的至少一个意图类别;
第三获取单元4043,用于获取所述每个实体分别所属的每个意图类别的先验概率,所述先验概率为对实体所属的意图类别的概率的历史统计信息,所述每个实体分别所属的每个意图类别的先验概率为:属于每个意图类别的每个实体对应的第一次数与属于所述至少一个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;其中,属于每个意图类别的每个实体对应的第一次数为属于每个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数;
生成单元4044,用于根据所述每个实体所属的每个意图类别的先验概率,生成所述实体集对应的实体特征。
在又一种可能的实现中,所述生成单元4044包括:
第四获取单元,用于获取所述实体集中的每个实体出现的频率,所述每个实体出现的频率为:所述每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数与所述实体集在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;
第二加权求和单元,用于以所述实体集中的每个实体出现的频率为权重,对所述实体集中的每个实体所属的每个意图类别的先验概率进行加权求和,得到所述实体集对应的实体特征。
在又一种可能的实现中,所述装置还包括:
第一降维处理单元408,用于对所述实体集中的每个实体所属的每个意图类别的先验概率进行降维处理,处理后得到的所述实体集中的每个实体所属的每个意图类别的先验概率的维度与所述目标意图类别的数目一致。
在又一种可能的实现中,所述特征融合单元405用于对所述搜索词特征、所述目标标题特征、所述实体特征的向量进行拼接,得到所述融合特征。
在又一种可能的实现中,所述第二确定单元407包括:
第二降维处理单元4071,用于将所述融合特征进行降维处理,处理后得到的融合特征的维度与所述目标意图类别的数目一致;
第五获取单元4072,用于根据所述处理后得到的融合特征,得到至少一种意图类别对应的分类概率;
归一化处理单元4073,用于对所述至少一种意图类别对应的分类概率进行归一化处理;
第四确定单元4074,用于在归一化处理后得到的至少一种意图类别对应的分类概率中,确定分类概率最大的意图类别,作为所述目标意图类别。
有关上述各单元的具体实现可参考前述方法实施例中的相关描述,在此不再赘述。
根据本申请实施例提供的一种意图识别装置,基于搜索词特征、目标标题特征、实体特征的融合特征预测搜索意图,提高了意图识别的准确性;
大多数搜索词中包含的上下文信息较少,搜索结果的标题不仅包含了用户对标题的点击特征,还包含更加丰富的文本特征。因此,引入目标标题特征,进一步提高了意图识别的准确性;
大多数实体存在歧义问题,尤其是在小说、影视等泛娱乐领域,借助先验概率可以对实体进行消歧并作为一种特征,可以有效地在模型中引入先验知识,进一步提高了意图识别的准确性。
根据本申请的另一个实施例,图4中所示的意图识别装置中的各个单元或模块可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于媒体资源动态显示装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央缓存数据大小处理模块(central processing unit,CPU)、随机存取存储介质(random access memory,RAM)、只读存储介质(read-only memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行上述方法实施例中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图4中所示的意图识别装置,以及来实现本申请实施例的意图识别方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种意图识别装置。请参见图5,该装置至少包括处理器501、输入设备502、输出设备503以及计算机存储介质504。其中,装置内的处理器501、输入设备502、输出设备503以及计算机存储介质504可通过总线或其他方式连接。
计算机存储介质504可以存储在装置的存储器中,所述计算机存储介质504用于存储计算机程序,所述计算机程序包括程序指令,所述处理器501用于执行所述计算机存储介质504存储的程序指令。处理器501(或称CPU)是装置的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例所述的处理器501可以用于加载并执行如图1或图2所示实施例中的方法步骤。
需要说明的是,以上单元或单元的一个或多个可以软件、硬件或二者结合来实现。当以上任一单元或单元以软件实现的时候,所述软件以计算机程序指令的方式存在,并被存储在存储器中,处理器可以用于执行所述程序指令并实现以上方法流程。该处理器可以内置于片上系统(system on chip,SoC)或ASIC,也可是一个独立的半导体芯片。该处理器内处理用于执行软件指令以进行运算或处理的核外,还可进一步包括必要的硬件加速器,如现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmable logic device,PLD)、或者实现专用逻辑运算的逻辑电路。
当以上单元或单元以硬件实现的时候,该硬件可以是CPU、微处理器、数字信号处理(digital signal processing,DSP)芯片、微控制单元(microcontroller unit,MCU)、人工智能处理器、ASIC、SoC、FPGA、PLD、专用数字电路、硬件加速器或非集成的分立器件中的任一个或任一组合,其可以运行必要的软件或不依赖于软件以执行以上方法流程。
可选的,本申请实施例还提供了一种芯片系统,包括:至少一个处理器和接口,该至少一个处理器通过接口与存储器耦合,当该至少一个处理器运行存储器中的计算机程序或指令时,使得该芯片系统执行上述任一方法实施例中的方法。可选的,该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件,本申请实施例对此不作具体限定。
应理解,在本申请的描述中,除非另有说明,“/”表示前后关联的对象是一种“或”的关系,例如,A/B可以表示A或B;其中A,B可以是单数或者复数。并且,在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。同时,在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念,便于理解。
本申请实施例还提供了一种计算机存储介质(memory),所述计算机存储介质是装置中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括装置中的内置存储介质,当然也可以包括装置所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了装置的操作系统。并且,在该存储空间中还存放了适于被处理器301加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存取存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
Claims (10)
1.一种意图识别方法,其特征在于,所述方法包括:
响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;其中,所述第一搜索结果页面用于显示基于第一搜索词得到的至少一个搜索结果的标题;
对所述第一搜索词进行第一特征提取处理,得到所述第一搜索词的搜索词特征;
对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征;
对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征;
对所述搜索词特征、所述目标标题特征、所述实体特征进行融合处理,得到融合特征;
基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别;
确定与所述目标意图类别对应的目标内容,所述目标内容用于在与所述第一搜索词关联的搜索结果页面中展示。
2.根据权利要求1所述的方法,其特征在于,所述响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题,包括:
响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,获取对所述至少一个搜索结果的标题的点击率,其中,所述至少一个搜索结果的标题中每个搜索结果的标题的点击率为:设定时间段内多个用户对所述每个搜索结果的标题的点击次数分别与所述多个用户对所述至少一个搜索结果的标题的总的点击次数的比值,所述多个用户为输入所述第一搜索词以及与所述第一搜索词关联的信息的用户;
对所述至少一个搜索结果的标题的点击率按从多到少的顺序进行排序;
根据所述至少一个搜索结果的标题的点击率的排序结果,筛选所述点击率的排序小于或等于设定值的至少一个搜索结果的标题,作为至少一个目标搜索结果的目标标题。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征,包括:
对所述至少一个目标搜索结果的目标标题进行特征提取,得到所述至少一个目标搜索结果的目标标题的文本特征向量;
以所述至少一个目标搜索结果的目标标题的点击率为权重,对所述至少一个目标搜索结果的目标标题的文本特征向量进行加权求和,得到所述目标标题特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征,包括:
识别所述第一搜索词、所述目标标题的一个或多个中的至少一个实体,得到实体集;
确定所述实体集中的每个实体分别所属的至少一个意图类别;
获取所述每个实体分别所属的每个意图类别的先验概率,所述先验概率为对实体所属的意图类别的概率的历史统计信息,所述每个实体分别所属的每个意图类别的先验概率为:属于每个意图类别的每个实体对应的第一次数与属于所述至少一个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;其中,属于每个意图类别的每个实体对应的第一次数为属于每个意图类别的每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数;
根据所述每个实体所属的每个意图类别的先验概率,生成所述实体集对应的实体特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个实体所属的每个意图类别的先验概率,生成所述实体集对应的实体特征,包括:
获取所述实体集中的每个实体出现的频率,所述每个实体出现的频率为:所述每个实体在所述第一搜索词、所述目标标题的一个或多个中出现的次数与所述实体集在所述第一搜索词、所述目标标题的一个或多个中出现的总次数的比值;
以所述实体集中的每个实体出现的频率为权重,对所述实体集中的每个实体所属的每个意图类别的先验概率进行加权求和,得到所述实体集对应的实体特征。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
对所述实体集中的每个实体所属的每个意图类别的先验概率进行降维处理,处理后得到的所述实体集中的每个实体所属的每个意图类别的先验概率的维度与所述目标意图类别的数目一致。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别,包括:
将所述融合特征进行降维处理,处理后得到的融合特征的维度与所述目标意图类别的数目一致;
根据所述处理后得到的融合特征,得到至少一种意图类别对应的分类概率;
对所述至少一种意图类别对应的分类概率进行归一化处理;
在归一化处理后得到的至少一种意图类别对应的分类概率中,确定分类概率最大的意图类别,作为所述目标意图类别。
8.一种意图识别装置,其特征在于,所述装置包括:
第一确定单元,用于响应于用户针对第一搜索结果页面中至少一个搜索结果的标题的触发操作,从所述至少一个搜索结果的标题中确定至少一个目标搜索结果的目标标题;其中,所述第一搜索结果页面用于显示基于第一搜索词得到的至少一个搜索结果的标题;
第一特征提取单元,用于对所述第一搜索词进行第一特征提取处理,得到所述第一搜索词的搜索词特征;
第二特征提取单元,用于对所述至少一个目标搜索结果的目标标题进行第二特征提取处理,得到目标标题特征;
第三特征提取单元,用于对所述第一搜索词、所述目标标题中的一个或多个进行实体识别处理,得到实体特征;
特征融合单元,用于对所述搜索词特征、所述目标标题特征、所述实体特征进行融合处理,得到融合特征;
预测单元,用于基于所述融合特征对所述第一搜索词对应的搜索意图进行预测,确定所述第一搜索词对应的目标意图类别;
第二确定单元,用于确定与所述目标意图类别对应的目标内容,所述目标内容用于在与所述第一搜索词关联的搜索结果页面中展示。
9.一种意图识别装置,其特征在于,包括输入设备和输出设备,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-7任一所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111205780.XA CN115905664A (zh) | 2021-08-18 | 2021-08-18 | 意图识别方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111205780.XA CN115905664A (zh) | 2021-08-18 | 2021-08-18 | 意图识别方法及装置 |
CN202110951767.2 | 2021-08-18 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110951767.2 Division | 2021-08-18 | 2021-08-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115905664A true CN115905664A (zh) | 2023-04-04 |
Family
ID=86486923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111205780.XA Pending CN115905664A (zh) | 2021-08-18 | 2021-08-18 | 意图识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905664A (zh) |
-
2021
- 2021-08-18 CN CN202111205780.XA patent/CN115905664A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
Burns et al. | Women also snowboard: Overcoming bias in captioning models | |
US8549016B2 (en) | System and method for providing robust topic identification in social indexes | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111444428A (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN112733042B (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN112395506A (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
US12050636B2 (en) | Generating document summary | |
CN112364204B (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
US20220366138A1 (en) | Rule-based machine learning classifier creation and tracking platform for feedback text analysis | |
CN113570413A (zh) | 广告关键词的生成方法、装置、存储介质及电子设备 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
US20230368003A1 (en) | Adaptive sparse attention pattern | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Zhu et al. | Multimodal sparse linear integration for content-based item recommendation | |
Zhu et al. | Intelligent product redesign strategy with ontology-based fine-grained sentiment analysis | |
CN115905664A (zh) | 意图识别方法及装置 | |
KR102041915B1 (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 | |
CN113763084A (zh) | 产品推荐的处理方法、装置、设备及存储介质 | |
CN111651643A (zh) | 候选内容的处理方法及相关设备 | |
CN115310547B (zh) | 模型训练方法、物品识别方法及装置、电子设备、介质 | |
CN113486252B (zh) | 搜索结果展示方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40084300 Country of ref document: HK |