CN114691990A - 查询选项的推荐方法、装置、服务器、存储介质及产品 - Google Patents
查询选项的推荐方法、装置、服务器、存储介质及产品 Download PDFInfo
- Publication number
- CN114691990A CN114691990A CN202210304729.2A CN202210304729A CN114691990A CN 114691990 A CN114691990 A CN 114691990A CN 202210304729 A CN202210304729 A CN 202210304729A CN 114691990 A CN114691990 A CN 114691990A
- Authority
- CN
- China
- Prior art keywords
- semantic information
- information
- query
- semantic
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本申请提供了一种查询选项的推荐方法、装置、服务器、存储介质及产品,属于互联网技术领域。方法包括:获取目标账号的行为序列特征,行为序列特征包括至少一个历史行为的特征,至少一个历史行为为目标账号历史进行查询操作的行为;基于行为序列特征,确定第一语义信息,第一语义信息为基于行为序列特征确定的目标账号感兴趣的查询选项的语义信息;从多个候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息,多个候选语义信息为候选查询选项对应的语义信息;基于至少一个第二语义信息分别对应的至少一个候选查询选项,为目标账号推荐第一目标查询选项。该方法提高了为账号推荐查询选项的准确性。
Description
技术领域
本申请涉及互联网技术领域,特别涉及一种查询选项的推荐方法、装置、服务器、存储介质及产品。
背景技术
随着互联网技术的日益发展,人们可以将物品发布到网络平台上销售,这样不仅降低了销售成本,还极大的方便了用户的生活。而由于网络平台上的物品很多,为了节省用户从海量的物品中查找用户喜欢的物品的所需时间,服务器可以为用户推荐其可能感兴趣的物品对应的查询选项,使用户基于该查询选项来查找物品,以提高用户的查找效率。
发明内容
本申请实施例提供了一种查询选项的推荐方法、装置、服务器、存储介质及产品,能够提高为账号推荐查询选项的准确性。所述技术方案如下:
一方面,提供了一种查询选项的推荐方法,所述方法包括:
获取目标账号的行为序列特征,所述行为序列特征包括至少一个历史行为的特征,所述至少一个历史行为为所述目标账号历史进行查询操作的行为;
基于所述行为序列特征,确定第一语义信息,所述第一语义信息为基于所述行为序列特征确定的所述目标账号感兴趣的查询选项的语义信息;
从多个候选语义信息中确定与所述第一语义信息匹配的至少一个第二语义信息,所述多个候选语义信息为候选查询选项对应的语义信息;
基于所述至少一个第二语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第一目标查询选项。
在一种实现方式中,所述基于所述行为序列特征,确定第一语义信息,包括:
获取所述目标账号的拓展特征,所述拓展特征用于辅助确定所述第一语义信息;
基于所述行为序列特征和所述拓展特征,确定所述第一语义信息。
在一种实现方式中,所述获取所述目标账号的拓展特征,包括以下至少一种实现方式:
获取每个历史行为的位置特征,将所述每个历史行为的位置特征确定为所述目标账号的拓展特征;或者,
获取所述每个历史行为对应的查询选项的类别特征,将所述每个历史行为对应的查询选项的类别特征确定为所述目标账号的拓展特征;或者,
获取所述目标账号的用户画像特征,将所述用户画像特征确定为所述目标账号的拓展特征。
在一种实现方式中,所述基于所述行为序列特征和所述拓展特征,确定所述第一语义信息,包括:
将所述行为序列特征和所述拓展特征输入第一语义识别模型,输出所述第一语义信息,所述第一语义识别模型用于识别所述行为序列特征和所述拓展特征对应的语义信息。
在一种实现方式中,所述第一语义识别模型的训练过程包括:
获取样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征,所述第一样本拓展特征用于辅助确定所述样本查询选项的语义信息,所述第二样本拓展特征用于辅助确定所述样本行为序列特征的语义信息;
将所述样本查询选项、所述第一样本拓展特征、所述样本行为序列特征和所述第二样本拓展特征输入初始语义识别模型,输出所述样本查询选项与所述样本行为序列特征之间的相似度预测结果;
基于所述相似度预测结果和预设相似度结果之间的损失值,对所述初始语义识别模型的模型参数进行调整,得到所述第一语义识别模型。
在一种实现方式中,所述将所述样本查询选项、所述第一样本拓展特征、所述样本行为序列特征和所述第二样本拓展特征输入初始语义识别模型,输出所述样本查询选项与所述样本行为序列特征之间的相似度预测结果,包括:
将所述样本查询选项和所述第一样本拓展特征输入所述初始语义识别模型,输出第一预测语义信息;
将所述样本行为序列特征和所述第二样本拓展特征输入所述初始语义识别模型,输出第二预测语义信息;
确定所述第一预测语义信息与所述第二预测语义信息之间的差异信息和最大值信息,所述第一预测语义信息和所述第二预测语义信息中分别包括多个维度的子信息,所述差异信息为每个维度的两个子信息的差值组成的信息,所述最大值信息为每个维度的两个子信息中的最大子信息组成的信息;
基于所述第一预测语义信息、所述第二预测语义信息、所述差异信息和所述最大值信息进行相似度判别,得到所述相似度预测结果。
在一种实现方式中,所述样本查询选项包括正样本查询选项和负样本查询选项,所述样本查询选项的获取过程包括:
获取样本账号的样本行为序列特征对应的查询选项序列;
从所述查询选项序列中获取所述样本账号对应的正样本查询选项;
确定与所述正样本查询选项所属的类别特征不同的目标类别特征;
从所述目标类别特征对应的查询选项集合中,获取所述账号对应的负样本查询选项。
在一种实现方式中,所述方法还包括:
记录所述目标账号基于所述第一目标查询选项的行为信息;
基于所述行为信息,离线更新第二语义识别模型,所述第二语义识别模型为与所述第一语义识别模型对应的离线语义识别模型;
将更新后的所述第二语义识别模型的模型参数同步给所述第一语义识别模型。
在一种实现方式中,所述基于所述至少一个第二语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第一目标查询选项,包括:
基于每个第二语义信息与所述第一语义信息之间的相似度,对所述至少一个第二语义信息分别对应的至少一个候选查询选项进行排序,得到排序后的候选查询选项;
去除所述排序后的查询选项中前目标数量的候选查询选项,得到所述第一目标查询选项;
为所述目标账号推荐所述第一目标查询选项。
在一种实现方式中,所述从多个候选语义信息中确定与所述第一语义信息匹配的至少一个第二语义信息,包括:
确定所述目标账号对应的目标区域信息;
基于所述目标区域信息,从所述多个候选语义信息中确定至少一个目标候选语义信息,所述目标候选语义信息对应的区域信息为所述目标区域信息;
从所述至少一个目标候选语义信息中确定与所述第一语义信息匹配的所述至少一个第二语义信息。
在一种实现方式中,所述获取目标账号的行为序列特征之前,所述方法还包括:
在所述目标账号未发生历史行为的情况下,基于所述拓展特征,确定第三语义信息,所述第三语义信息为基于所述拓展特征确定的所述目标账号感兴趣的查询选项的语义信息;
从所述多个候选语义信息中确定与所述第三语义信息匹配的至少一个第四语义信息;
基于所述至少一个第四语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第二目标查询选项。
另一方面,提供了一种查询选项的推荐装置,所述装置包括:
第一获取模块,用于获取目标账号的行为序列特征,所述行为序列特征包括至少一个历史行为的特征,所述至少一个历史行为为所述目标账号历史进行查询操作的行为;
第一确定模块,用于基于所述行为序列特征,确定第一语义信息,所述第一语义信息为基于所述行为序列特征确定的所述目标账号感兴趣的查询选项的语义信息;
第二确定模块,用于从多个候选语义信息中确定与所述第一语义信息匹配的至少一个第二语义信息,所述多个候选语义信息为候选查询选项对应的语义信息;
第一推荐模块,用于基于所述至少一个第二语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第一目标查询选项。
在一种实现方式中,所述第一确定模块,包括:
第一获取单元,用于获取所述目标账号的拓展特征,所述拓展特征用于辅助确定所述第一语义信息;
第一确定单元,用于基于所述行为序列特征和所述拓展特征,确定所述第一语义信息。
在一种实现方式中,所述第一获取单元,用于:
获取每个历史行为的位置特征,将所述每个历史行为的位置特征确定为所述目标账号的拓展特征;或者,
获取所述每个历史行为对应的查询选项的类别特征,将所述每个历史行为对应的查询选项的类别特征确定为所述目标账号的拓展特征;或者,
获取所述目标账号的用户画像特征,将所述用户画像特征确定为所述目标账号的拓展特征。
在一种实现方式中,所述第一确定单元,用于:
将所述行为序列特征和所述拓展特征输入第一语义识别模型,输出所述第一语义信息,所述第一语义识别模型用于识别所述行为序列特征和所述拓展特征对应的语义信息。
在一种实现方式中,所述装置还包括:
第二获取模块,用于获取样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征,所述第一样本拓展特征用于辅助确定所述样本查询选项的语义信息,所述第二样本拓展特征用于辅助确定所述样本行为序列特征的语义信息;
输入输出模块,用于将所述样本查询选项、所述第一样本拓展特征、所述样本行为序列特征和所述第二样本拓展特征输入初始语义识别模型,输出所述样本查询选项与所述样本行为序列特征之间的相似度预测结果;
调整模块,用于基于所述相似度预测结果和预设相似度结果之间的损失值,对所述初始语义识别模型的模型参数进行调整,得到所述第一语义识别模型。
在一种实现方式中,所述输入输出模块,用于:
将所述样本查询选项和所述第一样本拓展特征输入所述初始语义识别模型,输出第一预测语义信息;
将所述样本行为序列特征和所述第二样本拓展特征输入所述初始语义识别模型,输出第二预测语义信息;
确定所述第一预测语义信息与所述第二预测语义信息之间的差异信息和最大值信息,所述第一预测语义信息和所述第二预测语义信息中分别包括多个维度的子信息,所述差异信息为每个维度的两个子信息的差值组成的信息,所述最大值信息为每个维度的两个子信息中的最大子信息组成的信息;
基于所述第一预测语义信息、所述第二预测语义信息、所述差异信息和所述最大值信息进行相似度判别,得到所述相似度预测结果。
在一种实现方式中,所述样本查询选项包括正样本查询选项和负样本查询选项,所述第二获取模块,用于:
获取样本账号的样本行为序列特征对应的查询选项序列;
从所述查询选项序列中获取所述样本账号对应的正样本查询选项;
确定与所述正样本查询选项所属的类别特征不同的目标类别特征;
从所述目标类别特征对应的查询选项集合中,获取所述账号对应的负样本查询选项。
在一种实现方式中,所述装置还包括:
记录模块,用于记录所述目标账号基于所述第一目标查询选项的行为信息;
更新模块,用于基于所述行为信息,离线更新第二语义识别模型,所述第二语义识别模型为与所述第一语义识别模型对应的离线语义识别模型;
同步模块,用于将更新后的所述第二语义识别模型的模型参数同步给所述第一语义识别模型。
在一种实现方式中,所述第一推荐模块,用于:
基于每个第二语义信息与所述第一语义信息之间的相似度,对所述至少一个第二语义信息分别对应的至少一个候选查询选项进行排序,得到排序后的候选查询选项;
去除所述排序后的查询选项中前目标数量的候选查询选项,得到所述第一目标查询选项;
为所述目标账号推荐所述第一目标查询选项。
在一种实现方式中,所述第二确定模块,用于:
确定所述目标账号对应的目标区域信息;
基于所述目标区域信息,从所述多个候选语义信息中确定至少一个目标候选语义信息,所述目标候选语义信息对应的区域信息为所述目标区域信息;
从所述至少一个目标候选语义信息中确定与所述第一语义信息匹配的所述至少一个第二语义信息。
在一种实现方式中,所述装置还包括:
第三确定模块,用于在所述目标账号未发生历史行为的情况下,基于所述拓展特征,确定第三语义信息,所述第三语义信息为基于所述拓展特征确定的所述目标账号感兴趣的查询选项的语义信息;
第四确定模块,用于从所述多个候选语义信息中确定与所述第三语义信息匹配的至少一个第四语义信息;
第二推荐模块,用于基于所述至少一个第四语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第二目标查询选项。
另一方面,提供了一种服务器,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现上述任一实现方式所述的查询选项的推荐方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一实现方式所述的查询选项的推荐方法。
另一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,服务器的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述服务器执行上述任一实现方式所述的查询选项的推荐方法。
本申请提供了一种查询选项的推荐方法,由于该方法基于账号的行为序列特征确定了该账号的第一语义信息,且从多个候选语义信息中确定了与该第一语义信息匹配的第二语义信息,进而再基于第二语义信息对应的候选查询选项来为该账号推荐查询选项,实现了基于账号的历史行为的语义信息来为账号推荐查询选项;由于历史行为的语义信息能够充分表征账号感兴趣的查询选项,这样通过语义信息来为账号推荐查询选项,使得推荐的查询选项更加符合账号的兴趣,进而提高了为账号推荐查询选项的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种查询选项的推荐方法的流程图;
图3是本申请实施例提供的一种查询选项的推荐方法的流程图;
图4是本申请实施例提供的一种查询选项的在线检索流程图;
图5是本申请实施例提供的一种语义识别模型的训练方法流程图;
图6是本申请实施例提供的一种语义识别模型的离线训练流程图;
图7是本申请实施例提供的一种双塔BERT模型的离线训练流程图;
图8是本申请实施例提供的一种查询选项的推荐方法的流程图;
图9是本申请实施例提供的一种查询选项的推荐装置的框图;
图10是本申请实施例提供的一种服务器的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)为经用户授权或者经过各方充分授权的信息。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本申请实施例提供了一种查询选项的推荐方法的实施环境,参见图1,该实施环境包括终端10和服务器20;终端10和服务器20之间通过无线或有线网络连接。本领域技术人员可以知晓,上述终端10的数量可以更多或更少。比如上述终端10可以仅为一个,或者上述终端10为几十个或几百个,或者更多数量。本申请实施例对终端10的数量不加以限定。其中,每个终端10上安装由服务器20提供服务的目标应用,且每个终端10能够通过该目标应用实现例如数据传输、信息交互等功能。在一些实施例中,目标应用为终端10操作系统中的应用,或者为第三方提供的应用。例如,目标应用可以为外卖应用、购物应用、短视频应用、新闻应用、音频应用、视频应用等。
在一些实施例中,服务器20提供用于点外卖的外卖平台,终端10上安装有与外卖平台对应的外卖应用,用户通过该外卖应用注册该外卖平台对应的账号。服务器20用于基于该外卖平台上注册的账号点外卖的历史行为,确定向该账号推荐的目标查询选项,该目标查询选项可以为菜品、饮品或甜点等目标查询选项中的至少一种。当用户基于该外卖平台点外卖时,终端10通过其上安装的外卖应用从服务器20获取目标查询选项并向账号推荐该目标查询选项。
在一些实施例中,服务器20提供用于购物的购物平台,终端10上安装有与购物平台对应的购物应用,用户通过该购物应用注册该购物平台对应的账号。服务器20用于基于该购物平台上注册的账号购物的历史行为,确定向该账号推荐的目标查询选项,该目标查询选项可以为家具、衣服、鞋、包等目标查询选项中的至少一种。当用户基于该购物平台购物时,终端10通过其上安装的购物应用从服务器20获取目标查询选项并向账号推荐该目标查询选项。
在一些实施例中,服务器20提供用于观看短视频的短视频平台,终端10上安装有与短视频平台对应的短视频应用,用户通过该短视频应用注册该短视频平台对应的账号。服务器20用于基于该短视频平台上注册的账号观看短视频的历史行为,确定向该账号推荐的目标查询选项,该目标查询选项可以为微记录片视频、搞笑视频、创意剪辑视频等中的至少一种。当用户基于该短视频平台观看短视频时,终端10通过其上安装的短视频应用从服务器20获取目标查询选项并向账号推荐该目标查询选项。
在一些实施例中,服务器20提供用于购买保险的保险平台,终端10上安装有与保险平台对应的保险应用,用户通过该保险应用注册该保险平台对应的账号。服务器20用于基于该保险平台注册的账号的历史行为,确定向该账号推荐的目标查询选项。当用户基于该保险平台购买保险时,终端10通过其上安装的保险应用从服务器20获取目标查询选项并向账号推荐该目标查询选项。
终端10为手机、平板电脑和PC(Personal Computer)设备等设备中的至少一种。服务器20可以为一台服务器、由多台服务器组成的服务器集群、云服务器、云计算平台和虚拟化中心中的至少一种。
图2是本申请实施例提供的一种查询选项的推荐方法,执行主体为服务器,参见图2,该方法包括:
步骤201:获取目标账号的行为序列特征,行为序列特征包括至少一个历史行为的特征,至少一个历史行为为目标账号历史进行查询操作的行为。
步骤202:基于行为序列特征,确定第一语义信息,第一语义信息为基于行为序列特征确定的目标账号感兴趣的查询选项的语义信息。
步骤203:从多个候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息,多个候选语义信息为候选查询选项对应的语义信息。
步骤204:基于至少一个第二语义信息分别对应的至少一个候选查询选项,为目标账号推荐第一目标查询选项。
在一种实现方式中,基于行为序列特征,确定第一语义信息,包括:
获取目标账号的拓展特征,拓展特征用于辅助确定第一语义信息;
基于行为序列特征和拓展特征,确定第一语义信息。
在一种实现方式中,获取目标账号的拓展特征,包括以下至少一种实现方式:
获取每个历史行为的位置特征,将每个历史行为的位置特征确定为目标账号的拓展特征;或者,
获取每个历史行为对应的查询选项的类别特征,将每个历史行为对应的查询选项的类别特征确定为目标账号的拓展特征;或者,
获取目标账号的用户画像特征,将用户画像特征确定为目标账号的拓展特征。
在一种实现方式中,基于行为序列特征和拓展特征,确定第一语义信息,包括:
将行为序列特征和拓展特征输入第一语义识别模型,输出第一语义信息,第一语义识别模型用于识别行为序列特征和拓展特征对应的语义信息。
在一种实现方式中,第一语义识别模型的训练过程包括:
获取样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征,第一样本拓展特征用于辅助确定样本查询选项的语义信息,第二样本拓展特征用于辅助确定样本行为序列特征的语义信息;
将样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征输入初始语义识别模型,输出样本查询选项与样本行为序列特征之间的相似度预测结果;
基于相似度预测结果和预设相似度结果之间的损失值,对初始语义识别模型的模型参数进行调整,得到第一语义识别模型。
在一种实现方式中,将样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征输入初始语义识别模型,输出样本查询选项与样本行为序列特征之间的相似度预测结果,包括:
将样本查询选项和第一样本拓展特征输入初始语义识别模型,输出第一预测语义信息;
将样本行为序列特征和第二样本拓展特征输入初始语义识别模型,输出第二预测语义信息;
确定第一预测语义信息与第二预测语义信息之间的差异信息和最大值信息,第一预测语义信息和第二预测语义信息中分别包括多个维度的子信息,差异信息为每个维度的两个子信息的差值组成的信息,最大值信息为每个维度的两个子信息中的最大子信息组成的信息;
基于第一预测语义信息、第二预测语义信息、差异信息和最大值信息进行相似度判别,得到相似度预测结果。
在一种实现方式中,样本查询选项包括正样本查询选项和负样本查询选项,样本查询选项的获取过程包括:
获取样本账号的样本行为序列特征对应的查询选项序列;
从查询选项序列中获取样本账号对应的正样本查询选项;
确定与正样本查询选项所属的类别特征不同的目标类别特征;
从目标类别特征对应的查询选项集合中,获取账号对应的负样本查询选项。
在一种实现方式中,方法还包括:
记录目标账号基于第一目标查询选项的行为信息;
基于行为信息,离线更新第二语义识别模型,第二语义识别模型为与第一语义识别模型对应的离线语义识别模型;
将更新后的第二语义识别模型的模型参数同步给第一语义识别模型。
在一种实现方式中,基于至少一个第二语义信息分别对应的至少一个候选查询选项,为目标账号推荐第一目标查询选项,包括:
基于每个第二语义信息与第一语义信息之间的相似度,对至少一个第二语义信息分别对应的至少一个候选查询选项进行排序,得到排序后的候选查询选项;
去除排序后的查询选项中前目标数量的候选查询选项,得到第一目标查询选项;
为目标账号推荐第一目标查询选项。
在一种实现方式中,从多个候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息,包括:
确定目标账号对应的目标区域信息;
基于目标区域信息,从多个候选语义信息中确定至少一个目标候选语义信息,目标候选语义信息对应的区域信息为目标区域信息;
从至少一个目标候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息。
在一种实现方式中,获取目标账号的行为序列特征之前,方法还包括:
在目标账号未发生历史行为的情况下,基于拓展特征,确定第三语义信息,第三语义信息为基于拓展特征确定的目标账号感兴趣的查询选项的语义信息;
从多个候选语义信息中确定与第三语义信息匹配的至少一个第四语义信息;
基于至少一个第四语义信息分别对应的至少一个候选查询选项,为目标账号推荐第二目标查询选项。
本申请提供了一种查询选项的推荐方法,由于该方法基于账号的行为序列特征确定了该账号的第一语义信息,且从多个候选语义信息中确定了与该第一语义信息匹配的第二语义信息,进而再基于第二语义信息对应的候选查询选项来为该账号推荐查询选项,实现了基于账号的历史行为的语义信息来为账号推荐查询选项;由于历史行为的语义信息能够充分表征账号感兴趣的查询选项,这样通过语义信息来为账号推荐查询选项,使得推荐的查询选项更加符合账号的兴趣,进而提高了为账号推荐查询选项的准确性。
图3是本申请实施例提供的一种查询选项的推荐方法,参见图3,该方法包括:
步骤301:终端向服务器发送推荐请求。
其中,推荐请求携带目标账号的标识信息,目标账号为终端上安装的由服务器提供服务的目标应用的注册账号。在一种实现方式中,在向服务器发送推荐请求之前,终端的应用界面上显示搜索框,终端响应于用户触发该搜索框,触发推荐请求发送至服务器。在另一种实现方式中,在终端上的目标应用启动时,触发推荐请求发送至服务器。在本申请实施例中,对触发推荐请求的具体实现方式不做具体限定。
步骤302:服务器接收推荐请求,获取目标账号的行为序列特征。
其中,行为序列特征包括至少一个历史行为的特征,至少一个历史行为为目标账号历史进行查询操作的行为。可选地,目标账号进行查询操作的行为包括目标账号在搜索框中输入查询内容、触发推荐的查询选项、在推荐界面上触发推荐的物品等,在本申请实施例中,对比不作具体限定。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
其中,多个历史行为为目标时间段内的历史行为,目标时间段可以根据需要进行设定并更改,在本申请实施例中,对此不作具体限定;可选地,目标时间段为最近30分钟、最近3天或最近7天等中的一个。
需要说明的是,行为序列特征中包括的多个历史行为对应的总字符数不超过预设字符数。其中,对于目标时间段内发生的多个历史行为对应的总字符数超过预设字符数的情况下,则服务器获取最近的多个历史行为,该最近的多个历史行为对应的总字符数不超过预设字符数。在本申请实施例中,对预设字符数的具体数值不作限定;可选地,预设字符数为64。
步骤303:服务器基于行为序列特征,确定第一语义信息。
其中,第一语义信息为基于行为序列特征确定的目标账号感兴趣的查询选项的语义信息。
在一种实现方式中,服务器将行为序列特征输入第一语义识别模型,输出第一语义信息,第一语义识别模型用于识别行为序列特征对应的语义信息。其中,第一语义识别模型包括语义识别模块,语义识别模块用于基于输入的行为序列特征,确定该行为序列特征对应的语义信息。
在另一种实现方式中,服务器获取目标账号的拓展特征,拓展特征用于辅助确定第一语义信息;服务器基于行为序列特征和拓展特征,确定第一语义信息。在本申请实施例中,服务器通过拓展特征辅助确定第一语义信息,实现了通过多维度的特征来确定语义信息,使得确定的第一语义信息更加准确。
其中,服务器获取目标账号的拓展特征,包括以下至少一种实现方式:
服务器获取每个历史行为的位置特征,将每个历史行为的位置特征确定为目标账号的拓展特征。或者,服务器获取每个历史行为对应的查询选项的类别特征,将每个历史行为对应的查询选项的类别特征确定为目标账号的拓展特征。或者,服务器获取目标账号的用户画像特征,将用户画像特征确定为目标账号的拓展特征。
其中,类别特征为美食、休闲娱乐、酒店住宿、超市、美容美发等中的一项,在本申请实施例中,对此不作具体限定。用户画像特征包括用户性别、年龄、教育水平、职业、生育情况等中的至少一项,在本申请实施例中对此不作具体限定。
在本申请实施例中,通过基于行为序列特征和拓展特征来共同确定目标账号的语义信息,考虑到了历史行为的位置特征、查询选项的类别特征和用户画像特征等拓展特征对目标账号的语义信息的影响,进而使得确定的语义信息更加能够表征目标账号感兴趣的查询选项,从未提高了确定的语义信息的准确性。
在一些实施例中,服务器将行为序列特征和拓展特征输入第一语义识别模型,输出第一语义信息,第一语义识别模型用于识别行为序列特征和拓展特征对应的语义信息。其中,第一语义识别模型包括的语义识别模块还用于基于输入的行为序列特征和拓展特征,确定该行为序列特征和拓展特征对应的语义信息。
在本申请实施例中,第一语义识别模型是训练好的用于识别语义信息的模型,这样通过第一语义识别模型识别行为序列特征和拓展特征对应的语义信息,能够提高得到语义信息的效率和准确度。
在一种实现方式中,服务器记录目标账号基于第一目标查询选项的行为信息;服务器基于行为信息,离线更新第二语义识别模型,第二语义识别模型为与第一语义识别模型对应的离线语义识别模型;服务器将更新后的第二语义识别模型的模型参数同步给第一语义识别模型。
在一些实施例中,服务器确定出为目标账号推荐的第一目标查询选项后,即刻基于该第一目标查询选项对应的行为信息,离线更新第二语义识别模型,且将更新后的模型参数同步到第一语义识别模型;这样通过在确定出第一目标查询选项的情况下就立即更新第二语义识别模型,不仅保证了第一语义识别模型的即时性,使得后续基于该模型推荐的第一目标查询选项更加准确;且避免了在确定第一目标查询选项的过程中造成对确定第一目标查询选项的工作的干扰,从而保证了确定第一目标查询选项的效率。
在一些实施例中,服务器获取到用户的行为信息后,即刻基于该行为信息更新第二语义识别模型;可选地,服务器同时执行更新第二语义识别模型和确定第一目标查询选项的任务,使得服务器确定出为账号推荐的第一目标查询选项后,能够立刻将更新后的第二语义识别模型的模型参数同步到在线的第一语义识别模型中,从而进一步提高了更新第一语义识别模型的效率。
在本申请实施例中,通过及时更新语义识别模型,使得语义识别模型的即时性更好,进而使得语义识别模型的准确度更高。并且通过离线更新第二语义识别模型,避免了由于更新在线的第一语义识别模型对第一语义识别模型在线识别语义造成影响,保证了第一语义识别模型的识别语义工作稳定运行。
步骤304:服务器从多个候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息。
其中,多个候选语义信息为候选查询选项对应的语义信息。
在一些实施例中,服务器分别确定每个候选语义信息与第一语义信息之间的相似度,确定多个候选语义信息中相似度超过相似度阈值的候选语义信息,作为第二语义信息;其中,相似度阈值可以根据需要进行设定并更改,在此不作具体限定。
在一种实现方式中,多个候选语义信息分别标记有其对应的候选查询选项的类别特征,服务器基于确定该第一语义信息的历史行为对应的查询选项的目标类别特征,从多个候选语义信息中确定至少一个目标候选语义信息,该目标候选语义信息对应的类别特征为该目标类别特征。服务器从至少一个目标候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息。
在另一种实现方式中,步骤304包括以下步骤(1)-(3):
(1)服务器确定目标账号对应的目标区域信息。
可选地,目标区域信息为该目标账号对应的城市信息,在本申请实施例中,对此不作具体限定。
(2)服务器基于目标区域信息,从多个候选语义信息中确定至少一个目标候选语义信息,目标候选语义信息对应的区域信息为目标区域信息。
在一种实现方式中,多个候选语义信息对应多个不同的区域语义集合,每个区域语义集合对应不同的区域信息。服务器从多个区域语义集合中确定目标区域信息对应的目标区域语义集合,获取目标区域语义集合中的至少一个候选语义信息,得到至少一个目标候选语义信息。
(3)服务器从至少一个目标候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息。
在一种实现方式中,服务器分别确定每个目标候选语义信息与该第一语义信息之间的相似度,服务器确定对应的相似度超过相似度阈值的目标候选语义信息作为一个第二语义信息。
在本申请实施例中,通过事先确定多个候选查询选项对应的多个候选语义信息,使得服务器能够基于分别匹配第一语义信息与多个候选语义信息之间的相似度,而快速的确定匹配的第二语义信息,从而提高了确定第二语义信息的效率,进而能够提高后续确定第一目标查询选项的效率。
在一些实施例中,第一语义信息和候选语义信息均为语义向量,分别为第一语义向量和候选语义向量,服务器采用HNSW(Hierarchical Navigable Small World,分级导航小世界)算法进行向量搜索,以从多个候选语义向量中找到与第一语义向量匹配的第二语义向量。HNSW算法是一种近似最近邻算法,它基于小世界网络的思想对向量库构造一种可快速导航的小世界网络,同时为了进一步提高效率,该算法对NSW(Navigable SmallWorld,导航小世界)网络抽取出不同稀疏度的几个快速路网络,用以将快速导航方法与近邻查找方法有效区分开,能够大大提高向量检索的准确率与效率。
步骤305:服务器基于至少一个第二语义信息分别对应的至少一个候选查询选项,确定为目标账号推荐的第一目标查询选项。
在一种实现方式中,服务器事先获取了多个候选查询选项,且预测了每个候选查询选项对应的候选语义信息,并对应存储了每个候选查询选项和每个候选查询选项对应的候选语义信息。这样,实现了建立每个候选查询选项的索引信息,避免了每次推荐查询选项时,还需依次确定每个候选查询选项的候选语义信息,进而提高了获取推荐的查询选项的效率。
在一种实现方式中,服务器基于至少一个第二语义信息分别与第一语义信息之间的相似度,对该至少一个第二语义信息分别对应的至少一个候选查询选项进行倒排,选取排序在前的预设数量的候选查询选项,服务器基于目标数量的候选查询选项确定为目标账号推荐的第一目标查询选项;预设数量的具体数值可以根据需要进行设备并更改,在本申请实施例中,对此不作具体限定。
在一种实现方式中,服务器基于每个第二语义信息与第一语义信息之间的相似度,对至少一个第二语义信息分别对应的至少一个候选查询选项进行排序,得到排序后的候选查询选项;服务器去除排序后的候选查询选项中前目标数量的候选查询选项,得到第一目标查询选项;服务器为目标账号推荐第一目标查询选项。
其中,排序在前的候选查询选项对应的第二语义信息与第一语义信息之间的相似度高于排序在后的候选查询选项对应的第二语义信息与第一语义信息之间的相似度。需要说明的是,目标数量的具体数值可以根据需要进行设置并更改,在本申请实施例中,对此不作具体限定;可选地,目标数量为10个。
其中,第一目标查询选项为至少一个;例如,第一目标查询选项为30个,则服务器去除前10个候选查询选项,得到排序在后的20个候选查询选项,进而为目标账号推荐该20个候选查询选项。
在另一种实现方式中,第一目标查询选项的数量超过预设数量阈值,则服务器从第一目标查询选项中获取预设数量阈值的第三目标查询选项,为目标账号推荐该第三目标查询选项。例如,目标数量为10个,预设数量阈值为10个,第一目标查询选项为30个,则服务器去除前10个候选查询选项,得到排序在后的20个候选查询选项,即第一目标查询选项为20个,则服务器从20个第一目标查询选项中确定10个为目标账号推荐的第三目标查询选项;可选地,服务器确定为目标账号推荐的第三目标查询选项为第20个到第29个候选查询选项、第10个到第19个候选查询选项或第15个到第24个候选查询选项,在本申请实施例中,对此不作具体限定。
在本申请实施例中,通过去除排序在前的候选查询选项,而为目标账号推荐排序在后的第一目标查询选项,由于排序在后的第一目标查询选项对应的第二语义信息也是与第一语义信息匹配的,这样,保证了推荐的查询选项准确的基础上,实现了推荐的查询选项与行为序列特征对应的查询选项相似但不相同,实现了推荐的查询选项的多样性。例如,行为序列特征对应的查询选项为“羊肉串”查询词,则前目标数量的查询选项就会是“羊肉串外卖”、“羊肉大串”等语义重复的查询选项,而排序在后的查询信息会以“羊肉烤包子”、“羊肉汤”等与“羊肉串”相似但不相同的查询选项为主,从而提高了推荐的查询选项的多样性。需要说明的是,查询选项可以为查询字、查询词或查询句子等,在本申请实施例中,对此不作具体限制。
在一些实施例中,服务器将第一语义信息输入第一语义识别模型,输出第一语义信息对应的第一目标查询选项;第一语义识别模型还用于识别语义信息对应的查询选项。其中,第一语义识别模型包括相似度判别模块;在一种实现方式中,相似度判别模块事先存储了多个候选语义信息和每个候选语义信息对应的候选查询选项,相似度判别模块用于基于输入的第一语义信息,确定该第一语义信息对应的查询选项。
在一种实现方式中,候选语义信息为候选语义向量,相似度判别模块在查询选项向量库中对应存储了多个候选语义向量和候选查询选项。
在一种实现方式中,服务器将行为序列特征和拓展特征输入第一语义识别模型,通过第一语义识别模型中的语义识别模块识别行为序列特征和拓展特征对应的第一语义信息,然后通过相似度判别模块识别第一语义信息对应的第一目标查询选项,输出第一目标查询选项,即第一语义识别模型用于基于账号的行为序列特征和拓展特征为账号推荐查询选项。
步骤306:服务器向终端推荐第一目标查询选项。
在一种实现方式中,服务器向终端发送第一目标查询选项的信息,以向终端推荐第一目标查询选项。
步骤307:终端展示该第一目标查询选项。
其中,终端接收第一目标查询选项的信息后,基于第一目标查询选项在目标应用的应用界面上进行展示,实现为目标账号推荐第一目标查询选项。
在一些实施例中,第一目标查询选项为多个,则终端将多个查询选项在目标应用的应用界面上进行展示;可选地,应用界面包括搜索框,多个查询选项依次显示在搜索框的下部,在本申请实施例中对多个查询选项的排列方式不作具体限定。
在一些实施例中,服务器在目标账号未发生历史行为的情况下,基于拓展特征,确定第三语义信息,第三语义信息为基于拓展特征确定的目标账号感兴趣的查询选项的语义信息。服务器从多个候选语义信息中确定与第三语义信息匹配的至少一个第四语义信息。服务器基于至少一个第四语义信息分别对应的至少一个候选查询选项,为目标账号推荐第二目标查询选项。
在本申请实施例中,通过目标账号的拓展特征为用户推荐查询信息,解决了目标账号未发生历史行为时的冷启动问题,实现了即使目标账号没有发生历史行为,也能够为该目标账号推荐查询选项。
并且在本申请实施例中,由于通过行为序列特征的语义信息推荐查询选项,而语义信息更能够捕获用户的兴趣,即使行为序列特征中出现了候选语义信息中未对应的新的查询选型,也能够基于语义信息准确的为账号推荐查询选项,从而解决了出现新的查询选项的冷启动问题。
参见图4,图4为查询选项的在线检索流程图。其中,第一语义识别模型为双塔BERT(Bidirectional Encoder Representation from Transformers,基于一种编码器的双向编码器表示)模型。终端启动目标应用,显示搜索界面以触发推荐请求,服务器接收请求后启动双塔BERT模型,获取账号的历史行为进行特征处理,得到行为序列特征、位置特征、查询选项的类别特征和其他拓展特征;将这些特征输入双塔BERT模型进行在线语义抽取,输出账号的语义向量,基于账号的语义向量和查询选项向量库进行在线向量检索,得到对应的查询选项后,向终端返回查询选项序列,终端显示查询选项,实现为账号推荐查询选项。
本申请提供了一种查询选项的推荐方法,由于该方法基于账号的行为序列特征确定了该账号的第一语义信息,且从多个候选语义信息中确定了与该第一语义信息匹配的第二语义信息,进而再基于第二语义信息对应的候选查询选项来为该账号推荐查询选项,实现了基于账号的历史行为的语义信息来为账号推荐查询选项;由于历史行为的语义信息能够充分表征账号感兴趣的查询选项,这样通过语义信息来为账号推荐查询选项,使得推荐的查询选项更加符合账号的兴趣,进而提高了为账号推荐查询选项的准确性。
本申请实施例提供了一种语义识别模型的训练方法,执行主体为服务器,参见图5,方法包括:
步骤501:服务器获取样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征。
其中,第一样本拓展特征用于辅助确定样本查询选项的语义信息,第二样本拓展特征用于辅助确定样本行为序列特征的语义信息。样本查询选项包括正样本查询选项和负样本查询选项,样本查询选项的获取过程包括以下步骤(1)-(2):
(1)服务器获取样本账号的样本行为序列特征对应的查询选项序列;从查询选项序列中获取样本账号对应的正样本查询选项。
在一种实现方式中,查询选项序列中包括多个关联的查询选项,服务器对查询选项序列中的多个关联的查询选项按照时间进行排序,得到按时间排序且关联的多个查询选项;服务器将按时间排序且关联的多个查询选项中的最后一个查询选项作为正样本查询选项。
例如,查询选项序列中包括4个关联的查询选项,按时间排序后分别为驴肉火烧、驴板肠、凉拌驴肉和驴肉火锅,则该样本账号对应的正样本查询选项为驴肉火烧。
(2)服务器确定与正样本查询选项所属的类别特征不同的目标类别特征;从目标类别特征对应的查询选项集合中,获取账号对应的负样本查询选项。
例如,正样本查询选项所属的类别特征为甜点,可选地,目标类别特征为火锅、烤肉等中的一项。再如,正样本查询选项所属的类别特征为美发,则可选地,目标类型特征为美甲。其中,负样本查询选项与负样本查询选项对应相同的区域信息,如对应的城市相同。
在本申请实施例中,通过从样本行为序列特征对应的查询选项序列中获取正样本查询选项,使得获取的正样本查询选项真实性更高,即准确度更高,进而后续基于正样本查询选项训练得到的语义识别模型更加准确。且通过从与正样本查询选项所属类别不同的查询选项集合中获取负样本查询选项,能够有效提高正样本查询选项和负样本查询选项之间的区别度。
在一种实现方式中,服务器获取多个样本账号的样本查询选项,多个样本查询选项对应多个业务类型;服务器获取每个业务类型对应的样本查询选项的数量不超过预设比例。在本申请实施例中,对预设比例不作具体限定;可选地,服务器获取每个业务类型对应的样本查询选项的数量不超出总样本查询选项数量的10%;其中,对于高频业务类型的查询选项要进行相应的降采样;该方式能够实现对多种业务类型的均衡采样,避免了样本查询选项中出现马太效应的情况。
步骤502:服务器将样本查询选项和第一样本拓展特征输入初始语义识别模型,输出第一预测语义信息,以及将样本行为序列特征和第二样本拓展特征输入初始语义识别模型,输出第二预测语义信息。
其中,初始语义识别模型为具有经过预训练得到的初始模型参数的模型。在一种实现方式中,初始语义识别模型包括第一语义识别模块和第二语义识别模块。服务器将样本查询选项和第一样本拓展特征输入第一语义识别模块,输出第一预测语义信息;服务器将样本行为序列特征和第二样本拓展特征输入第二语义识别模块,输出第二预测语义信息。其中,第一语义识别模块与第二语义识别模块的模块参数共享。可选地,初始语义识别模型为双塔BERT模型,服务器基于孪生网络对双塔BERT模型进行训练。在另一种实现方式中,初始语义识别模型仅包括一个语义识别模块,用于识别第一预测语义信息和第二预测语义信息。
步骤503:服务器确定第一预测语义信息与第二预测语义信息之间的差异信息和最大值信息。
其中,第一预测语义信息和第二预测语义信息中分别包括多个维度的子信息,差异信息为每个维度的两个子信息的差值组成的信息,最大值信息为每个维度的两个子信息中的最大子信息组成的信息。
在一种实现方式中,第一预测语义信息和第二预测语义信息均为语义向量,分别为第一预测语义向量和第二预测语义向量,第一预测语义信息和第二预测语义信息中分别包括的多个维度的子信息分别为第一预测语义向量和第二预测语义向量中每个维度的向量元素;差异信息为每个维度的向量元素的差值组成的差值向量,最大值信息为每个维度的两个向量元素中的最大向量元素组成的最大值向量。
步骤504:服务器基于第一预测语义信息、第二预测语义信息、差异信息和最大值信息进行相似度判别,得到相似度预测结果。
在一种实现方式中,服务器还确定第一预测语义信息和第二预测语义信息之间的乘积信息,乘积信息为每个维度的向量元素的乘积组成的乘积向量。
在一种实现方式中,语义识别模型还包括相似度判别模块,服务器将第一预测语义信息、第二预测语义信息、差异信息和最大值信息输入相似度判别模块,输出相似度预测结果。相似度判别模块用于判别第一预测语义信息和第二预测语义信息之间的相似度。
可选地,相似度判别模块为基于DNN(Deep Neural Networks,深度神经网络)网络、CNN(Convolutional Neural Networks,卷积神经网络)网络或Cosine(余弦)网络中的一个进行训练得到的。
在本申请实施例中,通过差异信息、最大值信息、乘积信息等辅助确定第一预测语义信息和第二预测语义信息之间的相似度,这样通过多种信息来确定相似度,使得相似度判别模块更容易判别第一预测语义信息和第二预测语义信息之间是否相似,也能够提高确定的相似度预测结果的准确性。
步骤505:服务器基于相似度预测结果和预设相似度结果之间的损失值,对初始语义识别模型的模型参数进行调整,得到第一语义识别模型。
在一种实现方式中,服务器将相似度预测结果与预设相似度结果之间的交叉熵作为损失值。
需要说明的是,初始语义识别模型的模型参数包括第一语义识别模块的模块参数、第二语义识别模块的模块参数和相似度判别模块的模块参数;服务器基于损失值,重复上述步骤502-505,调整初始语义识别模型的模型参数,直到损失值达到预设的条件为止,得到第一语义识别模型。
在本申请实施例中,通过相似度预测结果与预设相似度之间的损失值来不断调整模型参数,使得模型参数越来越准确,进而使得语义识别模型的输出越来越准确,从而基于该语义识别模型能够得到更加准确的查询选项的推荐结果。
参见图6,图6为本申请实施例提供的语义识别模型的离线训练流程图,语义识别模型为双塔BERT模型。终端启动目标应用,显示搜索界面以触发推荐请求,服务器向终端返回推荐结果并记录账号的行为信息。服务器基于行为信息获取样本历史行为和拓展特征,对样本历史行为和拓展特征进行处理,得到样本行为序列特征、位置特征、类别特征以及其他拓展特征,且对行为信息中对应的样本查询选项进行样本标注。然后服务器基于样本行为序列特征、位置特征、类别特征、其他拓展特征和样本标注对初始双塔BERT模型进行训练,然后对模型的训练效果进行评估;若评估未通过,则重复训练,若评估通过,则导出双塔BERT模型。
参见图7,图7为本申请实施例提供的双塔BERT模型的离线训练流程图。服务器将样本查询选项和第一样本拓展特征输入第一语义识别模块,将行为序列特征和第二拓展特征输入第二语义识别模块,第一语义识别模块与第二语义识别模块的参数共享,将第一语义识别模块和第二语义识别模块的输出进行向量池化计算,得到第一预测语义向量、第二预测语义向量、差异向量和最大值向量,然后将第一预测语义向量、第二预测语义向量、差异向量和最大值向量输入相似度判别模块,得到相似度预测结果,最后计算相似度预测结果和预设相似度结果之间的损失值,以基于损失值调整模型参数。
参见图8,图8为本申请实施例提供的查询选项的推荐方法的整体流程图,包括在线推荐流程和离线训练流程,语义识别模型为双塔BERT模型。终端启动目标应用,显示搜索界面以触发推荐请求;服务器接收请求后启动双塔BERT模型,获取账号侧的特征,包括行为序列特征和第一拓展特征,将账号侧的特征输入双塔BERT模型,得到账号侧的第一语义向量,通过在线向量检索,从构建的对应存储候选语义信息和候选查询选项的查询选项向量库中获取推荐的查询选项,向终端返回查询选项序列,且记录账号的行为信息;服务器基于该行为信息构造模型训练的样本查询选项,以对双塔BERT模型进行训练,并对模型的效果进行评估,在评估通过的情况下,得到更新后的模型参数,将更新后的模型参数同步到在线的双塔BERT模型,且对样本查询选项的语义向量进行预测,并存储到构建的查询选项向量库中。
需要说明的是,在本申请实施例中,通过双塔BERT模型来为账号推荐查询选项,这样充分利用了账号的历史行为和查询选项的文本语义信息,更能捕获账号的兴趣所在,同时解决了新的查询选项推荐的冷启动问题;且该方法基于HNSW算法进行在线向量检测,提高了在线向量检测的精度与效率。本申请实施例提供的方法能够应用到各种推荐场景的召回,排序中。在一些实施例中,通过采用本申请实施例提供的方法,目标应用的应用界面的点击率同比提升了0.9%,推荐的查询选项的点击率同比提升了11-13%,即通过本申请实施例提供的方法能够有效提高推荐的效果。
本申请实施例还提供了一种查询选项的推荐装置,参见图9,装置包括:
第一获取模块901,用于获取目标账号的行为序列特征,行为序列特征包括至少一个历史行为的特征,至少一个历史行为为目标账号历史进行查询操作的行为;
第一确定模块902,用于基于行为序列特征,确定第一语义信息,第一语义信息为基于行为序列特征确定的目标账号感兴趣的查询选项的语义信息;
第二确定模块903,用于从多个候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息,多个候选语义信息为候选查询选项对应的语义信息;
第一推荐模块904,用于基于至少一个第二语义信息分别对应的至少一个候选查询选项,为目标账号推荐第一目标查询选项。
在一种实现方式中,第一确定模块902,包括:
第一获取单元,用于获取目标账号的拓展特征,拓展特征用于辅助确定第一语义信息;
第一确定单元,用于基于行为序列特征和拓展特征,确定第一语义信息。
在一种实现方式中,第一获取单元,用于:
获取每个历史行为的位置特征,将每个历史行为的位置特征确定为目标账号的拓展特征;或者,
获取每个历史行为对应的查询选项的类别特征,将每个历史行为对应的查询选项的类别特征确定为目标账号的拓展特征;或者,
获取目标账号的用户画像特征,将用户画像特征确定为目标账号的拓展特征。
在一种实现方式中,第一确定单元,用于:
将行为序列特征和拓展特征输入第一语义识别模型,输出第一语义信息,第一语义识别模型用于识别行为序列特征和拓展特征对应的语义信息。
在一种实现方式中,装置还包括:
第二获取模块,用于获取样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征,第一样本拓展特征用于辅助确定样本查询选项的语义信息,第二样本拓展特征用于辅助确定样本行为序列特征的语义信息;
输入输出模块,用于将样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征输入初始语义识别模型,输出样本查询选项与样本行为序列特征之间的相似度预测结果;
调整模块,用于基于相似度预测结果和预设相似度结果之间的损失值,对初始语义识别模型的模型参数进行调整,得到第一语义识别模型。
在一种实现方式中,输入输出模块,用于:
将样本查询选项和第一样本拓展特征输入初始语义识别模型,输出第一预测语义信息;
将样本行为序列特征和第二样本拓展特征输入初始语义识别模型,输出第二预测语义信息;
确定第一预测语义信息与第二预测语义信息之间的差异信息和最大值信息,第一预测语义信息和第二预测语义信息中分别包括多个维度的子信息,差异信息为每个维度的两个子信息的差值组成的信息,最大值信息为每个维度的两个子信息中的最大子信息组成的信息;
基于第一预测语义信息、第二预测语义信息、差异信息和最大值信息进行相似度判别,得到相似度预测结果。
在一种实现方式中,样本查询选项包括正样本查询选项和负样本查询选项,第二获取模块,用于:
获取样本账号的样本行为序列特征对应的查询选项序列;
从查询选项序列中获取样本账号对应的正样本查询选项;
确定与正样本查询选项所属的类别特征不同的目标类别特征;
从目标类别特征对应的查询选项集合中,获取账号对应的负样本查询选项。
在一种实现方式中,装置还包括:
记录模块,用于记录目标账号基于第一目标查询选项的行为信息;
更新模块,用于基于行为信息,离线更新第二语义识别模型,第二语义识别模型为与第一语义识别模型对应的离线语义识别模型;
同步模块,用于将更新后的第二语义识别模型的模型参数同步给第一语义识别模型。
在一种实现方式中,第一推荐模块904,用于:
基于每个第二语义信息与第一语义信息之间的相似度,对至少一个第二语义信息分别对应的至少一个候选查询选项进行排序,得到排序后的候选查询选项;
去除排序后的查询选项中前目标数量的候选查询选项,得到第一目标查询选项;
为目标账号推荐第一目标查询选项。
在一种实现方式中,第二确定模块903,用于:
确定目标账号对应的目标区域信息;
基于目标区域信息,从多个候选语义信息中确定至少一个目标候选语义信息,目标候选语义信息对应的区域信息为目标区域信息;
从至少一个目标候选语义信息中确定与第一语义信息匹配的至少一个第二语义信息。
在一种实现方式中,装置还包括:
第三确定模块,用于在目标账号未发生历史行为的情况下,基于拓展特征,确定第三语义信息,第三语义信息为基于拓展特征确定的目标账号感兴趣的查询选项的语义信息;
第四确定模块,用于从多个候选语义信息中确定与第三语义信息匹配的至少一个第四语义信息;
第二推荐模块,用于基于至少一个第四语义信息分别对应的至少一个候选查询选项,为目标账号推荐第二目标查询选项。
图10是本公开实施例提供的一种服务器的框图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1001和一个或一个以上的存储器1002,其中,存储器1002用于存储可执行程序代码,处理器1001被配置为执行上述可执行程序代码,以实现上述各个方法实施例提供的查询选项的推荐方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括程序代码的存储介质,例如包括程序代码的存储器1002,上述程序代码可由服务器1000的处理器1001执行以完成上述查询选项的推荐方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条程序代码,至少一条程序代码由处理器加载并执行,以实现上述任一实现方式的查询选项的推荐方法。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,计算机程序代码存储在计算机可读存储介质中,服务器的处理器从计算机可读存储介质读取计算机程序代码,处理器执行计算机程序代码,使得服务器执行上述任一实现方式的查询选项的推荐。
在一些实施例中,本申请实施例所涉及的计算机程序产品可被部署在一个服务器上执行,或者在位于一个地点的多个服务器上执行,又或者,在分布在多个地点且通过通信网络互连的多个服务器上执行,分布在多个地点且通过通信网络互连的多个服务器可以组成区块链系统。
本申请提供了一种查询选项的推荐方法,由于该方法基于账号的行为序列特征确定了该账号的第一语义信息,且从多个候选语义信息中确定了与该第一语义信息匹配的第二语义信息,进而再基于第二语义信息对应的候选查询选项来为该账号推荐查询选项,实现了基于账号的历史行为的语义信息来为账号推荐查询选项;由于历史行为的语义信息能够充分表征账号感兴趣的查询选项,这样通过语义信息来为账号推荐查询选项,使得推荐的查询选项更加符合账号的兴趣,进而提高了为账号推荐查询选项的准确性。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的行为序列特征都是在充分授权的情况下获取的。
Claims (15)
1.一种查询选项的推荐方法,其特征在于,所述方法包括:
获取目标账号的行为序列特征,所述行为序列特征包括至少一个历史行为的特征,所述至少一个历史行为为所述目标账号历史进行查询操作的行为;
基于所述行为序列特征,确定第一语义信息,所述第一语义信息为基于所述行为序列特征确定的所述目标账号感兴趣的查询选项的语义信息;
从多个候选语义信息中确定与所述第一语义信息匹配的至少一个第二语义信息,所述多个候选语义信息为候选查询选项对应的语义信息;
基于所述至少一个第二语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第一目标查询选项。
2.根据权利要求1所述的方法,其特征在于,所述基于所述行为序列特征,确定第一语义信息,包括:
获取所述目标账号的拓展特征,所述拓展特征用于辅助确定所述第一语义信息;
基于所述行为序列特征和所述拓展特征,确定所述第一语义信息。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标账号的拓展特征,包括以下至少一种实现方式:
获取每个历史行为的位置特征,将所述每个历史行为的位置特征确定为所述目标账号的拓展特征;或者,
获取所述每个历史行为对应的查询选项的类别特征,将所述每个历史行为对应的查询选项的类别特征确定为所述目标账号的拓展特征;或者,
获取所述目标账号的用户画像特征,将所述用户画像特征确定为所述目标账号的拓展特征。
4.根据权利要求2所述的方法,其特征在于,所述基于所述行为序列特征和所述拓展特征,确定所述第一语义信息,包括:
将所述行为序列特征和所述拓展特征输入第一语义识别模型,输出所述第一语义信息,所述第一语义识别模型用于识别所述行为序列特征和所述拓展特征对应的语义信息。
5.根据权利要求4所述的方法,其特征在于,所述第一语义识别模型的训练过程包括:
获取样本查询选项、第一样本拓展特征、样本行为序列特征和第二样本拓展特征,所述第一样本拓展特征用于辅助确定所述样本查询选项的语义信息,所述第二样本拓展特征用于辅助确定所述样本行为序列特征的语义信息;
将所述样本查询选项、所述第一样本拓展特征、所述样本行为序列特征和所述第二样本拓展特征输入初始语义识别模型,输出所述样本查询选项与所述样本行为序列特征之间的相似度预测结果;
基于所述相似度预测结果和预设相似度结果之间的损失值,对所述初始语义识别模型的模型参数进行调整,得到所述第一语义识别模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述样本查询选项、所述第一样本拓展特征、所述样本行为序列特征和所述第二样本拓展特征输入初始语义识别模型,输出所述样本查询选项与所述样本行为序列特征之间的相似度预测结果,包括:
将所述样本查询选项和所述第一样本拓展特征输入所述初始语义识别模型,输出第一预测语义信息;
将所述样本行为序列特征和所述第二样本拓展特征输入所述初始语义识别模型,输出第二预测语义信息;
确定所述第一预测语义信息与所述第二预测语义信息之间的差异信息和最大值信息,所述第一预测语义信息和所述第二预测语义信息中分别包括多个维度的子信息,所述差异信息为每个维度的两个子信息的差值组成的信息,所述最大值信息为每个维度的两个子信息中的最大子信息组成的信息;
基于所述第一预测语义信息、所述第二预测语义信息、所述差异信息和所述最大值信息进行相似度判别,得到所述相似度预测结果。
7.根据权利要求5所述的方法,其特征在于,所述样本查询选项包括正样本查询选项和负样本查询选项,所述样本查询选项的获取过程包括:
获取样本账号的样本行为序列特征对应的查询选项序列;
从所述查询选项序列中获取所述样本账号对应的正样本查询选项;
确定与所述正样本查询选项所属的类别特征不同的目标类别特征;
从所述目标类别特征对应的查询选项集合中,获取所述账号对应的负样本查询选项。
8.根据权利要求4所述的方法,其特征在于,所述方法还包括:
记录所述目标账号基于所述第一目标查询选项的行为信息;
基于所述行为信息,离线更新第二语义识别模型,所述第二语义识别模型为与所述第一语义识别模型对应的离线语义识别模型;
将更新后的所述第二语义识别模型的模型参数同步给所述第一语义识别模型。
9.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个第二语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第一目标查询选项,包括:
基于每个第二语义信息与所述第一语义信息之间的相似度,对所述至少一个第二语义信息分别对应的至少一个候选查询选项进行排序,得到排序后的候选查询选项;
去除所述排序后的候选查询选项中前目标数量的候选查询选项,得到所述第一目标查询选项;
为所述目标账号推荐所述第一目标查询选项。
10.根据权利要求1所述的方法,其特征在于,所述从多个候选语义信息中确定与所述第一语义信息匹配的至少一个第二语义信息,包括:
确定所述目标账号对应的目标区域信息;
基于所述目标区域信息,从所述多个候选语义信息中确定至少一个目标候选语义信息,所述目标候选语义信息对应的区域信息为所述目标区域信息;
从所述至少一个目标候选语义信息中确定与所述第一语义信息匹配的所述至少一个第二语义信息。
11.根据权利要求2所述的方法,其特征在于,所述获取目标账号的行为序列特征之前,所述方法还包括:
在所述目标账号未发生历史行为的情况下,基于所述拓展特征,确定第三语义信息,所述第三语义信息为基于所述拓展特征确定的所述目标账号感兴趣的查询选项的语义信息;
从所述多个候选语义信息中确定与所述第三语义信息匹配的至少一个第四语义信息;
基于所述至少一个第四语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第二目标查询选项。
12.一种查询选项的推荐装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标账号的行为序列特征,所述行为序列特征包括至少一个历史行为的特征,所述至少一个历史行为为所述目标账号历史进行查询操作的行为;
第一确定模块,用于基于所述行为序列特征,确定第一语义信息,所述第一语义信息为基于所述行为序列特征确定的所述目标账号感兴趣的查询选项的语义信息;
第二确定模块,用于从多个候选语义信息中确定与所述第一语义信息匹配的至少一个第二语义信息,所述多个候选语义信息为候选查询选项对应的语义信息;
第一推荐模块,用于基于所述至少一个第二语义信息分别对应的至少一个候选查询选项,为所述目标账号推荐第一目标查询选项。
13.一种服务器,其特征在于,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行,以实现如权利要求1至权利要求11任一项所述的查询选项的推荐方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至权利要求11任一项所述的查询选项的推荐方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,服务器的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述服务器执行如权利要求1至权利要求11任一项所述的查询选项的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210304729.2A CN114691990A (zh) | 2022-03-22 | 2022-03-22 | 查询选项的推荐方法、装置、服务器、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210304729.2A CN114691990A (zh) | 2022-03-22 | 2022-03-22 | 查询选项的推荐方法、装置、服务器、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114691990A true CN114691990A (zh) | 2022-07-01 |
Family
ID=82139812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210304729.2A Pending CN114691990A (zh) | 2022-03-22 | 2022-03-22 | 查询选项的推荐方法、装置、服务器、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114691990A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906796A (zh) * | 2022-09-23 | 2023-04-04 | 北京市应急管理科学技术研究院 | 一种安全生产隐患实体的对齐方法和系统 |
CN116028700A (zh) * | 2023-03-29 | 2023-04-28 | 小米汽车科技有限公司 | 车辆的离线查询方法及其装置 |
-
2022
- 2022-03-22 CN CN202210304729.2A patent/CN114691990A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906796A (zh) * | 2022-09-23 | 2023-04-04 | 北京市应急管理科学技术研究院 | 一种安全生产隐患实体的对齐方法和系统 |
CN116028700A (zh) * | 2023-03-29 | 2023-04-28 | 小米汽车科技有限公司 | 车辆的离线查询方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273106B (zh) | 物体信息翻译、以及衍生信息获取方法和装置 | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN109558535B (zh) | 基于人脸识别的个性化推送物品的方法及系统 | |
CN107404656B (zh) | 直播视频推荐方法、装置及服务器 | |
CN107833082B (zh) | 一种商品图片的推荐方法和装置 | |
CN114691990A (zh) | 查询选项的推荐方法、装置、服务器、存储介质及产品 | |
CN110019943B (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
CN110413875A (zh) | 一种文本信息推送的方法以及相关装置 | |
WO2013086257A1 (en) | Clustering objects detected in video | |
US20150379610A1 (en) | Recommendation information presentation device, recommendation information presentation method, and recommendation information presentation program | |
CN113704507B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN111259173A (zh) | 一种搜索信息推荐方法及装置 | |
CN110837581A (zh) | 视频舆情分析的方法、装置以及存储介质 | |
CN108268540A (zh) | 一种基于视频相似度的视频推荐方法、系统及终端 | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
CN112084307A (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
CN114579858A (zh) | 内容推荐方法和装置、电子设备、存储介质 | |
CN112417210A (zh) | 健身视频的查询方法、装置、终端和存储介质 | |
KR101754124B1 (ko) | 레스토랑 추천 시스템 및 추천 방법 | |
CN112446214A (zh) | 广告关键词的生成方法、装置、设备及存储介质 | |
CN111354013A (zh) | 目标检测方法及装置、设备和存储介质 | |
CN111143670A (zh) | 一种信息确定方法及相关产品 | |
CN110413823A (zh) | 服装图片推送方法及相关装置 | |
CN115033797A (zh) | 内容搜索方法及装置、存储介质、计算机设备 | |
CN114971760A (zh) | 一种基于大数据的车型推荐方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |