CN113032549A - 一种文档排序方法、装置、电子设备及存储介质 - Google Patents

一种文档排序方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113032549A
CN113032549A CN202110601081.0A CN202110601081A CN113032549A CN 113032549 A CN113032549 A CN 113032549A CN 202110601081 A CN202110601081 A CN 202110601081A CN 113032549 A CN113032549 A CN 113032549A
Authority
CN
China
Prior art keywords
document
user
features
query
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110601081.0A
Other languages
English (en)
Other versions
CN113032549B (zh
Inventor
曹梦娣
曹雷
尤旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110601081.0A priority Critical patent/CN113032549B/zh
Publication of CN113032549A publication Critical patent/CN113032549A/zh
Application granted granted Critical
Publication of CN113032549B publication Critical patent/CN113032549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请提供了一种文档排序方法、装置、电子设备及存储介质,获取查询用户的查询文本和用户信息;获取与查询文本相匹配的多个候选文档;分别从用户信息、查询文本以及多个候选文档中,确定出查询用户的关联特征、查询文本的关联特征、每个候选文档的关联特征、以及查询用户、查询文本以及每个候选文档之间的交叉类别特征,并输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;按照确定出的多个相关度得分,确定多个候选文档的排序结果,通过查询用户的客户端按照排序结果显示多个候选文档。这样,本申请利用用户特征、查询特征、文档特征以及三者的交叉特征进行文档排序,可以更符合企业用户的搜索需求。

Description

一种文档排序方法、装置、电子设备及存储介质
技术领域
本申请涉及搜索引擎技术领域,尤其是涉及一种文档排序方法、装置、电子设备及存储介质。
背景技术
排序主要用于搜索引擎、推荐系统等领域。在互联网信息爆炸的背景下,越来越多的用户都会通过搜索获取自己想要的信息。搜索排序是指在一次会话中,用户在交互界面输入需要查询的query,系统给返回排好序的列表的过程。
现有的面向互联网用户的搜索引擎,在进行搜索文档排序时,是基于用户输入的关键字与搜索文档的文本相似度进行排序。但是按照这种排序方式排序后的搜索文档,可能将企业用户需要查看的文档排在末位,不能很好的满足企业用户的搜索需求。因此,在企业员工进行文档搜索时,如何将企业员工所需要的文档优先进行展示是亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种文档排序方法、装置、电子设备及存储介质,在对企业员工搜索文档进行排序时,利用了用户特征、查询特征、文档特征以及三者的交叉特征进行排序,从而使排序结果更加贴近企业用户的搜索意图,进而提高用户的使用体验。
本申请实施例提供了一种文档排序方法,所述文档排序方法包括:
获取查询用户的查询文本和用户信息;
基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;
将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
进一步的,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
进一步的,通过以下步骤构建文档相关度模型:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征;
获取每个样本文档的相关度标签;
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度;
基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征;
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
进一步的,所述分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;
分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
进一步的,所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
所述查询用户的关联特征包括所述查询用户的静态特征以及所述查询用户的动态特征;
所述查询文本的关联特征包括所述查询文本的静态特征以及所述查询文本的动态特征;
针对每个候选文档的关联特征,该候选文档的关联特征包括该候选文档的静态特征以及该候选文档的动态特征。
本申请实施例还提供了一种文档排序装置,所述文档排序装置包括:
第一获取模块,用于获取查询用户的查询文本和用户信息;
第二获取模块,用于基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
特征提取模块,用于分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
交叉特征确定模块,用于基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;
相关度确定模块,用于将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
显示模块,用于按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
进一步的,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
进一步的,所述文档排序装置还包括模型构建模块,所述模型构建模块用于:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征;
获取每个样本文档的相关度标签;
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度;
基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征;
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
进一步的,所述特征提取模块在用于分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征时,所述特征提取模块用于:
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;
分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
进一步的,所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
所述查询用户的关联特征包括所述查询用户的静态特征以及所述查询用户的动态特征;
所述查询文本的关联特征包括所述查询文本的静态特征以及所述查询文本的动态特征;
针对每个候选文档的关联特征,该候选文档的关联特征包括该候选文档的静态特征以及该候选文档的动态特征。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文档排序方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的文档排序方法的步骤。
本申请实施例提供的文档排序方法、装置、电子设备及存储介质,获取查询用户的查询文本和用户信息;基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
这样,本申请通过使用更多与文档排序有关的信息,构建出更多更有效的用于文档排序的用户特征、查询特征、文档特征以及三者的交叉特征,因此通过使用用户特征、查询特征、文档特征以及三者的交叉特征对企业员工搜索文档进行排序时,可以使得排序结果更加贴近企业用户的搜索意图,进而提高用户的使用体验。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种文档排序方法的流程图;
图2为本申请实施例所提供的一种文档排序装置的结构示意图之一;
图3为本申请实施例所提供的一种文档排序装置的结构示意图之二;
图4为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
现有的面向互联网用户的搜索引擎,在进行搜索文档排序时,是基于用户输入的关键字与搜索文档的文本相似度进行排序。但是按照这种排序方式排序后的搜索文档,可能将企业用户需要查看的文档排在末位,不能很好的满足企业用户的搜索需求。
基于此,本申请实施例提供了一种文档排序方法,在对企业员工搜索文档进行排序时,利用了用户特征、查询特征、文档特征以及三者的交叉特征进行排序,从而使排序结果更加贴近企业用户的搜索意图,进而提高用户的使用体验。
请参阅图1,图1为本申请实施例所提供的一种文档排序方法的流程图。如图1中所示,本申请实施例提供的文档排序方法,包括:
S101,获取查询用户的查询文本和用户信息。
需要说明的是,所述查询用户为通过企业级搜索引擎进行文档查询的用户;所述查询文本为所述查询用户为了寻找所需要的文档,在搜索引擎中输入的文本信息内容;所述用户信息是指所述查询用户自身的基本信息、用户在企业中所拥有的企业个人信息,以及用户的行为特征信息等。
示例的,所述用户信息可以包括用户名字,用户年龄,用户职位,用户入职时长,用户检索/阅读行为等信息。
S102,基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档。
需要说明的是,查询用户输入查询文本后,可以对查询文本进行分词处理,确定查询文本的查询关键字信息,根据确定出的查询关键字从企业级搜索引擎所能查找的文档库中,找到与查询文本相匹配的多个海选文档并召回,将召回的多个海选文档作为多个候选文档。
S103,分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
需要说明的,在对候选文档进行排序前,需要确定候选文档排序所需要的排序特征。
作为示例,可以从用户信息中提取查询用户的关联特征;从所述查询用户的查询文本中,提取该查询文本的关联特征;针对于返回的每个候选文档,基于每个候选文档的文档信息,提取该候选文档的关联特征。
这里,所述查询用户的关联特征包括所述查询用户的静态特征以及所述查询用户的动态特征。其中,静态特征包括:用户部门粗粒度类别,即“一/二级”部门;用户的一级部门类别;用户的二级部门类别;用户的三级部门类别;用户岗位序列类别;用户的职级类别;用户入职天数;用户入职天数等级(根据入职天数,划分为四个等级:半年以内/半年-一年/一年-两年/两年以上);用户的工号等。
动态特征为用户行为特征,包括:用户近五/十/十五天的检索次数;用户在此次检索前,该用户总共在企业搜索引擎检索的次数;用户近五/十/十五天的阅读/下载/收藏/点赞文档数;用户此次之前的,全部阅读/下载/收藏/点赞文档数。
这里,所述查询文本的关联特征包括所述查询文本的静态特征以及所述查询文本的动态特征。其中,静态特征包括查询文本对应的检索意图类别。动态特征为查询文本的被行为特征,包括:近五/十/十五天的该查询文本被搜索次数/人数(因为可能有同一人多次的查询文本相同,所以人数/次数均作为特征);该查询文本在此次之前,全部被搜索次数/人数。
所述候选文档的关联特征包括所述候选文档的静态特征以及所述候选文档的动态特征。其中,静态特征包括:文档的文件类型类别;文档标题类型类别;文档的页数;文件大小;文档所属部门粗粒度类别;文档所属一级部门类别;文档所属二级部门类别;文档所属三级部门类别;文档作者是否为高管或部门领导。动态特征包括候选文档的被行为特征和候选文档的点击特征。其中,候选文档的被行为特征包括:近五/十/十五天的该候选文档被阅读/下载/收藏/点赞的次数/人数;该候选文档在此次之前全部的被阅读/下载/收藏/点赞的次数/人数。候选文档的点击特征为候选文档的点击率(文档被用户点击次数占文档被搜索出现次数的比例)等。
进一步的,所述分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
这里,分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征中的行为特征和被行为特征中的全部特征,采取时间衰减的方式进行处理。衰减公式如下,其中day指全部行为的统计天数:
Figure M_210531155944561_561478001
Figure M_210531155944608_608353001
其中,decay为衰减系数,pow(0.99,day)=0.99 day
其中,对所述查询用户的初始关联特征进行时间衰减处理的特征是用户此次之前的,全部阅读/下载/收藏/点赞文档数,对所述查询文本的初始关联特征进行时间衰减处理的特征是该查询文本在此次之前,全部被搜索次数/人数,对候选文档的初始关联特征进行时间衰减处理的特征是该候选文档在此次之前全部的被阅读/下载/收藏/点赞的次数/人数。
S104,基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征。
需要说明的,决定候选文档的排序顺序不仅是基于所述查询用户的关联特征、所述查询文本的关联特征以及每个候选文档的关联特征这种独立特征,在用户通过搜索引擎获取所需要的文档时,用户/查询文本/候选文档之间的交叉特征也会影响文档的排序顺序。该步骤中根据提取的所述查询用户的关联特征、所述查询文本的关联特征以及每个候选文档的关联特征,确定出所述查询用户、所述查询文本以及每个候选文档之间的交叉类别特征。
这里,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
作为示例,所述查询用户与所述查询文本的交叉特征包括:查询用户姓名是否包含于查询文本中;查询用户对查询文本意图的偏好。其中,查询用户对查询文本意图的偏好是指用户喜欢的查询文本内容,这种偏好可能是由用户的在企业中的职位决定的,例如:张三检索产品的概率为0.2,检索姓名的概率为0.2,检索客户的概率为0.5,检索部门的概率为0.1,说明该查询用户张三的查询文本意图的偏好为检索客户。
所述查询用户与所述候选文档的交叉特征包括:查询用户的部门和候选文档所属部门是否一致;查询用户的部门和候选文档的作者部门是否一致;候选文档的作者是否为查询用户的部门领导;查询用户对候选文档文件类型/标题类型/所属部门的偏好;查询用户的岗位序列/部门对文档文件类型/标题类型/所属部门的偏好。例如:张三阅读pdf的概率为0.2,阅读word的概率为0.7,阅读xlsx的概率为0.1,说明查询用户偏好的文件类型为阅读word文档。例如:技术岗阅读部署文档的概率为0.5,培训文档的概率为0.3,产品文档的概率为0.2,技术岗位的查询用户更偏爱阅读部署文档。
所述查询文本与所述候选文档的交叉特征包括:查询文本和候选文档标题分词的交集数;查询文本和文档名的embedding相似度(embedding为预训练的词向量);查询文本和文档内容的embedding相似度;查询文本和文档名的jaccard相似度;查询文本和文档关键词的jaccard相似度(文档关键词是通过关键词提取算法从文档内容中提取得到的);查询文本和文档标签的jaccard相似度;查询文本和文档内容的LDA相似度(LDA即主题模型);候选文档的作者是否包含于查询文本;查询文本在文档内容中的出现次数;查询文本-候选文档的点击率(查询文本-候选文档的点击次数占出现次数的比例);查询文本/查询文本意图对候选文档文件类型/标题类型/文档部门的偏好(比如产品相关的文档标题类型为产品说明的概率为0.6,白皮书的概率为0.3,部署文档的概率为0.1)。
所述查询用户与所述查询文本与所述候选文档三者的交叉特征包括:查询用户-查询文本-候选文档的点击率(查询用户-查询文本-候选文档的点击次数占出现次数的比例)等。
S105,将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分。
需要说明的是,确定出影响企业用户搜索到的候选文档排序顺序的特征后,将获取到的查询用户的用户关联特征、查询文本的历史关联特征、每个候选文档的历史查询特征以及交叉类别特征输入至预先训练好的文档相关度模型中,基于文档相关度模型对输入的各个特征进行分析,确定出每个候选文档的相关度得分。
需要说明的是,对于每个候选文档的相关度得分,该候选文档的相关度得分是基于计算查询用户、查询文本以及该候选文档三者的总体相关度后得到的。
作为示例,通过以下步骤构建文档相关度模型。
获取历史埋点日志。
这里,从服务器云上环境中获取埋点日志。埋点是数据采集领域的术语,指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。
作为示例,应用于企业级搜索引擎时,获取得历史埋点日志是该企业中所有员工的历史埋点日志。
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息。
这里,埋点日志中记录了各个用户使用搜索引擎留下的行为信息,对埋点日志记录的影响文档排序的行为信息进行统计,确定出每个样本用户的第一行为信息、每个历史查询文本的第二行为信息、每个样本文档的第三行为信息以及埋点日志中记录的样本用户、历史查询文本、样本文档。
这里,第一行为信息是指样本用户进行文档搜索时,留下的行为信息。第二行为信息是指,通过搜索引擎输入的查询文本,被操作的行为信息。第三行为信息是指,通过查询文本返回的文档,被用户操作的行为。
作为示例,假设,获取了三个埋点日志,三个埋点日志中记录的信息包括:用户A在一天内搜索了词语A一次,返回文档A,文档B以及文档C三篇文档,用户A阅读了文档A一次,阅读了文档B一次并进行了收藏,用户A没对文档C进行任何操作;用户A在一天内搜索了词语B一次,返回文档A,文档B以及文档D三篇文档,用户A阅读了文档A一次,阅读了文档D一次,用户A没对文档B进行任何操作;用户B在一天内搜索了词语A一次,返回文档A,文档B以及文档C三篇文档,用户B阅读了文档A一次,阅读了文档B一次,用户A没对文档C进行任何操作。
基于三个埋点日志,获取到的样本用户的第一行为信息包括:用户A搜索了2次,阅读了3篇文档,阅读了4次文档,收藏了一篇文档;获取到的查询文本的第二行为信息包括:词语A被搜索2次,词语B被搜索1次;获取到的样本文档的第三行为信息包括:文档A被展示了3次,被阅读了3次,文档B被展示了3次,被阅读了2次,收藏了1次,文档C被展示了2次,文档D被展示了一次,被阅读了一次。
需要说明的是,获取的埋点日志中记录的信息可能非常多以及繁琐,因为用户行为种类众多,因此需要对埋点日志进行筛选和格式转换,只保留搜索、阅读、下载、点赞以及收藏可用于生成文档搜索精排特征的行为,得到中间日志,然后根据中间日志确定每个样本用户的第一行为信息、每个历史查询文本的第二行为信息、每个样本文档的第三行为信息。
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息。
这里,根据在埋点日志中确定出的样本用户,获取每个样本用户的基本属性信息,根据埋点日志中确定出的历史查询文本,获取每个历史查询文本的基本属性信息,根据埋点日志中确定的样本文档,获取每个样本文档的基本属性信息。
其中,样本用户的基本属性信息是用于表示该样本用户在企业中所具有的静态信息,可以包括用户的工号、入职时间、姓名、邮箱、部门、岗位序列、职级等;历史查询文本的基本属性信息是用于表示,通过企业中用户对该历史查询文本进行检索确定出的静态信息,可以包括查询的具体内容、意图(通过意图识别获取)等;样本文档的基本属性信息是用于表示该样本文档所具有的静态信息,可以包括文档的唯一ID、标题、作者、标签、页数、标题类型(如白皮书、解决方案、部署文档等)、文件类型(如word、pdf等)、文件大小、文档内容、发布时间、所属部门等。
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征。
需要说明的是,在获取历史埋点日志后,对历史埋点日志进行过滤,得到有效的查询session(会话控制),通过有效查询session关联每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息以及每个样本文档的基本属性信息,生成一些偏好信息、相似信息和交叉信息,对生成的偏好信息、相似信息以及交叉信息进行归纳,确定出可用于进行文档相关度模型训练的所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征。
其中,有效的查询session是指某用户搜索某个查询词,在返回的一系列文档中根据自己的查询需求阅读了相关文档,同时可能下载/点赞/收藏了该文档。有效的查询session包括用户ID、查询词、返回的文档列表,文档列表中记录了是否阅读/下载/点赞/收藏该文档。
其中,生成的偏好信息、相似信息以及交叉信息具体包括样本用户的历史行为信息、历史查询文本的历史行为信息、样本文档的历史行为信息、样本文档的点击特征、历史查询文本和样本文档的交叉特征、样本用户和样本文档的交叉特征、样本用户和历史查询文本的交叉特征、样本用户和历史查询文本和样本文档的交叉特征、文本相似特征、以及偏好特征。
作为示例,所述样本用户的关联特征包括静态类特征和行为类特征。其中,静态类特征包括:样本用户部门粗粒度类别,即“一/二级”部门;样本用户的一级部门类别;样本用户的二级部门类别;样本用户的三级部门类别;样本用户岗位序列类别;样本用户的职级类别;样本用户入职天数;样本用户入职天数等级(根据入职天数,划分为四个等级:半年以内/半年-一年/一年-两年/两年以上);样本用户的工号等。动态类特征包括:样本用户近五/十/十五天的检索次数;样本用户在此次检索前,样本用户总共在企业搜索引擎检索的次数;样本用户近五/十/十五天的阅读/下载/收藏/点赞文档数;样本用户此次之前的,全部阅读/下载/收藏/点赞文档数等。
作为示例,所述历史查询文本的关联特征包括静态类特征和被行为类特征。静态类特征包括:历史查询文本对应的检索意图类别等。被行为类特征包括:近五/十/十五天的该历史查询文本被搜索次数/人数(因为可能有同一人多次的历史查询文本相同,所以人数/次数均作为特征);该历史查询文本在此次之前,全部被搜索次数/人数等。
作为示例,所述样本文档的关联特征包括静态类特征、被行为类特征以及点击特征。其中,静态类特征包括:样本文档的文件类型类别;样本文档标题类型类别;样本文档的页数;样本文档文件大小;样本文档所属部门粗粒度类别;样本文档所属一级部门类别;样本文档所属二级部门类别;样本文档所属三级部门类别;样本文档作者是否为高管或部门领导等。被行为类特征包括:近五/十/十五天的该样本文档被阅读/下载/收藏/点赞的次数/人数;该样本文档在此次之前全部的被阅读/下载/收藏/点赞的次数/人数等。点击类特征包括:样本文档的点击率(样本文档被用户点击次数占样本文档被搜索出现次数的比例)等。
作为示例,样本用户的交叉特征包括样本用户与历史查询文本的交叉特征、样本用户与样本文档的交叉特征、历史查询文本与样本文档的交叉特征、以及样本用户和历史查询文本和样本文档三者间的交叉特征。其中,样本用户与历史查询文本的交叉特征包括:查询用户姓名是否包含于查询文本中;查询用户对查询文本意图的偏好等。样本用户与样本文档的交叉特征包括:查询用户的部门和候选文档所属部门是否一致;查询用户的部门和候选文档的作者部门是否一致;候选文档的作者是否为查询用户的部门领导;查询用户对候选文档文件类型/标题类型/所属部门的偏好;查询用户的岗位序列/部门对文档文件类型/标题类型/所属部门的偏好等。历史查询文本与样本文档交叉特征包括:历史查询文本和样本文档标题分词的交集数;历史查询文本和文档名的embedding相似度(embedding为预训练的词向量);历史查询文本和文档内容的embedding相似度;历史查询文本和文档名的jaccard相似度;历史查询文本和文档关键词的jaccard相似度(文档关键词是通过关键词提取算法从文档内容中提取得到的);历史查询文本和文档标签的jaccard相似度;历史查询文本和文档内容的LDA相似度(LDA即主题模型);样本文档的作者是否包含于历史查询文本;历史查询文本在文档内容中的出现次数;历史查询文本-样本文档的点击率(历史查询文本-样本文档的点击次数占出现次数的比例);历史查询文本/历史查询文本意图对样本文档文件类型/标题类型/文档部门的偏好等。样本用户和历史查询文本和样本文档三者间的交叉特征包括:样本用户-历史查询文本-样本文档的点击率(样本用户-历史查询文本-样本文档的点击次数占出现次数的比例)等。
进一步的,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及交叉类别特征后,使用所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及交叉类别特征进行模型训练前,对所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及交叉类别特征中的行为和被行为特征中的全部行为特征,采取时间衰减的方式进行处理。衰减公式如下,其中day指全部行为的统计天数:
Figure M_210531155944639_639603001
Figure M_210531155944670_670853001
其中,decay为衰减系数,pow(0.99,day)=0.99 day
其中,对所述样本用户的关联特征进行时间衰减处理的特征是:用户此次之前的,全部阅读/下载/收藏/点赞文档数;对所述历史查询文本的关联特征进行时间衰减处理的特征是:该查询文本在此次之前,全部被搜索次数/人数;对所述样本文档的关联特征进行时间衰减处理的特征是:该候选文档在此次之前全部的被阅读/下载/收藏/点赞的次数/人数。
获取每个样本文档的相关度标签。
这里,获取用于构建文档相关度模型的输出特征,所述输出特征为每个样本文档的相关度标签。
其中,相关度标签是指用户是否点击了该样本文档,用户点击的样本文档对应的相关度标签为相关,用户未点击的样本文档对应的相关度标签为不相关。
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度。
这里,所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征以及相关度标签对应的训练样本,在进行样本采样时,可以采用skip-above采样、按session随机采样、全局随机采样等采样方式确定训练样本。其中,训练机器学习模型可以采用xgboost、lightgbm、lightfm和pointwise、pairwise、listwise等多种模型和方法,在此不做限定。
其中,第一预定模型训练结束条件可以根据预设模型评估指标进行设定,也可以通过与之前的模型进行性能比较,设定结束条件,也可以根据实际需求设定结束条件,在此不做限定。
基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征。
这里,确定出所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及交叉类别特征中各个特征的重要度后,将各个特征按重要度降序的形式进行排序,取前预设位数个特征作为目标样本特征,或者通过卡阈值的方式,将重要度大于阈值的特征作为目标样本特征。
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
这里,第二预定模型训练结束条件可以同第一预定模型训练结束条件的设定相同,也可以不同,在此不做限定。
S106,按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
确定出查询用户、查询文档与每个候选文档之间的总体相关度后,得到各个候选文档的相关度得分,可以按照相关度得分降序的排序方式,对多个候选文档进行排序,从而确定出多个候选文档的排序结果,然后将确定出排序结果和多个候选文档一起发送至查询用户所使用的客户端,使得客户端案子排序结果想查询用户显示多个候选文档。
本申请实施例提供的一种文档排序方法,获取查询用户的查询文本和用户信息;基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
这样,本申请通过使用更多与文档排序有关的信息,构建出更多更有效的用于文档排序的用户特征、查询特征、文档特征以及三者的交叉特征,因此通过使用用户特征、查询特征、文档特征以及三者的交叉特征对企业员工搜索文档进行排序时,可以使得排序结果更加贴近企业用户的搜索意图,进而提高用户的使用体验。
请参阅图2、图3,图2为本申请实施例所提供的一种文档排序装置的结构示意图之一,图3为本申请实施例所提供的一种文档排序装置的结构示意图之二。如图2中所示,所述文档排序装置200包括:
第一获取模块210,用于获取查询用户的查询文本和用户信息;
第二获取模块220,用于基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
特征提取模块230,用于分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
交叉特征确定模块240,用于将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
相关度确定模块250,用于将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
显示模块260,用于按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
进一步的,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
进一步的,如图3中所示,所述文档排序装置200还包括模型构建模块270,所述模型构建模块270用于:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征;
获取每个样本文档的相关度标签;
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度;
基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征;
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
进一步的,所述特征提取模块230在用于分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征时,所述特征提取模块230用于:
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;
分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
进一步的,所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
所述查询用户的关联特征包括所述查询用户的静态特征以及所述查询用户的动态特征;
所述查询文本的关联特征包括所述查询文本的静态特征以及所述查询文本的动态特征;
针对每个候选文档的关联特征,该候选文档的关联特征包括该候选文档的静态特征以及该候选文档的动态特征。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的文档排序方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的文档排序方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文档排序方法,其特征在于,所述文档排序方法包括:
获取查询用户的查询文本和用户信息;
基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;
将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
2.根据权利要求1所述的文档排序方法,其特征在于,所述交叉类别特征包括所述查询用户与所述查询文本的交叉特征、所述查询用户与所述候选文档的交叉特征、所述查询文本与所述候选文档的交叉特征、所述查询用户与所述查询文本与所述候选文档三者的交叉特征中的至少一种。
3.根据权利要求1所述的文档排序方法,其特征在于,通过以下步骤构建文档相关度模型:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征;
获取每个样本文档的相关度标签;
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度;
基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征;
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
4.根据权利要求1所述的文档排序方法,其特征在于,所述分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;
分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
5.根据权利要求1所述的文档排序方法,其特征在于,所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征,包括:
所述查询用户的关联特征包括所述查询用户的静态特征以及所述查询用户的动态特征;
所述查询文本的关联特征包括所述查询文本的静态特征以及所述查询文本的动态特征;
针对每个候选文档的关联特征,该候选文档的关联特征包括该候选文档的静态特征以及该候选文档的动态特征。
6.一种文档排序装置,其特征在于,所述文档排序装置包括:
第一获取模块,用于获取查询用户的查询文本和用户信息;
第二获取模块,用于基于所述查询文本中的至少一个查询关键字,获取与所述查询文本相匹配的多个候选文档;
特征提取模块,用于分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征;
交叉特征确定模块,用于基于所述查询用户的关联特征、所述查询文本的关联特征以及所述每个候选文档的关联特征,确定所述查询用户、所述查询文本以及所述每个候选文档之间的交叉类别特征;
相关度确定模块,用于将所述查询用户的关联特征、所述查询文本的关联特征、所述每个候选文档的关联特征以及所述交叉类别特征输入至预先训练好的文档相关度模型中,确定每个候选文档的相关度得分;
显示模块,用于按照确定出的多个相关度得分,确定所述多个候选文档的排序结果,将所述排序结果以及所述多个候选文档发送至所述查询用户所使用的客户端,以使所述客户端按照所述排序结果显示所述多个候选文档。
7.根据权利要求6所述的文档排序装置,其特征在于,所述文档排序装置还包括模型构建模块,所述模型构建模块用于:
获取历史埋点日志;
从所述历史埋点日志中提取出每个样本用户以及每个样本用户的第一行为信息、每个历史查询文本以及每个历史查询文本的第二行为信息、每个样本文档以及每个样本文档的第三行为信息;
基于从所述历史埋点日志中提取出的每个样本用户、每个历史查询文本以及每个样本文档,获取每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息;
基于每个第一行为信息、每个第二行为信息、每个第三行为信息、每个样本用户的基本属性信息、每个历史查询文本的基本属性信息、以及每个样本文档的基本属性信息,确定所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述样本用户与所述历史查询文本与所述样本文档之间的交叉类别特征;
获取每个样本文档的相关度标签;
将所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征作为输入,将每个样本文档的相关度标签作为输出,训练机器学习模型,当达到第一预定模型训练结束条件时,确定每个特征的重要度;
基于确定出的多个重要度,从所述样本用户的关联特征、所述历史查询文本的关联特征、所述样本文档的关联特征以及所述交叉类别特征中筛选出多个目标样本特征;
将所述多个目标样本特征作为输入,将每个样本文档的相关度标签作为输出,重新训练所述机器学习模型,当达到第二预定模型训练结束条件时,得到训练好的所述文档相关度模型。
8.根据权利要求6所述的文档排序装置,其特征在于,所述特征提取模块在用于分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征时,所述特征提取模块用于:
分别从所述用户信息、所述查询文本以及所述多个候选文档中,提取出所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征;
分别对所述查询用户的初始关联特征、所述查询文本的初始关联特征、每个候选文档的初始关联特征进行时间衰减处理,得到所述查询用户的关联特征、所述查询文本的关联特征、每个候选文档的关联特征。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至5任一所述文档排序方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述文档排序方法的步骤。
CN202110601081.0A 2021-05-31 2021-05-31 一种文档排序方法、装置、电子设备及存储介质 Active CN113032549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110601081.0A CN113032549B (zh) 2021-05-31 2021-05-31 一种文档排序方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110601081.0A CN113032549B (zh) 2021-05-31 2021-05-31 一种文档排序方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113032549A true CN113032549A (zh) 2021-06-25
CN113032549B CN113032549B (zh) 2021-09-10

Family

ID=76455892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110601081.0A Active CN113032549B (zh) 2021-05-31 2021-05-31 一种文档排序方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113032549B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902694A (zh) * 2014-03-28 2014-07-02 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN109241243A (zh) * 2018-08-30 2019-01-18 清华大学 候选文档排序方法及装置
US20200110778A1 (en) * 2017-03-31 2020-04-09 Beijing Sankuai Online Technology Co., Ltd Search method and apparatus and non-temporary computer-readable storage medium
CN111368050A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 文档页面的推送方法、装置
CN112182154A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902694A (zh) * 2014-03-28 2014-07-02 哈尔滨工程大学 基于聚类和查询行为的检索结果排序方法
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
US20200110778A1 (en) * 2017-03-31 2020-04-09 Beijing Sankuai Online Technology Co., Ltd Search method and apparatus and non-temporary computer-readable storage medium
CN109241243A (zh) * 2018-08-30 2019-01-18 清华大学 候选文档排序方法及装置
CN111368050A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 文档页面的推送方法、装置
CN112182154A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型

Also Published As

Publication number Publication date
CN113032549B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN105824959B (zh) 舆情监控方法及系统
KR100816912B1 (ko) 문서검색 시스템 및 그 방법
US8335787B2 (en) Topic word generation method and system
WO2021019831A1 (ja) 管理システム及び管理方法
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
JP6033697B2 (ja) 画像評価装置
CN107506472B (zh) 一种学生浏览网页分类方法
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
CN101546331A (zh) 获取有助检索的特征、评价相关事物的价值的系统及方法
CN101088082A (zh) 全文查询和搜索系统及其使用方法
US11880396B2 (en) Method and system to perform text-based search among plurality of documents
Dutta et al. PNRank: Unsupervised ranking of person name entities from noisy OCR text
Wahyudi et al. Topic modeling of online media news titles during COVID-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm
CN109508557A (zh) 一种关联用户隐私的文件路径关键词识别方法
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN113032549B (zh) 一种文档排序方法、装置、电子设备及存储介质
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
CN114238735B (zh) 一种互联网数据智能采集方法
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
CN110929154B (zh) 一种搜索结果的排序方法及系统
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant