CN112417133A - 排序模型的训练方法和装置 - Google Patents
排序模型的训练方法和装置 Download PDFInfo
- Publication number
- CN112417133A CN112417133A CN202011333731.XA CN202011333731A CN112417133A CN 112417133 A CN112417133 A CN 112417133A CN 202011333731 A CN202011333731 A CN 202011333731A CN 112417133 A CN112417133 A CN 112417133A
- Authority
- CN
- China
- Prior art keywords
- user
- search
- document
- training
- search results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 238000012163 sequencing technique Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了搜索结果的排序方法和装置。该方法包括:获取用户日志;从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录;基于所述交互数据和点击模型计算所述搜索结果的相关度;对所述搜索结果进行预处理以生成所述搜索结果的特征数据;以及基于所述特征数据和所述相关度训练排序模型。该方法和装置通过充分利用用户日志中的点击和下载信息,提高标注数据集的质量,以训练出更高性能的排序模型,进而优化搜索结果的排序质量。
Description
技术领域
本公开涉及信息检索技术领域,尤其涉及排序模型的训练方法和装置。
背景技术
随着科学技术的飞速发展,电子、机械、计算机、生化、医药等领域的研究成果发布周期越来越短,各学科文献的数目极速增长。通过查阅相关科技文献,可以了解当前研究领域内的主要研究成果、同行研究动态、该领域内已解决的问题及有待于改进和完善的问题等,从而进一步明确研究课题的科学价值,找准研究的真正起点。
文献数量的激增,一方面表明文献信息资源的丰富,但同时也产生了″文献信息污染″,给人们选择、利用文献造成了障碍。因此,面对日益增长的文献资源,如何快捷准确地获取感兴趣的文献,已成为人们关注的热点问题。搜索结果的相关度排序作为信息检索领域中的核心技术,已被广泛应用于网页搜索、信息推荐、在线广告等场景。然而,当前的相关度排序方法还有进一步改善的空间。
发明内容
本公开的目的在于提出一种排序模型的训练方法和装置,以求通过利用用户日志,提高标注数据集的质量,对排序模型进行训练和优化,从而提高排序质量。
为达上述目的,本公开的一个方面提供了一种排序模型的训练方法,其包括:获取用户日志;从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录;基于所述交互数据和点击模型计算所述搜索结果的相关度;对所述搜索结果进行预处理以生成所述搜索结果的特征数据;以及基于所述特征数据和所述相关度训练排序模型。
可选地,所述用户日志包括:用户搜索日志、用户浏览日志和用户下载日志。
可选地,所述相关度包括:所述搜索结果对所述用户的吸引程度、所述用户所认为的所述搜索结果与所述查询词的关联程度和所述用户在浏览所述搜索结果之后的满意程度。
可选地,所述搜索结果包括一个或多个文献,所述点击模型满足如下数学式:
P(E1=1)=1,
P(Er+1=1|Er=0)=0,
P(Er+1=1|Sr=1)=0,
P(Er+1=1|Er=1,Sr=0)=γ,
其中,Er表示所述用户的浏览行为,Cr表示所述用户的点击行为,Ar表示所述用户是否被所述文献吸引,Dr表示所述用户的下载行为,Rr表示所述用户是否认为所述文献与所述查询词相关,Sr表示所述用户在浏览所述搜索结果之后是否对所述搜索结果感到满意,r表示所述文献在所述搜索结果中所处的位置,表示文献u出现在查询词q的搜索结果中位置r处时,文献u对所述用户的吸引程度;表示文献u出现在查询词q的搜索结果中位置r处时,所述用户所认为的文献u的关联程度,表示文献u出现在查询词q的搜索结果中位置r处时,所述用户对文献u的满意程度,γ表示当所述用户不满意时,所述用户继续浏览下一个文献的概率,其中,Er、Cr、Ar、Dr、Rr、Sr为二元随机变量,r为正整数,P()为概率函数。
可选地,基于所述特征数据和所述相关度训练排序模型包括:合并所述特征数据和所述相关度以生成训练数据集;以及调用预设的机器学习排序算法,基于所述训练数据集,训练所述排序模型。
本公开的另一个方面提供了一种排序模型的训练装置,其包括:日志获取单元,被配置为获取用户日志;交互数据提取单元,被配置为从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录;相关度计算单元,被配置为基于所述交互数据和点击模型计算所述搜索结果的相关度;特征数据生成单元,被配置为对所述搜索结果进行预处理以生成所述搜索结果的特征数据;以及排序模型训练单元,被配置为基于所述特征数据和所述相关度训练排序模型。
可选地,所述用户日志包括:用户搜索日志、用户浏览日志和用户下载日志。
可选地,所述相关度包括:所述搜索结果对所述用户的吸引程度、所述用户所认为的所述搜索结果与所述查询词的关联程度和所述用户在浏览所述搜索结果之后的满意程度。
可选地,所述搜索结果包括一个或多个文献,所述点击模型满足如下数学式:
P(E1=1)=1,
P(Er+1=1|Er=0)=0,
P(Er+1=1|Sr=1)=0,
P(Er+1=1|Er=1,Sr=0)=γ,
其中,Er表示所述用户的浏览行为,Cr表示所述用户的点击行为,Ar表示所述用户是否被所述文献吸引,Dr表示所述用户的下载行为,Rr表示所述用户是否认为所述文献与所述查询词相关,Sr表示所述用户在浏览所述搜索结果之后是否对所述搜索结果感到满意,r表示所述文献在所述搜索结果中所处的位置,表示文献u出现在查询词q的搜索结果中位置r处时,文献u对所述用户的吸引程度;表示文献u出现在查询词q的搜索结果中位置r处时,所述用户所认为的文献u的关联程度,表示文献u出现在查询词q的搜索结果中位置r处时,所述用户对文献u的满意程度,γ表示当所述用户不满意时,所述用户继续浏览下一个文献的概率,其中,Er、Cr、Ar、Dr、Rr、Sr为二元随机变量,r为正整数,P()为概率函数。
可选地,基于所述特征数据和所述相关度训练排序模型包括:合并所述特征数据和所述相关度以生成训练数据集;以及调用预设的机器学习排序算法,基于所述训练数据集,训练所述排序模型。
本公开的又一个方面提供了一种计算设备,其包括:至少一个存储介质,存储有至少一组指令;以及至少一个处理器,同所述至少一个存储介质通讯连接,其中,当所述至少一个处理器运行所述至少一组指令时,所述至少一个处理器执行前述方法。
本公开的一个或多个实施例提出的信息推荐方法和装置具有如下优点中的一种或多种。
本公开由于采取上述技术方案,其具有以下优点:
本公开的一个或多个实施例针对现有点击模型的缺陷,提出一种基于用户日志的搜索结果的排序方法和装置,通过充分利用用户日志中的点击和下载信息,提高标注数据集的质量,以训练出更高性能的排序模型,进而优化搜索结果的排序质量。
附图说明
以下附图详细描述了本公开中披露的示例性实施例。其中相同的附图标记在附图的若干视图中表示类似的结构。本领域的一般技术人员将理解这些实施例是非限制性的、示例性的实施例,附图仅用于说明和描述的目的,并不旨在限制本公开的范围,其他方式的实施例也可能同样的完成本公开中的构思意图。应当理解,附图未按比例绘制。其中:
图1为根据本公开一个或多个实施例的排序模型的训练方法的流程图;
图2为根据本公开一个或多个实施例的点击模型的示意图;
图3为根据本公开一个或多个实施例的排序模型的训练装置的示意图;
图4为根据本公开一个或多个实施例的计算设备的示意图。
具体实施方式
以下描述提供了本公开的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本公开中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本公开的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本公开不限于所示的实施例,而是具有与权利要求一致的最宽范围。
本领域技术人员将理解,本公开中使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式″一″、″一个″、″该″和″所述″也可以包括复数形式。当在本公开中使用时,术语″包括″、″包含″、″具有″、″含有″、″配备有″和/或″设置有″意思是指所关联的整数、步骤、操作、元素、组件和/或组的存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在,或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。
本领域技术人员将理解,特定术语已被用于描述本公开的实施例。例如,″实施例″、″一个实施例″、″一些实施例″、″多个实施例″和/或″若干实施例″意味着结合该实施例描述的特定特征、结构或特性可以包括在本公开的至少一个实施例中。因此,可以强调并且应当理解,在本公开的各个部分中对″实施例″或″替代实施例″的两个或更多个引用不一定都指代相同的实施例。此外,特定特征、结构或特性可以在本公开的一个或多个实施例中适当地组合。
本领域技术人员将理解,除非另外指定,序数形容词″第一″、″第二″、″第三″等用于描述普通对象仅指示被提及的相像对象的不同实例,而不旨在暗示这样描述的对象必须在时间上、空间上、按排名或以任意其他方式按给定顺序。
本领域技术人员将理解,本公开的方面可以在许多可获得专利的类别或内容中的任何一个中示出和描述,这些类别或内容包括任何新的和有用的过程、机器、制造或物质的组合物,或其任何新的和有用的改进。因此,本公开的各方面可以完全由硬件(电路、芯片、逻辑器件等),完全由软件(包括固件、常驻软件、微代码等)或软硬件组合来实现,这些实现在本文中通常都称为″块″、″模块″、″引擎″、″单元″、″组件″、或″系统″。此外,本公开的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质包含在其上具现化的计算机可读程序代码。
本领域技术人员将理解,本公开中的算法通常被认为是通向期望结果的自相一致的一系列动作或操作。这些动作或操作包括物理量的物理操纵。通常,但不是必要的,这些量采取能够被存储、转移、组合、比较且以其他方式操纵的电或磁信号的形式。主要是由于共用的原因,有时已经证明便利的是将这些信号称为位、值、元素、标记、字符、术语、数字诸如此类。然而,应理解,所有这些和类似术语与适当的物理量关联,并且仅是应用于这些量的方便标记。
本领域技术人员将理解,本公开中关于″处理″、″运算″、″计算″、″确定″、″创建″、″分析″、″检查″等的讨论可以指计算机、计算平台、计算系统或其他电子计算设备的操作和/或处理,这些设备将被表示为计算机的寄存器和/或存储器内的物理(例如电子)量的数据操纵和/或变换成被类似地表示为计算机的寄存器和/或存储器或可以存储执行操作和/或处理的指令的其他信息存储介质内的物理量的其他数据。
普通的搜索结果排序系统大多基于人工设计的排序函数,如BM25模型,能够融合的特征数非常有限,而基于机器学习的排序模型的引入,则大大降低了融合大量特征的繁琐程度。但由于基于机器学习的排序模型是监督式学习,因此需要大量的人工标注数据,带来了巨大的人工成本,且无法做到对人工标注数据的实时更新。
通过挖掘用户点击日志,可以以较小的开销来获取大量的标注数据。与人工标注相比,用户点击信息更容易获取,并且能更好的反映实时相关性(因为相关性经常会随时间而改变)。但是,点击信息中夹杂了噪音和偏差。所以,为了获取可靠的相关性标注信息,需要开发一些模型来移除其中的偏差和噪音,例如,位置模型(PBM)、级联模型(CM)以及动态贝叶斯网络(DBN)模型。然而,上述模型大都针对网页搜索引擎,并不完全适用于学术搜索引擎。以用户行为为例,网页搜索引擎对应的用户行为一般包括:浏览、翻页、点击链接、关闭页面等;而学术搜索引擎往往还包括:下载文献、结果分组等。
为了解决上述问题,本申请提出一种针对学术文献搜索结果的排序模型的训练方法和装置。
图1为根据本公开一个或多个实施例的排序模型的训练方法的流程图。
如图1所示,排序模型的训练方法可包括步骤S102、步骤S104、步骤S106、步骤S108和步骤S110。
步骤S102:获取用户日志。
所述用户日志可以是用户在客户端(例如,应用程序,网页)上的活动日志或操作(例如,访问、浏览、点击、收藏、下载)日志。例如,用户点击了哪一个链接,打开了哪一个页面,采用了哪个搜索项、总体会话时间等。通过分析用户日志,可以提取用户的行为特征以便更好地判断用户对检索结果的喜好程度,从而实现更加精准的检索反馈。
在一些实施例中,所述用户日志可包括以下中的一个或多个:用户搜索(或检索)日志、用户浏览日志和用户下载日志。在一些实施例中,所述用户日志还可包括:用户收藏日志、用户评论日志、用户评级日志等。
在一些实施例中,用户日志还可包括用户身份识别信息(用户ID)、查询词或查询词、搜索引擎返回的搜索结果列表(doc-list)和用户行为信息(action-list)。上述四项内容可以是文本数据或具有文本格式。所述用户行为信息可包括:操作类型(例如,点击、下载、浏览、上传)、操作对象、操作时间等信息。在一些实施例中,搜索引擎返回的文献结果列表长度具体可以为20,即20篇文献。
步骤S104:从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录。
可从所述用户日志中,提取可用的会话数据(或交互数据)。例如,首先根据用户ID及操作时间,合并浏览、检索、下载日志,并按预设的规则划分会话。随后对会话数据进行清洗、过滤,并只保留必要的日志信息数据。
所述会话(session)的定义可以为:具有唯一访问者标识(唯一用户ID)的用户,在提交一个查询后,在一段时间内与搜索引擎的交互行为。
在一些实施例中,预设的会话划分规则可以为:从用户提交查询开始,20分钟内无任何操作视为结束。同一用户提交的一个新查询,视为开始一个新的会话。
在一些实施例中,交互数据可以包括:查询词(query)、搜索引擎基于所述查询词返回的文献结果列表(doc-list)、用户点击列表(click-list)和用户下载列表(download-list)。上述四项数据均可为文本数据。
步骤S106:基于所述交互数据和点击模型计算所述搜索结果的相关度。
在一些实施例中,所述相关度(relevance)可包括:所述搜索结果对所述用户的吸引程度、所述用户所认为的所述搜索结果与所述查询词的关联程度和所述用户在浏览所述搜索结果之后的满意程度。
用户的点击日志记录了用户对搜索结果满意程度的重要信息,能够提供对相关性预测价值非常高的信息。相比较人工标注而言,点击的获得成本更低,而且点击体现的总是最近的相关性。点击模型(Click Model)是对用户点击行为的建模。根据用户的历史点击信息,对用户的兴趣和行为进行建模,以对用户的未来点击行为进行预测,提高相关性。
图2为根据本公开一个或多个实施例的点击模型的示意图。下面结合图2对点击模型进行介绍。图2所示点击模型满足如下数学式:
P(E1=1)=1,
P(Er+1=1|Er=0)=0,
P(Er+1=1|Sr=1)=0,
P(Er+1=1|Er=1,Sr=0)=γ,
其中,r表示所述文献在所述搜索结果中所处的位置;Er表示所述用户的浏览行为,Er=1表示用户浏览了搜索结果中位置为r处的文献,Er=0表示用户没有浏览该文献;Cr表示所述用户的点击行为,Cr=1表明用户点击了位置为r处的文献,Cr=0表明没有点击该文献;Ar表示所述用户是否被所述文献吸引,Ar=1表明用户点被位置为r处的文献吸引了,Ar=0表明用户没有被该文献吸引;Dr表示所述用户的下载行为,Dr=1表明用户下载了位置为r处的文献,Dr=0表明没有下载该文献;Rr表示所述用户是否认为所述文献与所述查询词相关,Rr=1表明用户认为位置为r处的文献与查询词相关,Rr=0表明用户认为该文献与查询词无关;Sr表示所述用户在浏览所述搜索结果之后是否对所述搜索结果感到满意,Sr=1表明用户对搜索结果感到满意,Sr=0表明用户对搜索结果不满意;表示文献u出现在查询词q的搜索结果中位置r处时,文献u对所述用户的吸引程度,表示文献u出现在查询词q的搜索结果中位置r处时,所述用户所认为的文献u的关联程度,表示文献u出现在查询词q的搜索结果中位置r处时,所述用户对文献u的满意程度,γ表示当所述用户不满意时,所述用户继续浏览下一个文献的概率,Er、Cr、Ar、Dr、Rr、Sr为二元随机变量,r为正整数,P()为概率函数。
本实施例中,所述点击模型的可基于如下假设构建。
最后,假设用户总会浏览第一条文献结果,并按照从头到尾,即从上到下的顺序浏览检索结果列表,直到用户满意为止。当用户下载完某一文献后,将有一个确定的概率来描述其满意程度。假设如果用户感到满意了,则用户将结束本次会话;否则用户将有1-γ的概率放弃本次会话,或是γ的概率继续浏览下一条文献结果展示的信息。
本实施例中,为了简化模型结构,额外假设了用户的下载行为已经都有了相应的点击事件。需要注意的是,在其他实施例中,用户浏览完文献展示的信息后,可能因为吸引度非常高,而无需点击文献、浏览更详细的信息,直接选择了下载。
根据本公开的一个或多个实施例的点击模型结构对学术搜索引擎中常见的下载行为进行了刻画,使其更适用于分析学术搜索引擎的用户日志。另外,除点击、下载变量外,其他均为隐含变量。
本实施例中,在上述定义下,文献的实际相关度可以用来计算,而参数γ的极大似然估计可以利用期望最大化(EM,Expectation-Maximization)算法来确定。在具体求解时,也可以将参数γ视为配置参数,从而简化估计流程。
步骤S108:对所述文献进行预处理以生成所述搜索结果的特征数据。
所述预处理可包括:特征提取、非数值型文本数据数值化、异常值检查、缺省值填补、数据光滑、归一化处理等。
在一些实施例中,可根据所述查询词、所述搜索引擎返回的文献结果列表以及预设的特征列表,为文献结果列表中的每篇文献提取特征数据,经非数值型文本数据数值化、异常值检查、缺省值填补、数据光滑等处理后,按预设的方法进行归一化操作。
在一些实施例中,所述特征数据可包括查询词相关特征和查询词无关特征。所述与查询词有关的特征可包括:查询词分别在标题、摘要、关键字、正文、参考文献中出现的次数、比率等。所述与查询词无关的特征可包括:文献的点击率、文献的下载率、文献的出版日期等。所述特征提取的主要方式为按照每个特征的定义从每篇文献提取或基于(查询词,文献)计算得到相应的数值。
在一些实施例中,所述归一化操作可包括离差标准化(linear)和标准差标准化(zscore)。
步骤S110:基于所述特征数据和所述相关度训练排序模型。
相关度排序的主要任务是建立一个排序模型,并对检索结果按预测的相关度进行排序。
在一些实施例中,可加载所述特征数据和所述相关度,根据预设的基于机器学习的排序算法(例如,支持向量机(Support Vector Machines,SVM)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、RankNet、AdaRank等),训练排序模型。在本实施例中,所述排序模型是SVM和GBDT。在一些实施例中,可训练多个不同的模型,并对各个模型输出结果(相关度)设置不同的权重,以防止单个模型的过拟合或训练不足。
在一些实施例中,可首先按会话合并文献的特征数据和相关度。随后对所有会话数据进行随机乱序,并随机采样生成训练/测试/验证数据,以此减少原始会话数据中的噪音和偏差,最后按所述排序算法,加载训练/验证数据,以训练排序模型并输出。例如,所述合并可包括将每篇文献中的特征数据和相关度整合到一个文本中。
在一些实施例中,可通过训练好的所述排序模型对新的搜索结果进行排序。
本公开一个或多个实施例通过采用针对学术搜索引擎的新点击模型,充分利用了用户点击日志中的点击、下载信息,提高了标注数据的质量,从而训练出更高性能的排序模型,进一步优化了检索结果。
图3为根据本公开一个或多个实施例的信息推荐装置的示意图。如图3所示,信息推荐装置300可包括日志获取单元310、交互数据提取单元320、相关度计算单元330、特征数据生成单元340和排序模型训练单元350。
日志获取单元310可被配置为获取用户日志。
交互数据提取单元320可被配置为从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录。
相关度计算单元330可被配置为基于所述交互数据和点击模型计算所述搜索结果的相关度。
特征数据生成单元340可被配置为对所述搜索结果进行预处理以生成所述搜索结果的特征数据。
排序模型训练单元350可被配置为基于所述特征数据和所述相关度训练排序模型。
本公开一个或多个实施例通过采用针对学术搜索引擎的新点击模型,充分利用了用户点击日志中的点击、下载信息,提高了标注数据的质量,从而训练出更高性能的排序模型,进一步优化了检索结果。
图4为根据本公开一个或多个实施例的计算设备的示意图。计算设备100可包括至少一个存储介质,存储有至少一组指令;以及至少一个处理器,同所述至少一个存储介质通讯连接。当所述至少一个处理器运行所述至少一组指令时,所述至少一个处理器执行前述方法。
计算设备100可以使用合适的硬件部件和/或软件部件(例如,处理器、控制器、存储单元、储存单元、输入单元、输出单元、通信单元、操作系统、应用、诸如此类)来实施。
在一些示例性实施方式中,计算设备100例如可以包括计算设备、移动电话、智能电话、蜂窝电话、笔记本、移动计算机、膝上型计算机、笔记本计算机、台式计算机、手持计算机、手持设备、PDA设备、手持PDA设备、无线通信设备、合并无线通信设备的PDA设备、诸如此类。
在一些示例性实施方式中,计算设备100例如可以包括处理器191、输入单元192、输出单元193、存储单元194、和/或储存单元195中的一个或多个。计算设备100可选地可以包括其他合适的硬件部件和/或软件部件。在一些示例性实施方式中,计算设备100的一个或多个的一些或全部部件可以被围绕在公共壳体或包装中,并且可以使用一个或多个有线或无线链路互连或可操作地关联。在其他实施方式中,计算设备100的一个或多个的部件可以分布在多个或单独的设备中。
在一些示例性实施方式中,处理器191例如可以包括中央处理单元(CPU)、数字信号处理器(DSP)、一个或多个处理器核心、单核处理器、双核处理器、多核处理器、微处理器、主处理器、控制器、多个处理器或控制器、芯片、微芯片、一个或多个电路、电路系统、逻辑单元、集成电路(IC)、专用IC(ASIC)或任意其他合适的多功能或专用处理器或控制器。处理器191例如可以执行计算设备100的操作系统(OS)和/或一个或多个合适应用的指令。
在一些示例性实施方式中,输入单元192例如可以包括键盘、小键盘、鼠标、触摸屏、触摸板、跟踪球、触针、麦克风或其他合适的指向设备或输入设备。输出单元193例如可以包括监视器、屏幕、触摸屏、平板显示器、发光二极管(LED)显示单元、液晶显示器(LCD)显示单元、等离子体显示单元、一个或多个扬声器或耳机、或其他合适的输出设备。
在一些示例性实施方式中,存储介质194例如可以包括随机存取存储器(RAM)、只读存储器(ROM)、动态RAM(DRAM)、同步DRAM(SD-RAM)、闪速存储器、易失性存储器、非易失性存储器、高速缓冲存储器、缓冲器、短期存储单元、长期存储单元、硬盘驱动器、软盘驱动器、压缩盘(CD)驱动器、CD-ROM驱动器、DVD驱动器、或其他合适的可移动或不可移动储存单元。存储介质194例如可以存储由计算设备100处理的数据。
在一些示例性实施方式中,存储介质194可储存逻辑195,逻辑195可以包括指令、数据、和/或代码,这些指令、数据、和/或代码在由机器执行时,可以使得机器执行如这里所描述的方法、处理和/或操作。机器例如可以包括任意合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器、诸如此类,并且可以使用硬件、软件、固件、诸如此类的任意合适组合来实施。逻辑195可以包括或可以被实施为软件、软件模块、应用、程序、子例程、指令、指令集、计算代码、词、值、标记、诸如此类。指令可以包括任意合适类型的代码(诸如源代码、编译代码、翻译代码、可执行代码、静态代码、动态代码、诸如此类)。指令可以根据预定义计算机语言、方式或语法来实施,用于指示处理器执行特定功能。指令可以使用任意合适的高级的、低级的、面向对象的、视觉的、编译的和/或翻译的编程语言(诸如C、C++、Java、BASIC、Python、Matlab、Pascal、Visual BASIC、汇编语言、机器代码、诸如此类)来实施。
在一些示例性实施方式中,计算设备100可以被配置为经由无线和/或有线网络与一个或多个其他设备通信。所述网络可以包括有线网络、局域网(LAN)、无线LAN(WLAN)网络、无线电网络、蜂窝网络、无线保真(WiFi)网络、IR网络、蓝牙(BT)网络、诸如此类。
在一些示例性实施方式中,计算设备100可以允许一个或多个用户与例如如这里所述的计算设备100的一个或多个处理、应用和/或模块交互。
在一些示例性实施方式中,计算设备100可以被配置为执行和/或实行一个或多个操作、模块、处理、过程和/或诸如此类。
综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本公开意图囊括对实施例的各种合理改变、改进和修改。这些改变、改进和修改旨在由本公开提出,并且在本公开的示例性实施例的精神和范围内。
Claims (10)
1.一种排序模型的训练方法,其特征在于,包括:
获取用户日志;
从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录;
基于所述交互数据和点击模型计算所述搜索结果的相关度;
对所述搜索结果进行预处理以生成所述搜索结果的特征数据;以及
基于所述特征数据和所述相关度训练排序模型。
2.如权利要求1所述的训练方法,其特征在于,所述用户日志包括:用户搜索日志、用户浏览日志和用户下载日志。
3.如权利要求1所述的训练方法,其特征在于,所述相关度包括:所述搜索结果对所述用户的吸引程度、所述用户所认为的所述搜索结果与所述查询词的关联程度和所述用户在浏览所述搜索结果之后的满意程度。
4.如权利要求1所述的训练方法,其特征在于,所述搜索结果包括一个或多个文献,所述点击模型满足如下数学式:
P(E1=1)=1,
P(Er+1=1|Er=0)=0,
P(Er+1=1|Sr=1)=0,
P(Er+1=1|Er=1,Sr=0)=γ,
其中,
Er表示所述用户的浏览行为,
Cr表示所述用户的点击行为,
Ar表示所述用户是否被所述文献吸引,
Dr表示所述用户的下载行为,
Rr表示所述用户是否认为所述文献与所述查询词相关,
Sr表示所述用户在浏览所述搜索结果之后是否对所述搜索结果感到满意,
r表示所述文献在所述搜索结果中所处的位置,
γ表示当所述用户不满意时,所述用户继续浏览下一个文献的概率,
其中,Er、Cr、Ar、Dr、Rr、Sr为二元随机变量,r为正整数,P()为概率函数。
5.如权利要求1所述的训练方法,其特征在于,基于所述特征数据和所述相关度训练排序模型包括:
合并所述特征数据和所述相关度以生成训练数据集;以及
调用预设的机器学习排序算法,基于所述训练数据集,训练所述排序模型。
6.一种排序模型的训练装置,其特征在于,包括:
日志获取单元,被配置为获取用户日志;
交互数据提取单元,被配置为从所述用户日志提取所述用户与搜索引擎的交互数据,所述交互数据包括:查询词、所述搜索引擎基于所述查询词返回的搜索结果、用户点击记录和用户下载记录;
相关度计算单元,被配置为基于所述交互数据和点击模型计算所述搜索结果的相关度;
特征数据生成单元,被配置为对所述搜索结果进行预处理以生成所述搜索结果的特征数据;以及
排序模型训练单元,被配置为基于所述特征数据和所述相关度训练排序模型。
7.如权利要求6所述的训练装置,其特征在于,所述用户日志包括:用户搜索日志、用户浏览日志和用户下载日志。
8.如权利要求6所述的训练装置,其特征在于,所述相关度包括:所述搜索结果对所述用户的吸引程度、所述用户所认为的所述搜索结果与所述查询词的关联程度和所述用户在浏览所述搜索结果之后的满意程度。
9.如权利要求6所述的训练装置,其特征在于,所述搜索结果包括一个或多个文献,所述点击模型满足如下数学式:
P(E1=1)=1,
P(Er+1=1|Er=0)=0,
P(Er+1=1|Sr=1)=0,
P(Er+1=1|Er=1,Sr=0)=γ,
其中,
Er表示所述用户的浏览行为,
Cr表示所述用户的点击行为,
Ar表示所述用户是否被所述文献吸引,
Dr表示所述用户的下载行为,
Rr表示所述用户是否认为所述文献与所述查询词相关,
Sr表示所述用户在浏览所述搜索结果之后是否对所述搜索结果感到满意,
r表示所述文献在所述搜索结果中所处的位置,
γ表示当所述用户不满意时,所述用户继续浏览下一个文献的概率,
其中,Er、Cr、Ar、Dr、Rr、Sr为二元随机变量,r为正整数,P()为概率函数。
10.如权利要求6所述的训练装置,其特征在于,基于所述特征数据和所述相关度训练排序模型包括:
合并所述特征数据和所述相关度以生成训练数据集;以及
调用预设的机器学习排序算法,基于所述训练数据集,训练所述排序模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333731.XA CN112417133A (zh) | 2020-11-25 | 2020-11-25 | 排序模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333731.XA CN112417133A (zh) | 2020-11-25 | 2020-11-25 | 排序模型的训练方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417133A true CN112417133A (zh) | 2021-02-26 |
Family
ID=74842011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011333731.XA Pending CN112417133A (zh) | 2020-11-25 | 2020-11-25 | 排序模型的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417133A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326363A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 搜索方法及装置、预测模型训练方法及装置、电子设备 |
CN113609841A (zh) * | 2021-06-25 | 2021-11-05 | 北京齐尔布莱特科技有限公司 | 一种主题词生成模型的训练方法及计算设备 |
CN115048587A (zh) * | 2022-08-12 | 2022-09-13 | 中博信息技术研究院有限公司 | 一种基于LambdaMart的通讯录搜索智能排序方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402954A (zh) * | 2017-05-26 | 2017-11-28 | 百度在线网络技术(北京)有限公司 | 建立排序模型的方法、基于该模型的应用方法和装置 |
CN107832432A (zh) * | 2017-11-15 | 2018-03-23 | 北京百度网讯科技有限公司 | 一种搜索结果排序方法、装置、服务器和存储介质 |
US20190188295A1 (en) * | 2017-12-15 | 2019-06-20 | Accenture Global Solutions Limited | Cognitive searches based on deep-learning neural networks |
CN111581545A (zh) * | 2020-05-12 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种召回文档的排序方法及相关设备 |
-
2020
- 2020-11-25 CN CN202011333731.XA patent/CN112417133A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402954A (zh) * | 2017-05-26 | 2017-11-28 | 百度在线网络技术(北京)有限公司 | 建立排序模型的方法、基于该模型的应用方法和装置 |
CN107832432A (zh) * | 2017-11-15 | 2018-03-23 | 北京百度网讯科技有限公司 | 一种搜索结果排序方法、装置、服务器和存储介质 |
US20190188295A1 (en) * | 2017-12-15 | 2019-06-20 | Accenture Global Solutions Limited | Cognitive searches based on deep-learning neural networks |
CN111581545A (zh) * | 2020-05-12 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种召回文档的排序方法及相关设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326363A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 搜索方法及装置、预测模型训练方法及装置、电子设备 |
CN113326363B (zh) * | 2021-05-27 | 2023-07-25 | 北京百度网讯科技有限公司 | 搜索方法及装置、预测模型训练方法及装置、电子设备 |
CN113609841A (zh) * | 2021-06-25 | 2021-11-05 | 北京齐尔布莱特科技有限公司 | 一种主题词生成模型的训练方法及计算设备 |
CN115048587A (zh) * | 2022-08-12 | 2022-09-13 | 中博信息技术研究院有限公司 | 一种基于LambdaMart的通讯录搜索智能排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7206288B2 (ja) | 音楽推薦方法、装置、コンピューティング機器及び媒体 | |
US20210397980A1 (en) | Information recommendation method and apparatus, electronic device, and readable storage medium | |
EP3143523B1 (en) | Visual interactive search | |
US20150213514A1 (en) | Systems and methods for providing modular configurable creative units for delivery via intext advertising | |
US11172040B2 (en) | Method and apparatus for pushing information | |
WO2021003932A1 (zh) | 文件管理方法、装置、计算机设备和存储介质 | |
CN112417133A (zh) | 排序模型的训练方法和装置 | |
CN110781376A (zh) | 信息推荐方法、装置、设备及存储介质 | |
US20130339840A1 (en) | System and method for logical chunking and restructuring websites | |
CN112508609B (zh) | 人群扩量的预测方法、装置、设备及存储介质 | |
JP6053131B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN105022775A (zh) | 用于构建网页访问历史的设备和方法 | |
CN111259220A (zh) | 一种基于大数据的数据采集方法和系统 | |
CN111382563A (zh) | 文本相关性的确定方法及装置 | |
CN111488510B (zh) | 小程序相关词的确定方法、装置、处理设备及搜索系统 | |
CN116755688A (zh) | 组件处理方法、装置、计算机设备及存储介质 | |
KR20240020166A (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
US11727051B2 (en) | Personalized image recommendations for areas of interest | |
Musabeyezu | Comparative study of annotation tools and techniques | |
US9530094B2 (en) | Jabba-type contextual tagger | |
CN110837596B (zh) | 一种智能推荐方法、装置、计算机设备及存储介质 | |
US20210109986A1 (en) | Context based url resource prediction and delivery | |
CN111046221B (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 001a, 11 / F, building 1, 588 Zixing Road, Minhang District, Shanghai, 200241 Applicant after: Shanghai chuangmi Shulian Intelligent Technology Development Co.,Ltd. Address before: Room 001a, 11 / F, building 1, 588 Zixing Road, Minhang District, Shanghai, 200241 Applicant before: SHANGHAI CHUANGMI TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information |