CN109740045B - 针对搜索结果的因素化模型和基于搜索结果的通信 - Google Patents

针对搜索结果的因素化模型和基于搜索结果的通信 Download PDF

Info

Publication number
CN109740045B
CN109740045B CN201811258860.XA CN201811258860A CN109740045B CN 109740045 B CN109740045 B CN 109740045B CN 201811258860 A CN201811258860 A CN 201811258860A CN 109740045 B CN109740045 B CN 109740045B
Authority
CN
China
Prior art keywords
search results
features
machine learning
searcher
potential search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811258860.XA
Other languages
English (en)
Other versions
CN109740045A (zh
Inventor
郭奇
胡泊
吴显仁
A·R·奈尔
周山
L·G·科特尔三世
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN109740045A publication Critical patent/CN109740045A/zh
Application granted granted Critical
Publication of CN109740045B publication Critical patent/CN109740045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

在示例实施例中,训练两个机器学习模型。一个被训练为输出在社交网络服务中具有成员简档的搜索者将选择潜在的搜索结果的概率。另一个被训练为输出与潜在的搜索结果相对应的成员将响应来自搜索者的通信的概率。特征可以从查询、关于搜索者的信息、以及关于与潜在的搜索结果相对应的成员的信息中提取,并且被馈送至机器学习模型。机器学习模型的输出可以被组合并且用于将搜索结果排名以返回给搜索者。

Description

针对搜索结果的因素化模型和基于搜索结果的通信
技术领域
概括而言,本公开涉及用于解决电子通信中的技术挑战的计算机技术。更加具体地,本公开涉及用于返回搜索结果的因素化机器学习模型,所述搜索结果很可能引起按照所述结果的主题而由搜索者选择以及返回通信两者。
背景技术
互联网的崛起已经产生了两个不同但相关的现象:社交网络出现的增加,其对应的成员简档对大量的人可见,以及对接触满足严格标准的小群体的社交网络成员的期望的增加。这在招聘领域尤其显著,其中招聘人员通常试图找到具有特定资格(例如,教育、经验、技能等)的成员,并且招聘人员通常会接触具有特定资格的成员,以查明所述成员是否愿意申请招聘人员已有的工作空缺。
工作征集通信(例如,由招聘人员向可能是未来的求职人员的成员发送的电子邮件)在招聘人员这一方可能会花费很多时间,尤其是当其有效地完成时。一般而言,有效的工作征集通信包括关于成员的个人化信息并且使得征集具体地针对该成员,因此使其看上去较不像对许多潜在的申请发送的群体通信,而更像招聘人员具体地将该成员定位目标。然而,招聘人员花在创建这样的工作征集通信中的时间量是有限的,并且因此在机制已就位以减少浪费这样的时间的可能性的情况下将极大地受益。然而,在确定根据计算机系统可获得的信息所测量的特定成员是否有可能响应于特定的通信时会产生技术问题,并且即使这样的确定是可行的,在确定如何利用这样的信息来减少被浪费的资源时也会产生技术问题。
附图说明
作为示例而非限制,在附图的图中示出了本技术的一些实施例。
图1是示出了根据示例实施例的客户端-服务器系统的框图。
图2是示出了与本公开的一些实施例一致的社交网络服务的功能组件的框图,其包括在本文中被称为搜索引擎的数据处理模块,以在生成和提供针对搜索查询的搜索结果时使用。
图3是更加详细地示出了图2中的应用服务器模块的框图。
图4是更加详细地示出了根据示例实施例的、图3中的通信回复分数搜索结果生成器308的框图。
图5是示出了根据示例实施例的、用于在在线计算机系统中返回搜索结果的方法500的流程图。
图6是示出了可以安装在上文所描述的设备中的任何一个或多个上的软件602的架构的框图600。
图7示出了根据示例实施例的、采用计算机系统的形式的机器700的图解表示,在该机器中可以执行一组指令以使得该机器执行在本文中所讨论的方法中的任何一个或多个方法。
具体实施方式
概要
本公开描述了个体地提供针对一个或多个机器学习算法模型的功能的方法、系统、和计算机程序产品等。在以下的描述中,出于解释的目的,阐述了许多具体细节以便提供对本公开的不同实施例的各个方面的透彻理解。然而,对本领域的熟练技术人员显而易见的是,可以在没有所有这些具体细节的情况下实践本公开。
在示例实施例中,提供了一种平台,该平台利用计算机可获得的信息来馈送两个不同的机器学习模型。第一机器学习模型被训练为确定搜索者会在向他或她呈现给定的潜在的搜索结果的情况下对其进行选择的概率。第二机器学习模型被训练为确定潜在的搜索结果的主题将响应于来自搜索者的通信的概率。接着,可以组合这些概率以确定是否向搜索者呈现潜在的搜索结果,并且如果是,则确定将潜在的搜索结果在其他搜索结果中排名多高。
在一些示例实施例中,可以将这些技术应用于作为与特定成员唯一相关联的成员简档或其他内容的搜索结果。例如,招聘人员可以是社交网络服务中的成员简档的搜索者。在这样的实例中,第一机器学习模型被训练为如果给定成员的简档作为搜索结果而被返回,则确定招聘人员将选择该给定成员的概率,而第二机器学习模型被训练为确定如果被联系的话,与成员简档对应的成员将响应招聘人员的概率。
出于该文档的目的,社交网络服务的成员可以被称为候选者。向招聘人员呈现的搜索结果可以被称为印象。从招聘人员到候选者的通信可以被称为发送。响应于发送而从候选者到招聘人员的通信可以被称为接受。一般而言,在招聘人员/成员的情况下,所述概率可以被描述为:
P(发送,接受|印象)->p(接受|发送)·p(发送|印象)
在示例实施例中,可以针对要评估的每一潜在的搜索结果来创建特征向量。下文将更详细地描述特征向量的细节。特征向量被用作到第一机器学习模型和第二机器学习模型的输入以生成例如在上面公式的右侧的概率。在一些示例实施例中,这可以按照如下内容在数学上被反映:
p(z=1|x)=p(z=1|x;y=1)*p(y=1|x)
~=\hat{p}(z=1|x;y=1)^a*\hat{p}(y=1|x)^b
其中,x是印象的特征向量,y是指示是否存在发送的二进制变量,而z是指示是否存在接受的二进制变量。
p(·)表示事件的概率,\hat{p}表示p的经验估计。第二个步骤是超松弛(overrelaxation)。由于\hat{p}是不精确的近似,超松弛帮助我们减轻近似中的不精确效果。超松弛与分数概率校准一起给出了使用模型的灵活性,这可以在预测中在接收方运行特性的曲线下获得更好的区域而不是较好的交叉熵。在一些示例实施例中,alpha(a)在以下的公式中是大约0.5。因此,保留变换的顺序变成:
log p(z=1|x)=a*log p(z=1|x;y=1)+b*log p(y=1|x)
应该注意的是,如在该文档通篇中所使用的术语“社交”应该宽泛地被解释为覆盖服务的任何类型的在线成员分组,在该分组中可以通过该服务发送通信。这与服务的在线成员组形成对比,在上述在线成员的分组中仅通过外部方式发送了通信(例如,传统的电子邮件、电话等),并且也与一般互联网用户的分组形成对比。
图1是示出了根据示例实施例的客户端-服务器系统100的框图。联网系统102经由网络104(例如,互联网或广域网(WAN))向一个或多个客户端提供服务器侧功能。例如,图1示出了在相应的客户端机器110和112上执行的网络客户端106(例如,浏览器)和程序化客户端108。
应用程序接口(API)服务器114和网络服务器116耦合至一个或多个应用服务器118,并且向一个或多个应用服务器118分别提供程序化的和网络接口。应用服务器118托管一个或多个应用120。进而,示出了应用服务器118耦合至促进访问一个或多个数据库126的一个或多个数据库服务器124。尽管在图1中示出了用于形成联网系统102的一部分的应用120,但是将理解的是,在可替代的实施例中,应用120可以形成与联网系统102分离且不同的服务的部分。
此外,尽管在图1中示出的客户端-服务器系统100采用客户端-服务器架构,但当然本公开不限于这样的架构,并且可以同样好地在例如分布式或对等的架构系统中发现应用。各种应用120也可以被实现为独立的软件程序,其不一定具有联网能力。
网络客户端106经由由网络服务器116支持的网络接口来访问各种应用120。类似地,程序化客户端108经由由API服务器114所提供的程序化接口来访问由应用120所提供的各种服务和功能。
由于具有经由由API服务器114所提供的编程化接口对联网系统102的程序化访问,因此图1还示出了在第三方服务器130上执行的第三方应用128。例如,利用从联网系统102所取回的信息,第三方应用128可以支持在由第三方托管的网站上的一个或多个特征或功能。例如,第三方网站可以提供由联网系统102的相关应用120所支持的一个或多个功能。
在一些实施例中,在本文中所提及的任何网站可以包括在多种设备上渲染的在线内容,所述多种设备包括但不限于:台式个人计算机(PC)、膝上型计算机、以及移动设备(例如,平板计算机、智能电话等)。就这一点而言,用户可以采用这些设备中的任何一个设备以使用本公开的特征。在一些实施例中,用户可以使用移动设备(机器110、112和第三方服务器130中的任何一个可以是移动设备)上的移动应用来访问和浏览在线内容,例如在本文中所公开的在线内容中的任何在线内容。移动服务器(例如,API服务器114)可以与移动应用和应用服务器118进行通信,以便使得本公开的特征在移动设备上可用。
在一些实施例中,联网系统102可以包括社交网络服务的功能组件。
图2是示出了与本公开的一些实施例一致的社交网络服务的功能组件的框图,其包括在本文中被称为服务引擎216的数据处理模块,该模块用于在生成和提供针对搜索查询的搜索结果时使用。在一些实施例中,搜索引擎216可以驻留在图1中的应用服务器118上。然而,可以预期的是,其他配置也在本公开的范围内。
如在图2中所示出的,前端可以包括用户接口模块(例如,网络服务器116)212,其从各种客户端计算设备接收请求并且向进行请求的客户端设备传送合适的响应。例如,用户接口模块212可以接收这样的请求,其采用超文本传输协议(HTTP)请求或者其他基于网络的API请求的形式。另外,可以提供成员交互检测模块213以检测成员与所呈现的不同应用120、服务、和内容所具有的各种交互。如在图2中所示出的,在检测到特定的交互之后,成员交互检测模块213将该交互记录在成员活动和行为数据库222中,包括交互的类型以及与该交互相关的任何元数据。
应用逻辑层可以包括一个或多个各种应用服务器模块214,其结合用户接口模块212利用从数据层中的各种数据源取回的数据来生成各种用户接口(例如,网页)。在一些实施例中,个体的应用服务器模块214用于实现与由社交网络服务所提供的各种应用120和/或服务相关联的功能。
如在图2中所示出的,数据层可以包括几个数据库,例如用于存储简档数据的简档数据库218,包括成员简档数据和各种组织(例如,公司、学校等)的简档数据。与一些实施例一致,当一个人最初注册成为社交网络服务的成员时,将提示这个人以提供一些个人信息,例如他或她的名字、年龄(例如,生日)、性别、兴趣、联系人信息、家乡、地址、配偶和/或家庭成员的名字、教育背景(例如,学校、专业、入学和/或毕业日期等)、雇佣历史、技能、专业组织等。例如,该信息被存储在简档数据库218中。一旦注册了,成员可以邀请其他成员,或者被其他的成员邀请以经由该社交网络服务连接。“连接”可以构成成员的双边协议,以使得两个成员确认连接的建立。类似地,在一些实施例中,成员可以选择“跟随”另一成员。与建立连接相比,“跟随”另一成员的概念通常的是单边操作,并且至少在一些实施例中不需要由正被跟随的成员确认或批准。当一个成员跟随另一个时,正在跟随的成员可以接收由被跟随的成员发布的状态更新(例如,在活动或内容流中)或者其他消息,或者与由正被跟随的成员从事的各种活动相关。类似地,当成员跟随组织时,成员变得有资格接收代表该组织发布的消息或状态更新。例如,代表成员正在跟随的组织所发布的消息或状态更新将出现在该成员个人化的数字输入,一般被称为活动流或内容流。在任何情况下,成员与其他成员或与其他实体和对象建立的各种关联和关系被存储并且被保存在社交图数据库220中的社交图内。
当成员与经由社交网络服务可获得的各种应用120、服务、和内容交互时,可以跟踪成员的交互和行为(例如,所查看的内容、所选择的链接或按钮、所响应的消息等),并且与成员的活动和行为相关的信息可以被记录或被存储,例如如在图2中由成员活动和行为数据库222所指示的。接着,可以由搜索引擎216使用该记录的活动信息来确定针对搜索查询的搜索结果。
在一些实施例中,数据库218、220、和222可以并入到图1中的数据库126中。然而,其他配置也在本公开的范围之内。
尽管未示出,但在一些实施例中,社交网络服务系统210提供了API模块,经由该API模块,应用120和服务可以访问由社交网络服务所提供或保存的各种数据和服务。例如,使用API,应用能够请求和/或接收一个或多个导航推荐。这样的应用120可以是基于浏览器的应用120,或者可以是特定于操作系统的。特别地,一些应用120可以在具有移动操作系统的一个或多个移动设备(例如,电话或平板计算设备)上驻留和执行(至少部分地)。此外,尽管在许多情况下,利用API的应用120或服务可以是通过实体操作社交网络服务而开发和保存的应用120和服务,但在特殊的布置下,除了数据隐私问题之外没有什么可以阻止该API被提供至公众或特定的第三方,由此使得导航推荐能够由第三方应用128和服务获得。
尽管搜索引擎216在本文中被认为在社交网络服务的上下文中使用,但可以预期的是,也可以在任何网络或在线服务的上下文中对其进行使用。另外地,尽管本公开的特征在本文中被认为在网页的上下文中使用或呈现,但可以预期任何用户界面视图(例如,移动设备或台式机软件上的用户界面)在本公开的范围之内。
在示例实施例中,当将成员简档编入索引时,创建并存储正向搜索索引。搜索引擎216促进针对社交网络服务内的内容的索引和搜索,例如针对包含在数据层中的数据或信息的索引和搜索,所述数据或信息例如简档数据(例如,存储在简档数据库218中)、社交图数据(例如,存储在社交图数据库220中)、以及成员活动和行为数据(例如,存储在成员活动和行为数据库222中)。搜索引擎216可以收集、解析、和/或存储索引或其他类似结构中的数据,以促进响应于所接收的针对信息的查询而实现信息的识别或取回。这可以包括但不限于正向搜索索引、反向索引、N元文法索引等。
图3是更加详细地示出了图2中的应用服务器模块214的框图。尽管在许多实施例中,应用服务器模块214将包含用于在社交网络系统内执行各种不同动作的许多子组件,但在图3中仅描绘了与本公开相关的那些组件。在这里,摄取(ingestion)平台300从简档数据库218、社交图数据库220、以及与由搜索者经由用户接口服务器组件302提交的查询相关的成员活动和行为数据库获得信息。用户接口服务器组件302与位于客户端设备306上的用户接口客户端组件304进行通信以获得该识别信息。下文将更加详细地描述用户接口客户端组件304的细节,但是一般而言,用户接口客户端组件304的用户,在下文中被称为搜索者,可以开始搜索或者以其他方式使得提供搜索者可能希望与其通信的成员的搜索结果的搜索被生成。在搜索结果中识别关于这些成员中的每个成员的信息。用户接口服务器组件302可以基于该查询来生成潜在的搜索结果,并且向摄取平台300发送这些潜在的搜索结果的识别,其可以使用这些识别来从简档数据库218、社交图数据库220、以及成员活动和行为数据库222取回与这些潜在的搜索结果对应的合适信息。如将在下文中更加详细地讨论的,在一些示例实施例中,关于诸如招聘人员之类的搜索者的信息还可以与稍后描述的从机器学习模块的预测是相关的。由此,还可以经由用户接口服务器组件302向摄取平台300传送搜索者的识别,所述摄取平台300可以使用所述识别来从简档数据库218、社交图数据库220、和成员活动和行为数据库222取回与搜索者对应的合适信息。
接着,摄取平台300可以将相关信息从简档数据库218、社交图数据库220、和成员活动和行为数据库222提供至搜索结果生成器308,所述搜索结果生成器308用于确定要返回潜在的搜索结果中的哪一个以及针对这些潜在的搜索结果的排名。在一些示例实施例中,该信息是以特征向量的形式发送的。例如,每个潜在的搜索结果可以具有其自己的特征向量。在其他示例实施例中,摄取平台300向搜索结果生成器308发送原始信息,并且搜索结果生成器308从该原始信息创建其自己的特征向量。
接着,可以将经排名的搜索结果从搜索结果生成器308传递至用户接口服务器组件302,所述用户接口服务器组件302用于使得用户接口客户端组件304显示经排名的结果的至少一部分。
图4是更加详细地示出了根据示例实施例的、图3中的搜索结果生成器308的框图。在训练组件400中,采样成员简档402和采样成员活动和行为信息404被馈送至特征提取器406,特征提取器406用于从采样成员简档402以及采样成员活动和行为信息404提取专业(curated)特征408。取决于成员简档是被假定为预期搜索结果的成员简档还是预期搜索者的成员简档,可以提取不同的特征。
在示例实施例中,接着可以使用专业特征408作为到第一机器学习算法410的输入,以用于训练第一机器学习模型412生成搜索者将选择对应的潜在搜索结果的概率。专业特征408还可以用作到第二机器学习算法414的输入,以用于训练第二机器学习模型416计算与对应的潜在搜索结果相关联的成员将响应来自搜索者的通信的概率。应当注意的是,尽管该图描绘了一组专业特征408被用作第一机器学习算法410和第二机器学习算法414两者的输入,但在一些示例实施例中,针对不同的机器学习算法可以具有不同的特征。
该训练可以包括向第一机器学习算法410提供采样搜索结果标签418。这些采样搜索结果标签418中的每个是二进制变量,其指示在对应的潜在的搜索结果上选择的搜索者是否在采样成员活动和行为信息404中。同样地,可以向第二机器学习算法414提供采样搜索结果标签420。这些采样搜索结果标签420中的每个是二进制变量,其在搜索者向与潜在的搜索结果相对应的候选者发送了电子邮件的情况下指示候选者是否进行回复。
在搜索结果排名引擎421中,将候选者记录422馈送至特征提取器424,该特征提取器424用于从候选者记录422提取专业特征426。在一些示例实施例中,候选者记录422包括由摄取平台300所提取的成员简档信息和成员活动和行为信息,这可以使用来自用户接口服务器组件302的查询以从简档数据库218、社交图数据库220、和成员活动和行为数据库222取回与潜在的搜索结果对应的合适信息。专业特征426接着被用作到第一机器学习模块412的输入以及到第二机器学习模块416的输入,该第一机器学习模块412输出搜索者将选择对应的潜在的搜索结果的概率,该第二机器学习模块416输出与对应的潜在的搜索结果相关联的成员将响应来自搜索者的通信的概率。应当注意的是,尽管该图描绘了被用作到第一机器学习模块412和第二机器学习模块416两者的输入的一组专业特征426,但在一些示例实施例中,针对不同的机器学习模块可以存在不同的特征。
可以在模型结果组合器428中组合这些概率。在一些示例实施例中,模型结果组合器428用于在组合不同的概率时对其加权。实际上,在一些另外的示例实施例中,第三机器学习算法可以用于训练第三机器学习模型以优化所分配的权重。另外地,这些权重在性质上可以是动态的。例如,可以基于招聘人员运营的行业而施加不同的权重。
模型结果组合器428的输出是针对每个候选者搜索结果的、关于搜索者是否将选择候选者搜索结果以及与候选者搜索结果对应的成员是否将响应来自搜索者的通信两者的组合概率。该信息可以被传递至搜索结果排名器430,该搜索结果排名器430用于至少部分地基于这些概率来对候选者搜索结果进行排名并且返回n个排名最高的候选者搜索结果。
因此,不仅基于搜索结果自身将对搜索者是有趣的概率(例如,基于查询自身和关于搜索者的信息),而且基于与搜索结果对应的成员将响应来自搜索者的通信的概率,来向搜索者呈现高度相关的搜索结果。因此,例如,可以不呈现对招聘人员具有极高兴趣度但是对来自招聘人员的通信进行响应的机会很小的候选者,而优选对招聘人员可能具有较低兴趣度但是对来自招聘人员的通信进行响应的机会较高的候选者。
现在转到对特征向量的创建,如先前所描述的,针对不同的机器学习算法输入,特征向量可以相同或可以不同。跟随在之后的是可以被包括在这样的特征向量中的各种特征的非详尽列表。
在示例实施例中,可以将特征划分成三类:(1)查询特征,(2)结果特征,(3)搜索者特征,(4)查询/结果特征,以及(5)搜索者/结果特征。查询特征是从查询自身拉取的查询特征,例如在查询识别搜索结果的具体属性的情况下,所述属性例如名字、姓氏、公司、或头衔。
结果特征是从候选者结果自身拉取的特征,例如行业、候选者是否被认为是公开候选者、候选者的求职者分数、候选者查询/结果特征的推荐人数量、候选者是否是有影响力的人、简档质量分数、职务或教育字段是否为空、当前职位/先前职位的数量、以及搜索结果中的教育、通信表达分数(指示接收通信的一般意愿,如由成员自己报告的)、优质成员分数(通过计算成员简档有多完整来计算的分数)、成员参与分数、针对来自所有招聘人员的搜索结果的历史点击率、历史动作速率(例如,对结果采取的所有动作的数量除以在最近三个月内结果的印象数量)、所接收的通信的数量、所接受的通信的数量、决策人分数、自从候选者指示他或她是公开候选者起的时间量、以及候选者是否已经申请了工作。
搜索者特征是从关于搜索者他或她自己的信息中拉取的特征,例如行业、结果的历史选择率、以及位置。
查询/结果特征是从查询和候选者结果的组合中拉取的特征,例如查询中与候选者结果中的一些文本相匹配的术语的数量;查询中与候选者结果中的具体文本字段相匹配的术语的数量;查询中与候选者结果中的一些文本相匹配的术语的部分;查询中与候选者结果中的具体文本字段相匹配的术语的部分;查询中与一些文本相匹配的术语的频率;查询中与具体文本字段相匹配的术语的频率;如果查询包含名字和姓氏且候选者结果是有影响力的人,则候选者结果是否与该名字和姓氏相匹配;查询中的职位是否与候选者结果中的职位相匹配;查询中的头衔是否与候选者结果中的头衔相匹配;术语-频率-逆文档频率分数;BM25F分数;针对查询自身和候选者结果字段所匹配的术语的相对重要性(例如,匹配的术语的数量^2/(查询中的术语数量*字段中的术语数量)、由查询和成员嵌入的乘积所创建的所生成的亲密分数(搜索查询与候选者结果之间的相似度);原始查询和候选者结果针对学校的匹配特征;针对当前职位总数除以过去职位总数的BM25;如果查询是示例工作发布,候选者在来自雇佣搜索者的公司的广告上的点击;工作发布中的字段与候选者结果中的字段之间的相似度;候选者结果与用在线学习的权重加权的查询术语之间的相似度分数;以及针对头衔、技能、公司、和学习领域的深度嵌入特征。
搜索者/结果特征是从搜索者和候选者结果的组合中拉取的特征,例如网络距离(在搜索者和候选者结果之间的社交网络分离程度)、常见连接的数量、位置匹配、匹配的字段的数量(例如,当前的公司、过去的公司、学校、行业)、匹配分数(匹配数量的平方除以搜索者字段大小与结果字段大小的乘积)、招聘人员-候选者亲密度分数(使用例如用于在搜索者和候选者结果之间发送和接收的历史数据)、公共分组的数量、以及公司兴趣分数。
可以从许多不同的潜在的有监督或无监督的机器学习算法中选择第一、第二、和第三学习算法。有监督的学习算法的示例包括人工神经网络、贝叶斯网络、基于实例的学习、支持向量机、随机森林、线性分类器、二次分类器、k-最近邻算法、决策树、其他树模型、以及隐藏Markov模型。无监督的学习算法的示例包括期望最大化算法、向量量化、以及信息瓶颈方法。在示例实施例中,使用二进制逻辑回归模型。二进制逻辑回归处理在针对独立变量所观查到的结果可以仅具有两种可能的类型的情况。逻辑回归用于基于独立变量(预测器)的值来预测一种情况或另一情况为真的可能性。在示例实施例中,机器学习算法可以是概率性的。
图5是示出了根据示例实施例的、用于在在线计算机系统中返回搜索结果的方法500的流程图。在训练阶段中,在操作502处,与多个采样成员标签以及关于由这些成员在社交网络服务上采取的动作的活动和使用信息一起取回社交网络服务的成员的多个采样成员简档。接着,针对多个采样成员简档中的第一和第二采样成员简档的每个组合而开始循环。在操作504处,第一采样成员简档、第二采样成员简档、以及关于由这些成员在社交网络服务上采取的动作的活动和使用信息被解析以提取第三组一个或多个特征以及第四组一个或多个特征。接着,在操作506处,采样成员标签和所提取的第三组特征被馈送到第一机器学习算法中,以训练第一机器学习模型输出具有第二采样成员简档的搜索者将选择与第一采样成员简档对应的潜在的搜索结果的概率。在操作508处,采样成员标签和所提取的第四组特征被馈送到第二机器学习算法中,以训练第二机器学习模型输出与第一采样成员简档对应的成员将响应来自具有第二采样成员简档的搜索者的通信的概率。在操作510处,确定了在多个采样成员简档中是否存在第一采样成员简档与第二采样成员简档的任何更多组合。如果存在,则该方法500针对第一采样成员简档与第二采样成员简档的下一组合而循环回操作504。
如果不存在,则训练阶段完成且运行时间阶段开始。在操作512处,响应于与搜索者对应的查询而取回多个候选者搜索结果。在操作514处,在社交网络服务中获得与搜索者对应的成员简档。接着,针对多个候选者搜索结果中的每个候选者搜索结果而开始循环。在操作516处,获得与候选者搜索结果对应的成员的活动和使用信息。在操作518处,候选者搜索结果、与候选者搜索结果相对应的成员的活动和使用信息、以及与搜索者对应的成员简档被解析以提取第一组一个或多个特征和第二组一个或多个特征。在操作520处,所提取的第一组一个或多个特征被馈送到第一机器学习模型中。在操作522处,所提取的第二组一个或多个特征被馈送到第二机器学习模型中。在操作524处,组合第一机器学习模型和第二机器学习模型的输出以形成针对所述候选者搜索结果的组合的概率。在操作526处,确定在多个候选者搜索结果中是否存在任何更多的候选者搜索结果。如果存在,则方法500针对下一个候选者搜索结果而循环回操作518。
如果不存在,则在操作528处,将多个候选者搜索结果按照其对应的组合的概率来排名。在操作530处,基于所述排名来返回多个候选者搜索结果中的一个或多个。
图6是示出了可以安装在上文所描述的设备中的任何一个或多个上的软件602的架构的框图600。图6仅是软件架构的非限制性示例,并且将理解的是,可以实现许多其他架构以促成在本文中所描述的功能。在各种实施例中,软件602是由诸如图7的包括处理器710、存储器730、以及输入/输出(I/O)组件750的机器700之类的硬件来实现的。在该示例架构中,可以将软件602概念化成层堆栈,其中每一层可以提供特定的功能。例如,软件602包括诸如操作系统604、库606、框架608、以及应用610之类的层。在操作上,与一些实施例一致,应用610通过软件栈发起API调用612并且响应于API调用612而接收消息614。
在各种实现中,操作系统604管理硬件资源并提供公共服务。操作系统604包括例如内核620、服务622、和驱动器624。与一些实施例一致,内核620充当在硬件与其他软件层之间的抽象层。例如,内核620提供存储器管理、处理器管理(例如,调度)、组件管理、联网、以及安全性设置,此外还有其他功能。服务622可以提供针对其他软件层的其他公共服务。根据一些实施例,驱动器624负责控制或者与底层硬件交互。例如,驱动器624可以包括显示驱动器、相机驱动器、或/>低能量驱动器、闪速存储器驱动器、串行通信驱动器(例如,通用串行总线(USB)驱动器)、/>驱动器、音频驱动器、功率管理驱动器等。
在一些实施例中,库606提供由应用610利用的低等级的公共基础设施。库606可以包括可以提供诸如存储器分配功能、字符串操纵功能、数学功能等之类的功能的系统库630(例如,C标准库)。另外地,库606可以包括API库632,例如媒体库(例如,用于支持诸如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图象专家组(JPEG或JPG)、或便携网络图形(PNG)之类的各种媒体格式的呈现和操纵的库)、图形库(例如,用于在显示器上在图形内容中以二维(2D)和三维(3D)渲染的OpenGL框架)、数据库库(例如,用于提供各种关系数据库功能的SQLite)、网络库(例如,用于提供网页浏览功能的WebKit)等。库606还可以包括用于向应用610提供许多其他API的多种库634。
根据一些实施例,框架608提供了可以由应用610利用的高等级的公共基础设施。例如,框架608提供了各种图形用户界面(GUI)功能、高等级资源管理、高等级位置服务等。框架608可以提供能够由应用610利用的广谱的其他应用,其中一些可以特定于特定的操作系统或平台。
在示例实施例中,应用610包括家庭应用650、联系人应用652、浏览器应用654、书阅读器应用656、位置应用658、媒体应用660、消息传送应用662、游戏应用664、以及诸如第三方应用666之类的其他应用的宽泛组合。根据一些实施例,应用610是执行在程序中所定义的功能的程序。可以采用各种编程语言来创建以多种方式构建的应用610中的一个或多个,所述语言例如面向对象的编程语言(例如,Objective-C、Java、或C++)或过程编程语言(例如,C或汇编语言)。在具体的示例中,第三方应用666(例如,由与特定平台的供应商不同的实体使用ANDROIDTM或IOSTM软件开发工具包(SDK)开发的应用)可以是在诸如IOSTM、ANDROIDTM、WINDOWSTM电话、或另一移动操作系统之类的移动操作系统上运行的移动软件。在该示例中,第三方应用666可以发起由操作系统604所提供的API调用612,以促成在本文中所描述的功能。
图7示出了根据示例实施例的、采用计算机系统的形式的机器700的图解表示,在该机器中可以执行一组指令以使得该机器执行在本文中所讨论的方法中的任何一个或多个方法。具体地,图7示出了采用计算机系统的示例形式的机器700的图解表示,在其内可以执行用于使得机器700执行在本文中所讨论的方法中的任何一个或多个方法的指令716(例如,软件、程序、应用、小应用程序、app、或其他可执行代码)。例如,指令716可以使得机器700执行图5的方法500。额外地或可替代地,指令716可以实现图1-5等。指令716将通用的、非编程的机器700转换成被编程为实行以所描述的方式描述和说明的功能的特定机器700。在可替代的实施例中,机器700操作成独立的设备或者可以耦合(例如,联网)至其他机器。在联网的部署中,机器700可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份操作,或在对等(或分布式)网络环境中作为对等机器。机器700可以包括但不限于服务器计算机、客户端计算机、PC、平板计算机、膝上型计算机、上网本、机顶盒(STB)、PDA、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可佩戴设备(例如,智能手表)、智能家庭设备(例如,智能装置)、其他智能设备、网络装置、网络路由器、网络交换器、网桥、或者能够按顺序或以者其他方式执行指令716(其指定要由机器700所采取的动作)的任何机器。此外,尽管仅示出了单个机器700,但是术语“机器”也应该包括单独或共同地执行指令716以执行在本文中所讨论的方法中的任何一个或多个方法的一系列机器700。
机器700可以包括处理器710、存储器730、以及I/O组件750,其可以被配置为例如经由总线702彼此进行通信。在示例实施例中,处理器710(例如,中央处理单元(CPU)、精减指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、射频集成电路(RFIC)、另一处理器、或其任何合适的组合)可以包括例如可以执行指令716的处理器712和处理器714。术语“处理器”意在包括多核处理器,其可以包括能够同时地执行指令的两个或更多个独立的处理器(有时被称为“核心”)。尽管图7示出了多个处理器710,但机器700可以包括具有单个核心的单个处理器、具有多个核心的单个处理器(例如,多核处理器)、具有单个核心的多个处理器、具有多个核心的多个处理器、或其任何组合。
存储器730可以包括主存储器732、静态存储器734、以及存储单元736,其全都可以例如经由总线702由处理器710访问。主存储器730、静态存储器734、以及存储单元736存储指令716,其实现在本文中所描述的任何一个或多个方法或功能。在由机器700对其执行期间,指令716还可以完全或部分地驻留在主存储器732内、静态存储器734内、存储单元736内、处理器710中的至少一个内(例如,处理器的高速缓存存储器内)、或者其任何合适的组合内。
I/O组件750可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量等的宽泛的多种组件。在特定机器中包括的具体I/O组件750将取决于机器的类型。例如,诸如移动电话之类的便携式机器将很可能包括触摸输入设备或其他这样的输入机制,尽管无终端服务器将很可能不包含这样的触摸输入设备。但将理解的是,I/O组件750可以包括在图7中没有示出的许多其他组件。为了简化以下的讨论,仅根据功能将I/O组件750分组,并且所述分组不进行限制。在各种示例实施例中,I/O组件750可以包括输出组件752和输入组件754。输出组件752可以包括视觉组件(例如,诸如等离子显示面板(PDP)之类的显示器、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪、或阴极射线管(CRT))、声学组件(例如,扬声器)、触觉组件(例如,振动电动机、电阻机制)、其他信号生成器等。输入组件754可以包括字母数字输入组件(例如,键盘、被配置为接收字母数字输入的触摸屏、光电键盘、或其他字母数字输入组件)、基于点的输入组件(例如,鼠标、触摸板、轨迹球、游戏操纵杆、运动传感器、或另一指针仪器)、触觉输入组件(例如,物理按钮、提供触摸或触摸手势的位置和/或力量的触摸屏、或其他触觉输入组件)、音频输入组件(例如,麦克风)等。
在另外的示例实施例中,I/O组件750还可以包括生物计量组件756、运动组件758、环境组件760、或位置组件762,此外还有大量其他组件。例如,生物计量组件756可以包括用于检测表达(例如,手表达、脸表达、语音表达、身体姿势、或眼睛跟踪)、测量生物信号(例如,血压、心率、身体温度、出汗、或脑波)、识别人(例如,语音识别、视网膜识别、脸部识别、指纹识别、或基于脑电图的识别)等的组件。运动组件758可以包括加速度传感器组件(例如,加速度计)、重力传感器组件、旋转传感器组件(例如,陀螺仪)等。环境组件760可以包括例如照度传感器组件(例如,光度计)、温度传感器组件(例如,检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如,气压计)、声学传感器组件(例如,检测背景噪声的一个或多个麦克风)、临近度传感器组件(例如,检测附近对象的红外线传感器)、气体传感器(例如,为了安全性而检测危险气体浓度或用于测量大气中的污染物的气体检测传感器)、或可以提供与周围物理环境对应的指示、测量、或信号的其他组件。位置组件762可以包括位置传感器组件(例如,GPS接收器组件)、高度传感器组件(例如,高度计或检测从其可以导出高度的气压的气压计)、方向传感器组件(例如,磁强计)等。
可以使用宽泛的多种技术来实现通信。I/O组件750可以包括可操作以分别经由耦合782和耦合772而将机器700耦合至网络780或设备770的通信组件764。例如,通信组件764可以包括用于与网络780接合的网络接口组件或另一合适的设备。在另外的示例中,通信组件764可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、组件(例如,/>低能量)、/>组件、以及用于经由其他模态来提供通信的其他通信组件。设备770可以是另一机器或者宽泛的多种外围设备(例如,经由USB耦合的外围设备)中的任何一个。
此外,通信组件764可以检测标识符或者包括可用于检测标识符的组件。例如,通信组件764可以包括射频识别(RFID)标签阅读器组件、NFC智能标签检测组件、光学阅读器组件(例如,用于检测诸如通用产品码(UPC)条形码之类的一维条形码,诸如快速响应(QR)码、Aztec码、数据矩阵、Dataglyph、MaxiCode、PDF417、超级码、UCC-RSS-2D条形码、以及其他光学码之类的多维条形码的光学传感器)、或声学检测组件(例如,用于识别被标记的音频信号的麦克风)。另外,可以经由通信组件764来导出多种信息,例如经由互联网协议(IP)地理位置的位置、经由信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。
可执行指令和机器存储介质
各种存储器(即,730、732、734、和/或处理器710的存储器)和/或存储单元736可以存储实现在本文中描述的任何一个或多个方法或功能或由在本文中描述的任何一个或多个方法或功能使用的一组或多组指令和数据结构(例如,软件)。这些指令(例如,指令716),当由处理器710执行时,使得各种操作实现所公开的实施例。
如在本文中所使用的,术语“机器存储介质”、“设备存储介质”、“计算机存储介质”指的是相同的事物并且在本公开中能够可互换地使用。术语指的是存储可执行指令和/或数据的单个或多个存储设备和/或介质(例如,集中式或分布式数据库、和/或相关联的高速缓存和服务器)。因此,术语应该包括但不限于固态存储器、以及光学和磁性介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括非易失性存储器,其作为示例而包括半导体存储设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA、以及闪速存储器设备;诸如内部硬盘和可移动盘之类的磁盘;磁光盘;以及CD-ROM和DVD-ROM盘。特别地,术语“机器存储介质”、“计算机存储介质”、和“设备存储介质”将载波、调制数据信号、以及其他这样的介质排除在外,上述中的至少一些被涵盖在下文讨论的术语“信号介质”之下。
传输介质
在各种示例实施例中,网络780的一个或多个部分可以是自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、互联网、互联网的一部分、PSTN的一部分、普通老旧式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、另一类型的网络、或两个或更多这样的网络的组合。例如,网络780或网络780的一部分可以包括无线或蜂窝网络,而耦合782可以是码分多址(CDMA)连接、全球移动通信(GSM)连接系统、或另一类型的蜂窝或无线耦合。在该示例中,耦合782可以实现多种类型的数据传输技术中的任何一种,例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、用于GSM演进的增强型数据速率(EDGE)技术、包含3G的第三代合作伙伴项目(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他技术、其他远距协议、或其他数据传输技术。
可以经由网络接口设备(例如,在通信组件764中包括的网络接口组件)使用传输介质并利用多种公知传输协议(例如,HTTP)中的任何一个来在网络780上发送或接收指令716。类似地,可以经由至设备770的耦合772(例如,对等耦合)来使用传输介质发送或接收指令716。术语“传输介质”和“信号介质”指的是相同的事物并且能够在本公开中可互换地使用。术语“传输介质”和“信号介质”应该包括能够存储、编码、或运送用于由机器700执行的指令716的任何无形介质,且包括数字或模拟通信信号或促成这样的软件的通信的其他无形介质。因此,术语“传输介质”和“信号介质”应当包括任何形式的调制数据信号、载波等。术语“调制数据信号”指的是使其特征中的一个或多个以将信息编码到信号中的方式设置或改变的信号。
计算机可读介质
术语“机器可读介质”、“计算机可读介质”和“设备可读介质”指的是相同的事物并且在本公开中能够可互换地使用。上述术语被定义成包括机器存储介质和传输介质。因此,上述术语包括存储设备/介质和载波/调制数据信号两者。

Claims (20)

1.一种用于在在线计算机系统中返回搜索结果的系统,所述系统包括:
具有存储在其上的指令的非暂时性计算机可读介质,所述指令当由处理器执行时,使得所述系统执行以下操作:
响应于与第一搜索者相对应的查询而获得多个潜在的搜索结果;
在社交网络服务中,获得与所述第一搜索者相对应的第一成员简档;
针对来自所述多个潜在的搜索结果的每个潜在的搜索结果:
获得与所述潜在的搜索结果相对应的成员的活动和使用信息;
解析所述潜在的搜索结果、与所述潜在的搜索结果相对应的所述成员的所述活动和使用信息、以及与所述第一搜索者相对应的所述第一成员简档,以提取第一组一个或多个特征以及第二组一个或多个特征;
将所提取的第一组一个或多个特征馈送到第一机器学习模型中,所述第一机器学习模型被训练为输出具有成员简档的搜索者将选择搜索结果的概率;
将所提取的第二组一个或多个特征馈送到第二机器学习模型中,所述第二机器学习模型被训练为输出与所述搜索结果相对应的成员将响应来自搜索者的通信的概率;
将所述第一机器学习模型的输出和所述第二机器学习模型的输出进行组合,以形成针对所述潜在的搜索结果的组合概率;
按照其对应的组合概率来将所述多个潜在的搜索结果排名;以及
基于该排名来返回所述多个潜在的搜索结果中的一个或多个潜在的搜索结果。
2.根据权利要求1所述的系统,其中,所述指令还使得所述系统执行以下操作:
取回所述社交网络服务的成员的多个采样成员简档、多个采样成员标签、以及与由这些成员在所述社交网络服务上采取的动作有关的活动和使用信息;
针对所述多个采样成员简档中的第一采样成员简档和第二采样成员简档的每个组合:
解析所述第一采样成员简档、所述第二采样成员简档、以及与由这些成员在所述社交网络服务上采取的动作有关的所述活动和使用信息,以提取第三组一个或多个特征和第四组一个或多个特征;
将采样成员标签和所提取的第三组特征馈送到第一机器学习算法中,以训练所述第一机器学习模型输出具有所述第二采样成员简档的搜索者将选择与所述第一采样成员简档相对应的潜在的搜索结果的概率;以及
将采样成员标签和所提取的第四组特征馈送到第二机器学习算法中,以训练所述第二机器学习模型输出与所述第一采样成员简档相对应的成员将响应来自具有所述第二采样成员简档的搜索者的通信的概率。
3.根据权利要求1所述的系统,其中,所述第一组特征与所述第二组特征是相同的。
4.根据权利要求2所述的系统,其中,所述第三组特征与所述第四组特征是相同的。
5.根据权利要求1所述的系统,其中,所述将输出进行组合包括将分别的权重应用至所述第一机器学习模型的所述输出和所述第二机器学习模型的所述输出。
6.根据权利要求5所述的系统,其中,所述权重是基于关于所述搜索者的信息而动态地确定的。
7.根据权利要求5所述的系统,其中,所述权重是使用第三机器学习算法来确定的。
8.一种用于在在线计算机系统中返回搜索结果的计算机实现的方法,所述方法包括:
响应于与第一搜索者相对应的查询而获得多个潜在的搜索结果;
在社交网络服务中,获得与所述第一搜索者相对应的第一成员简档;
针对来自所述多个潜在的搜索结果的每个潜在的搜索结果:
获得与所述潜在的搜索结果相对应的成员的活动和使用信息;
解析所述潜在的搜索结果、与所述潜在的搜索结果相对应的所述成员的所述活动和使用信息、以及与所述第一搜索者相对应的所述第一成员简档,以提取第一组一个或多个特征以及第二组一个或多个特征;
将所提取的第一组一个或多个特征馈送到第一机器学习模型中,所述第一机器学习模型被训练为输出具有成员简档的搜索者将选择搜索结果的概率;
将所提取的第二组一个或多个特征馈送到第二机器学习模型中,所述第二机器学习模型被训练为输出与所述搜索结果相对应的成员将响应来自搜索者的通信的概率;
将所述第一机器学习模型的输出和所述第二机器学习模型的输出进行组合,以形成针对所述潜在的搜索结果的组合概率;
按照其对应的组合概率来将所述多个潜在的搜索结果排名;以及
基于该排名来返回所述多个潜在的搜索结果中的一个或多个潜在的搜索结果。
9.根据权利要求8所述的方法,还包括:
取回所述社交网络服务的成员的多个采样成员简档、多个采样成员标签、以及与由这些成员在所述社交网络服务上采取的动作有关的活动和使用信息;
针对所述多个采样成员简档中的第一采样成员简档和第二采样成员简档的每个组合:
解析所述第一采样成员简档、所述第二采样成员简档、以及与由这些成员在所述社交网络服务上采取的动作有关的所述活动和使用信息,以提取第三组一个或多个特征和第四组一个或多个特征;
将采样成员标签和所提取的第三组特征馈送到第一机器学习算法中,以训练所述第一机器学习模型输出具有所述第二采样成员简档的搜索者将选择与所述第一采样成员简档相对应的潜在的搜索结果的概率;以及
将采样成员标签和所提取的第四组特征馈送到第二机器学习算法中,以训练所述第二机器学习模型输出与所述第一采样成员简档相对应的成员将响应来自具有所述第二采样成员简档的搜索者的通信的概率。
10.根据权利要求8所述的方法,其中,所述第一组特征与所述第二组特征是相同的。
11.根据权利要求9所述的方法,其中,所述第三组特征与所述第四组特征是相同的。
12.根据权利要求8所述的方法,其中,所述将输出进行组合包括将分别的权重应用至所述第一机器学习模型的所述输出和所述第二机器学习模型的所述输出。
13.根据权利要求12所述的方法,其中,所述权重是基于关于所述搜索者的信息而动态地确定的。
14.根据权利要求12所述的方法,其中,所述权重是使用第三机器学习算法来确定的。
15.一种包括指令的非瞬时性机器可读存储介质,所述指令当由一个或多个机器实现时,使得所述一个或多个机器执行以下操作,包括:
响应于与第一搜索者相对应的查询而获得多个潜在的搜索结果;
在社交网络服务中,获得与所述第一搜索者相对应的第一成员简档;
针对来自所述多个潜在的搜索结果的每个潜在的搜索结果:
获得与所述潜在的搜索结果相对应的成员的活动和使用信息;
解析所述潜在的搜索结果、与所述潜在的搜索结果相对应的所述成员的所述活动和使用信息、以及与所述第一搜索者相对应的所述第一成员简档,以提取第一组一个或多个特征以及第二组一个或多个特征;
将所提取的第一组一个或多个特征馈送到第一机器学习模型中,所述第一机器学习模型被训练为输出具有成员简档的搜索者将选择搜索结果的概率;
将所提取的第二组一个或多个特征馈送到第二机器学习模型中,所述第二机器学习模型被训练为输出与所述搜索结果相对应的成员将响应来自搜索者的通信的概率;
将所述第一机器学习模型的输出和所述第二机器学习模型的输出进行组合,以形成针对所述潜在的搜索结果的组合概率;
按照其对应的组合概率来将所述多个潜在的搜索结果排名;以及
基于该排名来返回所述多个潜在的搜索结果中的一个或多个潜在的搜索结果。
16.根据权利要求15所述的非瞬时性机器可读存储介质,还包括:
取回所述社交网络服务的成员的多个采样成员简档、多个采样成员标签、以及与由这些成员在所述社交网络服务上采取的动作有关的活动和使用信息;
针对所述多个采样成员简档中的第一采样成员简档和第二采样成员简档的每个组合:
解析所述第一采样成员简档、所述第二采样成员简档、以及与由这些成员在所述社交网络服务上采取的动作有关的所述活动和使用信息,以提取第三组一个或多个特征和第四组一个或多个特征;
将采样成员标签和所提取的第三组特征馈送到第一机器学习算法中,以训练所述第一机器学习模型输出具有所述第二采样成员简档的搜索者将选择与所述第一采样成员简档相对应的潜在的搜索结果的概率;以及
将采样成员标签和所提取的第四组特征馈送到第二机器学习算法中,以训练所述第二机器学习模型输出与所述第一采样成员简档相对应的成员将响应来自具有所述第二采样成员简档的搜索者的通信的概率。
17.根据权利要求15所述的非瞬时性机器可读存储介质,其中,所述第一组特征与所述第二组特征是相同的。
18.根据权利要求16所述的非瞬时性机器可读存储介质,其中,所述第三组特征与所述第四组特征是相同的。
19.根据权利要求15所述的非瞬时性机器可读存储介质,其中,所述将输出进行组合包括将分别的权重应用至所述第一机器学习模型的所述输出和所述第二机器学习模型的所述输出。
20.根据权利要求19所述的非瞬时性机器可读存储介质,其中,所述权重是基于关于所述搜索者的信息而动态地确定的。
CN201811258860.XA 2017-10-30 2018-10-26 针对搜索结果的因素化模型和基于搜索结果的通信 Active CN109740045B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/797,624 US10860670B2 (en) 2017-10-30 2017-10-30 Factored model for search results and communications based on search results
US15/797624 2017-10-30

Publications (2)

Publication Number Publication Date
CN109740045A CN109740045A (zh) 2019-05-10
CN109740045B true CN109740045B (zh) 2023-09-15

Family

ID=66243978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811258860.XA Active CN109740045B (zh) 2017-10-30 2018-10-26 针对搜索结果的因素化模型和基于搜索结果的通信

Country Status (2)

Country Link
US (1) US10860670B2 (zh)
CN (1) CN109740045B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678997B2 (en) * 2017-10-05 2020-06-09 Microsoft Technology Licensing, Llc Machine learned models for contextual editing of social networking profiles
US10685183B1 (en) * 2018-01-04 2020-06-16 Facebook, Inc. Consumer insights analysis using word embeddings
US11431769B2 (en) * 2018-04-26 2022-08-30 Slack Technologies, Llc Systems and methods for managing distributed client device membership within group-based communication channels
US11463441B2 (en) 2018-05-24 2022-10-04 People.ai, Inc. Systems and methods for managing the generation or deletion of record objects based on electronic activities and communication policies
US10565229B2 (en) 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
US11924297B2 (en) 2018-05-24 2024-03-05 People.ai, Inc. Systems and methods for generating a filtered data set
US11397742B2 (en) 2019-06-21 2022-07-26 Microsoft Technology Licensing, Llc Rescaling layer in neural network
US11204968B2 (en) * 2019-06-21 2021-12-21 Microsoft Technology Licensing, Llc Embedding layer in neural network for ranking candidates
US11484800B2 (en) 2020-12-31 2022-11-01 GGWP, Inc. Methods and systems for filtering content in reconstructions of native data of assets
US11763030B2 (en) 2020-12-31 2023-09-19 GGWP, Inc. Methods and systems for generating multimedia content based on processed data with variable privacy concerns
US10997494B1 (en) * 2020-12-31 2021-05-04 GGWP, Inc. Methods and systems for detecting disparate incidents in processed data using a plurality of machine learning models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203724A (zh) * 2008-06-12 2011-09-28 加迪安分析有限公司 用于欺诈检测和分析的用户建模
CN103678394A (zh) * 2012-09-21 2014-03-26 孟露芳 基于肖像匹配度的婚恋交友推荐方法和系统
CN103890710A (zh) * 2011-08-05 2014-06-25 谷歌公司 过滤社交搜索结果
CN105393263A (zh) * 2013-07-12 2016-03-09 微软技术许可有限责任公司 计算机-人交互式学习中的特征完成
CN106062787A (zh) * 2014-01-30 2016-10-26 邻客音公司 用于电子邮件传输管理的系统和方法
US9569735B1 (en) * 2015-12-19 2017-02-14 Linkedin Corporation Member communication reply score calculation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100138402A1 (en) * 2008-12-02 2010-06-03 Chacha Search, Inc. Method and system for improving utilization of human searchers
US20160034853A1 (en) * 2014-07-31 2016-02-04 Linkedln Corporation Determining a user's latent preference
US10198512B2 (en) * 2015-06-29 2019-02-05 Microsoft Technology Licensing, Llc Search relevance using past searchers' reputation
US20170046732A1 (en) * 2015-08-14 2017-02-16 International Business Machines Corporation Training a machine to dynamically determine and communicate customized, product-dependent promotions with no or limited historical data over a network
US20190050813A1 (en) * 2017-08-08 2019-02-14 Linkedln Corporation Context aware dynamic candidate pool retrieval and ranking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203724A (zh) * 2008-06-12 2011-09-28 加迪安分析有限公司 用于欺诈检测和分析的用户建模
CN103890710A (zh) * 2011-08-05 2014-06-25 谷歌公司 过滤社交搜索结果
CN103678394A (zh) * 2012-09-21 2014-03-26 孟露芳 基于肖像匹配度的婚恋交友推荐方法和系统
CN105393263A (zh) * 2013-07-12 2016-03-09 微软技术许可有限责任公司 计算机-人交互式学习中的特征完成
CN106062787A (zh) * 2014-01-30 2016-10-26 邻客音公司 用于电子邮件传输管理的系统和方法
US9569735B1 (en) * 2015-12-19 2017-02-14 Linkedin Corporation Member communication reply score calculation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
在线社交网络挖掘与搜索技术研究;石磊等;《智能系统学报》;20161231;第11卷(第6期);第777-787页 *

Also Published As

Publication number Publication date
CN109740045A (zh) 2019-05-10
US20190130037A1 (en) 2019-05-02
US10860670B2 (en) 2020-12-08

Similar Documents

Publication Publication Date Title
CN109740045B (zh) 针对搜索结果的因素化模型和基于搜索结果的通信
US10678997B2 (en) Machine learned models for contextual editing of social networking profiles
US11250340B2 (en) Feature contributors and influencers in machine learned predictive models
US20190050750A1 (en) Deep and wide machine learned model for job recommendation
US11204968B2 (en) Embedding layer in neural network for ranking candidates
US11163845B2 (en) Position debiasing using inverse propensity weight in machine-learned model
US11204973B2 (en) Two-stage training with non-randomized and randomized data
US11397742B2 (en) Rescaling layer in neural network
CN110956253A (zh) 针对头衔标准化的与语言无关的机器学习模型
US10949480B2 (en) Personalized per-member model in feed
US11151661B2 (en) Feed actor optimization
US11334612B2 (en) Multilevel representation learning for computer content quality
US11514115B2 (en) Feed optimization
US20200104421A1 (en) Job search ranking and filtering using word embedding
CN110955840B (zh) 通知和推送的联合优化
US11194877B2 (en) Personalized model threshold
US20230077840A1 (en) Machine learning model for specialty knowledge base
US10423630B2 (en) Presenting a profile card relevant to a member of a social network
US11797619B2 (en) Click intention machine learned models
CN110895579B (zh) 具有树交互特征的实体级搜索模型
US11397924B1 (en) Debugging tool for recommendation systems
US20190095531A1 (en) Job flavor faceting
CN110858235B (zh) 热启动广义加性混合效应(game)框架
US11790037B1 (en) Down-sampling of negative signals used in training machine-learned model
US20230075600A1 (en) Neural network prediction using trajectory modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant