CN110956253A

CN110956253A - 针对头衔标准化的与语言无关的机器学习模型

Info

Publication number: CN110956253A
Application number: CN201910909805.0A
Authority: CN
Inventors: S·A·乔尔; U·默哈夫; D·沙查姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-09-26
Filing date: 2019-09-25
Publication date: 2020-04-03
Also published as: US20200097812A1; US11610109B2

Abstract

在示例实施例中，提供了一种系统，机器学习模型通过该系统被训练以预测针对给定原始头衔的标准化。可以训练一种神经网络，该神经网络的输入是原始头衔(例如，查询字符串)以及候选头衔列表(分类法中的头衔标识、或英语字符串)，其产生该原始头衔和每个候选头衔属于同一头衔的概率。该模型能够以在训练数据中包含的任何语言将头衔标准化，而无需首先对头衔进行语言识别或规范化。另外地，该模型能够受益于“外来词”(从外语中采用的词，其具有很少或没有修改)的存在以及语言之间的关系。

Description

针对头衔标准化的与语言无关的机器学习模型

技术领域

本公开内容一般涉及用于解决在分析社交网络中的分类数据时的技术挑战的计算机技术。更加具体地，本公开涉及用于针对标准化的与语言无关的机器学习模型。

背景技术

互联网的兴起引发了两种截然不同的现象：社交网络的出现的增加，其中，其对应的成员简档对大量人可见；以及使用这些社交网络来执行针对人员和公司的搜索的增加。基于各种分类法中的实体来将成员(例如，个人或公司)简档的各种属性标准化是很常见的。例如，可以为公司列出一个行业，其中，该行业是从行业分类法中的多个条目(即由社交网络服务保存的数据结构)中选择的。该行业分类法可以包括可能的行业的层级组织。例如，行业分类法中的“信息技术”行业类别可以具有“计算机软件”、“计算机硬件”、和“计算机网络”的子类别。行业分类法可以将所述子类别组织成与“信息技术”父节点相对应的子节点。在行业分类法中可以存在许多层类别和子类别。

当然，行业只是能够被分配给分类法中的实体的成员属性的一个示例。其他的示例包括职位头衔、学校、技能等。常常用于分析候选项和职业的一个重要的成员属性是职位头衔(或者更简单地说，只是“头衔”)。头衔的标准化对分析是重要的，因为某些头衔可能听起来很类似，但又非常不同(例如，“软件工程师”与火车工程师是非常不同的工作，火车工程师通常仅被称为“工程师”)。

另外地，用户可能来自世界各地，并且在用许多不同的语言中的一种来键入他们的头衔。用于将头衔标准化的许多模型依赖于将复杂头衔分解成带有含义的单个词语的能力。例如，在英语中，“software engineer(软件工程师)”由两个单独的词语组成，每个词语带有不同的含义。然而，其他语言不以该方式来分隔词语。例如，在德语中，针对“softwareengineer”的术语可能是“Softwareentwickler”，这是因为德语中有所谓的“复合名词”。诸如中文之类的语言在词语之间没有空格。当然，即使是英语有时也会有复合名词(例如，bedroom(卧室))，但它们在英语中比在其他语言中要少得多。

针对每种语言使用不同的模型会产生的技术问题在于，针对头衔的任何给定语言的数据可能都不足以提供可靠的结果。因此，在试图标准化采用另一种语言的术语时，能够利用在一种语言中了解到的术语的某些方面在技术上是有利的。

附图说明

作为示例而非限制，在附图的图中示出了本技术的一些实施例。

图1是示出了根据示例实施例的客户端-服务器系统的框图。

图2是示出了与本公开的一些实施例一致的社交网络服务的功能性组件的框图，所述功能性组件包括在本文中被称为搜索引擎的数据处理模块，其在生成和提供针对搜索查询的搜索结果时使用。

图3是更加详细地示出了根据示例实施例的应用服务器模块的框图。

图4是更加详细地示出了根据示例实施例的机器学习组件的框图。

图5是示出了根据示例实施例的深度卷积神经网络(DCNN)的图。

图6是示出了根据示例实施例的方法的流程图。

图7是示出了软件架构的框图，该软件架构可以被安装在上文所描述的设备中的一个或多个上。

图8示出了根据示例实施例的采用计算机系统的形式的机器的图解表示，在该计算机系统中，可以执行一组指令以使得机器执行在本文中所讨论的方法中的任何一个或多个方法。

具体实施方式

概述

本公开描述了单独地提供各种功能的方法、系统、和计算机程序产品等。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对本公开的不同实施例的各个方面的透彻理解。然而，对本领域的技术人员将显而易见的是，可以在没有所有这些具体细节的情况下实践本公开。

在示例实施例中，提供了一种系统，机器学习模型通过该系统被训练以预测针对给定原始头衔的标准化。可以训练一种神经网络，该神经网络的输入是原始头衔(例如，查询字符串)以及候选头衔的列表(分类法中的头衔标识、或英语字符串)，其产生该查询和每个候选项属于同一头衔的概率。该模型能够将在训练数据中包括的任何语言标准化，而无需首先对头衔进行语言识别或规范化。另外地，该模型能够受益于“外来词”(从外语中采用的词，其具有很少或没有修改)的存在以及语言之间的关系。

因为模型只考虑“分类法”候选项(即，在针对头衔的分类法或规范名称(例如，英文名称)中的头衔标识)，没有必要使用任何给定的语言来完成分类法。例如，模型能够在没有将Kaskadeur作为针对德语“特技演员”的别名添加至分类法中的情况下，了解到Kaskadeur是特技演员。找到经标记的训练数据是非常具有挑战性的，并且分类法上的差距可能会加剧该问题；因此，学习这样的关系的能力在技术上是有价值的。

不需要规范化，因为这样的规范化是高度依赖于语言的。为了简化问题，所有的头衔都可以转换为小写，但是由于该方面是与语言无关的，结果是系统不需要提前知道被馈送至模型的语言。

图1是示出了根据示例实施例的客户端-服务器系统100的框图。联网系统102经由网络104(例如，互联网或广域网(WAN))向一个或多个客户端提供服务器侧功能。图1示出了例如在相应的客户端机器110和112上执行的web客户端106(例如，浏览器)和程序化客户端108。

应用编程接口(API)服务器114和web服务器116耦合至一个或多个应用服务器118，并且向一个或多个应用服务器118分别提供程序化和web接口。应用服务器118托管一个或多个应用120。应用服务器118进而被示出为耦合至促进对一个或多个数据库126的访问的一个或多个数据库服务器124。尽管在图1中示出了应用120以形成联网系统102的一部分，但应当意识到，在可替代的实施例中，应用120可以形成与联网系统102分离且不同的服务的一部分。

此外，尽管图1中示出的客户端-服务器100采用客户端-服务器架构，但是本公开当然不限于这样的架构，并且可以同样好地在例如分布式或对等架构系统中找到应用。各种应用120也可以实现为不一定具有网络化能力的独立的软件程序。

Web客户端106经由web服务器116所支持的web接口来访问各种应用120。类似地，程序化客户端108经由API服务器114所提供的程序化接口来访问由应用120提供的各种服务和功能。

图1还将在第三方服务器130上执行的第三方应用128示出为能够经由API服务器114所提供的编程接口来对联网系统102进行程序化访问。例如，第三方应用128可以利用从联网系统102获得的信息来支持由第三方托管的网站上的一个或多个特征或功能。例如，第三方网站可以提供由联网系统102的相关应用120所支持的一个或多个功能。

在一些实施例中，在本文中所提及的任何网站可以包括能够在多种设备上渲染的在线内容，所述设备包括但不限于台式个人计算机(PC)、膝上型计算机、和移动设备(例如，平板计算机、智能电话等)。就这一点而言，用户可以采用这些设备中的任何设备来使用本公开的特征。在一些实施例中，用户可以使用移动设备(客户端机器110、112和第三方服务器130中的任何一个可以是移动设备)上的移动app(应用)来访问和浏览在线内容，例如在本文中所公开的在线内容中的任何内容。移动服务器(例如，API服务器114)可以与移动app和应用服务器118进行通信，以便使得本公开的特征在移动设备上可用。

在一些实施例中，联网系统102可以包括社交网络服务的功能性组件。图2是示出了与本公开的一些实施例一致的社交网络服务的功能性组件的框图，所述功能性组件包括在本文中称为搜索引擎216的数据处理模块，其在生成和提供搜索查询的搜索结果时使用。在一些实施例中，搜索引擎216可以驻留在图1中的应用服务器118上。然而，可以预期的是，其他配置也在本公开的范围内。

如在图2中所示出的，前端可以包括用户接口模块(例如，web服务器116)212，其从各种客户端计算设备接收请求并且将合适的回应传送至进行请求的客户端设备。例如，用户接口模块212可以接收采用超文本传输协议(HTTP)请求或者其他基于网络的API请求的形式的请求。另外，可以提供成员交互检测模块213以检测用户与不同应用120、服务、和所呈现的内容所进行的各种交互。如在图2中所示出的，在检测到具体的交互后，成员交互检测模块213将该交互记录在成员活动和行为数据库222中，包括该交互的类型以及与该交互相关的任何元数据。

应用逻辑层可以包括一个或多个各种应用服务器模块214，其结合用户接口模块212利用从数据层中的各种数据源获得的数据来生成各种用户接口(例如，网页)。在一些实施例中，个体的应用服务器模块214用于实现与由社交网络服务所提供的各种应用120和/或服务相关联的功能。

如在图2中所示出的，数据层可以包括几个数据库，例如用于存储简档数据的简档数据库218，其包括成员简档数据和各种组织(例如，公司、学校等)的简档数据两者。与一些实施例一致，当一个人最初注册成为社交网络服务的用户时，将提示这个人提供一些个人信息，例如他或她的名字、年龄(例如，生日)、性别、兴趣、联系人信息、家乡、地址、配偶和/或家庭成员的名字、教育背景(例如，学校、专业、入学和/或毕业日期等)、雇佣历史、技能、专业组织等。该信息例如被存储在简档数据库218中。类似地，当组织的代表最初向社交网络服务注册该组织时，可以提示该代表提供关于该组织的某些信息。该信息可以例如被存储在简档数据库218或另一数据库(未示出)中。在一些实施例中，可以处理简档数据(例如，在后台或离线地)以生成各种导出的简档数据。例如，如果成员已经提供了与该成员在同一组织或不同组织中具有的各种职位头衔、以及持续了多久有关的信息，该信息可以用于推断或导出指示该成员的整体资历水平、或者在特定组织内的资历水平的成员简档属性。在一些实施例中，从一个或多个外部托管的数据源导入数据或者以其他方式访问数据可以丰富用户和组织两者的简档数据。例如，特别是对于组织而言，可以从一个或多个外部数据源导入财务数据，并将其作为组织的简档的一部分。之后将在该文档中更加详细地描述对组织数据的该导入和对数据的丰富。

一旦经注册，成员就可以邀请其他成员，或者被其他的成员邀请以经由该社交网络服务进行连接。“连接”可以构成成员的双边协议，以使得双方成员确认连接的建立。类似地，在一些实施例中，成员可以选择“关注”另一成员。与建立连接相比，“关注”另一成员通常是单边操作，并且至少在一些实施例中不需要由被关注的成员进行确认或批准。当一个成员关注另一成员时，在进行关注的成员可以接收由被关注的成员发布的状态更新(例如，在活动或内容流中)或者其他消息，或者与由正被关注的成员从事的各种活动相关。类似地，当成员关注组织时，该成员变得有资格接收代表该组织发布的消息或状态更新。例如，代表成员正在关注的组织发布的消息或状态更新将出现在该成员个性化的数据馈送中，其一般被称为活动流或内容流。在任何情况下，成员与其他成员或与其他实体和对象建立的各种关联和关系被存储并且被保存在社交图数据库220中的社交图内。

当成员与经由社交网络服务可获得的各种应用120、服务、和内容交互时，可以跟踪该成员的交互和行为(例如，所查看的内容、所选择的链接或按钮、所回应的消息等)，并且与该成员的活动和行为相关的信息可以被例如如在图2中所指示的成员活动和行为数据库222记录或存储。接着，可以由搜索引擎216使用该记录的活动信息来确定针对搜索查询的搜索结果。

在一些实施例中，数据库218、220、和222可以被并入到图1中的数据库126中。然而，其他配置也在本公开的范围之内。

尽管未示出，但在一些实施例中，社交网络服务系统210提供了API模块，经由该API模块，应用120和服务可以访问由社交网络服务所提供或保存的各种数据和服务。例如，使用API，应用120能够请求和/或接收一个或多个导航推荐。这样的应用120可以是基于浏览器的应用120，或者可以是特定于操作系统的。特别地，一些应用120可以在具有移动操作系统的一个或多个移动设备(例如，电话或平板计算设备)上驻留和执行(至少部分地)。此外，尽管在许多情况下，利用API的应用120或服务可以是由操作社交网络服务的实体开发和保存的应用120和服务，但在特殊的布置下，除了数据隐私问题之外没有什么可以阻止该API被提供给公众或某些第三方，由此使得所述导航推荐能够由第三方应用128和服务可用。

尽管搜索引擎216在本文中被认为是在社交网络服务的上下文中使用的，但可以预期的是，其也可以在任何网站或在线服务的上下文中被采用。另外地，尽管本公开的特征在本文中被认为是在网页的上下文中被使用或呈现的，但可以预期的是，任何用户界面视图(例如，移动设备或台式机软件上的用户界面)都在本公开的范围之内。

在示例实施例中，当将成员简档编入索引时，创建并存储前向搜索索引。搜索引擎216促进针对社交网络服务内的内容的索引和搜索，例如针对包含在数据层中的数据或信息的索引和搜索，所述数据或信息例如简档数据(例如，存储在简档数据库218中)、社交图数据(例如，存储在社交图数据库220中)、以及用户活动和行为数据(例如，存储在成员活动和行为数据库222中)以及职位发布。搜索引擎216可以收集、解析、和/或存储索引或其他类似结构中的数据，以促进响应于所接收的针对信息的查询而对信息的识别和获得。这可以包括但不限于前向搜索索引、反向索引、N元文法索引等。

图3是更加详细地示出了图2中的应用服务器模块214。尽管在许多实施例中，应用服务器模块214将包含许多子组件，所述子组件用于在社交网络系统210中执行各种不同的操作，但在图3中，仅描绘了与本公开相关的组件。在这里，实体获取组件300从数据库305获取实体。例如，这可以包括导入现有分类法。实体一旦提取，就被传递至深层表示形式组件310，该组件用于形成实体的深层表示335，如之后将更详细地描述的。这可以包括使用机器学习组件330。实体的深层表示335一旦被形成，就可以被存储在数据库340中。在一些实施例中，数据库305和数据库340是单个数据库。

在示例实施例中，可以映射至社交网络中的分类法的每个实体都可以被映射至一个向量(任意空间中的点)。该映射可以被称为嵌入。该向量可以包含任何数量的维度。在示例实施例中，每个实体嵌入至具有128维的向量。这意味着每个实体都映射至一组128个坐标。“任意”意味着每个维度本身没有意义；它们只是可以通过其测量实体之间距离的机制。针对每个向量的具体初始值可以被随机指定，并且通过机器学习优化过程可以反复改变初始值，直到特定目标得到优化为止。应当注意的是，选择至少尽可能多的维度是期望的，因为有许多目标需要解决；然而，这不是必需的。

应当注意的是，如在本文中所描述的实体是社交网络中的经标准化的数据的具体实例。通常而言，这些实体将包括在能够被标准化的成员简档中提供的数据片段。社交网络简档中的常见实体包括头衔、行业、地点、技能、喜好、厌恶、就读学校等。某些类型的数据较不可能被标准化，例如，名称、出版物等。

在示例实施例中，使用一个或多个机器学习算法来帮助优化在实体的深层表示中使用的嵌入。经由这些机器学习算法训练的模型中的一些通常适用于任何类型的实体，而其他模型可以适用于特定类型的实体。出于本文档的目的，将仅描述用于训练机器学习模型以标准化头衔的机器学习算法。

图4是更详细地示出了根据示例实施例的机器学习组件330的框图。机器学习组件330可以利用机器学习过程得到预测模型400，其用于针对特定的预测提供置信度分数。确切的预测可以基于所选择的目标而有所不同。机器学习组件330可以包括训练组件402和置信度评分组件404。训练组件402将第一训练数据406(其包括例如原始头衔与头衔标识的经标记的对)馈送到机器学习算法413中，该算法生成预测模型400。在一些示例实施例中，这涉及机器学习算法413学习要应用于预测模型400的权重。之后，第二训练数据408也可以被馈送到机器学习算法413中，该算法预测模型400进行再次训练。例如，第二训练数据408可以包括例如被标记为原始头衔与技能的经标记的对。在置信度评分组件404中，一个或多个候选头衔414，以及一个或多个候选头衔标识416可以被馈送到预测模型400中，该模型输出针对一个或多个潜在的预测的置信度分数，以指示置对应的潜在的预测的置信度水平。

应当注意的是，预测模型400可以经由另外的训练和/或用户反馈420来定期更新。用户反馈420可以是来自执行搜索的成员的反馈或者来自管理员的反馈。用户反馈420可以包括对预测模型400在提供准确的置信度分数方面有多成功的指示。

机器学习算法413可以是从多种潜在的有监督或无监督机器学习算法中选择的。有监督学习算法的示例包括人工神经网络、贝叶斯网络、基于实例的学习、支持向量机、随机森林、线性分类器、二次分类器、k近邻、决策树、和隐马尔可夫模型。无监督学习算法的示例包括期望最大化算法、向量量化、和信息瓶颈方法。在一个示例实施例中，使用了多类逻辑回归模型。

如上所述，训练组件402可以以离线方式操作，以训练预测模型400。然而，置信度评分组件404可以设计为以离线方式或者在线方式操作。

第一训练数据406可以被标记为训练数据。该经标记的训练数据可以从分类法本身(作为头衔到头衔标识的映射)、双语成员简档、机器翻译、和类似于分类法字符串的头衔中获得。双语简档是用多种语言创建的成员的简档(通常由成员自己创建)。这些翻译通常具有高质量。机器翻译是将选择的一种语言的头衔馈送到机器翻译器以将它们翻译成另一种语言的输出。对于类似于分类法字符串的头衔，这是为了捕捉小拼写错误或拖尾(trailing)字母。由此，可以将每个头衔分解为一组三字母元，并且接着可以找到该原始头衔和分类法中的每个头衔之间的交集(intersection)。可以计算每对的交并比分数。例如：

A＝intersection_size/query_string_set_size

B＝intersection_size/candidate_string_set_size

Score＝3*A*B/(2*A+B)

(A和B之间的不对称是有意的)

此外，还可以使用头衔-技能对。头衔-技能对是特定原始头衔与技能或技能标识之间的映射。例如，通过该方式，Java的技能可以与“软件工程师”的头衔相关联。可以对成员当前的头衔和显式技能进行抽样以获得该数据。这些头衔-技能对作为额外输入被添加，并且学习哪些技能与每个头衔相关联允许机器学习算法调整原始头衔/头衔标识嵌入，以使得功能上相关的头衔被标准化为同一头衔标识，而所述头衔不一定在字符串等级上是类似的。

预测模型400的基本设计是取查询字符串(例如，原始头衔)和候选项(如，分类法头衔)列表，将每个头衔表示为一个矢量，并且接着将所述查询向量与每个候选项进行比较以产生一个分数，其中，分数最高的候选项是原始头衔被标准化至的候选项。

在示例实施例中，可以使用卷积神经网络来确定查询和候选表示。

原始头衔的向量化可以通过以下操作来实现：利用#将所有字符串填充到任意长度并且接着将每个原始头衔分割成三字母元的序列。例如，可以将“architect”填充为“#architect####”，其接着可以被转换为三字母元(#ar、arc、rch、chi、hit、ite、tec、ect、ct#、t##、t##、…)。然而，在某些实现中，这可能会导致处理瓶颈，并且严重限制图形处理单元(GPU)的利用。为了弥补这一瓶颈，可以替代地执行对单个字符的散列(hash)，其中假设字符共同位置所携带的信息将由利用窗口(1,3)的卷积来捕获。

现在转到机器学习算法413，在示例实施例中，使用了五种不同类型的层。前四层分别是卷积层、非线性层、池化层、和分类层(但分类只是后跟有softmax的卷积的一个特例)，这使得机器学习算法413成为深度卷积神经网络(DCNN)。这前四层可能被认为是一个阶段，而DCNN可以实际上被设计成具有任何数量的这些阶段。一旦所述阶段全都完成，就使用损失层。图5是示出了根据示例实施例的DCNN 500的图。在这里描绘了两个阶段502A和502B。

卷积层504A、504B是DCNN 500的核心。它们的参数包括一组可学习的过滤器。在卷积层504A、504B的前向传递过程期间，每个过滤器跨输入向量进行卷积。因此，DCNN 500学习在其看到某一模式时激活的过滤器。

所有过滤器的特征映射都可以沿深度维度叠加，以形成卷积层504A、504B的满容量(volume)输出。

卷积层504A、504B应用被称为卷积的数学运算。

应当注意的是，使用的过滤器卷积层504A、504B可以在DCNN 500的第一次迭代时被激活，并且基于在先前迭代中在其他层中所采取的动作来在每个另外的迭代之前被细化，直到某一误差项被最小化到低于特定阈值为止。在一个示例实施例中，这可以通过后向传播来实现，其将在下文中更详细地被描述。

卷积层504A、504B的输出是被称为特征映射506A-506C多组数组。每个特征映射506A-506C可以由不同的过滤器产生，并且基于每个阶段中的不同功能而被修改。在输出端，每个特征映射506A-506C表示在输入端和条件下的所有位置处提取的特定特征。图5中的示例是一个两阶段系统，但本领域技术人员将会认识到，可以使用更多或更少的阶段同时仍然与本公开一致，并且的确如将在示例实施例中看到的，阶段的数量可以在运行时动态地被确定以优化结果。

非线性层508A、508B在揭示输入与输出之间的非线性关系时给予DCNN 500更强的表达力。在非线性层508A、508B中可以使用许多不同的非线性，包括sigmoid函数、tanh函数、和线性整流函数。为了简单起见，在这里将描述非线性的一个示例：线性整流函数。该函数被定义如下：

池化层510A和510B用于减少输入向量维数，同时保留来自输入的一些信息。换句话说，池化层510A和510B实际上没有进行任何学习；即，它们是固定的预先定义操作，其不会随着训练的进展而改变，而是替代地用于降低问题的维度。在一个示例实施例中，可以遵循抽取方法，其中沿维度的每N个样本中有一个被阻挡在外。在另一实施例中，一些本地统计数据可以用于进行池化，例如最大池化，其被定义为：

其中，N＝M＝2。

当所有阶段502A、502B完成时，使用分类层512使用最终池化层510B的输出来计算精确预测分数，其指示输入向量与特定标准化头衔标识相匹配的可能性。在一个示例实施例中，分类层512实际上是专门的卷积层，其包含一个过滤器，该过滤器被设计为从最终池化层510B的容量输出产生预测分数。该过滤器应用具有权重的分类函数，其可以与普通卷积层504A、504B的过滤器的函数中的权重以相同的方式被细化。

后向传播涉及关于DCNN 500中的几个权重来计算损失层515中损失函数的梯度。接着，梯度被馈送至给一方法，该方法更新DCNN 500的训练的下一个迭代的权重，以试图最小化损失函数，其使用一组不同的训练数据。后向传播使用已经传播通过502A、502B阶段的经标记的训练数据，以便作为群组来计算样本的损失函数梯度。

后向传播可以包括两个方面：传播和权重更新。在传播方面中，通过DCNN 500来对训练模式的输入图像进行正向传播，以便生成传播的输出激活(即，向量被传递通过阶段502A、502B)。接着，使用由训练模式指定的目标，通过DCNN 502来执行传播的输出激活的后向传播，以便生成所有输出的增量。

在权重更新方面，针对每个过滤器的每个权重，将输出增量和输入激活量相乘以获得权重的梯度，并且接着从权重中减去梯度的比率。该比率影响学习的速度和质量。比例越高，训练速度越快，但代价是准确性。

因此，这两个方面，包括通过502A、502B阶段的前向传递和后向传递两者都被重复地执行，直到误差率低于特定阈值为止。与DCNN 500兼容的后向传播算法包括，例如，梯度下降。

后向传播的使用可以根据一批经标记的训练数据中的向量的分类的组合误差是否超过预设的误差阈值而被预测。如果组合误差太大，则应当进行后向传播以更新并最小化下一迭代的误差，并且下一迭代可以利用随后的一批经标记的训练数据来执行，直到组合误差不超过阈值为止。

图6是示出了根据示例实施例的方法600的流程图。在操作602处，获得第一组训练数据。第一组训练数据包括职位头衔与标准化的职位头衔标识的对。在操作604处，获得第二组训练数据。第二组训练数据包括职位头衔与技能的对。在操作606处，第一组训练数据被馈送到DCNN中，其被设计为训练预测模型以输出预测分数，该预测分数指示输入候选职位头衔与输入职位头衔标识相匹配的可能性。在操作608处，将第二组训练数据馈送到DCNN中，以便对预测模型进行再次训练。

在运行时，在操作610处，将第一候选职位头衔和多个候选职位头衔标识馈送到预测模型中，以产生第一候选职位头衔与候选职位头衔标识的每个对配的预测分数。在操作612处，保存所述第一候选职位头衔与来自所述多个候选职位头衔标识中具有最高预测分数的候选职位头衔标识之间的映射。

图7是示出了可以被安装在上述设备中的任何一个或多个设备上的软件架构702的框图700。图7仅仅是软件架构的非限制性示例，并且应当理解的是，可以实现许多其他架构以促进在本文中所描述的功能。在各种实施例中，软件架构702是由诸如图8的机器800之类的硬件实现的，机器800包括处理器810、存储器830、和输入/输出(I/O)组件850。在该示例架构中，软件架构702可以被概念化为层的堆栈，其中每一层可以提供具体功能。例如，软件架构702包括诸如操作系统704、库706、框架708、和应用710之类的层。在操作上，与一些实施例一致，应用710通过软件栈来调取API调用712，并且响应于API调用712而接收消息714。

在各种实现中，操作系统704管理硬件资源并且提供公共服务。操作系统704包括例如内核720、服务722、以及驱动程序724。与一些实施例一致，内核720充当硬件与其他软件层之间的抽象层。例如，内核720提供存储器管理、处理器管理(例如，调度)、组件管理、联网、以及安全设置等。服务722可以为其他软件层提供其他公共服务。根据一些实施例，驱动程序724负责对底层硬件进行控制或接合。例如，驱动程序724可以包括显示器驱动程序、相机驱动程序、

或

低能量驱动程序、闪速存储器驱动程序、串行通信驱动程序(例如，通用串行总线(USB)驱动程序)、

驱动程序、音频驱动程序、功率管理驱动程序等。

在一些实施例中，库706提供由应用710使用的低级公共基础结构。库706可以包括系统库730(例如，C标准库)，其可以提供诸如存储器分配功能、字符串操控功能、数学功能等之类的功能。另外，库706可以包括API库732，诸如媒体库(例如，用于支持各种媒体格式的呈现和操控的库，所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)、或者便携式网络图形(PNG))、图形库(例如，用于在显示器上的图形上下文中以二维(2D)和三维(3D)渲染的OpenGL框架)、数据库库(例如，用于提供各种关系数据库功能的SQLite)、web库(例如，用于提供网络浏览功能的WebKit)，等等。库706还可以包括宽泛的多种其他库734，以向应用710提供许多其他API。

根据一些实施例，框架708提供能够由应用710使用的高级公共基础结构。例如，框架708提供各种GUI功能、高级资源管理、高级位置服务等。框架708可以提供能够由应用710使用的广泛的其他API，其中的一些API可以是专用于特定操作系统704或平台的。

在示例实施例中，应用710包括家庭应用750、联系人应用752、浏览器应用754、书阅读器应用756、位置应用758、媒体应用760、消息传送应用762、游戏应用764、以及诸如第三方应用766之类的其他应用的宽泛组合。根据一些实施例，应用710是执行在程序中所定义的功能的程序。可以采用各种编程语言来创建以多种方式构建的应用710中的一个或多个，所述语言例如面向对象的编程语言(例如，Objective-C、Java、或C++)或过程性编程语言(例如，C或汇编语言)。在具体的示例中，第三方应用766(例如，由与特定平台的供应商不同的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用)可以是在诸如IOS^TM、ANDROID^TM、

电话、或另一移动操作系统之类的移动操作系统上运行的移动软件。在该示例中，第三方应用766可以调取由操作系统704所提供的API调用712，以促进在本文中所描述的功能。

图8示出了根据示例实施例的、采用计算机系统的形式的机器800的图解表示，在该机器800中可以执行一组指令以使得该机器执行在本文中所讨论的方法中的任何一个或多个方法。具体地，图8示出了采用计算机系统的示例形式的机器800的图解表示，在其内可以执行用于使得机器800执行在本文中所讨论的方法中的任何一个或多个方法的指令816(例如，软件、程序、应用710、小应用程序、应用app、或其他可执行代码)。例如，指令816可以使得机器800执行图6的方法600。另外地或可替代地，指令816可以实现图1-7等。指令816将通用的、非编程的机器800转换成被编程为实行以所描述的方式描述和示出的功能的特定机器800。在可替代的实施例中，机器800操作成独立的设备或者可以耦合(例如，联网)至其他机器。在联网的部署中，机器800可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份操作，或者在对等(或分布式)网络环境中作为对等机器。机器800可以包括但不限于服务器计算机、客户端计算机、PC、平板计算机、膝上型计算机、上网本、机顶盒(STB)、便携式数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家庭设备(例如，智能电器)、其他智能设备、网络电器、网络路由器、网络交换器、网桥、或者能够按顺序或以者其他方式执行指令816(其指定要由机器800所采取的动作)的任何机器。此外，尽管仅示出了单个机器800，但是术语“机器”也应当包括单独地或共同地执行指令816以实行在本文中所讨论的方法中的任何一个或多个方法的一系列机器800。

机器800可以包括处理器810、存储器830、以及I/O组件850，它们可以被配置为例如经由总线802彼此进行通信。在示例实施例中，处理器810(例如，中央处理单元(CPU)、精减指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器、或其任何合适的组合)可以包括例如可以执行指令816的处理器812和处理器814。术语“处理器”旨在包括多核处理器，其可以包括能够同时地执行指令816的两个或更多个独立的处理器(有时被称为“核心”)。尽管图8示出了多个处理器810，但机器800可以包括具有单个核心的单个处理器、具有多个核心的单个处理器(例如，多核处理器)、具有单个核心的多个处理器、具有多个核心的多个处理器、或其任何组合。

存储器830可以包括主存储器832、静态存储器834、以及存储单元836，它们全都例如经由总线802由处理器810可访问。主存储器832、静态存储器834、以及存储单元836存储指令816，其实施在本文中所描述的方法或功能中的任何一个或多个。在由机器800对其执行期间，指令816还可以完全或部分地驻留在主存储器832内、静态存储器834内、存储单元836内、处理器810中的至少一个内(例如，处理器的高速缓存存储器内)、或者其任何合适的组合内。

I/O组件850可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获度量等的宽泛的多种组件。在具体机器800中包括的特定I/O组件850将取决于机器800的类型。例如，诸如移动电话之类的便携式机器将很可能包括触摸输入设备或其他这样的输入机制，但无终端服务器机器将很可能不包含这样的触摸输入设备。但将理解的是，I/O组件850可以包括在图8中没有示出的许多其他组件。为了简化以下的讨论，仅根据功能将I/O组件850分组，并且所述分组一点也没有限制。在各种示例实施例中，I/O组件850可以包括输出组件852和输入组件854。输出组件852可以包括视觉组件(例如，诸如等离子显示面板(PDP)之类的显示器、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪、或阴极射线管(CRT))、声学组件(例如，扬声器)、触觉组件(例如，振动电动机、电阻机制)、其他信号生成器等。输入组件854可以包括字母数字输入组件(例如，键盘、被配置为接收字母数字输入的触摸屏、光电键盘、或其他字母数字输入组件)、基于指点的输入组件(例如，鼠标、触摸板、轨迹球、游戏操纵杆、运动传感器、或另一指点仪器)、触觉输入组件(例如，物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏、或者其他触觉输入组件)、音频输入组件(例如，麦克风)等。

在另外的示例实施例中，I/O组件850还可以包括生物计量组件856、运动组件858、环境组件860、或位置组件862，此外还有大量其他组件。例如，生物计量组件856可以包括用于检测表达(例如，手表达、面部表达、语音表达、身体姿势、或眼睛跟踪)、测量生物信号(例如，血压、心率、身体温度、出汗、或脑波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别、或基于脑电图的识别)等的组件。运动组件858可以包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件860可以包括例如照度传感器组件(例如，光度计)、温度传感器组件(例如，检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声学传感器组件(例如，检测背景噪声的一个或多个麦克风)、接近度传感器组件(例如，检测附近对象的红外线传感器)、气体传感器(例如，为了安全性而检测危险气体浓度或用于测量大气中的污染物的气体检测传感器)，或者可以提供与周围物理环境对应的指示、测量、或信号的其他组件。位置组件862可以包括地点传感器组件(例如，全球定位系统(GPS)接收器组件)、高度传感器组件(例如，高度计或检测从其可以导出高度的气压的气压计)、方向传感器组件(例如，磁强计)等。

可以使用宽泛的多种技术来实现通信。I/O组件850可以包括可操作以分别经由耦合882和耦合872将机器800耦合至网络880或设备870的通信组件864。例如，通信组件864可以包括用于与网络880接合的网络接口组件或另一合适的设备。在另外的示例中，通信组件864可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、

组件(例如，

低能量)、

组件、以及用于经由其他模态来提供通信的其他通信组件。设备870可以是另一机器或者宽泛的多种外围设备(例如，经由USB耦合的外围设备)中的任何一个。

此外，通信组件864可以检测标识符或者包括可用于检测标识符的组件。例如，通信组件864可以包括射频身份(RFID)标签阅读器组件、NFC智能标签检测组件、光学阅读器组件(例如，用于检测诸如通用产品码(UPC)条形码之类的一维条形码，诸如快速响应(QR)码、Aztec码、数据矩阵、Dataglyph、MaxiCode、PDF417、超级码、UCC-RSS-2D条形码、以及其他光学码之类的多维条形码的光学传感器)、或声学检测组件(例如，用于识别被标记的音频信号的麦克风)。另外，可以经由通信组件864来得出多种信息，例如经由互联网协议(IP)地理位置的地点、经由

信号三角测量的地点、经由检测可以指示具体地点的NFC信标信号的地点等。

可执行指令和机器存储介质

各种存储器(即，830、832、834、和/或处理器810的存储器)和/或存储单元836可以存储实施在本文中描述的方法或功能中的任何一个或多个或者由其使用的一组或多组指令816和数据结构(例如，软件)。这些指令(例如，指令816)当由处理器810执行时，使得各种操作实现所公开的实施例。

如在本文中所使用的，术语“机器存储介质”、“设备存储介质”、“计算机存储介质”指的是相同的事物并且可以互换地使用。所述术语指的是存储可执行指令816和/或数据的单个或多个存储设备和/或介质(例如，集中式或分布式数据库、和/或相关联的高速缓存和服务器)。因此，所述术语应当包括但不限于固态存储器、以及光学和磁性介质，包括处理器810内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括非易失性存储器，其作为示例而包括半导体存储设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、现场可编程门阵列(FPGA)、以及闪速存储器设备；诸如内部硬盘和可移动盘之类的磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“计算机存储介质”、和“设备存储介质”具体地将载波、调制数据信号、以及其他这样的介质排除在外，上述中的至少一些被涵盖在下文讨论的术语“信号介质”之下。

传输介质

在各种示例实施例中，网络880的一个或多个部分可以是自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、互联网、互联网的一部分、PSTN的一部分、普通老旧式电话服务(POTS)网络、蜂窝电话网络、无线网络、

网络、另一类型的网络、或者两个或更多这样的网络的组合。例如，网络880或网络880的一部分可以包括无线或蜂窝网络，而耦合882可以是码分多址(CDMA)连接、全球移动通信(GSM)连接、或另一类型的蜂窝或无线耦合。在该示例中，耦合882可以实现多种类型的数据传输技术中的任何一种，例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、用于GSM演进的增强型数据速率(EDGE)技术、包含3G的第三代合作伙伴项目(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他技术、其他远距离协议、或其他数据传输技术。

可以经由网络接口设备(例如，在通信组件864中包括的网络接口组件)使用传输介质并利用多种公知传输协议中的任何一个(例如，HTTP)来在网络880上发送或接收指令816。类似地，可以经由至设备870的耦合872(例如，对等耦合)来使用传输介质发送或接收指令816。术语“传输介质”和“信号介质”指的是相同的事物并且在本公开中能够可互换地使用。术语“传输介质”和“信号介质”应当包括能够存储、编码、或运送用于由机器800执行的指令816的任何无形介质，并且包括数字或模拟通信信号或促成这样的软件的通信的其他无形介质。因此，术语“传输介质”和“信号介质”应当包括任何形式的调制的数据信号、载波等。术语“调制的数据信号”指的是使其特征中的一个或多个特征以将信息编码到信号中的方式设置或改变的信号。

计算机可读介质

术语“机器可读介质”、“计算机可读介质”和“设备可读介质”指的是相同的事物并且在本公开中能够可互换地使用。所述术语被定义成包括机器存储介质和传输介质两者。因此，所述术语包括存储设备/介质和载波/调制的数据信号两者。

Claims

1.一种系统，包括：

具有存储在其上的指令的计算机可读介质，其中，所述指令当由处理器执行时，使得所述系统执行包括以下项的操作：

获得第一组训练数据，所述第一组训练数据包括职位头衔与标准化的职位头衔标识的对；

获得第二组训练数据，所述第二组训练数据包括职位头衔与技能的对；

将所述第一组训练数据馈送到深度卷积神经网络(DCNN)中，所述DCNN被设计为训练预测模型以输出预测分数，所述预测分数指示输入候选职位头衔与输入职位头衔标识相匹配的可能性；

将所述第二组训练数据馈送到所述DCNN中，以便再次训练所述预测模型；

将第一候选职位头衔和多个候选职位头衔标识馈送到所述预测模型中，以产生针对所述第一候选职位头衔与候选职位头衔标识的每个配对的预测分数；以及

保存所述第一候选职位头衔与来自所述多个候选职位头衔标识中具有最高预测分数的候选职位头衔标识之间的映射。

2.根据权利要求1所述的系统，其中，所述将所述第一组训练数据馈送到所述DCNN中包括：

将所述第一组训练数据传递至所述DCNN的卷积层，所述卷积层包括具有动态可调节的权重的一个或多个过滤器，所述一个或多个过滤器被配置为过滤所述第一组训练数据以产生针对所述第一组训练数据的每个片段的输出容量，所述输出容量针对所述一个或多个过滤器中的每个过滤器包括不同的特征映射；

将来自所述卷积层的输出容量传递通过非线性层，所述非线性层对来自所述卷积层的输出容量应用非线性函数；

将来自所述非线性层的输出容量传递通过池化层，所述池化层降低来自所述非线性层的输出容量的维度；

将来自所述池化层的输出容量传递通过分类层，所述分类层包括专用卷积层，所述专用卷积层具有过滤器，所述过滤器被设计为基于来自所述池化层的输出容量来输出针对所述第一组训练数据的每个片段的预测分数；

将所述第一组训练数据传递通过损失层，所述损失层对所述第一组训练数据应用损失函数，以得出对误差水平的指示，所述误差水平是来自所述分类层的、针对所述第一组训练数据的每个片段的所述预测分数与来自所述第一组训练数据的每个片段的标签的预测分数的比较；

确定针对所述第一组训练数据的所述误差水平的组合是否超过预设阈值；以及

响应于确定所述误差水平的所述组合超过所述预设阈值，更新所述DCNN的所述卷积层中的所述一个或多个过滤器的所述权重，以降低所述误差水平的所述组合并且使用不同的一组训练数据来重复对所述DCNN的所述训练。

3.根据权利要求1所述的系统，其中，所述第一组训练数据是从头衔标识的分类法获得的，所述分类法具有所述头衔标识与头衔之间的存储的映射。

4.根据权利要求1所述的系统，其中，所述第一组训练数据是从在线服务的成员的成员简档获得的，所述成员简档中的每个成员简档是以至少两种语言书写的。

5.根据权利要求1所述的系统，其中，所述第一组训练数据是从机器翻译的头衔获得的。

6.根据权利要求1所述的系统，其中，所述第一组训练数据是从头衔的群组获得的，所述头衔的群组与其他头衔在字符方面是类似的。

7.根据权利要求1所述的系统，其中，所述第二组训练数据是从在线服务的成员的成员简档获得的。

8.一种计算机实现的方法，包括：

9.根据权利要求8所述的方法，其中，所述将所述第一组训练数据馈送到所述DCNN中包括：

10.根据权利要求8所述的方法，其中，所述第一组训练数据是从头衔标识的分类法获得的，所述分类法具有所述头衔标识与头衔之间的存储的映射。

11.根据权利要求8所述的方法，其中，所述第一组训练数据是从在线服务的成员的成员简档获得的，所述成员简档中的每个成员简档是以至少两种语言书写的。

12.根据权利要求8所述的方法，其中，所述第一组训练数据是从机器翻译的头衔获得的。

13.根据权利要求8所述的方法，其中，所述第一组训练数据是从头衔的群组获得的，所述头衔的群组与其他头衔在字符方面是类似的。

14.根据权利要求8所述的方法，其中，所述第二组训练数据是从在线服务的成员的成员简档获得的。

15.一种包括指令的非暂时性机器可读存储介质，所述指令当由一个或多个机器实现时，使得所述一个或多个机器执行以下操作，包括：

16.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述将所述第一组训练数据馈送到所述DCNN中包括：

17.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述第一组训练数据是从头衔标识的分类法获得的，所述分类法具有所述头衔标识与头衔之间的存储的映射。

18.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述第一组训练数据是从在线服务的成员的成员简档获得的，所述成员简档中的每个成员简档是以至少两种语言书写的。

19.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述第一组训练数据是从机器翻译的头衔获得的。

20.根据权利要求15所述的非暂时性机器可读存储介质，其中，所述第一组训练数据是从头衔的群组获得的，所述头衔的群组与其他头衔在字符方面是类似的。