CN117677959A

CN117677959A - 使用经训练的机器学习管线识别分类层次结构

Info

Publication number: CN117677959A
Application number: CN202280049145.3A
Authority: CN
Inventors: A·波莱里; R·库马尔; M·M·布罗恩; 陈国栋; S·阿格拉瓦尔; R·S·布赫海姆
Original assignee: Oracle International Corp
Current assignee: Oracle International Corp
Priority date: 2021-06-10
Filing date: 2022-06-08
Publication date: 2024-03-08
Also published as: EP4352655A1; US20220398445A1; WO2022261233A1

Abstract

公开了用于使用经训练的机器学习(ML)管线来识别与目标数据项相关联的类别的技术，即使识别出的类别可能尚未存在于层次结构中。ML管线可以包括经训练的基于聚类和基于分类的机器学习模型等。如果基于聚类和基于分类的机器学习模型的结果相同，那么将目标数据项分配到与机器学习模型的相同结果一致的层次分类。分配的层次分类可以通过后续经训练的ML模型的操作来验证，该后续经训练的ML模型确定识别出的分类中的父类别和子类别是否彼此正确关联。

Description

使用经训练的机器学习管线识别分类层次结构

相关申请；通过引用并入

以下相关申请特此通过引用并入：2021年6月10日提交的申请No.17/303,918。申请人特此撤销(一个或多个)母申请或其审查历史中的权利要求范围的任何免责声明，并告知美国专利商标局(USPTO)，本申请中的权利要求可能比(一个或多个)母申请中的任何权利要求更广泛。

技术领域

本公开涉及数据的层次分类(hierarchical classification)。特别地，本公开涉及使用经训练的机器学习管线(pipeline)来识别数据中的分类层次结构。

背景技术

各种上下文中使用的描述和术语都会随着时间而变化。此外，在任何时间，不同组织(“实体”)之间的术语通常可能有所不同，即使涉及相同的主题也是如此。在描述同一主题时，无论是在实体之间还是随着时间的推移，术语的自然变化都会使数据项的分析变得复杂，因为术语的含义可能是不确定的。替代地，使用第一术语对主题的查询可能无法识别引用目标主题但使用不同的第二术语描述的查询结果。

将一致的术语应用于主题领域将提高分析效率和准确性。

本部分中描述的方法是可以实行的方法，但不一定是先前已经构想或实行的方法。因此，除非另外指出，否则不应当假设在本部分中描述的任何方法仅仅因为其包括在本部分中就被认为是现有技术。

附图说明

在附图的各个图中，实施例是作为示例而不是作为限制进行图示的。应当注意的是，在本公开中对“一个”实施例的引用不一定是指相同的实施例，并且它们意味着至少一个。在附图中：

图1图示了根据一个或多个实施例的系统；

图2图示了根据一个或多个实施例的用于将不一致或非标准术语转换成一致术语的一组示例操作；

图3图示了根据一个或多个实施例的用于识别目标数据集中的类别的一组示例操作；

图4图示了根据一个或多个实施例的用于验证在目标数据集中识别出的类别的一组示例操作；以及

图5示出了图示根据一个或多个实施例的计算机系统的框图。

具体实施方式

在以下描述中，为了解释的目的，阐述了许多具体细节以便提供透彻的理解。可以在没有这些具体细节的情况下实践一个或多个实施例。在一个实施例中描述的特征可以与在不同实施例中描述的特征组合。在一些示例中，参考框图形式来描述众所周知的结构和设备，以便避免不必要地模糊本发明。

1.总体概述

2.系统架构

3.使用ML管线识别类别

4.验证类别

5.示例实施例

6.计算机网络和云网络

7.其它方面；扩展

8.硬件概述

1.总体概述

一个或多个实施例应用多个独立训练和执行的机器学习模型来将层次分类分配给目标数据项。该系统应用基于聚类的机器学习模型和基于分类的机器学习模型两者来确定目标数据项的候选层次分类。如果两个候选层次分类相同，那么系统将候选层次分类分配给目标数据项。一些实施例包括附加模型，其中每个模型也可以为分析贡献独立导出的层次分类。在这些实施例中，如果大多数模型达成一致(例如，3个中的2个；4个中的3个)，那么大多数模型达成一致的层次分类与目标数据项相关联。在一些示例中，如果没有一个模型达成一致，那么被认为是最准确的准确层次分类与目标数据项相关联。

在本说明书中描述和/或在权利要求中叙述的一个或多个实施例可能不包括在该总体概述部分中。

2.架构概述

下面描述的系统的实施例被配置为使用一个或多个经训练的机器学习模型从目标数据项中提取类别和/或一组层次类别(或为了简洁而称为“层次结构”)。在一些情况下，系统可以识别层次结构的元素，诸如先前未识别的层次结构的任何级别的类别(例如，父(“第二级别”)类别、子(“第一级别”)类别)。在高级别，系统可以使用机器学习模型序列来实现这些目标，每个模型都经过专门训练来执行特定的分析。单独训练的机器学习模型被布置为“管线”，使得一些单独训练的机器学习模型进一步处理管线中的先前机器学习模型的分析产品输出。在一些方面，比较来自不同经训练的ML模型的结果并且基于比较提取结果。

图1图示了根据一个或多个实施例的系统100。如图1中所示，系统100包括客户端102A、102B、机器学习应用104、数据储存库122和外部资源126。在一个或多个实施例中，系统100可以包括比图1中所示的组件更多或更少的组件。

图1中所示的组件可以位于彼此本地或彼此远离。图1中所示的组件可以用软件和/或硬件来实现。每个组件可以分布在多个应用和/或机器上。多个组件可以组合成一个应用和/或机器。相对于一个组件描述的操作可以替代地由另一个组件执行。

客户端102A、102B可以是web浏览器、移动应用或(例如，经由计算设备)通信地耦合到网络的其它软件应用。客户端102A、102B可以使用一种或多种通信协议(诸如HTTP和/或互联网协议(IP)套件的其它通信协议)直接或经由云服务与系统100的其它元件交互。

在一些示例中，客户端102A、102B中的一个或多个被配置为接收和/或生成数据项。客户端102A、102B可以将数据项发送到ML应用104以供分析。ML应用104可以通过将一个或多个经训练的ML模型应用于发送的数据项来分析发送的数据项，从而从数据项中提取层次结构。

客户端102A、102B还可以包括被配置为渲染由ML应用104生成的图形用户界面(GUI)的用户设备。GUI可以呈现界面，用户通过该界面触发计算事务的执行，从而生成数据项。在一些示例中，GUI可以包括使得用户能够查看训练数据、对训练数据进行分类、指示ML应用104从一组数据项中提取层次结构的特征，以及本文描述的实施例的其它特征。此外，客户端102A、102B可以被配置为使得用户能够经由GUI提供关于ML应用104分析的准确性的用户反馈。即，用户可以使用GUI将由ML应用104生成的分析标注为准确或不准确，从而进一步修正或验证训练数据。在一些示例中，用户可以使用GUI标注由ML应用104生成的目标数据的机器学习分析，从而修正从一组数据项提取的层次结构的各方面。后一个特征使得用户能够标注由ML应用104分析的目标数据，使得ML应用104可以更新其训练。

系统100的ML应用104可以被配置为使用训练数据来训练一个或多个ML模型、在ML分析之前准备目标数据、以及分析目标数据以便从准备的目标数据中提取层次结构。如本文所描述的，ML应用104不仅可以从目标数据提取层次结构，而且甚至可以识别类别和/或先前不与类别相关联的子类别的任何层次级别。

机器学习应用104包括特征提取器108、机器学习引擎110、前端接口118和动作接口120。

特征提取器108可以被配置为识别与数据项相关联的特性。特征提取器108可以生成表示识别出的特性的对应特征向量。例如，特征提取器108可以识别训练数据和/或经训练的ML模型被引导进行分析的“目标”数据内的属性。一旦被识别，特征提取器108就可以从训练数据和目标数据之一或两者中提取特性。

特征提取器108可以将一些数据项特性令牌化为令牌(token)。特征提取器108然后可以生成包括值的序列的特征向量，其中每个值表示不同的特性令牌。特征提取器108可以使用文档到向量(通俗地描述为“doc-to-vec”)模型来将特性(例如，如从人类可读文本中提取的特性)令牌化并生成与训练数据和目标数据中的一个或两者对应的特征向量。doc-to-vec模型的示例仅被提供用于说明目的。其它类型的模型可以用于将特性令牌化。

特征提取器108可以将其它特征追加到生成的特征向量。在一个示例中，特征向量可以被表示为[f₁，f₂，f₃，f₄]，其中f₁、f₂、f₃对应于特性令牌，并且其中f₄是非特性特征。示例非特性特征可以包括但不限于如下标签，即，该标签对权重(或多个权重)进行量化，以分配给由特征向量描述的一组特性中的一个或多个特性。在一些示例中，标签可以指示与对应特性相关联的一个或多个分类。

如上所述，系统可以使用标注数据进行训练、再训练以及将其分析应用于新的(目标)数据。

特征提取器108可以可选地应用于目标数据以从目标数据生成特征向量。这些目标数据特征向量可以促进其它ML模型对目标数据的分析，如下所述。

ML应用104的机器学习引擎110包括训练逻辑112和分析逻辑114。分析逻辑114还包括术语规范化器115和机器学习管线116。

在一些示例中，训练逻辑112接收一组数据项作为输入(即，训练语料库或训练数据集)。数据项的示例包括但不限于：电子渲染的文档和电子通信。电子通信的示例包括但不限于电子邮件、SMS或MMS文本消息、电子发送的事务、经由社交媒体渠道传送的电子通信、点击流数据、电子文档和/或电子存储的文本。在一个例释中，一种类型的电子文档可以包括任何格式的文本文件(例如，.txt、.doc、.PDF)，其描述职位发布的要求、申请人的工作历史等。在一些示例中，数据项可以是结构化数据(例如，经由浏览器表单或计算应用表单(包括PDF表单)提交的结构化数据)或非结构化文本(例如，诸如.txt、.doc、.PDF之类的自由文本文档或其它“文本的二进制大对象”(“blob of text”)格式)的形式。

在一些示例中，由训练逻辑112用来训练机器学习引擎110的训练数据包括由如上所述的特征提取器108生成的数据项的特征向量。

训练逻辑112可以与诸如客户端102A、102B之类的用户系统通信。客户端102A、102B可以包括用户用来将标签应用到电子存储的训练数据集的界面。

机器学习(ML)引擎110被配置为经由训练逻辑112自动学习数据项的层次分类(有时被描述为“提取的分类法”或“类别”)。经训练的ML引擎110可以应用于目标数据并分析目标数据的一个或多个特性。这些特性可以根据下面在图2、4和4的上下文中描述的技术来使用。

可以与ML引擎110和/或ML应用104之一或两者相关联的ML模型的类型包括但不限于线性回归、逻辑回归、线性判别分析、分类和回归树、朴素贝叶斯、k-最近邻、学习向量量化、支持向量机、装袋和随机森林、增强、反向传播、神经网络和/或聚类。

分析逻辑114应用经训练的机器学习引擎110来分析目标数据。分析逻辑114可以分析数据项以基于与目标数据项相关联的一个或多个属性来预测目标数据项的类别。分析逻辑114可以使用一个或多个经训练的ML模型来预测目标数据项的类别，并且甚至预测当前不存在于层次分类中的一个或多个类别。

分析逻辑114在图1中所示的示例中被示出为包括规范化器115和ML管线116。分析逻辑114的其它配置可以包括附加元件或更少的元件。

规范化器115用于使特定于用户的术语与与特定领域或特定主题相关联的标准术语或至少一组统一的术语相关。在一些实施例中，对用户数据应用规范化器115提高了系统100的结果的准确性和精度，并且另外使得能够将系统100应用到多种行业中的任何一种行业，甚至特定行业内的多种不同实体。

规范化器115首先(例如，经由用户指令)接收或(例如，经由经训练的ML模型的应用)独立地确定(1)用户关注的主题或领域，以及(2)识别对应的与指定关注领域相关的标准化术语库。规范化器115然后可以创建将与用户数据相关联的口语术语与标准化库连接起来的关联或“地图”。规范化器115可以对目标数据以及训练数据进行操作，使得可以一致地分析与用户相关联但术语不同的数据项。例如，实体可能使用该实体特有的(idiosyncratic)口语术语来发布职位需求，而各申请人可能各自在其申请中使用以下术语之一或两者：(a)与该实体的术语不同的术语；以及(b)彼此不同的术语。规范化器115使得能够通过找到用于比较需求中的职位要求和申请人技能的通用术语来实现对这些数据的一致分析。

在一些实施例中，规范化器115可以包括从输入数据项生成特征向量的经训练的ML模型。在文本文档的情况下，经训练的ML模型可以是“doc-to-vec”模型，该模型从基于文本的电子文档和/或文件生成向量。在一些示例中，可以采用预训练的商用doc-to-vec模型(例如，)。

一旦输入数据项被表示为特征向量，规范化器115就可以识别与数据项的主题对应的标准术语库。例如，系统可以使用与输入数据项对应的一个或多个特征向量和标准术语库的部分之间的余弦相似度函数来执行比较。例如，系统100可以与包括一个或多个标准术语/标准分类法库(例如，数据储存库122中的库124)的数据存储库通信。在一些示例中，这些主题库中的每一个可以具有摘要或概要，当表示为特征向量时，系统可以将其与输入数据向量进行高效的比较以选择最相似的库。在一个具体例释中，适用于人力资源应用(人才获取、人力资本管理)的标准库由产生，并且可以被称为/>标准职业分类/>系统。这个特定的标准库包含大约16000个不同的职位名称。存在适用于不同主题领域的类似标准库，并且可以取决于特定应用来使用这些标准库。

在识别出包括标准术语的主题库后，系统然后可以通过识别目标数据项中的术语并然后识别其对应的标准术语来“规范化”目标数据项中的术语。然后，系统可以生成目标数据项的“规范化”版本，其中目标数据项中存在的口语术语被来自标准术语库的对应术语替换。下面在图2的上下文中描述这种规范化处理的细节。

一旦系统使用标准术语生成数据项的向量表示，系统100的分析逻辑114就继续经由ML管线116中的一个或多个经训练的机器学习算法来处理数据项。

ML管线116可以被布置为使得一个或多个经训练的机器学习模型处理先前经训练的机器学习模型的输出，从而使数据项经历顺序处理步骤。在一些示例中，ML管线116可以包括多个经训练的机器学习模型，这些模型按照串行、并行或其组合处理数据项或先前机器学习项的输出。在一些实施例中，如下所述，“投票”操作可以在对数据项的相同版本进行操作并且可以产生不同分析输出的并行机器学习模型处理的输出之间进行选择。

在一些示例中，ML管线116可以包括监督机器学习算法和无监督机器学习算法之一或两者。在各种示例中，这些不同类型的机器学习算法可以串行布置(例如，一个模型进一步处理前一模型的输出)、并行布置(例如，两个或更多个不同的模型进一步处理前一模型的输出)、或者两者。如上所述，对于并行处理配置，ML管线116可以包括用于在管线内的并行分支的输出之间进行选择的标准。在一些示例中，ML管线116的一段的所选择的输出可以由附加的串行或并行ML模型配置进一步处理。在其它示例中，ML管线116的一段的所选择的输出可以用于产生分析结论(例如，预测、推荐、预测类别)。

在图2-4的上下文中描述使用ML管线来识别一组数据项内的附加的、先前未识别的类别的方法的示例方法。

前端接口118管理客户端102A、102B与ML应用104之间的交互。在一个或多个实施例中，前端接口118是指被配置为促进用户与客户端102A、102B和/或机器学习应用104之间的通信的硬件和/或软件。在一些实施例中，前端接口118是多层应用中的表示层。前端接口118可以处理从客户端接收的请求并将来自其它应用层的结果翻译成客户端可以理解或处理的格式。

例如，客户端102A、102B之一或两者可以经由前端接口118向ML应用104提交请求以执行各种功能，诸如用于标注训练数据和/或分析目标数据。在一些示例中，客户端102A、102B之一或两者可以经由前端接口118向ML应用104提交请求以查看与根据一个或多个播放列表对目标数据项的分析相关的图形用户界面。在又一些示例中，前端接口118可以接收对各个界面元素重新排序的用户输入。

前端接口118是指可以被配置为渲染用户界面元素并经由用户界面元素接收输入的硬件和/或软件。例如，前端接口118可以生成网页和/或其它图形用户界面(GUI)对象。诸如web浏览器之类的客户端应用可以根据互联网协议(IP)套件的协议访问和渲染交互式显示。附加地或替代地，前端接口118可以提供其它类型的用户界面，包括被配置为促进用户和应用之间的通信的硬件和/或软件。示例界面包括但不限于GUI、web界面、命令行界面(CLI)、触觉界面和语音命令界面。示例用户界面元素包括但不限于复选框、单选按钮、下拉列表、列表框、按钮、切换开关、文本字段、日期和时间选择器、命令行、滑块、页面和表单。

在实施例中，前端接口118的不同组件以不同语言指定。用户界面元素的行为是用动态编程语言(诸如JavaScript)指定的。用户界面元素的内容以标记语言(诸如超文本标记语言(HTML)或XML用户界面语言(XUL))指定。用户界面元素的布局以样式表语言(诸如级联样式表(CSS))指定。替代地，前端接口118以一种或多种其它语言(诸如Java、C或C++)指定。

动作接口120可以包括API、CLI或用于调用函数以执行动作的其它接口。这些功能中的一个或多个可以通过云服务或其它应用来提供，这些应用可以在机器学习应用104的外部。例如，机器学习应用104的一个或多个组件可以调用API来访问存储在数据储存库122中的信息，以用作机器学习引擎104的训练语料库。应该认识到的是，所执行的动作可以因实施方式而异。

在一些实施例中，机器学习应用104可以访问外部资源126，诸如云服务。示例云服务可以包括但不限于社交媒体平台、电子邮件服务、短消息传递服务、企业管理系统和其它云应用。动作接口120可以用作用于调用云服务的API端点。例如，动作接口120可以生成符合可由外部资源摄取的协议的出站请求。

与计算机网络相关的附加实施例和/或示例在下面标题为“计算机网络和云网络”的第6部分中进行描述。

动作接口120可以处理和翻译入站请求以允许机器学习应用104的其它组件进一步处理。动作接口120可以存储、协商和/或以其它方式管理用于访问外部资源的认证信息。示例认证信息可以包括但不限于数字证书、密码密钥、用户名和密码。动作接口120可以在调用通过外部资源提供的功能的请求中包括认证信息。

在一个或多个实施例中，数据储存库122是用于存储数据的任何类型的存储单元和/或设备(例如，文件系统、数据库、表的集合或任何其它存储机制)。此外，数据储存库122可以包括多个不同的存储单元和/或设备。多个不同的存储单元和/或设备可以是或可以不是相同的类型或位于相同的物理站点。此外，数据储存库122可以在与ML应用104相同的计算系统上实现或执行。替代地或附加地，数据储存库122可以在与ML应用104分离的计算系统上实现或执行。数据储存库122可以经由直接连接或经由网络通信地耦合到ML应用104。

在图1中所示的实施例中，数据储存库122包括标准术语/分类法库124。如上所述，标准术语/分类法库124使得系统100能够将来自任何源(甚至多个不同源)的口语术语与单个“标准”术语相关。这种将不同口语术语“转换”成单个术语使得系统能够直接比较数据项，而不管数据项使用什么术语来描述由标准术语/分类法库124中的对应术语捕获的方面。

与目标数据项和训练数据相关的信息可以跨系统100内的任何组件来实现。但是，为了清楚和解释的目的，该信息可以存储在数据储存库122中。

在实施例中，系统100在一个或多个数字设备上实现。术语“数字设备”一般是指包括处理器的任何硬件设备。数字设备可以指代执行应用或虚拟机的物理设备。数字设备的示例包括计算机、平板电脑、膝上型计算机、台式机、上网本、服务器、web服务器、网络策略服务器、代理服务器、通用机器、特定于功能的硬件设备、硬件路由器、硬件交换机、硬件防火墙、硬件防火墙、硬件网络地址翻译器(NAT)、硬件负载平衡器、主机、电视、内容接收器、机顶盒、打印机、电话、智能电话、个人数字助理(“PDA”)、无线接收器和/或发送器、基站、通信管理设备、路由器、交换机、控制器、接入点和/或客户端设备。

3.使用ML管线识别层次类别

图2图示了根据一个或多个实施例的一组示例操作，统称为方法200，用于为后续层次分类分析准备数据。方法200可以可选地应用于数据项，以将口语的或特殊(idiosyncratic)的属性(例如，属性名称、属性值)或由特定实体使用的其它描述映射到等效属性。这种属性从特殊属性到“标准”属性的转换可选地使得后续方法(例如，方法300和400)中使用的ML模型能够使用从其它实体或数据源汇集的更大数据集进行训练，而不管使用的属性名称如何。更大的训练数据集反过来又提高了模型的准确性。方法200的使用还使得能够对目标数据项进行更准确且一致的分析。

图2中所示的一个或多个操作可以被一起修改、重新布置或省略。因此，图2中所示的特定操作序列不应被解释为限制一个或多个实施例的范围。虽然方法200是在目标数据项的上下文中呈现的(作为分析方法200和300的准备步骤)，但是将认识到的是，方法200可以等效地应用于训练数据。

方法200可以通过接收使用特定于实体的术语的一个或多个目标数据项开始(操作204)。特定于实体的术语的示例包括用于数据项标签、数据项描述、属性名称或属性值的术语。在其它示例中，特定于实体的术语可以包括电子文档内容。

在具体例释中，组织可以生成列出许多职位职责和所需技能的职位需求。实体用来描述职位名称、职位职责、与相关部门中其它职位职能的交互、最低要求的证书和所需技能的自然语言可能是特定于该特定实体的(例如，对该特定实体特殊的)。该实体在职位需求中使用的任何一个或多个词语和短语可能与其它实体使用的词语和短语和/或更常用的术语(例如，“行业标准”)不同。

此外，在这个示例中，响应职位需求的许多申请人可能各自使用不同的术语。这使得识别该位置的候选人变得更具挑战性，因为数十、数百或数千名申请人可能对应地使用数十、数百或数千种不同的术语排列，其中很少或没有一个可能直接适用于提供职位需求的实体所使用的术语。如将认识到的，在该具体例释中，方法200可以应用于职位需求本身和来自申请人的申请数据，使得所有数据源使用一致且方便比较的术语。

一旦接收到目标数据项，系统就可以访问用于规范化术语的库(操作208)。该库可以是工业标准术语库。在一些示例中，术语库可以由学术机构、专业组织或行业贸易团体出版。继续操作204中介绍的职位需求的具体例释，公共领域职位名称库是由各个人力资源专业团体、学术机构和公司产生的。

无论来源或主题如何，系统都可以访问此类库作为将目标项内容术语(例如，自由文本)、属性名称和/或与目标数据项相关联的属性值转换成统一的、“规范化”等效形式的前奏。

然后，系统可以识别库中与目标数据项中使用的特定于实体的术语对应的规范化术语(例如，属性名称、属性值、内容)(操作212)。在一些示例中，该库可以以特征向量形式表示以便于与目标数据进行比较，如下面在操作224的上下文中所描述的。在一个示例中，操作212可以包括三个操作。

系统可以可选地识别目标数据项中的特定于实体的术语(操作216)。这可以使用经训练的ML模型来对目标数据项中的术语和/或属性相对于库术语的向量表示执行余弦相似度分析来完成。

系统可以生成目标数据项的特征向量(操作220)。在一个示例中，可以根据在操作21 6中可选地识别出的任何识别出的特定于实体的术语来生成特征向量。在另一个示例中，系统可以基于目标数据项中的各个术语和/或术语的排列来生成特征向量。在一个示例中，系统使用“doc-to-vec”训练的机器学习模型来生成特征向量。在一个例释中，系统可以使用预先训练的doc-to-vec训练的机器学习模型，诸如“Taleo”。

系统可以使用商业可用或公开可用的训练数据集来训练doc-to-vec机器学习模型，并且可选地通过使用特定于最终分析的实体和/或主题的训练数据来补充训练。例如，系统可以使用通用(即，非特定于主题的)训练数据集和/或商业可用或公开可用的特定于主题(例如，人力资源、物理科学、财务)的训练数据集来训练doc-to-vec。在一个示例中，为了提高如应用于特定实体的目标数据项的模型的准确性，使用特定于该实体使用的术语的补充训练数据集来补充通用训练数据集。在另一个示例中，补充训练数据集甚至可以特定于特定主题领域，该特定主题领域特定于实体(例如，实体在人力资源、财务运营中使用的术语)。

在一些示例中，数据项可以被表示为包括目标数据项中的大多数词语和/或短语的令牌的向量，或者可替代地被表示为一组向量，每个向量与词语和短语(例如，两个或更多个词语的组)对应。在一些示例中，短语向量和/或令牌可以包括目标数据项中的词语的任何数量的排列。在一些示例中，系统可以通过辨别指示思想分离的词性或格式来界定词语的排列。例如，诸如“和”、“或”之类的过渡以及诸如分号、句点和项目符号之类的格式可能会阻止由这些特征分隔的词语被组合成令牌或向量。这又可以减少系统执行的比较的次数，从而在不移除实质性内容的情况下提高系统整体的分析效率。在一些示例中，系统可以省略定冠词、不定冠词以及可能对书面或口头交流有用但在执行诸如上述特征向量分析之类的特征向量分析时无用的其它词性。

系统可以比较库中规范化术语和目标数据项操作224中的特定于实体的术语的向量表示。操作224可以识别规范化术语库中的特定于实体的术语及其对应的类似形式。在一些示例中，这可以在系统应用余弦相似度分析时完成。当余弦分析产生的值高于阈值(例如，高于0.5、0.75、0.8)时，系统可以将目标数据和库中的术语识别为类似。在其它示例中，系统可以应用K-最近邻训练的机器学习模型来识别相似术语。无论使用哪种比较算法，系统都可以生成表示数据项的(一个或多个)向量的版本，其中口语术语(词语/短语)被来自标准术语库的术语替换。

在识别出目标数据和库之间的类似术语后，系统生成特定于实体的术语和规范化术语之间的映射(操作228)。虽然使用了术语“映射”，但是将认识到的是，这仅是指不同但相似的术语之间的对应关系的参考或其它指示。

然后，系统可以将映射应用到目标数据项，从而将特定于实体的术语转换成规范化术语(操作232)。系统可以生成表示目标数据项的(一个或多个)特征向量的版本，不同之处在于特征值对应于规范化术语而不是特定于实体的术语。

一旦完成方法200(这可能不是在所有情况下都必需的)，系统然后可以执行方法300，其操作在图3中示出。图3中所示的一个或多个操作可以一起被修改、重新布置或省略。因此，图3中所示的特定操作序列不应被解释为限制一个或多个实施例的范围。

在应用方法300时，系统可以确定或以其它方式识别一个或多个(规范化的)目标数据项内的层次类别。在一些示例中，系统可以利用方法300来识别由一个或多个目标数据项展现的新的层次类别，即使这些类别还不是现有层次结构的一部分。在各种示例中，方法300的应用可以识别层次结构的任何级别中的任何一个或多个类别，无论是在叶节点级别(即，“第一”级别)、叶节点级别的直接父级别(即，“高于”第一级别(即，比第一级别更泛化)的“第二”级别)、还是甚至更高的级别。

方法300包括接收用于分析的目标数据项(操作302)。目标数据项的示例包括任意数量形式的电子文档。在系统容纳的数据类型多样性的一个例释中，这些不同形式的示例包括非结构化数据(操作304)或结构化数据(操作306)。非结构化数据304的示例包括包含自由文本的数据项，对所允许的词语、值、格式、语法和/或标点符号几乎没有限制。系统可以采用的特定类型的自由文本分析包括所谓的“词袋”，或者当在Python编程语言中使用时，“词的二进制大对象”。例如，当接收到从各个来源单独产生的文档或数据项时，系统处理非结构化文本的能力可能特别有用。继续职位需求例释，系统可以处理非结构化、基于文本的简历，这些简历不仅使用不同的术语，而且还使用不同的格式、不同的文档组织方案等来描述申请人的经历。如上所述，这些非结构化数据项可能经由非结构化web或计算应用表、电子邮件、社交媒体帖子、SMS或MMS文本消息、文本编辑文档等提交。

结构化数据(操作306)的示例包括由结构化web或计算应用表格、“可填写”表格等提交的数据。在一些示例中，系统可以根据字段名称和/或结构化数据项元数据来识别结构化数据项中的字段。这些识别特征可以独自或单独地指示系统每个字段的预期值、要应用的ML处理的类型等。

无论接收目标数据项的形式如何，系统都可以使用方法200将目标数据项处理成“规范化”形式。系统可以将目标数据项转换成向量表示以促进系统的附加分析。系统可以在将数据项转换成对应的特征向量之前、期间或之后根据方法200执行规范化转换处理。

方法300包括对系统用来逐步分析一个或多个目标数据项的一个或多个机器学习(ML)模型进行训练(操作308)。在图3的示例中，系统采用三个机器学习模型，但是根据本公开可以使用任何数量的一个或多个经训练的机器学习模型来处理数据项。

在一些示例中，第一经训练的ML模型(操作312)可以包括被训练为单独基于目标数据项的文本来识别类别的经训练的机器学习模型。在一些示例中，第一经训练的ML模型被配置为识别目标数据项中比更窄但确认准确的白名单中存在的更广泛的一组潜在类别。下面在操作324的上下文中描述白名单。以这种方式，第一经训练的ML模型可以检测一个或多个目标数据项内不存在于白名单中的新类别。

在一些示例中，第一经训练的ML模型可以是“命名实体辨别器”或NER训练的ML模型。在一些示例中，系统执行任何类型的NER模型，其中一个示例是斯坦福NER模型。NER模型分析文档中的各个词语和短语(即，词语的排列)。基于其训练，NER模型可以确定各个词语和/或短语(或其它可检测的属性)中的任何一项是否与对应的类别相关联。在一些示例中，可以使用手动选择和标注的类别列表或者手动选择和标注的数据项来训练第一经训练的ML模型。在其它示例中，可以使用向NER模型提供类别和上下文数据的经训练的神经网络来训练NER模型。

在一些示例中，第二经训练的ML模型是分类器模型(操作314)。在其它示例中，第二经训练的ML模型是神经网络或“深度学习”模型。在任一种情况下，第二经训练的ML模型都被训练为识别与目标数据项中的数据项属性、各个令牌和/或(例如，由doc-to-vec模型从词语/文本生成的)令牌排列相关联的类别和父类别。无论模型类型如何，第二经训练的ML模型都会分析从第一经训练的ML模型接收到的输出，并使用其自己的分类分析来确定由第一经训练的ML模型识别出的类别是否被正确识别。

第二经训练的ML模型可以使用监督学习技术来训练。例如，第二经训练的ML模型可以使用手动标注的数据来训练，在这样的数据项中，词语和短语已通过用父类别标注被指示为类别。例如，具有其识别出的类别和父类别标签的白名单(如下所述)可以用于训练第二经训练的ML模型以识别数据项属性和类别之间的正确关联。类似地，可以对用于生成白名单但不与类别相关联的属性进行标注以指示缺乏与这些属性的类别关联。这为第二ML模型提供了负训练示例。在其它示例中，与上述那些类似，可以使用被训练来识别类别的神经网络来训练第二经训练的ML模型。

在一些示例中，第三经训练的ML模型(操作316)是无监督机器学习模型，诸如聚类模型。在一个实施例中，第三经训练的ML模型可以是K-均值聚类模型。在一个实施例中，可以使用白名单(如下所述)来训练第三经训练的ML模型。第三经训练的ML模型可以使用白名单数据来生成表示已知正确类别的向量聚类。在其它实施例中，第三经训练的ML模型可以使用未标注的训练数据来生成表示类别的多个聚类。在一些示例中，第三经训练的ML模型可以使用余弦相似度、K-均值或K-最近邻算法中的任意一种或多种来识别训练数据内的聚类。

在应用任何经训练的ML模型之前，系统通过参考已知正确类别及其相关联属性的“白名单”来识别与目标数据项相关联的类别(操作324)。白名单可以包括表示已知有效的类别的向量列表。在一些示例中，白名单还可以包括相关联的属性(例如，词语/短语、其它属性和/或其令牌)。但是，如根据本公开所认识到的，白名单可能不包括一个或多个数据项中实际存在的所有正确类别。方法300(和方法400)的以下操作被配置为识别数据中存在的并且未反映在白名单上的附加类别。此外，方法300(和方法400)还包括通过降低从数据预测错误或不正确的类别的可能性来保持识别出的类别的完整性的操作。

在一些示例中，类别白名单可以特定于实体或主题领域。在一些示例中，白名单可以通过经训练的机器学习模型分析(例如，doc-to-vec、神经网络)生成、手动准备或从第三方实体(例如，行业贸易团体、专业组织、学术机构、企业实体)访问。如上所述，白名单包括已知正确的类别，这可能会不正确地排除应在白名单上的类别。

在一个示例中，可以通过分析数据项的数据集并标注数据集的每个数据项内的每个类别来生成白名单。在一些示例中，类别标签是二元的，其指示属性值(或特征向量令牌)是否是类别。如上所述，在一个示例中，类别标签可以应用于表示数据项中的词语的对应排列和/或属性的各个令牌和/或各个特征向量。

在其它示例中，类别标签不是二元的，而是用相关联的、更一般的父(或第二级别)类别来标注识别出的类别。用对应的第二级别类别来标注在数据项中识别出的要被包括在白名单上的子(等效地叶或第一)级别类别具有经由标签本身将层次结构信息与识别出的第一级别类别相关联的优点。可以对训练文档中识别出的每个第一级别类别重复该处理。这与用单个标签标注整个训练文档不同。从训练数据中提取识别出的第一级别类别及其标签，并对其进行编译以共同形成白名单。

例如，继续职位需求例释，识别出的第一级别类别可以被识别为“招聘经理”的职位技能。用于识别第一级别和对应的第二级别类别的训练文档的示例可以包括实体所使用的(例如，商业可用的或由行业贸易团体提供的)参考文档、用于机器学习训练目的的一组简历、特定于实体的或一组职位技能列表等。与第一级别类别(职位技能)相关联的标签可以指示“人力资源运营”(组织职能)的第二级别类别。数据标签中“招聘经理”与“人力资源运营”的这种关联为系统提供了层次结构信息。此外，训练文档(例如，简历、职位要求列表)可以包括许多技能，每项技能都被标注。例如，包括各种计算机程序的熟练程度的同一训练文档可以被识别为第一级别类别并用对应的第二级别类别(“计算机技能”)来标注。类似地，相同的训练文档可以包括会计，系统将其识别为第一级别类别并用对应的第二级别类别(“财务运营”)标注。

系统可以应用第一经训练的机器学习模型作为用于预测目标数据项的层次分类的处理的一部分(操作328)。在一个示例中，第一经训练的ML模型可以通过将诸如目标数据项中的词语、短语和/或词语排列(或更准确地说，它们对应的特征向量/令牌)之类的属性与类别相关联来识别类别。分析这些属性及其排列以确定这些属性和/或排列是否与类别相关联。

在一些示例中，NER模型输出是识别出的类别、其相关联的父类别标签、以及其中识别出该类别的数据项上下文的一部分。通过检测候选类别并将类别和其中检测到候选类别的数据项的上下文传递给后续模型，可以提高后续分析的整体准确性。

使用第一经训练的ML模型(特别是NER模型)的方法可能会导致第一经训练的ML模型生成“假阳性”类别识别。即，第一经训练的ML模型可能会错误地将一个或多个数据项中的各方面识别为类别，但这些方面并不是类别。类别的不正确识别在操作上是有问题的，因为它会生成不正确的层次分类。一旦将错误引入到层次分类中，随着分析更多数据项，错误可能会随着时间的推移而扩大。这又可能导致耗时的手动校正。为了防止或减少系统识别错误类别的可能性，可以随后处理第一经训练的ML模型的分析输出，以通过第二经训练的ML模型和第三ML训练的模型的集体操作来移除这些“假阳性”类别。这些操作描述如下。

第二经训练的ML模型(操作314)和第三经训练的ML模型(操作316)可以一起确定由第一经训练的ML模型识别出的候选类别是假阳性还是正确结果。系统分别在操作332和336中使用第二和第三经训练的ML模型来分析来自第一经训练的ML模型(操作328)的结果。

在一个示例中，系统将第二经训练的ML模型应用到第一经训练的ML模型的输出，其可以包括类别、父类别标签和对应的上下文(操作332)。系统可以使用对第二经训练的ML模型的分析来部分地确定第一ML模型的准确性。

在一些示例中，第二经训练的ML模型接收先前由第一经训练的ML模型分析的目标数据项，并根据类别和父类别对词语和/或短语(例如，词语的排列)进行分类。在一些示例中，第二经训练的ML模型分析词语短语作为将实质性词语置于上下文中的方式，从而更好地确定与特定属性(例如，词语或短语)相关联的含义和/或重要性。在一些示例中，第二经训练的ML模型可以通过省略不太可能与实质性内容相关联的某些词语和/或词性(例如，冠词、连词、最高级)来提高其计算效率，如上所述。

在一些实施例中，第二经训练的ML模型基于其训练来确定类别是否与父类别正确关联。例如，第二ML模型可以使用其基于分类器的算法来基于数据项属性来确定数据项的层次分类。如果识别出的类别和父类别彼此一致，那么第二经训练的ML模型用指示类别正确的标签(即，“1”)来标注该类别和父类别。附加地或替代地，第二ML模型可以确定由第二ML模型生成的层次分类是否与由第一ML模型生成的层次分类一致。该结果还会生成指示一致性的标签。如果识别出的类别和父类别彼此不一致，或者与第一经训练的ML模型的结果不一致，那么第二经训练的ML模型会用指示类别不正确的标签(即，“0”)来标注该类别和父类别。

然后，这些分析结果以及相关联的类别/父类别数据可以被传递到ML管线的后续阶段，以与第三经训练的ML模型的结果结合进行分析，如下所述。

系统可以应用第三经训练的ML模型(操作336)。对于其中第三经训练的ML模型是聚类模型的实施例，该模型可以识别每个聚类的质心并计算定义每个聚类的一个或多个维度中的变异性(或噪声)值。在一些实施例中，模型使用轮廓系数来计算聚类变异性以量化每个聚类的变异性值。

在一些示例中，第三经训练的ML模型然后可以通过将由第一经训练的ML模型生成的类别的向量表示与一个或多个聚类相关联来评估第一经训练的ML模型的输出。一旦被分配，第三经训练的ML模型就计算具有新添加向量的聚类的轮廓系数。如果轮廓系数在添加第一经训练的ML模型的输出向量时增加或以其它方式超过阈值，从而指示聚类变异性的增加，那么系统确定输出向量不应与该聚类相关联。但是，如果轮廓系数在添加第一经训练的ML模型的输出向量后减小，或者以其它方式低于阈值，从而指示聚类变异性的减小，那么系统确定输出向量与该聚类正确关联。以这种方式，第三经训练的ML模型独立地确定由第一经训练的ML模型识别出的类别的父类别关联(即，层次分类)，即使这些类别不是先前识别出的类别(例如，在白名单上)。可以针对第一经训练的ML模型的每个输出向量和每个聚类迭代这个处理。

在其它示例中，第三经训练的ML模型可以执行余弦相似度分析以确定新添加的向量是否与表示聚类中的数据项的向量正确关联。如果比较向量的余弦值高于阈值，那么新添加的向量(表示数据项)与聚类正确关联。如果比较向量的余弦值低于阈值，那么新添加的向量(表示数据项)没有与聚类正确关联。

然后，系统确定由第一经训练的ML模型识别并由第二和第三经训练的ML模型分别分析的类别中的一个或多个类别是否是潜在有效的类别(操作340)。在一个示例中，系统检测第二经训练的ML模型和第三经训练的ML模型是否已预测由第一经训练的ML模型识别出的任何类别和对应的父类别。该处理的等效描述是，第二经训练的ML模型和第三经训练的ML都基于其各自的分析对特定的预测类别(和预测的父类别)进行“投票”。在一个示例中，如果第二经训练的ML模型和第三经训练的ML模型两者都(a)识别出相同的类别，并且(b)将该类别识别为与识别出的父类别正确相关(例如，经由余弦相似度分析、聚类分析、神经网络分析等)，那么类别和父类别被识别为潜在有效。

如果第二经训练的ML模型和第三经训练的ML模型两者都预测目标数据项内的特定类别和对应的父类别，那么系统将预测传递到方法400以进行验证(操作344)。

在一些示例中，类别和对应父类别的白名单可以与由第二经训练的ML模型和第三经训练的ML模型识别出的类别和父类别组合。该可选组合在图3中由连接操作324和操作344的虚线箭头指示。

但是，如果由第一经训练的ML模型识别出的类别未被第二经训练的ML模型和第三经训练的ML两者识别，那么拒绝该类别(操作348)。被拒绝的类别不被传递到方法400进行验证。

验证类别

图4图示了根据一个或多个实施例的一组示例操作，统称为方法400，用于验证在方法300中识别出的类别，为用新识别出的正确类别更新分类层次结构做准备。图4中所示的一个或多个操作可以一起被修改、重新布置或省略。因此，图4中所示的特定操作序列不应被解释为限制一个或多个实施例的范围。

方法400可以通过接收如在方法300结束时生成的一组组合类别开始(操作404)。如上所述，该组组合类别可以包括来自白名单并由第二和第三经训练的ML模型两者识别出的类别和对应的父类别。该组组合类别可以将类别表示为特征向量，如上所述。在一些实施例中，类别特征向量中的每个类别特征向量可以识别从中其被生成的来源(例如，经由参数值或标签)。这些来源包括白名单、第一经训练的ML模型、第二经训练的ML模型或第三经训练的ML模型。

系统确定特定类别是否源自白名单或通过第二和第三经训练的ML模型的组合分析(操作408)。例如，系统可以分析与特定类别相关联的特征向量并且识别特征向量中指示特征向量的来源的参数值和/或标签。如果特征向量的来源是类别的白名单，那么处理进行到操作424，其中系统生成一组最终的类别和父类别。下面更详细地描述操作424的细节。

如果在操作408处，系统确定该类别的来源不在白名单上，那么系统然后使用两个经训练的机器学习模型来分析该类别。在一些实施例中，这些模型之一是分类器类型训练的机器学习模型，并且这些模型中的另一个是聚类训练的机器学习模型。

可以将经训练的分类器ML模型应用于类别以确定该类别是否可能有效(操作412)。在一些示例中，可以使用白名单来训练在操作412中使用的分类器模型，如上所述。在一些实施例中，在操作412中使用的经训练的分类器模型可以是能够识别类别、父类别、祖父类别等的多类机器学习模型。在其它示例中，经训练的分类器ML模型可以是经训练的深度学习(或神经网络)机器学习模型。

系统可以使用操作412来确定由方法300针对数据项识别出的子类别和父类别是否彼此正确地相关联。在一些示例中，这可以被描述为子类别和父类别彼此“相关”。在一些示例中，多类分类器模型可以执行余弦相似度分析以确定父分类和子分类是否具有高于阈值的相似度。如果识别出的分类(或类别)高于阈值，那么系统确定父类别和子类别彼此正确关联。如果识别出的分类(或类别)低于阈值，那么系统确定父类别和子类别彼此没有正确关联。

系统还使用经训练的基于聚类的ML模型来分析接收到的类别(操作416)。在一些实施例中，经训练的基于聚类的ML模型可以是第三经训练的机器学习模型316的重新应用。在一些实施例中，经训练的基于聚类的ML模型可以简单地执行与上面在操作336的上下文中描述的分析类似的分析。即，经训练的基于聚类的ML模型可以使用K-均值聚类算法对在操作404中接收的类别进行聚类。系统可以临时将新识别出的类别包括在聚类中，并生成聚类的轮廓系数，其对在包括新识别出的类别之前和之后聚类的变异性或分散性的测量进行量化。如上所述，如果聚类的轮廓系数增加(或高于阈值)，表示在添加新识别出的类别后聚类内的变异性更大，那么从该聚类中拒绝该类别。即，由方法300识别为按层次分类在一起的父类别和子类别没有彼此正确关联。如果聚类的轮廓系数减小或保持相同(或者以其它方式低于阈值)，表示在添加新识别出的类别后聚类内较小或相当的变异性，那么该类别与该聚类相关联。换句话说，父类别和子类别在层次上彼此正确相关。可以对每个聚类和每个新识别出的类别重复该处理，直到每个新识别出的类别被分配给聚类或被经训练的基于聚类的ML模型拒绝。

方法400然后进行到操作420，其中在“投票”处理中分析所收集的三个机器学习模型的分析结果以确定是否将识别出的类别包括在层次结构中。这可以等效地称为“验证”类别。

所分析的三个机器学习模型的分析结果是操作328中描述的第一经训练的ML模型312以及操作412和416中描述的经训练的ML模型。通过确定这三个经训练的ML模型中的任何两个是否已识别出特定类别(可选地与父类别相关联)来验证类别。

如果这些经训练的ML模型中的任意两个在操作420中产生相同的预测，那么该类别被验证(操作424)。在一些示例中，系统可以将新验证的类别追加到白名单，从而扩展已知正确类别的列表。

如果这三个模型在特定类别的预测中没有一个彼此一致(即，类别仅由三个模型之一预测)，那么系统可以通过接受在操作412中应用的分类器ML模型的预测来解决这一冲突(操作428)。系统可以基于分类器ML模型是在操作420中执行该投票处理的三个模型中最准确的假设来选择分类器ML模型的预测。

在操作432中，系统确定在操作412中分类器模型是否已预测有争议的类别。如果有争议的类别已经由分类器模型预测，那么根据操作424将该类别包括在一组最终的类别中。如果有争议的类别尚未被分类器模型预测而是被其它两个模型之一预测，那么拒绝该类别(操作436)。

5.示例实施例

为了清楚起见，下文描述了详细示例。下面描述的组件和/或操作应被理解为可能不适用于某些实施例的一个具体示例。因此，下面描述的组件和/或操作不应被解释为限制任何权利要求的范围。

在一个实施例中，上述系统可以应用于人力资本管理，诸如人才获取。如上所述，实体的工作职位可能会导致接收到多个申请人的简历。系统可以执行术语“规范化”操作，使得系统可以对使用一致术语的简历内容的向量表示执行后续操作。

系统可以将接收到的简历中的词语和/或短语的向量表示与技能和相关联业务功能的白名单进行比较。本示例中的技能对应于子类别，并且相关联的业务功能对应于父类别。职位技能和对应业务功能的例释可以分别包括：供暖系统维护和设施管理；会计和财务运营；Java编程和工程化；员工监督和管理。

一旦识别出任何列入白名单的技能和业务功能，系统就会应用命名实体辨别器训练的ML模型来广泛识别候选技能和相关联的业务功能。如上所述，系统执行命名实体辨别器训练的ML模型来识别不在白名单上的任何潜在技能和对应的业务功能。例如，系统可以确定不在白名单上的技能和业务功能的两个例释：(1)贷款管理/财务运营；以及(2)石油钻井平台运营/商业运营。在这些例释中，识别出的不在白名单上的第一层次结构是技能与业务功能之间的正确关联，并且识别出的第二层次结构不是正确的关联。

然后，系统将基于分类的经训练的ML模型和基于聚类的经训练的ML模型应用于第一和第二识别出的层次结构。在一个例释中，基于分类的经训练的ML模型将两个识别出的层次结构识别为正确的，并且基于聚类的经训练的ML模型正确地将第一层次结构识别为正确的并且将第二层次结构识别为不正确的。由于两个模型在第一识别出的层次结构上达成一致，并且在第二识别出的层次结构上没有达成一致，因此只有第一识别出的层次结构被传递到ML管线中的后续操作进行验证。第二识别出的层次结构被拒绝。

使用另一个经训练的基于多类分类器的ML模型和上述基于聚类的ML模型来分析第一识别出的“贷款管理/财务运营”的层次结构。这两个模型都执行其分析，并且都确定关联是正确的。此外，最初生成了第一识别出的层次结构的命名实体辨别器也同意该分析。如上所述，三个ML模型中仅需要两个模型在此处理阶段同意即可验证该层次结构。

在一些示例中，由其它经训练的基于多类分类器的ML模型和基于聚类的ML模型关联对层次结构的验证可以基于由两个模型执行的独立预测，或者可以基于相似度分析和/或轮廓系数分析来确定以确保职位技能和业务功能彼此足够相似以保证验证。一旦被验证，第一识别出的“贷款管理/财务运营”的层次结构就可以被添加到白名单中以供将来使用。

6.计算机网络和云网络

在一个或多个实施例中，计算机网络提供节点集合之间的连接性。节点可以是在彼此本地的和/或彼此远离。节点通过链路的集合连接。链路的示例包括同轴电缆、非屏蔽双绞线、铜缆、光纤和虚拟链路。

节点子集实现计算机网络。这样的节点的示例包括交换机、路由器、防火墙和网络地址转换器(NAT)。另一个节点子集使用计算机网络。这样的节点(也称为“主机”)可以执行客户端进程和/或服务器进程。客户端进程做出对计算服务(诸如，特定应用的执行和/或特定量的数据的存储)的请求。服务器进程通过执行所请求的服务和/或返回对应的数据来响应。

计算机网络可以是物理网络，包括通过物理链路连接的物理节点。物理节点是任何数字设备。物理节点可以是特定于功能的硬件设备，诸如硬件交换机、硬件路由器、硬件防火墙和硬件NAT。附加地或替代地，物理节点可以是被配置为执行各种虚拟机和/或执行相应功能的应用的通用机器。物理链路是连接两个或更多个物理节点的物理介质。链路的示例包括同轴电缆、非屏蔽绞合电缆、铜缆和光纤。

计算机网络可以是覆盖网络。覆盖网络是在另一个网络(诸如，物理网络)之上实现的逻辑网络。覆盖网络中的每个节点对应于底层网络中的相应节点。因此，覆盖网络中的每个节点与覆盖地址(寻址到覆盖节点)和底层地址(寻址实现覆盖节点的底层节点)两者相关联。覆盖节点可以是数字设备和/或软件进程(诸如虚拟机、应用实例或线程)。连接覆盖节点的链路被实现为通过底层网络的隧道。隧道任一端处的覆盖节点将它们之间的底层多跳路径视为单个逻辑链路。隧道处理(tunneling)通过封装和解封装来执行。

在实施例中，客户端可以位于计算机网络的本地和/或远离计算机网络。客户端可以通过其它计算机网络(诸如专用网络或互联网)访问计算机网络。客户端可以使用通信协议(诸如超文本传输协议(HTTP))将请求传送到计算机网络。通过诸如客户端接口(诸如web浏览器)、程序接口或应用编程接口(API)之类的接口来传送请求。

在实施例中，计算机网络提供客户端和网络资源之间的连接。网络资源包括被配置为执行服务器进程的硬件和/或软件。网络资源的示例包括处理器、数据存储装置、虚拟机、容器和/或软件应用。网络资源在多个客户端之间共享。客户端彼此独立地从计算机网络请求计算服务。网络资源按需动态分配给请求和/或客户端。分配给每个请求和/或客户端的网络资源可以基于例如(a)由特定客户端请求的计算服务，(b)由特定租户请求的聚合计算服务和/或(c)计算机网络的所请求的聚合计算服务来扩大或缩小。这种计算机网络可以被称为“云网络”。

在实施例中，服务提供商向一个或多个最终用户提供云网络。云网络可以实现各种服务模型，包括但不限于软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。在SaaS中，服务提供商向最终用户提供使用服务提供商的正在网络资源上执行的应用的能力。在PaaS中，服务提供商向最终用户提供将定制应用部署到网络资源上的能力。可以使用由服务提供商支持的编程语言、库、服务和工具来创建定制应用。在IaaS中，服务提供商向最终用户提供供应由网络资源提供的处理、存储、网络和其它基本计算资源的能力。可以在网络资源上部署任何任意应用，包括操作系统。

在实施例中，计算机网络可以实现各种部署模型，包括但不限于私有云、公共云和混合云。在私有云中，网络资源被供应给一个或多个实体的特定组独占使用(如本文所使用的术语“实体”是指企业、组织、个人或其它实体)。网络资源可以在特定实体组的处所本地和/或远离特定实体组的处所。在公共云中，云资源被供应给彼此独立的多个实体(也称为“租户”或“客户”)。计算机网络及其网络资源由与不同租户对应的客户端访问。这样的计算机网络可以被称为“多租户计算机网络”。几个租户可以在不同时间和/或相同时间使用相同的特定网络资源。网络资源可以在租户的处所本地和/或远离租户的处所。在混合云中，计算机网络包括私有云和公共云。私有云和公共云之间的接口允许数据和应用的可移植性。存储在私有云处的数据和存储在公共云处的数据可以通过接口交换。在私有云处实现的应用和在公共云处实现的应用可能具有彼此依赖性。可以通过接口执行从私有云处的应用于公共云处的应用(反之亦然)的调用。

在实施例中，多租户计算机网络的租户彼此独立。例如，一个租户的业务或操作可以与另一个租户的业务或操作分离。不同的租户可能对计算机网络具有不同的网络要求。网络要求的示例包括处理速度、数据存储量、安全要求、性能要求、吞吐量要求、时延要求、弹性要求、服务质量(QoS)要求、租户隔离和/或一致性。相同计算机网络可能需要实现由不同租户所要求的不同网络要求。

在一个或多个实施例中，在多租户计算机网络中，实现租户隔离以确保不同租户的应用和/或数据彼此不共享。可以使用各种租户隔离方法。

在实施例中，每个租户与租户ID相关联。多租户计算机网络的每个网络资源用租户ID标记。仅当租户和特定网络资源与相同租户ID相关联时，才允许该租户访问特定网络资源。

在实施例中，每个租户与租户ID相关联。由计算机网络实现的每个应用用租户ID标记。附加地或替代地，由计算机网络存储的每个数据结构和/或数据集用租户ID标记。仅当租户和特定应用、数据结构和/或数据集与相同租户ID相关联时，才允许租户访问特定应用、数据结构和/或数据集。

作为示例，由多租户计算机网络实现的每个数据库可以用租户ID标记。只有与对应租户ID相关联的租户才可以访问特定数据库的数据。作为另一个示例，由多租户计算机网络实现的数据库中的每个条目可以用租户ID标记。只有与对应租户ID相关联的租户才可以访问特定条目的数据。但是，数据库可以由多个租户共享。

在实施例中，订阅列表指示哪些租户有权访问哪些应用。对于每个应用，存储被授权访问该应用的租户的租户ID列表。仅当租户的租户ID被包含在与特定应用对应的订阅列表中时，才允许该租户访问特定应用。

在实施例中，与不同租户对应的网络资源(诸如数字设备、虚拟机、应用实例和线程)被隔离到由多租户计算机网络维护的特定于租户的覆盖网络。作为示例，来自租户覆盖网络中的任何源设备的数据包可以仅被发送到相同租户覆盖网络内的其它设备。封装隧道用于禁止从租户覆盖网络上的源设备到其它租户覆盖网络中的设备的任何传输。具体而言，从源设备接收的数据包被封装在外部数据包内。外部数据包从第一封装隧道端点(与租户覆盖网络中的源设备通信)发送到第二封装隧道端点(与租户覆盖网络中的目的地设备通信)。第二封装隧道端点对外部数据包进行解封装，以获得由源设备发送的原始数据包。原始数据包从第二封装隧道端点发送到相同特定覆盖网络中的目的地设备。

7.其它方面；扩展

实施例针对具有包括硬件处理器并且被配置为执行本文所述和/或在以下权利要求中任何一项所述的任何操作的一个或多个设备的系统。

在实施例中，非暂态计算机可读存储介质包括指令，当所述指令由一个或多个硬件处理器执行时，使得执行本文所述和/或在权利要求中任何一项所述的任何操作。

本文所述的特征和功能的任何组合可以根据一个或多个实施例来使用。在前面的说明书中，各种实施例已经参考许多具体细节进行了描述，这些具体细节可以从一种实现方式到另一种实现方式而不同。因此，说明书和附图应当在说明性而不是限制性的意义上加以考虑。本发明范围的唯一且排他指示，以及申请人预期要作为本发明范围的是由本申请产生的权利要求集合的字面和等效范围，以这种权利要求产生的具体形式，包括任何后续的更正。

8.硬件概述

根据一个实施例，本文所描述的技术由一个或多个专用计算设备来实现。专用计算设备可以是硬连线的以执行技术，或者可以包括诸如被永久性地编程以执行技术的一个或多个专用集成电路(ASIC)、现场可编程门阵列(FPGA)或网络处理单元(NPU)的数字电子设备，或者可以包括编程为根据固件、存储器、其它存储装置或组合中的程序指令执行技术的一个或多个通用硬件处理器。这些专用计算设备还可以将自定义的硬接线逻辑、ASIC、FPGA或NPU与自定义的编程组合来实现技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备或结合硬连线和/或程序逻辑来实现技术的任何其它设备。

例如，图5是图示可以在其上实现本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其它通信机制以及与总线502耦合用于处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。

计算机系统500还包括耦合到总线502用于存储信息和要由处理器504执行的指令的主存储器506，诸如随机存取存储器(RAM)或其它动态存储设备。主存储器506也可以用于存储在要由处理器504执行的指令的执行期间的临时变量或其它中间信息。当这些指令被存储在处理器504可访问的非暂态存储介质中时，这些指令使计算机系统500成为被定制用于执行指令中指定的操作的专用机器。

计算机系统500还包括耦合到总线502用于存储静态信息和处理器504的指令的只读存储器(ROM)508或其它静态存储设备。诸如磁盘或光盘之类的存储设备510被提供并且被耦合到总线502，以用于存储信息和指令。

计算机系统500可以经由总线502耦合到用于向计算机用户显示信息的显示器512，诸如阴极射线管(CRT)。包括字母数字键和其它键的输入设备514耦合到总线502，用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是光标控件516，诸如鼠标、轨迹球或光标方向键，用于向处理器504传送方向信息和命令选择并且用于控制显示器512上的光标移动。这种输入设备典型地具有在两个轴(第一轴(例如，x)和第二轴(例如，y))中的两个自由度，以允许设备在平面中指定位置。

计算机系统500可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文描述的技术，所述定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑与计算机系统结合使计算机系统500成为专用机器或将计算机系统500编程为专用机器。根据一个实施例，本文的技术由计算机系统500响应于处理器504执行主存储器506中包含的一条或多条指令的一个或多个序列而执行。这些指令可以从另一个存储介质(诸如存储设备510)读取到主存储器506中。在主存储器506中包含的指令序列的执行使处理器504执行本文描述的处理步骤。在替代实施例中，可以使用硬连线电路系统代替软件指令或与软件指令组合使用。

如本文使用的术语“存储介质”是指存储有使机器以特定方式操作的数据和/或指令的任何非暂态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，诸如存储设备510。易失性介质包括动态存储器，诸如主存储器506。存储介质的常见形式包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其它磁性数据存储介质、CD-ROM、任何其它光学数据存储介质、具有孔模式的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它存储器芯片或盒式磁带、内容可寻址存储器(CAM)和三态内容可寻址存储器(TCAM)。

存储介质与传输介质不同但可以与传输介质结合使用。传输介质参与在存储介质之间传递信息。例如，传输介质包括同轴电缆、铜线和光纤，包括包含有总线502的电线。传输介质还可以采取声波或光波的形式，诸如在无线电波和红外线数据通信期间生成的那些。

各种形式的介质可以涉及将一条或多条指令的一个或多个序列携带到处理器504以供执行。例如，指令最初可以在远程计算机的磁盘或固态驱动器上携带。远程计算机可以将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机系统500本地的调制解调器可以接收电话线上的数据并使用红外线发射器将数据转换为红外线信号。红外线检测器可以接收红外线信号中携带的数据，并且适当的电路系统可以将数据放置在总线502上。总线502将数据携带到主存储器506，处理器504从主存储器506中检索并执行指令。由主存储器506接收到的指令可以可选地在由处理器504执行之前或之后存储在存储设备510上。

计算机系统500还包括耦合到总线502的通信接口518。通信接口518提供耦合到网络链路520的双向数据通信，其中网络链路520连接到本地网络522。例如，通信接口518可以是综合业务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器、或向对应类型的电话线提供数据通信连接的调制解调器。作为另一个示例，通信接口518可以是提供到兼容的局域网(LAN)的数据通信连接的LAN卡。也可以实现无线链路。在任何这种实现中，通信接口518发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路520通常通过一个或多个网络向其它数据设备提供数据通信。例如，网络链路520可以通过本地网络522提供到主计算机524或到由互联网服务提供商(ISP)526操作的数据设备的连接。ISP 526又通过现在通常称为“互联网”528的全球分组数据通信网络提供数据通信服务。本地网络522和互联网528都使用携带数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及在网络链路520上并且通过通信接口518的信号是传输介质的示例形式，这些信号将数字数据携带到计算机系统500或携带来自计算机系统500的数字数据。

计算机系统500可以通过(一个或多个)网络、网络链路520和通信接口518发送消息和接收数据，包括程序代码。在互联网示例中，服务器530可以通过互联网528、ISP 526、本地网络522和通信接口518传输对于应用程序的所请求代码。

接收到的代码可以在它被接收时由处理器504执行，和/或存储在存储设备510或其它非易失性存储装置中以供以后执行。

在前面的说明书中，已经参考因实现而异的许多具体细节描述了实施例。因此，说明书和附图应当被认为是说明性的而不是限制性的。本发明的范围的唯一且排他的指示以及申请人预期作为本发明的范围的内容是从本申请中发出的权利要求集合的字面和等同范围，以这种权利要求发出的具体形式，包括任何后续的更正。

Claims

1.一种或多种存储指令的非暂态计算机可读介质，所述指令在由一个或多个硬件处理器执行时，使得执行操作，所述操作包括：

训练基于聚类的机器学习模型和基于分类的机器学习模型，以将数据项与一组层次类别中的对应类别相关联；

接收要被分类到所述一组层次类别的第一级别中的对应第一类别中的第一目标数据项；

将基于聚类的机器学习模型应用于第一目标数据项以生成第一层次分类，其中应用基于聚类的机器学习模型包括：

识别多个聚类中的针对第一目标数据项的第一候选聚类，第一候选聚类对应于第一层次分类，所述多个聚类由基于聚类的机器学习模型基于第一组训练数据来确定；

将(1)具有目标数据项的第一候选聚类的第一方差值与(2)不具有目标数据项的第一候选聚类的第二方差值进行比较以计算差值；

响应于确定所述差值小于阈值差值：将与第一候选聚类对应的第一层次分类识别为第一目标数据项的第一候选分类；

将基于分类的机器学习模型应用于第一目标数据项以生成第二层次分类，其中应用基于分类的机器学习模型包括：

分析与第一目标数据项对应的属性，以将第二层次分类识别为第一目标数据项的第二候选分类；

至少响应于确定由基于聚类的机器学习模型确定的第一层次分类和由基于分类的机器学习模型确定的第二层次分类相同：将第一层次分类或第二层次分类之一分配给第一目标数据项作为所述一组层次类别的第一级别中的第一类别。

2.如权利要求1所述的介质，其中识别第一候选聚类是基于第一目标数据项的属性。

3.如权利要求1所述的介质，其中基于分类的机器学习模型包括神经网络，并且分析与第一目标数据项对应的属性包括将神经网络应用于与第一目标数据项对应的属性。

4.如权利要求1所述的介质，还包括：

将基于聚类的机器学习模型应用于第二目标数据项以生成第三层次分类；

将基于分类的机器学习模型应用于第二目标数据项以生成第四层次分类；以及

至少响应于确定由基于聚类的机器学习模型确定的第三层次分类和由基于分类的机器学习模型确定的第四层次分类不同：不将第三层次分类或第四层次分类之一分配给第二目标数据项作为所述一组层次类别的第一级别中的第二类别。

5.如权利要求1所述的介质，还包括至少通过以下操作验证分配给第一目标数据项的第一层次分类或第二层次分类：

应用附加经训练的基于聚类的机器学习模型来确定与所分配的第一层次分类或所分配的第二层次分类相关联的第一级别类别和第二级别类别之间的第一相似度值；

应用经训练的基于多类分类的机器学习模型来确定与所分配的第一层次分类或所分配的第二层次分类相关联的第一级别类别和第二级别类别之间的第二相似度值；以及

响应于确定第一相似度值和第二相似度值均高于阈值，验证分配给第一目标数据项的第一层次分类或第二层次分类。

6.如权利要求1所述的介质，其中第一目标数据项包括简历、职位概述或职位需求中的一个或多个，并且其中第一类别包括申请人技能。

7.如权利要求1所述的介质，其中第一层次分类和第二层次分类是独立生成的。

8.一种方法，包括如权利要求1-7中的任一项所述的操作。

9.一种系统，包括：

至少一个设备，包括硬件处理器；

所述系统被配置为执行如权利要求1-7中的任一项所述的操作。

10.一种包括用于执行如权利要求1-7中的任一项所述的操作的装置的系统。