CN108960272B - 基于机器学习技术的实体分类 - Google Patents

基于机器学习技术的实体分类 Download PDF

Info

Publication number
CN108960272B
CN108960272B CN201810384590.0A CN201810384590A CN108960272B CN 108960272 B CN108960272 B CN 108960272B CN 201810384590 A CN201810384590 A CN 201810384590A CN 108960272 B CN108960272 B CN 108960272B
Authority
CN
China
Prior art keywords
entities
items
identifying
priority
information associated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810384590.0A
Other languages
English (en)
Other versions
CN108960272A (zh
Inventor
R·辛哈
M·A·林加雅特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Solutions Ltd
Original Assignee
Accenture Global Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Solutions Ltd filed Critical Accenture Global Solutions Ltd
Publication of CN108960272A publication Critical patent/CN108960272A/zh
Application granted granted Critical
Publication of CN108960272B publication Critical patent/CN108960272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种设备可以接收标识需求的信息。该设备可以接收与一组肯定实体和一组否定实体相关联的信息。该设备可以基于与该组肯定实体和该组否定实体相关联的信息来标识一组优先项目。该设备可以基于标识该组优先项目的信息来标识第一组辅助项目和第二组辅助项目。该设备可以基于该组优先项目、第一组辅助项目和第二组辅助项目来生成模型。该设备可以基于与一组未分类的实体相关联的信息和该模型来为该组未分类的实体确定一组分类得分。该设备可以提供标识该组分类得分的信息以引起动作与该组未分类的实体相关联地被执行。

Description

基于机器学习技术的实体分类
背景技术
实体(例如,个人、组织、公司等)可以基于与实体相关联的特定特征来满足需求或不满足需求。机器学习技术可以与实体数据相关联地使用以分类其他实体。
发明内容
在一些可能的实现中,一种设备可以包括用于接收标识需求的信息的一个或多个处理器。该一个或多个处理器可以接收与一组肯定实体和一组否定实体相关联的信息。该组肯定实体和该组否定实体可以与关联于需求的其他需求相关联。该一个或多个处理器可以基于与该组肯定实体和该组否定实体相关联的信息来标识一组优先项目。该一个或多个处理器可以基于标识该组优先项目的信息来标识第一组辅助项目和第二组辅助项目。第一组辅助项目与关联于该组肯定实体的信息相关联。第二组辅助项目与关联于该组否定实体的信息相关联。该一个或多个处理器可以基于该组优先项目、第一组辅助项目和第二组辅助项目来生成模型。该一个或多个处理器可以基于与一组未分类的实体相关联的信息和该模型来为该组未分类的实体确定一组分类得分。该一个或多个处理器可以提供标识该一组分类得分的信息以引起动作与该一组未分类的实体相关联地被执行。
在一些可能的实现中,一种方法可以包括由设备接收与一组肯定实体和一组否定实体相关联的信息。该组肯定实体和该组否定实体可以与一组需求相关联。该方法可以包括由该设备基于与该组肯定实体和该组否定实体相关联的信息来标识一组优先项目。该方法可以包括由该设备基于标识该组优先项目的信息来标识第一组辅助项目和第二组辅助项目。第一组辅助项目与关联于该组肯定实体的信息相关联。第二组辅助项目与关联于该组否定实体的信息相关联。该方法可以包括由该设备基于该组优先项目、第一组辅助项目和第二组辅助项目来生成模型。该方法可以包括由该设备基于与一组未分类的实体相关联的信息和该模型来为该组未分类的实体确定一组分类得分。该方法可以包括由该设备提供标识该组分类得分的信息以引起动作与该组未分类的实体相关联地被执行。
在一些可能的实现中,一种非暂态计算机可读介质可以存储一个或多个指令,该一个或多个指令在由一个或多个处理器执行时引起该一个或多个处理器接收标识需求的信息。该一个或多个指令可以引起该一个或多个处理器接收与一组肯定实体和一组否定实体相关联的信息。该组肯定实体和该组否定实体可以与关联于需求的其他需求相关联。该一个或多个指令可以引起该一个或多个处理器基于与该组肯定实体和该组否定实体相关联的信息来标识一组优先项目。该一个或多个指令可以引起一个或多个处理器基于标识该组优先项目的信息来标识第一组辅助项目和第二组辅助项目。第一组辅助项目可以与关联于该组肯定实体的信息相关联。第二组辅助项目可以与关联于该组否定实体的信息相关联。该一个或多个指令可以引起该一个或多个处理器基于该组优先项目、第一组辅助项目和第二组辅助项目来生成模型。该一个或多个指令可以引起该一个或多个处理器基于与一组未分类的实体相关联的信息和该模型为该组未分类的实体确定一组分类得分。该一个或多个指令可以引起该一个或多个处理器提供标识该组分类得分的信息以允许动作与该组未分类的实体相关联地被执行。
在一些可能的实现中,一种设备,包括:一个或多个处理器,用于:接收标识需求的信息;接收与一组肯定实体和一组否定实体相关联的信息,所述一组肯定实体和所述一组否定实体与关联于所述需求的其他需求相关联;基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来标识一组优先项目;基于标识所述一组优先项目的所述信息来标识第一组辅助项目和第二组辅助项目,所述第一组辅助项目与关联于所述一组肯定实体的所述信息相关联,以及所述第二组辅助项目与关联于所述一组否定实体的所述信息相关联;基于所述一组优先项目、所述第一组辅助项目和所述第二组辅助项目来生成模型;基于与一组未分类的实体相关联的信息和所述模型来为所述一组未分类的实体确定一组分类得分;以及提供标识所述一组分类得分的信息以引起动作与所述一组未分类的实体相关联地被执行。
在一些可能的实现中,所述一个或多个处理器还用于:基于与所述一组肯定实体相关联的所述信息来为第一项目确定第一出现值;基于与所述一组否定实体相关联的所述信息来为所述第一项目确定第二出现值;确定所述第一出现值与所述第二出现值之间的差值;以及其中在标识所述一组优先项目时,所述一个或多个处理器用于:基于所述差值来标识所述一组优先项目。
在一些可能的实现中,所述一个或多个处理器还用于:标识与关联于所述一组肯定实体和所述一组否定实体的所述信息相关联的一组模块;以及其中在标识所述一组优先项目时,所述一个或多个处理器用于:基于所述一组模块来标识所述一组优先项目。
在一些可能的实现中,所述一个或多个处理器还用于:标识出现在所述一组优先项目中的优先项目的阈值距离内的一组项目;以及其中在标识所述第一组辅助项目时,所述一个或多个处理器用于:基于出现在所述优先项目的所述阈值距离内的所述一组项目来标识所述第一组辅助项目。
在一些可能的实现中,所述一个或多个处理器还用于:标识与所述需求相关联的一组分段;以及其中在生成所述模型时,所述一个或多个处理器用于:基于所述一组分段中的分段来生成所述模型。
在一些可能的实现中,所述一个或多个处理器还用于:基于与所述一组未分类的实体相关联的所述信息来确定一组参数;以及其中在确定所述一组分类得分时,所述一个或多个处理器用于:基于所述一组参数来确定所述一组分类得分。
在一些可能的实现中,所述一个或多个处理器还用于:基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来执行采样技术;以及其中在标识所述一组优先项目时,所述一个或多个处理器用于:在执行所述采样技术之后标识所述一组优先项目。
在一些可能的实现中,一种方法,包括:由设备接收与一组肯定实体和一组否定实体相关联的信息,所述一组肯定实体和所述一组否定实体与一组需求相关联;由所述设备基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来标识一组优先项目;由所述设备基于标识所述一组优先项目的所述信息来标识第一组辅助项目和第二组辅助项目,所述第一组辅助项目与关联于所述一组肯定实体的所述信息相关联,以及所述第二组辅助项目与关联于所述一组否定实体的所述信息相关联;由所述设备基于所述一组优先项目、所述第一组辅助项目和所述第二组辅助项目来生成模型;由所述设备基于与一组未分类的实体相关联的信息和所述模型来为所述一组未分类的实体确定一组分类得分;以及由所述设备提供标识所述一组分类得分的信息以引起动作与所述一组未分类的实体相关联地被执行。
在一些可能的实现中,所述方法还包括:基于与所述一组肯定实体相关联的所述信息来为一组项目确定一组第一出现值;基于与所述一组否定实体相关联的所述信息来为所述一组项目确定一组第二出现值;以及其中标识所述一组优先项目包括:基于所述一组第一出现值和所述一组第二出现值来标识所述一组优先项目。
在一些可能的实现中,所述方法还包括:标识与所述一组未分类的实体相关联的一组特征;以及其中确定所述一组分类得分包括:基于所述一组特征来确定所述一组分类得分。
在一些可能的实现中,所述方法还包括:标识所述一组优先项目中的优先项目;标识出现在所述优先项目的阈值距离内的一组项目;以及其中标识所述第一组辅助项目包括:基于所述一组项目来标识所述第一组辅助项目。
在一些可能的实现中,所述方法还包括:标识与所述一组未分类的实体相关联的需求,所述需求与所述一组需求相关联;以及其中确定所述一组分类得分包括:基于所述需求来确定所述一组分类得分。
在一些可能的实现中,所述方法还包括:基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来执行采样技术;以及其中标识所述一组优先项目包括:在执行所述采样技术之后标识所述一组优先项目。
在一些可能的实现中,所述方法还包括:标识与所述一组需求相关联的一组模块;以及其中标识所述一组优先项目包括:基于所述一组模块来标识所述一组优先项目。
在一些可能的实现中,一种存储指令的非暂态计算机可读介质,所述指令包括:一个或多个指令,所述一个或多个指令在由一个或多个处理器执行时引起所述一个或多个处理器:接收标识需求的信息;接收与一组肯定实体和一组否定实体相关联的信息,所述一组肯定实体和所述一组否定实体与关联于所述需求的其他需求相关联;基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来标识一组优先项目;基于标识所述一组优先项目的所述信息来标识第一组辅助项目和第二组辅助项目,所述第一组辅助项目与关联于所述一组肯定实体的所述信息相关联,以及所述第二组辅助项目与关联于所述一组否定实体的所述信息相关联;基于所述一组优先项目、所述第一组辅助项目和所述第二组辅助项目来生成模型;基于与一组未分类的实体相关联的信息和所述模型来为所述一组未分类的实体确定一组分类得分;以及提供标识所述一组分类得分的信息以允许动作与所述一组未分类的实体相关联地被执行。
在一些可能的实现中,所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:标识所述一组优先项目的第一子集,所述第一子集与关联于所述一组未分类的实体的所述信息的第一模块相关联;标识所述一组优先项目的第二子集,所述第二子集与关联于所述一组未分类的实体的所述信息的第二模块相关联;以及其中引起所述一个或多个处理器标识所述一组优先项目的所述一个或多个指令引起所述一个或多个处理器:基于所述第一子集和所述第二子集来标识所述一组优先项目。
在一些可能的实现中,所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:标识所述一组未分类的实体中与满足阈值的分类得分相关联的第一实体子集;以及其中引起所述一个或多个处理器提供标识所述一组分类得分的所述信息的所述一个或多个指令引起所述一个或多个处理器:提供标识所述第一实体子集的信息。
在一些可能的实现中,所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来执行采样技术;以及其中引起所述一个或多个处理器标识所述一组优先项目的所述一个或多个指令引起所述一个或多个处理器:在执行所述采样技术之后,并且基于与所述一组肯定实体和所述一组否定实体相关联的所述信息,来标识所述一组优先项目。
在一些可能的实现中,所述一组肯定实体和所述一组否定实体对应于针对职位发布的申请人。
在一些可能的实现中,所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:标识与所述一组肯定实体和所述一组否定实体相关联的一组特征;基于所述一组特征来生成一组模型,所述一组模型包括所述模型;以及其中引起所述一个或多个处理器确定所述一组分类得分的所述一个或多个指令引起所述一个或多个处理器:基于所述一组模型来确定所述一组分类得分。
附图说明
图1A至1G是本文中描述的示例实现的概览的图;
图2是其中可以实现本文中描述的系统和/或方法的示例环境的图;
图3是图2的一个或多个设备的示例组件的图;以及
图4是用于实现机器学习技术以执行实体分类的示例过程的流程图。
具体实施方式
示例实现的以下详细描述参考附图。不同附图中的相同附图标记可以标识相同或相似的元件。
组织可能希望选择实体。例如,公司可能希望雇用个人担任公开职位。在这种情况下,组织可以生成标识与期望的实体(例如,申请人)相关联的一组资格、凭证等的需求(例如,职位描述)。在这种情况下,并且与申请过程相关联,一组实体可以提交相应的实体信息(例如,简历)。与组织相关联的管理者可以解析所提交的实体信息以标识特定实体(例如,以雇佣,以面试,等等)。在一些情况下,这样的过程可能会出现错误、主观、耗时等。而且,在组织接收数千个简历的情况下,管理者可以与用户设备交互以处理所提交的实体信息,从而消耗用户设备的处理器和/或存储器资源。
本文中描述的实现使得分析平台能够接收与需求(例如,职位描述)相关联的信息并且标识与该需求相似的一组其他需求(例如,其他职位空缺)。另外,本文中描述的实现使得分析平台能够接收与其他需求相关联的信息,诸如与一组肯定实体和一组否定实体(例如,分别为为其他职位空缺而雇用的候选人、以及没有为其他职位空缺而雇用的候选人)相关联的信息。此外,本文中描述的实现使得分析平台能够标识与该组肯定实体和该组否定实体相关联的信息(例如,出现在相应简历中的项目),并且基于该信息生成模型。因此,分析平台可以使用生成的模型与其他需求相关联地评分未分类的实体。以这种方式,本文中描述的实现基于使用与具有已知分类(例如,肯定或否定)的实体相关联的训练数据来生成模型来提高实体评分和/或分类的准确性。
图1A至1G是本文中描述的示例实现100的概览的图。如图1A所示,并且如附图标记105所示,分析平台可以接收标识需求的信息。例如,分析平台可以接收与职位描述相关联的信息。如附图标记110所示,分析平台可以接收与一组肯定实体和一组否定实体相关联的信息。例如,分析平台可以接收与针对类似职位而提交的简历相关联的信息。此外,肯定实体可以对应于针对类似职位而雇用的个人,而否定实体可以对应于没有针对类似职位而雇用的个人。
如图1B所示,并且如附图标记115所示,分析平台可以基于与该组肯定实体和该组否定实体相关联的信息来执行采样技术。作为示例,分析平台可以接收与四个其他需求相关联的信息(例如,针对四个其他职位空缺而提交的简历)。此外,四个其他需求中的每个可以与不同数目的提交的简历相关联,和/或可以与不同数目的肯定实体和否定实体相关联。在这种情况下,分析平台可以执行采样技术,使得与不执行采样技术的情况相比,四个其他需求中的每个需求与更多的类似的提交的简历相关联,和/或四个其他需求中的每个需求与更多的类似的肯定实体和否定实体相关联。以这种方式,分析平台可以减少与该组需求相关联的采样偏差。
虽然图1B描绘了与四个其他需求相关联的信息,但是实际上,分析平台可以接收与数千、数百万等其他需求相关联的信息,和/或可以接收与数千、数百万等实体相关联的信息。在这种情况下,分析平台可以实现一种或多种大数据技术以有效地处理信息。
如图1C所示,并且如附图标记120所示,分析平台可以基于与该组肯定实体和该组否定实体相关联的信息来标识与一组模块相关联的一组优先项目。在一些实现中,与实体相关联的信息(例如,简历)可以包括一组模块(例如,教育模块、工作经验模块、技能组合模块等)。另外,每个模块可以与各种项目相关联。例如,优先项目可以包括与关联于否定实体的数据点相比出现在与肯定实体相关联的更多数据点(例如,简历)中的项目。
作为示例,并且如图1C所示,项目1出现在与肯定实体相关联的40%的数据点中,而项目1出现在与否定实体相关联的16%的数据点中。在这种情况下,项目1与24%的差值相关联(例如,40%-16%=24%)。在一些实现中,分析平台可以基于项目的相应差异值来标识优先项目。
如图1D所示,并且如附图标记125所示,分析平台可以基于该组优先项目来标识一组辅助项目。例如,辅助项目可以是指对于特定模块出现在优先项目的阈值距离内的项目(例如,在前的3个项目、在后的4个项目等)。换言之,与肯定实体和否定实体相关联的相应数据点(例如,简历)可以包括优先项目。然而,与否定实体相比,对于肯定实体,数据点可以包括在优先项目(例如,辅助项目)之前和/或之后的不同的项目。
如图1E所示,并且如附图标记130所示,分析平台可以基于该组优先项目和该组辅助项目来生成模型。例如,分析平台可以使用机器学习技术来分析数据(例如,训练数据,诸如历史数据、与肯定实体相关联的数据、与否定实体相关联的数据等),或者可以使用另一种计算机实现的技术(诸如人工智能、机器感知或计算机视觉等)来生成模型。以这种方式,分析平台可以将已知分类(例如,肯定和否定)和已知项目(例如,优先项目和辅助项目)相关。此外,分析平台可以基于将已知分类和已知项目进行相关来生成模型,并且可以使用该模型来对未分类的实体分类,如本文中其他地方所述。
如图1F所示,并且如附图标记135所示,分析平台可以接收标识一组未分类的实体的信息,并且基于该模型来为该组未分类的实体确定一组分类得分。例如,分析平台可以接收与一组职位申请人相关联的信息(例如,简历),并且可以为每个职位候选人确定分类得分。在这种情况下,较高的分类得分可以指示与关联于较低分类得分的另一实体相比,申请人针对特定职位而被雇用、被选择进行面试等的可能性更大。
如图1G所示,并且如附图标记140所示,分析平台可以提供标识得分的信息以允许和/或引起动作被执行。例如,动作可以包括自动安排面试、批准候选人等。在一些实现中,当分类得分满足阈值时,动作可以被自动执行。作为示例,并且如图1G所示,分析平台可以向用户设备提供标识相应实体和分类得分的信息。以这种方式,用户设备可以提供该信息用于显示,由此使得操作者能够标识特定的实体。此外,如图所示,分析平台可以向服务器设备提供信息,该信息引起服务器设备更新与实体A(例如,与最高分类得分相关联的实体)相关联的记录以标识实体A已经被选择、应当被面试等。
以这种方式,本文中描述的实现基于使用与具有已知分类(例如,肯定或否定)的实体相关联的训练数据来生成模型并且标识与具有已知分类的实体相关联的潜在信息(例如,基于优先项目和辅助项目)来提高实体评分和/或分类的准确性。
虽然本文中的实现描述了基于特定需求或需求类型来对特定实体进行分类,但是应当理解,其他实现包括基于其他需求来对其他实体组进行分类。也就是说,本文中描述的实现适用于基于其他类型的信息来对其他类型的实体进行分类。作为示例,本文中描述的实现适用于第一公司基于与第二公司和/或一组其他公司相关联的信息来雇佣、选择等第二公司(例如,卖主等)。
如上所述,图1A至1G仅作为示例提供。其他示例是可能的并且可以不同于关于图1A至1G所描述的示例。
图2是其中可以实现本文中描述的系统和/或方法的示例环境200的图。如图2所示,环境200可以包括用户设备210、分析平台220、服务器设备230和网络240。环境200的设备可以经由有线连接、无线连接或者有线和无线连接的组合而互连。
用户设备210包括能够接收、生成、存储、处理和/或提供与分析平台220相关联的信息的一个或多个设备。例如,用户设备210可以包括通信和/或计算设备,诸如移动电话(例如,智能电话、无线电话等)、膝上型计算机、平板计算机、手持式计算机、游戏设备、可穿戴通信设备(例如,智能手表、智能眼镜等)或类似类型的设备。
分析平台220包括能够基于机器学习技术来为未分类的实体确定分类得分的一个或多个设备。在一些实现中,分析平台220可以被设计为是模块化的,使得某些软件组件可以根据特定需要而被交换进或出。这样,分析平台220可以容易地和/或快速地被重新配置用于不同的用途。
在一些实现中,如图所示,分析平台220可以被托管在云计算环境222中。值得注意的是,尽管本文中描述的实现将分析平台220描述为被托管在云计算环境222中,但是在一些实现中,分析平台220可以不是基于云的(即,可以在云计算环境之外实现)或者可以是部分基于云的。
云计算环境222包括托管分析平台220的环境。云计算环境222可以提供不需要托管分析平台220的一个或多个系统和/或一个或多个设备的物理位置和配置的最终用户(例如,用户设备210)知识的计算、软件、数据存取、存储等服务。如图所示,云计算环境222可以包括一组计算资源224(统称为“计算资源224”并且单独称为“计算资源224”)。
计算资源224包括一个或多个个人计算机、工作站计算机、服务器设备或其他类型的计算和/或通信设备。在一些实现中,计算资源224可以托管分析平台220。云资源可以包括在计算资源224中执行的计算实例、在计算资源224中提供的存储设备、由计算资源224提供的数据传输设备等。在一些实现中,计算资源224可以经由有线连接、无线连接或者有线和无线连接的组合来与其他计算资源224通信。
如图2进一步所示,计算资源224包括一组云资源,诸如一个或多个应用(“APP”)224-1、一个或多个虚拟机(“VM”)224-2、虚拟化存储装置(“VS”)224-3、一个或多个管理程序(“HYP”)224-4等。
应用224-1包括可以被提供给用户设备210或由用户设备210访问的一个或多个软件应用。应用224-1可以消除在用户设备210上安装和执行软件应用的需要。例如,应用224-1可以包括与分析平台220相关联的软件和/或能够经由云计算环境222提供的任何其他软件。在一些实现中,一个应用224-1可以经由虚拟机224-2向/从一个或多个其他应用224-1发送/接收信息。
虚拟机224-2包括像物理机器一样执行程序的机器(例如,计算机)的软件实现。取决于虚拟机224-2的使用和虚拟机224-2与任何真实机器的对应程度,虚拟机224-2可以是系统虚拟机或进程虚拟机。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。进程虚拟机可以执行单个程序,并且可以支持单个进程。在一些实现中,虚拟机224-2可以代表用户(例如,用户设备210)执行,并且可以管理云计算环境222的基础设施,诸如数据管理、同步或长期数据传输。
虚拟化存储装置224-3包括在计算资源224的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现中,在存储系统的上下文中,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以是指逻辑存储装置与物理存储装置的抽象(或分离),使得可以访问存储系统而不考虑物理存储装置或异构结构。分离可以允许存储系统的管理者在管理者如何管理最终用户的存储装置方面的灵活性。文件虚拟化可以消除在文件级别访问的数据与物理地存储文件的位置之间的依赖关系。这可以实现存储使用的优化、服务器整合和/或无中断文件迁移的执行。
管理程序224-4可以提供允许多个操作系统(例如,“客户操作系统”)在诸如计算资源224等主机上并行执行的硬件虚拟化技术。管理程序224-4可以向客户操作系统呈现虚拟操作平台,并且可以管理客户操作系统的执行。多种操作系统的多个实例可以共享虚拟化硬件资源。
服务器设备230包括通过网络240可访问的一个或多个设备,这些设备是可以被分析平台220使用的信息源。例如,服务器设备230可以包括服务器,该服务器包括用于由分析平台220和/或用户设备210使用的特定信息。例如,服务器设备230可以包括服务器或一组服务器(例如,基于云的服务器、应用设备、内容服务器、主机服务器、web服务器、数据库服务器等)、台式计算机或类似的设备。
网络240包括一个或多个有线和/或无线网络。例如,网络240可以包括蜂窝网络(例如,第五代(5G)网络、长期演进(LTE)网络、码分多址(CDMA)网络、第三代(3G)网络和/或其他类型的高级生成网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络、云计算网络等、和/或这些或其他类型的网络的组合。
图2所示的设备和网络的数目和布置作为示例提供。实际上,可以存在与图2所示的那些相比的更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或不同地布置的设备和/或网络。此外,图2所示的两个或更多个设备可以在单个设备内实现,或者图2所示的单个设备可以实现为多个分布式设备。另外地或替代地,环境200的一组设备(例如,一个或多个设备)可以执行被描述为由环境200的另一组设备执行的一个或多个功能。
图3是设备300的示例组件的图。设备300可以对应于用户设备210、分析平台220和/或服务器设备230。在一些实现中,用户设备210、分析平台220和/或服务器设备230可以包括一个或多个设备300和/或设备300的一个或多个组件。如图3所示,设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和通信接口370。
总线310包括允许在设备300的组件之间进行通信的组件。处理器320以硬件、固件或硬件和软件的组合来实现。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他类型的处理组件。在一些实现中,处理器320包括能够被编程为执行功能的一个或多个处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)、和/或存储用于由处理器320使用的信息和/或指令的另一类型的动态或静态存储设备(例如,闪存、磁存储器和/或光存储器)。
存储组件340存储与设备300的操作和使用有关的信息和/或软件。例如,存储组件340可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质与对应的驱动器。
输入组件350包括允许设备300诸如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)来接收信息的组件。另外地或替代地,输入组件350可以包括用于感测信息的传感器(例如,全球定位系统(GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300的输出信息的组件(例如,显示器、扬声器和/或一个或多个发光二极管(LED))。
通信接口370包括使得设备300能够诸如经由有线连接、无线连接或有线和无线连接的组合来与其他设备通信的类似收发器的组件(例如,收发器和/或单独的接收器和发射器)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如,通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备300可以执行本文中描述的一个或多个过程。设备300可以响应于处理器320执行由诸如存储器330和/或存储组件340等非暂态计算机可读介质存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非暂态存储器设备。存储器设备包括在单个物理存储设备内的存储器空间或跨多个物理存储设备而分布的存储器空间。
软件指令可以经由通信接口370从另一计算机可读介质或从另一设备读取到存储器330和/或存储组件340中。当被执行时,存储在存储器330和/或存储组件340中的软件指令可以引起处理器320执行本文中描述的一个或多个过程。另外地或替代地,可以使用硬连线电路来代替软件指令或与软件指令相结合来执行本文中描述的一个或多个过程。因此,本文中描述的实现不限于硬件电路和软件的任何特定组合。
图3所示的组件的数目和布置作为示例提供。实际上,设备300可以包括与图3所示的那些相比的更多的组件、更少的组件、不同的组件、或不同地布置的组件。另外地或替代地,设备300的一组组件(例如,一个或多个组件)可以执行被描述为由设备300的另一组组件执行的一个或多个功能。
图4是用于实现机器学习技术以执行实体分类的示例过程400的流程图。在一些实现中,图4的一个或多个过程框可以由分析平台220执行。在一些实现中,图4的一个或多个过程框可以由与分析平台220分离或包括分析平台220的另一设备或一组设备(诸如用户设备210和/或服务器设备230)来执行。
如图4所示,过程400可以包括接收标识需求的信息以及与一组肯定实体和一组否定实体相关联的信息(框410)。例如,分析平台220可以从用户设备210和/或服务器设备230接收标识需求的信息和与一组肯定实体和一组否定实体相关联的信息。
在一些实现中,需求可以与一个或多个参数相关联并且可以标识与一个或多个参数(例如,所需要的值、建议值、期望值、禁止值等)相对应的值。例如,需求可以包括职位描述、工作命令、建议、投标、授权、应用等。作为特定示例,假定需求与职位描述相关联。在这种情况下,职位描述可以包括特定参数和对应的值(例如,期望的工作经验量、必要的程度和/或集中度、建议的技能组等)。在一些实现中,管理者可以基于与实体相关联的需求和特征来选择实体(例如,雇用实体,批准实体,等等)。如本文中使用的,管理者、实体和/或操作者可以是指个人、一组个人、组织、企业、机构等。
在一些实现中,分析平台220可以从用户设备210(例如,其可以已经从操作者接收到输入)接收标识需求的信息。另外地或替代地,分析平台220可以从服务器设备230接收标识需求的信息。在一些实现中,分析平台220可以分析需求以标识与需求相关联的参数和/或值。另外地或替代地,分析平台220可以基于分析需求来标识其他需求,如下所述。
在一些实现中,分析平台220可以从用户设备210和/或服务器设备230接收与关联于需求的其他需求相关联的信息。例如,分析平台220可以接收与其他需求相关联的信息,该其他需求包括与需求相比的类似的参数和/或与参数相对应的值。作为特定示例,并且在需求是职位描述的情况下,分析平台220可以接收与其他职位相关联的信息,该其他职位与关联于职位描述的职业、技能组、职位角色、管理者等有关。
在一些实现中,分析平台220可以从用户设备210和/或服务器设备230接收与一组肯定实体和一组否定实体相关联的信息。如本文中使用的,肯定实体可以是指满足需求的实体。另外,如本文中使用的,否定实体可以是指不满足需求的实体。此外,如本文中使用的,与实体(例如,肯定实体、否定实体等)相关联的信息可以被称为实体信息。在一些实现中,实体信息可以包括简历、履历、申请、简档、文档、资源等。此外,如本文中使用的,实体信息数据点可以是指数据点(例如,特定简历),并且实体信息数据集可以是指一组数据点(例如,一组简历)。
在一些实现中,实体信息可以与其他需求相关联。例如,在其他需求是其他职位空缺的情况下,分析平台220可以接收与应用于职位空缺的实体相关联的信息。继续这个示例,该组肯定实体可以是指满足其他需求的实体(例如,针对一个或多个其他职位空缺而被雇用、针对一个或多个其他职位空缺而被面试、针对一个或多个其他职位空缺是合格的等)。此外,该组否定实体可以是指不符合其他需求的实体(例如,没有针对一个或多个其他职位空缺而被雇用、没有针对一个或多个其他职位空缺而被面试、针对一个或多个其他职位空缺是不合格的等)。以这种方式,并且如本文中其他地方所述,分析平台220基于从实体信息(例如,与肯定实体和/或否定实体相关联)中提取潜在信息并且基于提取的信息来生成模型来提高实体评分和/或选择的准确性。
如图4进一步所示,过程400可以包括基于与该组肯定实体和该组否定实体相关联的信息来执行采样技术(框420)。例如,分析平台220可以基于实体信息来执行采样技术。在一些实现中,分析平台220可以执行采样技术,诸如分层采样技术、简单随机采样技术、系统采样技术、概率与大小成比例的采样技术、集群采样技术、多级采样技术、配额采样技术、极小极大采样技术、意外采样技术、行截取采样技术、理论采样技术等。
在一些实现中,分析平台220可以执行采样技术以减少与关联于该组肯定实体和该组否定实体的信息相关联的统计偏差。在一些实现中,分析平台220可以接收与一组其他需求相关联的实体信息(例如,实体信息数据集)。此外,该组其他需求中的每个需求可以与不同数目的实体数据点相关联。此外,每个需求可以与不同数目的肯定实体和否定实体相关联。此外,与特定需求相关联的特定实体可以与不同特征(例如,技能组、工作经验、学位等)相关联。
在这种情况下,分析平台220可以执行采样技术,使得能够减少统计偏差。例如,分析平台220可以执行采样技术,使得与没有执行采样技术的情况相比,该组其他需求中的每个需求与更多的类似的实体数据点关联。另外地或替代地,分析平台220可以执行采样技术,使得与没有执行采样技术的情况相比,每个需求与更多的类似的肯定实体和/或否定实体相关联。另外地或替代地,分析平台220可以执行采样技术,使得与没有执行采样技术的情况相比,与实体信息相关联的特征在其他需求中的每个需求之间更加类似。
以这种方式,分析平台220基于对与肯定实体和否定实体相关联的信息进行归一化从而减少偏差来提高实体评分和/或选择的准确性。
如图4进一步所示,过程400可以包括基于与该组肯定实体和该组否定实体相关联的信息来标识与一组模块相关联的一组优先项目(框430)。例如,分析平台220可以基于与该组肯定实体和该组否定实体相关联的信息来标识与一组模块相关联的一组优先项目。
在一些实现中,并且如本文中其他地方所述,优先项目可以包括与关联于否定实体的实体信息相比在与肯定实体相关联的实体信息中的出现率更高的项目。在一些实现中,模块可以是指实体信息数据点的一部分。例如,实体信息数据点可以包括与特定信息相对应的一组模块。作为特定示例,在实体信息数据点是简历的情况下,与“教育”相关联的模块可以包括标识学校、与上学有关的时间范围、所获取的学位、与所获取的学位相关联的集中度等的信息。
与分析平台220不是基于模块来标识优先项目相比,通过基于模块来标识优先项目,分析平台220提高了用于实体评分和/或选择的模型生成的准确性。例如,与项目与第二模块结合使用的情况相比,当与第一模块结合使用时,特定项目可能特别重要,和/或项目可以取决于该项目出现的一个或多个特定模块而包括不同的含义。
在一些实现中,分析平台220可以获取文本并且将文本准备好用于处理以标识与该组模块相关联的优先项目。例如,分析平台220可以将实体信息表示为文本。在一些实现中,分析平台220可以确定要处理的文本部分。例如,分析平台220可以确定将文本划分成文本部分的方式并且将文本划分成文本部分。文本部分可以包括例如句子、行、段落、要点项目、表格、表格条目、页面、文档等。在一些实现中,分析平台220可以单独地处理每个文本部分(例如,串行或并行)。通过将文本划分为文本部分,分析平台220可以不必处理文本的每个文本部分,从而节省了处理器和/或存储器资源。
在一些实现中,分析平台220可以将文本准备好用于处理(例如,一个或多个文本部分)。例如,分析平台220可以将文本标准化以将文本准备好用于处理。作为示例,文本可以与不同的文件类型和/或不同的文件格式相关联,和/或可以包括与其他文本有关的特定差异。以这种方式,分析平台220可以对文本进行标准化,使得文本可以以特定格式来表示,从而通过实现更高效的处理来节省处理器和/或存储器资源。
在一些实现中,分析平台220可以通过执行自然语言处理(NLP)技术、执行光学字符识别(OCR)、调节文本中的字符(诸如通过移除字符、替换字符、添加字符、调节字体、调节格式、调节间距、移除空白等)来将文本准备好用于处理。例如,分析平台220可以移除特定字符(例如,非字母数字字符等),可以用单个空格替换多个空格,可以插入空格(例如,在左圆括号、左大括号、左括号等之后,或者在右圆括号、右大括号、右括号等之前),等等。以这种方式,分析平台220可以使用空格分隔符来更容易地解析文本,从而提高了文本使用的准确性和/或由此节省了处理器和/或存储器资源。
在一些实现中,分析平台220还可以通过以下方式来将文本准备好用于处理:扩展文本中的首字母缩略词,确定文本中的单词(例如,通过确定由一个或多个定界字符标识的字符),将词类标签(POS标签)与文本中的单词相关联,等等。以这种方式,分析平台220可以提高文本使用的准确性,从而节省了处理器和/或存储器资源。
在一些实现中,分析平台220可以标识被包括在文本中的项目,并且通过生成存储从文本中提取的项目的数据结构来生成项目语料库。在一些实现中,项目可以是指一组字符,诸如单个字符、多个字符(例如,字符串)、形成多个单词的字符的组合(例如,多单词项目,诸如短语、句子或段落)、形成首字母缩略词的字符的组合、形成单词的缩写的字符的组合、形成拼写错误的单词的字符的组合等。与没有首先生成数据结构来处理文本的情况下相比,通过生成存储从文本中提取的项目的数据结构,分析平台220可以更高效地处理文本,从而节省了处理器和/或存储器资源。
在一些实现中,分析平台220可以基于文本中的标识的模式来将一组项目和模块相关联。例如,分析平台220可以基于标识的模式来标识与模块相关联的特定的项目或一组项目。另外,分析平台220可以基于所标识的模式来将该组项目与模块相关联。例如,分析平台220可以标识与标识的模式相关联的特定的文本部分,并且可以将文本部分与模块相关联。在一些实现中,分析平台220可以生成与一组模块相对应的一组项目语料库。
在一些实现中,分析平台220可以确定与模块相关联的项目的出现值。例如,分析平台220可以为与模块相对应的项目语料库中的每个项目确定跨实体信息数据集的出现值。也就是说,分析平台220可以基于包括与特定模块相关联的特定项目的实体信息数据点的数目来标识项目的出现值。作为特定示例,假定分析平台220正在处理一千个实体信息数据点(例如,简历)。另外,假定分析平台220标识出三百个实体信息数据点包括与特定模块(例如,经验模块)相关联地“嵌入”的项目。在这种情况下,分析平台220可以为与特定模块相关联地“嵌入”的特定项目确定30%的出现值。
在一些实现中,分析平台220可以确定出现值的差值,诸如与关联于该组肯定实体的实体信息数据点相关联的项目的第一出现值和与关联于该组否定实体的实体信息数据点相关联的该项目的第二出现值之间的差值。例如,假定“嵌入的”项目包括与关联于该组肯定实体的实体信息数据点相关联的30%的第一出现值,并且该项目包括与关联于该组否定实体的实体信息数据点相关联的10%的第二出现值。在这种情况下,分析平台220可以为该项目确定20%的出现值的差值(例如,30%-10%=20%)。
在一些实现中,分析平台220可以基于与该组肯定实体相关联的实体信息和与该组否定实体相关联的实体信息之间的项目的出现值的相应差值来确定该组优先项目。例如,分析平台220可以标识包括满足阈值的出现值的差值的一组项目。另外地或替代地,分析平台220可以标识包括出现值的最大差值的项目(例如,前5个项目、前10个项目等)。
以这种方式,分析平台220可以标识包括与肯定实体相关联的实体信息和与否定实体相关联的实体信息之间的出现值的最大差值的特定项目(例如,由此指示该项目可以考虑到该需求而是特别重要的),由此使得能够基于如本文中其他地方所述的优先项目来生成模型。
如图4进一步所示,过程400可以包括基于该组优先项目来标识一组辅助项目(框440)。例如,分析平台220可以基于该组优先项目来标识一组辅助项目。在一些实现中,辅助项目可以是指对于特定模块出现在优先项目的阈值距离内的项目。例如,实体信息数据点可以包括优先项目,并且实体信息数据点可以包括在优先项目之前和/或之后的一组辅助项目。例如,假定实体信息数据点包括短语“设计和测试自动驾驶汽车的丰富经验”。此外,假定项目“自动驾驶”是优先项目。在这种情况下,项目“设计”、“测试”和/或“车辆”可以是辅助项目。
在一些实现中,分析平台220可以标识该组肯定实体的一组辅助项目以及该组否定实体的一组辅助项目。例如,分析平台220可以标识包括优先项目的、与该组肯定实体相关联的实体信息数据点,并且标识在相应优先项目的阈值距离内的一组项目(例如,在前的3个项目、在前的1个项目、在后的1个项目、在后的4个项目等)。另外地或替代地,分析平台220可以标识包括优先项目的、与该组否定实体相关联的实体信息数据点,并且标识在相应优先项目的阈值距离内的一组项目。
换言之,与肯定实体相关联的实体信息数据点和与否定实体相关联的实体信息数据点都可以包括特定优先项目。然而,相应信息数据点可以包括与优先项目相关联的不同的辅助项目。以这种方式,与仅基于优先项目而生成的模型相比,本文中描述的实现使得分析平台220能够生成更准确的模型。
如图4进一步所示,过程400可以包括基于该组优先项目和该组辅助项目来生成模型(框450)。例如,分析平台220可以基于该组优先项目和该组辅助项目来生成模型。在一些实现中,分析平台220可以使用机器学习技术来分析数据(例如,训练数据,诸如历史数据、与肯定实体相关联的数据、与否定实体相关联的数据等)并且创建模型。机器学习技术可以包括例如监督和/或无监督技术,诸如人工网络、贝叶斯统计、学习自动机、隐马尔可夫模型、线性分类器、二次分类器、决策树、关联规则学习等。
在一些实现中,分析平台220可以使用另一种计算机实现的技术(诸如人工智能、机器感知或计算机视觉)来分析数据并且生成模型。在一些实现中,分析平台220可以接收标识一组肯定实体和一组否定实体(例如,具有已知分类(诸如肯定或否定)的实体)的信息以及与该组实体相关联的实体信息(例如,简历、履历、简档、优先项目,辅助项目等)。另外,分析平台220可以基于已知分类和已知实体信息来生成模型。
在一些实现中,分析平台220可以生成一组模型。例如,分析平台220可以基于各种训练数据来生成一组模型。在一些实现中,分析平台220可以基于与肯定实体和/或否定实体相关联的特定特征来生成模型。例如,分析平台220可以标识包括一个或多个特定特征的实体信息的子集并且使用实体信息的子集来训练模型。作为示例,操作者可能希望基于与实体相关联的特定特征来如下所述对实体进行分类。以这种方式,分析平台220可以生成与特定特征相对应的一组模型(例如,使用与特定特征相对应的训练数据来训练)。
另外地或替代地,分析平台220可以标识与特定分段相关联的实体信息的子集,并且使用实体信息的子集来训练模型。例如,需求可以与一组分段相关联。作为特定示例,职位描述可以与对应于一组分段的一组构成技能组相关联。在这种情况下,分析平台220可以生成与该组分段相对应的一组模型。作为示例,编程职位可以与一组编程语言(例如,超文本标记语言(HTML)、Python、Java等)相关联。在这种情况下,分析平台220可以生成与特定语言相对应的一组模型(例如,使用与具有特定语言经验的实体相对应的数据来训练)。以这种方式,分析平台220可以基于各种训练数据来生成更多的特定模型。换言之,基于针对所有编程职位而提交的简历而生成的模型可以比基于针对特定类型的编程职位(例如,Python开发人员职位)而提交的简历而生成的模型更通用。
在一些实现中,分析平台220可以基于分类实体来接收标识实体的已知分类的附加信息,并且可以基于附加信息来更新模型。以这种方式,分析平台220可以基于接收到附加的训练信息来提高模型的准确性。
如图4进一步所示,过程400可以包括接收与一组未分类的实体相关联的信息(框460)。例如,分析平台220可以接收与一组未分类的实体相关联的信息。在一些实现中,未分类的实体可以包括除了实体信息被用于创建该组模型的实体(例如,肯定实体和否定实体)之外的实体。在一些实现中,与该组分类的实体相关联的信息可以与需求相关联。例如,该需求可以包括与职位空缺相关联的职位描述。在这种情况下,未分类的实体可以是职位空缺的候选人(例如,提交简历的候选人)。
在一些实现中,分析平台220可以从用户设备210(例如,其可以已经从操作者接收到输入)或数据仓库接收与该组未分类的实体相关联的信息。例如,操作者可能希望标识该组未分类的实体的分类得分以协助雇佣过程等。
如图4进一步所示,过程400可以包括基于该模型来为该组未分类的实体确定一组分类得分(框470)。例如,分析平台220可以基于该模型来为该组未分类的实体确定一组分类得分。在一些实现中,用户设备210(例如,其可以已经从操作者接收到输入)可以向分析平台220提供与该组未分类的实体相关联的信息,这可以引起分析平台220为该组未分类的实体确定该组分类得分。另外地或替代地,用户设备210可以提供标识与该组未分类的实体相关联的信息可以被检索到的位置的信息(例如,网络地址、资源标识符等),并且分析平台220可以检索该信息。
在一些实现中,分类得分可以指示实体与特定分类(诸如肯定、否定等)相关联。例如,与满足阈值的分类得分相关联的实体可以与特定分类相关联,而与不满足阈值的分类得分相关联的另一实体可以不与分类相关联(或可以与另一分类相关联)。作为特定示例,与关联于较低分类得分的另一实体相比,与较高分类得分相关联的实体可以更有可能被雇用,被选择用于面试,被选择以接收授权,等等。
在一些实现中,分析平台220可以确定要输入到可以用于确定分类得分的模型的一组参数。在一些实现中,参数可以对应于优先项目。例如,包括优先项目的实体信息可以与第一参数值(例如,其标识优先项目的存在)相关联,而不包括优先项目的实体信息可以与第二参数值(例如,其标识优先项目的不存在)相关联。
另外地或替代地,参数可以对应于优先项目和辅助项目(或一组辅助项目)。例如,包括优先项目和辅助项目的实体信息可以与第一参数值相关联,而不包括优先项目和辅助项目的实体信息可以与第二参数值相关联。另外地或替代地,参数可以对应于与肯定实体相关联的优先项目和辅助项目(例如,被包括在与该组肯定实体相关联的实体信息中的辅助项目)。也就是说,包括优先项目和在优先项目的阈值距离内的辅助项目的实体信息可以与特定参数值相关联。
另外地或替代地,参数可以对应于与实体信息相关联的特征。例如,包括特定特征的实体信息可以与第一参数值相关联,而不包括该特征(或包括另一特征)的实体信息可以与第二参数值相关联。作为示例,特征可以由项目或一组项目来标识。包括该项目或该组项目的实体信息可以与特定的参数值相关联。
在一些实现中,分析平台220可以基于将该组参数输入到模型中来确定分类得分。在一些实现中,分析平台220可以基于不同模型(例如,使用与对应于与需求相关联的特定分段的实体相关联的数据、与包括特定特性的实体相关联的数据等而被训练的)来为未分类的实体确定一组分类得分。另外地或替代地,分析平台220可以基于最大分类得分,基于分类得分的阈值数目满足阈值,基于将权重值应用于分类得分等来对未分类的实体进行分类。
以这种方式,分析平台220使得能够基于使用与具有已知分类(例如,肯定或否定)的实体相关联的实体信息而训练的模型来确定分类得分。以这种方式,分析平台220基于使用利用与具有已知分类的实体相关联的潜在信息而训练的模型,更准确地为未分类的实体确定分类得分。
如图4进一步所示,过程400可以包括提供标识得分的信息以允许和/或引起动作被执行(框480)。例如,分析平台220可以提供标识得分的信息以允许和/或引起动作被执行。
在一些实现中,动作可以包括自动生成通信(电子邮件、文本等),诸如对参与筛选呼叫的职位候选人的邀请;自动安排会议(例如,经由电子日历),诸如面试;自动推进与实体相关的过程,诸如将职位候选人标识为潜在的雇员;自动处理实体(例如,加入新雇员);等等。另外地或替代地,该动作可以包括自动地引起账户被修改,记录被修改,背景检查被执行,等等。
另外地或替代地,动作可以包括向用户设备210提供标识分类得分的信息。例如,用户设备210可以提供标识与分类得分相关联的实体的信息用于显示。作为示例,用户设备210可以基于相应的分类得分来提供标识前10个、前5个、前3个等实体的信息用于显示。以这种方式,操作者可以快速地标识特定实体。此外,以这种方式,本文中描述的实现减少了为了标识特定实体而消耗的计算资源的量。作为示例,假定大量实体(例如,1万个、2万个等)提交与需求相关联的实体信息。在一些情况下,操作者可以与用户设备210交互以分析这些实体的实体信息。本文中描述的实现减少了这种需求。
尽管图4示出了过程400的示例框,但是在一些实现中,过程400可以包括与图4中所描绘的那些相比的更多的框、更少的框、不同的框或不同地布置的框。另外地或替代地,过程400的两个或更多个框可以并行执行。
本文中描述的实现使得分析平台能够接收与需求相关联的信息并且标识与需求类似的一组其他需求。另外,本文中描述的实现使得分析平台能够接收与其他需求相关联的信息,诸如与一组肯定实体和一组否定实体相关联的信息(例如,针对其他职位空缺而被雇用的候选人以及没有针对其他职位空缺而被雇佣的候选人)。此外,本文中描述的实现使得分析平台能够标识与该组肯定实体和该组否定实体相关联的信息,并且基于该信息来生成模型。因此,分析平台可以使用生成的模型与其他需求相关联地对未分类的实体进行评分。以这种方式,本文中描述的实现基于从实体信息中提取潜在信息并且使用与具有已知分类(例如,肯定或否定)的实体相关联的训练数据来生成模型来提高实体评分的准确性。
前面的公开内容提供了说明和描述,但是并非旨在穷尽实现或将实现限制为所公开的准确形式。鉴于上述公开内容,修改和变化是可能的,或者可以从实现的实践中获取。
如本文中使用的,项目组件旨在被广义地解释为硬件、固件和/或硬件和软件的组合。
一些实现在本文中结合阈值进行描述。如本文中使用的,满足阈值可以是指大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等的值。
很清楚的是,本文中描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现的限制。因此,本文中描述了系统和/或方法的操作和行为而没有参考具体的软件代码,应当理解,软件和硬件可以被设计为基于本文中的描述来实现系统和/或方法。
尽管特征的特定组合在权利要求中记载和/或在说明书中公开,但是这些组合不意图限制可能的实现的公开内容。实际上,这些特征中的很多特征可以以未在权利要求中具体记载和/或在说明书中公开的方式组合。尽管下面列出的每个从属权利要求可以仅直接依赖于一项权利要求,但是可能的实现的公开内容包括每个从属权利要求与权利要求组中的每个其他权利要求的组合。
除非明确地如此描述,否则本文中使用的任何元素、动作或指令不应当被解释为是关键或必要的。而且,如本文中使用的,冠词“一个(a)”和“一个(an)”旨在包括一个或多个项目,并且可以与“一个或多个”可互换地使用。此外,如本文中使用的,术语“集合”旨在包括一个或多个项目(例如,相关项目、不相关项目、相关项目和不相关项目的组合等),并且可以与“一个或多个”可互换地使用。如果预期只有一个项目,则使用术语“一个(one)”或类似的语言。而且,如本文中使用的,术语“具有(has)”、“具有(have)”、“具有(hasing)”等意图是开放式术语。此外,除非另有明确说明,否则短语“基于”旨在表示“至少部分基于”。

Claims (20)

1.一种用于实体分类的设备,包括:
用于接收标识需求的信息的装置;
用于接收与一组肯定实体和一组否定实体相关联的信息的装置,
所述一组肯定实体和所述一组否定实体与关联于所述需求的其他需求相关联;
用于基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来标识一组优先项目的装置;
用于标识出现在所述一组优先项目中的优先项目的阈值距离内的短语的一组项目的装置,其中所述一组项目在所述阈值距离是指以下之一:在前的一定数量的项目或者在后的一定数量的项目;
用于基于出现在优先项目的所述阈值距离内的所述一组项目来标识第一组辅助项目和第二组辅助项目的装置,
所述第一组辅助项目与关联于所述一组肯定实体的所述信息相关联,以及
所述第二组辅助项目与关联于所述一组否定实体的所述信息相关联;
用于基于所述一组优先项目、所述第一组辅助项目和所述第二组辅助项目来生成模型的装置,
所述模型基于机器学习技术而生成,所述机器学习技术被实现为执行实体分类;
用于基于与一组未分类的实体相关联的信息和所述模型来为所述一组未分类的实体确定一组分类得分的装置;以及
用于提供标识所述一组分类得分的信息以引起动作与所述一组未分类的实体相关联地被执行的装置。
2.根据权利要求1所述的设备,还包括:
用于基于与所述一组肯定实体相关联的所述信息来为第一项目确定第一出现值的装置;
用于基于与所述一组否定实体相关联的所述信息来为所述第一项目确定第二出现值的装置;
用于确定所述第一出现值与所述第二出现值之间的差值的装置;以及
其中用于标识所述一组优先项目的所述装置包括:
用于基于所述差值来标识所述一组优先项目的装置。
3.根据权利要求1所述的设备,还包括:
用于标识与关联于所述一组肯定实体和所述一组否定实体的所述信息相关联的一组模块的装置;以及
其中用于标识所述一组优先项目的所述装置包括:
用于基于所述一组模块来标识所述一组优先项目的装置。
4.根据权利要求1所述的设备,还包括:
用于标识与所述需求相关联的一组分段的装置;以及
其中用于生成所述模型的所述装置包括:
用于基于所述一组分段中的分段来生成所述模型的装置。
5.根据权利要求1所述的设备,还包括:
用于基于与所述一组未分类的实体相关联的所述信息来确定一组参数的装置;以及
其中用于确定所述一组分类得分的所述装置包括:
用于基于所述一组参数来确定所述一组分类得分的装置。
6.根据权利要求1所述的设备,还包括:
用于基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来执行采样技术的装置;以及
其中用于标识所述一组优先项目的所述装置包括:
用于在执行所述采样技术之后标识所述一组优先项目的装置。
7.根据权利要求1所述的设备,其中所述一组肯定实体和所述一组否定实体对应于针对职位发布的申请人。
8.根据权利要求7所述的设备,其中,所述短语与所述需求相关联,并且包括出现在所述申请人的简历中的项目。
9.一种用于实体分类的方法,包括:
由设备接收与一组肯定实体和一组否定实体相关联的信息,
所述一组肯定实体和所述一组否定实体与一组需求相关联;
由所述设备基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来标识一组优先项目;
由所述设备标识出现在所述一组优先项目中的优先项目的阈值距离内的短语的一组项目,其中所述一组项目在所述阈值距离是指以下之一:在前的一定数量的项目或者在后的一定数量的项目;
由所述设备基于出现在优先项目的所述阈值距离内的所述一组项目来标识第一组辅助项目和第二组辅助项目,
所述第一组辅助项目与关联于所述一组肯定实体的所述信息相关联,以及
所述第二组辅助项目与关联于所述一组否定实体的所述信息相关联;
由所述设备基于所述一组优先项目、所述第一组辅助项目和所述第二组辅助项目来生成模型,
所述模型基于机器学习技术而生成,所述机器学习技术被实现为执行实体分类;
由所述设备基于与一组未分类的实体相关联的信息和所述模型来为所述一组未分类的实体确定一组分类得分;以及
由所述设备提供标识所述一组分类得分的信息以引起动作与所述一组未分类的实体相关联地被执行。
10.根据权利要求9所述的方法,还包括:
基于与所述一组肯定实体相关联的所述信息来为所述一组项目确定一组第一出现值;
基于与所述一组否定实体相关联的所述信息来为所述一组项目确定一组第二出现值;以及
其中标识所述一组优先项目包括:
基于所述一组第一出现值和所述一组第二出现值来标识所述一组优先项目。
11.根据权利要求9所述的方法,还包括:
标识与所述一组未分类的实体相关联的一组特征;以及
其中确定所述一组分类得分包括:
基于所述一组特征来确定所述一组分类得分。
12.根据权利要求9所述的方法,还包括:
标识与所述一组未分类的实体相关联的需求,
所述需求与所述一组需求相关联;以及
其中确定所述一组分类得分包括:
基于所述需求来确定所述一组分类得分。
13.根据权利要求9所述的方法,还包括:
基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来执行采样技术;以及
其中标识所述一组优先项目包括:
在执行所述采样技术之后标识所述一组优先项目。
14.根据权利要求9所述的方法,还包括:
标识与所述一组需求相关联的一组模块;以及
其中标识所述一组优先项目包括:
基于所述一组模块来标识所述一组优先项目。
15.一种存储指令的非暂态计算机可读介质,所述指令包括:
一个或多个指令,所述一个或多个指令在由一个或多个处理器执行时引起所述一个或多个处理器:
接收标识需求的信息;
接收与一组肯定实体和一组否定实体相关联的信息,
所述一组肯定实体和所述一组否定实体与关联于所述需求的其他需求相关联;
基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来标识一组优先项目;
标识出现在所述一组优先项目中的优先项目的阈值距离内的短语的一组项目,其中所述一组项目在所述阈值距离是指以下之一:在前的一定数量的项目或者在后的一定数量的项目;
基于出现在优先项目的所述阈值距离内的所述一组项目来标识第一组辅助项目和第二组辅助项目,
所述第一组辅助项目与关联于所述一组肯定实体的所述信息相关联,以及
所述第二组辅助项目与关联于所述一组否定实体的所述信息相关联;
基于所述一组优先项目、所述第一组辅助项目和所述第二组辅助项目来生成模型
所述模型基于机器学习技术而生成,所述机器学习技术被实现为执行实体分类;
基于与一组未分类的实体相关联的信息和所述模型来为所述一组未分类的实体确定一组分类得分;以及
提供标识所述一组分类得分的信息以允许动作与所述一组未分类的实体相关联地被执行。
16.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:
标识所述一组优先项目的第一子集,所述第一子集与关联于所述一组未分类的实体的所述信息的第一模块相关联;
标识所述一组优先项目的第二子集,所述第二子集与关联于所述一组未分类的实体的所述信息的第二模块相关联;以及
其中引起所述一个或多个处理器标识所述一组优先项目的所述一个或多个指令引起所述一个或多个处理器:
基于所述第一子集和所述第二子集来标识所述一组优先项目。
17.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:
标识所述一组未分类的实体中与满足阈值的分类得分相关联的第一实体子集;以及
其中引起所述一个或多个处理器提供标识所述一组分类得分的所述信息的所述一个或多个指令引起所述一个或多个处理器:
提供标识所述第一实体子集的信息。
18.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:
基于与所述一组肯定实体和所述一组否定实体相关联的所述信息来执行采样技术;以及
其中引起所述一个或多个处理器标识所述一组优先项目的所述一个或多个指令引起所述一个或多个处理器:
在执行所述采样技术之后,并且基于与所述一组肯定实体和所述一组否定实体相关联的所述信息,来标识所述一组优先项目。
19.根据权利要求15所述的非暂态计算机可读介质,其中所述一组肯定实体和所述一组否定实体对应于针对职位发布的申请人。
20.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还引起所述一个或多个处理器:
标识与所述一组肯定实体和所述一组否定实体相关联的一组特征;
基于所述一组特征来生成一组模型,
所述一组模型包括所述模型;以及
其中引起所述一个或多个处理器确定所述一组分类得分的所述一个或多个指令引起所述一个或多个处理器:
基于所述一组模型来确定所述一组分类得分。
CN201810384590.0A 2017-04-27 2018-04-26 基于机器学习技术的实体分类 Active CN108960272B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/499,372 2017-04-27
US15/499,372 US11238363B2 (en) 2017-04-27 2017-04-27 Entity classification based on machine learning techniques

Publications (2)

Publication Number Publication Date
CN108960272A CN108960272A (zh) 2018-12-07
CN108960272B true CN108960272B (zh) 2022-06-03

Family

ID=63917304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810384590.0A Active CN108960272B (zh) 2017-04-27 2018-04-26 基于机器学习技术的实体分类

Country Status (2)

Country Link
US (1) US11238363B2 (zh)
CN (1) CN108960272B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197484A1 (en) * 2017-12-22 2019-06-27 Microsoft Technology Licensing, Llc Segmentation and labeling of job postings
US10771562B2 (en) * 2018-12-19 2020-09-08 Accenture Global Solutions Limited Analyzing device-related data to generate and/or suppress device-related alerts
CN111144102B (zh) * 2019-12-26 2022-05-31 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
US11743056B2 (en) * 2020-05-26 2023-08-29 Indeed, Inc. Systems and methods for self-contained certificate signing request in delegation scenarios

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2605821A1 (en) * 2007-11-05 2009-05-05 Masud H. Ansari Simplified and accelerated method of job advertisement and candidate screening in the hiring process
JP2012108867A (ja) * 2010-10-29 2012-06-07 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びそのプログラム
CN104318340A (zh) * 2014-09-25 2015-01-28 中国科学院软件研究所 基于文本履历信息的信息可视化方法及智能可视分析系统
CN105787639A (zh) * 2016-02-03 2016-07-20 北京云太科技有限公司 基于人工智能的人才大数据量化精确匹配方法和装置
CN106447285A (zh) * 2016-09-12 2017-02-22 北京大学 基于多维度领域关键知识的招聘信息匹配方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325660A1 (en) * 2012-05-30 2013-12-05 Auto 100 Media, Inc. Systems and methods for ranking entities based on aggregated web-based content
US9292797B2 (en) * 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
EP3224735A4 (en) * 2014-11-26 2018-05-09 Vobis Inc. Systems and methods to determine and utilize conceptual relatedness between natural language sources
US10019238B2 (en) * 2015-06-23 2018-07-10 Open Text Sa Ulc Compositional entity modeling systems and methods
US10324969B2 (en) 2015-12-08 2019-06-18 Accenture Global Solutions Limited Scoring documents
JP2018010532A (ja) * 2016-07-14 2018-01-18 株式会社レトリバ 情報処理装置、プログラム及び情報処理方法
US11645317B2 (en) * 2016-07-26 2023-05-09 Qualtrics, Llc Recommending topic clusters for unstructured text documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2605821A1 (en) * 2007-11-05 2009-05-05 Masud H. Ansari Simplified and accelerated method of job advertisement and candidate screening in the hiring process
JP2012108867A (ja) * 2010-10-29 2012-06-07 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びそのプログラム
CN104318340A (zh) * 2014-09-25 2015-01-28 中国科学院软件研究所 基于文本履历信息的信息可视化方法及智能可视分析系统
CN105787639A (zh) * 2016-02-03 2016-07-20 北京云太科技有限公司 基于人工智能的人才大数据量化精确匹配方法和装置
CN106447285A (zh) * 2016-09-12 2017-02-22 北京大学 基于多维度领域关键知识的招聘信息匹配方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法

Also Published As

Publication number Publication date
CN108960272A (zh) 2018-12-07
US20180314973A1 (en) 2018-11-01
US11238363B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
US20180357511A1 (en) Recommending machine learning techniques, features, and feature relevance scores
CN108960272B (zh) 基于机器学习技术的实体分类
US11087088B2 (en) Automated and optimal encoding of text data features for machine learning models
AU2019202750A1 (en) Automatic analysis of a technical capability
US20210125124A1 (en) Utilizing a machine learning model to manage a project release
US11972360B2 (en) Utilizing machine learning models to automatically generate contextual insights and actions based on legal regulations
US9690772B2 (en) Category and term polarity mutual annotation for aspect-based sentiment analysis
US20200097601A1 (en) Identification of an entity representation in unstructured data
US9965459B2 (en) Providing contextual information associated with a source document using information from external reference documents
US10437233B2 (en) Determination of task automation using natural language processing
US10915820B2 (en) Generating data associated with underrepresented data based on a received data input
US10831448B2 (en) Automated process analysis and automation implementation
US10380162B2 (en) Item to vector based categorization
US10877828B2 (en) Automatic analysis of a set of systems used to implement a process
KR20180077690A (ko) 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
US12001951B2 (en) Automated contextual processing of unstructured data
AU2017201629B2 (en) Identifying trends associated with topics from natural language text
US20140207712A1 (en) Classifying Based on Extracted Information
US20210233007A1 (en) Adaptive grouping of work items
CN111797633A (zh) 特征提交重复数据删除引擎
JP7440477B2 (ja) 自然言語処理およびレコメンデーション生成のためのマルチモデル手法
Pielka et al. Fraunhofer IAIS at FinCausal 2020, tasks 1 & 2: using ensemble methods and sequence tagging to detect causality in financial documents
Atoum et al. Building a pilot software quality-in-use benchmark dataset
US20240070658A1 (en) Parsing event data for clustering and classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant