CN112925913B

CN112925913B - 用于匹配数据的方法、装置、设备和计算机可读存储介质

Info

Publication number: CN112925913B
Application number: CN202110262413.7A
Authority: CN
Inventors: 张敬帅; 黄启帆; 马超; 祝恒书; 王鹏; 姚开春; 王晶
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2023-08-29
Anticipated expiration: 2041-03-09
Also published as: CN112925913A; US20220129856A1

Abstract

本公开公开了用于匹配数据的方法、装置、设备和计算机可读存储介质，涉及人工智能领域，尤其涉及智能搜索和深度学习领域。具体实现方案为：获取简历的第一实例和岗位简档的第二实例；确定针对元路径的第一实例的简历特征数据和第二实例的简档特征数据，元路径为从简历到达岗位简档的知识图谱路径；以及将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。通过该方法，减少简历和岗位简档的匹配时间，提高了匹配简历和岗位简档的准确度，改进了用户体验。

Description

用于匹配数据的方法、装置、设备和计算机可读存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及智能搜索和深度学习领域的用于匹配数据的方法、装置、设备和计算机可读存储介质。

背景技术

随着社会的发展，企业提供了越来越多的各种类型的岗位。在提供这些不同类型的岗位的同时也细化了对各个岗位的要求。因此，网络中的岗位简档数据快速的增加。随着教育水平的提高，人才的数量也迅速增加。此时，网络中简历的数量同样迅速增长。

如果企业获取到合适的人才可以加速企业的快速发展。因此，需要通过从大量的简历数据与岗位简档数据来帮助企业找到合适的人才，以加快企业的发展。然而，在利用简历数据和岗位简档数据为企业提供人才的过程中还存在许多需要解决的技术问题。

发明内容

本公开提供了一种用于匹配数据的方法、装置、设备以及计算机可读存储介质。

根据本公开的一方面，提供了一种用于匹配数据的方法。该方法包括获取简历的第一实例和岗位简档的第二实例。该方法还包括确定针对元路径的第一实例的简历特征数据和第二实例的简档特征数据，元路径为从简历到达岗位简档的知识图谱路径。该方法还包括将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。

根据本公开的另一方面，提供了一种用于匹配数据的装置。该装置包括：获取模块，被配置为获取简历的第一实例和岗位简档的第二实例；第一特征数据确定模块，被配置为确定针对元路径的第一实例的简历特征数据和第二实例的简档特征数据，元路径为从简历到达岗位简档的知识图谱路径；以及应用模块，被配置为将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面的方法。

根据本公开的第四方面，提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行根据本公开的第一方面的方法。

根据本公开的第五方面，提供一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开的第一方面的方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的元路径的示例200的流程图；

图3示出了根据本公开的一些实施例的用于匹配数据的方法300的流程图；

图4示出了根据本公开的一些实施例的对应于同一推荐理由的元路径的示例400的示意图；

图5示出了根据本公开的一些实施例的用于呈现匹配结果的示例500的示意图；

图6示出了根据本公开的一些实施例的用于匹配数据的装置600的框图；以及

图7示出了能够实施本公开的多个实施例的设备700的框图。。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

对于企业来说，高效准确的人岗匹配有助于企业打造核心竞争力。现在各类招聘平台的应用大幅降低了简历投递成本。由于简历数量激增，招聘人员需要花费大量时间寻找合适的候选人。在招聘职位专业分工愈加细化的今天，招聘人员往往需要学习足够专业知识才能理解候选人简历内容。

为了从简历中找到适合岗位的人员，通常利用人工判断来查找。该方法由招聘人员人工分析简历描述和岗位需求，并根据自己的工作经验对简历和岗位的匹配程度进行判断。然而，这种方式需要招聘人员花费大量时间去阅读并理解候选人简历内容，消耗大量人力成本。另一方面人工判断依靠招聘人员的个人招聘经验，招聘结果带有主观性，可能对匹配结果产生偏差。

因此，出现了改进方案。一种是基于自然语言处理方法判断简历文本和岗位文本的语义相似度。该方法通过利用词频-逆向文件频率(Term Frequency-Inverse DocumentFrequency，TFIDF)、潜在语义分析(Latent Semantic Analysis，LSA)、隐含狄利克雷分配(Latent Dirichlet Allocation，LDA)、深度学习等策略，对简历和岗位文本进行表征。通过计算表征向量之间的向量距离，判断简历和岗位文本的语义相似度。虽然可以利用文本的语义进行匹配，但是招聘领域需要领域知识，只利用文本匹配技术无法捕捉文本外隐含的信息。比如招聘大数据工程师，岗位描述只写了要求擅长Spark，候选人简历只写了擅长Hadoop，此时无法利用已有的技能之间的关系等先验知识进行匹配，造成匹配结果上的偏差。

另一种方式是基于知识图谱和图神经网络技术判断简历文本和岗位文本的语义相似度。该方法通过利用图神经网络技术对知识图谱的节点和关系进行表征。最终通过度量简历和岗位向量之间的空间距离，来判断简历和岗位文本的语义相似度。但通过模型训练得到的简历和岗位的特征向量各个纬度无法找到准确的物理定义，通过向量空间距离去判断简历和岗位的匹配度，缺乏对匹配结果的解释性，在实际使用中会对招聘人员造成困惑，不利于其使用。

为了至少解决上述问题，根据本公开的实施例，提出一种用于匹配数据的改进方案。在该方案中，计算设备先获取简历的第一实例和岗位简档的第二实例。然后计算设备确定针对元路径的第一实例的简历特征数据和第二实例的简档特征数据，元路径为从简历到达岗位简档的知识图谱路径。计算设备将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。通过该方法，减少简历和岗位简档的匹配时间，提高了匹配简历和岗位简档的准确度，改进了用户体验。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境100包括计算设备106。

计算设备106用于对获得的简历的实例102和岗位简档的实例104进行处理以确定简历的实例102和岗位简档的实例104是否匹配。示例计算设备106包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。其中服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

简历的实例102可以包括求职者具有的技能和/或技能所属的领域。为了描述方便，简历的实例102也可以被称为第一实例。在一些实施例中，求职者的技能可以指求职者所具有的能力。例如，计算机领域的求职者的简档中会描述熟悉Spark或者熟悉Hadoop。备选地或附加地，还可以在简档中包括所具有的技能所属的领域，例如Spark或Hadoop所属的大数据领域。上述示例仅是用于描述本公开，而非对本公开的具体限定。本领域技术人员可以依据需要设置简历实例中的技能和技能所属的领域。

在一些实施例中，岗位简档的实例104可以包括岗位所需的技能和/或所需的技能所属的技术领域。为了描述方便，岗位简档实例也可以被称为第二实例。岗位简档的实例104中的技能为满足岗位要求所需的技能。备选地或附加地，岗位简档的实例中也可以包括所需的技能所属的领域。

图1中示出了计算设备106接收一个简历的实例102和一个岗位简档的实例104。其仅是示例，而非对本公开的具体限定。其可以接收任意数目的简历的实例和任意数目的岗位简档的实例。然后给出简历的实例和岗位简档的实例之间的匹配结果。

计算设备106获得简历的实例102和岗位简档的实例104后，还会获得一组元路径。该一组元路径是从知识图谱中获得的从简历到岗位简档的路径。

为了能实现简历和岗位简档的匹配，可以构建知识图谱。在构建知识图谱的过程中，使用多源异构数据(包括历史招聘数据、检索数据、百科数据等)来获得实体和关系，实体的类型包括领域、技能、职位标题等，抽取的关系包括属于、相关、要求、拥有等，如技能的实例Spark从属于大数据领域，职位A要求技能的实例为Spark。然后由实体实例和关系形成知识图谱。

根据知识图谱，预先确定一组知识图谱的元路径，例如可设置一组知识图谱的元路径为18个元路径。每条元路径为由实体类型和关系形成的路径，其开头实体类型为简历类型，尾实体类型为岗位简档类型，并且经由至少一个中间实体类型来从简类类型到达岗位简档类型。其中在元路径的中间的实体类型可以为领域类型、技能类型等。例如，图2示出了根据本公开的一些实施例的元路径的示例200的流程图。

如图2所示，其中的第一条元路径为经由技能类型来实现从简历类型到岗位简档类型，第二条元路径为经由技能类型和成功应聘的简历类型来从简历类型到岗位简档类型。

返回图1接着进行描述，计算设备106会获得针对元路径的与简历的实例相对应的简历特征数据108和与岗位简档的实例相对应的简档特征数据110。通过利用简历特征数据108和简档特征数据110来获得匹配结果112。

计算设备106可以将匹配结果呈现给用户，例如匹配结果可以为匹配程度的得分。

通过该方法，减少了简历和岗位简档的匹配时间，提高了简历和岗位简档的匹配的准确度，改进了用户体验。

上面结合图1和图2描述了本公开的多个实施例的能够在其中实现的环境100。下面结合图3描述根据本公开的一些实施例的用于匹配数据的方法300的流程图。图3中的方法300中由图1中的计算设备106或任意合适的计算设备执行。

在框302处，获取简历的第一实例和岗位简档的第二实例。例如，图1中的计算设备106获取简例的实例102和岗位简档的实例104。

在一些实施例中，第一实例为求职者的具体简历，其可以包括求职者所拥有的技术实例。备选或附加地，第一实例中还包括技述实例所在的领域实例。例如，熟悉深度学习领域的Spark。在一些实施例中，第二实例为具体的岗位要求，其中包括岗位所需的技术实例。备选地或附加地第二实例还包括所需的技术实例所在的领域实例。在一些实施例中，第一实例和第二实例还包括具有的职称水平等。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框304处，确定在针对路径的第一实例的简历特征数据和第二实例的简档特征数据，元路径为从简历到达岗位简档的知识图谱路径。例如，图1中的计算设备106可用于确定针对元路径的简历的实例102的简历特征数据和岗位简档的实例104的简档特征数据。

在一些实施例中，计算设备106确定从第一实例到达第二实例的元路径的实例的数量。然后计算设备106利用元路径的实例的数量，确定第一实例和第二实例针对元路径的相似度。然后，计算设备106基于相似度，确定简历特征数据和简档特征数据。通过该方式可以快速的确定简历特征数据和简档特征数据。

在一些实施例中，对于每条元路径，计算至少包括第一实例的一组简历实例和至少包括第二实例的一组岗位简档实例的路径相似度(Pathsim)矩阵S，维度为简历实例数量×岗位简档实例数量。路径相似度矩阵S中的第(i，j)个元素表示简历实例i与岗位简档实例j在元路径k上的路径相似度。元路径k为预先设置的一组元路径中的第k个元路径。简历实例i与岗位简档实例j在元路径k上的路径相似度s_ij定义如下，其中i，j，k是大于0的正整数：

用g_ij表示简历实例i与岗位简档实例j之间的元路径k的实例数量，用G表示针对该一组简历实例和一组岗位简档实例的元路径k的实例数量矩阵。路径相似度矩阵S可以通过一系列连接矩阵M相乘和归一化得到。给定一个三元组模式，(实体类型A，关系R，实体类型B)，连接矩阵可以表示该三元组模式所有实例的信息。其维度为实体类型A的实例数量×实体类型B的实例数量。如果实体实例x和实体实例y之间存在关系R，则连接矩阵第(x，y)个元素值为1，否则为0，其中x，y是大于0的正整数。以图2中的第三条元路径为例，S计算方式如下：

a.首先计算元路径实例数量矩阵：

b.然后计算路径相似度矩阵的第(i，j)个元素：

其中g_ij为G中第(i，j)个元素。

通过上述方式可以获得针对每条路径的路径相似度矩阵。然后，通过矩阵分解获得每个元路径k对应的简历表征矩阵R^(k)和岗位表征矩阵P^(k)。R^(k)和P^(k)最小化下列目标函数，其中θ_k为元路径权重，α为正则化系数，在一些实施例中，α取值范围在0.001-0.1之间。

其中代表简历表征矩阵大小，其中m为简历个数，d为隐向量大小，/>代表岗位表征矩阵大小，其中n为岗位个数，/>表示s中的元素(i，j)满足/>的条件，/>表示s中的元素(i，j)满足/>的条件，s.t.表示满足。代表/>与/>的点积。然后简历表征矩阵和岗位表征矩阵分别用作简历特征数据和简档特征数据。

在一些实施例中，计算设备106是通过在已经存储了的简历的参考实例及其对应的参考简历特征数据中进行匹配查找来获得简历特征数据。计算设备106首先获取与简历的第一多个参考实例相对应的第一多个参考简历特征数据。然后根据第一实例包括的元路径中的实体类型实例实例，确定第一多个参考实例中是否存在与第一实例相匹配的参考实例。例如，计算设备106可以根据第一实例中的可用技能在参考实例的可用技能匹配的数量或匹配的百分比来确定是否存在与第一实例对应的参考实例，例如匹配的技能实例的数量超过阈值或者第一实例与参考实例中相同的可用技能的数量与参考实例的可用技能的数量的百分比超过阈值百分比。

如果第一多个参考实例中存在与第一实例相对应的参考实例，将与参考实例相对应的参考简历特征数据作为简历特征数据。通过上述方式，可以快速的确定简历特征数据。如果从已存储的参考实例中未找到与第一实例匹配的参考实例，则可以通过上面的公式来计算来简历特征数据。

在一些实施例中，计算设备106是通过在已经存储了的岗位简档的参考实例及其对应的参考简档特征数据中进行匹配查找来获得简档特征数据。计算设备106获取与岗位简档的第二多个参考实例相对应的第二多个参考简档特征数据。然后计算设备106利用第二实例中包括的所述元路径中的实体类型实例来确定第二多个参考实例中是否存在与第二实例相对应的参考实例。例如，计算设备106可以根据第二实例中的所需技能与参考实例的所需技能匹配的数量或匹配的百分比来确定是否存在与第二实例对应的参考实例，例如匹配的技能实例的数量超过阈值或者第二实例与参考实例中相同的所需技能的数量与参考实例的所需技能的数量的百分比超过阈值百分比。

如果第二多个参考实例中存在与第二实例相对应的参考实例，则将与参考实例相对应的参考简档特征数据作为简档特征数据。通过上述方式，可以快速准确的获取简档特征数据如果从已存储的参考实例中未找到与第二实例匹配的参考实例，则可以通过上面的公式计算获得简档特征数据。

在一些实施例中，简历特征数据和简档特征数据可以先从预先存储的参考实例进行确定，只有在同时找到第一实例的参考实例和第二实例的参考实例的情况下才直接使用由参考实例确定的简历特征数据和简档特征数据。否则，通过前述的公式进行计算来确定简历特征数据和简档特征数据。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框306处，将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。例如，图1的计算设备106将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。

在一些实施例中，获得简历实例i和岗位简档实例j针对元路径k的简历表征矩阵和岗位简档表征矩阵k＝0，1，...，Ｎ。N为大于0的正整数，如果用户设置了18条元路径，则N为18。然后将N个元路径的简历表征矩阵和岗位简档表征矩阵点积以用于输入分类模型来获得匹配结果。

在一些实施例中，分类器是利用多个样本简历实例、多个样本岗位简档实例和多个样本简历实例和多个样本岗位简档实例之间的样本匹配结果训练得到的。通过上述方式，可以获得准确的模型参数。

在训练分类模型时，通过上述方法获得样本简历实例和样本岗位简档实例针对每条元路径的简历表征矩阵和岗位简档表征矩阵。然后将获得的针对一组元路径的简历表征矩阵和岗位简档表征矩阵进行点积作为特征数据输入分类器，然后基于样本申请结果来训练该分类器。例如，对于每一个(简历i，岗位j，申请结果)组合得到最终的训练数据，并将针对元路径的简历表征矩阵和岗位简档表征矩阵点积，例如针对18个元路径中的每个元路径进行k＝0，1，...，17作为特征，拟合一个分类器。

在一些实施例中，分类模型为以下中的至少一项：逻辑回归模型、神经网络模型和梯度提升决策树模型。通过上述方式，可以更快、更准确的获得匹配结果。

在一些实施例中，计算设备106可以对简例实例和岗位简档实例的匹配结出具体的选择因素，也即给出推荐理由。计算设备106从一组元路径中获取与针对第二实例的选择因素有关的至少一个元路径。然后计算设备基于针对至少一个元路径中的元路径的简历特征数据和简档特征数据来确定选择因素的得分以用于对选择因素的排序。通过上述方式，能快速的确定出主要的选择因素。

在一些实施例中，计算设备106在获得简历表征矩阵R^(k)和岗位表征矩阵P^(k)后，可以对推荐结果中各元路径起到的作用进行分解，并自动化填充推荐理由模板。每一个推荐理对应于至少一条元路径构成。如图4所示，与推荐理由『候选人与其它成功应聘者简历相似』包含三条路径。

根据得到的元路径表征矩阵点积k∈推荐理由，和其对应的特征权重的乘积来确定各推荐理由的得分，其中特征权重是在训练模型时确定的针对每个元路径表征矩阵点积的权重系数。然后依据得分对各推荐理由进行排序以用于呈现给用户。

在一些实施例中，计算设备106还可以向用户呈现用于与推荐理由相关联的一些重要的元路径中的实例。计算设备106确定至少一个元路径中的目标元路径中的目标类型。然后基于第一实例和目标类型的实例之间的相似度和第二实例与目标类型的实例的之间的相似度，来确定指示目标类型的实例的重要性的指示值。然后，基于该指示值，将目标类型的实例与选择因素相关联地显示。通过上述方式，可以为用户提供更详细的信息。

对每条推荐理由定义一个中心实体类型，然后统计该推荐理由对应的所有元路径实例所经过的中心实体类型的实例集合，中心实体类型中的实例集合中的实例可以为元路径中位于简历类型和岗位简档类型之间的实体类型的实例，即该中心实体类型作为目标类型。然后，返回该集合中最重要的N个中心实体实例。中心实体实例重要性定义如下：

中心实体实例重要性(简历实例i，岗位简实例j，元路径k)＝∑_{k∈推荐理由}路径相似度(简历实例i，中心实体实例，左子元路径k)×路径相似度(中心实体实例，岗位简当实例j，右子元路径k），其中左子元路径k表示元路径k中简历类型至中心实体类型，右子元路径k表示元路径k中中心实体类型至岗位类型部分。其表明，如果中心实体实例与简历实例越相似，则该中心实体实例越重要，同样的，如果该中心实体实例与岗位简档实例越相似，则该中心实体实例越重要。将推荐理由和重要的中心实体实例一起呈现给用户，如图5所示，与第一条推荐理由一起呈现的运营和高级管理。

图6示出了根据本公开实施例的用于匹配数据的装置600的示意性框图。如图6所示，装置600包括获取模块602，被配置为获取简历的第一实例和岗位简档的第二实例。装置600还包括第一特征数据确定模块604，被配置为确定针对元路径的第一实例的简历特征数据和第二实例的简档特征数据，元路径为从简历到达岗位简档的知识图谱路径。装置600还包括应用模块606，被配置为将分类模型应用于第一实例的简历特征数据和第二实例的简档特征数据，以确定第一实例和第二实例之间的匹配结果。

在一些实施例中，第一特征数据确定模块604包括数量确定模块，被配置为确定从第一实例到达第二实例的元路径的实例的数量；相似度确定模块，被配置为基于元路径的实例的数量，确定第一实例和第二实例针对元路径的相似度；以及第二特征数据确定模块，被配置为基于相似度，确定简历特征数据和简档特征数据。

在一些实施例中，第一特征数据确定模块604包括：参考简历特征数据获取模块，被配置为获取与简历的第一多个参考实例相对应的第一多个参考简历特征数据；第一参考实例确定模块，被配置为基于第一实例包括的所述元路径中的实体类型实例，确定第一多个参考实例中是否存在与第一实例相匹配的参考实例；以及简历特征数据确定模块，被配置为响应于第一多个参考实例中存在与第一实例相对应的参考实例，将与参考实例相对应的参考简历特征数据作为简历特征数据。

在一些实施例中，第一特征数据确定模块还包括：参考简档特征数据获取模块，被配置为获取与岗位简档的第二多个参考实例相对应的第二多个参考简档特征数据；第二参考实例确定模块，被配置为基于第二实例中包括的所述元路径中的实体类型实例来确定第二多个参考实例中是否存在与第二实例相对应的参考实例；以及简档特征数据确定模块，被配置为响应于第二多个参考实例中存在与第二实例相对应的参考实例，将与参考实例相对应的参考简档特征数据作为简档特征数据。

在一些实施例中，分类模型为以下中的至少一项：逻辑回归模型、神经网络模型和梯度提升决策树模型。

在一些实施例中，装置600还包括：元路径获取模块，被配置为从一组元路径中获取与针对第二实例的选择因素有关的至少一个元路径；以及得分模块，被配置为基于针对至少一个元路径中的元路径的简历特征数据和简档特征数据来确定选择因素的得分以用于对选择因素的排序。

在一些实施例中，装置600还包括：目标类型确定模块，被配置为确定至少一个元路径中的目标元路径中的目标类型；指示值确定模块，被配置为基于第一实例和目标类型的实例之间的相似度和第二实例与目标类型的实例的之间的相似度，来确定指示目标类型的实例的重要性的指示值；以及显示模块，被配置为基于指示值，将目标类型的实例与选择因素相关联地显示。

在一些实施例中，分类器是利用多个样本简历实例、多个样本岗位简档实例和多个样本简历实例和多个样本岗位简档实例之间的样本匹配结果训练得到的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。该示例电子设备700可用于实现图1中的计算设备106。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法300。例如，在一些实施例中，方法300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的方法300的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法300。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于匹配数据的方法，包括：

获取简历的第一实例和岗位简档的第二实例；

确定针对元路径的所述第一实例的简历特征数据和所述第二实例的简档特征数据，所述元路径为从简历到达岗位简档的知识图谱路径；

将分类模型应用于所述第一实例的所述简历特征数据和所述第二实例的所述简档特征数据，以确定所述第一实例和所述第二实例之间的匹配结果；

从包括所述元路径的一组元路径中获取与针对所述第二实例的选择因素有关的至少一个元路径，所述选择因素为所述第一实例和第二实例匹配的推荐理由；以及

基于针对所述至少一个元路径中的元路径的所述简历特征数据和所述简档特征数据来确定所述选择因素的得分以用于对所述选择因素进行排序；

确定所述至少一个元路径中的目标元路径中的目标实体类型；

基于所述第一实例和所述目标实体类型的实例之间的相似度和所述第二实例与所述目标实体类型的实例的之间的相似度，来确定指示所述目标实体类型的实例的重要性的指示值；以及

基于所述指示值，将所述目标实体类型的实例与所述选择因素相关联地显示。

2.根据权利要求1所述的方法，其中确定所述简历特征数据和所述简档特征数据包括：

确定从所述第一实例到达所述第二实例的所述元路径的实例的数量；

基于所述元路径的实例的数量，确定所述第一实例和所述第二实例针对所述元路径的相似度；以及

基于所述相似度，确定所述简历特征数据和所述简档特征数据。

3.根据权利要求1所述的方法，其中确定针对元路径的所述第一实例的简历特征数据和所述第二实例的简档特征数据包括：

获取与所述简历的第一多个参考实例相对应的第一多个参考简历特征数据；

基于所述第一实例包括的所述元路径中的实体类型实例，确定所述第一多个参考实例中是否存在与所述第一实例相匹配的参考实例；以及

响应于所述第一多个参考实例中不存在与所述第一实例相对应的参考实例，确定针对元路径的所述第一实例的简历特征数据。

4.根据权利要求3所述的方法，还包括:响应于所述第一多个参考实例中存在与所述第一实例相对应的参考实例，将与所述参考实例相对应的参考简历特征数据作为所述简历特征数据。

5.根据权利要求3所述的方法，其中确定针对元路径的所述第一实例的简历特征数据和所述第二实例的简档特征数据还包括:

获取与岗位简档的第二多个参考实例相对应的第二多个参考简档特征数据；

基于所述第二实例中包括的所述元路径中的实体类型实例来确定所述第二多个参考实例中是否存在与所述第二实例相对应的参考实例；以及

响应于所述第二多个参考实例中不存在与所述第二实例相对应的参考实例，确定针对元路径的所述第二实例的简档特征数据。

6.根据权利要求5所述的方法，还包括:

响应于所述第二多个参考实例中存在与所述第二实例相对应的参考实例，将与参考实例相对应的参考简档特征数据作为所述简档特征数据。

7.根据权利要求1所述的方法，其中所述分类模型为以下中的至少一项：逻辑回归模型、神经网络模型和梯度提升决策树模型。

8.根据权利要求1所述的方法，其中所述分类模型是利用多个样本简历实例、多个样本岗位简档实例和所述多个样本简历实例和所述多个样本岗位简档实例之间的样本匹配结果训练得到的。

9.一种用于匹配数据的装置，包括：

获取模块，被配置为获取简历的第一实例和岗位简档的第二实例；

第一特征数据确定模块，被配置为确定针对元路径的所述第一实例的简历特征数据和所述第二实例的简档特征数据，所述元路径为从简历到达岗位简档的知识图谱路径；

应用模块，被配置为将分类模型应用于所述第一实例的所述简历特征数据和所述第二实例的所述简档特征数据，以确定所述第一实例和所述第二实例之间的匹配结果；

元路径获取模块，被配置为从包括所述元路径的一组元路径中获取与针对所述第二实例的选择因素有关的至少一个元路径，所述选择因素为所述第一实例和第二实例匹配的推荐理由；以及

得分模块，被配置为基于针对所述至少一个元路径中的元路径的所述简历特征数据和所述简档特征数据来确定所述选择因素的得分以用于对所述选择因素进行排序；

目标类型确定模块，被配置为确定所述至少一个元路径中的目标元路径中的目标实体类型；

指示值确定模块，被配置为基于所述第一实例和所述目标实体类型的实例之间的相似度和所述第二实例与所述目标实体类型的实例的之间的相似度，来确定指示所述目标实体类型的实例的重要性的指示值；以及

显示模块，被配置为基于所述指示值，将所述目标实体类型的实例与所述选择因素相关联地显示。

10.根据权利要求9所述的装置，其中所述第一特征数据确定模块包括：

数量确定模块，被配置为确定从所述第一实例到达所述第二实例的所述元路径的实例的数量；

相似度确定模块，被配置为基于所述元路径的实例的数量，确定所述第一实例和所述第二实例针对所述元路径的相似度；以及

第二特征数据确定模块，被配置为基于所述相似度，确定所述简历特征数据和所述简档特征数据。

11.根据权利要求9所述的装置，其中所述第一特征数据确定模块包括：

参考简历特征数据获取模块，被配置为获取与所述简历的第一多个参考实例相对应的第一多个参考简历特征数据；

第一参考实例确定模块，被配置为基于所述第一实例包括的所述元路径中的实体类型实例，确定所述第一多个参考实例中是否存在与所述第一实例相匹配的参考实例；以及

第一基于元路径的特征数据确定模块，被配置为响应于所述第一多个参考实例中不存在与所述第一实例相对应的参考实例，确定针对元路径的所述第一实例的简历特征数据。

12.根据权利要求11所述的装置，还包括：

简历特征数据确定模块，被配置为响应于所述第一多个参考实例中存在与所述第一实例相对应的参考实例，将与所述参考实例相对应的参考简历特征数据作为所述简历特征数据。

13.根据权利要求11所述的装置，其中所述第一特征数据确定模块还包括:

参考简档特征数据获取模块，被配置为获取与岗位简档的第二多个参考实例相对应的第二多个参考简档特征数据；

第二参考实例确定模块，被配置为基于所述第二实例中包括的所述元路径中的实体类型实例来确定所述第二多个参考实例中是否存在与所述第二实例相对应的参考实例；以及

第二基于元路径的特征数据确定模块，被配置为响应于所述第二多个参考实例中不存在与所述第二实例相对应的参考实例，确定针对元路径的所述第二实例的简档特征数据。

14.根据权利要求13所述的装置，还包括：

简档特征数据确定模块，被配置为响应于所述第二多个参考实例中存在与所述第二实例相对应的参考实例，将与参考实例相对应的参考简档特征数据作为所述简档特征数据。

15.根据权利要求9所述的装置，其中所述分类模型为以下中的至少一项：逻辑回归模型、神经网络模型和梯度提升决策树模型。

16.根据权利要求9所述的装置，其中所述分类模型是利用多个样本简历实例、多个样本岗位简档实例和所述多个样本简历实例和所述多个样本岗位简档实例之间的样本匹配结果训练得到的。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。