CN115758178A

CN115758178A - 数据处理方法、数据处理模型训练方法、装置及设备

Info

Publication number: CN115758178A
Application number: CN202211476213.2A
Authority: CN
Inventors: 李满伟; 秦川; 张乐; 王晶; 祝恒书; 马海平
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-07
Anticipated expiration: 2042-11-23
Also published as: CN115758178B

Abstract

本公开提供了数据处理方法、数据处理模型训练方法、装置及设备。本公开涉及计算机技术领域，尤其涉及深度学习、大数据分析、智能匹配等人工智能技术领域。具体实现方案为：基于M个第一对象各自对应的第一数据，确定M个第一对象各自对应的第一表征向量；基于N个第二对象各自对应的第二数据，确定N个第二对象各自对应的第二表征向量；基于第一表征向量和第二表征向量，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度；基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象的关联关系。本公开能提高确定出的关联关系的准确性，实现对有限资源的合理分配。

Description

数据处理方法、数据处理模型训练方法、装置及设备

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习、大数据分析、智能匹配等人工智能技术领域。

背景技术

实际应用中，诸如人才招聘、人员分配等场景，大多基于一定的匹配规则分配人力资源。比如，根据求职者的简历中描述的技能，选择对应领域的面试官来面试。又比如，根据管理者的需求，选择团队成员。然而，这种分配方式存在较大的随机性，导致分配得到的关联对象之间的匹配度较低。因此，亟需一种数据处理方法，合理对有限的资源进行分配。

发明内容

本公开提供了一种数据处理方法、数据处理模型训练方法、装置及设备。

根据本公开的第一方面，提供了一种数据处理方法，包括：

获取M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据，M为正整数，N为正整数；

基于M个第一对象各自对应的第一数据，确定M个第一对象各自对应的第一表征向量；

基于N个第二对象各自对应的第二数据，确定N个第二对象各自对应的第二表征向量；

基于第一表征向量和第二表征向量，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度；

基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象的关联关系。

根据本公开的第二方面，提供了一种数据处理模型训练方法，包括：

获取待训练数据；

获取参考第三表征向量；

将待训练数据和参考第三表征向量输入到待训练模型，得到待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象入职概率预测值；

基于第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对待训练模型进行训练，获得数据处理模型。

根据本公开的第三方面，提供了一种数据处理装置，包括：

第一获取模块，用于获取M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据，M为正整数，N为正整数；

第一确定模块，用于基于M个第一对象各自对应的第一数据，确定M个第一对象各自对应的第一表征向量；

第二确定模块，用于基于N个第二对象各自对应的第二数据，确定N个第二对象各自对应的第二表征向量；

第三确定模块，用于基于第一表征向量和第二表征向量，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度；

第四确定模块，用于基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象的关联关系。

根据本公开的第四方面，提供了一种数据处理模型训练装置，包括：

第三获取模块，用于获取待训练数据；

第四获取模块，用于获取参考第三表征向量；

第五确定模块，用于将待训练数据和参考第三表征向量输入到待训练模型，得到待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象入职概率预测值；

训练模块，用于基于第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对待训练模型进行训练，获得数据处理模型。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行第一方面提供的数据处理方法和/或第二方面提供的数据处理模型训练方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行第一方面提供的数据处理方法和/或第二方面提供的数据处理模型训练方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行第一方面提供的数据处理方法和/或第二方面提供的数据处理模型训练方法。

根据本公开的技术方案，能提高确定出的关联关系的准确性，实现对有限资源的合理分配。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的数据处理方法的流程示意图；

图2是根据本公开实施例的获取面试官技能表征的示意图；

图3是根据本公开实施例的生成第三表征向量的流程示意图；

图4是根据本公开实施例的为面试官合理分配求职者的框架图；

图5是根据本公开实施例的面试官和求职者分配的过程示意图；

图6是根据本公开实施例的面试官和求职者分配的结果示意图；

图7是根据本公开实施例的数据处理模型训练方法的流程示意图；

图8是根据本公开实施例的数据处理装置的结构示意图；

图9是根据本公开实施例的数据处理模型训练装置的结构示意图；

图10是根据本公开实施例的数据处理的场景示意图；

图11是根据本公开实施例的数据处理模型训练的场景示意图；

图12是用来实现本公开实施例的数据处理方法和/或数据处理模型训练方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以人员分配场景为例，通常由管理者根据员工所申请的岗位，随机对人员进行分组，并派给组长。这种分配方式存在很大的随机性，可能会出现组员与组长不匹配的情况，即组长需要的技能与组员拥有的技能相差过大。以人才招聘场景为例，根据求职者的简历中描述的技能，选择对应领域的面试官来面试。虽然在一定程度上减少了随机性，但是这种分配方式存在面试官评价求职者的置信度问题，即存在面试官衡量求职者的可信度问题，无法最大限度地挖掘求职者的发展潜力，也无法客观准确地判断求职者是否适合所申请岗位。另外，由于存在大量的求职者与少量的面试官的不均衡问题，实现面试官和求职者的合理分配显得更有意义，我们既要减轻面试官的考核压力，又要提升求职者的面试体验。

显然，上述处理方式存在较大的随机性，不能合理分配资源，导致分配得到的关联对象之间的匹配度较低，无法实现资源利用最大化。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种数据处理方法，能合理地分配资源，提高分配得到的关联对象(第一对象与第二对象)之间的匹配度，既能提高第一对象的识人准确率，又能提高第二对象的价值转化率从而能实现资源利用最大化。

本公开实施例提供了一种数据处理方法，图1是根据本公开实施例的数据处理方法的流程示意图，该数据处理方法可以应用于数据处理装置。该数据处理装置位于电子设备。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、车载终端。在一些可能的实现方式中，该数据处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该数据处理方法包括：

S101：获取M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据，M为正整数，N为正整数；

S102：基于M个第一对象各自对应的第一数据，确定M个第一对象各自对应的第一表征向量；

S103：基于N个第二对象各自对应的第二数据，确定N个第二对象各自对应的第二表征向量；

S104：基于第一表征向量和第二表征向量，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度；

S105：基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象的关联关系。

本公开实施例中，第一对象可以是具备一定识人能力的面试官或考官。例如，第一对象是东胜公司财务部的面试官。又例如，第一对象是东阳小学数学组的考官。第二对象为有工作需求的应聘人员或求职者。例如，第二对象是东胜公司财务部的应聘人员。又例如，第二对象是东阳小学数学组的求职老师。以上仅为示例性说明，不作为对第一对象和第二对象的相关信息的限定，只是这里不做穷举。

为了方便对于本公开的理解，下文中第一对象以面试官为例，第二对象以求职者为例。

本公开实施例中，第一数据为面试官的简介数据、面试官的标识号数据和历史面试数据。该面试官的简介数据为该面试官在该公司职员数据库的个人简介。该个人简介包括姓名、年龄、性别、从业时长、技能证书和项目经验等。面试官标识号数据为该面试官在该公司职员数据库的身份标识(Identity document，ID)编号，该ID编号可以是数字、字母以及其他方式。该历史面试数据为根据该面试官的ID编号，从公司职员数据库中调取的该面试官历史面试数据，该历史面试数据包括：该面试官在历史面试求职者时关注的技能偏好、技术问题和面试难度。以上仅为示例性说明，不作为对第一数据的相关信息的限定，只是这里不做穷举。

本公开实施例中，第二数据为求职者的个人简介数据。该个人简介数据包括姓名、年龄、性别、工作经验、技能证书和教育背景等。以上仅为示例性说明，不作为对第二数据的相关信息的限定，只是这里不做穷举。

本公开实施例中，可采用任何可行实现方式来获取第一数据。例如，可通过面试官的ID编号从公司职员数据库中获取第一数据。又例如，可从面试官的入职档案获取第一数据。再例如，可接收其他设备抓取的该面试官的相关数据来获取第一数据。以上仅为示例性说明，不作为对第一数据全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，可采用任何可行实现方式来获取第二数据。例如，可通过求职者的投递的简历获取第二数据。又例如，可从求职者的个人档案获取第二数据。再例如，可接收其他设备抓取的该求职者的相关数据来获取第二数据。以上仅为示例性说明，不作为对第二数据全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，第一表征向量为面试官的宏观能力表征。该宏观能力表征可以是基于面试官的经验能力和固有能力得到的。这里，经验能力是历史面试数据中所体现出的面试官的能力，比如面试官的个人偏好、技术问题和面试难度等。该固有能力可以是直接从面试官的自我简介中得到的，即每位面试官都有关于自己技能或项目经验等的文本描述数据。例如，在一场助理面试中，该岗位的所需技能包括企业知识技能、办公自动化技能、公共关系技能、行政管理技能、档案管理技能和文案写作技能。该场面试中有两位面试官，分别记为甲面试官和乙面试官，图2示出了获取面试官技能表征的示意图，根据甲面试官的ID编号，从公司职员数据库中获取甲面试官的第一数据，再分析甲面试官的第一数据可以得到，甲面试官的固有能力包括行政管理技能、档案管理技能和文案写作技能。从乙面试官的入职档案获取乙面试官的第一数据，分析乙面试官的第一数据可以得到，乙面试官的固有能力包括公共关系技能、企业知识技能和办公自动化技能。以上仅为示例性说明，不作为对第一表征向量全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，第二表征向量为求职者的宏观能力表征。例如，在一场数学老师的面试中，该岗位的所需技能包括计算技能、结构分析技能、空间现象技能、运用数学知识解决实际问题技能、教案书写技能和沟通表达技能。该场面试中包括两位求职者，分别记为a求职者和b求职者，通过a求职者投递的简历获取a求职者的第二数据，分析a求职者的第二数据可以得到，a求职者的宏观能力包括计算技能、结构分析技能和空间现象技能。从b求职者的个人档案获取b求职者的第二数据，分析b求职者的第二数据可以得到，b求职者的宏观能力包括运用数学知识解决实际问题技能、教案书写技能和沟通表达技能。以上仅为示例性说明，不作为对第二表征向量全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，关联关系用于表征第一对象与第二对象匹配。关联关系既可以理解成为第一对象分配的第二对象，还可以理解成为第二对象分配的第一对象。这里，可通过网络流模型确定M个第一对象与N个第二对象之间的关联关系，其中，网络流模型包括最小费用最大流模型或者最大费用最大流模型。比如，将M个面试官和N个求职者输入到网络流模型中，通过对建立的网络流模型求解，获得M个面试官与N个求职者之间的关联关系。以上网络流模型仅为示例性的，在此不做具体限定。

本公开实施例中，网络流模型是预先训练好的模型，网络流模型可以是数据处理模型的一个组成部分。具体如何训练数据处理模型将在后文详细描述，在此不再赘述。

本公开实施例的技术方案，获取M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据；基于M个第一对象各自对应的第一数据，确定M个第一对象各自对应的第一表征向量；基于N个第二对象各自对应的第二数据，确定N个第二对象各自对应的第二表征向量；通过确定M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据，能为匹配第一对象与第二对象提供有力的数据支撑，提高数据处理的效率。基于第一表征向量和第二表征向量，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，能够提升确定出的第一对象和第二对象间匹配度的准确性。基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象之间的关联关系，能提高确定出的关联关系的准确性，实现了为第一对象分配合适的第二对象，也保证了为第二对象分配合适的第一对象，提高了第一对象与第二对象的匹配准确率，进而能实现合理分配资源的目的。另外，由于关联关系的准确性得到提高，进而既能提高第一对象的识人准确率，又能提高第二对象的价值转化率，从而实现资源利用最大化。

在一些实施例中，该数据处理方法，还可以包括：

S106：获取目标岗位对应的第三数据；

S107：根据第三数据，提取目标岗位的技能需求；

S108：根据技能需求，生成目标岗位的第三表征向量。

本公开实施例中，目标岗位包括待招聘职位。例如，目标岗位可包括公司、组织和机构所设置的工作岗位。以上仅为示例性说明，不作为对目标岗位全部可能的限定，只是这里不做穷举。

本公开实施例中，第三数据为目标岗位的相关数据。第三数据包括目标岗位标识号数据、目标岗位招聘文本数据和目标岗位对应的历史招聘数据。该目标岗位标识号数据包括该面试官在该公司职员数据库的ID编号，该ID编号可以是数字、字母以及其他方式。该目标岗位招聘文本数据为根据目标岗位ID编号，从公司岗位数据库中调取的目标岗位招聘文本数据；该招聘文本数据包括该目标岗位的招聘要求、能力要求和工作待遇。例如，东胜公司助理岗位招聘公示如下，招聘要求为22-25岁；能力要求为企业知识技能、办公自动化技能、公共关系技能、行政管理技能、档案管理技能和文案写作技能；工作待遇为工资面议。目标岗位对应的历史招聘数据为根据目标岗位ID编号，从公司数据库中获取的该岗位的历史招聘数据，还可以为历史招聘中被录用职员的简历数据。例如，该历史招聘数据包括该目标岗位的招聘要求、能力要求、工作待遇和被录用职员能力信息。以上仅为示例性说明，不作为对第三数据的相关信息的限定，只是这里不做穷举。

图3示出了生成第三表征向量的流程示意图，根据目标岗位的ID编号从公司岗位数据库中获取第三数据，提取目标岗位的技能需求，生成目标岗位的第三表征向量。本公开实施例中，可采用任何可行实现方式来获取第三数据。例如，可通过目标岗位的ID编号从公司岗位数据库中获取第三数据。又例如，可接收其他设备抓取的该目标岗位的相关数据来获取第三数据。以上仅为示例性说明，不作为对第三数据全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，第三表征向量是用于表示目标岗位的技能需求的向量。具体如何根据技能需求生成第三表征向量将在下文描述，在此不再赘述。

本公开实施例的技术方案，基于第三数据得到第三表征向量，能为第一对象和第二对象间的匹配提供更加准确的数据支持，从而有助于提高确定出的关联关系的正确性，也有助于使得确定出的关联关系更符合资源分配初衷。

在一些实施例中，S108可包括：

S1081：根据招聘文本信息得到第一技能需求向量；

S1082：根据历史招聘数据得到第二技能需求向量；

S1083：根据第一技能需求向量和第二技能需求向量，生成第三表征向量。

本公开实施例中，第一技能需求向量为根据目标岗位的招聘文本信息中所需的技能而生成的向量。例如，在一场助理岗位面试中，该岗位的招聘信息中所需的技能包括企业知识技能、办公自动化技能、公共关系技能、行政管理技能和档案管理技能。即，第一技能需求向量为由企业知识技能、办公自动化技能、公共关系技能、行政管理技能和档案管理技能组成的向量。以上仅为示例性说明，不作为对第一技能需求向量的相关信息的限定，只是这里不做穷举。

本公开实施例中，第二技能需求向量为根据目标岗位历史招聘信息中所需的技能生成的向量。例如，在一场助理岗位面试中，该岗位的历史招聘信息中所需的技能包括办公自动化技能、行政管理技能、档案管理技能和文案写作技能。即，第二技能需求向量为由办公自动化技能、行政管理技能、档案管理技能和文案写作技能组成的向量。以上仅为示例性说明，不作为对第二技能需求向量的相关信息的限定，只是这里不做穷举。

本公开实施例中，第三表征向量为用于表示目标岗位的技能需求的向量。例如，在一场数学组的面试中，该岗位招聘公示中所需技能包括计算技能、结构分析技能、空间现象技能、运用数学知识解决实际问题技能、教案书写技能和沟通表达技能。根据数学组的岗位的编号，调取了去年的数学组的招聘公示，得到去年数学组的招聘公式所需技能包括心理学技能、计算技能、空间现象技能、运用数学知识解决实际问题技能、教案书写技能和沟通表达技能。结合历史招聘文本和今年的招聘公示文本，可以得到数学组的整体技能包括心理学技能、计算技能、结构分析技能、空间现象技能、运用数学知识解决实际问题技能、教案书写技能和沟通表达技能。以上仅为示例性说明，不作为对第三表征向量全部可能的获取方式的限定，只是这里不做穷举。

在一些实施方式中，可将第一技能需求向量和第二技能需求向量拼接，最终得到第三表征向量。本公开不对具体拼接方式进行限定。

本公开实施例中，第三表征向量也可称为技能表征矩阵M^S。基于第一对象与第二对象在技能层面上的合适程度，因此定义一个全局使用的技能表征矩阵。根据招聘中涉及技能的个数，得到技能表征矩阵。

本公开实施例中，可采用随机初始化或构造技能图学习技能高阶表征，最终得到技能表征矩阵M^S。其中，M^S∈R^K×d，K表示整个数据集中技能的个数、d表示技能嵌入维度。

本公开实施例的技术方案，基于本次招聘文本信息和历史招聘数据，得到第三表征向量，能够使得生成的第三表征向量更加准确，进而能为第一对象和第二对象间的匹配提供更加准确的数据支持，从而有助于提高关联关系的正确性。

在一些实施例中，第一数据包括第一标识号数据、历史面试数据和第一技能简介数据，S102可包括：

S1021：根据M个第一对象各自对应的第一标识号数据和历史面试数据，生成M个第一对象各自对应的经验能力表征；

S1022：根据M个第一对象各自对应的第一技能简介数据，生成M个第一对象各自对应的固有能力表征；

S1023：根据M个第一对象各自对应的经验能力表征和固有能力表征，确定M个第一对象各自对应的第一表征向量。

本公开实施例中，第一表征向量为面试官的宏观能力C_i，该面试官宏观能力C_i＝面试官的经验能力

+面试官的固有能力

根据公式(1)确定面试官的经验能力

其中，

为面试官的独热(one-hot)编码向量，N表示求职者的个数，M^A∈R^N×d是可训练的嵌入矩阵，d表示表征嵌入的维度。

根据公式(2)确定面试官的固有能力

其中，

为基于文本数据提取的面试官的技能向量，K表示技能个数，i表示第i-th位面试官，若第i-th个位置为1则表示面试官有技能s_i的经验，若第i-th个位置为0则表示面试官没有技能s_i的经验；^MB∈R^K×d是可训练的嵌入矩阵，d表示表征嵌入的维度。

本公开实施例中，采用推荐系统的矩阵填充思想，我们将面试官的固有宏观能力

与第三表征向量(也可称为技能表征矩阵)M^S叉乘，得到面试官在对应技能上的掌握情况，将叉乘结果作为面试官的固有宏观能力。

根据公式(3)确定面试官的宏观能力C_i：

如此，能够提高求取的第一表征向量的准确性，进而能为第一对象和第二对象间的匹配提供更加准确的数据支持，从而有助于提高关联关系的正确性。

在一些实施例中，S1022可包括：

S10221：根据M个第一对象各自对应的第一技能简介数据，生成M个第一对象各自对应的第一技能表征；

S10222：根据M个第一对象各自对应的第一技能表征与第三表征向量，得到M个第一对象各自对应的固有能力表征。

最终，我们将面试官的经验能力

与面试官的固有能力

采用拼接的操作得到宏观能力C_i，作为面试官的第一表征向量，如公式(4)所示。

本公开实施例的技术方案，基于面试官的经验能力和固有能力得到第一表征向量，使得确定出的第一表征向量更准确，进而能为第一对象和第二对象间的匹配提供更加准确的数据支持，从而有助于提高关联关系的正确性。

在一些实施例中，第二数据包括第二标识号数据和第二技能简介数据。S103可包括：

S1031：基于N个第二对象各自对应的第二标识号数据和第二技能简介数据，生成N个第二对象各自对应的第二技能表征；

S1032：根据N个第二对象各自对应的第二技能表征与第三表征向量，得到N个第二对象各自对应的第二表征向量。

本公开实施例中，从求职者的简历文本中提取出技能掌握情况，得到简历技能向量

该简历文本中出现的技能默认为求职者所掌握的技能。每个元素为{0,1}的二元值，即元素为1表示简历中出现的技能，元素为0表示简历中未出现的技能。采用叉乘操作将简历技能向量

与技能表征矩阵M^S相乘得到求职者的技能掌握情况。

根据公式(5)和(6)确定求职者的宏观能力

M^C表示可学习的嵌入矩阵，M^S表示技能表征矩阵，

表示简历技能向量，j表示第j-th位求职者，t为one-hot向量的上标。

本公开实施例中，根据岗位的ID编号建模岗位的历史招聘数据中对技能的需求向量。采用岗位的招聘信息建模岗位的技能需求。根据招聘文本信息建模的岗位技能需求向量与从岗位历史招聘数据中建模的技能需求向量拼接，最终得到岗位的整体技能需求向量。

根据公式(7)确定求职者的宏观能力

其中，

表示第p-th个岗位的one-hot向量，M^D表示可学习的嵌入矩阵，p表示第p-th个岗位。

图4示出了为面试官合理分配求职者的框架图，如图4所示，该框架包括表征模块和交互模块，该表征模块基于面试官的简介数据和求职者的简历数据，使用预测求职者能否入职的任务来联合建模面试官和求职者的能力表征。基于建模得到的面试官和求职者能力表征，分别计算面试官与所有求职者的匹配度、采用最大费用最大流思想为所有求职者合理分配最佳的面试官。该交互模块基于上述公式(1)至(7)可得到面试官的宏观能力C_i(即第一对象的第一表征向量)、求职者的宏观能力

(即第二对象的第二表征向量)、岗位的技能需求向量

(即目标岗位的第三表征向量)，根据公式(8)将三个向量拼接起来得到最终的宏观表征C，并采用多层全连接神经网络学习交互，最终根据公式(9)预测求职者入职的概率。

y＝sigmoid(W^T*C+b) (9)

其中，W^T表示权重矩阵转置项，b表示学习参数。

本公开实施例的技术方案，基于面试官的宏观能力、求职者的宏观能力和岗位的技能需求向量，采用多层全连接神经网络学习交互，得到求职者的入职概率；能够节约人力物力成本，提高面试的效率；同时也提升了求职者的面试体验。

在一些实施例中，基于第一表征向量和第二表征向量，计算M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的相似度；将M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的相似度，作为M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度。

本公开实施例中，可通过打分模型确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的相似度。这里，相似度也称为匹配分数或匹配度。打分模型是预先训练好的模型，打分模型可以是数据处理模型的一个组成部分。具体如何训练数据处理模型将在后文详细描述，在此不再赘述。

图5示出了面试官和求职者分配的框架图，如图5所示，基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的相似度，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度。

本公开实施例中，根据M个面试官第一表征向量和N个求职者第二表征向量，两两计算面试官与求职者之间的匹配分数，该匹配分数的值为(0,1)之间的连续值，因此得到N*M个匹配分数。

最小费用最大流模型中，用于确定在每条有向边都有容量和费用这两个限制的条件下，从源点到汇点之间如何选择有向边以及分配经过有向边的流量，可以保证在流量最大的前提下，所用的费用最小。最大费用最大流模型在确定每条有向边都有容量和费用这两个限制的条件下，从源点到汇点之间如何选择有向边以及分配经过有向边的流量，可以保证在流量最大的前提下，所用的费用最大。

本公开实施例中，图5中的每条边具有数值数组(score,num)，第一个数值表示分数，设源点到面试官、求职者到汇点的分数都统一为1。面试官到求职者之间的边，第一个数值为根据表征计算的匹配分数。第二个数值可表示流量，当边的流量大于0时表示该边可以走通，当边的流量小于等于0时表示该边无法走通。源点到面试官之间的边，第二个数表示该面试官可分配面试求职者的个数。面试官到求职者以及求职者到汇点的边，第二个数均统一设置为1，表示该边只能分配一次，即一个求职者只能分配给一位面试官。

本公开实施例中，找出从源点达到汇点的最大匹配分数的路径，并将该条路径的num数减1，直至找出所有能够从源点到达汇点的路径；其中，从面试官到求职者之间的边表示面试官与求职者之间的分配方案。

本公开实施例的技术方案，基于第三表征向量得到N个第二对象各自对应的第二表征向量，能够提高获得的第二表征向量的正确性，从而有助于提高第二对象的价值转化率。

在一些实施例中，为了避免出现为各面试官匹配的求职者的数量不均衡的问题，S105可包括：

S1051：获取M个第一对象分别对应的可关联第二对象的上限数量；

S1052：结合上限数量，基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，调整M个第一对象与N个第二对象的关联关系。

本公开实施例中，该关联关系既表示为第一对象分配的第二对象，也表示为第二对象分配的第一对象。

本公开实施例中，M个第一对象分别对应的可关联第二对象的上限数量，是预先设定的。这里需要说明的是，M个第一对象分别对应的上限数量可以是相同的，也可以是不同的。

本公开实施例的技术方案，基于面试官的宏观能力、求职者的宏观能力、岗位的技能需求，确定M个第一对象与N个第二对象之间的关联关系，能提高确定出的关联关系的准确性，实现了为第一对象分配合适的第二对象，也保证了为第二对象分配合适的第一对象，提高了第一对象与第二对象的匹配准确率，进而能实现合理分配资源的目的。另外，由于关联关系的准确性得到提高，进而既能提高第一对象的识人准确率，又能提高第二对象的价值转化率，从而实现资源利用最大化。

在一些实施例中，S1052包括：在为M个第一对象中任一第一对象关联的第二对象的数量达到该任一第一对象的上限数量的情况下，停止为该任一第一对象分配第二对象；在为M个第一对象中任一第一对象关联的第二对象的数量未达到该任一第一对象的上限数量的情况下，继续为该任一第一对象分配第二对象。

本公开实施例中，基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，建立M个第一对象中第i个第一对象与N个第二对象中第j个第二对象的关联关系。

本公开实施例的技术方案，既能提高第一对象的识人准确率，又能提高第二对象的价值转化率，从而能实现资源利用最大化。

本公开实施例中，S1052包括：基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，每次选择出当前匹配度最高的第i个第一对象和第j个第二对象，为第i个第一对象和第j个第二对象建立关联关系，并将第i个第一对象的上限数量减1，其中，i为大于等于1且小于等于M的整数，j为大于等于1且小于等于N的整数。

本公开实施例中，基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，得到M个面试官与N个求职者之间的匹配度矩阵；根据M个面试官与N个求职者之间的匹配度矩阵建立网络流模型，其中，网络流模型包括最小费用最大流模型或者最大费用最大流模型。将网络流模型中的流对应求职者匹配次数和网络流模型中的费用对应匹配度矩阵，建立网络流模型，通过对建立的网络流模型求解，获得M个面试官与N个求职者之间的关联关系。其中，关联关系实际上可以为M个面试官与N个求职者之间的配对方式，表示M个面试官需要关联至N个求职者中的一个或者多个，也表示N个求职者分别关联一个或者多个面试官。

图6示出了面试官与求职者的分配结果示意图，如图6所示，根据各面试官与各求职者之间的匹配度，对面试官甲与求职者a、求职者c建立关联关系，对面试官乙与求职者b建立关联关系。

本公开实施例的技术方案，能够合理地对有限的资源进行分配，解决资源分配过程中负载问题，在提高第一对象与第二对象关联关系正确性的情况下，不仅能更好地平衡各第一对象被分配的第二对象的数量，减轻第一对象的任务压力，还能提高第二对象的价值转化率，从而能实现资源利用最大化。应理解，图2、图3、图4、图5和图6所示的示意图仅仅是示例性而不是限制性的，并且其是可扩展的，本领域技术人员可以基于图2、图3、图4、图5和图6的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种数据处理模型训练方法，该数据处理模型训练方法可以应用于电子设备。以下，将结合图7所示流程示意图，对本公开实施例提供的一种数据处理模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

S701：获取待训练数据；

S702：获取参考第三表征向量；

S703：将待训练数据和参考第三表征向量输入到待训练模型，得到待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值；

S704：基于第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对待训练模型进行训练，获得数据处理模型。

其中，待训练数据包括第一对象的第一数据、第二对象的第二数据和第三数据。

本公开不对S701和S702的执行顺序进行限定。S701和S702可以同时执行。或者，S701先于S702执行。或者，S702先于S701执行。

本公开实施例中，第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，可以是人为标注的真值，也可以是从数据源获取的可信的真值。需要说明的是，本公开不对真值的来源进行限定。

本公开实施例中，数据处理模型用于根据输入的数据输出数据处理结果。数据处理结果可包括第一对象的第一表征向量、第二对象的第二表征向量和第二对象的入职概率。

其中，待训练模型用于根据待训练数据和参考第三表征向量，得到第一对象的第一表征向量预测值、第二对象的第二表征向量预测值，输出第二对象入职概率预测值。基于此，可以理解的是，本公开实施例中，待训练模型可以包括：至少一个搜索模型，至少用于获取该参考第三表征向量；至少一个打分模型，至少用于确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度；至少一个预测模型，用于预测第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象的入职概率预测值；该预测模型可包括第一预测模型、第二预测模型和第三预测模型，其中，第一预测模型用于预测第一对象的第一表征向量，第二预测模型用于预测第二对象的第二表征向量，第三预测模型用于预测第二对象的入职概率。数据处理模型是通过待训练数据对待训练模型进行训练获得的，因此，与待训练模型具有相同的模型结构，区别在于模型参数在经过训练后被更新。

本公开实施例中，该参考第三标准向量是目标岗位的第三标准向量。

如此，通过结合该参考第三表征向量来训练模型，能提高训练得到的数据处理模型的精度，从而能提高数据处理模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值的准确性。另外，基于第一对象的第一表征向量预测值与第二对象的第二表征向量预测值建立关联关系，能提高确定出的关联关系的准确性，提高建立关联关系的第一对象与第二对象间的匹配度，实现对有限资源的合理分配。

本公开实施例中，待训练模型包括第一预测模型、第二预测模型和第三预测模型。其中，第一预测模型用于第一对象的第一表征向量；第二预测模型用于预测第二对象的第二表征向量；第三预测模型用于预测第二对象的入职概率。

在一些实施例中，S703可包括：

S7031：基于第一对象的第一表征向量预测值和第一对象的第一表征向量真值确定第一损失函数；

S7032：基于第二对象的第二表征向量预测值和第二对象的第二表征向量真值确定第二损失函数；

S7033：基于第二对象的入职概率预测值和第二对象的入职概率真值确定第三损失函数；

S7034：分别使用第一损失函数训练第一预测模型，使用第二损失函数训练第二预测模型，使用第三损失函数训练第三预测模型。

这里，损失函数可采用负对数似然损失(Negative Log Likelihood Loss，NLLLoss)函数定义。

根据公式(10)确定第一损失函数：

其中，i表示第i-th位面试官，N_A表示面试官个数，k表示第k-th个技能，K表示技能的个数，

表示预测第i位面试官在第k个技能上的掌握情况，

表示第i-th位面试官在第k-th个技能上的真实掌握情况。

根据公式(11)确定第二损失函数：

其中，j表示第j-th位待匹配求职者，N_R表示求职者个数，k表示第k-th个技能，K表示技能的个数，

表示预测第j-th位候选者在第k个技能上的掌握情况，

表示第j-th位候选者在第k个技能上的真实掌握情况。

根据公式(12)确定第三损失函数：

其中，p_jc为预测求职者的入职概率，r_jc表示求职者真实的入职情况，A_i表示第i-th位面试官的经验能力，R_j表示第j-th位候选者的简历信息，J_c表示第c-th个岗位的技能需求。

最终，模型的总损失函数为：

Loss＝α*loss_A+β*loff_R+γ+loss_pjf (13)

其中，α、β和γ为超参权重，用于均衡多类损失值。

本公开不对S7031、S7032和S7033的执行顺序进行限定。S7031、S7032和S7033可以同时执行。或者，S7031先于S7032和S7033执行，S7032和S7033同时执行。或者，S7032先于S7031和S7033执行，S7031和S7033同时执行。或者，S7033先于S7031和S7032执行，S7031和S7032同时执行。或者，按照S7031、S7032、S7033的顺序依次执行。或者，按照S7031、S7033、S7032的顺序依次执行。或者，按照S7032、S7031、S7033的顺序依次执行。或者，按照S7032、S7033、S7031的顺序依次执行。或者，按照S7033、S7031、S7032的顺序依次执行。或者，按照S7033、S7032、S7031的顺序依次执行。

如此，能够更好地确定损失函数，能提高数据处理模型的训练速度，也能进一步提高第一表征向量、第二表征向量、第二对象入职概率的预测准确性。

在一些实施例中，待训练数据包括第一对象的第一数据，该第一数据包括第一标识号数据、历史面试数据和第一技能简介数据。S704可包括：

S7041：根据第一对象的第一标识号数据和历史面试数据，生成第一对象的经验能力表征；

S7042：根据第一对象的第一技能简介数据，生成第一对象的固有能力表征；

S7043：根据第一对象的经验能力表征和固有能力表征，确定第一对象的第一表征向量预测值。

如此，能提高预测出的第一对象的第一表征向量的准确性，从而有助于提高模型的训练速度。

本公开实施例中，根据第一对象的第一技能简介数据，生成第一对象的第一技能表征；根据第一对象的第一技能表征与参考第三表征向量，得到第一对象的固有能力表征。

如此，结合参考第三表征向量得到第一对象的固有能力表征，能提高第一表征向量的正确性，能为模型训练提供准确的数据支持，提升了模型训练的准确性。

本公开实施例中，待训练数据包括第二对象的第二数据，第二数据包括第二标识号数据和第二技能简介数据。该数据处理模型的训练方法还包括：基于第二对象的第二标识号数据和第二技能简介数据，生成第二对象的第二技能表征；根据第二对象的第二技能表征与该参考第三表征向量，得到第二对象的第二表征向量。

如此，基于第二对象对应的第二技能表征与参考第三表征向量，得到第二对象对应的第二表征向量，能够提高第二表征向量的正确性；从而为模型训练提供了准确的数据，提升了模型训练的准确性。

本公开实施例中，待训练数据包括目标岗位的第三数据，第三数据包括招聘文本信息和历史招聘数据。该数据处理模型的训练方法还包括：根据招聘文本信息得到第一技能需求；根据历史招聘数据得到第二技能需求；根据第一技能需求和第二技能需求，生成目标岗位的参考第三表征向量。

如此，基于目标岗位的第三数据，能够生成准确的参考第三表征向量，进而能为第一对象和第二对象间的匹配提供更加准确的数据支持，从而能够提高数据处理模型的训练优化效果，进一步提高数据处理模型预测求职者入职概率的准确性。

本公开提出了一种高效率的数据处理方案，实现了为第一对象分配合适的第二对象的，也保证了为第二对象分配合适的第一对象，提高了第一对象与第二对象的匹配准确率，进而能实现合理分配资源的目的。另外，由于关联关系的准确性得到提高，进而既能提高第一对象的识人准确率，又能提高第二对象的价值转化率，从而有利于实现资源利用最大化。

本公开实施例提供了一种数据处理装置，如图8所示，该数据处理装置可以包括：第一获取模块801，用于获取M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据，M为正整数，N为正整数；第一确定模块802，用于基于M个第一对象各自对应的第一数据，确定M个第一对象各自对应的第一表征向量；第二确定模块803，用于基于N个第二对象各自对应的第二数据，确定N个第二对象各自对应的第二表征向量；第三确定模块804，用于基于第一表征向量和第二表征向量，确定M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度；第四确定模块805，用于基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象的关联关系。

本公开实施例中，该数据处理装置，还可包括：第二获取模块806(图中未示出)，用于获取目标岗位对应的第三数据；提取模块807(图中未示出)，用于根据第三数据，提取目标岗位的技能需求；第一生成模块808(图中未示出)，用于根据技能需求，生成目标岗位的第三表征向量。

本公开实施例中，第三数据包括目标岗位对应的招聘文本信息和目标岗位的历史招聘数据；第一生成模块808(图中未示出)，包括：第一提取子模块，用于根据招聘文本信息得到第一技能需求向量；第二提取子模块，用于根据历史招聘数据得到第二技能需求向量；第一生成子模块，用于根据第一技能需求向量和第二技能需求向量，生成第三表征向量。

本公开实施例中，第一数据包括第一标识号数据、历史面试数据和第一技能简介数据；第一确定模块802，包括：第二生成子模块，用于根据M个第一对象各自对应的第一标识号数据和历史面试数据，生成M个第一对象各自对应的经验能力表征；第三生成子模块，用于根据M个第一对象各自对应的第一技能简介数据，生成M个第一对象各自对应的固有能力表征；第一确定子模块，用于根据M个第一对象各自对应的经验能力表征和固有能力表征，确定M个第一对象各自对应的第一表征向量。

本公开实施例中，第三生成子模块，还用于：根据M个第一对象各自对应的第一技能简介数据，生成M个第一对象各自对应的第一技能表征；根据M个第一对象各自对应的第一技能表征与第三表征向量，得到M个第一对象各自对应的固有能力表征。

本公开实施例中，第二数据包括第二标识号数据和第二技能简介数据，第二确定模块803，包括：第四生成子模块，用于基于N个第二对象各自对应的第二标识号数据和第二技能简介数据，生成N个第二对象各自对应的第二技能表征；第二确定子模块，用于根据N个第二对象各自对应的第二技能表征与第三表征向量，得到N个第二对象各自对应的第二表征向量。

本公开实施例中，第四确定模块805，包括：获取子模块，用于获取M个第一对象分别对应的可关联第二对象的上限数量；第三确定子模块，用于结合上限数量，基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，确定M个第一对象与N个第二对象的关联关系。

本公开实施例中，第三确定子模块，还用于：在为M个第一对象中任一第一对象关联的第二对象的数量达到该任一第一对象的上限数量的情况下，停止为该任一第一对象分配第二对象；在为M个第一对象中任一第一对象关联的第二对象的数量未达到该任一第一对象的上限数量的情况下，继续为该任一第一对象分配第二对象。

本公开实施例中，第三确定子模块，还用于：基于M个第一对象中任意第一对象与N个第二对象中任意第二对象之间的匹配度，每次选择出当前匹配度最高的第i个第一对象和第j个第二对象，为第i个第一对象和第j个第二对象建立关联关系，并将第i个第一对象的上限数量减1，其中，i为大于等于1且小于等于M的整数，j为大于等于1且小于等于N的整数。

本公开实施例中，该数据处理装置，还可包括：预测模块809(图中未示出)，用于基于第一表征向量、第二表征向量和第三表征向量，预测N个第二对象各自对应的入职概率。

本领域技术人员应当理解，本公开实施例的数据处理装置中各处理模块的功能，可参照前述的数据处理方法的相关描述而理解，本公开实施例的数据处理装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的数据处理装置，能提高确定出的关联关系的准确性，提高建立关联关系的第一对象与第二对象间的匹配度，实现对有限资源的合理分配。

本公开实施例提供了一种数据处理模型训练装置，如图9所示，该数据处理模型训练装置，包括：第三获取模块901，用于获取待训练数据；第四获取模块902，用于获取参考第三表征向量；第五确定模块903，用于将待训练数据和参考第三表征向量输入到待训练模型，得到待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象入职概率预测值；训练模块904，用于基于第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象的入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和第二对象的入职概率真值，对待训练模型进行训练，获得数据处理模型。

本公开实施例中，待训练模型包括第一预测模型、第二预测模型和第三预测模型，训练模块904，包括：第四确定子模块，用于基于第一对象的第一表征向量预测值和第一对象的第一表征向量真值确定第一损失函数；第五确定子模块，用于基于第二对象的第二表征向量预测值和第二对象的第二表征向量真值确定第二损失函数；第六确定子模块，用于基于第二对象的入职概率预测值和第二对象的入职概率真值确定第三损失函数；训练子模块，用于分别使用第一损失函数训练第一预测模型，使用第二损失函数训练第二预测模型，使用第三损失函数训练第三预测模型，第一预测模型用于预测第一对象的第一表征向量，第二预测模型用于预测第二对象的第二表征向量，第三预测模型用于预测第二对象的入职概率。

本公开实施例中，待训练数据包括第一对象的第一数据，第一数据包括第一标识号数据、历史面试数据和第一技能简介数据，训练模块904，还包括：第五生成子模块，用于根据第一对象的第一标识号数据和历史面试数据，生成第一对象的经验能力表征；第六生成子模块，用于根据第一对象的第一技能简介数据，生成第一对象的固有能力表征；第七确定子模块，用于根据第一对象的经验能力表征和固有能力表征，确定第一对象的第一表征向量预测值。

本公开实施例中，第六生成子模块，还用于：根据第一对象对应的第一技能简介数据，生成第一对象对应的第一技能表征；根据第一对象对应的第一技能表征与参考第三表征向量，得到第一对象对应的固有能力表征。

本公开实施例中，待训练数据包括第二对象的第二数据，第二数据包括第二标识号数据和第二技能简介数据，该装置还可包括：第二生成模块905(图中未示出)，用于基于第二对象的第二标识号数据和第二技能简介数据，生成第二对象的第二技能表征；根据第二对象的第二技能表征与参考第三表征向量，得到第二对象的第二表征向量。

本公开实施例中，待训练数据包括目标岗位的第三数据，第三数据包括招聘文本信息和历史招聘数据；该装置还可包括：第三生成模块906(图中未示出)，用于根据招聘文本信息得到第一技能需求；根据历史招聘数据得到第二技能需求；根据第一技能需求和第二技能需求，生成目标岗位的参考第三表征向量。

本领域技术人员应当理解，本公开实施例的数据处理模型训练装置中各处理模块的功能，可参照前述的数据处理模型训练方法的相关描述而理解，本公开实施例的数据处理模型训练装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的数据处理模型训练装置，能提高训练得到的数据处理模型的精度，从而能提高数据处理模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值的准确性。

本公开实施例提供了一种数据处理的场景示意图，如图10所示。

如前所述的，本公开实施例提供的数据处理方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

获取目标岗位对应的第三数据；

根据第三数据，提取目标岗位的技能需求；

根据技能需求，生成目标岗位的第三表征向量。

其中，M个第一对象各自对应的第一数据和N个第二对象各自对应的第二数据，以及第三数据可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

应理解，图10所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例还提供了一种数据处理模型训练装置，如图11所示。

如前所述的，本公开实施例提供的数据处理模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

获取待训练数据；

获取参考第三表征向量；

将待训练数据和参考第三表征向量输入到待训练模型，得到待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值；

通过第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对待训练模型进行训练，获得数据处理模型。

其中，待训练数据，以及参考第三表征向量可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，图片数据源与用户终端可以是同一设备。

应理解，图11所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图11的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RandomAccess Memory，RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如数据处理方法/数据处理模型训练方法。例如，在一些实施例中，数据处理方法/数据处理模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法/数据处理模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

基于所述M个第一对象各自对应的第一数据，确定所述M个第一对象各自对应的第一表征向量；

基于所述N个第二对象各自对应的第二数据，确定所述N个第二对象各自对应的第二表征向量；

基于所述第一表征向量和所述第二表征向量，确定所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度；

基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系。

2.根据权利要求1所述的方法，还包括：

获取目标岗位对应的第三数据；

根据所述第三数据，提取所述目标岗位的技能需求；

根据所述技能需求，生成目标岗位的第三表征向量。

3.根据权利要求2所述的方法，其中，所述第三数据包括所述目标岗位对应的招聘文本信息和所述目标岗位的历史招聘数据；

所述根据所述技能需求，生成所述目标岗位的第三表征向量，包括：

根据所述招聘文本信息得到第一技能需求向量；

根据所述历史招聘数据得到第二技能需求向量；

根据所述第一技能需求向量和所述第二技能需求向量，生成所述第三表征向量。

4.根据权利要求2所述的方法，其中，所述第一数据包括第一标识号数据、历史面试数据和第一技能简介数据；

所述基于所述M个第一对象各自对应的第一数据，确定所述M个第一对象各自对应的第一表征向量，包括：

根据所述M个第一对象各自对应的第一标识号数据和历史面试数据，生成所述M个第一对象各自对应的经验能力表征；

根据所述M个第一对象各自对应的第一技能简介数据，生成所述M个第一对象各自对应的固有能力表征；

根据所述M个第一对象各自对应的所述经验能力表征和所述固有能力表征，确定所述M个第一对象各自对应的第一表征向量。

5.根据权利要求4所述的方法，其中，所述根据所述M个第一对象各自对应的第一技能简介数据，生成所述M个第一对象各自对应的固有能力表征，包括：

根据所述M个第一对象各自对应的第一技能简介数据，生成所述M个第一对象各自对应的第一技能表征；

根据所述M个第一对象各自对应的第一技能表征与所述第三表征向量，得到所述M个第一对象各自对应的固有能力表征。

6.根据权利要求2所述的方法，其中，所述第二数据包括第二标识号数据和第二技能简介数据；

所述基于所述N个第二对象各自对应的第二数据，确定所述N个第二对象各自对应的第二表征向量，包括：

基于所述N个第二对象各自对应的第二标识号数据和第二技能简介数据，生成所述N个第二对象各自对应的第二技能表征；

根据所述N个第二对象各自对应的第二技能表征与所述第三表征向量，得到所述N个第二对象各自对应的第二表征向量。

7.根据权利要求1所述的方法，其中，所述基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系，包括：

获取所述M个第一对象分别对应的可关联第二对象的上限数量；

结合所述上限数量，基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系。

8.根据权利要求7所述的方法，其中，所述结合所述上限数量，基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系，包括：

在为所述M个第一对象中任一第一对象关联的第二对象的数量达到所述任一第一对象的上限数量的情况下，停止为所述任一第一对象分配第二对象；

在为所述M个第一对象中任一第一对象关联的第二对象的数量未达到所述任一第一对象的上限数量的情况下，继续为所述任一第一对象分配第二对象。

9.根据权利要求7所述的方法，其中，所述结合所述上限数量，基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系，包括：

基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，每次选择出当前匹配度最高的第i个第一对象和第j个第二对象，为所述第i个第一对象和所述第j个第二对象建立关联关系，并将所述第i个第一对象的上限数量减1，其中，i为大于等于1且小于等于M的整数，j为大于等于1且小于等于N的整数。

10.根据权利要求2所述的方法，还包括：

基于所述第一表征向量、所述第二表征向量和所述第三表征向量，预测所述N个第二对象各自对应的入职概率。

11.一种数据处理模型训练方法，包括：

获取待训练数据；

获取参考第三表征向量；

将所述待训练数据和所述参考第三表征向量输入到待训练模型，得到所述待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象入职概率预测值；

基于所述第一对象的第一表征向量预测值、所述第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对所述待训练模型进行训练，获得数据处理模型。

12.根据权利要求11所述的方法，其中，所述待训练模型包括第一预测模型、第二预测模型和第三预测模型；所述基于所述第一对象的第一表征向量预测值、所述第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对所述待训练模型进行训练，获得数据处理模型，包括：

基于所述第一对象的第一表征向量预测值和所述第一对象的第一表征向量真值确定第一损失函数；

基于所述第二对象的第二表征向量预测值和所述第二对象的第二表征向量真值确定第二损失函数；

基于所述第二对象的入职概率预测值和所述第二对象的入职概率真值确定第三损失函数；

分别使用所述第一损失函数训练所述第一预测模型，使用所述第二损失函数训练所述第二预测模型，使用所述第三损失函数训练所述第三预测模型，所述第一预测模型用于预测所述第一对象的第一表征向量，所述第二预测模型用于预测所述第二对象的第二表征向量，所述第三预测模型用于预测所述第二对象的入职概率。

13.根据权利要求11所述的方法，其中，所述待训练数据包括第一对象的第一数据，所述第一数据包括第一标识号数据、历史面试数据和第一技能简介数据，所述方法还包括：

根据所述第一对象的第一标识号数据和历史面试数据，生成所述第一对象的经验能力表征；

根据所述第一对象的第一技能简介数据，生成所述第一对象的固有能力表征；

根据所述第一对象的所述经验能力表征和所述固有能力表征，确定所述第一对象的第一表征向量预测值。

14.根据权利要求13所述的方法，其中，所述根据所述第一对象对应的第一技能简介数据，生成所述第一对象的固有能力表征，包括：

根据所述第一对象的第一技能简介数据，生成所述第一对象的第一技能表征；

根据所述第一技能表征与所述参考第三表征向量，得到所述第一对象的固有能力表征。

15.根据权利要求11所述的方法，其中，所述待训练数据包括第二对象的第二数据，所述第二数据包括第二标识号数据和第二技能简介数据；

所述方法还包括：

基于所述第二对象的第二标识号数据和第二技能简介数据，生成所述第二对象的第二技能表征；

根据所述第二技能表征与所述参考第三表征向量，得到所述第二对象的第二表征向量预测值。

16.根据权利要求11所述的方法，其中，所述待训练数据包括目标岗位的第三数据，所述第三数据包括招聘文本信息和历史招聘数据；

所述方法还包括：

根据所述招聘文本信息得到第一技能需求；

根据所述历史招聘数据得到第二技能需求；

根据所述第一技能需求和所述第二技能需求，生成所述目标岗位的所述参考第三表征向量。

17.一种数据处理装置，包括：

第一确定模块，用于基于所述M个第一对象各自对应的第一数据，确定所述M个第一对象各自对应的第一表征向量；

第二确定模块，用于基于所述N个第二对象各自对应的第二数据，确定所述N个第二对象各自对应的第二表征向量；

第三确定模块，用于基于所述第一表征向量和所述第二表征向量，确定所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度；

第四确定模块，用于基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系。

18.根据权利要求17所述的装置，还包括：

第二获取模块，用于获取目标岗位对应的第三数据；

提取模块，用于根据所述第三数据，提取所述目标岗位的技能需求；

第一生成模块，用于根据所述技能需求，生成目标岗位的第三表征向量。

19.根据权利要求18所述的装置，其中，所述第三数据包括所述目标岗位对应的招聘文本信息和所述目标岗位的历史招聘数据；所述第一生成模块，包括：

第一提取子模块，用于根据所述招聘文本信息得到第一技能需求向量；

第二提取子模块，用于根据所述历史招聘数据得到第二技能需求向量；

第一生成子模块，用于根据所述第一技能需求向量和所述第二技能需求向量，生成所述第三表征向量。

20.根据权利要求18所述的装置，其中，所述第一数据包括第一标识号数据、历史面试数据和第一技能简介数据；所述第一确定模块，包括：

第二生成子模块，用于根据所述M个第一对象各自对应的第一标识号数据和历史面试数据，生成所述M个第一对象各自对应的经验能力表征；

第三生成子模块，用于根据所述M个第一对象各自对应的第一技能简介数据，生成所述M个第一对象各自对应的固有能力表征；

第一确定子模块，用于根据所述M个第一对象各自对应的所述经验能力表征和所述固有能力表征，确定所述M个第一对象各自对应的第一表征向量。

21.根据权利要求20所述的装置，其中，所述第三生成子模块，还用于：

22.根据权利要求18所述的装置，其中，所述第二数据包括第二标识号数据和第二技能简介数据；所述第二确定模块，包括：

第四生成子模块，用于基于所述N个第二对象各自对应的第二标识号数据和第二技能简介数据，生成所述N个第二对象各自对应的第二技能表征；

第二确定子模块，用于根据所述N个第二对象各自对应的第二技能表征与所述第三表征向量，得到所述N个第二对象各自对应的第二表征向量。

23.根据权利要求17所述的装置，其中，所述第四确定模块，包括：

获取子模块，用于获取所述M个第一对象分别对应的可关联第二对象的上限数量；

第三确定子模块，用于结合所述上限数量，基于所述M个第一对象中任意第一对象与所述N个第二对象中任意第二对象之间的匹配度，确定所述M个第一对象与所述N个第二对象的关联关系。

24.根据权利要求23所述的装置，其中，所述第三确定子模块，还用于：

25.根据权利要求23所述的装置，其中，所述第三确定子模块，还用于：

26.根据权利要求18所述的装置，还包括：

预测模块，用于基于所述第一表征向量、所述第二表征向量和所述第三表征向量，预测所述N个第二对象各自对应的入职概率。

27.一种数据处理模型训练装置，包括：

第三获取模块，用于获取待训练数据；

第四获取模块，用于获取参考第三表征向量；

第五确定模块，用于将所述待训练数据和所述参考第三表征向量输入到待训练模型，得到所述待训练模型输出的第一对象的第一表征向量预测值、第二对象的第二表征向量预测值和第二对象入职概率预测值；

训练模块，用于基于所述第一对象的第一表征向量预测值、所述第二对象的第二表征向量预测值和入职概率预测值，以及第一对象的第一表征向量真值、第二对象的第二表征向量真值和入职概率真值，对所述待训练模型进行训练，获得数据处理模型。

28.根据权利要求27所述的装置，其中，所述待训练模型包括第一预测模型、第二预测模型和第三预测模型；所述训练模块，包括：

第四确定子模块，用于基于所述第一对象的第一表征向量预测值和所述第一对象的第一表征向量真值确定第一损失函数；

第五确定子模块，用于基于所述第二对象的第二表征向量预测值和所述第二对象的第二表征向量真值确定第二损失函数；

第六确定子模块，用于基于所述第二对象的入职概率预测值和所述第二对象的入职概率真值确定第三损失函数；

训练子模块，用于分别使用所述第一损失函数训练所述第一预测模型，使用所述第二损失函数训练所述第二预测模型，使用所述第三损失函数训练所述第三预测模型，所述第一预测模型用于预测所述第一对象的第一表征向量，所述第二预测模型用于预测所述第二对象的第二表征向量，所述第三预测模型用于预测所述第二对象的入职概率。

29.根据权利要求27所述的装置，其中，所述待训练数据包括第一对象的第一数据，所述第一数据包括第一标识号数据、历史面试数据和第一技能简介数据，所述训练模块包括：

第五生成子模块，用于根据所述第一对象的第一标识号数据和历史面试数据，生成所述第一对象的经验能力表征；

第六生成子模块，用于根据所述第一对象的第一技能简介数据，生成所述第一对象的固有能力表征；

第七确定子模块，用于根据所述第一对象的所述经验能力表征和所述固有能力表征，确定所述第一对象的第一表征向量预测值。

30.根据权利要求29所述的装置，其中，所述第六生成子模块，还用于：

31.根据权利要求27所述的装置，其中，所述待训练数据包括第二对象的第二数据，所述第二数据包括第二标识号数据和第二技能简介数据；所述装置还包括：

第二生成模块，用于基于所述第二对象的第二标识号数据和第二技能简介数据，生成所述第二对象的第二技能表征；根据所述第二技能表征与所述参考第三表征向量，得到所述第二对象的第二表征向量预测值。

32.根据权利要求27所述的装置，其中，所述待训练数据包括目标岗位的第三数据，所述第三数据包括招聘文本信息和历史招聘数据；所述装置还包括：

第三生成模块，用于根据所述招聘文本信息得到第一技能需求；根据所述历史招聘数据得到第二技能需求；根据所述第一技能需求和所述第二技能需求，生成所述目标岗位的所述参考第三表征向量。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。

35.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。