CN114118082A

CN114118082A - 一种简历检索方法及装置

Info

Publication number: CN114118082A
Application number: CN202111424955.6A
Authority: CN
Inventors: 汪洲; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Chengdu Jinshan Interactive Entertainment Technology Co., Ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-01

Abstract

本申请提供一种简历检索方法及装置，其中所述简历检索方法包括：获取简历检索文本；对所述简历检索文本进行实体识别，识别所述简历检索文本中的各实体内容；针对所述各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词；基于各目标检索关键词，从简历库中检索目标简历。如此，通过确定简历检索文本中实体内容对应的目标检索关键词，能够得到更多的检索关键词，使得检索更加充分，可以避免漏掉符合条件的简历，且不需要进行多次检索，提高了简历检索的准确性和效率。

Description

一种简历检索方法及装置

技术领域

本申请涉及文本处理技术领域，特别涉及一种简历检索方法及装置、计算设备和计算机可读存储介质。

背景技术

随着网络招聘的发展，通过网络平台找工作的人越来越多，网络招聘产品中人才信息的量越来越庞大，人才层次也越来越复杂，招聘公司经常会迷失在大量的人才信息空间中，无法顺利找到自己需要的人才。

通常情况下，可以根据简历检索文本，从简历库中检索满足条件的目标简历。例如简历检索文本是“毕业于北京大学计算机专业的人”，该文本中存在两个关键词，一个是北大，另一个是计算机专业，现有的方法使用字符匹配的方案进行检索，将简历中包括“北京大学”和“计算机专业”的人作为候选人，但这种方式可能会将一些符合条件的候选人漏掉，导致检索不够充分，可能需要更换简历检索文本的内容进一步检索，降低了简历检索的准确性和效率。

发明内容

有鉴于此，本申请实施例提供了一种简历检索方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种简历检索方法，包括：

获取简历检索文本；

对所述简历检索文本进行实体识别，识别所述简历检索文本中的各实体内容；

针对所述各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词；

基于各目标检索关键词，从简历库中检索目标简历。

根据本申请实施例的第二方面，提供了一种简历检索装置，包括：

获取模块，被配置为获取简历检索文本；

识别模块，被配置为对所述简历检索文本进行实体识别，识别所述简历检索文本中的各实体内容；

确定模块，被配置为针对所述各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词；

检索模块，被配置为基于各目标检索关键词，从简历库中检索目标简历。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述简历检索方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述简历检索方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述简历检索方法的步骤。

本申请实施例中，获取简历检索文本；对所述简历检索文本进行实体识别，识别所述简历检索文本中的各实体内容；针对所述各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词；基于各目标检索关键词，从简历库中检索目标简历。如此，通过确定简历检索文本中实体内容对应的目标检索关键词，能够得到更多的检索关键词，使得检索更加充分，可以避免漏掉符合条件的简历，且不需要进行多次检索，提高了简历检索的准确性和效率。

附图说明

图1是根据本申请实施例提供的一种简历检索系统的结构示意图；

图2是根据本申请实施例提供的一种简历检索方法的流程图；

图3是根据本申请实施例提供的另一种简历检索方法的流程图；

图4是根据本申请实施例提供的一种确定目标检索关键词的方法的流程图；

图5是根据本申请实施例提供的另一种确定目标检索关键词的方法的流程图；

图6是根据本申请实施例提供的又一种确定目标检索关键词的方法的流程图；

图7是根据本申请实施例提供的再一种确定目标检索关键词的方法的流程图；

图8是根据本申请实施例提供的又一种简历检索方法的流程图；

图9是根据本申请实施例提供的再一种简历检索方法的流程图；

图10是根据本申请实施例提供的再一种简历检索方法的流程图；

图11是根据本申请实施例提供的一种简历检索方法的示意图；

图12是根据本申请实施例提供的一种简历检索装置的结构示意图；

图13是根据本申请实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

简历检索：是指通过搜索问句，从简历库中搜索满足问句条件的目标简历。

简历检索文本：用来进行简历检索的文本，包括目标简历需要满足的条件，该简历检索文本的文本内容可以是检索语句的形式。

第一类实体内容：与附加经验信息相关的实体内容，可以是额外附加的经历或者关于其他经历的附加内容。示例性地，额外附加的经历可以是掌握的技能，关于其他经历的附加内容可以是教育经历中的毕业时间、工作经历中的工作时间。

第二类实体内容：与教育经历相关的实体内容，可以是教育经历中通常会写的内容。例如，第二类实体内容可以是教育经历中的学校、专业、学科等。

简称类实体内容：包括简称和全称两种描述方式的实体内容。

多子级类实体内容：包括一级、二级等多个级别，且多个级别之间存在关联关系的实体内容。

BERT：Bidirectional Encoder Representation from Transformers，一种开源的预训练语言模型，通过大量数据训练一个语言表征模型。

NER：(Named Entity Recognition，命名实体识别)，指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词、时间等。

CRF：(Conditional Random Field algorithm，条件随机场算法)，是一种无向图模型，结合了最大熵模型和隐马尔可夫模型的特点，可以在分词、词性标注和命名实体识别等序列标注任务中使用。

CNN：(Convolutional Neural Network，卷积神经网络)，用于对输入进行特征提取，而后根据提取到的特征对输入进行分类、识别、预测等等。

词向量：(Word embedding)，是Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。

词嵌入：是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量的处理过程。

词单元：对输入文本做任何实际处理前，都需要将其分割成诸如字、标点符号、数字或字母等语言单元，这些语言单元被称为词单元。对于英文文本，词单元可以是一个单词、一个标点符号、一个数字等；对于中文文本，最小的词单元可以是一个字、一个标点符号、一个数字等。

word2vec：进行词嵌入处理的一种方法，是Mikolov在Bengio Neural NetworkLanguage Model(NNLM)的基础上构建的一种高效的词向量训练方法。即通过使用该方法可以对文本进行词嵌入处理，得到文本的词向量。

BiLSTM：(Bi-directional Long Short-Term Memory)，由前向LSTM与后向LSTM组合而成，在NLP中常被用来建模上下文信息。

接下来，对本申请实施例提供的简历检索方法的应用场景进行说明。

现有的简历检索通常是根据简历检索文本，使用字符匹配的方式进行检索。但是，在简历检索文本中，关于学校要求方面可能输入的不是一个完整的校名，如“交大”、“北大”，但简历中通常是完整的学校全称，通过现有的字符匹配的方法只能搜索简称，可能无法将包括学校全称的简历检索出来。关于专业要求方面输入的是专业别称或简称，例如“计算机科学与技术”可称为“计算机”、“计科”、“计算机科学”、“计算机类”等，通过现有的字符匹配算法可能无法获取到某些符合专业要求的简历。或者，专业要求方面输入的是本科专业名称，但同一个专业，其本科专业名称和研究生专业名称可能是完全不同的，例如，本科专业“自动化”，研究生专业为“控制科学与技术”，若仅按照专业方向依然可能无法将有些符合要求的简历筛选出来。综上可知，通过现有的字符匹配的方式进行检索，可能会将一些符合要求的简历漏掉，导致检索不够充分，降低了简历检索的准确性和效率。

为此，本申请实施例提供了一种简历检索方法，可以解决上述问题，其具体实现可以参见下述各个实施例的相关描述。

在本申请中，提供了一种简历检索方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是根据本申请实施例提供的一种简历检索系统的结构示意图。

本申请实施例提供的简历检索方法的执行主体可以是服务器，也可以是终端，本申请实施例对此不作限定。并且，该终端可以是任何一种可与用户进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、掌上电脑PPC(Pocket PC)、平板电脑等。该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心，本申请实施例对此不做限定。

以执行主体是终端为例，则终端获取到简历检索文本后，对简历检索文本进行实体识别，识别该简历检索文本中的各实体内容，针对各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词，基于各目标检索关键词，从简历库中检索目标简历。并且，在确定与实体内容关联的目标检索关键词时，可能会用到第一相似度模型和第二相似度模型，该第一相似度模型和第二相似度模型可以通过服务器训练得到并且发送至终端。

以执行主体是服务器为例，则服务器获取到简历检索文本后，对简历检索文本进行实体识别，识别该简历检索文本中的各实体内容，针对各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词，基于各目标检索关键词，从简历库中检索目标简历。并且，服务器可以自行基于训练样本对第一相似度模型和第二相似度模型进行训练，且在确定目标检索关键词时使用训练完成的第一相似度模型和第二相似度模型。

本申请实施例中，通过确定简历检索文本中实体内容对应的目标检索关键词，能够得到更多的检索关键词，使得检索更加充分，可以避免漏掉符合条件的简历，且不需要进行多次检索，提高了简历检索的准确性和效率。

本领域技术人员应能理解上述终端和服务器仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请实施例，也应包含在本申请实施例保护范围以内，并在此以引用方式包含于此。

图2是根据本申请实施例提供的一种简历检索方法的流程图，包括步骤202至步骤208。

步骤202：获取简历检索文本。

作为一种示例，简历检索文本是用来筛选目标简历的文本，该简历检索文本中包括目标简历需要满足的条件，或者说招聘企业的招聘需求，且该简历检索文本的文本内容可以是检索语句的形式。例如，该简历检索文本的文本内容可以是“2020年清华大学计算机专业毕业且会java的人”。

在一些实施例中，简历检索文本可以是招聘企业根据招聘需求或条件设置的，可以存储在终端中，也可以存储在服务器或检索文本数据库中。在需要进行简历检索时，可以从终端本地或者服务器或者检索文本数据库中获取简历检索文本。

本申请实施例中，将招聘需求或条件以简历检索文本的形式进行设置，在进行简历检索时，不需要按照招聘条件一条一条去筛选简历，可以直接根据简历检索文本进行简历检索，提高了简历检索的效率。

步骤204：对简历检索文本进行实体识别，识别简历检索文本中的各实体内容。

在实施中，获取到简历检索文本后，需要从简历检索文本中确定能够进行简历检索的检索词，本实施例中可以通过实体识别的方式确定简历检索文本中的实体内容，即先确定简历检索文本中从字面来看有哪些实体内容。

在一些实施例中，可以通过实体识别模型对简历检索文本进行实体识别，以确定简历检索文本中的实体内容。该实体识别模型可以是任何具有识别文本中实体的功能的模型，将简历检索文本作为实体识别模型的输入，则实体识别模型的输出是该简历检索文本中的各实体内容。

作为一种示例，该实体识别模型可以是NER模型。示例性地，该NER模型可以由BERT模型和CRF层组成，或者，该NER模型可以由RNN模型和CRF层组成。

示例性地，NER模型可以是在BERT模型之后加了一个CRF层，单独的CRF是一种条件随机场算法，CRF在该NER模型中是一个下游任务层，用于约束标签转移概率的关系。

作为一种示例，无论实体识别模型的结构如何，均可以通过如下方式训练得到：获取样本文本，并为样本文本设置标签，该标签可以是样本文本中的每个字是否是实体内容中的字，以及每个字对应的实体类别。示例性地，可以按照B、I、O的方式对样本文本中的字是否是实体内容中的字进行标注。其中，B可以称为Begin，表示实体内容的开头词，即实体内容的第一个字；I可以称为Inside，表示实体内容的中间结尾词，即实体内容的第二个字到最后一个字；O可以称为Outside，表示非实体内容，即不是实体内容的字。并且，为每个字增加类别标签，如某个字是学校类别，说明该字是学校类别的实体内容中的字，某个字是专业类别，说明该字是专业类别的实体内容中的字，某个字是时间类别，说明该字是时间类别的实体内容中的字，某个字是技能类别，说明该字是技能类别的实体内容中的字，某个字的类别是空，说明该字不是实体内容的字。可以将携带标签的样本文本输入实体识别模型，则该实体识别模型可以输出预测得到的该样本文本中每个字的预测标签，基于每个字的预测标签和真实标签确定损失值，在损失值小于预设损失阈值的情况下，可以认为预测结果和实际结果的差距很小，即模型已经达到比较好的效果，因此可以停止模型训练，得到训练完成的实体识别模型。并且，针对不同的实体识别任务，可以为样本文本设置不同的标签，即对于不同的任务，可以训练得到不同的实体识别模型。

示例性地，假设简历检索文本是“北大计算机专业2021年毕业的人”，将该简历检索文本输入实体识别模型，可以确定该简历检索文本中的实体内容包括北大、计算机和2021年，并且北大属于学校类别、计算机属于专业类别、2021年属于时间类别。例如，实体识别模型的输入是“北大计算机专业2021年毕业的人”，则其输出可以是[(北大，学校)，(计算机，专业)，(2021年，时间)]。

进一步地，对于时间类别的实体内容，可以根据其前后文的字符确定该实体内容是教育经历中的毕业时间还是工作经历中的工作时间。如此，在后续进行简历检索时，针对时间的筛选能够更加精准，得到的目标简历准确性更高。

作为一种示例，若时间类别的实体内容前后文的字符中包括“毕业”相关的字符，则可以确定该时间类别的实体内容是教育经历中的毕业时间；若时间类别的实体内容前后文的字符中包括“工作”相关的字符，则可以确定该时间类别的实体内容是工作经历中的工作时间。

示例性地，假设简历检索文本是“北大计算机专业2021年毕业的人”，该简历检索文本的实体内容包括北大、计算机和2021年，并且北大属于学校类别、计算机属于专业类别、2021年属于时间类别，由于2021年之后的词语是“毕业”，因此，可以确定2021年是教育经历中的毕业时间。或者，假设简历检索文本是“前端开发3年工作经验的人”，该简历检索文本的实体内容包括前端开发和3年，且前端开发属于岗位类别、3年属于时间类别，由于3年之后的词语是“工作经验”，因此，可以确定3年是工作经历中的工作时间。

本申请实施例中，通过NER模型对简历检索文本进行实体识别，将简历检索文本中重要的内容(即实体内容)均识别出来，如此将简历检索文本中一些不重要的词语筛掉，在进行简历检索时能够有重点地按照实体内容进行检索，一定程度上提高了简历检索的效率。

步骤206：针对各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词。

由于在设置简历检索文本时，输入的文本内容可能不是特别规范，对于学校，输入的可能是简称或别称，对于专业，输入的也可能是专业的别称，或者，有的专业本科和研究生的专业名称不同，因此，仅根据简历检索文本中识别得到的实体内容，可能无法将有些符合要求的目标简历筛选出来。基于该种情况，本实施例可以利用预设关联规则，确定与实体内容关联的目标检索关键词，如根据学校或专业的简称关联到全称，根据本科专业关联到研究生专业等等，如此将与实体内容相关的词语确定出来，在进行检索时便能够将更多地符合要求的目标简历筛选出来，可以提高简历筛选的准确率。

在一些实施例中，预设关联规则是将实体内容与目标检索关键词关联起来的规则，通过该预设关联规则，可以确定出各实体内容关联的目标检索关键词。并且，对于不同的实体内容，该预设关联规则可能是不同的。例如，假设实体内容是学校名称，则预设关联规则可以是学校简称或别称与学校全称的关联关系。又如，假设实体内容是专业名称，则预设关联规则可以是专业简称或别称与专业全称的关联关系，或者，假设实体内容是专业名称，预设关联规则可以是一级学科与N级学科的关联关系，或者，假设实体内容是专业名称，预设关联规则是专业简称或别称与专业全称的关联关系，以及一级学科与N级学科的关联关系。其中，N是大于1的正整数。

示例性地，假设实体内容包括：北大和计算机，且北大是学校类别，计算集是专业类别。对于学校名称，假设在预设关联规则中，与北大有关联关系的是北京大学，则可以将“北京大学”确定为学校类别的实体内容的目标检索关键词。对于专业名称，假设在预设关联规则中，与计算机有关联的专业包括计算机科学与技术、软件开发、软件工程和计算机网络技术，则可以将“计算机科学与技术、软件开发、软件工程和计算机网络技术”确定为专业类别的实体内容的目标检索关键词。

本申请实施例中，通过预设关联规则，确定与各实体内容关联的目标检索关键词，能够得到更多与检索条件相关的检索关键词，便能够将更多符合条件的简历确定出来，使得检索更加充分。

步骤208：基于各目标检索关键词，从简历库中检索目标简历。

在实施中，确定每个实体内容关联的目标检索关键词后，可以从简历库中获取包括各目标检索关键词的简历作为目标简历。由于目标检索关键词比较充分，因此，能够检索到较多符合条件的目标简历，可以减少漏掉符合条件的简历的情况。

在一些实施例中，由于有的实体内容关联的目标检索关键词存在多个，但多个之间可能是并列的关系，例如多个专业，因此只要简历中包括每种类别的至少一个目标检索关键词，则可以将该简历确定为目标简历。

作为一种示例，假设目标检索关键词包括“仪器科学与技术”、“精密仪器及机械”和“测试计量技术及仪器”，由于这三个均是专业类的检索关键词，因此，可以从简历库中检索包括“仪器科学与技术”、“精密仪器及机械”或者“测试计量技术及仪器”的简历作为目标简历。示例性地，可以通过elastic search检索方式进行检索。

作为一种示例，假设目标检索关键词包括“北京大学”、“计算机科学与技术”和“计算机网络与技术”，由于“计算机科学与技术”和“计算机网络与技术”均属于专业方面，因此，可以从简历库中检索包括“北京大学”和“计算机科学与技术”的简历作为目标简历，或者，从简历库中检索包括“北京大学”和“计算机网络与技术”的简历作为目标简历。示例性地，可以通过elastic search检索方式进行检索。

作为一种示例，可以通过elastic search和mysql两种检索方式进行简历检索。针对学校，专业和技能等类别的目标检索关键词，可以使用elastic search的方式进行检索，针对时间类别的目标检索关键词，可以使用mysql的方式进行检索，然后将两种方式检索得到的简历取交集，则可以得到目标简历。或者，可以先采用elastic search的方式检索得到候选简历，然后采用mysql的方式从候选简历中检索得到目标简历。或者，可以先采用mysql的方式检索得到候选简历，然后采用elastic search的方式从候选简历中检索得到目标简历。

其中，elastic search适合于非结构化文档类数据存储、支持智能分词匹配模糊查询。比如在电商网站商品搜索栏中，用户输入以空格为分隔符的字符串(如：家电电视等)，后台elastic search数据库搜索引擎会根据用户输入的信息，对数据库中保存的非结构化数据进行分词模糊匹配查询，返回满足匹配条件的前N条记录给用户。mysql是一种开源关系型数据库，适合于结构化数据存储和查询，在简历检索场景下，可以返回所有满足匹配条件的简历。

作为一种示例，假设目标检索关键词包括“清华大学”、“计算机科学与技术”和“≤2020年”，则可以通过mysql检索方式检索满足“≤2020年”这一条件的候选简历，且通过elastic search检索方式从候选简历中检索包括“清华大学”和“计算机科学与技术”的简历，将最终检索到的简历确定为目标简历。例如，假设某个简历中包括“清华大学”、“计算机科学与技术”和“2016-2020就读”，则可以将该简历确定为目标简历。

本申请实施例，通过确定简历检索文本中实体内容对应的目标检索关键词，能够得到更多的检索关键词，便能够将更多符合条件的简历确定出来，使得检索更加充分，可以避免漏掉符合条件的简历，且不需要进行多次检索，提高了简历检索的准确性和效率。

图3是根据本申请实施例提供的另一种简历检索方法的流程图，包括步骤302至步骤308。

步骤302：获取简历检索文本。

步骤304：对简历检索文本进行实体识别，识别简历检索文本中的各实体内容。

需要说明的是，步骤302-步骤304的具体实现可以参见上述步骤202-步骤204的相关描述，本实施例在此不再赘述。

步骤306：将第一类实体内容确定为目标检索关键词。

其中，第一类实体内容是简历检索文本中的各实体内容包括的与附加经验信息相关的实体内容，可以是额外附加的经历或者关于其他经历的附加内容。作为一种示例，额外附加的经历可以是掌握的技能，关于其他经历的附加内容可以是教育经历中的毕业时间、工作经历中的工作时间。例如，额外附加的经历可以是精通CAD(Computer Aided Design，计算机辅助设计)、精通各类办公软件等。

在一些实施例中，第一类实体内容通常不会存在简称或别称的问题，因此，对于第一类实体内容，其预设关联规则可以是该第一类实体内容便是目标检索关键词，即可以直接将第一类实体内容确定为目标检索关键词。示例性地，假设第一类实体内容包括java，则可以将java作为与第一类实体内容关联的目标检索关键词。

本申请实施例中，对于与附加经验信息相关的实体内容，由于其不会存在简历中的描述与简历检索文本中的描述不一致的情况，因此，可以直接将第一类实体内容确定为目标检索关键词，减少了对第一类实体内容进行处理确定目标检索关键词的操作，提高了确定目标检索关键词的效率。

需要说明的是，步骤306是上述步骤206的一种具体实现方式。

步骤308：基于各目标检索关键词，从简历库中检索目标简历。

作为一种示例，假设目标检索关键词包括“清华大学”、“计算机科学与技术”和“java”，则可以通过elastic search检索方式从简历库中检索包括“清华大学”、“计算机科学与技术”和“java”的简历作为目标简历。

需要说明的是，步骤308的具体实现可以参见上述步骤208的相关描述，本实施例在此不再赘述。

本申请实施例中，对获取到的简历检索文本进行识别后，将识别到的第一类实体内容直接确定为目标检索关键词，不需要进行其他的操作，提高了确定目标检索关键词的效率，且该目标检索关键词是简历检索文本中的原词，与检索条件的关联程度更高，则基于该目标检索关键词从简历库中检索得到的目标简历更加符合用户需求。

图4是根据本申请实施例提供的一种确定目标检索关键词的方法的流程图，包括步骤402至步骤404。

步骤402：若基于预设模板确定时间类实体内容是时间点，将时间类实体内容确定为目标检索关键词。

其中，简历检索文本中各实体内容包括与附加经验信息相关的第一类实体内容，该第一类实体内容包括时间类实体内容。作为一种示例，该时间类实体内容可能是教育经历中的毕业时间，也可能是工作经历中的工作时间。

其中，该预设模板可以是预先设置的用于确定时间类实体内容是时间点还是时间段的。

在一些实施例中，确定简历检索文本的实体内容后，对于时间类的实体内容，可以根据预设模板确定该时间类实体内容是时间点还是时间段，且对于时间点和时间段采用不同的方式确定目标检索关键词。

作为一种示例，该预设模板可以是一些关于时间的特定表达形式，如“xx前”、“xx后”、“xx年-xx年”、“xx年至今”、“xx年”、“xx月”等等，并且，“xx前”、“xx后”和“xx年-xx年”均表示时间类实体内容是时间段，“xx年”和“xx月”表示时间类实体内容是时间点。示例性地，假设时间类实体内容是“2020年前”，可以确定其符合关于时间的特定表达形式“xx年前”，则可以确定“2020年前”是时间段，或者，假设时间类实体内容是“2021年”，可以确定其符合关于时间的特定表达形式“xx年”，则可以确定“2021年”是时间点。

作为另一种示例，该预设模板可以包括一些关键词或关键符号，如“前”、“后”、“-”、“至”等，并且，确定包括这些关键词或关键符号的时间类实体内容是时间段，不包括这些关键词或关键符号的时间类实体内容是时间点。示例性地，假设时间类实体内容是“2020年前”，可以确定其中包括关键词“前”，则可以确定“2020年前”是时间段，或者，假设时间类实体内容是“2021年”，可以确定其中不包括预设模板包括的关键词和关键符号，则可以确定“2021年”是时间点。

在一些实施例中，若基于预设模板确定时间类实体内容是时间点，则在检索时，只要简历中存在该时间点则可以确定存在目标检索关键词，因此，可以直接将该时间类实体内容确定为目标检索关键词。

继续上述举例，假设时间类实体内容是“2021年”，根据预设模板可以确定该时间类实体内容是时间点，则可以将“2021年”确定为与时间类实体内容关联的目标检索关键词。

本申请实施例中，在确定时间类实体内容是时间点时，直接将时间点确定为目标检索关键词，能够提高确定检索关键词的效率。

步骤404：若基于预设模板确定时间类实体内容是时间段，将时间类实体内容转换为标准时间检索式，将标准时间检索式确定为时间类实体内容的目标检索关键词。

其中，标准时间检索式是检索工具进行时间类检索处理时需要采用的一种标准的检索格式。

在一些实施例中，若基于预设模板确定时间类实体内容是时间段，则在检索时可能需要采用标准的检索式才能执行检索操作，因此，需要将时间类实体内容转换为标准时间检索式，且将该标准时间检索式确定为时间类实体内容的目标检索关键词。

作为一种示例，可以采用如下转换规则将时间类实体内容转换为标准时间检索式：若时间类实体内容的表达形式是“xx年前”，则其对应的标准时间检索式是“≤xx年”，若时间类实体内容的表达形式是“xx年后”，则其对应的标准时间检索式是“≥xx年”，若时间类实体内容的表达形式是“xx年-xx年”，则其对应的标准时间检索式是“xx年-xx年”，若时间类实体内容的表达形式是“xx年至今”，则其对应的标准时间检索式是“xx年至今”。

继续上述举例，假设时间类实体内容是“2020年前”，基于预设模板可以确定“2020年前”是时间段，则可以将其转换为标准时间检索式“≤2020年”，且将“≤2020年”确定为时间类实体内容的目标检索关键词。

本申请实施例中，在确定时间类实体内容是时间段时，将其转换为配合检索工具使用的检索时间标准式，便于进行后续检索处理。

需要说明的是，步骤402-步骤404是上述步骤306中第一类实体内容是时间类实体内容时的一种具体实现方式。并且，步骤402与步骤404是并列的关系，在具体实施过程中，步骤402和步骤404是择一执行的。

步骤406：基于目标检索关键词，从简历库中检索目标简历。

本申请实施例中，由于对于时间点和时间段，其采用的检索方式可能是不同的，因此，可以基于预设模板确定时间类实体内容是时间点还是时间段，对于时间点和时间段确定目标检索关键词的方式不同，能够确定出更加准确且符合检索工具使用条件的目标检索关键词，提高了确定检索关键词的效率，进而提高了简历检索的准确率。

图5是根据本申请实施例提供的另一种确定目标检索关键词的方法的流程图，包括步骤502至步骤506。

步骤502：从关键词库中查询第二类实体内容。

其中，第二类实体内容是简历检索文本中的各实体内容包括的与教育经历相关的实体内容。

作为一种示例，与教育经历相关的实体内容可以包括简称类实体内容和多子级类实体内容，该简称类实体内容是存在全称、简称和别称的实体内容，多子级类实体内容是存在一级学科、二级学科等多子级的实体内容。

例如，学校存在简称、别称和全称，则简称类实体内容可以包括学校类实体内容，同一专业，本科专业名称和研究生专业名称可能不同，本科专业名称是一级学科，研究生专业名称是二级学科，则多子级类实体内容可以是专业类实体内容。

在一些实施例中，关键词库是预设的包括多个关键词的词库，且该多个关键词与第二类实体内容关联，是符合规范描述方式的。由于第二类实体内容是存在规范描述方式的内容，且在关键词库中有记录，因此，识别出第二类实体内容后，可以先查询关键词库中是否存在该第二类实体内容，再根据查询结果采用不同的方式确定目标检索关键词。

示例性地，假设第二类实体内容包括“北京大学”和“软件工程”，则可以从第二类实体内容对应的关键词库中查询是否存在“北京大学”和“软件工程”。

在另一些实施例中，关键词库可以包括学校类实体内容对应的关键词库和专业类实体内容对应的关键词库。如此，在识别出第二类实体内容后，可以从学校类实体内容对应的关键词库中查询第二类实体内容中学校类实体内容，从专业类实体内容对应的关键词库中查询第二类实体内容中专业类实体内容。即通过不同的关键词库记录学校和专业类的规范描述方式的关键词，且在不同的关键词库中进行查询，能够提高查询精度。

步骤504：若查询到第二类实体内容，将第二类实体内容确定为目标检索关键词。

在一些实施例中，若查询到第二类实体内容，说明简历检索文本中该第二类实体内容是采用规范的描述方式描述的，因此，可以直接将该第二类实体内容确定为目标检索关键词。

继续上述举例，假设第二类实体内容包括学校类的“北京大学”和专业类的“软件工程”，且在第二类实体内容对应的关键词库中查询到“北京大学”和“软件工程”，则可以确定“北京大学”是学校的全称，且“软件工程”是专业的全称，因此可以将“北京大学”和“软件工程”确定为与第二类实体内容关联的目标检索关键词。

本申请实施例中，在确定关键词库存在第二类实体内容时，可以认为该第二类实体内容是比较规范的描述，因此可以直接将该第二类实体内容确定为目标检索关键词，减少了对第二类实体内容进行处理确定目标检索关键词的操作，提高了确定目标检索关键词的效率。

步骤506：若未查询到第二类实体内容，采用预设匹配规则确定与第二类实体内容关联的目标检索关键词。

在实施中，若未查询到第二类实体内容，说明简历检索文本中该第二类实体内容不是采用规范的描述方式描述的，因此，为了能够检索到更多相关的简历，可以采用预设匹配规则确定与该第二类实体内容关联的目标检索关键词。

其中，预设匹配规则可以是将第二类实体内容与目标检索关键词进行匹配的规则。通过该预设匹配规则，能够确定出与第二类实体内容关联的目标检索关键词。

在一些实施例中，预设匹配规则可以是能够将第二类实体内容与目标检索关键词关联起来的规则，该预设匹配规则中每个第二类实体内容可以对应一个或多个目标检索关键词。示例性地，假设第二类实体内容包括“北大”和“计算机”，且在第二类实体内容对应的关键词库中未查询到“北大”和“计算机”，则可以确定“北大”和“计算机”均不是规范的描述方式。假设预设匹配规则中与“北大”对应的包括“北京大学”，与计算机对应的包括“计算机科学与技术”和“软件工程”，则可以确定与该第二类实体内容关联的目标检索关键词包括“北京大学”、“计算机科学与技术”和“软件工程”。

作为一种示例，在第二类实体内容是简称类实体内容的情况下，预设匹配规则可以是简称映射规则，该简称映射规则是能够将简称或别称与全称关联起来的规则，且每个简称或别称可以对应一个或多个全称。例如，假设第二类实体内容是“清华”，则简称映射规则中与“清华”对应的只有“清华大学”，则可以确定与该第二类实体内容关联的目标检索关键词是“清华大学”。

本申请实施例中，在确定关键词库中不存在第二类实体内容时，可以认为该第二类实体内容是简称或别称，因此可以确定第二类实体内容在预设匹配规则中匹配的目标检索关键词，并将其作为与第二类实体内容关联的目标检索关键词，如此能够避免不规范的名称(简称或别称)对简历检索的影响。

需要说明的是，步骤502-步骤506是上述步骤206的一种具体实现方式。

本申请实施例中，对于第二类实体内容，先从关键词库中查询，若查询到则说明该第二类实体内容是规范的，可以直接作为目标检索关键词进行简历检索，若没查询到，说明该第二类实体内容是不规范的，因此，需要根据确定其对应的规范的目标检索关键词，基于该目标检索关键词进行检索，能够避免不规范的名称对简历检索的影响，提高简历检索的准确率。

图6是根据本申请实施例提供的又一种确定目标检索关键词的方法的流程图，包括步骤602至步骤606。

步骤602：若未查询到第二类实体内容，基于简称映射规则，确定简称类实体内容对应的候选检索关键词。

在一些实施例中，若未查询到第二类实体内容，说明简历检索文本中该第二类实体内容不是采用规范的描述方式描述的，因此，需要确定与第二类实体内容关联的目标检索关键词。

作为一种示例，简称映射规则可以是能够将简称或别称与全称关联起来的规则，该简称映射规则中每个简称或别称可以对应一个或多个全称。示例性地，假设简称类实体内容是学校名称，则该简称类实体内容是学校的简称或别称，基于该简称映射规则，可以确定学校名称的全称，将该学校名称的全称确定为候选检索关键词。

示例性地，假设简称类实体内容是“交大”，且简称映射规则中与“交大”对应的全称包括“上海交通大学”、“西安交通大学”和“西南交通大学”，则可以确定简称类实体内容对应的候选检索关键词包括“上海交通大学”、“西安交通大学”和“西南交通大学”。

步骤604：确定各个候选检索关键词与简称类实体内容的相似度。

在实施中，可以对各个候选检索关键词和简称类实体内容进行词嵌入处理，得到各个候选检索关键词的词向量以及简称类实体内容的词向量，然后基于各个候选关键词的词向量与简称类实体内容的词向量，确定各个候选检索关键词与简称类实体内容的相似度。

在一些实施例中，可以采用word2vec算法对各个候选检索关键词和简称类实体内容进行词嵌入处理，得到词向量。或者，可以将各个候选检索关键词和简称类实体内容输入至词向量模型中，通过该词向量模型确定各个候选检索关键词和简称类实体内容的词向量。其中，该词向量模型可以是训练完成的BERT模型。

在一些实施例中，可以通过计算两个词向量之间的余弦距离、欧式距离、曼哈顿距离或编辑距离等，确定两个词向量之间的相似度，进而得到每个候选检索关键词与简称类实体内容的相似度。

进一步地，在进行词嵌入之前，可以对每个候选检索关键词进行分词处理得到多个第一词单元，以及对简称类实体内容进行分词处理得到多个第二词单元，然后对多个第一词单元和多个第二词单元进行词嵌入处理，得到词向量。

例如，假设简称类实体内容“交大”对应的候选检索关键词包括“上海交通大学”、“西安交通大学”和“西南交通大学”，可以分别对“交大”、“上海交通大学”、“西安交通大学”和“西南交通大学”进行分词处理，得到“交大”的分词结果[交大]，“上海交通大学”的分词结果[上海]、[交通]、[大学]，“西安交通大学”的分词结果[西安]、[交通]、[大学]，“西南交通大学”的分词结果[西安]、[交通]、[大学]，然后采用word2vec算法对分词结果进行词嵌入处理，得到每个分词结果的词向量，将同一个候选检索关键词的分词结果的词向量拼接为该候选检索关键词的词向量，得到每个候选检索关键词的词向量，再基于“交大”的词向量、“上海交通大学”的词向量、“西安交通大学”的词向量和“西南交通大学”的词向量，分别确定“交大”与“上海交通大学”、“交大”与“西安交通大学”、以及“交大”与“西南交通大学”之间的相似度。

需要说明的是，本申请实施例中采用的分词算法可以是正向最大匹配分词算法、反向最大匹配分词算法、基于词典分词的算法等中的任意一种，本申请实施例对此不作限定。

步骤606：将相似度最大的候选检索关键词确定为与简称类实体内容关联的目标检索关键词。

在一些实施例中，确定各候选检索关键词与简称类实体内容的相似度后，由于相似度最大的候选检索关键词与简称类实体内容最接近，也最接近检索条件，因此，可以将相似度最大的候选检索关键词确定为与简称类实体内容关联的目标检索关键词。示例性地，确定“交大”与“上海交通大学”、“西安交通大学”和“西南交通大学”的相似度后，假设“交大”与“上海交通大学”的相似度最大，因此，可以确定目标检索关键词是“上海交通大学”。

在另一些实施例中，确定多个目标检索关键词后，可以不确定相似度，而是采用爬虫的手段从多个候选检索关键词中随机选择一个作为目标检索关键词，或者，可以根据多个候选检索关键词对应的大学的排名，将排名最靠前的大学对应的候选检索关键词确定为目标检索关键词。

需要说明的是，上述基于相似度的方法、爬虫随机选择的方法和大学排名的方法可以任意结合使用，用来确定与简称类实体内容关联的目标检索关键词，本申请实施例对此不作限定。

需要说明的是，步骤602-步骤606是上述步骤506的一种具体实现方式。

本申请实施例中，对于简称类实体内容，采用简称映射规则、词向量相似度、大学排名、爬虫的方法任一或任意结合使用来确定目标检索关键词，能够确定简称的学校名称对应的相似度最高的全称，解决了学校简称影响简历检索的问题。

图7是根据本申请实施例提供的再一种确定目标检索关键词的方法的流程图，包括步骤702至步骤708。

步骤702：若未查询到第二类实体内容，将多子级类实体内容输入第一相似度模型，确定与多子级类实体内容相关的一级候选检索关键词。

在实施中，若关键词库中未查询到第二类实体内容，说明简历检索文本中该第二类实体内容不是采用规范的描述方式描述的，因此，需要确定与第二类实体内容关联的目标检索关键词。作为一种示例，在多子级类实体内容是专业类实体内容的情况下，该一级候选检索关键词可以是一级学科或者本科专业名称。

在一些实施例中，第一相似度模型可以基于输入的简称或别称输出全称。示例性地，该第一相似度模型可以是训练完成的BERT模型。

作为一种示例，该第一相似度模型的训练过程如下：获取多组训练样本，每组训练样本包括两个样本文本，且每组训练样本携带有真实标签，每组训练样本的真实标签表示该组两个样本文本是否相似，若相似则真实标签为1，若不相似则真实标签为0。将训练样本输入BERT模型中，则BERT模型可以输出每组训练样本的预测标签，基于预测标签和真实标签确定损失值，若损失值大于或等于预设损失阈值，说明预测结果和实际结果的差距很大，模型的性能还不够好，因此继续对模型进行训练，若损失值小于预设损失阈值，可以认为预测结果和实际结果的差距很小，即模型已经达到比较好的效果，可以停止模型训练，得到训练完成的第一相似度模型。

示例性地，以多子级类实体内容是专业类实体内容为例，假设专业类实体内容是“计算机”，则将“计算机”输入第一相似度模型，则模型可以输出与计算机相关的多个专业作为一级候选检索关键词。

步骤704：将一级候选检索关键词输入第二相似度模型，确定一级候选检索关键词对应的二级候选检索关键词。

在一些实施例中，第二相似度模型可以基于输入的一级候选检索关键词确定其对应的二级候选检索关键词。示例性地，该第二相似度模型可以是BiLSTM模型。

在一些实施例中，该第二相似度模型的训练过程如下：获取一级文本和其对应的二级文本，并将一级文本和每个二级文本组成一组训练样本，得到多组训练样本，且每组训练样本携带有真实标签，该真实标签表示该组的一级文本和二级文本是否是上下级的关系，若是则真实标签为1，若不是则真实标签为0。将训练样本输入BiLSTM模型中，则BiLSTM模型可以输出每组训练样本的预测标签，基于预测标签和真实标签确定损失值，若损失值大于或等于预设损失阈值，说明预测结果和实际结果的差距很大，模型的性能还不够好，因此继续对模型进行训练，若损失值小于预设损失阈值，可以认为预测结果和实际结果的差距很小，即模型已经达到比较好的效果，可以停止模型训练，得到训练完成的第二相似度模型。作为一种示例，一级文本可以是一级学科，则二级文本是二级学科，或者一级文本还可以是本科专业，则二级文本可以是研究生专业。

示例性地，假设一级候选检索关键词包括“仪器科学与技术”，则将“仪器科学与技术”输入第二相似度模型，可以输出该“仪器科学与技术”对应的二级学科“精密仪器及机械”和“测试计量技术及仪器”。

在另一些实施例中，以简称类实体内容是专业名称为例，可以根据预先创建的一级学科和二级学科的对应关系表，确定一级学科对应的二级学科，或者，根据预先创建的本科专业与研究生专业的对应关系表，确定本科专业对应的研究生专业。即根据学科的对应关系表或专业的对应关系表确定一级候选检索关键词对应的二级候选检索关键词。

步骤706：将一级候选检索关键词和二级候选检索关键词的并集确定为与多子级类实体内容关联的目标检索关键词。

在一些实施例中，一级候选检索关键词包括本科专业，二级候选检索关键词包括研究生专业，无论是本科专业还是研究生专业都符合简历检索文本中的专业要求，因此，可以将一级候选检索关键词和二级候选检索关键词的并集确定为目标检索关键词，能够避免漏掉某些检索关键词。

需要说明的是，步骤702-步骤706是上述步骤506的一种具体实现方式。

本申请实施例中，对于多子级类实体内容，将第一相似度模型和第二相似度模型结合使用来确定目标检索关键词，能够确定简称的专业名称对应的专业全称，还能够得到本科专业对应的研究生专业，解决了专业简称、一二级学科、以及本科和研究生专业名称不同影响简历检索的问题。

图8是根据本申请实施例提供的又一种简历检索方法的流程图，包括步骤802至步骤806。

步骤802：确定目标检索关键词与多子级类实体内容之间的相似度。

在实施中，确定与多子级类实体内容关联的目标检索关键词后，由于该目标检索关键词是同一类别的检索关键词，在检索时只要简历中存在任意一个该目标检索关键词(即与多子级类实体内容关联的目标检索关键词)便确定该简历符合该类别的检索条件，但这些目标检索关键词与检索条件的关联性是不同的，在简历检索时，通常希望能快速筛选出最符合要求的目标简历，因此，可以确定目标检索关键词与多子级类实体内容之间的相似度，并按照相似度的大小关系进行简历检索，如此，能够将最符合招聘需求的目标简历最快筛选出来，提高了简历检索的效率。

在实施中，可以对目标检索关键词和多子级类实体内容进行词嵌入处理，得到目标检索关键词的词向量以及多子级类实体内容的词向量，然后基于目标关键词的词向量与多子级类实体内容的词向量，确定目标检索关键词与多子级类实体内容的相似度。

在一些实施例中，可以采用word2vec算法对目标检索关键词与多子级类实体内容进行词嵌入处理，得到词向量。或者，可以将目标检索关键词与多子级类实体内容输入至词向量模型中，通过该词向量模型确定目标检索关键词与多子级类实体内容的词向量。其中，该词向量模型可以是训练完成的BERT模型。

在一些实施例中，可以通过计算两个词向量之间的余弦距离、欧式距离、曼哈顿距离或编辑距离等，确定两个词向量之间的相似度，进而得到目标检索关键词与多子级类实体内容的相似度。

进一步地，在进行词嵌入之前，可以对目标检索关键词进行分词处理得到多个第三词单元，以及对多子级类实体内容进行分词处理得到多个第四词单元，然后对多个第三词单元和多个第四词单元进行词嵌入处理，得到词向量。

例如，假设多子级类实体内容是“仪器类”，与其关联的目标检索关键词包括“仪器科学与技术”、“精密仪器及机械”和“测试计量技术及仪器”，可以分别对“仪器类”、“仪器科学与技术”、“精密仪器及机械”和“测试计量技术及仪器”进行分词处理，得到“仪器类”的分词结果[仪器类]，“仪器科学与技术”的分词结果[仪器]、[科学]、[与]、[技术]，“精密仪器及机械”的分词结果[精密]、[仪器]、[及]、[机械]，“测试计量技术及仪器”的分词结果[测试]、[计量]、[技术]、[及]、[仪器]，然后采用word2vec算法对分词结果进行词嵌入处理，得到每个分词结果的词向量，将同一个候选检索关键词的分词结果的词向量拼接为该候选检索关键词的词向量，得到每个候选检索关键词的词向量，基于“仪器类”的词向量、“仪器科学与技术”的词向量、“精密仪器及机械”的词向量和“测试计量技术及仪器”的词向量，分别确定“仪器类”与“仪器科学与技术”、“仪器类”与“精密仪器及机械”、以及“仪器类”与“测试计量技术及仪器”之间的相似度。

在另一些实施例中，可以按照词向量相似度的方法确定目标检索关键词中一级目标检索关键词与多子级类实体内容的相似度，并且确定每个二级目标检索关键词与多子级类实体内容的相似度、以及确定每个二级目标检索关键词对应的一级目标检索关键词与多子级类实体内容的相似度。

示例性地，以多子级类实体内容是专业类实体内容X为例，一级目标检索关键词可以是一级学科，二级目标检索关键词可以是二级学科，假设一级学科A对应有A1、A2和A3这三个二级学科，一级学科B对应有B1这一个二级学科，且一级学科A与专业类实体内容X的相似度是a，一级学科B与专业类实体内容X的相似度是b，则确定二级学科A1、A2和A3与专业类实体内容X的相似度均是a，确定二级学科B1与专业类实体内容X的相似度是b。

需要说明的是，步骤802可以是在步骤506或者步骤708之后执行的步骤。

步骤804：按照相似度的大小关系，从简历库中依次以目标检索关键词进行检索，得到包含目标检索关键词的目标简历。

在本申请实施例中，可以按照相似度从大到小的顺序，从简历库中依次以目标检索关键词进行检索，或者，可以按照相似度从小到大的顺序，从简历库中依次以目标检索关键词进行检索。

在第一种可能的实现方式中，可以先从简历库中检索包括相似度最大的目标检索关键词的目标简历，然后从简历库中检索包括相似度从大到小排第二的目标检索关键词的目标简历，以此类推，则可以检索到包括目标检索关键词的目标简历，且目标简历是按照符合检索条件的程度由高到低得到的。

作为一种示例，还可以在检索之前对目标检索关键词进行排序，得到目标检索关键词列表，然后按照目标检索关键词列表中目标检索关键词的顺序从简历库中检索目标简历。具体的，可以先按照相似度从大到小的顺序对目标检索关键词进行排序，得到多子级类实体内容的目标检索关键词列表；再按照目标检索关键词列表中多子级类实体内容的目标检索关键词的排序，从简历库中依次以目标检索关键词进行检索，得到包括目标检索关键词的目标简历。

其中，该目标检索关键词列表是按照相似度从大到小对目标检索关键词排序后得到的表。示例性地，参见表1，表1是本申请实施例提供一种示例性的目标检索关键词列表。由此可见，目标检索关键词列表中包括多个目标检索关键词，每个目标检索关键词对应有序号，并且每个目标检索关键词的序号是该目标检索关键词与多子级类实体内容之间的相似度大小的排序。

表1目标检索关键词列表

在一些实施例中，可以先确定包括简称类实体内容关联的目标检索关键词以及第一类实体内容关联的目标检索关键词的候选简历，然后从候选简历中确定包括目标检索关键词列表中排序第一的目标检索关键词的目标简历，再从候选简历中确定包括目标检索关键词列表中排序第二的目标检索关键词的目标简历，以此类推，直到基于目标检索关键词列表中所有目标检索关键词均检索完成，得到目标简历，即得到多个目标简历。

示例性地，假设简称类实体内容关联的目标检索关键词是“清华大学”，第一类实体内容关联的目标检索关键词包括“java”和“2021年”，目标检索关键词列表包括排序第一的目标检索关键词“仪器科学与技术”、排序第二的目标检索关键词“精密仪器及机械”和排序第三的目标检索关键词“测试计量技术及仪器”。在进行简历检索时，可以先确定包括“清华大学”、“java”和“2021年”的简历作为候选简历，然后从候选简历中检索包括“仪器科学与技术”的A简历，再从候选简历中检索包括“精密仪器及机械”的B简历，最后从候选简历中检索包括“测试计量技术及仪器”的C简历，最后将A简历、B简历和C简历确定为目标简历。

在另一些实施例中，可以先确定包括目标检索关键词列表中排序第一的目标检索关键词的简历，然后确定包括目标检索关键词列表中排序第二的目标检索关键词的简历，以此类推，直到基于目标检索关键词列表中所有目标检索关键词均检索完成，得到候选简历，再从候选简历中确定包括简称类实体内容关联的目标检索关键词以及第一类实体内容关联的目标检索关键词的目标简历。

在第二种可能的实现方式中，可以先从简历库中检索包括相似度最小的目标检索关键词的目标简历，然后从简历库中检索包括相似度从小到大排第二的目标检索关键词的目标简历，以此类推，则可以检索到包括目标检索关键词的目标简历，且目标简历是按照符合要求的程度由低到高得到的。该种实现方式与上述按照相似度从小到大的顺序进行简历检索的方式雷同，只是顺序相反，具体实现可以参见上述相关描述，本实施例在此不再赘述。

进一步地，通过上述第一种方式确定目标简历，则检索得到目标简历的顺序与目标简历符合检索条件的程度正相关，因此，可以按照检索得到简历的顺序对目标简历进行排序；通过上述第二种方式确定目标简历，则检索得到目标简历的顺序与目标简历符合检索条件的程度负相关，因此，可以按照与检索得到简历的顺序相反的顺序对目标简历进行排序。如此，招聘企业可以最先看到与检索条件关联程度最高，最符合招聘需求的目标简历，为企业招聘提供了方便。

另外，除了上述按照与检索条件相关程度从高到低对目标简历进行排序，还可以按照与检索条件相关程度从低到高对目标简历进行排序，在该种情况下，可以按照逆序筛选目标简历，或者，可以抽取中间部分的目标简历做筛选，或者，也可以按照顺序筛选简历等。本申请实施例对目标简历的排序方式以及招聘企业对目标简历的筛选方式不作限定。

需要说明的是，步骤804是步骤208的一种具体实现方式。

本申请实施例中，在确定多子级类实体内容关联的目标检索关键词后，将其按照与多子级类实体内容的相似度从高到低进行排序，并且将排序结果存储在目标检索关键词列表中，则在后续进行简历检索时，可以按照该目标检索关键词列表中目标检索关键词的顺序对专业方面进行考察，能够尽快检索到专业方面符合要求的目标简历，提高了简历检索的效率和准确率，并且按照检索得到目标简历的顺序对目标简历进行排序，为处理目标简历的用户提供了方便。

图9是根据本申请实施例提供的再一种简历检索方法的流程图，包括步骤902至步骤910。

步骤902：获取简历检索文本。

需要说明的是，步骤902的具体实现可以参见上述步骤202的相关描述，本实施例在此不再赘述。

步骤904：对简历检索文本进行标准化处理，得到标准格式的简历检索文本。

在一些实施例中，由于简历检索文本中可能存在一些错误字符、空格、横线等无意义字符，这些字符对简历检索没有任何帮助，还可能影响后续对简历检索文本的处理，因此，可以对简历检索文本进行标准化处理，对其中的无意义字符进行删除或修改，得到标准格式的简历检索文本。

作为一种示例，对简历检索文本进行标准化处理可以是修改简历检索文本中的错别字、删除简历检索文本中的空格等无意义字符。例如，假设简历检索文本是“2020年-清华大学计算机专业毕业会java的人”，则可以将2020年之后的“-”和java之后的空格删除，得到标准格式的简历检索文本“2020年清华大学计算机专业毕业会java的人”。

步骤906：对标准格式的简历检索文本进行实体识别，识别简历检索文本中的各实体内容。

步骤908：针对各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词。

步骤910：基于各目标检索关键词，从简历库中检索目标简历。

需要说明的是，步骤906-步骤910的具体实现可以参见上述步骤206-步骤208的相关描述，本实施例在此不再赘述。

本申请实施例中，在获取到简历检索文本后先进行标准化处理，能够将简历检索文本中与简历检索无关或影响简历检索的因素过滤掉，避免无关因素对后续确定的目标检索关键词的影响，进而提高了简历检索的准确率。

图10是根据本申请实施例提供的再一种简历检索方法的流程图，图11是根据本申请实施例提供的一种简历检索方法的示意图。接下来，结合图10和图11，以简历检索文本是“2020-年前北大计算机专业毕业会java和python的学生”为例，对简历检索方法的具体过程进行说明。

步骤1002：获取简历检索文本。

参见图11，首先获取到简历检索文本“2020-年前北大计算机专业毕业会java和python的学生”。

步骤1004：对简历检索文本进行标准化处理，得到标准格式的简历检索文本。

作为一种示例，标准化处理也可以称为预处理。参见图11，对简历检索文本进行预处理，得到标准化简历检索文本“2020年前北大计算机专业毕业会java和python的学生”。

步骤1006：对简历检索文本进行实体识别，识别该简历检索文本中的各实体内容。

参见图11，实体识别后得到的实体内容包括[(计算机，专业)，(北大，学校)，(java，技能)，(2020年前，时间)，(python，技能)]。

步骤1008：对于实体内容中的学校名称，从关键词库中查询该学校名称，若查询到该学校名称，执行步骤1010，若未查询到该学校名称，执行步骤1012。

步骤1010：将该学校名称确定为学校类的目标检索关键词。

步骤1012：通过简称映射规则确定学校的全称，再通过词向量相似度、爬虫和大学排名任意一种方法确定学校类的目标检索关键词。

例如，通过简称映射规则确定“北大”的全称包括“北京大学”、“东北大学”和“北京科技大学”，通过词向量相似度确定“北京大学”相似度最高，则确定学校类的目标检索关键词是“北京大学”。参见图11，图11根据爬虫学校简称、简称映射规则、大学排名和词向量相似度四种方式确定的学校类的目标检索关键词是“北京大学”，可以表示为[‘北京大学’，学校]。

步骤1014：对于实体内容中的专业名称，从关键词库中查询该专业名称，若查询到该专业名称，执行步骤1016，若未查询到该专业名称，执行步骤1018。

步骤1016：将该专业名称确定为专业类的目标检索关键词。

参见图11，判断专业名称是否在sql database(关系型数据库)中，若是，直接确定专业名称为专业类的目标检索关键词。

步骤1018：通过第一相似度模型和第二相似度模型以及排序算法，确定专业类的目标检索关键词。

作为一种示例，第一相似度模型可以是BERT模型，第二相似度模型可以是BiLSTM模型，排序算法可以是w2v相似度重排序算法。

参见图11，通过BERT模型召回与专业名称相关的一级学科，通过BiLSTM模型确定二级学科，通过w2v相似度重排序算法对一级学科和二级学科的并集进行排序，得到专业类的目标检索关键词，包括[‘计算机’，‘计算机及应用’，‘计算机科技与工程’，‘计算机系工程’，......]。

步骤1020：对于实体内容中的技能，直接将该技能确定为技能类的目标检索关键词。

参见图11，技能类的目标检索关键词包括“java”和“python”，可以表示为[‘java’，‘python’，技能]。

步骤1022：对于实体内容中的时间，直接将时间确定为时间类的目标检索关键词。

参见图11，时间类的目标检索关键词包括“2020年前”，可以表示为[‘2020年前’，时间]。

步骤1024：对于学校、专业和技能类的目标检索关键词，采用elastic search检索方式进行检索，对于时间类的目标检索关键词，采用mysql检索方式进行检索。

参见图11，采用elastic search检索方式基于“北京大学”、“计算机”、“计算机及应用”、“计算机科技与工程”、“计算机系工程”、“java”和“python”进行简历检索，采用mysql检索方式基于“2020年前”进行简历检索。

步骤1026：将两种检索方式检索得到的简历取交集，得到目标简历。

参见图11，将采用elastic search检索得到的简历和采用mysql检索得到的简历取交集，则可以得到目标简历。

需要说明的是，本实施例中步骤1002-步骤1026的具体实现可以参见上述各个实施例的相关描述，本实施例在此不再赘述。

本申请实施例中，通过简称规则等方法解决了学校名称简称的问题，通过BERT和BiLSTM两个模型解决了专业简称、一二级学科、以及本科和研究生专业名称不同的问题，确定了更多的目标检索关键词，使得检索更加充分，可以避免漏掉符合条件的简历，且不需要进行多次检索，提高了简历检索的准确性和效率。

与上述方法实施例相对应，本申请还提供了简历检索装置实施例，图12是根据本申请实施例提供的一种简历检索装置的结构示意图。如图12所示，该装置1200包括：

获取模块1202，被配置为获取简历检索文本；

识别模块1204，被配置为对所述简历检索文本进行实体识别，识别所述简历检索文本中的各实体内容；

确定模块1206，被配置为针对所述各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词；

检索模块1208，被配置为基于各目标检索关键词，从简历库中检索目标简历。

可选地，所述各实体内容包括与附加经验信息相关的第一类实体内容；

所述确定模块1206，进一步被配置为：

将所述第一类实体内容确定为所述目标检索关键词。

可选地，所述第一类实体内容包括时间类实体内容；

所述确定模块1206，进一步被配置为：

若基于预设模板确定所述时间类实体内容是时间点，将所述时间类实体内容确定为目标检索关键词；

若基于预设模板确定所述时间类实体内容是时间段，将所述时间类实体内容转换为标准时间检索式，将所述标准时间检索式确定为所述时间类实体内容的目标检索关键词。

可选地，所述各实体内容包括与教育经历相关的第二类实体内容；

所述确定模块1206，进一步被配置为：

从关键词库中查询所述第二类实体内容；

若查询到所述第二类实体内容，将所述第二类实体内容确定为所述目标检索关键词；

若未查询到所述第二类实体内容，采用预设匹配规则确定与所述第二类实体内容关联的目标检索关键词。

可选地，所述第二类实体内容包括简称类实体内容；

所述确定模块1206，进一步被配置为：

基于简称映射规则，确定所述简称类实体内容对应的候选检索关键词；

确定各个候选检索关键词与所述简称类实体内容的相似度；

将相似度最大的候选检索关键词确定为与所述简称类实体内容关联的目标检索关键词。

可选地，所述第二类实体内容包括多子级类实体内容；

所述确定模块1206，进一步被配置为：

将所述多子级类实体内容输入第一相似度模型，确定与所述多子级类实体内容相关的一级候选检索关键词；

将所述一级候选检索关键词输入第二相似度模型，确定所述一级候选检索关键词对应的二级候选检索关键词；

将所述一级候选检索关键词和所述二级候选检索关键词的并集确定为与所述多子级类实体内容关联的目标检索关键词。

可选地，所述确定模块1206，进一步被配置为：

确定所述目标检索关键词与所述多子级类实体内容之间的相似度；

相应地，所述检索模块1208，进一步被配置为：

按照所述相似度的大小关系，从所述简历库中依次以目标检索关键词进行检索，得到包含目标检索关键词的目标简历。

可选地，所述装置还包括：

标准化处理模块，被配置为对所述简历检索文本进行标准化处理，得到标准格式的简历检索文本。

本申请提供的简历检索装置，通过确定简历检索文本中实体内容对应的目标检索关键词，能够得到更多的检索关键词，便能够将更多符合条件的简历确定出来，使得检索更加充分，可以避免漏掉符合条件的简历，且不需要进行多次检索，提高了简历检索的准确性和效率。

上述为本实施例的一种简历检索装置的示意性方案。需要说明的是，该简历检索装置的技术方案与上述的简历检索方法的技术方案属于同一构思，简历检索装置的技术方案未详细描述的细节内容，均可以参见上述简历检索方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

图13示出了根据本申请实施例提供的一种计算设备1300的结构框图。该计算设备1300的部件包括但不限于存储器1310和处理器1320。处理器1320与存储器1310通过总线1330相连接，数据库1350用于保存数据。

计算设备1300还包括接入设备1340，接入设备1340使得计算设备1300能够经由一个或多个网络1360通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1340可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备1300的上述部件以及图13中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图13所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1300可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1300还可以是移动式或静止式的服务器。

其中，处理器1320用于执行如下计算机可执行指令：

获取简历检索文本；

基于各目标检索关键词，从简历库中检索目标简历。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的简历检索方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述简历检索方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述简历检索方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的简历检索方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述简历检索方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述简历检索方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种简历检索方法，其特征在于，所述方法包括：

获取简历检索文本；

基于各目标检索关键词，从简历库中检索目标简历。

2.如权利要求1所述的方法，其特征在于，所述各实体内容包括与附加经验信息相关的第一类实体内容；

所述针对所述各实体内容，利用预设关联规则，确定出与该实体内容关联的目标检索关键词，包括：

将所述第一类实体内容确定为所述目标检索关键词。

3.如权利要求2所述的方法，其特征在于，所述第一类实体内容包括时间类实体内容；

所述将所述第一类实体内容确定为所述目标检索关键词，包括：

4.如权利要求1所述的方法，其特征在于，所述各实体内容包括与教育经历相关的第二类实体内容；

从关键词库中查询所述第二类实体内容；

5.如权利要求4所述的方法，其特征在于，所述第二类实体内容包括简称类实体内容；

所述采用预设匹配规则确定与所述第二类实体内容关联的目标检索关键词，包括：

确定各个候选检索关键词与所述简称类实体内容的相似度；

6.如权利要求4所述的方法，其特征在于，所述第二类实体内容包括多子级类实体内容；

7.如权利要求6所述的方法，其特征在于，所述将所述一级候选检索关键词和所述二级候选检索关键词的并集确定为与所述多子级类实体内容关联的目标检索关键词之后，还包括：

所述基于各目标检索关键词，从简历库中检索目标简历，包括：

8.如权利要求1-7任一项所述的方法，其特征在于，所述对所述简历检索文本进行实体识别之前，还包括：

对所述简历检索文本进行标准化处理，得到标准格式的简历检索文本。

9.一种简历检索装置，其特征在于，所述装置包括：

获取模块，被配置为获取简历检索文本；

10.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。

11.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。