CN105956195A

CN105956195A - 简历搜索方法和装置

Info

Publication number: CN105956195A
Application number: CN201610436857.7A
Authority: CN
Inventors: 李贤�
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2016-09-21
Anticipated expiration: 2036-06-17
Also published as: CN105956195B; WO2017215245A1

Abstract

本发明公开了一种简历搜索方法，包括：接收用于从简历数据库中进行简历搜索的关键词和所述关键词的相关词集；据所述相关词集中的相关词的数量选择权重计算方式，并基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值；将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。相应地，本发明还公开了一种简历搜索装置。采用本发明实施例，平衡关键词和相关词在简历搜索过程中所占的权重，提高简历搜索的效率。

Description

简历搜索方法和装置

技术领域

本发明涉及计算机信息检索领域，尤其涉及一种简历搜索方法和装置。

背景技术

通常在对简历进行搜索匹配过程中，一般是通过关键词+相关词检进行检索的，但是发明人在实施过程中发现该方案存在以下问题：在进行简历搜索时搜索引擎会将关键词和相关词取相同的权重值进行搜索，那么命中的频次决定了搜索出来的简历的排序，则搜索结果极有可能偏向某个频次较高的相关词，另一方面，当相关词的数量大大多于关键词时，则在检索过程中关键词可能会被相关词淹没，难以突出关键词相对于相关词在搜索出简历过程中作为主要作检索关键词的作用。

发明内容

本发明实施例提出一种简历搜索方法，平衡关键词和相关词在简历搜索过程中所占的权重，提高简历搜索的效率。

本发明实施例提出一种简历搜索方法，包括：

接收用于从简历数据库中进行简历搜索的关键词和相关词集；其中，所述相关词集记载有多个相关词，以及每一个相关词与所述关键词的相关度；

根据所述相关词集中的相关词的数量选择权重计算方式，并基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值；

将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，当所述相关词集中的相关词的数量处于上限词量和下限词量之间时，选择第一方式作为权重计算方式，则基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值，具体为：

根据第一权重公式计算出所述相关词集中第i个相关词在进行简历搜索时所占的权重值W_i；其中，r_max为在所述相关词集中所记载的所有相关词的相关度的最大值；

根据第二权重公式W_A＝m×sumW，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词，m为第一权重系数，sumW为所述相关词集中所有相关词的权重值的总和。

进一步地，当所述相关词集中的相关词的数量不处于所述上限词量和所述下限词量之间时，选择第二方式作为权重计算方式，则基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值，具体为：

根据基准分值公式计算出所述相关词集中第i个相关词的基准分值S_i；其中，r_i为所述相关词集中的第i个相关词的相关度；r_min为在所述相关词集中所记载的所有相关词的相关度的最小值；r_max为在所述相关词集中所记载的所有相关词的相关度的最大值；

对所述所有相关词的基准分值进行求和，获得基准分值总值sum；

根据第三权重公式W_A＝5+log_1.5(sum+1)，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词；

判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第四权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第五权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为第二权重系数；k为所述相关词集中的相关词的数量。

再进一步地，在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，还包括：

根据均值公式计算基准分值均值其中，为所述所有相关词的相关度的平均值；

对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值

若是，通过更新公式更新所述第i个相关词的基准分值S_i。

更进一步地，所述将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历，具体为：

根据搜索引擎的权重关联格式，将所述关键词所占的权重值和所述关键词相关联作为第一组合，以及将所述每一个相关词所占的权重值与其对应的相关词相关联作为第二组合；

将所述第一组合和所述第二组合提交给搜索引擎，以供所述搜索引擎从所述简历数据库中搜索出简历，并根据所述搜索引擎内置的排序算法显示搜索出的简历；其中，所述简历中包含的所述关键词和所述每一个相关词以高亮形式显示。

相应地，本发明实施例还提供一种简历搜索装置，包括：

接收模块，用于接收用于从简历数据库中进行简历搜索的关键词和相关词集；其中，所述相关词集记载有多个相关词，以及每一个相关词与所述关键词的相关度；

权重计算模块，用于根据所述相关词集中的相关词的数量选择权重计算方式，并基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值；

搜索模块，用于将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，所述权重计算模块包括：

第一计算单元，用于当所述相关词集中的相关词的数量处于上限词量和下限词量之间时，选择第一方式作为权重计算方式，根据第一权重公式计算出所述相关词集中第i个相关词在进行简历搜索时所占的权重值W_i；其中，r_max为在所述相关词集中所记载的所有相关词的相关度的最大值；

第二计算单元，用于根据第二权重公式W_A＝m×sumW，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词，m为第一权重系数，sumW为所述相关词集中所有相关词的权重值的总和。

进一步地，所述权重计算模块还包括：

基准分值计算单元，用于当所述相关词集中的相关词的数量不处于所述上限词量和所述下限词量之间时，选择第二方式作为权重计算方式，根据基准分值公式计算出所述相关词集中第i个相关词的基准分值S_i；其中，r_i为所述相关词集中的第i个相关词的相关度；r_min为在所述相关词集中所记载的所有相关词的相关度的最小值；r_max为在所述相关词集中所记载的所有相关词的相关度的最大值；

求和计算单元，用于对所述所有相关词的基准分值进行求和，获得基准分值总值sum；

第三计算单元，用于根据第三权重公式W_A＝5+log_1.5(sum+1)，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词；

第四计算单元，用于判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第四权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第五权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为第二权重系数；k为所述相关词集中的相关词的数量。

再进一步地，所述权重计算模块还包括：

均值计算单元，用于在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，根据均值公式计算基准分值均值其中，为所述所有相关词的相关度的平均值；

判断单元，用于对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值

更新单元，用于当判断所述第i个相关词的基准分值S_i是大于所述平均分值时，通过更新公式更新所述第i个相关词的基准分值S_i。

更进一步地，所述搜索模块具体包括：

权重相联单元，用于根据搜索引擎的权重关联格式，将所述关键词所占的权重值和所述关键词相关联作为第一组合，以及将所述每一个相关词所占的权重值与其对应的相关词相关联作为第二组合；

搜索显示单元，用于将所述第一组合和所述第二组合提交给搜索引擎，以供所述搜索引擎从所述简历数据库中搜索出简历，并根据所述搜索引擎内置的排序算法显示搜索出的简历；其中，所述简历中包含的所述关键词和所述每一个相关词以高亮形式显示。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的简历搜索方法和装置，能根据相关词的数量选取不同的权重计算算法，来进行计算关键词和相关词在搜索过程所占的权重，充分考虑相关词的数量对关键词在检索过程的影响，平衡关键词和相关词在简历搜索过程中所占的权重，避免在权重计算过程中出现当相关词过多时导致关键词权重过大或过小，当相关词过少时关键词的权重过大或过小的权重失衡情况，使得简历检索的过程更为合理，减少再次进行简历搜索的发生，提高简历搜索的效率。

附图说明

图1是本发明提供的简历搜索方法的一个实施例的流程示意图；

图2是本发明提供的简历搜索装置的一个实施例的结构示意图；

图3是本发明提供的简历搜索装置的权重计算模块的一个实施例的结构示意图

图4是本发明提供的简历搜索装置的搜索模块的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的简历搜索方法的一个实施例的流程示意图，该方法包括以下步骤：

S1，接收用于从简历数据库中进行简历搜索的关键词和相关词集；其中，所述相关词集记载有多个相关词，以及每一个相关词与所述关键词的相关度；

S2，根据所述相关词集中的相关词的数量选择权重计算方式，并基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值；

S3，将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，上述步骤S2中，当所述相关词集中的相关词的数量处于上限词量和下限词量之间时，选择第一方式作为权重计算方式，则基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值，具体的实施过程为：

需要说明的是，采用上述权重计算算法，进行计算关键词和相关词的权重值，计算过程简单，能快速计算出关键词和相关词的权重值，但本权重计算算法仅适合相关词的数量适当时，才能够即能快速计算出权重值，并能确保关键词所占的权重值处于恰当的区间内。而当相关词的数量过多或过小时，即不在上述上限词量和下限词量的范围之内，采用第二权重计算算法进行计算，具体为步骤S4的实施过程。

进一步地，上述步骤S2中，当所述相关词集中的相关词的数量不处于所述上限词量和所述下限词量之间时，选择第二方式作为权重计算方式，则基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值，具体的实施过程为：

需要说明的是，计算相关词集中每个相关词的基准分值的目的是将相关词的相关度基于同一个基准，以一个分值的形式，表示该相关词与关键词的相关程度，该基准值优选为r_max-r_min+1；第一权重公式采用对数形式的公式，在基准分值总值增长过快时，关键词的权重值仍保持缓和增长，因而，可以在相关词相对较多的情况下，避免关键词所占权重过大这种情况的出现；在进行相关词的权重计算时，分别采用第二权重公式和第三权重公式进行计算，是考虑到当相关词的基准分值过大和过小这两种情况出现时，避免计算出该相关词的权重值大于关键词的权重值，或者是大大小于关键词的权重值，也就是说在检索简历过程中，能避免相关词过多把关键词淹没、以及出现关键词过于突出的情况；对于第二权重系数的设置，可由实际情况来决定，一般取值为2或4.

再进一步地，上述步骤S2的具体实施过程还包括以下步骤：

在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，根据均值公式计算基准分值均值其中，为所述所有相关词的相关度的平均值；

若是，通过更新公式更新所述第i个相关词的基准分值S_i。

需要说明的是，将该相关词集中的相关词的相关度均值基于同一个基准，且该基准与上述基准相同，目的是以一个分值的形式，表示该相关词集与关键词的平均相关程度；当一个相关词与关键词的相关程度(即基准分值)大于该相关词集与关键词的平均相关程度(平均分值)时，可将该相关词与关键词的相关程度，与该相关词集与关键词的平均相关程度这两个相关程度的差异值放大10倍，作为该相关词与关键词的相关程度的基准分值；反之，则保持该相关词与关键词的相关程度的原基准分值不变，这种方式更能确切地表达该相关词与关键词的相关程度，使得相关词与关键词之间的关系更为合理。

更进一步地，上述步骤S3的具体实施过程为：

需要说明的是，一般采用的搜索引擎为solr搜索引擎，则上述权重关联格式，可依据如下格式进行关联：关键词^关键词权重、相关词1^相关词1权重、相关词2^相关词2权重……

实施本发明实施例的简历搜索方法，能根据相关词的数量选取不同的权重计算算法，来进行计算关键词和相关词在搜索过程所占的权重，充分考虑相关词的数量对关键词在检索过程的影响，平衡关键词和相关词在简历搜索过程中所占的权重，避免在权重计算过程中出现当相关词过多时导致关键词权重过大或过小，当相关词过少时关键词的权重过大或过小的权重失衡情况，使简历检索的过程更为合理，减少再次进行简历搜索的发生，提高简历搜索的效率。

参见图2，是本发明提供的简历搜索装置的一个实施例的结构示意图，该简历搜索装置能实施上述简历搜索方法的全部流程，其具体结构如下：

接收模块10，用于接收用于从简历数据库中进行简历搜索的关键词和相关词集；其中，所述相关词集记载有多个相关词，以及每一个相关词与所述关键词的相关度；

权重计算模块20，用于根据所述相关词集中的相关词的数量选择权重计算方式，并基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值；

搜索模块30，用于将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历。

进一步地，参见图3，是本发明提供的简历搜索装置的权重计算模块的一个实施例的结构示意图；该权重计算模块20包括：

第一计算单元21，用于当所述相关词集中的相关词的数量处于上限词量和下限词量之间时，选择第一方式作为权重计算方式，根据第一权重公式计算出所述相关词集中第i个相关词在进行简历搜索时所占的权重值W_i；其中，r_max为在所述相关词集中的所有相关词的相关度的最大值；

第二计算单元22，用于根据第二权重公式W_A＝m×sumW，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词，m为第一权重系数，sumW为所述相关词集中所有相关词的权重值的总和。

进一步地，如图3所示，上述权重计算模块20还包括：

基准分值计算单元23，用于当所述相关词集中的相关词的数量不处于所述上限词量和所述下限词量之间时，选择第二方式作为权重计算方式，根据基准分值公式计算出所述相关词集中第i个相关词的基准分值Si；其中，r_i为所述相关词集中的第i个相关词的相关度；r_min为在所述相关词集中所记载的所有相关词的相关度的最小值；r_max为在所述相关词集中所记载的所有相关词的相关度的最大值；

求和计算单元24，用于对所述所有相关词的基准分值进行求和，获得所述相关词集的基准分值总值sum；

第三计算单元25，用于根据第三权重公式W_A＝5+log_1.5(sum+1)，计算出所述关键词在进行简历搜索时所占的权重值W_A；其中，A为所述关键词；

第四计算单元26，用于判断所述第i个相关词的基准分值是否大于W_A/n；若是，则根据第四权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第五权重公式计算出所述第i个相关词词在进行简历搜索时所占的权重值W_i；其中，n为第二权重系数；k为所述相关词集中的相关词的数量。

再进一步地，如图3所示，上述权重计算模块20还包括：

均值计算单元27，用于在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，根据平均分值公式计算基准分值均值其中，为所述相关词集中的所有相关词的相关度的平均值；

判断单元28，用于对于所述相关词集中的第i个相关词，判断所述第i个相关词的基准分值S_i是否大于所述基准分值均值S；

更新单元29，用于当判断所述第i个相关词的基准分值S_i是大于所述基准分值均值时，通过更新公式更新所述第i个相关词的基准分值S_i。

更进一步地，参见图4，是本发明提供的简历搜索装置的搜索模块的一个实施例的结构示意图；该搜索模块30具体包括：

权重相联单元31，用于根据搜索引擎的权重关联格式，将所述关键词所占的权重值和所述关键词相关联作为第一组合，以及将所述每一个相关词所占的权重值与其对应的相关词相关联作为第二组合；

搜索显示单元32，用于将所述第一组合和所述第二组合提交给搜索引擎，以供所述搜索引擎从所述简历数据库中搜索出简历，并根据所述搜索引擎内置的排序算法显示搜索出的简历；其中，所述简历中包含的所述关键词和所述每一个相关词以高亮形式显示。

本发明实施例提供的简历搜索装置，能根据相关词的数量选取不同的权重计算算法，来进行计算关键词和相关词在搜索过程所占的权重，充分考虑相关词的数量对关键词在检索过程的影响，平衡关键词和相关词在简历搜索过程中所占的权重，避免在权重计算过程中出现当相关词过多时导致关键词权重过大或过小，当相关词过少时导致关键词的权重过大或过小的权重失衡情况，使简历检索的过程更为合理，减少再次进行简历搜索的发生，提高简历搜索的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种简历搜索方法，其特征在于，包括：

2.如权利要求1所述的简历搜索方法，其特征在于，当所述相关词集中的相关词的数量处于上限词量和下限词量之间时，选择第一方式作为权重计算方式，则基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值，具体为：

3.如权利要求1或2所述简历搜索方法，其特征在于，当所述相关词集中的相关词的数量不处于所述上限词量和所述下限词量之间时，选择第二方式作为权重计算方式，则基于所选择的权重计算方式，根据所述每一个相关词与所述关键词的相关度，计算出在进行简历搜索时每一个相关词所占的权重值及所述关键词所占的权重值，具体为：

判断所述第i个相关词的基准分值是否大于W_A/n若是，则根据第四权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第五权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为第二权重系数；k为所述相关词集中的相关词的数量。

4.如权利要求3所述的简历搜索方法，其特征在于，在所述判断所述第i个相关词的基准分值是否大于W_A/n之前，还包括：

若是，通过更新公式更新所述第i个相关词的基准分值S_i。

5.如权利要求1所述的简历搜索的方法，其特征在于，所述将所述关键词、所述关键词所占的权重值、每一个相关词和所述每一个相关词所占的权重值提交给搜索引擎，以从所述简历数据库中搜索出简历，具体为：

6.一种简历搜索装置，其特征在于，包括：

7.如权利要求6所述的简历搜索装置，其特征在于，所述权重计算模块包括：

8.如权利要求6或7所述简历搜索装置，其特征在于，所述权重计算模块还包括：

第四计算单元，用于判断所述第i个相关词的基准分值是否大于W_A/n若是，则根据第四权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；若否，则根据第五权重公式计算出所述第i个相关词在进行简历搜索时所占的权重值W_i；其中，n为第二权重系数；k为所述相关词集中的相关词的数量。

9.如权利要求8所述的简历搜索装置，其特征在于，所述权重计算模块还包括：

10.如权利要求6所述的简历搜索的装置，其特征在于，所述搜索模块具体包括：