CN115757694A

CN115757694A - 招聘行业文本召回方法及系统、设备与介质

Info

Publication number: CN115757694A
Application number: CN202211380091.7A
Authority: CN
Inventors: 沈晓晨; 刘志阳; 孙世宁; 李阳
Original assignee: Shanghai Global Business Intelligence Consulting Co ltd
Current assignee: Shanghai Global Business Intelligence Consulting Co ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-07

Abstract

本发明公开了一种招聘行业文本召回方法及系统、设备与介质，所述文本召回方法包括：获取初始文本信息；基于预设知识图谱对初始文本信息进行模糊匹配获得技能关键词及其权重；基于预设排序算法获得主旨关键词及其权重；分别基于预设词表示模型处理主旨关键词和技能关键词，以获得主旨词向量和技能词向量；根据预设权重对主旨词向量和技能词向量进行向量拼接处理，以获得简历岗位特征向量；根据预设召回算法处理简历岗位特征向量，获得初始文本信息对应的召回计算结果。本发明通过精准获取简历岗位文本特征向量映射效果，更快更准地实现相似召回计算，提升了招聘行业文本召回的效率和质量。

Description

招聘行业文本召回方法及系统、设备与介质

技术领域

本发明属于文本召回技术领域，尤其涉及一种招聘行业文本召回方法及系统、设备与介质。

背景技术

基于文本召回是召回系统的一种策略，常见方式是通过将查询词(query)进行分词处理后与倒排索引的关键词(item)进行匹配召回。这种召回方式的优点是足够简单，但是可能会限制的太过严格，对于一些长尾搜索会导致输入意图一致的相似词没办法召回合适的商品。为解决上述问题，业界对于query进行了一些优化处理和扩展以提升文本召回返回结果的相关性，但依然存在文本大数据大而冗余，非结构化带来的痛点，尤其对于招聘行业的召回系统，因为涉及人岗匹配的特殊召回要求，通用型文本推荐召回方法无法精准地适用，更不能基于“职业”维度和“技能”维度进行处理，在海量数据层面的应用中更是存在相似计算速度慢的弊端。

发明内容

本发明要解决的技术问题是为了克服现有技术中的上述缺陷，提供一种招聘行业文本召回方法及系统、设备与介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种招聘行业文本召回方法，包括如下步骤：

获取初始文本信息；

基于预设知识图谱对所述初始文本信息进行模糊匹配，以获得包括招聘岗位对应的技能信息的技能关键词及其权重；所述预设知识图谱包括所述技能信息和职业维度的关联关系，所述关键词权重根据所述关联关系确定；

基于预设排序算法处理所述初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重；

分别基于预设词表示模型处理所述主旨关键词和所述技能关键词，以获得主旨词向量和技能词向量；

根据预设权重对所述主旨词向量和所述技能词向量进行向量拼接处理，以获得简历岗位特征向量；

根据预设召回算法处理所述简历岗位特征向量，获得所述初始文本信息对应的召回计算结果。

较佳地，所述获取初始文本信息的步骤包括：

获取包括招聘岗位信息的岗位文本数据和包括应聘简历信息的简历文本数据；

基于预设的职业维度参数模板对所述岗位文本数据和所述简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理，以获取初始文本信息。

较佳地，所述基于预设排序算法处理所述初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重的步骤包括：

分别基于TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆向文件频率)算法和Textrank(一种文本排序算法)算法处理所述初始文本信息；

从所述初始文本信息经过选择TF-IDF算法和Textrank算法处理后得到的结果中选择重复词，作为所述主旨关键词；

设置TF-IDF算法处理时所述主旨关键词对应的TF-IDF值作为所述主旨关键词的权重。

较佳地，所述预设词表示模型基于word2vect(一种用来产生词向量算法)算法训练获得，和/或，所述预设召回算法包括余弦相似度计算和敏感哈希算法。

本发明还提供了一种招聘行业文本召回系统，包括：

文本获取模块，用于获取初始文本信息；

技能文本模块，用于基于预设知识图谱对所述初始文本信息进行模糊匹配，以获得包括招聘岗位对应的技能信息的技能关键词及其权重；所述预设知识图谱包括所述技能信息和职业维度的关联关系，所述关键词权重根据所述关联关系确定；

主旨文本模块，用于基于预设排序算法处理所述初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重；

向量获取模块，用于分别基于预设词表示模型处理所述主旨关键词和所述技能关键词，以获得主旨词向量和技能词向量；

特征向量模块，用于根据预设权重对所述主旨词向量和所述技能词向量进行向量拼接处理，以获得简历岗位特征向量；

召回处理模块，用于根据预设召回算法处理所述简历岗位特征向量，获得所述初始文本信息对应的召回计算结果。

较佳地，所述文本获取模块包括：

获取单元，用于获取包括招聘岗位信息的岗位文本数据和包括应聘简历信息的简历文本数据；

预处理单元，用于基于预设的职业维度参数模板对所述岗位文本数据和所述简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理，以获取初始文本信息。

较佳地，所述主旨文本模块具体用于：

分别基于TF-IDF算法和Textrank算法处理所述初始文本信息；

较佳地，所述预设词表示模型基于word2vect算法训练获得，和/或，所述预设召回算法包括余弦相似度计算和敏感哈希算法。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述的招聘行业文本召回方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的招聘行业文本召回方法。

本发明的积极进步效果在于：本发明通过提供一种招聘行业文本召回方法与系统、设备与介质，基于预设知识图谱对初始文本信息进行模糊匹配，获得技能关键词及其权重；基于预设排序算法获得主旨关键词及其权重；进而基于预设词表示模型获得主旨词向量和技能词向量，经拼接处理获得简历岗位特征向量，通过预设召回算法处理获得召回计算结果。本发明通过基于适配招聘行业的职业维度对文本进行预处理，以及构建表达职业技能关联关系的知识图谱以合理选择关键词，从而能够精准地获取简历岗位文本特征向量映射效果，更快更准地实现相似召回计算，提升了招聘行业文本召回的效率和质量。

附图说明

图1为本发明实施例1的招聘行业文本召回方法的流程图。

图2为本发明实施例2的招聘行业文本召回系统的模块示意图。

图3为本发明实施例3的电子产品的结构框图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

本实施例所提供的招聘行业文本召回方法可以在智能终端、计算机终端、网络设备、芯片、芯片模组或者类似的运算装置中执行。在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。如本说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

实施例1

参见图1所示，本实施例具体提供了一种招聘行业文本召回方法，包括如下步骤：

S1.获取初始文本信息；

S2.基于预设知识图谱对初始文本信息进行模糊匹配，以获得包括招聘岗位对应的技能信息的技能关键词及其权重；预设知识图谱包括技能信息和职业维度的关联关系，关键词权重根据关联关系确定；

S3.基于预设排序算法处理初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重；

S4.分别基于预设词表示模型处理主旨关键词和技能关键词，以获得主旨词向量和技能词向量；

S5.根据预设权重对主旨词向量和技能词向量进行向量拼接处理，以获得简历岗位特征向量；

S6.根据预设召回算法处理简历岗位特征向量，获得初始文本信息对应的召回计算结果。

步骤S2中，预设知识图谱可以是一种基于双向LSTM+条件随机场模型的“技能-职业”知识图谱，对于特定的职业维度进行技能实体词抽取，存储于neo4j(一种高性能NOSQL图形数据库)知识图谱库。

对于普通数值型字段，可以按合适比例切分并进行onehot(一种将类别变量转换为机器学习算法易于利用的一种形式的过程)特征表示；对于“学历”、“薪资”、“工龄”等覆盖性特征(例如要求招本科，硕士也可以满足的岗位)进行树结构特征建模，例如其他作为主节点、二级节点为专科、三级节点为本科、四级节点为硕士、五级节点为博士，然后对该结构进行onehot表示，则本科简历可表示为[1，1，1，0，0]。对于“专业”、“职业”、“行业”等多节点数结构数据，在onehot特征化后还要对不同节点层赋予不同权重。比如3层职位维度数据，以“计算机互联网职业—软件开发—python语言软件开发”为例，为了在后续计算中更多的使其匹配到“python语言软件开发”，较少的匹配到“计算机互联网职业”，则在层权重赋值的时候就可以给子节点层一个放大系数。

步骤S2及S3中主旨关键词和技能关键词是经排序后得到的靠前若干个关键词。简历岗位特征向量主要是利用技能关键词与主旨关键词的加权拼接组成，权重可以基于预存的简历-岗位投递与岗位-简历历史数据训练获得，目的在于对如IT行业等强“技能”关联和如销售行业等强项目经历关联的不同“职业”，自适应权重的分配形成特征。

对于召回算法，在空间复杂度处理方面，由于分布式存储的特征向量多为稀疏性，故利用向量稀疏转换存储其特征向量的(x，y，value)，有效提升存储使用效率以及存读性能；在时间复杂度处理方面使用矩阵运算，同时计算多条简历与岗位池大矩阵之间的相似性，加速整体计算速度，并通过敏感哈希算法在进行矩阵计算前对带计算矩阵进行分桶，可以有效加快计算速度。

作为较佳的实施方式，获取初始文本信息的步骤包括：

基于预设的职业维度参数模板对岗位文本数据和简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理，以获取初始文本信息。

基于职业维度进行包括分词、词性标注、去停用词等文本预处理，职业维度主要是基于招聘行业特点归纳的多层树结构维度，分词词库基于不同职业维度的语料进行训练，屏蔽词、重点词词库基于职业维度设计。

作为较佳的实施方式，基于预设排序算法处理初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重的步骤包括：

分别基于TF-IDF算法和Textrank算法处理初始文本信息；

从初始文本信息经过选择TF-IDF算法和Textrank算法处理后得到的结果中选择重复词，作为主旨关键词；

设置TF-IDF算法处理时主旨关键词对应的TF-IDF值作为主旨关键词的权重。

作为较佳的实施方式，预设词表示模型基于word2vect算法训练获得，和/或，预设召回算法包括余弦相似度计算和敏感哈希算法。

本实施例的招聘行业文本召回方法通过基于适配招聘行业的职业维度对文本进行预处理，以及构建表达职业技能关联关系的知识图谱以合理选择关键词，从而能够精准地获取简历岗位文本特征向量映射效果，更快更准地实现相似召回计算，提升了招聘行业文本召回的效率和质量。

实施例2

与上面介绍的招聘行业文本召回方法对应地，如图2所示，本实施例还提供了一种招聘行业文本召回系统，包括：

文本获取模块1，用于获取初始文本信息；

技能文本模块2，用于基于预设知识图谱对初始文本信息进行模糊匹配，以获得包括招聘岗位对应的技能信息的技能关键词及其权重；预设知识图谱包括技能信息和职业维度的关联关系，关键词权重根据关联关系确定；

主旨文本模块3，用于基于预设排序算法处理初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重；

向量获取模块4，用于分别基于预设词表示模型处理主旨关键词和技能关键词，以获得主旨词向量和技能词向量；

特征向量模块5，用于根据预设权重对主旨词向量和技能词向量进行向量拼接处理，以获得简历岗位特征向量；

召回处理模块6，用于根据预设召回算法处理简历岗位特征向量，获得初始文本信息对应的召回计算结果。

预设知识图谱可以是一种基于双向LSTM+条件随机场模型的“技能-职业”知识图谱，对于特定的职业维度进行技能实体词抽取，存储于neo4j(一种高性能NOSQL图形数据库)知识图谱库。

对于普通数值型字段，可以按合适比例切分并进行onehot特征表示；对于“学历”、“薪资”、“工龄”等覆盖性特征(例如要求招本科，硕士也可以满足的岗位)进行树结构特征建模，例如其他作为主节点、二级节点为专科、三级节点为本科、四级节点为硕士、五级节点为博士，然后对该结构进行onehot表示，则本科简历可表示为[1，1，1，0，0]。对于“专业”、“职业”、“行业”等多节点数结构数据，在onehot特征化后还要对不同节点层赋予不同权重。比如3层职位维度数据，以“计算机互联网职业—软件开发—python语言软件开发”为例，为了在后续计算中更多的使其匹配到“python语言软件开发”，较少的匹配到“计算机互联网职业”，则在层权重赋值的时候就可以给子节点层一个放大系数。

主旨关键词和技能关键词是经排序后得到的靠前若干个关键词。简历岗位特征向量主要是利用技能关键词与主旨关键词的加权拼接组成，权重可以基于预存的简历-岗位投递与岗位-简历历史数据训练获得，目的在于对如IT行业等强“技能”关联和如销售行业等强项目经历关联的不同“职业”，自适应权重的分配形成特征。

作为较佳的实施方式，文本获取模块1包括：

预处理单元，用于基于预设的职业维度参数模板对岗位文本数据和简历文本数据进行分词、去除屏蔽词和获取重点词中的至少一项预处理，以获取初始文本信息。

作为较佳的实施方式，主旨文本模块3具体用于：

分别基于TF-IDF算法和Textrank算法处理初始文本信息；

本实施例的招聘行业文本召回系统通过基于适配招聘行业的职业维度对文本进行预处理，以及构建表达职业技能关联关系的知识图谱以合理选择关键词，从而能够精准地获取简历岗位文本特征向量映射效果，更快更准地实现相似召回计算，提升了招聘行业文本召回的效率和质量。

实施例3

图3为本实施例提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述实施例中的招聘行业文本召回方法。图3显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明如上所述的招聘行业文本召回方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现如上述实施例的招聘行业文本召回方法中的步骤。其中，可读存储介质可以采用更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现如上所述的招聘行业文本召回方法中的步骤。其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种招聘行业文本召回方法，其特征在于，包括如下步骤：

获取初始文本信息；

2.如权利要求1所述的招聘行业文本召回方法，其特征在于，所述获取初始文本信息的步骤包括：

3.如权利要求1所述的招聘行业文本召回方法，其特征在于，所述基于预设排序算法处理所述初始文本信息，以获得包括招聘岗位对应的主旨信息的主旨关键词及其权重的步骤包括：

分别基于TF-IDF算法和Textrank算法处理所述初始文本信息；

4.根据权利要求1所述的招聘行业文本召回方法，其特征在于，所述预设词表示模型基于word2vect算法训练获得，和/或，所述预设召回算法包括余弦相似度计算和敏感哈希算法。

5.一种招聘行业文本召回系统，其特征在于，包括：

文本获取模块，用于获取初始文本信息；

6.如权利要求5所述的招聘行业文本召回系统，其特征在于，所述文本获取模块包括：

7.如权利要求5所述的招聘行业文本召回系统，其特征在于，所述主旨文本模块具体用于：

分别基于TF-IDF算法和Textrank算法处理所述初始文本信息；

8.根据权利要求5所述的招聘行业文本召回系统，其特征在于，所述预设词表示模型基于word2vect算法训练获得，和/或，所述预设召回算法包括余弦相似度计算和敏感哈希算法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现如权利要求1-4中任一项所述的招聘行业文本召回方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的招聘行业文本召回方法。