CN112560411A

CN112560411A - 一种人员信息智能录入方法及其系统

Info

Publication number: CN112560411A
Application number: CN202011516111.XA
Authority: CN
Inventors: 任佳; 章彬; 汪桢子; 汪伟; 李重杭; 侯明哲; 王哲; 何维; 苏宁
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-26

Abstract

本发明为一种人员信息智能录入方法及其系统，包括：文档获取单元获取当前待录入的人员简历文档，对所述当前待录入的人员简历文档的第一页转换为预设尺寸的原始图像；截图单元加载截图插件，按预设截图尺寸对所述原始图像进行截图处理获得目标区域图像；文本识别单元将所述目标区域图像输入预先训练好的图像文本识别模型进行处理，获得对应的文本信息；以及，录入单元根据从所述文本信息中提取人员的各个属性信息，并录入预设模板表格中对应各个属性信息的位置，获得人员信息表格并存储至企业信息系统的信息数据库中。通过本发明，实现智能化提取人员简历中的目标信息并自动录入信息系统，能够提高人员信息录入效率，从而提高企业信息管理工作的工作效率。

Description

一种人员信息智能录入方法及其系统

技术领域

本发明涉及企业信息管理技术领域，具体涉及一种人员信息智能录入方法及其系统。

背景技术

企业的日常管理工作通过一些企业内部管理软件进行，企业内部的人员信息都会录入到在企业数据库中，目前企业内部的人员信息的录入工作都是人力部门采用人工录入方式进行的，众所周知，很多大型企业在每一年的毕业季都会招聘很大数量的应届毕业生，当企业新员工数量较多的时候，人力部门相关人员需要对每一个企业员工相关简历信息进行阅读并手动录入系统，人员信息的录入会耗费大量的人力物力，而一般人力部门的人员编制并不会配置太多，因此，亟待提出一种智能化的人员信息录入技术来克服这一缺陷，以便于提高企业信息管理工作的工作效率。

发明内容

本发明的目的在于提出一种人员信息智能录入方法及其系统，以克服上述缺陷，提高企业信息管理工作的工作效率。

为实现上述目的，根据第一方面，本发明的实施例提出一种人员信息智能录入方法，包括：

步骤S1、获取当前待录入的人员简历文档，对所述当前待录入的人员简历文档的第一页转换为预设尺寸的原始图像；

步骤S2、加载截图插件，按预设截图尺寸对所述原始图像进行截图处理获得目标区域图像；

步骤S3、将所述目标区域图像输入预先训练好的图像文本识别模型进行处理，获得对应的文本信息；

步骤S4、根据从所述文本信息中提取人员的各个属性信息，并录入预设模板表格中对应各个属性信息的位置，获得人员信息表格并存储至企业信息系统的信息数据库中。

可选地，所述人员简历文档的文档格式为word、pdf、excel表格、图像中的一种；所述人员简历文档包括一页或多页。

可选地，所述步骤S2，包括：

获取所述当前待录入的人员简历文档所对应的网站信息；

根据所述网站信息确定对应的截图尺寸；其中不同网站信息所对应的截图尺寸不同；

根据所述对应的截图尺寸对所述原始图像进行截图处理获得目标区域图像。

可选地，所述步骤S3，包括：

根据所述网站信息确定从预先设置的模型数据库中选取当前适用的图像文本识别模型；所述模型数据库中存储有多个预先训练好的图像文本识别模型；

将所述目标区域图像输入所述当前适用的图像文本识别模型进行处理，获得对应的文本信息。

可选地，所述多个预先训练好的图像文本识别模型分别基于OCR模型训练得到，所述多个图像文本识别模型的输入图像尺寸与不同网站信息所对应的截图尺寸匹配。

可选地，所述步骤S4，包括：

步骤S41、从所述文本信息中不放回地抽取任一连续字符串作为当前字符串；

步骤S42、将当前字符串输入预先训练好的神经网络模型中进行识别输出对应的属性信息；

步骤S43、根据所述属性信息将所述当前字符串填入预设模板表格中与所述属性信息对应的位置；

步骤S44、判断所述文本信息中连续字符串是否提取完毕或所述预设模板表格已经填写完毕；若所述文本信息中连续字符串提取完毕或所述预设模板表格已经填写完毕，则获得人员信息表格并存储至企业信息系统的信息数据库中；若所述文本信息中连续字符串未提取完毕且所述预设模板表格未填写完毕，则从所述文本信息中不放回地抽取剩下的任一连续字符串作为当前字符串，并返回步骤S42循环。

根据第二方面，本发明的实施例提出一种人员信息智能录入系统，包括：

文档获取单元，用于获取当前待录入的人员简历文档，对所述当前待录入的人员简历文档的第一页转换为预设尺寸的原始图像；

截图单元，用于加载截图插件，按预设截图尺寸对所述原始图像进行截图处理获得目标区域图像；

文本识别单元，用于将所述目标区域图像输入预先训练好的图像文本识别模型进行处理，获得对应的文本信息；以及

录入单元，用于根据从所述文本信息中提取人员的各个属性信息，并录入预设模板表格中对应各个属性信息的位置，获得人员信息表格并存储至企业信息系统的信息数据库中。

可选地，所述人员简历文档的文档格式为word、pdf、excel表格、图像中的一种；所述人员简历文档包括一页或多页；

其中，所述截图单元，具体包括：

网站信息确定单元，用于获取所述当前待录入的人员简历文档所对应的网站信息；

截图尺寸确定单元，用于根据所述网站信息确定对应的截图尺寸；其中不同网站信息所对应的截图尺寸不同；以及

截图执行单元，根据所述对应的截图尺寸对所述原始图像进行截图处理获得目标区域图像。

可选地，所述文本识别单元，包括：

适用模型选择单元，用于根据所述网站信息确定从预先设置的模型数据库中选取当前适用的图像文本识别模型；所述模型数据库中存储有多个预先训练好的图像文本识别模型；其中，所述多个预先训练好的图像文本识别模型分别基于OCR模型训练得到，所述多个图像文本识别模型的输入图像尺寸与不同网站信息所对应的截图尺寸匹配；

文本识别执行单元，用于将所述目标区域图像输入所述当前适用的图像文本识别模型进行处理，获得对应的文本信息。

可选地，所述录入单元，包括：

字符串提取单元，用于从所述文本信息中不放回地抽取任一连续字符串作为当前字符串，并将当前字符串输出至字符串属性识别单元；

字符串属性识别单元，用于响应于接收到所述字符串提取单元输出的当前字符串，将当前字符串输入预先训练好的神经网络模型中进行识别输出对应的属性信息；

填写单元，用于根据所述属性信息将所述当前字符串填入预设模板表格中与所述属性信息对应的位置；以及

判断单元，用于判断所述文本信息中连续字符串是否提取完毕或所述预设模板表格已经填写完毕；若所述文本信息中连续字符串提取完毕或所述预设模板表格已经填写完毕，则获得人员信息表格并存储至企业信息系统的信息数据库中当前待录入的人员简历文档的录入任务；若所述文本信息中连续字符串未提取完毕且所述预设模板表格未填写完毕，则生成提取指令；

其中，所述字符串提取单元还用于响应于接收到所述提取指令，从所述文本信息中不放回地抽取剩下的任一连续字符串作为当前字符串，并将当前字符串输出至字符串属性识别单元。

本发明实施例提出一种人员信息智能录入方法及其系统，包括：文档获取单元获取当前待录入的人员简历文档，对所述当前待录入的人员简历文档的第一页转换为预设尺寸的原始图像；截图单元加载截图插件，按预设截图尺寸对所述原始图像进行截图处理获得目标区域图像；文本识别单元将所述目标区域图像输入预先训练好的图像文本识别模型进行处理，获得对应的文本信息；以及，录入单元根据从所述文本信息中提取人员的各个属性信息，并录入预设模板表格中对应各个属性信息的位置。通过本发明实施例，将各类文档格式的待录入的人员简历文档统一转换为图像格式，并截取图像中的目标区域，以减少图像文本识别的处理量，提高处理效率，经过文本识别获得目标区域的文本信息，最后根据文本信息填写预设模板表格，获得人员信息表格并存储至企业信息系统的信息数据库中；实现智能化提取人员简历中的目标信息并自动录入信息系统，能够提高人员信息录入效率，从而提高企业信息管理工作的工作效率。

本发明的其它特征和优点将在随后的说明书中阐述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中一种人员信息智能录入方法的流程图。

图2为本发明一实施例中人员简历文档第一页示意图。

图3为本发明一实施例中截取的目标区域图像示意图。

图4为本发明另一实施例中一种人员信息智能录入系统的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。

本发明的一实施例提出一种人员信息智能录入方法，一般而言，用人单位在完成招聘工作之后，会保留应聘人员的简历文档，而简历文档十分详细，基本上涵盖了企业人员信息录入的目标信息，因此，针对于此，可以对这些简历文档进行信息提取，并实现信息自动录入，以此来解决人手录入信息所存在的技术问题；

具体地，参阅图1，本实施例方法包括如下步骤S1-S4：

在一些实施例中，所述人员简历文档的文档格式为word、pdf、excel表格、图像中的一种；目前所应用的简历通常都是word和pdf格式，所述人员简历文档包括一页或多页，所述人员简历文档为应聘时的简历，不同应聘渠道，人员简历文档格式一般是不同的，页数也没有固定，可能是一页，也可能是多页。本实施例中为了便于后续利用模型进行智能化处理，设置步骤S1对人员简历文档的文档进行预处理，统一转换成图像格式。

具体而言，虽然人员简历文档格式一般是不同的，页数也没有固定，但所有的人员简历文档都具有一个共同的特征，例如图2，就是简历的第一页的最上部分都是填写个人信息，例如，姓名、联系方式、政治面貌、婚姻状态、联系方式、毕业院校、专业等信息，而企业对新员工的信息采集和录入，正好仅仅需要录入以上个人信息，因此，可以按预设截图尺寸截取所述原始图像的最上部分区域，获得目标区域图像，例如图3；

在一些实施例中，所述步骤S2，包括以下步骤S21-S23：

步骤S21、获取所述当前待录入的人员简历文档所对应的网站信息；

步骤S22、根据所述网站信息确定对应的截图尺寸；其中不同网站信息所对应的截图尺寸不同；

步骤S23、根据所述对应的截图尺寸对所述原始图像进行截图处理获得目标区域图像。

具体而言，对于一些企业的招聘工作而言，其可能在多个招聘网站发布招聘信息，例如，猎聘网、前程无忧网、智联招聘网，等等；应聘人员通过不同的招聘网站进行应聘，应聘时会根据网站设定的简历模板进行填写相关信息，最终生成个人简历，并投送简历应聘，即聘用方企业获得的人员简历文档；可以理解的是，不同的招聘网站，人员简历文档格式是不同，但大同小异，个人信息部分都是在第一页最上方位置区域；基于上述描述可知，通过不同的招聘网站应聘的人员简历文档格式是不同的，因此，可以根据不同的招聘网站设置对应不同的截图尺寸，来截取相应的目标区域图像。

此外，如果无法判断其网站来源，则利用统一的预设尺寸截取相应的目标区域图像，该统一的预设尺寸相对会大一些，以基本满足所有简历类型的截图需求。

在一些实施例中，所述步骤S3，包括如下步骤S31-S32：

步骤S31、根据所述网站信息确定从预先设置的模型数据库中选取当前适用的图像文本识别模型；所述模型数据库中存储有多个预先训练好的图像文本识别模型；

在一些实施例中，所述多个预先训练好的图像文本识别模型分别基于OCR模型训练得到，所述多个图像文本识别模型的输入图像尺寸与不同网站信息所对应的截图尺寸匹配；

步骤S32、将所述目标区域图像输入所述当前适用的图像文本识别模型进行处理，获得对应的文本信息。

具体而言，常规的OCR模型一般包含两步:1.找到包含文字的区域(proposal)；2.识别区域中的文字；本实施例中针对现有的OCR模型，在应用方面结合具体应用场景进行了改进，针对简历的布局特点，预先进行了预处理，通过截图组件快速地截取包括目标信息的目标区域图像，然后调整了OCR模型的输入图像尺寸，使得其输入与提取的目标区域图像尺寸一致，这样能够便于OCR模型快速地对目标区域图像进行识别，获得区域中的文字。在实施本实施例方法之前，预先对不同网站信息所对应的目标区域图像尺寸训练OCR模型，使得OCR模型能够快速地处理不同尺寸的目标区域图像，提高处理效率。

具体而言，企业信息系统的信息数据库中存储有人员信息，人员信息通常以表格形式进行存储，企业信息系统能够根据用户的查询指令获取信息数据库中的人员信息表格，并进行显示。

在一些实施例中，所述步骤S4，包括：

具体而言，所述OCR模型识别输出的文本信息中包括多个字符串，例如是姓名、毕业院校、学历、政治面貌、婚姻状态等中文字符串，又例如是手机号码、座机号码等数字字符串；

示例性地，所述属性信息包括但不限于姓名、毕业院校、学历、政治面貌、婚姻状态、联系方式中的多种；

进一步地，所述OCR模型识别输出的文本信息中包括的多个字符串需要进行智能识别和填写，本实施例中预先训练一个神经网络模型，例如是CNN网络，其训练原理如下：

提供一个神经网络基础模型，并挖掘大量的样本数据，样本数据包括所有目标属性类型信息，例如，国内外高校的名称样本，输入国内外高校的名称字符，训练识别其为学校属性；又例如，基于国内的姓氏样本，输入连续2-4个字符的中文字符串，训练识别其为姓名；又例如，基于婚姻状态表示，即未婚、已婚，输入未婚或已婚字符，训练识别其为婚姻状态属性；其他属性信息的训练，可以参阅上述例子获得，此处不再赘述。

具体而言，预设模板表格中设置有各种属性信息的填写位置；

通过本发明实施例的上述描述可知，本发明实施例具有以下优点：

本发明实施例方法将各类文档格式的待录入的人员简历文档统一转换为图像格式，并截取图像中的目标区域，以减少图像文本识别的处理量，提高处理效率，经过文本识别获得目标区域的文本信息，最后根据文本信息填写预设模板表格，获得人员信息表格并存储至企业信息系统的信息数据库中；实现智能化提取人员简历中的目标信息并自动录入信息系统，能够提高人员信息录入效率，从而提高企业信息管理工作的工作效率。

参阅图4，本发明的另一实施例提出一种人员信息智能录入系统，本实施例的系统与上述实施例的方法对应，本实施例的系统包括：

文档获取单元1，用于获取当前待录入的人员简历文档，对所述当前待录入的人员简历文档的第一页转换为预设尺寸的原始图像；

截图单元2，用于加载截图插件，按预设截图尺寸对所述原始图像进行截图处理获得目标区域图像；

文本识别单元3，用于将所述目标区域图像输入预先训练好的图像文本识别模型进行处理，获得对应的文本信息；以及

录入单元4，用于根据从所述文本信息中提取人员的各个属性信息，并录入预设模板表格中对应各个属性信息的位置，获得人员信息表格并存储至企业信息系统的信息数据库中。

其中，所述截图单元2，具体包括：

可选地，所述文本识别单元3，包括：

可选地，所述录入单元4，包括：

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需说明的是，上述实施例所述系统与上述实施例所述方法对应，因此，上述实施例所述系统未详述部分可以参阅上述实施例所述方法的内容得到，此处不再赘述。

并且，上述实施例所述人员信息智能录入系统，如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中；

例如，一种计算机设备，包括：根据上述实施例所述的人员信息智能录入系统；或者，存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行根据上述实施例所述的人员信息智能录入系统的步骤。当然，所述计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。示例性地，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机设备的控制中心，利用各种接口和线路连接整个所述计算机设备的各个部分。所述存储器可用于存储所述计算机程序和/或单元，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或单元，以及调用存储在存储器内的数据，实现所述计算机设备的各种功能。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

又例如，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述所述的人员信息智能录入方法。示例性地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种人员信息智能录入方法，其特征在于，包括：

2.根据权利要求1所述的人员信息智能录入方法，其特征在于，所述人员简历文档的文档格式为word、pdf、excel表格、图像中的一种；所述人员简历文档包括一页或多页。

3.根据权利要求2所述的人员信息智能录入方法，其特征在于，所述步骤S2，包括：

获取所述当前待录入的人员简历文档所对应的网站信息；

4.根据权利要求3所述的人员信息智能录入方法，其特征在于，所述步骤S3，包括：

5.根据权利要求4所述的人员信息智能录入方法，其特征在于，所述多个预先训练好的图像文本识别模型分别基于OCR模型训练得到，所述多个图像文本识别模型的输入图像尺寸与不同网站信息所对应的截图尺寸匹配。

6.根据权利要求5所述的人员信息智能录入方法，其特征在于，所述步骤S4，包括：

7.一种人员信息智能录入系统，其特征在于，包括：

8.根据权利要求7所述的人员信息智能录入系统，其特征在于，所述人员简历文档的文档格式为word、pdf、excel表格、图像中的一种；所述人员简历文档包括一页或多页；

其中，所述截图单元，具体包括：

9.根据权利要求8所述的人员信息智能录入方法，其特征在于，所述文本识别单元，包括：

10.根据权利要求9所述的人员信息智能录入系统，其特征在于，所述录入单元，包括：

判断单元，用于判断所述文本信息中连续字符串是否提取完毕或所述预设模板表格已经填写完毕；若所述文本信息中连续字符串提取完毕或所述预设模板表格已经填写完毕，则获得人员信息表格并存储至企业信息系统的信息数据库中；若所述文本信息中连续字符串未提取完毕且所述预设模板表格未填写完毕，则生成提取指令；