CN116994270A - 一种简历解析方法、装置、设备及可读存储介质 - Google Patents

一种简历解析方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116994270A
CN116994270A CN202311092211.8A CN202311092211A CN116994270A CN 116994270 A CN116994270 A CN 116994270A CN 202311092211 A CN202311092211 A CN 202311092211A CN 116994270 A CN116994270 A CN 116994270A
Authority
CN
China
Prior art keywords
resume
image
model
text information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311092211.8A
Other languages
English (en)
Inventor
姜波清
李志杰
郭晋
陈依
刀国羚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemai Information Technology Hangzhou Co ltd
Original Assignee
Lemai Information Technology Hangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemai Information Technology Hangzhou Co ltd filed Critical Lemai Information Technology Hangzhou Co ltd
Priority to CN202311092211.8A priority Critical patent/CN116994270A/zh
Publication of CN116994270A publication Critical patent/CN116994270A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种简历解析方法、装置、设备及可读存储介质,应用于简历解析领域,包括:获取待解析的简历图像;利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;利用文字识别技术提取各个目标区域的文本信息。本申请采用图像目标检测方法定位和识别简历图像中各个部分字段/目标对象,捕捉到目标对象在简历中的位置和布局,提供视觉信息来理解简历中的布局和结构,并在此基础上,利用OCR文字识别技术将各个部分的目标区域中的文本进行提取,提高了解析效率并且关键信息提取也更加准确。

Description

一种简历解析方法、装置、设备及可读存储介质
技术领域
本申请涉及简历解析领域,特别涉及一种简历解析方法、装置、设备及可读存储介质。
背景技术
现阶段,简历格式多种多样,包括Html(HyperText Markup Language,超文本标记语言)、Doc(Document,文档)、Pdf(PortableDocumentFormat,便携文档格式)、Eml(电子邮件格式文件)等格式;并且简历模板也更加多样化,分为上下结构和还有左右结构。在后期人才筛选匹配时,需要将这些半结构化的文本形式从简历中提取出基本信息、求职意向、教育经历、工作经历等,一般把这个过程称为简历解析。
现有技术中将简历文本直接通过文本转换方式获得,对于多栏布局的简历,读取的文本会出现各区域内容交错的问题;利用神经网络将简历文本按行表达为一个固定长度的向量,在获得行向量后,根据行向量对简历进行内容分段的方法,对于一些内容较长的简历,容易出现忽略上下文信息,导致解析不准确。
因此,目前本领域技术人员迫切需要解决的技术问题是,如何精准地、全面地完成简历解析。
发明内容
有鉴于此,本申请的目的在于提供了一种简历解析方法、装置、设备及可读存储介质,解决了现有技术中简历解析不准确的问题。
为解决上述技术问题,本申请提供了一种简历解析方法,包括:
获取待解析的简历图像;
利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;
利用文字识别技术提取所述各个目标区域的文本信息。
可选的,在所述利用文字识别技术提取所述各个目标区域的文本信息之后,还包括:
利用训练好的命名体识别模型对所述文本信息进行命名实体识别,得到实体信息。
可选的,在所述利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测之前,还包括:
获取简历样本图像,并对所述简历样本图像标注各个关键区域的边界框和类别标签;
对所述简历样本图像进行图像增强和尺寸调整处理,得到处理后的简历样本图像;
将所述处理后的简历样本图像分为测试集、训练集和验证集,得到测试简历样本图像、训练简历样本图像和验证简历样本图像;
基于YOLOv5使用所述训练简历样本图像进行模型训练;使用所述验证简历样本图像和预设的性能指标进行模型调优;使用所述测试简历样本图像进行模型评估,以得到所述训练好的图像目标检测模型。
可选的,在所述利用训练好的命名体识别模型对所述文本信息进行命名实体识别之前,还包括:
获取用于训练的文本信息,并对所述用于训练的文本信息标注数据和类别标签,得到处理后的文本信息;
将所述处理后的文本信息分为测试集、训练集和验证集,得到测试文本信息、训练文本信息和验证文本信息;
基于序列标注模型使用所述训练文本信息进行模型训练;使用验证文本信息和预设性能指标进行模型调优;使用所述测试文本信息进行模型评估,以得到所述训练好的命名实体模型。
可选的,所述序列标注模型为BiLSTM-CRF模型。
可选的,在获取待解析的简历图像之前,还包括:
获取简历;所述简历的格式包括但不限于Html、Doc、Pdf、Eml中的任一种;
将所述简历转换为统一大小格式的图像,作为所述待解析的简历图像;所述简历图像的格式包括但不限于JPEG、TIFF、RAW、BMP、GIF、PNG中的任意一种。
可选的,还包括:
将经过解析得到的所述文本信息和所述实体信息用标记化的文本格式或结构化数据进行存储。
本申请还提供了一种简历解析装置,包括:
获取模块,用于获取待解析的简历图像;
目标检测模块,用于利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;
文字识别模块,用于利用文字识别技术提取所述各个目标区域的文本信息。
本申请还提供了一种简历解析设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的简历解析方法的步骤。
本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的简历解析方法的步骤。
可见,本申请通过获取待解析的简历图像;利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;利用文字识别技术提取各个目标区域的文本信息。本申请采用图像目标检测方法定位和识别简历图像中各个部分字段/目标对象,捕捉到目标对象在简历中的位置和布局,提供视觉信息来理解简历中的布局和结构,并在此基础上,利用OCR文字识别技术(OpticalCharacter Recognition,光学字符识别)将各个部分的目标区域中的文本进行提取,提高了解析效率并且关键信息提取也更加准确。
此外,本申请还提供了一种简历解析装置、设备及可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种简历解析方法的流程图;
图2为本申请实施例提供的另一种简历解析方法的流程图;
图3为本申请实施例提供的一种简历解析装置的结构示意图;
图4为本申请实施例提供的一种简历解析设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,简历格式多种多样,包括Html、Doc、Pdf、Eml等格式;并且简历模板也更加多样化,分为上下结构和还有左右结构。在后期人才筛选匹配时,需要将这些半结构化的文本形式从简历中提取出基本信息、求职意向、教育经历、工作经历等,一般把这个过程称为简历解析。
现有技术中将简历文本直接通过文本转换方式获得,对于多栏布局的简历,读取的文本会出现各区域内容交错的问题;利用神经网络将简历文本按行表达为一个固定长度的向量,在获得行向量后,根据行向量对简历进行内容分段的方法,对于一些内容较长的简历,容易出现忽略上下文信息,导致解析不准确。因此,传统的简历解析方法可能对简历的格式和结构变化敏感,容易产生解析错误或遗漏关键信息,无法保证解析的准确性和鲁棒性;并且传统的简历解析方法主要依赖于文本信息,而忽略了简历中的视觉信息,缺乏多模态信息融合机制。本申请提出的简历解析方法,提高了解析效率并且关键信息提取也更加准确。
实施例1:
请参考图1,图1为本申请实施例提供的一种简历解析方法的流程图。该方法可以包括:
S101:获取待解析的简历图像。
本实施例的执行主体为终端。本实施例并不限定终端的种类,只要是能够完成简历解析的操作即可。例如,可以是通用型终端,或者还可以是专用型终端。本实施例首选获取待解析的简历图像。本实施例并不限定简历图像格式。例如,待解析的简历图像可以是JPEG格式;或者还可以是GIF格式。
进一步的,为了简历图像获取的便捷性,在上述获取待解析的简历图像之前,还可以包括以下步骤:
步骤61:获取简历;简历的格式包括但不限于Html、Doc、Pdf、Eml中的任一种;
步骤62:将简历转换为统一大小格式的图像,作为待解析的简历图像;简历图像的格式包括但不限于JPEG、TIFF、RAW、BMP、GIF、PNG中的任意一种。
本实施例可以针对各式各样的简历格式,例如Html、Doc、Pdf、Eml等格式,对简历进行处理,即将简历转换为统一大小的图像,本实施例并不限定具体的转换方法,只要是能够转换成统一格式的图像即可,也不限定转换的图像的具体格式,例如:可以是JPEG(JointPhotographic Experts Group,联合图像专家小组)、TIFF(Tag Image File Format,标签图像文件格式、RAW(未经处理、未经压缩的格式)、BMP(Bitmap,Windows操作系统中的标准图像文件格式)、GIF(Graphics Interchange Format,图像互换格式)、PNG(PortableNetwork Graphic Format,可移植网络图形格式)。
S102:利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域。
本实施例并不限定具体的目标检测模型,只要是能够完成对图像进行目标检测的模型即可。例如,可以是R-CNN(Regions with CNN features,区域卷积神经网络);或者还可以是YOLO(一种基于深度神经网络的对象识别和定位算法)。考虑到YOLO检测速度快,准确率高,并且它使用前文的上下文信息,会存在较少的背景错误,并且泛化能力、通用力更好。因此,本实施例的图像目标检测模型利用YOLO模型。
进一步的,为了提高简历中目标对象检测的有效性与准确性,在上述利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测之前,还可以包括以下步骤:
步骤31:获取简历样本图像,并对简历样本图像标注各个关键区域的边界框和类别标签。
本实施例中图像目标检测模型的训练过程可以包括:获取简历样本图像,即用于模型训练的数据样本集,可以理解的是数据样本集中的简历样本图像为标注了关键区域边界框和类别标签的样本。标注可以使用专业的标注工具,如LabelImg、RectLabel等图像标注工具,将目标对象的位置信息和类别标签标注在图像上。
步骤32:对简历样本图像进行图像增强和尺寸调整处理,得到处理后的简历样本图像。
对简历样本图像进行一系列的处理,提高模型训练的准确性与有效性,具体可以是图像增强、图像尺寸调整、归一化处理、其中图像增强可以包括亮度调整、对比度增强等。
步骤33:将处理后的简历样本图像分为测试集、训练集和验证集,得到测试简历样本图像、训练简历样本图像和验证简历样本图像。
经处理后的图像可以分为三部分,即测试集,包括用于测试的测试简历样本图像;训练集,包括用于训练的测试简历样本图像;验证集,包括用于验证的验证简历样本图像。
步骤34:基于YOLOv5使用训练简历样本图像进行模型训练;使用验证简历样本图像和预设的性能指标进行模型调优;使用测试简历样本图像进行模型评估,以得到训练好的图像目标检测模型。
本实施例基于YOLOv5使用训练简历样本图像进行模型训练,利用验证简历样本图像和预设的性能指标进行模型调优,如调整超参数,以提高模型的性能和泛化能力;使用测试简历样本图像进行模型评估,以得到训练好的图像目标检测模型。再利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域。
S103:利用文字识别技术提取各个目标区域的文本信息。
本实施例再利用图像目标检测模型精确检测到简历各个关键部分字段的位置后,就可以精确识别各个目标区域,再利用文字识别技术提取各个目标区域的文本信息,即可得到简历各部分标签信息,包括基本信息、工作经历、学习经历、专业技能等。
应用本申请实施例提供的简历解析方法,通过获取待解析的简历图像;利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;利用文字识别技术提取各个目标区域的文本信息。本申请采用图像目标检测方法定位和识别简历图像中各个部分字段/目标对象,捕捉到目标对象在简历中的位置和布局,提供视觉信息来理解简历中的布局和结构,并在此基础上,利用OCR(文字识别技术)将各个部分的目标区域中的文本进行提取,提高了解析效率并且关键信息提取也更加准确。并且,对各式简历进行处理,统一格式,形成格式一致的简历图像,可以便于后期简历图像的处理;并且,对用于训练模型的简历样本图像进行预处理,并基于YOLOv5对训练样本进行训练,并对模型进行了测试与评估,以此确保训练得到的模型的可靠性,从而提高了简历中目标对象检测的有效性与准确性。
实施例2:
请参考图2,图2为本申请实施例提供的另一种简历解析方法的流程图。该方法可以包括:
S201:获取待解析的简历图像。
S202:利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域。
S203:利用文字识别技术提取各个目标区域的文本信息。
S204:利用训练好的命名体识别模型对文本信息进行命名实体识别,得到实体信息。
本实施例再得到各个目标区域的文本信息后,为了确保简历中基本信息中的信息无缺失,例如简历中可能不存在姓名这个关键词,只有具体的姓名。针对这种情况,则需要采用命名体识别模型对文本信息进行命名实体识别,得到实体信息。利用命名实体识别(NER,Named Entity Recognition)的目标是从文本信息中识别出这些命名实体,并将其分类为预定义的类别,如人名、地名、组织机构等。本实施例并不限定具体的命名体识别模型的训练过程,只要该命名体识别模型可以进行命名体。
进一步的,为了更进一步地确保提取的基本信息更加准确,信息提取的完整性,在上述利用训练好的命名体识别模型对文本信息进行命名实体识别之前,还可以包括以下步骤:
步骤41:获取用于训练的文本信息,并对用于训练的文本信息标注数据和类别标签,得到处理后的文本信息;
步骤42:将处理后的文本信息分为测试集、训练集和验证集,得到测试文本信息、训练文本信息和验证文本信息;
步骤43:基于序列标注模型使用训练文本信息进行模型训练;使用验证文本信息和预设性能指标进行模型调优;使用测试文本信息进行模型评估,以得到训练好的命名实体模型。
本实施例对用于训练的文本信息进行标注和类别标签,并将其分为训练文本信息、测试文本信息和验证文本信息,并基于序列标注模型使用训练文本信息进行模型训练;使用验证文本信息和预设性能指标进行模型调优;使用测试文本信息进行模型评估,以得到训练好的命名实体模型。其中。根据验证集的性能指标,对模型进行调优,如调整超参数、增加正则化项、修改模型架构等,以提高模型的性能和泛化能力。
本实施例并不对具体的序列标注模型做限定。例如,序列标注模型可以是(LongShort-Term Memory,长短期记忆网络);或者还可以是GRU(Gate Recurrent Unit,是循环神经网络RNN的一种);或者还可以是BiLSTM-CRF(一种NER算法)模型。
进一步的,为了命名实体识别的准确性,上述序列标注模型可以为BiLSTM-CRF模型。
本实施例可以利用TensorFlow(一个开放源代码软件库,)构建的BILSTM-CRF机器学习模型进行简历信息命名实体提取。
S205:将经过解析得到的文本信息和实体信息用标记化的文本格式或结构化数据进行存储。
应用本申请实施例提供的另一种简历解析方法,通过获取待解析的简历图像;利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;利用文字识别技术提取各个目标区域的文本信息;利用训练好的命名体识别模型对文本信息进行命名实体识别,得到实体信息。本申请采用图像目标检测方法定位和识别简历图像中各个部分字段/目标对象,捕捉到目标对象在简历中的位置和布局,提供视觉信息来理解简历中的布局和结构,并在此基础上,利用OCR(文字识别技术)将各个部分的目标区域中的文本进行提取,提高了解析效率并且关键信息提取也更加准确。并且,目标检测可以通过定位和识别简历中的目标对象,捕捉到目标对象在简历中的位置和布局,可以提供简历中的目标对象的位置和上下文信息,而命名实体识别可以识别和标注简历文本中的命名实体,并理解它们在简历中的上下文关系,通过融合图像信息和文本信息,充分利用了多模态信息的优势,能够提供更准确、更全面和丰富的简历解析结果;命名实体识别可以提取文本中的实体信息;并且,图像目标检测和命名实体识别解析简历的发明具有适应多样化简历结构的能力,无论简历的布局和结构如何变化,图像目标检测可以通过学习目标对象的特征和上下文信息来检测和定位它们,命名实体识别可以在各种简历格式中识别出命名实体,种灵活性和适应性使得解析简历更具鲁棒性和可扩展性;并且,图像目标检测和命名实体识别解析简历的方法可以提高解析的鲁棒性和准确性;并且,基于BiLSTM-CRF模型进行命名体识别模型,提高识别准确率;并且,将经过解析得到的文本信息和实体信息用标记化的文本格式或结构化数据进行存储,便于后期对提取到的信息进行处理;并且,利用已经在相关领域或任务上训练更好的模型,将其迁移到简历解析任务中。例如,可以使用在大规模图像数据集上预训练的目标检测模型,然后将其应用于简历解析中。同样的,可以使用在文本数据集上预训练的命名实体识别模型,然后将其应用于简历解析。
下面对本申请实施例提供的简历解析装置进行介绍,下文描述的简历解析装置与上文描述的简历解析方法可相互对应参照。
具体请参考图3,图3为本申请实施例提供的一种简历解析装置的结构示意图,可以包括:
获取模块100,用于获取待解析的简历图像;
目标检测模块200,用于利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;
文字识别模块300,用于利用文字识别技术提取所述各个目标区域的文本信息。
基于上述实施例,其中简历解析装置,还可以包括:
实体提取模块,用于利用训练好的命名体识别模型对所述文本信息进行命名实体识别,得到实体信息
基于上述实施例,其中简历解析装置,还可以包括:
简历样本图像获取模块,用于在所述利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测之前,获取简历样本图像,并对所述简历样本图像标注各个关键区域的边界框和类别标签;
处理模块,用于对所述简历样本图像进行图像增强和尺寸调整处理,得到处理后的简历样本图像;
第一划分模块,用于将所述处理后的简历样本图像分为测试集、训练集和验证集,得到测试简历样本图像、训练简历样本图像和验证简历样本图像;
第一训练模块,用于基于YOLOv5使用所述训练简历样本图像进行模型训练;使用所述验证简历样本图像和预设的性能指标进行模型调优;使用所述测试简历样本图像进行模型评估,以得到所述训练好的图像目标检测模型。
基于上述实施例,其中简历解析装置,还可以包括:
标注模块,用于在所述利用训练好的命名体识别模型对所述文本信息进行命名实体识别之前,获取用于训练的文本信息,并对所述用于训练的文本信息标注数据和类别标签,得到处理后的文本信息;
第二划分模块,用于将所述处理后的文本信息分为测试集、训练集和验证集,得到测试文本信息、训练文本信息和验证文本信息;
第二训练模块,用于基于序列标注模型使用所述训练文本信息进行模型训练;使用验证文本信息和预设性能指标进行模型调优;使用所述测试文本信息进行模型评估,以得到所述训练好的命名实体模型。
基于上述实施例,其中第二训练模块中的序列标注模型为BiLSTM-CRF模型。
基于上述实施例,其中简历解析装置,还可以包括:
简历获取模块,用于在获取待解析的简历图像之前,还包括:获取简历;所述简历的格式包括但不限于Html、Doc、Pdf、Eml中的任一种;
简历转换模块,用于将所述简历转换为统一大小格式的图像,作为所述待解析的简历图像;所述简历图像的格式包括但不限于JPEG、TIFF、RAW、BMP、GIF、PNG中的任意一种。
基于上述实施例,其中简历解析装置,还可以包括:
存储模块,用于将经过解析得到的所述文本信息和所述实体信息用标记化的文本格式或结构化数据进行存储。
应用本申请实施例提供的简历解析装置,通过获取模块100,用于获取待解析的简历图像;目标检测模块200,用于利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;文字识别模块300,用于利用文字识别技术提取所述各个目标区域的文本信息。本装置采用图像目标检测方法定位和识别简历图像中各个部分字段/目标对象,捕捉到目标对象在简历中的位置和布局,提供视觉信息来理解简历中的布局和结构,并在此基础上,利用OCR(文字识别技术)将各个部分的目标区域中的文本进行提取,提高了解析效率并且关键信息提取也更加准确。并且,对各式简历进行处理,统一格式,形成格式一致的简历图像,可以便于后期简历图像的处理;并且,对用于训练模型的简历样本图像进行预处理,并基于YOLOv5对训练样本进行训练,并对模型进行了测试与评估,以此确保训练得到的模型的可靠性,从而提高了简历中目标对象检测的有效性与准确性;并且,目标检测可以通过定位和识别简历中的目标对象,捕捉到目标对象在简历中的位置和布局,可以提供简历中的目标对象的位置和上下文信息,而命名实体识别可以识别和标注简历文本中的命名实体,并理解它们在简历中的上下文关系,通过融合图像信息和文本信息,充分利用了多模态信息的优势,能够提供更准确、更全面和丰富的简历解析结果;并且,图像目标检测和命名实体识别解析简历的方法可以提高解析的鲁棒性和准确性;并且,基于BiLSTM-CRF模型进行命名体识别模型,提高识别准确率;并且,将经过解析得到的文本信息和实体信息用标记化的文本格式或结构化数据进行存储,便于后期对提取到的信息进行处理。
下面对本申请实施例提供的简历解析设备进行介绍,下文描述的简历解析设备与上文描述的简历解析方法可相互对应参照。
请参考图4,图4为本申请实施例提供的一种简历解析设备的结构示意图,可以包括:
存储器10,用于存储计算机程序;
处理器20,用于执行计算机程序,以实现上述的简历解析方法。
存储器10、处理器20、通信接口31均通过通信总线32完成相互间的通信。
在本申请实施例中,存储器10中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器10中可以存储有用于实现以下功能的程序:
获取待解析的简历图像;
利用训练好的图像目标检测模型对待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;
利用文字识别技术提取各个目标区域的文本信息。
在一种可能的实现方式中,存储器10可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
此外,存储器10可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可以包括各种系统程序,用于实现各种基础任务以及处理基于硬件的任务。
处理器20可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件,处理器20可以是微处理器或者也可以是任何常规的处理器等。处理器20可以调用存储器10中存储的程序。
通信接口31可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图4所示的结构并不构成对本申请实施例中简历解析设备的限定,在实际应用中简历解析设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
下面对本申请实施例提供的可读存储介质进行介绍,下文描述的可读存储介质与上文描述的简历解析方法可相互对应参照。
本申请还提供一种可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的简历解析方法的步骤。
该可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上对本申请所提供的一种简历解析方法、装置、设备及可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种简历解析方法,其特征在于,包括:
获取待解析的简历图像;
利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;
利用文字识别技术提取所述各个目标区域的文本信息。
2.根据权利要求1所述的简历解析方法,其特征在于,在所述利用文字识别技术提取所述各个目标区域的文本信息之后,还包括:
利用训练好的命名体识别模型对所述文本信息进行命名实体识别,得到实体信息。
3.根据权利要求1所述的简历解析方法,其特征在于,在所述利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测之前,还包括:
获取简历样本图像,并对所述简历样本图像标注各个关键区域的边界框和类别标签;
对所述简历样本图像进行图像增强和尺寸调整处理,得到处理后的简历样本图像;
将所述处理后的简历样本图像分为测试集、训练集和验证集,得到测试简历样本图像、训练简历样本图像和验证简历样本图像;
基于YOLOv5使用所述训练简历样本图像进行模型训练;使用所述验证简历样本图像和预设的性能指标进行模型调优;使用所述测试简历样本图像进行模型评估,以得到所述训练好的图像目标检测模型。
4.根据权利要求2所述的简历解析方法,其特征在于,在所述利用训练好的命名体识别模型对所述文本信息进行命名实体识别之前,还包括:
获取用于训练的文本信息,并对所述用于训练的文本信息标注数据和类别标签,得到处理后的文本信息;
将所述处理后的文本信息分为测试集、训练集和验证集,得到测试文本信息、训练文本信息和验证文本信息;
基于序列标注模型使用所述训练文本信息进行模型训练;使用验证文本信息和预设性能指标进行模型调优;使用所述测试文本信息进行模型评估,以得到所述训练好的命名实体模型。
5.根据权利要求4所述的简历解析方法,其特征在于,所述序列标注模型为BiLSTM-CRF模型。
6.根据权利要求1所述的简历解析方法,其特征在于,在获取待解析的简历图像之前,还包括:
获取简历;所述简历的格式包括但不限于Html、Doc、Pdf、Eml中的任一种;
将所述简历转换为统一大小格式的图像,作为所述待解析的简历图像;所述简历图像的格式包括但不限于JPEG、TIFF、RAW、BMP、GIF、PNG中的任意一种。
7.根据权利要求2所述的简历解析方法,其特征在于,还包括:
将经过解析得到的所述文本信息和所述实体信息用标记化的文本格式或结构化数据进行存储。
8.一种简历解析装置,其特征在于,包括:
获取模块,用于获取待解析的简历图像;
目标检测模块,用于利用训练好的图像目标检测模型对所述待解析的简历图像进行目标检测,识别得到简历中各个关键部分字段的位置,确定各个目标区域;
文字识别模块,用于利用文字识别技术提取所述各个目标区域的文本信息。
9.一种简历解析设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的简历解析方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的简历解析方法的步骤。
CN202311092211.8A 2023-08-28 2023-08-28 一种简历解析方法、装置、设备及可读存储介质 Pending CN116994270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311092211.8A CN116994270A (zh) 2023-08-28 2023-08-28 一种简历解析方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311092211.8A CN116994270A (zh) 2023-08-28 2023-08-28 一种简历解析方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116994270A true CN116994270A (zh) 2023-11-03

Family

ID=88521386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311092211.8A Pending CN116994270A (zh) 2023-08-28 2023-08-28 一种简历解析方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116994270A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN111444876A (zh) * 2020-04-08 2020-07-24 证通股份有限公司 一种图文处理方法、系统以及计算机可读存储介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN112508530A (zh) * 2020-12-16 2021-03-16 无锡爱视智能科技有限责任公司 基于多模态识别的在线人才筛选方法
CN112632227A (zh) * 2020-12-30 2021-04-09 北京百度网讯科技有限公司 简历匹配方法、装置、电子设备、存储介质和程序产品
CN113221711A (zh) * 2021-04-30 2021-08-06 北京金山数字娱乐科技有限公司 一种信息提取方法及装置
CN114937188A (zh) * 2022-04-22 2022-08-23 北京智慧荣升科技有限公司 一种用户分享截图的信息识别方法、装置、设备及介质
CN115249014A (zh) * 2022-08-16 2022-10-28 阿里云计算有限公司 信息抽取方法、设备、存储介质及程序产品

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN111444876A (zh) * 2020-04-08 2020-07-24 证通股份有限公司 一种图文处理方法、系统以及计算机可读存储介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN112508530A (zh) * 2020-12-16 2021-03-16 无锡爱视智能科技有限责任公司 基于多模态识别的在线人才筛选方法
CN112632227A (zh) * 2020-12-30 2021-04-09 北京百度网讯科技有限公司 简历匹配方法、装置、电子设备、存储介质和程序产品
CN113221711A (zh) * 2021-04-30 2021-08-06 北京金山数字娱乐科技有限公司 一种信息提取方法及装置
CN114937188A (zh) * 2022-04-22 2022-08-23 北京智慧荣升科技有限公司 一种用户分享截图的信息识别方法、装置、设备及介质
CN115249014A (zh) * 2022-08-16 2022-10-28 阿里云计算有限公司 信息抽取方法、设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
US20190073354A1 (en) Text segmentation
CN113705576B (zh) 一种文本识别方法、装置、可读存储介质及设备
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
CN115034200A (zh) 图纸信息提取方法、装置、电子设备及存储介质
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN111259951A (zh) 案件检测方法、装置、电子设备及可读存储介质
CN114724166A (zh) 一种标题抽取模型的生成方法、装置及电子设备
CN110689447A (zh) 一种基于深度学习的社交软件用户发布内容的实时检测方法
CN112990142B (zh) 一种基于ocr的视频导图生成方法、装置、设备及存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
Akanksh et al. Automated invoice data extraction using image processing
CN114003692A (zh) 合同文本信息的处理方法、装置、计算机设备及存储介质
CN117520561A (zh) 直升机装配领域知识图谱构建的实体关系抽取方法及系统
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN116994270A (zh) 一种简历解析方法、装置、设备及可读存储介质
CN114155547B (zh) 一种图表识别方法、装置、设备及存储介质
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
WO2023038722A1 (en) Entry detection and recognition for custom forms
CN115373982A (zh) 基于人工智能的测试报告分析方法、装置、设备及介质
CN111428724B (zh) 一种试卷手写统分方法、装置及存储介质
CN114706886A (zh) 一种评测方法和装置、计算机设备、存储介质
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN110795931B (zh) 一种web网站页面语言的检测方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination