CN112269872B - 简历解析方法、装置、电子设备及计算机存储介质 - Google Patents
简历解析方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112269872B CN112269872B CN202011120377.2A CN202011120377A CN112269872B CN 112269872 B CN112269872 B CN 112269872B CN 202011120377 A CN202011120377 A CN 202011120377A CN 112269872 B CN112269872 B CN 112269872B
- Authority
- CN
- China
- Prior art keywords
- resume
- entity
- component
- vector
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 190
- 230000000007 visual effect Effects 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims description 26
- 238000009877 rendering Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008520 organization Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012800 visualization Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000007115 recruitment Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本申请实施例提供了一种简历解析的方法、装置、电子设备及计算机可读存储介质,涉及信息提取领域。该方法包括:获取待解析的可视化简历,确定可视化简历中像素点的编码向量以及对象的位置信息,根据对象对应的像素点的编码向量,获得对象的编码向量;根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果;获取分句结果中的实体,将位置关系符合第一预设条件的实体进行组合,获得实体组,将实体组构成实体组合序列作为解析结果。本申请实施例实现了形式不变性和表述不变性,即简历解析的结果不受排版的方式与组织形式影响,也不受到不同语言、表述形式和表达方式的影响。
Description
技术领域
本申请涉及信息提取技术领域,具体而言,本申请涉及一种简历解析方法、装置、电子设备及计算机存储介质。
背景技术
随着互联网时代的发展,信息化的生活与人们已经变得息息相关,人们也越来越习惯于在互联网上寻找自己想要的信息,特别是在网上招聘方面,网络上有大量求职的简历,而这些简历的格式,内容等非常复杂多样,因此,需要对原始简历进行解析,提取出其中需要的信息。
在现有技术中,简历解析的方法主要是对常见招聘网站上的模板简历进行解析,而对于复杂排版的简历在解析时会识别不出来,甚至无法解析,解析时也是提取文本数据,再对文本数据进行识别,对于其他格式的内容无法解析,让求职者和招聘单位都十分苦恼。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的简历解析方法、装置、电子设备及存储介质。
第一方面,提供了一种简历解析的方法,该方法包括:
获取待解析的可视化简历,确定可视化简历中像素点的编码向量以及对象的位置信息,根据对象对应的像素点的编码向量,获得对象的编码向量;
根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果;
获取分句结果中的实体,将位置关系符合第一预设条件的实体进行组合,获得实体组,将实体组构成实体组合序列作为解析结果;
其中,对象包括文字、图片、符号以及框线中的至少一种;像素点的编码向量用于表征像素点与其他像素点的相似度;实体是分句结果中的一类事物的集合。
在一个可能的实现方式中,确定可视化简历中像素点的编码向量以及对象的位置信息,包括:
确定可视化简历的格式,根据格式调用对应的渲染引擎对可视化简历进行渲染,获得可视化简历中像素点的编码向量以及对象的位置信息。
在一个可能的实现方式中,根据对象对应的像素点的编码向量,获得对象的编码向量,包括:
根据对象的位置信息确定对象对应的像素点;
对于对象的编码向量的任意一个维度,将所有对应的像素点的编码向量在维度的最大值,作为对象的编码向量在维度的值。
在一个可能的实现方式中,根据对象对应的像素点的编码向量,获得对象的编码向量,包括:
根据对象的位置信息确定对象对应的像素点;
对于对象的编码向量的任意一个维度,将所有对应的像素点的编码向量在维度的最大值,作为对象的编码向量在维度的值。
在一个可能的实现方式中,根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果,包括:
若任意两个对象处于同一行,且间距小于第一预设阈值,则将两个对象合并为第一类块;
根据第一类块中对象的编码向量和位置信息,获得第一类块的版块信息;
将具有同一版块信息且距离不大于第二预设阈值的第一类块进行合并,获得段落;
根据段落中的对象的位置信息中的纵坐标,若任意两个对象的纵坐标的比值大于第三预设阈值,则将两个对象进行合并,获得第二类块;
对第二类块利用预设的方法进行分句处理,得到分句结果,预设的方法包括利用数组词典、神经网络表示和语法标识技术中的一种或多种。
在一个可能的实现方式中,根据第一类块中对象的编码向量和位置信息,获得第一类块的版块信息,包括:
确定第一类块中属于字符的对象,将属于字符的对象进行向量表示,作为第一分量;根据第一类块中对象的位置,确定第一类块的位置,对第一类块的位置进行向量表示,作为第二分量;将第一类块中所有对象的编码向量中每个维度的最大值作为第三分量,将第一分量、第二分量和第三分量进行拼接,获得第一类块的编码向量;
将第一类块的编码向量输入至预先训练的第一神经网络模型,获得第一神经网络模型输出的第一类块在可视化的简历中所属的版块的概率分布;
根据第一预设算法对概率分布进行解码,确定第一类块在可视化的简历中所属的版块。
在一个可能的实现方式中,获取分句结果中的实体,包括:
确定分句结果中属于字符的对象,将属于字符的对象进行向量表示,作为第四分量;根据分句结果中由字符对象构成的句子进行向量表示,作为第五分量;根据分句结果中对象的位置,确定分句结果中句子的位置,对句子的位置进行向量表示,作为第六分量;将分句结果中每个句子的首尾两个对象的编码向量拼接起来,作为第七分量,将第四分量、第五分量、第六分量和第七分量进行拼接,获得分句结果的编码向量;
将分句结果的编码向量输入至预先训练的第二神经网络模型,获得第二神经网络模型输出的实体在分句结果中的概率分布;
根据第二预设算法对概率分布进行解码,确定分句结果中的实体。
在一个可能的实现方式中,将距离不大于第三预设阈值的实体组合为实体组,将实体组构成实体组合序列作为解析结果,包括:
若任意两个实体的距离不大于第三预设阈值,则将两个实体组合为实体组;
将实体组作为顶点构成图,利用预设的切分算法进行切分,获得实体组合序列,将实体组合序列作为解析结果。
第二方面,提供了一种提供了一种简历解析的装置,该装置包括:
获取模块,用于获取待解析的可视化简历,确定可视化简历中像素点的编码向量以及对象的位置信息,根据对象对应的像素点的编码向量,获得对象的编码向量;
转化模块,用于根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果;
解析模块,用于获取分句结果中的实体,将位置关系符合第一预设条件的实体进行组合,获得实体组,将实体组构成实体组合序列作为解析结果。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的简历解析方法、装置、电子设备及计算机可读存储介质,实现了形式不变性和表述不变性。其中,形式不变性,是通过将对象合并为段落,并对段落进行分析,将对每个可视化简历中的版块进行分析的问题转化为对每个段落进行分析,得出的解析结果不受排版的方式与组织形式影响。而表述不变性,是通过对段落进行分句处理和对分句结果中的实体进行分析和组合,确定出每个版块中每个段落的实体,并对实体与实体之间的关系进行分析使简历解析的结果不受到不同语言、表述形式和表达方式的影响,可以得出可视化简历中所想要表达出的真实含义。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种简历解析方法的系统网络架构图;
图2为本申请实施例提供的一种简历解析方法的流程示意图;
图3为本申请实施例提供的简历解析方法中对象的示意图;
图4为本申请实施例提供的简历解析方法中的第一类块和段落的示意图;
图5为本申请实施例提供的简历解析方法中的第二类块的示意图
图6为本申请实施例提供的简历解析方法中实体组合序列的示意图;
图7为本申请实施例提供的一种简历解析的装置的结构示意图;
图8为本申请实施例提供的一种简历解析的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
首先,本申请可应用在各种简历信息解析场景中,例如人才数据库的构建等,其中简历解析即是将简历文件中的个人基本信息,教育经历,实习经历,项目经历,项目经历,工作经历等信息提取出来,用来构建人才信息数据库并进行有效的评估分析。简历是求职者给招聘单位发的一份简要介绍,包括自己的基本信息:姓名、性别、年龄、名族、籍贯、政治面貌、学历、联系方式等,以及自我评价、工作经历、学习经历、荣耀与成就、求职愿望、对这份工作的理解等等信息,简历文件也有多种格式,例如可以是Word、PDF(Portable DocumentFormat,可携带文档格式)、HTML(Hyper Text Markup Language,超文本标记语言)、图片、PPT、Excel,其中,在简历文件中上述的简历信息也有很多展现方式,例如文字的字体、大小、颜色,不同信息排版布局,插入的图片等等方式,当然,也可以有其他的各种方式,本申请不作具体的限定。
应理解,本申请提供的简历解析方法可以应用于任何具有简历解析的计算机设备或系统中,具体的,简历解析的系统可以运行于如图1所示的网络架构中,图1是简历解析的系统运行的网络架构图,服务器11通过接收终端12上传的待处理的简历,对简历文件进行相应处理,将简历文件中的信息构成信息列表存储在数据库中,并发送给终端12。
为了更清楚地说明本申请的技术方案,后续将以本申请在简历解析场景进行说明,现有简历解析技术主要是将某种语言的简历文件提取到规定的几种或多种字段上面,即提取各种文本数据,对文本数据进行实体识别NER(Named Entity Recognition,就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体),最后采用预定规则合并结果得出结论,但是简历在提取信息时丢失了简历中的视觉信息例如:字体大小、字体形状、字颜色、排版位置、表格外观、背景以及其他无法转变为文字的对象,这样导致在排版时的数据错误识别率较高,同时简历在提取各种文本数据,对文本数据进行实体识别NER时,只是简单的考虑文字信息而忽略了视觉信息以及文字的实际含义,即各个信息之间的联系,导致简历解析的不够完整,信息提取出现误差,影响人员信息数据库的构建,人力资源的分配。
本申请实施例提供了一种简历解析的方法,图2为本申请实施例提供的一种简历解析方法的流程图,本实施例至少包括以下步骤:
S101、获取待解析的可视化简历,确定可视化简历中像素点的编码向量以及对象的位置信息,根据对象对应的像素点的编码向量,获得对象的编码向量。
本实施例中的可视化简历可以是由终端发送的,也可以是服务器中保存的,可以在服务器中进行简历解析,具体的,可视化是指将数据转化为图形或图像在屏幕上显示出来,让人能够直观的看到,可视化简历也将就是计算机中的存储的二进制等的数据形式的简历转化为整个简历图像展示出来,这一过程可通过渲染完成。
在确定可视化简历中的像素点的编码向量以及对象的位置信息之后,可以根据对象的位置信息来确定对象对应的像素点,再得到对象的编码向量,其中,像素点的编码向量用于表征一个像素点与其他像素点的相似度,具体的,是指像素点所在像素区域的属性与其他像素点所在像素区域的属性的相似度,例如:构成像素点所在像素区域的颜色,形状等属性。对象包括文字、图片、符号以及框线中的至少一种,而对象的位置信息包括对象在可视化简历中所处的位置坐标。
S102、根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果。
在上述步骤得到对象的位置信息和对象的编码向量之后,还要将对象进行合并。应当理解的是,可视化简历中分出了很多版块,例如:基本信息、教育经历、实习经历、项目经历等版块,所以需要将这些版块区分开来,通过将对象合并为段落,可以将可视化简历中版块分割的问题转化为对每一个段落分析的过程,根据不同段落的特性可以更加高效的识别出版块。
本申请实施例在获得到段落后只是将可视化简历中分割为了不同的版块,对其中每一个版块中的对象还需要进行分析,来确定每一个可视化简历中每个版块中的信息是否准确完整,因此需要对段落进行分句,得到分句结果,其中分句是指将一段复句划分成一个个单句。
S103、获取分句结果中的实体,将位置关系符合第一预设条件的实体进行组合,获得实体组,将实体组构成实体组合序列作为解析结果。
在上述步骤得到分句结果后,还需要区分出分句结果中的实体,实体是指分句结果中一类事物的集合,例如:教育经历版块中的学校、时间日期、专业、院校、证书等;工作经历版块中的公司、职位、时间日期、薪资、部门、地点等;项目经历版块中的项目名称、时间日期、部门、公司、职位、人数等,可以根据分句结果中的对象的编码向量进行拼接获取到分句结果的编码向量,再根据分句结果的编码向量通过预设的神经网络获得实体。
本申请实施例在获得到实体后,需要确定那些实体组合在一起是一个有意义的实体组,在一份可视化的简历中相同类型的实体往往出现多个,例如:多段教育经历的学校、专业;多段工作经历的公司、职位。本申请实施例采用最大概率分组的方式将实体进行分组,并将实体组构成实体组合序列作为解析输出的结果,例如:张三在武汉中学学习了3年,张三在武汉大学学习了4年等等。
本申请实施例提供的简历解析的方法,实现了形式不变性和表述不变性。其中,形式不变性,是通过将对象合并为段落,并对段落进行分析,将对每个可视化简历中的版块进行分析的问题转化为对每个段落进行分析,得出的解析结果不受排版的方式与组织形式影响。而表述不变性,是通过对段落进行分句处理和对分句结果中的实体进行分析和组合,确定出每个版块中每个段落的实体,并对实体与实体之间的关系进行分析,使简历解析的结果不受到不同语言、表述形式和表达方式的影响,可以得出可视化简历中所想要表达出的真实含义。
在上述实施例的基础上,作为一种可选实施例,确定可视化简历中像素点的编码向量以及对象的位置信息,包括:
确定可视化简历的格式,根据格式调用对应的渲染引擎对可视化简历进行渲染,获得可视化简历中像素点的编码向量以及对象的位置信息。
表1为简历渲染方法表,获取到待解析的可视化简历的文件后,根据可视化简历文件的格式来调用相应的渲染引擎,例如pdf简历渲染采用mupdf渲染引擎,office简历则采用微软office商业渲染引擎,html简历采用chrome开源渲染技术,text文本简历则按照文字排版自行计算等等,这里的开源指的是源代码是开放的,可以自行下载看到的,商业指的是未开放的,使用需要收费的,其中,渲染的方法包括图片渲染和DOM渲染,对于不同文件格式的可视化简历,这两种方法都是并行独立处理的,对于不同的文件格式的可视化简历进行的方法也不同,具体的参见下表1:
表1:简历渲染方法表
通过图片渲染得到的是可视化的简历中像素点的编码向量,像素点的编码向量用于表征一个像素点与其他像素点的相似度,具体的,是指像素点所在像素区域的属性与其他像素点所在像素区域的属性的相似度,例如:构成像素点所在像素区域的颜色,形状等属性。将图片格式的简历输入到CNN(Convolutional Neural Nerworks,卷积神经网络)中进行编码,得到图片中每个像素点的编码向量,其中CNN神经网络是基于是一定数量的简历图片作为训练样本,判断图片中每个像素点与其他像素点的相似度作为训练标签。而通过DOM(Domcument Object Model,文档对象模型)渲染得到的是对象的位置信息。
本实施例针对不同的文件格式,利用不同的渲染引擎和渲染方法,使解析简历输出的结果达到了格式不变性,即在使在格式相同的内容相同排版形式情况下,不受输入的格式影响,也就是说相同内容与排版的简历解析结果,无论它是pdf、图片或者是word等其他格式,结果都一致。
在上述各实施例的基础上,作为一种可选实施例,根据对象对应的像素点的编码向量,获得对象的编码向量,包括:
S201、根据对象的位置信息确定对象对应的像素点。
图3为本申请实施例提供的简历解析方法中对象的示意图,图中每个对象占用一块像素区域,像素区域包括多个像素点,每个像素点通过显示预设的颜色实现对象的可视化。根据对象的位置信息,即对象在可视化简历中的坐标,确定对象所在的像素区域,该像素区域中所有的像素点就是对象对应的像素点。
S202、对于对像的编码向量的任意一个维度,将所有对应的像素点的编码向量在该维度的最大值,作为该对象的编码向量在该维度的值。
根据对象所在的像素区域的所有像素点的编码向量,在任意一个维度中,对象对应的像素区域中的所有像素点的编码向量的值中的最大值作为该对象的编码向量的值,例如,每个像素点的编码向量为4维,汉字“一”对应4个像素点的编码向量,若4个像素点的编码向量为:
像素点1(0.5,0.4,0.8,0.9)、像素点2(0.2,0.3,0.4,0.3)、像素点3(0.6,0.2,0.7,0.6)、像素点4(0.1,0.4,0.6,1.0)、则对于汉字“一”的编码向量的从左起第一个维度的为0.5、0.2、0.6和0.1中的最大值——0.6,以此类推,可知汉字“一”的编码向量为(0.6,0.4,0.8,1.0)。
可选的,若可视化简历文件的格式是text文本文件,则只进行DOM渲染,不进行图片渲染,即没有像素点的编码向量,将所有的文本文件中的文字对象的编码向量直接赋予零向量。
本实施例通过对象对应的像素点的编码向量获得对象的编码向量,即通过像素点之间的相似度可以准确的得到对象之间相似度,避免在简历解析时对对象的识别产生错误。
在上述各实施例的基础上,作为一种可选实施例,根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果,包括:
S301、若任意两个对象处于同一行,且间距小于第一预设阈值,则将两个对象合并为第一类块。
图4为本申请实施例提供的简历解析方法中的第一类块和段落的示意图,若其中两个对象处在同一行,即他们的纵轴坐标一致并且它们的间距不超过预先设定的第一预设阈值,则将这两个对象合并在一起,成为一个块并称之为第一类块,例如:“张”和“三”合并为“张三”,第一类块中对象的个数不做限定。
S302、根据第一类块中对象的编码向量和位置信息,获得第一类块的版块信息。
本申请实施例可以根据构成第一类块中的对象的编码向量和位置信息,进行相应的向量拼接来获取第一类块的编码向量,例如:“张三”的编码向量根据“张”和“三”的编码向量、它们的位置坐标和它们在所在维度的编码向量的最大值确定的,再将第一类块的编码向量输入预先训练的第一神经网络模型来获得第一类块在可视化简历中所属的版块信息。
S303、将具有同一版块信息且距离不大于第二预设阈值的第一类块进行合并,获得段落。
如图4所示,根据获得到的第一类块的版块信息,将具有同一版块信息并且相互之间的距离不超过预先设定的第二预设阈值的两个第一类块进行合并为一个段落,段落在可视化简历中可以是一段文字,例如“姓名:张三”,根据具体实际情况而定,不作限定。
S304、根据段落中的对象的位置信息中的纵坐标,若任意两个对象的纵坐标的比值大于第三预设阈值,则将两个对象进行合并,获得第二类块。
图5为本申请实施例提供的简历解析方法中的第二类块的示意图,根据获得到的段落中的对象的位置信息,即对象在可视化简历中的坐标,将两个对象的纵坐标的比值大于第三阈值的对象合并为第二类块,其中,纵坐标的比值如图5所示的,是指两个对象在纵轴上的重复的部分占各自像素区域的比值,即图5中h所指代的范围占各自像素区域整体的比值。
S305、对第二类块利用预设的方法进行分句处理,得到分句结果,预设的方法包括利用数组词典、神经网络表示和语法标识技术中的一种或多种。
具体的,比如可以利用tire(树)数组词典进行分句,根据tire(树)数组词典中已经建立了的短语进行分句;还比如,利用神经网络表示就是将第二类块输出预先已经训练好的语句类神经网络进行分句;再比如,利用2元语法表示技术就是根据已经出现的词语的概率来推断语句的结构进行分句,本申请实施例的分句方法根据具体情况决定,本实施例不作限定。
本实施例通过将可视化简历中分割出版块的问题转化为了分析段落的问题,即将可视化简历中的各个版块区分开来,可以根据不同版块中的段落的特性更加高效准确的识别出不同的版块,并运用了神经网络表示等技术使简历解析更加准确,而对版块中的对象再进行合并得到第二类块,并将第二类块进行分句处理,是对可视化简历中的各个版块中的数据进行更加细致的分析,使得到的解析结果更加贴近于真实情况,避免错误。
在上述各实施例的基础上,作为一种可选实施例,获取第一类块的编码向量,根据第一类块的编码向量,获得第一类块的版块信息,包括:
S401、确定第一类块中属于字符的对象,将属于字符的对象通过进行向量表示,作为第一分量;根据第一类块中对象的位置,确定第一类块的位置,对第一类块的位置进行向量表示,作为第二分量;将第一类块中所有对象的编码向量中每个维度的最大值作为第三分量,将第一分量、第二分量和第三分量进行拼接,获得第一类块的编码向量。
将第一类块进行向量表示的部分分为三个分量,再将三个分量拼接起来获得第一类块的编码向量,其中,第一分量为第一类块中每一个字符的编码向量;第二分量为第一类块的位置坐标的编码向量;第三分量为第一类块中所有对象的编码向量在每个维度的最大值。
具体的,第一分量采用word2vec神经网络模型进行向量表示,word2vec神经网络模型是以文字,词语等作为样本进行训练,训练之后可以映射出每个文字或词语等的向量;第二分量对坐标直接进行变换,根据对象的位置信息中的坐标取最大值或者并集作为第一类块的坐标,例如:对象“张”的坐标为(3,4),(5,2),对象“三”的坐标为(6,4),(8,2),则第一类块“张三”的坐标为(3,4),(8,2),可以选取构成第一类块的左上角的对象,基于左上角对象的坐标,其余三个角的坐标减去基准,再除以纵坐标高度得到;第三分量选取对象的编码向量在每个维度中的最大值。将三个分量进行拼接得到第一类块的编码向量,应理解的是,本步骤获得的编码向量指代的是局部编码向量,局部是指第一类块本身的,全局是指结合其他第一类块的。
S402、将第一类块的编码向量输入至预先训练的第一神经网络模型,获得第一神经网络模型输出的第一类块在可视化简历中所属的版块的概率分布。
将第一类块的编码向量输入预先训练好的第一神经网络模型,第一预设神经网络模型包括自注意力神经网络层和前向神经网络层,将第一类块的编码向量输入自注意力神经网络层,输出的是第一类块的全局编码向量,即是第一类块在整个可视化简历中的编码向量,再将第一类块的全局编码向量输入前向神经网络层,输出得到第一类块所属的版块的概率分布。其中,第一神经网络模型是以一定数量样本类块的编码向量作为训练样本,以样本类块在各个样本版块的概率分布作为训练标签进行训练确定的。
S403、根据预设算法对概率分布进行解码,确定第一类块在可视化的简历中所属的版块。
本申请实施例根据获取到的第一类块在可视化简历中的所属的各个版块的概率分布,可以利用二维CRF(conditional random field algorithm,条件随机场算法)算法进行解码,得到第一类块在可视化简历中所属的版块,二维CRF是一种判别式概率模型,用于计算全局的条件概率,CRF通过发掘对象的属性(如长度、颜色、大小等,也可以包括对象本身),把每个对象转化成为一个一维特征向量,然后将对象的属性计算到属性的条件概率,这样每个对象的条件概率即为所有属性条件概率的加和,构成全局信息的基础。
本申请实施例将对象进行合并成为第一类块,结合了对象之间的位置关系,即在可视化简历中所处的位置坐标,可以更加准确的判断可视化简历中每个对象之间的关系,而根据第一类块的编码向量利用神经网络模型确定第一类块的版块,更加准确高效。
在上述各实施例的基础上,作为一种可选实施例,获取分句结果的编码向量,根据分句结果的编码向量获得实体,包括:
S501、确定分句结果中属于字符的对象,将属于字符的对象进行向量表示,作为第四分量;根据分句结果中由字符对象构成的句子进行向量表示,作为第五分量;根据分句结果中对象的位置,确定分句结果中句子的位置,对句子的位置进行向量表示,作为第六分量;将分句结果中每个句子的首尾两个对象的编码向量拼接起来,作为第七分量,将第四分量、第五分量、第六分量和第七分量进行拼接,获得分句结果的编码向量。
将分句结果进行向量表示的部分分成四个分量,再将四个分量拼接得到分句结果的编码向量,其中,第四分量为分句结果中每一个字符的编码向量;第五分量为字组成的句子的编码向量;第六分量为分句结果的句子的坐标的编码向量;第七分量为句子的首尾对象拼接得到的编码向量。
具体的,可以采用embeding(嵌入)函数模型来进行向量表示,此函数模型的作用是将不可计算的字符或符号映射为一个可计算的固定维度大小的编码向量,第四分量直接对字利用embeding函数模型进行映射,获得文字部分编码向量;第五分量也是直接对句子利用embeding函数模型进行映射,获得句子部分编码向量;第六分量是根据对象的位置信息中的坐标获得分句结果的坐标并进行转化,跟上文第一类块的坐标获取方式一致,不再重复叙述;第七分量是将分句结果中每个句子的首位对象的编码向量拼接起来获得图片部分编码向量。
S502、将分句结果的编码向量输入至预先训练的第二神经网络模型,获得第二神经网络模型输出的分句结果中的实体。
本申请实施例中第二神经网络模型包括自注意力神经网络层和前向神经网络层,将分句结果的编码向量输入自注意力神经网络层,获得分句结果的全局编码向量,全局是指对于整个可视化简历,再将分句结果的全局编码向量经过前向神经网络层得到实体在分句结果中的概率分布,其中,第二神经网络模型是以一定数量的样本句子作为训练样本,以样本实体的分类标签的概率分布作为标签进行训练确定的,再利用二维CRF(conditionalrandom field algorithm,条件随机场算法)算法对实体在分句结果中的概率分布进行解码,得到实体。
本实施例获取到分句结果的编码向量,然后利用神经网络得到分句结果中的实体,将可视化简历中的文字等对象的真实含义表现出来,使简历解析能力更强。
在上述各实施例的基础上,作为一种可选实施例,将位置关系符合第一预设条件的实体进行组合,获得实体组,将实体组构成实体组合序列作为解析结果,包括:
S601、若任意两个实体的距离不大于第三预设阈值,则确定两个实体的位置关系符合第一预设条件,将两个实体组合为实体组。
将所有的实体进行分组,把任意两个距离不大于预设的第三预设阈值的实体进行组合,并利用语义规则排除一些无实际意义的组合,把这些组合都当成一个实体组,具体情况由实际情况决定,本实施例不作限定。
S602、将实体组作为顶点构成图,利用预设的切分算法进行切分,获得实体组合序列,将实体组合序列作为解析结果。
图6为本申请实施例提供的简历解析方法中实体组合序列的示意图,将实体组分别作为顶点,其中位置相邻的顶点相互连接构成边,这些顶点连接成一个切分图,对边进行切分,切出来的顶点组合就是实体组合序列,可以利用动态规划算法计算多种可能的切分路径,对图进行切,选择最大概率的切分路径,将各个顶点进行切分,即得出实体组构成实体组合序列,最后将实体组合序列作为解析结果输出,算法如下:
P(gi)=Bgi-tanh(w1·Sgi+w2·Fgi+w3·Dgi-C) (2)
其中,P(G)是指将实体组合序列G切分的出的一种序列的概率,P(gi)是指第i个实体组g的正确的组合概率,Bgi是指第i个实体组g对应的基准权重,Sgi是指第i个实体组g对应的浮动权重,Fgi是指第i个实体组g在整个可能的实体组合序列中出现的频率,Dgi是指第i个实体组g的位置密度,是指第i个实体组g中实体l的全局权重值Ws,Wl u是指第i个实体组g中实体l的局部权重值Wu,/>是指实体组中第i+1个第二类块的高度,/>是指实体组中第i个第二类块的高度,C是一个常数,w1、w2、w3分别是指三个是固定的权重数字,n是指实体组g中的实体个数。
P(G)表示某一种切分的序列,即多个实体构成一个小组,不同的实体组构成一个序列,例如:一段工作经历内时间日期、公司、职位等构成一个实体组,多段工作经历构成一个实体组合序列,P(G)等于该序列内每一个实体组的概率P(gi)的和,P(gi)与每个实体租的基准权重、全局权重、局部权重、浮动权重和未知密度的关系如公式(2)所示,其中每个参数的计算方法如公式(3)、(4)、(5)所示。
本实施例根据各个实体之间的关系进行合并为实体组,并将实体组组合为实体组合序列,通过各个实体组组合为实体组合序列的最大概率来确定实体组合序列,保证了解析结果的正确性。
本申请实施例提供了一种简历解析的装置,如图7所示,该装置可以包括:获取模块101、转化模块102以及解析模块103,具体地:
获取模块101,用于获取待解析的可视化简历,确定可视化简历中像素点的编码向量以及对象的位置信息,根据对象对应的像素点的编码向量,获得对象的编码向量;
转化模块102,用于根据对象的位置信息以及编码向量,将对象合并为段落,对段落进行分句,获得分句结果;
解析模块103,用于获取分句结果中的实体,将位置关系符合第一预设条件的实体进行组合,获得实体组,将实体组构成实体组合序列作为解析结果。
本发明实施例提供的简历解析的装置,具体执行上述方法实施例流程,具体请详见上述简历解析的方法实施例的内容,在此不再赘述。本发明实施例提供的简历解析的装置,实现了形式不变性和表述不变性。其中,形式不变性,是通过将对象合并为段落,并对段落进行分析,将对每个可视化简历中的版块进行分析的问题转化为对每个段落进行分析,得出的解析结果不受排版的方式与组织形式影响。而表述不变性,是通过对段落进行分句处理和对分句结果中的实体进行分析和组合,确定出每个版块中每个段落的实体,并对实体与实体之间的关系进行分析使简历解析的结果不受到不同语言、表述形式和表达方式的影响,可以得出可视化简历中所想要表达出的真实含义。
进一步地,获取模块,包括:
第一获取模块,用于确定可视化简历的格式,根据格式调用对应的渲染引擎对可视化简历进行渲染,获得可视化简历中像素点的编码向量以及对象的位置信息。
进一步地,获取模块还包括:
第二获取模块,用于根据对象的位置信息确定述对象对应的像素点;
对于对象的编码向量的任意一个维度,将所有对应的像素点的编码向量在维度的最大值,作为对象的编码向量在维度的值。
进一步地,转化模块,包括:
第一转化模块,用于若任意两个对象处于同一行,且间距小于第一预设阈值,则将两个对象合并为第一类块;
根据第一类块中对象的编码向量和位置信息,获得第一类块的版块信息;
将具有同一版块信息且距离不大于第二预设阈值的第一类块进行合并,获得段落;
根据段落中的对象的位置信息中的纵坐标,若任意两个对象的纵坐标的比值大于第三预设阈值,则将两个对象进行合并,获得第二类块;
对第二类块进行分句处理,得到分句结果。
进一步地,第一转化模块还包括:
第二转化模块,用于确定第一类块中属于字符的对象,将属于字符的对象进行向量表示,作为第一分量;根据第一类块中对象的位置,确定第一类块的位置,对第一类块的位置进行向量表示,作为第二分量;将第一类块中所有对象的编码向量中每个维度的最大值作为第三分量,将第一分量、第二分量和第三分量进行拼接,获得第一类块的编码向量;
将第一类块的编码向量输入至预先训练的第一神经网络,获得第一神经网络模型输出的第一类块在可视化的简历中所属的版块的概率分布;
根据预设算法对概率分布进行解码,确定第一类块在可视化的简历中所属的版块。
进一步地,解析模块,包括:
分句解析模块,用于确定分句结果中属于字符的对象,将属于字符的对象进行向量表示,作为第四分量;根据分句结果中由字符对象构成的句子进行向量表示,作为第五分量;根据分句结果中对象的位置,确定分句结果中句子的位置,对句子的位置进行向量表示,作为第六分量;将分句结果中每个句子的首尾两个对象的编码向量拼接起来,作为第七分量,将第四分量、第五分量、第六分量和第七分量进行拼接,获得分句结果的编码向量;
将分句结果的编码向量输入至预先训练的第二神经网络模型,获得第二神经网络模型输出的实体在分句结果中的概率分布;
根据第二预设算法对概率分布进行解码,确定分句结果中的实体。
进一步地,解析模块还包括:
实体解析模块,用于若任意两个实体的距离不大于第三预设阈值,则将两个实体组合为实体组;
将实体组作为顶点构成图,利用预设的切分算法进行切分,获得实体组合序列,将实体组合序列作为解析结果。
本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:实现了形式不变性和表述不变性。其中,形式不变性,是通过将对象合并为段落,并对段落进行分析,将对每个可视化简历中的版块进行分析的问题转化为对每个段落进行分析,得出的解析结果不受排版的方式与组织形式影响。而表述不变性,是通过对段落进行分句处理和对分句结果中的实体进行分析和组合,确定出每个版块中每个段落的实体,并对实体与实体之间的关系进行分析使简历解析的结果不受到不同语言、表述形式和表达方式的影响,可以得出可视化简历中所想要表达出的真实含义。
在一个可选实施例中提供了一种电子设备,如图8所示,图8所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,实现了形式不变性和表述不变性。其中,形式不变性,是通过将对象合并为段落,并对段落进行分析,将对每个可视化简历中的版块进行分析的问题转化为对每个段落进行分析,得出的解析结果不受排版的方式与组织形式影响。而表述不变性,是通过对段落进行分句处理和对分句结果中的实体进行分析和组合,确定出每个版块中每个段落的实体,并对实体与实体之间的关系进行分析使简历解析的结果不受到不同语言、表述形式和表达方式的影响,可以得出可视化简历中所想要表达出的真实含义。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种简历解析方法,其特征在于,包括:
获取待解析的可视化简历,确定所述可视化简历中像素点的编码向量以及对象的位置信息,根据所述对象对应的像素点的编码向量,获得所述对象的编码向量;
根据所述对象的位置信息以及编码向量,将对象合并为段落,对所述段落进行分句,获得分句结果;
获取所述分句结果中的实体,将距离不大于第三预设阈值的实体组合为实体组,将所述实体组构成实体组合序列作为解析结果;
其中,所述对象包括文字、图片、符号以及框线中的至少一种;所述像素点的编码向量用于表征所述像素点与其他像素点的相似度;所述实体是分句结果中的一类事物的集合;
其中,所述根据所述对象的位置信息以及编码向量,将对象合并为段落,对所述段落进行分句,获得分句结果,包括:
若任意两个对象处于同一行,且间距小于第一预设阈值,则将所述两个对象合并为第一类块;
根据所述第一类块中对象的编码向量和位置信息,获得所述第一类块的版块信息;
将具有同一版块信息且距离不大于第二预设阈值的第一类块进行合并,获得段落;
根据所述段落中的对象的位置信息中的纵坐标,若任意两个对象的纵坐标的比值大于第三预设阈值,则将所述两个对象进行合并,获得第二类块;
对所述第二类块利用预设的方法进行分句处理,得到分句结果,所述预设的方法包括利用数组词典、神经网络表示和语法标识技术中的一种或多种;
所述根据所述第一类块中对象的编码向量和位置信息,获得所述第一类块的版块信息,包括:
确定所述第一类块中属于字符的对象,将所述属于字符的对象进行向量表示,作为第一分量;根据所述第一类块中对象的位置,确定所述第一类块的位置,对所述第一类块的位置进行向量表示,作为第二分量;将所述第一类块中所有对象的编码向量中每个维度的最大值作为第三分量,将所述第一分量、第二分量和第三分量进行拼接,获得所述第一类块的编码向量;
将所述第一类块的编码向量输入至预先训练的第一神经网络模型,获得所述第一神经网络模型输出的所述第一类块在所述可视化的简历中所属的版块的概率分布;
根据第一预设算法对所述概率分布进行解码,确定所述第一类块在所述可视化的简历中所属的版块。
2.根据权利要求1所述的简历解析方法,其特征在于,所述确定所述可视化简历中像素点的编码向量以及对象的位置信息,包括:
确定所述可视化简历的格式,根据所述格式调用对应的渲染引擎对所述可视化简历进行渲染,获得所述可视化简历中像素点的编码向量以及对象的位置信息。
3.根据权利要求1所述的简历解析方法,其特征在于,所述根据所述对象对应的像素点的编码向量,获得所述对象的编码向量,包括:
根据所述对象的位置信息确定所述对象对应的像素点;
对于所述对象的编码向量的任意一个维度,将所有对应的像素点的编码向量在所述维度的最大值,作为所述对象的编码向量在所述维度的值。
4.根据权利要求1所述的简历解析方法,其特征在于,所述获取所述分句结果中的实体,包括:
确定所述分句结果中属于字符的对象,将所述属于字符的对象进行向量表示,作为第四分量;根据所述分句结果中由字符对象构成的句子进行向量表示,作为第五分量;根据所述分句结果中对象的位置,确定所述分句结果中句子的位置,对所述句子的位置进行向量表示,作为第六分量;将所述分句结果中每个句子的首尾两个对象的编码向量拼接起来,作为第七分量,将所述第四分量、第五分量、第六分量和第七分量进行拼接,获得所述分句结果的编码向量;
将所述分句结果的编码向量输入至预先训练的第二神经网络模型,获得所述第二神经网络模型输出的实体在所述分句结果中的概率分布;
根据第二预设算法对所述概率分布进行解码,确定所述分句结果中的实体。
5.根据权利要求1所述的简历解析方法,其特征在于,将距离不大于第三预设阈值的实体组合为实体组,将所述实体组构成实体组合序列作为解析结果,包括:
若任意两个实体的距离不大于第三预设阈值,则将所述两个实体组合为实体组;
将所述实体组作为顶点构成图,利用预设的切分算法进行切分,获得实体组合序列,将所述实体组合序列作为解析结果。
6.一种简历解析的装置,其特征在于,包括:
获取模块,用于获取待解析的可视化简历,确定所述可视化简历中像素点的编码向量以及对象的位置信息,根据所述对象对应的像素点的编码向量,获得所述对象的编码向量;
转化模块,用于根据所述对象的位置信息以及编码向量,将对象合并为段落,对所述段落进行分句,获得分句结果;
解析模块,用于获取所述分句结果中的实体,将位置关系符合第一预设条件的实体进行组合,获得实体组,将所述实体组构成实体组合序列作为解析结果;
其中,所述对象包括文字、图片、符号以及框线中的至少一种;所述像素点的编码向量用于表征所述像素点与其他像素点的相似度,所述实体是分句结果中的一类事物的集合;
其中,所述转化模块具体用于:
若任意两个对象处于同一行,且间距小于第一预设阈值,则将所述两个对象合并为第一类块;
根据所述第一类块中对象的编码向量和位置信息,获得所述第一类块的版块信息;
将具有同一版块信息且距离不大于第二预设阈值的第一类块进行合并,获得段落;
根据所述段落中的对象的位置信息中的纵坐标,若任意两个对象的纵坐标的比值大于第三预设阈值,则将所述两个对象进行合并,获得第二类块;
对所述第二类块利用预设的方法进行分句处理,得到分句结果,所述预设的方法包括利用数组词典、神经网络表示和语法标识技术中的一种或多种;
转化模块根据所述第一类块中对象的编码向量和位置信息,获得所述第一类块的版块信息,包括:
确定所述第一类块中属于字符的对象,将所述属于字符的对象进行向量表示,作为第一分量;根据所述第一类块中对象的位置,确定所述第一类块的位置,对所述第一类块的位置进行向量表示,作为第二分量;将所述第一类块中所有对象的编码向量中每个维度的最大值作为第三分量,将所述第一分量、第二分量和第三分量进行拼接,获得所述第一类块的编码向量;
将所述第一类块的编码向量输入至预先训练的第一神经网络模型,获得所述第一神经网络模型输出的所述第一类块在所述可视化的简历中所属的版块的概率分布;
根据第一预设算法对所述概率分布进行解码,确定所述第一类块在所述可视化的简历中所属的版块。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述简历解析方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5中任意一项所述的简历解析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011120377.2A CN112269872B (zh) | 2020-10-19 | 2020-10-19 | 简历解析方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011120377.2A CN112269872B (zh) | 2020-10-19 | 2020-10-19 | 简历解析方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269872A CN112269872A (zh) | 2021-01-26 |
CN112269872B true CN112269872B (zh) | 2023-12-19 |
Family
ID=74338938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011120377.2A Active CN112269872B (zh) | 2020-10-19 | 2020-10-19 | 简历解析方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269872B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926684B (zh) * | 2021-03-29 | 2022-11-29 | 中国科学院合肥物质科学研究院 | 一种基于半监督学习的文字识别方法 |
CN114116935B (zh) * | 2021-11-17 | 2023-03-17 | 北京中知智慧科技有限公司 | 地理标志的检索方法及系统 |
CN114663896B (zh) * | 2022-05-17 | 2022-08-23 | 深圳前海环融联易信息科技服务有限公司 | 基于图像处理的文档信息抽取方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN109661664A (zh) * | 2017-06-22 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及相关装置 |
CN110377885A (zh) * | 2019-06-14 | 2019-10-25 | 北京百度网讯科技有限公司 | 转换pdf文件的方法、装置、设备和计算机存储介质 |
CN110442744A (zh) * | 2019-08-09 | 2019-11-12 | 泰康保险集团股份有限公司 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
CN110674260A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 语义相似模型的训练方法、装置、电子设备和存储介质 |
CN111428480A (zh) * | 2020-03-06 | 2020-07-17 | 广州视源电子科技股份有限公司 | 简历识别方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054810B2 (en) * | 2000-10-06 | 2006-05-30 | International Business Machines Corporation | Feature vector-based apparatus and method for robust pattern recognition |
US10956677B2 (en) * | 2018-02-05 | 2021-03-23 | International Business Machines Corporation | Statistical preparation of data using semantic clustering |
-
2020
- 2020-10-19 CN CN202011120377.2A patent/CN112269872B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109661664A (zh) * | 2017-06-22 | 2019-04-19 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及相关装置 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN110377885A (zh) * | 2019-06-14 | 2019-10-25 | 北京百度网讯科技有限公司 | 转换pdf文件的方法、装置、设备和计算机存储介质 |
CN110442744A (zh) * | 2019-08-09 | 2019-11-12 | 泰康保险集团股份有限公司 | 提取图像中目标信息的方法、装置、电子设备及可读介质 |
CN110674260A (zh) * | 2019-09-27 | 2020-01-10 | 北京百度网讯科技有限公司 | 语义相似模型的训练方法、装置、电子设备和存储介质 |
CN111428480A (zh) * | 2020-03-06 | 2020-07-17 | 广州视源电子科技股份有限公司 | 简历识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112269872A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112269872B (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
AU2018247340B2 (en) | Dvqa: understanding data visualizations through question answering | |
EP3570208A1 (en) | Two-dimensional document processing | |
US11580763B2 (en) | Representative document hierarchy generation | |
CN111324696B (zh) | 实体抽取方法、实体抽取模型的训练方法、装置及设备 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
US20120054601A1 (en) | Methods and systems for automated creation, recognition and display of icons | |
EP3975139A1 (en) | Querying semantic data from unstructured documents | |
CN114722069A (zh) | 语言转换方法和装置、电子设备及存储介质 | |
CN111651552A (zh) | 结构化信息确定方法、装置和电子设备 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN116186237A (zh) | 一种基于事件因果推断的实体关系的联合抽取方法 | |
Thammarak et al. | Automated data digitization system for vehicle registration certificates using google cloud vision API | |
US20230023636A1 (en) | Methods and systems for preparing unstructured data for statistical analysis using electronic characters | |
CN115481599A (zh) | 文档的处理方法、装置、电子设备和存储介质 | |
CN115203415A (zh) | 一种简历文档信息提取方法及相关装置 | |
CN112100336A (zh) | 一种档案的保存时间鉴定方法、装置及存储介质 | |
Alzuru et al. | Cooperative human-machine data extraction from biological collections | |
CN117494688B (zh) | 表单信息抽取方法、装置、设备及存储介质 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN116502625B (zh) | 一种简历解析方法和系统 | |
CN117095422B (zh) | 文档信息解析方法、装置、计算机设备、存储介质 | |
Ubewikkrama | Automatic invoice Data identification with relations | |
CN117610549A (zh) | 文档处理、内容生成方法、装置及电子设备 | |
CN118013943A (zh) | 一种简历的解译方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |