CN113743052A - 一种融合多模态的简历版面分析方法及装置 - Google Patents
一种融合多模态的简历版面分析方法及装置 Download PDFInfo
- Publication number
- CN113743052A CN113743052A CN202110941435.6A CN202110941435A CN113743052A CN 113743052 A CN113743052 A CN 113743052A CN 202110941435 A CN202110941435 A CN 202110941435A CN 113743052 A CN113743052 A CN 113743052A
- Authority
- CN
- China
- Prior art keywords
- text
- resume
- information
- matrix
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 15
- 238000000034 method Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 4
- 238000013136 deep learning model Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合多模态的简历版面分析方法及装置,所述方法包括:以简历图片为数据源,对简历图片里的文本行区域进行抽取获得文本位置信息,对文本区域中文本内容进行识别获得文本自然语言信息,输入文本自然语言信息生成文本内容编码,输入文本位置信息生成文本的位置编码,通过注意力机制分别计算文本与文本间注意力矩阵以及文本与相对位置间注意力矩阵,根据注意力矩阵生成结果矩阵,获得结构化简历。本发明以相对位置注意力编码为核心设计融合自然语言信息与位置信息的深度学习模型,综合考虑自然语言信息与其对应的位置信息,具有简历全文的感受野,可以有效使用到上下文信息,算法精度得到有效保障。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种融合多模态的简历版面分析方法及装置。
背景技术
简历的版面分析指通过一些手段对简历内容进行结构化,如常规的简历一般包含基本信息、求职意向、教育经历、工作经历、项目经历等多个版面内容,先需要将一张简历图片或pdf文档中文字内容自动化的“填入”对应版面,进而为人力资源的管理与匹配提供基础。
当前业界实现该技术主要存在两种方案,一种以自然语言数据为基础,设计大量复杂的文本解析规则,最终实现抽取对应版面信息的目的,这种方案需要根据不同的简历内容人工设计大量规则,较为费事费力。同时,简历形式多样,每个求职者都可能有自己的简历模板,也很难认为设计出覆盖全量简历的规则。另外一种方法是使用自然语言分析算法对简历内容进行解析,通常使用自然语言深度分类算法对简历中的自然语言信息进行分类。这种方法较之前述方法更为智能,无需人工设计大量规则,可以根据简历本身的结构自动训练建模。但其也存在一些缺陷。首先,该方法强依赖于自然语言信息的准确性,由于大多数简历以word、pdf文件形式存储,将其文本内容准确抽取需要依赖成熟的文本解析工具,否则抽取出的文本经常出现乱序、重复、缺少的情况,这无疑会增加项目开发成本。其次算法仅仅依赖与自然语言信息,但同样一段文本如“我在XX工作很认真”,可以将其归为自我评价,也可以将其归为工作经历或项目经历,要想更准确的将其细致划分,需要进一步引入该文本在简历中的位置信息与上下文信息。
发明内容
发明目的:本发明着重解决简历自然语言数据质量不高;算法模型数据形式单一,模型拟合难度高,准确度较难上升的问题。
技术方案:一种融合多模态的简历版面分析方法,包括以下步骤:
(1)以简历图片为数据源,使用craft算法对简历图片里的文本行区域进行抽取,生成文本框,获取简历图片的文本位置信息;
(2)以简历图片为数据源,使用crnn算法对简历图片中的文本内容进行识别,获得文本自然语言信息;
(3)将文本自然语言信息作为输入,使用albert语言模型对自然语言信息进行编码,获得文本内容编码;
(4)将文本位置信息作为输入,使用正弦位置编码生成文本的位置编码;
(5)使用注意力机制融合文本内容编码和文本位置编码,设定简历内容的类别,对每个文本框进行分类,判断文本框的行关系,将应该属于一行的零碎文本框归纳为一行,使用注意力机制对文本行关系结果与文本框类别进行解码,输出文本行所属的类别,获得结构化简历。
所述文本框为craft算法根据文字位置信息和文字间关联度信息,生成文字轮廓对应的正外接矩形。
所述步骤(4)具体为,使用正弦位置编码构建位置编码字典,将0至p,一共p个位置都转为i维的向量,生成文本框的绝对位置编码,再使用softsign函数计算文本框之间的相对位置,生成文本框之间的相对位置编码。
所述softsign函数为:
其中x为两个文本框的相差距离。
所述p为正整数,根据简历版面内容信息量大小预设,i=312。
所述步骤(5)具体为:
(5.1)将文本内容编码与文本绝对位置信息融合,方法为:arr1=txt+abs,其中txt为文本内容编码矩阵,abs为文本绝对位置信息矩阵,arr1为过程矩阵;
(5.2)进一步融合相对位置信息矩阵,方法为:arr2=arr1*posT,其中pos为文本间相对位置信息矩阵,arr2为注意力矩阵;
(5.3)注意力矩阵通过线性变换生成out1和out2,out1用来判断当前文本框所属的类别,out2用来判断文本框之间是否属于同一行;
(5.4)将一行中的文本框,从左至右排列,根据文本框所属类别的众数输出该行所属的类别,输出结构化简历。
所述简历内容的类别包括,基本信息、工作经历、教育经历、培训经历、项目经历等与简历相关的文本类别。
一种融合多模态的简历版面分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的融合多模态的简历版面分析方法。
有益效果:与现有技术相比,本发明具有如下显著优点:
算法模型上有优势。模型输入是文本框的内容与文本框的位置,输出是文本框间是否属于同一行以及每个文本框的类别。模型融合了多个输入,是一个多任务学习模型,其具有多模态融合的特性,提高了模型工作效率。
算法步骤上有优势。常见简历处理项目,将简历pdf,word进行txt提取,均仅针对自然语言进行处理,不解释简历文本的来源,而且通常容易出现文字乱序、乱码的情况,需要大量的工作处理文字异常。同时,在将简历pdf,word进行txt提取的过程中丢弃了文本在简历中的细节位置信息,这些信息本身也是有用的。本专利的采用ocr获取文本及其位置的处理流程,可以极大的节省项目开发成本,缩减其开发的复杂度。引入ocr中文本检测与文本识别技术作为获取高精度自然语言信息手段,构建融合自然语言信息与位置信息的深度网络模型,模型中蕴含albert自然语言编码、正弦相对位置编码、注意力机制,实现多模态信息的融合。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
实施例1:
如图1所示,一种融合多模态的简历版面分析方法,包括以下步骤:
(1)以简历图片为数据源,使用craft算法对简历图片里的文本行区域进行抽取,生成文本框,获取简历图片的文本位置信息;
(2)以简历图片为数据源,使用crnn算法对简历图片中的文本内容进行识别,获得文本自然语言信息;
(3)将文本自然语言信息作为输入,使用albert语言模型对自然语言信息进行编码,获得文本内容编码;
(4)将文本位置信息作为输入,使用正弦位置编码生成文本的位置编码;
(5)使用注意力机制融合文本内容编码和文本位置编码,设定简历内容的类别,对每个文本框进行分类,判断文本框的行关系,将应该属于一行的零碎文本框归纳为一行,使用注意力机制对文本行关系结果与文本框类别进行解码,输出文本行所属的类别,获得结构化简历。
所述文本框为craft算法根据文字位置信息和文字间关联度信息,生成文字轮廓对应的正外接矩形。
所述步骤(4)具体为,使用正弦位置编码构建位置编码字典,将0至p,一共p个位置都转为i维的向量,生成文本框的绝对位置编码,再使用softsign函数计算文本框之间的相对位置,生成文本框之间的相对位置编码。
所述softsign函数为:
其中x为两个文本框的相差距离。
所述p为正整数,根据简历版面内容信息量大小预设,i=312。
为方便理解,现对步骤(4)生成文本的位置编码过程举例说明:
假设第一个文本框A位置为1,第二个文本框B位置为3,p=1000;
使用正弦位置编码构建位置编码字典,将0-1000这1000个位置都变成312维的向量,将1转化为一个312维的向量,将3也转化为一个312维向量,一共有1000个312维向量;
查询文本框的绝对位置,文本框A位置是1对应绝对位置编码字典的第1个向量,文本框B对应绝对位置编码字典的第3个向量;
查询文本框间相对位置,A与B相差距离为2,将相对距离进行softsign函数处理,由于softsigh函数极限是1000,所以任意距离都可以被压缩到1000之内,通过softsign函数对相对位置进行处理后,2变成2.02,向下取整又变成2,该数值查表获得文本框之间相对位置编码。
所述步骤(5)具体为:
(5.1)将文本内容编码与文本绝对位置信息融合,方法为:arr1=txt+abs,其中txt为文本内容编码矩阵,abs为文本绝对位置信息矩阵,arr1为过程矩阵;
(5.2)进一步融合相对位置信息矩阵,方法为:arr2=arr1*posT,其中pos为文本间相对位置信息矩阵,arr2为注意力矩阵;
(5.3)注意力矩阵通过线性变换生成out1和out2,out1用来判断当前文本框所属的类别,out2用来判断文本框之间是否属于同一行;
(5.4)将一行中的文本框,从左至右排列,根据文本框所属类别的众数输出该行所属的类别,输出结构化简历。
所述简历内容的类别包括,基本信息、工作经历、教育经历、培训经历、项目经历等与简历相关的文本类别。
实施例2:
一种融合多模态的简历版面分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的融合多模态的简历版面分析方法。
Claims (8)
1.一种融合多模态的简历版面分析方法,其特征在于,包括以下步骤:
(1)以简历图片为数据源,使用craft算法对简历图片里的文本行区域进行抽取,生成文本框,获取简历图片的文本位置信息;
(2)以简历图片为数据源,使用crnn算法对简历图片中的文本内容进行识别,获得文本自然语言信息;
(3)将文本自然语言信息作为输入,使用albert语言模型对自然语言信息进行编码,获得文本内容编码;
(4)将文本位置信息作为输入,使用正弦位置编码生成文本的位置编码;
(5)使用注意力机制融合文本内容编码和文本位置编码,设定简历内容的类别,对每个文本框进行分类,判断文本框的行关系,将应该属于一行的零碎文本框归纳为一行,使用注意力机制对文本行关系结果与文本框类别进行解码,输出文本行所属的类别,获得结构化简历。
2.根据权利要求1所述的一种融合多模态的简历版面分析方法,其特征在于,所述文本框为craft算法根据文字位置信息和文字间关联度信息,生成文字轮廓对应的正外接矩形。
3.根据权利要求1所述的一种融合多模态的简历版面分析方法,其特征在于,所述步骤(4)具体为,使用正弦位置编码构建位置编码字典,将0至p,一共p个位置都转为i维的向量,生成文本框的绝对位置编码,再使用softsign函数计算文本框之间的相对位置,生成文本框之间的相对位置编码。
5.根据权利要求3所述的一种融合多模态的简历版面分析方法,其特征在于,所述p为正整数,根据简历版面内容信息量大小预设,i=312。
6.根据权利要求1所述的一种融合多模态的简历版面分析方法,其特征在于,所述步骤(5)具体为:
(5.1)将文本内容编码与文本绝对位置信息融合,方法为:arr1=txt+abs,其中txt为文本内容编码矩阵,abs为文本绝对位置信息矩阵,arr1为过程矩阵;
(5.2)进一步融合相对位置信息矩阵,方法为:arr2=arr1*posT,其中pos为文本间相对位置信息矩阵,arr2为注意力矩阵;
(5.3)注意力矩阵通过线性变换生成out1和out2,out1用来判断当前文本框所属的类别,out2用来判断文本框之间是否属于同一行;
(5.4)将一行中的文本框,从左至右排列,根据文本框所属类别的众数输出该行所属的类别,输出结构化简历。
7.根据权利要求1所述的一种融合多模态的简历版面分析方法,其特征在于,所述简历内容的类别包括,基本信息、工作经历、教育经历、培训经历、项目经历等与简历相关的文本类别。
8.一种融合多模态的简历版面分析装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的融合多模态的简历版面分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941435.6A CN113743052B (zh) | 2021-08-17 | 2021-08-17 | 一种融合多模态的简历版面分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110941435.6A CN113743052B (zh) | 2021-08-17 | 2021-08-17 | 一种融合多模态的简历版面分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743052A true CN113743052A (zh) | 2021-12-03 |
CN113743052B CN113743052B (zh) | 2024-06-14 |
Family
ID=78731458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110941435.6A Active CN113743052B (zh) | 2021-08-17 | 2021-08-17 | 一种融合多模态的简历版面分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743052B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502625A (zh) * | 2023-06-28 | 2023-07-28 | 浙江同花顺智能科技有限公司 | 一种简历解析方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN111401312A (zh) * | 2020-04-10 | 2020-07-10 | 深圳新致软件有限公司 | Pdf图纸文字识别方法、系统以及设备 |
CN112464927A (zh) * | 2020-11-25 | 2021-03-09 | 苏宁金融科技(南京)有限公司 | 一种信息提取方法、装置及系统 |
CN112580738A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 基于改进的AttentionOCR文本识别方法及装置 |
CN112733639A (zh) * | 2020-12-28 | 2021-04-30 | 贝壳技术有限公司 | 文本信息结构化提取方法及装置 |
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113221735A (zh) * | 2021-05-11 | 2021-08-06 | 润联软件系统(深圳)有限公司 | 基于多模态的扫描件段落结构还原方法、装置及相关设备 |
-
2021
- 2021-08-17 CN CN202110941435.6A patent/CN113743052B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
CN111401312A (zh) * | 2020-04-10 | 2020-07-10 | 深圳新致软件有限公司 | Pdf图纸文字识别方法、系统以及设备 |
CN112464927A (zh) * | 2020-11-25 | 2021-03-09 | 苏宁金融科技(南京)有限公司 | 一种信息提取方法、装置及系统 |
CN112580738A (zh) * | 2020-12-25 | 2021-03-30 | 特赞(上海)信息科技有限公司 | 基于改进的AttentionOCR文本识别方法及装置 |
CN112733639A (zh) * | 2020-12-28 | 2021-04-30 | 贝壳技术有限公司 | 文本信息结构化提取方法及装置 |
CN113033534A (zh) * | 2021-03-10 | 2021-06-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113221735A (zh) * | 2021-05-11 | 2021-08-06 | 润联软件系统(深圳)有限公司 | 基于多模态的扫描件段落结构还原方法、装置及相关设备 |
Non-Patent Citations (1)
Title |
---|
WANG XIAOHUI: "A Method of Text Detection and Recognition from Receipt Images Based on CRAFT and CRNN", 2020 4TH INTERNATIONAL CONFERENCE ON MACHINE VISION AND INFORMATION TECHNOLOGY (CMVIT 2020) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502625A (zh) * | 2023-06-28 | 2023-07-28 | 浙江同花顺智能科技有限公司 | 一种简历解析方法和系统 |
CN116502625B (zh) * | 2023-06-28 | 2023-09-15 | 浙江同花顺智能科技有限公司 | 一种简历解析方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113743052B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN106598959B (zh) | 一种确定双语语句对互译关系方法及系统 | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN110688863B (zh) | 一种文档翻译系统及文档翻译方法 | |
CN112632226A (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
CN116991875B (zh) | 一种基于大模型的sql语句生成、别名映射方法及设备 | |
CN111274371A (zh) | 一种基于知识图谱的智能人机对话方法及设备 | |
CN112269872A (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
CN112101003A (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN113743052A (zh) | 一种融合多模态的简历版面分析方法及装置 | |
CN114239579A (zh) | 基于正则表达式和crf模型的电力可研文档提取方法及装置 | |
CN110688411A (zh) | 一种文本识别方法及装置 | |
US10803044B1 (en) | Technical data flexibility index | |
CN111523301B (zh) | 合同文档合规性检查方法及装置 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN115408506A (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 | |
CN114118098A (zh) | 基于要素抽取的合同评审方法、设备及存储介质 | |
CN112364666A (zh) | 文本表征方法、装置及计算机设备 | |
CN116992874B (zh) | 一种文本引用审核溯源方法、系统、装置和存储介质 | |
O’Brien et al. | Optical character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |