CN110390324A - 一种融合视觉与文本特征的简历版面分析算法 - Google Patents

一种融合视觉与文本特征的简历版面分析算法 Download PDF

Info

Publication number
CN110390324A
CN110390324A CN201910685047.9A CN201910685047A CN110390324A CN 110390324 A CN110390324 A CN 110390324A CN 201910685047 A CN201910685047 A CN 201910685047A CN 110390324 A CN110390324 A CN 110390324A
Authority
CN
China
Prior art keywords
text
resume
row
feature
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910685047.9A
Other languages
English (en)
Inventor
丁伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Lairen Technology Co Ltd
Original Assignee
Suzhou Lairen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Lairen Technology Co Ltd filed Critical Suzhou Lairen Technology Co Ltd
Priority to CN201910685047.9A priority Critical patent/CN110390324A/zh
Publication of CN110390324A publication Critical patent/CN110390324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:步骤1:从pdf读取程序或ocr引擎中得到文本行及其坐标;步骤2:使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);步骤3:提取对应行的图像,得到图像嵌入向量img_emb(i);步骤4:提取字号、文字长度特征,并进行归一化得到特征向量;步骤5:聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);步骤6:使用神经网络对行向量序列[line_emb(i)]进行序列标注。本发明通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元。

Description

一种融合视觉与文本特征的简历版面分析算法
技术领域
本发明涉及简历解析领域,尤其涉及一种融合视觉与文本特征的简历版面分析算法。
背景技术
传统的基于视觉的版面分析能区分图片、表格、段落等版面区域,但是很难识别区域的语义信息。在简历解析领域,需要对简历做语义解析,一般主要使用文字作为版面识别的主要依据,例如CN201810489651.X,将简历转化成文本之后,对文本进行建模处理,丢失了视觉特征,不能利用一些明显的视觉特点,比如分割线,字号大小,空白区域大小等等。
也有一些方法通过规则提取简单的视觉特征。例如CN201811613437.7,通过提取字号、是否加粗、字体种类、行文本长度等视觉特征,简历一个区分标题和主体的分类器。该方法没有考虑文本内容,使用字体等简单视觉特征,先区分标题和主体,将简历分块之后,对每块进一步进行处理。无法直接识别简历中不同段落单元的语义类别。
发明内容
本发明的目的在于克服现有技术存在的以上问题,提供一种融合视觉与文本特征的简历版面分析算法,本发明通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:
步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;
步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);
步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;
步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。
作为优选,所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。
作为优选,所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer等等。
作为优选,所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。
作为优选,所述步骤3中的图像在提取时先对图像进行预处理,得到文字块的掩码图像特征,作为其中一个通道;所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取:其中:
图片级:以整个图片作为单位,提取特征,根据坐标映射提取当前行对应的特征;
窗口级:以当前行为中心,截取一个窗口大小的图像,提取特征;
行级:截取当前行的图片,提取特征。
作为优选,所述步骤4中的归一化是指对简历中的文字、字号做归一化处理;其中,字号可以使用排序归一化;字体,可以使用计数编码。采用此技术方案,由于不同简历使用的字体字号都不相同,需要先对特征进行归一化预处理。
作为优选,所述步骤5中的聚合包括但不限于拼接、平均、最大化池化等等。
作为优选,所述步骤5中得到的向量具有多维度的特征,可以更准确的预测语义类别和段落单元的边界。
作为优选,所述步骤6中的序列标注使用CNN或Transformer融合上下行信息,得到一个行向量可以选择再接一个CRF,输出序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。本发明的有益效果是:
1.本发明通过结合简历的视觉特征和文本语义特征,对简历进行语义划分,识别独立的段落单元;
2.本发明通过结合视觉与文本特征,更准确的识别语义和边界;
3.本发明通过将简历的语义识别和段落单元识别合并成一个步骤,减少分步处理中每步的累积错误。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明涉及的整体流程结构示意图。
具体实施方式
下面结合附图对本发明作进一步的描述:
参照图1所示,一种融合视觉与文本特征的简历版面分析算法,该简历版面的分析包括以下步骤:
步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;
步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);
步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;
步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。
作为优选,所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。
作为优选,所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer等等。
作为优选,所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。
作为优选,所述步骤3中的图像在提取时先对图像进行预处理,得到文字块的掩码图像特征,作为其中一个通道;所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取:其中:
图片级:以整个图片作为单位,提取特征,根据坐标映射提取当前行对应的特征;
窗口级:以当前行为中心,截取一个窗口大小的图像,提取特征;
行级:截取当前行的图片,提取特征。
作为优选,所述步骤4中的归一化是指对简历中的文字、字号做归一化处理;其中,字号可以使用排序归一化;字体,可以使用计数编码。采用此技术方案,由于不同简历使用的字体字号都不相同,需要先对特征进行归一化预处理。
作为优选,所述步骤5中的聚合包括但不限于拼接、平均、最大化池化等等。
作为优选,所述步骤5中得到的向量具有多维度的特征,可以更准确的预测语义类别和段落单元的边界。
作为优选,所述步骤6中的序列标注使用CNN或Transformer融合上下行信息,得到一个行向量可以选择再接一个CRF,输出序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。
具体实施例
在实际使用时,先通过pdf读取程序或ocr引擎获得简历中的文本行及其坐标;再通过神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);通过提取对应行的图像,得到图像嵌入向量img_emb(i);然后,提取字号、文字长度等特征,并进行归一化处理,得到特征向量;再聚合文本嵌入向量、图像嵌入向量和特征向量,得得到行嵌入向量line_emb(i);最后,再使用神经网络对行向量序列[line_emb(i)]进行序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种融合视觉与文本特征的简历版面分析算法,其特征在于:该简历版面的分析包括以下步骤:
步骤1):从pdf读取程序或ocr引擎中得到文本行及其坐标;
步骤2):使用神经网络对第i行的文本进行编码,得到文本嵌入向量text_emb(i);
步骤3):提取对应行的图像,得到图像嵌入向量img_emb(i);
步骤4):提取字号、文字长度特征,并进行归一化得到特征向量;
步骤5):聚合步骤2、3、4得到的向量,得到行嵌入line_emb(i);
步骤6):使用神经网络对行向量序列[line_emb(i)]进行序列标注。
2.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤1中的pdf读取程序或ocr引擎通过简历版面得到的文本行及其坐标。
3.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码前先对文本进行预处理,可以使用字符级处理或者词语级处理,然后再使用序列编码的神经网络;包括但不局限于LSTM、CNN和Transformer。
4.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤2中的文本进行编码时进一步得到文本特征,用于识别该行的语义类别。
5.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤3中的图像在提取时先对图像进行预处理,得到文字块的掩码图像特征,作为其中一个通道;所述图像嵌入向量采用CNN进行图片级、窗口级和/或行级提取:其中:
图片级:以整个图片作为单位,提取特征,根据坐标映射提取当前行对应的特征;
窗口级:以当前行为中心,截取一个窗口大小的图像,提取特征;
行级:截取当前行的图片,提取特征。
6.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤4中的归一化是指对简历中的文字、字号做归一化处理;其中,字号可以使用排序归一化;字体,可以使用计数编码。
7.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤5中的聚合包括但不限于拼接、平均、最大化池化。
8.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤5中得到的向量具有多维度的特征,可以更准确的预测语义类别和段落单元的边界。
9.根据权利要求1所述的一种融合视觉与文本特征的简历版面分析算法,其特征在于:所述步骤6中的序列标注使用CNN或Transformer融合上下行信息,得到一个行向量可以选择再接一个CRF,输出序列标注,得到每一行的语义标注,进而得到每个语义段落单元的起止行号。
CN201910685047.9A 2019-07-27 2019-07-27 一种融合视觉与文本特征的简历版面分析算法 Pending CN110390324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910685047.9A CN110390324A (zh) 2019-07-27 2019-07-27 一种融合视觉与文本特征的简历版面分析算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910685047.9A CN110390324A (zh) 2019-07-27 2019-07-27 一种融合视觉与文本特征的简历版面分析算法

Publications (1)

Publication Number Publication Date
CN110390324A true CN110390324A (zh) 2019-10-29

Family

ID=68287521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910685047.9A Pending CN110390324A (zh) 2019-07-27 2019-07-27 一种融合视觉与文本特征的简历版面分析算法

Country Status (1)

Country Link
CN (1) CN110390324A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN112434568A (zh) * 2020-11-06 2021-03-02 北京完美知识科技有限公司 一种画作识别方法、装置、存储介质及计算设备
CN112597878A (zh) * 2020-12-21 2021-04-02 安徽七天教育科技有限公司 一种扫描试卷版面分析的样本制作及识别方法
WO2021135816A1 (zh) * 2019-12-30 2021-07-08 华为技术有限公司 识别图像中文本的方法、装置和系统
CN113139378A (zh) * 2021-03-18 2021-07-20 杭州电子科技大学 一种基于视觉嵌入和条件归一化的图像描述方法
CN113837190A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于Transformer的端到端实例分割方法
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN105654135A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的图像文字序列识别系统
CN106156711A (zh) * 2015-04-21 2016-11-23 华中科技大学 文本行的定位方法及装置
WO2017163230A1 (en) * 2016-03-24 2017-09-28 Ramot At Tel-Aviv University Ltd. Method and system for converting an image to text
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108595396A (zh) * 2018-03-28 2018-09-28 福建榕基软件工程有限公司 一种简历的自动生成方法及终端
CN108664474A (zh) * 2018-05-21 2018-10-16 众安信息技术服务有限公司 一种基于深度学习的简历解析方法
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN106156711A (zh) * 2015-04-21 2016-11-23 华中科技大学 文本行的定位方法及装置
CN105654135A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的图像文字序列识别系统
WO2017163230A1 (en) * 2016-03-24 2017-09-28 Ramot At Tel-Aviv University Ltd. Method and system for converting an image to text
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
US20180336183A1 (en) * 2017-05-22 2018-11-22 International Business Machines Corporation Deep Embedding for Natural Language Content Based on Semantic Dependencies
CN107391609A (zh) * 2017-07-01 2017-11-24 南京理工大学 一种双向多模态递归网络的图像描述方法
CN108595396A (zh) * 2018-03-28 2018-09-28 福建榕基软件工程有限公司 一种简历的自动生成方法及终端
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN108664474A (zh) * 2018-05-21 2018-10-16 众安信息技术服务有限公司 一种基于深度学习的简历解析方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109840287A (zh) * 2019-01-31 2019-06-04 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135816A1 (zh) * 2019-12-30 2021-07-08 华为技术有限公司 识别图像中文本的方法、装置和系统
CN113128494A (zh) * 2019-12-30 2021-07-16 华为技术有限公司 识别图像中文本的方法、装置和系统
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN111737969B (zh) * 2020-07-27 2020-12-08 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN112434568A (zh) * 2020-11-06 2021-03-02 北京完美知识科技有限公司 一种画作识别方法、装置、存储介质及计算设备
CN112597878A (zh) * 2020-12-21 2021-04-02 安徽七天教育科技有限公司 一种扫描试卷版面分析的样本制作及识别方法
CN113139378A (zh) * 2021-03-18 2021-07-20 杭州电子科技大学 一种基于视觉嵌入和条件归一化的图像描述方法
CN113139378B (zh) * 2021-03-18 2022-02-18 杭州电子科技大学 一种基于视觉嵌入和条件归一化的图像描述方法
CN113837190A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于Transformer的端到端实例分割方法
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统

Similar Documents

Publication Publication Date Title
CN110390324A (zh) 一种融合视觉与文本特征的简历版面分析算法
CN109308476B (zh) 票据信息处理方法、系统及计算机可读存储介质
US20180322339A1 (en) Page segmentation of vector graphics documents
CN108845993B (zh) 文本信息的翻译方法、装置及终端设备
CN108717406A (zh) 文本情绪分析方法、装置及存储介质
CN109670494B (zh) 一种附带识别置信度的文本检测方法及系统
Kacem et al. Automatic extraction of printed mathematical formulas using fuzzy logic and propagation of context
EP3933636A1 (en) Webpage tampering detection method and related apparatus
CN109284758A (zh) 一种发票印章消除方法、装置和计算机存储介质
CN107729865A (zh) 一种手写体数学公式离线识别方法及系统
CN110110327A (zh) 一种基于对抗学习的文本标注方法和设备
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN108664474A (zh) 一种基于深度学习的简历解析方法
CN103049750A (zh) 字符识别方法
CN102194117A (zh) 文稿页面方向检测方法和装置
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN115100670A (zh) 保单信息处理方法及其系统、电子设备、存储介质
CN104516874A (zh) 一种对名词短语进行依存句法分析的方法及系统
CN114821612B (zh) 一种证券期货场景下pdf文档的信息抽取方法和系统
CN105389303B (zh) 一种异源语料自动融合方法
CN116740723A (zh) 一种基于开源Paddle框架的PDF文档识别方法
CN104331400B (zh) 一种蒙古文编码转换方法和装置
CN114528840A (zh) 融合上下文信息的中文实体识别方法、终端及存储介质
Kang et al. Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism
CN109902299B (zh) 一种文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191029

WD01 Invention patent application deemed withdrawn after publication