CN113688872A - 一种基于多模态融合的文档版面分类方法 - Google Patents

一种基于多模态融合的文档版面分类方法 Download PDF

Info

Publication number
CN113688872A
CN113688872A CN202110854557.1A CN202110854557A CN113688872A CN 113688872 A CN113688872 A CN 113688872A CN 202110854557 A CN202110854557 A CN 202110854557A CN 113688872 A CN113688872 A CN 113688872A
Authority
CN
China
Prior art keywords
information
text
detection
frame
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110854557.1A
Other languages
English (en)
Inventor
陶提
许诺
高翔
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Suzhou Co ltd
Original Assignee
Daguan Data Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daguan Data Suzhou Co ltd filed Critical Daguan Data Suzhou Co ltd
Priority to CN202110854557.1A priority Critical patent/CN113688872A/zh
Publication of CN113688872A publication Critical patent/CN113688872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态融合的文档版面分类方法,其特征在于,针对目标文档,包括:检测目标文档,获取待分类的检测框;获取检测框的文本信息、框坐标信息和图像特征;采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。本发明通过将文本、位置和图像信息的多模态融合,提升了文档版面分类的准确率。

Description

一种基于多模态融合的文档版面分类方法
技术领域
本发明属于深度学习领域,具体涉及一种基于多模态融合的文档版面分类方法。
背景技术
分析抽取文档中的信息需要用到文档的版面信息,版面信息一般包括几类:页眉、页脚、标题、段落、目录、表格和图像。
文档一般分为电子文档和图像文档,电子文档可以通过解析获取文档中字符信息,包括文本和位置信息,但无法直接获取文档的版面信息。图像文档中的文本和位置信息不能直接获取,需要通过OCR(Optical Character Recognition)技术获取。
电子文档的版面信息可根据解析获得的文本和位置信息来制定规则划分。但由于文档类型多变,特别对于双栏文档,规则比较复杂且不能完全覆盖所有情况。图像文档和电子文档转为图像的文档可以用目标检测的方法来定位及分类版面信息。目标检测对表格,图像和目录可以根据图像特征进行较好的分类,而对于其它类别不仅要考虑图像信息,还要涉及到文本和位置信息,用目标检测方法仅考虑图像信息会降低分类的准确率。
对文档中的版面进行分类目前可以用目标检测的方法,但是会存在以下问题:
1、对于页眉页脚目标检测方法不能很好的提取到位置特征,页眉页脚的图像特征与部分段落的图像特征相似,仅根据图像特征不易区分;
2、段落和标题会存在图像特征相似的情况,需要依靠文本才能更好地区分。
发明内容
针对现有技术中存在的问题,本发明提供一种基于多模态融合的文档版面分类方法。
为实现上述目的,本发明采用以下技术方案:
一种基于多模态融合的文档版面分类方法,针对目标文档,所述分类方法包括:检测目标文档,获取待分类的检测框;获取检测框的文本信息、框坐标信息和图像特征;采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
优选地,所述目标文档是图像类型的;获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术(OCR技术)获取目标文档的文本信息和文本坐标信息;根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。
优选地,所述检测框仅采用框内的第一行文本作为其文本信息。
优选地,所述目标文档是可直接读取文本信息类型的;获取检测框的图像特征时需要将所述目标文档转化为图像类型。
优选地,获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。
优选地,以所述文本信息、框坐标信息和图像特征作为输入还包括:将框坐标信息进行位置编码,将文本信息进行分词并进行文本编码,以位置编码信息、文本编码信息和图像特征作为输入。
一种存储介质,存储有计算机程序,所述计算机程序被执行时实现所述的分类方法。
一种基于多模态融合的文档版面分类装置,针对目标文档,所述分类装置包括:目标检测模块,所述检测模块检测目标文档,获取待分类的检测框;信息获取模块,所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征;多模态融合模型模块,所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
与现有技术相比,本发明的有益效果为:
1、通过将文本、位置和图像信息的多模态融合,提升了文档版面分类的准确率;
2、比较贴合实际情况,标题和段落仅根据图像信息不好区分,页眉、页脚需要加入位置信息才能更好进行判别;
3、不仅能在文档版面分析场景中使用,可以方便扩展到其它需要多模态融合的场景中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
多模态融合的文档版面分类方法主要由四个部分组成:
一、目标检测模块
这个模块主要的功能在于定位到各个版面类型的位置。
目标检测任务包括定位目标和对目标分类。需要检测的目标包括页眉、页脚、段落、标题、表格、图像、目录。
目标检测模型包括特征提取层(backbone)和预测层(head),特征提取层主要包括卷积操作,不改变相对位置信息。预测层包括对检测框的坐标回归以及类型判别。
二、文本信息获取
对于图像文档数据,需要通过OCR技术来获取文本信息。输入全图到OCR,获取到检测文本框和其对应的文本信息。
对于电子文档数据,此类型数据已包含文本信息以及每个文字的坐标信息,可直接获取。
根据获取的文本信息及坐标和目标检测的框坐标信息,根据坐标框来将文本信息与目标检测框进行匹配,对于表格、目录和图像数据此类文本信息比较特殊且目标检测能较好判别,这三种类型不予考虑。
由于部分段落文本信息较长,这里仅取所有目标检测框中的第一行文本来作为此框的文本信息。
三、图像特征获取
从训练的目标检测模型中获取backbone层输出的图像特征,使用RoIAlign将每个目标检测框转为特定大小的输出,便于后续模型的分类。
四、多模态融合模型
将获取的坐标框信息进行位置编码,文本信息进行分词并进行文本编码,融合位置编码信息、文本编码信息和目标检测网络backbone提取的图像特征,用多模态融合模型完成对检测框的分类。
多模态仅对页眉、页脚、段落和标题进行分类,结合目标检测对表格、图像和目录的结果来作为最终的文档版面分类结果。
五、训练流程
整体的训练流程:
Step1.首先需要训练目标检测模型。
Step2.融合文本、位置和图像信息训练多模态融合模型。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。

Claims (8)

1.一种基于多模态融合的文档版面分类方法,其特征在于,针对目标文档,所述分类方法包括:
检测目标文档,获取待分类的检测框;
获取检测框的文本信息、框坐标信息和图像特征;
采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
2.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,所述目标文档是图像类型的;
获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术获取目标文档的文本信息和文本坐标信息;
根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。
3.根据权利要求2所述的基于多模态融合的文档版面分类方法,其特征在于,所述检测框仅采用框内的第一行文本作为其文本信息。
4.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,所述目标文档是可直接读取文本信息类型的;
获取检测框前需要将所述目标文档转化为图像类型。
5.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。
6.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,以所述文本信息、框坐标信息和图像特征作为输入还包括:
将框坐标信息进行位置编码,将文本信息进行分词并进行文本编码,以位置编码信息、文本编码信息和图像特征作为输入。
7.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时实现权利要求1-6中任一所述的分类方法。
8.一种基于多模态融合的文档版面分类装置,其特征在于,针对目标文档,所述分类装置包括:
目标检测模块,所述检测模块检测目标文档,获取待分类的检测框;
信息获取模块,所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征;
多模态融合模型模块,所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。
CN202110854557.1A 2021-07-28 2021-07-28 一种基于多模态融合的文档版面分类方法 Pending CN113688872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854557.1A CN113688872A (zh) 2021-07-28 2021-07-28 一种基于多模态融合的文档版面分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854557.1A CN113688872A (zh) 2021-07-28 2021-07-28 一种基于多模态融合的文档版面分类方法

Publications (1)

Publication Number Publication Date
CN113688872A true CN113688872A (zh) 2021-11-23

Family

ID=78578033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854557.1A Pending CN113688872A (zh) 2021-07-28 2021-07-28 一种基于多模态融合的文档版面分类方法

Country Status (1)

Country Link
CN (1) CN113688872A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821568A (zh) * 2022-06-27 2022-07-29 深圳前海环融联易信息科技服务有限公司 菜单要素提取方法、装置、计算机设备及存储介质
CN114898388A (zh) * 2022-03-28 2022-08-12 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN115393854A (zh) * 2022-10-27 2022-11-25 粤港澳大湾区数字经济研究院(福田) 一种视觉对齐处理方法、终端及存储介质
CN115937655A (zh) * 2023-02-24 2023-04-07 城云科技(中国)有限公司 多阶特征交互的目标检测模型及其构建方法、装置及应用

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060738A1 (en) * 2015-08-25 2017-03-02 Sandisk Technologies Inc. Memory System and Method for Performing Garbage Collection on Blocks Based on Their Obsolescence Patterns
CN109344815A (zh) * 2018-12-13 2019-02-15 深源恒际科技有限公司 一种文档图像分类方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN112733658A (zh) * 2020-12-31 2021-04-30 北京华宇信息技术有限公司 电子文档归档方法及其装置
CN112966522A (zh) * 2021-03-03 2021-06-15 北京百度网讯科技有限公司 一种图像分类方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060738A1 (en) * 2015-08-25 2017-03-02 Sandisk Technologies Inc. Memory System and Method for Performing Garbage Collection on Blocks Based on Their Obsolescence Patterns
CN109344815A (zh) * 2018-12-13 2019-02-15 深源恒际科技有限公司 一种文档图像分类方法
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN111046784A (zh) * 2019-12-09 2020-04-21 科大讯飞股份有限公司 文档版面分析识别方法、装置、电子设备和存储介质
CN112733658A (zh) * 2020-12-31 2021-04-30 北京华宇信息技术有限公司 电子文档归档方法及其装置
CN112966522A (zh) * 2021-03-03 2021-06-15 北京百度网讯科技有限公司 一种图像分类方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898388A (zh) * 2022-03-28 2022-08-12 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN114898388B (zh) * 2022-03-28 2024-05-24 支付宝(杭州)信息技术有限公司 文档图片分类方法、装置、存储介质及电子设备
CN114821568A (zh) * 2022-06-27 2022-07-29 深圳前海环融联易信息科技服务有限公司 菜单要素提取方法、装置、计算机设备及存储介质
CN115393854A (zh) * 2022-10-27 2022-11-25 粤港澳大湾区数字经济研究院(福田) 一种视觉对齐处理方法、终端及存储介质
CN115393854B (zh) * 2022-10-27 2023-02-21 粤港澳大湾区数字经济研究院(福田) 一种视觉对齐处理方法、终端及存储介质
CN115937655A (zh) * 2023-02-24 2023-04-07 城云科技(中国)有限公司 多阶特征交互的目标检测模型及其构建方法、装置及应用

Similar Documents

Publication Publication Date Title
CN113688872A (zh) 一种基于多模态融合的文档版面分类方法
Shahab et al. ICDAR 2011 robust reading competition challenge 2: Reading text in scene images
US20200074169A1 (en) System And Method For Extracting Structured Information From Image Documents
US20210064860A1 (en) Intelligent extraction of information from a document
CN103995904B (zh) 一种影像档案电子资料的识别系统
US8300942B2 (en) Area extraction program, character recognition program, and character recognition device
Zagoris et al. A document image retrieval system
Bhunia et al. Text recognition in scene image and video frame using color channel selection
US8620079B1 (en) System and method for extracting information from documents
Ma et al. Segmentation and recognition for historical Tibetan document images
CN110889310A (zh) 金融文档信息智能提取系统及方法
CN114821612B (zh) 一种证券期货场景下pdf文档的信息抽取方法和系统
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Lue et al. A novel character segmentation method for text images captured by cameras
CN115761781A (zh) 一种用于工程电子档案笔记图像数据识别系统
CN112445926A (zh) 一种图像检索方法以及装置
Nguyen et al. Vietnamese document analysis: dataset, method and benchmark suite
Akhter et al. Semantic segmentation of printed text from marathi document images using deep learning methods
CN107545261A (zh) 文本检测的方法及装置
Rasheed et al. Automatic Video Indexing and Retrieval System for Turkish Videos
Wahlberg et al. Data mining medieval documents by word spotting
Lokkondra et al. ETDR: An Exploratory View of Text Detection and Recognition in Images and Videos.
CN102262614A (zh) 纵向校对方法和装置
Nazemi et al. Mathematical information retrieval (MIR) from scanned pdf documents and MathML conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination