CN112036406A - 一种图像文档的文本抽取方法、装置及电子设备 - Google Patents

一种图像文档的文本抽取方法、装置及电子设备 Download PDF

Info

Publication number
CN112036406A
CN112036406A CN202011221190.1A CN202011221190A CN112036406A CN 112036406 A CN112036406 A CN 112036406A CN 202011221190 A CN202011221190 A CN 202011221190A CN 112036406 A CN112036406 A CN 112036406A
Authority
CN
China
Prior art keywords
information
text
loss
recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011221190.1A
Other languages
English (en)
Other versions
CN112036406B (zh
Inventor
黄园园
钱泓锦
刘占亮
窦志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202011221190.1A priority Critical patent/CN112036406B/zh
Publication of CN112036406A publication Critical patent/CN112036406A/zh
Application granted granted Critical
Publication of CN112036406B publication Critical patent/CN112036406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种图像文档的文本抽取方法、装置及电子设备方法包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。该方法能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。

Description

一种图像文档的文本抽取方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像文档的文本抽取方法、装置及电子设备。
背景技术
文档抽取可以分为信息抽取和文档结构理解两个部分。以语言模型为基础的信息抽取技术已经发展到了较高水平,比较常用的框架有word2vec+BiLSTM+CRF、BERT、GPT、ERNIE等预训练模型。大规模预训练语言模型能够通过自监督任务在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效地提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,而忽视了文档本身与文本天然对齐的视觉结构信息,而且均是利用识别好的OCR结果进行信息抽取的,不支持类似表格结构的信息抽取,造成结构信息的抽取混乱。
发明内容
本发明提供了一种图像文档的文本抽取方法、装置及电子设备,能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。
根据本发明的第一方面,提供了一种图像文档的文本抽取方法,包括:
通过光学字符识别模型对图像文档进行识别;
根据所识别的信息生成组合向量;
将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
进一步地,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。
进一步地,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
进一步地,按照下述方式计算所述联合损失函数
Figure 518133DEST_PATH_IMAGE001
Figure 847483DEST_PATH_IMAGE002
其中,
Figure 108700DEST_PATH_IMAGE003
为对图像文档进行识别的损失,
Figure 541693DEST_PATH_IMAGE004
为文本抽取的损失,
Figure 597374DEST_PATH_IMAGE005
为预设的系数。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
根据本发明的第二方面,提供了一种图像文档的文本抽取装置,包括:
识别模块,用于通过光学字符识别模型对图像文档进行识别;
向量生成模块,用于根据所识别的信息生成组合向量;
抽取模块,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
训练模块,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
进一步地,所述识别模块包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,得到文字信息、图像信息、坐标信息和表格信息;
所述向量生成模块根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
根据本发明的第三方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如第一方面所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的图像文档的文本抽取方法、装置及电子设备,至少包括如下有益效果:
OCR的输出除了纯文本的文字特征外,还包括单个字符的图像特征、x、y坐标特征、表格特征等结构信息,在文本抽取模型中实现多种特征的嵌入,从而避免了结构信息的抽取混乱;对光学字符识别模型以及文本抽取模型进行联合优化,充分利用了文档的布局信息和文档的语义信息,不再单独优化光学字符识别模型以及文本抽取模型某一部分的结果,大大增加了光学字符识别模型的识别能力、语义分割能力和文档抽取结果的准确度;本申请的文档抽取方法不限于某种网络架构和语言模型、也不限于具体自然语言处理任务;光学字符识别模型也不限于识别的功能和模块结构,文档抽取方法不限于具体抽取和识别文档,适用任何图像文档和语言。
附图说明
图1为本发明提供的图像文档的文本抽取方法一种实施例的流程图。
图2为本发明提供的图像文档的文本抽取装置一种实施例的结构示意图。
图3为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
参考图1,在一些实施例中,提供一种图像文档的文本抽取方法,包括:
步骤S101,通过光学字符识别模型对图像文档进行识别;
步骤S102,根据所识别的信息生成组合向量;
步骤S103,将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
步骤S104,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
具体地,步骤S101中,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。
OCR,光学字符识别(Optical Character Recognition)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
光学字符识别模型(OCR)首先是对图像文档进行整体的倾斜校正,倾斜或者扭曲较大的图片会对文字识别和表格识别造成较大干扰,倾斜矫正采用EAST模型实现;由于在倾斜文档中各个文字的大小不一、位置不一致,而EAST模型除了抽取特征层外,还有一个特殊的特征融合层能够融合不用层次的特征,大小文字,分别利用底层和高层的语义信息。文字检测则是利用训练简单,结果易用,不需要进行太多后续复杂处理的DBNet模型。文字识别则是利用CRNN模型,CRNN由CNN+BiLSTM+CTC结构组成。表格识别则利用Mask R-CNN实现。
单个字符的图像特征包含了丰富的文字字体、字号大小、颜色等特征,是一种重要的文本信息。在大多数商业票据或者图像文档中,存在大量的表格,若按照纯文本的方法处理表格信息,将造成大量的信息缺失和混乱。上述实施例提供的方法,利用OCR输出的表格结构信息,将描述同一事物的单行、多行信息约束在同一个单元格内。
进一步地,步骤S102中,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
组合向量的形式如下:
Y=
Figure 414020DEST_PATH_IMAGE006
+
Figure 478928DEST_PATH_IMAGE007
+
Figure 613367DEST_PATH_IMAGE008
+
Figure 636687DEST_PATH_IMAGE009
+
Figure 675050DEST_PATH_IMAGE010
其中,
Figure 511025DEST_PATH_IMAGE011
为词嵌入,
Figure 685655DEST_PATH_IMAGE012
为位置嵌入,
Figure 348717DEST_PATH_IMAGE013
为坐标嵌入,
Figure 343218DEST_PATH_IMAGE014
为字符图像嵌入,
Figure 749929DEST_PATH_IMAGE015
为表格信息嵌入。
进一步地,步骤S103中,将所述组合向量Y输入文本抽取模型进行文本抽取,获得结构化的信息,例如以JSON格式。
文档抽取利用的是Transformers特征提取器。Transformers主要由两大部分组成:编码器(Encoder)和解码器(Decoder),每个模块都包含6个block。所有的编码器在结构上都是相同的,负责把自然语言序列映射成为隐藏层。
文档抽取框架利用的是BERT框架。以保险单图像为例,将整个保险单OCR的结果作为一个sequence进行信息抽取。由于大部分文档的长度超过了512,所以利用窗口滑动或者多个BERT预训练模型向量输入将输入的嵌入长度提升到2048,实现对整个文档的特征嵌入。文档特征通过抽取BERT+CRF,输出token的最后一层向量,利用softmax函数实现文本token的分类。
进一步地,步骤S104中,按照下述方式计算所述联合损失函数
Figure 513485DEST_PATH_IMAGE016
Figure 114493DEST_PATH_IMAGE002
其中,
Figure 330711DEST_PATH_IMAGE003
为对图像文档进行识别的损失,
Figure 541112DEST_PATH_IMAGE004
为文本抽取的损失,
Figure 159176DEST_PATH_IMAGE005
为预设的系数。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
Figure 150659DEST_PATH_IMAGE017
=
Figure 886796DEST_PATH_IMAGE018
+
Figure 166467DEST_PATH_IMAGE019
其中,
Figure 196959DEST_PATH_IMAGE018
为文字识别的损失,
Figure 575988DEST_PATH_IMAGE019
为表格识别的坐标损失。
文字识别的损失、表格识别的坐标损失以及文本抽取损失可以采取各自领域常见损失计算方法,此处利用系数
Figure 187971DEST_PATH_IMAGE020
控制
Figure 474596DEST_PATH_IMAGE003
在最终损失中的贡献,共同优化
Figure 159262DEST_PATH_IMAGE003
Figure 505930DEST_PATH_IMAGE004
,能够降低OCR部分的错误,提高文本抽取的准确度。
参考图2,在一些实施例中,提供一种图像文档的文本抽取装置,包括:
识别模块201,用于通过光学字符识别模型对图像文档进行识别;
向量生成模块202,用于根据所识别的信息生成组合向量;
抽取模块203,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
训练模块204,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
在一些实施例中,识别模块201包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,用于分别获得文字信息、图像信息、坐标信息和表格信息。
向量生成模块202根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
组合向量的形式如下:
Y=
Figure 184036DEST_PATH_IMAGE006
+
Figure 962767DEST_PATH_IMAGE007
+
Figure 13856DEST_PATH_IMAGE008
+
Figure 531425DEST_PATH_IMAGE009
+
Figure 696827DEST_PATH_IMAGE010
其中,
Figure 388838DEST_PATH_IMAGE011
为词嵌入,
Figure 254288DEST_PATH_IMAGE012
为位置嵌入,
Figure 536234DEST_PATH_IMAGE013
为坐标嵌入,
Figure 490064DEST_PATH_IMAGE014
为字符图像嵌入,
Figure 171450DEST_PATH_IMAGE015
为表格信息嵌入。
在一些实施例中,抽取模块203利用的是Transformers特征提取器进行文本抽取。
在一些实施例中,训练模块204按照下述方式计算所述联合损失函数
Figure 921101DEST_PATH_IMAGE021
Figure 780472DEST_PATH_IMAGE002
其中,
Figure 944301DEST_PATH_IMAGE003
为对图像文档进行识别的损失,
Figure 180110DEST_PATH_IMAGE004
为文本抽取的损失,
Figure 957835DEST_PATH_IMAGE005
为预设的系数。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
Figure 929988DEST_PATH_IMAGE017
=
Figure 291699DEST_PATH_IMAGE018
+
Figure 331199DEST_PATH_IMAGE019
其中,
Figure 757239DEST_PATH_IMAGE018
为文字识别的损失,
Figure 771462DEST_PATH_IMAGE019
为表格识别的坐标损失。
参考图3,在一些实施例中,还提供一种电子设备,包括处理器301和存储器302,存储器302存储有多条指令,处理器301用于读取所述多条指令并执行上述的图像文档抽取与识别的优化方法,例如包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
在一些实施例中,还提供一种计算机可读存储介质,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行上述的图像文档抽取与识别的优化方法,例如包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
综上,上述实施例提供的图像文档的文本抽取方法、装置及电子设备,至少包括如下有益效果:
(1)OCR的输出除了纯文本的文字特征外,还包括单个字符的图像特征、x、y坐标特征、表格特征等结构信息,将描述同一事物的单行、多行信息约束在同一个单元格内,在文本抽取模型中实现多种特征的嵌入,从而避免了结构信息的抽取混乱;
(2)对光学字符识别模型以及文本抽取模型进行联合优化,不再单独优化光学字符识别模型以及文本抽取模型某一部分的结果,大大增加了光学字符识别模型的识别能力、语义分割能力和文档抽取结果的准确度;
(3)与现有方法相比,文档抽取方法不限于某种网络架构和语言模型也不限于具体自然语言处理任务;光学字符识别模型也不限于识别的功能和模块结构,不限于具体抽取和识别文档,适用任何图像文档和语言。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种图像文档的文本抽取方法,其特征在于,包括:
通过光学字符识别模型对图像文档进行识别;
根据所识别的信息生成组合向量;
将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
2.根据权利要求1所述的方法,其特征在于,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。
3.根据权利要求2所述的方法,其特征在于,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
4.根据权利要求3所述的方法,其特征在于,按照下述方式计算所述联合损失函数
Figure 926510DEST_PATH_IMAGE001
Figure 109230DEST_PATH_IMAGE002
其中,
Figure 951284DEST_PATH_IMAGE003
为对图像文档进行识别的损失,
Figure 674389DEST_PATH_IMAGE004
为文本抽取的损失,
Figure 247016DEST_PATH_IMAGE005
为预设的系数。
5.根据权利要求4所述的方法,其特征在于,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
6.一种图像文档的文本抽取装置,其特征在于,包括:
识别模块,用于通过光学字符识别模型对图像文档进行识别;
向量生成模块,用于根据所识别的信息生成组合向量;
抽取模块,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
训练模块,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
7.根据权利要求6所述的装置,其特征在于,所述识别模块包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,得到文字信息、图像信息、坐标信息和表格信息;
所述向量生成模块根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
8.根据权利要求7所述的装置,其特征在于,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至5任一所述的方法。
CN202011221190.1A 2020-11-05 2020-11-05 一种图像文档的文本抽取方法、装置及电子设备 Active CN112036406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011221190.1A CN112036406B (zh) 2020-11-05 2020-11-05 一种图像文档的文本抽取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011221190.1A CN112036406B (zh) 2020-11-05 2020-11-05 一种图像文档的文本抽取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112036406A true CN112036406A (zh) 2020-12-04
CN112036406B CN112036406B (zh) 2021-03-02

Family

ID=73573563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011221190.1A Active CN112036406B (zh) 2020-11-05 2020-11-05 一种图像文档的文本抽取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112036406B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784192A (zh) * 2021-01-22 2021-05-11 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法
CN112818823A (zh) * 2021-01-28 2021-05-18 建信览智科技(北京)有限公司 一种基于票据内容和位置信息的文本抽取方法
CN113435437A (zh) * 2021-06-24 2021-09-24 随锐科技集团股份有限公司 开关分合指示牌状态的识别方法、识别装置及存储介质
CN116071759A (zh) * 2023-03-06 2023-05-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
US20190228276A1 (en) * 2018-01-19 2019-07-25 Arcules Inc. License plate reader using optical character recognition on plural detected regions
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN111144370A (zh) * 2019-12-31 2020-05-12 科大讯飞华南人工智能研究院(广州)有限公司 单据要素抽取方法、装置、设备及存储介质
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228276A1 (en) * 2018-01-19 2019-07-25 Arcules Inc. License plate reader using optical character recognition on plural detected regions
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN111144370A (zh) * 2019-12-31 2020-05-12 科大讯飞华南人工智能研究院(广州)有限公司 单据要素抽取方法、装置、设备及存储介质
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784192A (zh) * 2021-01-22 2021-05-11 南京万得资讯科技有限公司 一种清洗页面正文内容中被植入广告的方法
CN112818823A (zh) * 2021-01-28 2021-05-18 建信览智科技(北京)有限公司 一种基于票据内容和位置信息的文本抽取方法
CN112818823B (zh) * 2021-01-28 2024-04-12 金科览智科技(北京)有限公司 一种基于票据内容和位置信息的文本抽取方法
CN113435437A (zh) * 2021-06-24 2021-09-24 随锐科技集团股份有限公司 开关分合指示牌状态的识别方法、识别装置及存储介质
CN116071759A (zh) * 2023-03-06 2023-05-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法
CN116071759B (zh) * 2023-03-06 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种融合gpt2预训练大模型的光学字符识别方法

Also Published As

Publication number Publication date
CN112036406B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN112036406B (zh) 一种图像文档的文本抽取方法、装置及电子设备
US20210256253A1 (en) Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN113378580B (zh) 文档版面分析方法、模型训练方法、装置和设备
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
CN111666937A (zh) 一种图像中的文本识别方法及系统
WO2024027349A1 (zh) 一种印刷体数学公式识别方法、装置及存储介质
JP2022160662A (ja) 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム
CN111368695A (zh) 一种表格结构提取方法
CN114596566A (zh) 文本识别方法及相关装置
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN113780276A (zh) 一种结合文本分类的文本检测和识别方法及系统
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
US20150278162A1 (en) Retention of content in converted documents
Ma et al. Modal contrastive learning based end-to-end text image machine translation
Hsueh Interactive text recognition and translation on a mobile device
CN115937852A (zh) 一种基于文本驱动的高效弱监督语义分割方法及装置
Nederhof et al. OCR of handwritten transcriptions of Ancient Egyptian hieroglyphic text
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN114742075A (zh) 一种基于预训练的多模态机器翻译方法
CN113535975A (zh) 一种基于汉字知识图谱的多维度智能纠错方法
Huang et al. Research on braille music recognition based on convolutional neural network
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN116861912B (zh) 一种基于深度学习的表格实体抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant