CN112036406A - 一种图像文档的文本抽取方法、装置及电子设备 - Google Patents
一种图像文档的文本抽取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112036406A CN112036406A CN202011221190.1A CN202011221190A CN112036406A CN 112036406 A CN112036406 A CN 112036406A CN 202011221190 A CN202011221190 A CN 202011221190A CN 112036406 A CN112036406 A CN 112036406A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- loss
- recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明公开了一种图像文档的文本抽取方法、装置及电子设备方法包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。该方法能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像文档的文本抽取方法、装置及电子设备。
背景技术
文档抽取可以分为信息抽取和文档结构理解两个部分。以语言模型为基础的信息抽取技术已经发展到了较高水平,比较常用的框架有word2vec+BiLSTM+CRF、BERT、GPT、ERNIE等预训练模型。大规模预训练语言模型能够通过自监督任务在预训练阶段有效捕捉文本中蕴含的语义信息,经过下游任务微调后能有效地提升模型效果。然而,现有的预训练语言模型主要针对文本单一模态进行,而忽视了文档本身与文本天然对齐的视觉结构信息,而且均是利用识别好的OCR结果进行信息抽取的,不支持类似表格结构的信息抽取,造成结构信息的抽取混乱。
发明内容
本发明提供了一种图像文档的文本抽取方法、装置及电子设备,能够有效解决现有的文档抽取方法造成的结构信息混乱的问题。
根据本发明的第一方面,提供了一种图像文档的文本抽取方法,包括:
通过光学字符识别模型对图像文档进行识别;
根据所识别的信息生成组合向量;
将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
进一步地,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。
进一步地,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
根据本发明的第二方面,提供了一种图像文档的文本抽取装置,包括:
识别模块,用于通过光学字符识别模型对图像文档进行识别;
向量生成模块,用于根据所识别的信息生成组合向量;
抽取模块,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
训练模块,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
进一步地,所述识别模块包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,得到文字信息、图像信息、坐标信息和表格信息;
所述向量生成模块根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
根据本发明的第三方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如第一方面所述的方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的图像文档的文本抽取方法、装置及电子设备,至少包括如下有益效果:
OCR的输出除了纯文本的文字特征外,还包括单个字符的图像特征、x、y坐标特征、表格特征等结构信息,在文本抽取模型中实现多种特征的嵌入,从而避免了结构信息的抽取混乱;对光学字符识别模型以及文本抽取模型进行联合优化,充分利用了文档的布局信息和文档的语义信息,不再单独优化光学字符识别模型以及文本抽取模型某一部分的结果,大大增加了光学字符识别模型的识别能力、语义分割能力和文档抽取结果的准确度;本申请的文档抽取方法不限于某种网络架构和语言模型、也不限于具体自然语言处理任务;光学字符识别模型也不限于识别的功能和模块结构,文档抽取方法不限于具体抽取和识别文档,适用任何图像文档和语言。
附图说明
图1为本发明提供的图像文档的文本抽取方法一种实施例的流程图。
图2为本发明提供的图像文档的文本抽取装置一种实施例的结构示意图。
图3为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
参考图1,在一些实施例中,提供一种图像文档的文本抽取方法,包括:
步骤S101,通过光学字符识别模型对图像文档进行识别;
步骤S102,根据所识别的信息生成组合向量;
步骤S103,将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
步骤S104,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
具体地,步骤S101中,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。
OCR,光学字符识别(Optical Character Recognition)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
光学字符识别模型(OCR)首先是对图像文档进行整体的倾斜校正,倾斜或者扭曲较大的图片会对文字识别和表格识别造成较大干扰,倾斜矫正采用EAST模型实现;由于在倾斜文档中各个文字的大小不一、位置不一致,而EAST模型除了抽取特征层外,还有一个特殊的特征融合层能够融合不用层次的特征,大小文字,分别利用底层和高层的语义信息。文字检测则是利用训练简单,结果易用,不需要进行太多后续复杂处理的DBNet模型。文字识别则是利用CRNN模型,CRNN由CNN+BiLSTM+CTC结构组成。表格识别则利用Mask R-CNN实现。
单个字符的图像特征包含了丰富的文字字体、字号大小、颜色等特征,是一种重要的文本信息。在大多数商业票据或者图像文档中,存在大量的表格,若按照纯文本的方法处理表格信息,将造成大量的信息缺失和混乱。上述实施例提供的方法,利用OCR输出的表格结构信息,将描述同一事物的单行、多行信息约束在同一个单元格内。
进一步地,步骤S102中,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
组合向量的形式如下:
进一步地,步骤S103中,将所述组合向量Y输入文本抽取模型进行文本抽取,获得结构化的信息,例如以JSON格式。
文档抽取利用的是Transformers特征提取器。Transformers主要由两大部分组成:编码器(Encoder)和解码器(Decoder),每个模块都包含6个block。所有的编码器在结构上都是相同的,负责把自然语言序列映射成为隐藏层。
文档抽取框架利用的是BERT框架。以保险单图像为例,将整个保险单OCR的结果作为一个sequence进行信息抽取。由于大部分文档的长度超过了512,所以利用窗口滑动或者多个BERT预训练模型向量输入将输入的嵌入长度提升到2048,实现对整个文档的特征嵌入。文档特征通过抽取BERT+CRF,输出token的最后一层向量,利用softmax函数实现文本token的分类。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
参考图2,在一些实施例中,提供一种图像文档的文本抽取装置,包括:
识别模块201,用于通过光学字符识别模型对图像文档进行识别;
向量生成模块202,用于根据所识别的信息生成组合向量;
抽取模块203,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
训练模块204,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
在一些实施例中,识别模块201包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,用于分别获得文字信息、图像信息、坐标信息和表格信息。
向量生成模块202根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
组合向量的形式如下:
在一些实施例中,抽取模块203利用的是Transformers特征提取器进行文本抽取。
进一步地,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
参考图3,在一些实施例中,还提供一种电子设备,包括处理器301和存储器302,存储器302存储有多条指令,处理器301用于读取所述多条指令并执行上述的图像文档抽取与识别的优化方法,例如包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
在一些实施例中,还提供一种计算机可读存储介质,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行上述的图像文档抽取与识别的优化方法,例如包括:通过光学字符识别模型对图像文档进行识别;根据所识别的信息生成组合向量;将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
综上,上述实施例提供的图像文档的文本抽取方法、装置及电子设备,至少包括如下有益效果:
(1)OCR的输出除了纯文本的文字特征外,还包括单个字符的图像特征、x、y坐标特征、表格特征等结构信息,将描述同一事物的单行、多行信息约束在同一个单元格内,在文本抽取模型中实现多种特征的嵌入,从而避免了结构信息的抽取混乱;
(2)对光学字符识别模型以及文本抽取模型进行联合优化,不再单独优化光学字符识别模型以及文本抽取模型某一部分的结果,大大增加了光学字符识别模型的识别能力、语义分割能力和文档抽取结果的准确度;
(3)与现有方法相比,文档抽取方法不限于某种网络架构和语言模型也不限于具体自然语言处理任务;光学字符识别模型也不限于识别的功能和模块结构,不限于具体抽取和识别文档,适用任何图像文档和语言。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种图像文档的文本抽取方法,其特征在于,包括:
通过光学字符识别模型对图像文档进行识别;
根据所识别的信息生成组合向量;
将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
其中,根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
2.根据权利要求1所述的方法,其特征在于,所述通过光学字符识别模型对图像文档进行识别,包括:
对图像文档进行倾斜校正、文字检测、文字识别和表格识别,得到文字信息、图像信息、坐标信息和表格信息。
3.根据权利要求2所述的方法,其特征在于,根据所识别的信息生成组合向量包括:
根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
5.根据权利要求4所述的方法,其特征在于,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
6.一种图像文档的文本抽取装置,其特征在于,包括:
识别模块,用于通过光学字符识别模型对图像文档进行识别;
向量生成模块,用于根据所识别的信息生成组合向量;
抽取模块,用于将所述组合向量输入文本抽取模型进行文本抽取,获得结构化信息;
训练模块,用于根据联合损失函数对所述光学字符识别模型以及文本抽取模型进行训练优化,所述联合损失函数包括对图像文档进行识别的损失和文本抽取的损失。
7.根据权利要求6所述的装置,其特征在于,所述识别模块包括倾斜校正模块、文字检测模块、文字识别模块和表格识别模块,得到文字信息、图像信息、坐标信息和表格信息;
所述向量生成模块根据文字信息得到词嵌入和位置嵌入,根据图像信息到字符图像嵌入,根据坐标信息得到坐标嵌入,根据表格信息得到表格信息嵌入,组合得到所述组合向量。
8.根据权利要求7所述的装置,其特征在于,所述对图像文档进行识别的损失包括文字识别的损失和表格识别的坐标损失。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如权利要求1至5任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至5任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011221190.1A CN112036406B (zh) | 2020-11-05 | 2020-11-05 | 一种图像文档的文本抽取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011221190.1A CN112036406B (zh) | 2020-11-05 | 2020-11-05 | 一种图像文档的文本抽取方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036406A true CN112036406A (zh) | 2020-12-04 |
CN112036406B CN112036406B (zh) | 2021-03-02 |
Family
ID=73573563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011221190.1A Active CN112036406B (zh) | 2020-11-05 | 2020-11-05 | 一种图像文档的文本抽取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036406B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784192A (zh) * | 2021-01-22 | 2021-05-11 | 南京万得资讯科技有限公司 | 一种清洗页面正文内容中被植入广告的方法 |
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN113435437A (zh) * | 2021-06-24 | 2021-09-24 | 随锐科技集团股份有限公司 | 开关分合指示牌状态的识别方法、识别装置及存储介质 |
CN116071759A (zh) * | 2023-03-06 | 2023-05-05 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合gpt2预训练大模型的光学字符识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635627A (zh) * | 2018-10-23 | 2019-04-16 | 中国平安财产保险股份有限公司 | 图片信息提取方法、装置、计算机设备及存储介质 |
US20190228276A1 (en) * | 2018-01-19 | 2019-07-25 | Arcules Inc. | License plate reader using optical character recognition on plural detected regions |
CN110298338A (zh) * | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
CN111144370A (zh) * | 2019-12-31 | 2020-05-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
-
2020
- 2020-11-05 CN CN202011221190.1A patent/CN112036406B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228276A1 (en) * | 2018-01-19 | 2019-07-25 | Arcules Inc. | License plate reader using optical character recognition on plural detected regions |
CN109635627A (zh) * | 2018-10-23 | 2019-04-16 | 中国平安财产保险股份有限公司 | 图片信息提取方法、装置、计算机设备及存储介质 |
CN110298338A (zh) * | 2019-06-20 | 2019-10-01 | 北京易道博识科技有限公司 | 一种文档图像分类方法及装置 |
CN111144370A (zh) * | 2019-12-31 | 2020-05-12 | 科大讯飞华南人工智能研究院(广州)有限公司 | 单据要素抽取方法、装置、设备及存储介质 |
CN111860257A (zh) * | 2020-07-10 | 2020-10-30 | 上海交通大学 | 融合多种文本特征及几何信息的表格识别方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784192A (zh) * | 2021-01-22 | 2021-05-11 | 南京万得资讯科技有限公司 | 一种清洗页面正文内容中被植入广告的方法 |
CN112818823A (zh) * | 2021-01-28 | 2021-05-18 | 建信览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN112818823B (zh) * | 2021-01-28 | 2024-04-12 | 金科览智科技(北京)有限公司 | 一种基于票据内容和位置信息的文本抽取方法 |
CN113435437A (zh) * | 2021-06-24 | 2021-09-24 | 随锐科技集团股份有限公司 | 开关分合指示牌状态的识别方法、识别装置及存储介质 |
CN116071759A (zh) * | 2023-03-06 | 2023-05-05 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合gpt2预训练大模型的光学字符识别方法 |
CN116071759B (zh) * | 2023-03-06 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合gpt2预训练大模型的光学字符识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112036406B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112036406B (zh) | 一种图像文档的文本抽取方法、装置及电子设备 | |
US20210256253A1 (en) | Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium | |
WO2019192397A1 (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN113378580B (zh) | 文档版面分析方法、模型训练方法、装置和设备 | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
WO2024027349A1 (zh) | 一种印刷体数学公式识别方法、装置及存储介质 | |
JP2022160662A (ja) | 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム | |
CN111368695A (zh) | 一种表格结构提取方法 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN114821620A (zh) | 基于行文本框纵向合并的文本内容提取识别方法 | |
CN113780276A (zh) | 一种结合文本分类的文本检测和识别方法及系统 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
US20150278162A1 (en) | Retention of content in converted documents | |
Ma et al. | Modal contrastive learning based end-to-end text image machine translation | |
Hsueh | Interactive text recognition and translation on a mobile device | |
CN115937852A (zh) | 一种基于文本驱动的高效弱监督语义分割方法及装置 | |
Nederhof et al. | OCR of handwritten transcriptions of Ancient Egyptian hieroglyphic text | |
CN115273057A (zh) | 文本识别方法、装置和听写批改方法、装置及电子设备 | |
CN114742075A (zh) | 一种基于预训练的多模态机器翻译方法 | |
CN113535975A (zh) | 一种基于汉字知识图谱的多维度智能纠错方法 | |
Huang et al. | Research on braille music recognition based on convolutional neural network | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN116861912B (zh) | 一种基于深度学习的表格实体抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |