CN114973271B - 一种文本信息提取方法、提取系统、电子设备及存储介质 - Google Patents
一种文本信息提取方法、提取系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114973271B CN114973271B CN202210581957.4A CN202210581957A CN114973271B CN 114973271 B CN114973271 B CN 114973271B CN 202210581957 A CN202210581957 A CN 202210581957A CN 114973271 B CN114973271 B CN 114973271B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- model
- training
- erasure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 78
- 238000001514 detection method Methods 0.000 claims abstract description 121
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims description 110
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 102100032202 Cornulin Human genes 0.000 description 5
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/20—Combination of acquisition, preprocessing or recognition functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种文本信息提取方法、提取系统、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取待提取的目标图像;利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像;利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息;利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。本申请实施例能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本信息提取方法、提取系统、电子设备及存储介质。
背景技术
目前,许多影像资料都会带有印章,例如,在金融行业,比如保险领域,使用光学字符识别(Optical Character Recognition,OCR)技术把许多业务影像资料(比如投保单、核保资料、理赔文件等)转化成文字并做结构化存储时,由于印章覆盖在影像资料中带文字的区域,对文本检测或文本识别的效果和信息提取的识别准确率都有很大影响。
发明内容
本申请实施例的主要目的在于提出一种文本信息提取方法、提取系统、电子设备及存储介质,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
为实现上述目的,本申请实施例的第一方面提出了一种文本信息提取方法,所述方法包括:
获取待提取的目标图像;
利用预训练的文本擦除模型对所述目标图像进行印章擦除,得到去除所述目标图像上印章的第一图像;
利用预训练的文本检测模型对所述第一图像进行文本行检测,得到至少一组文本行坐标信息;
利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息。
在一些实施例中,所述利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息,包括:
根据每组文本行坐标信息对所述第一图像进行文本图像截取,得到文本行图像;
利用预训练的文本识别模型对每个所述文本行图像进行文本识别,得到多个目标文本信息。
在一些实施例中,在所述根据每组文本行坐标信息对所述第一图像进行文本图像截取,得到文本行图像之后,所述方法还包括:
对所述文本行图像进行灰度图像转换,以更新所述文本行图像。
在一些实施例中,所述预训练的文本擦除模型通过如下方法训练得到:
构建第一训练样本集,所述第一训练样本集包括多个第一训练样本,每个第一训练样本包括带印章的初始图像和去除印章的样本图像;
基于EraseNet算法构建端到端的初始文本擦除模型;
将多个所述带印章的初始图像输入所述初始文本擦除模型进行模型训练,得到去除印章的第二图像;
根据所述第二图像和所述去除印章的样本图像确定第一损失值;
根据所述第二图像和所述去除印章的样本图像对所述初始文本擦除模型的模型参数进行调整,并基于所述第一训练样本集继续训练调整后的模型,直至所述第一损失值满足预设训练结束条件,以得到所述文本擦除模型。
在一些实施例中,所述基于EraseNet算法构建端到端的初始文本擦除模型,包括:
基于EraseNet算法构建端到端的第一文本擦除模型;
利用Mobilenet-v3网络结构优化所述第一文本擦除模型,得到初始文本擦除模型。
在一些实施例中,所述预训练的文本检测模型通过如下方法训练得到:
构建第二训练样本集,所述第二训练样本集包括多个第二训练样本,每个第二训练样本包括初始训练图像和检测后样本图像;
基于DBNet算法构建初始文本检测模型;
将多个所述初始训练图像输入所述初始文本检测模型进行模型训练,得到第三图像;
根据所述第三图像和所述检测后样本图像确定第二损失值;
根据所述第三图像和所述检测后样本图像对所述初始文本检测模型的模型参数进行调整,并基于所述第二训练样本集继续训练调整后的模型,直至所述第二损失值满足预设训练结束条件,以得到所述文本检测模型。
在一些实施例中,所述基于DBNet算法构建初始文本检测模型,包括:
基于DBNet算法构建第一文本检测模型;
利用Resnet-50网络结构优化所述第一文本检测模型,得到初始文本检测模型。
为实现上述目的,本申请实施例的第二方面提出了一种文本信息提取系统,所述系统包括:
图像获取模块,用于获取待提取的目标图像;
印章擦除模块,用于利用预训练的文本擦除模型对所述目标图像进行印章擦除,得到去除所述目标图像上印章的第一图像;
文本行检测模块,用于利用预训练的文本检测模型对所述第一图像进行文本行检测,得到至少一组文本行坐标信息;
文本识别模块,用于利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述至少一个计算机程序被存储在所述至少一个存储器中,所述至少一个处理器执行所述至少一个计算机程序以实现上述第一方面所述的一种文本信息提取方法。
为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述第一方面所述的一种文本信息提取方法。
本申请实施例提出的一种文本信息提取方法、提取系统、电子设备及存储介质,通过获取待提取的目标图像,为了避免了无法对目标图像上被印章遮盖的信息的提取,利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像。为了提高对第一图像中文本信息的识别能力,利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息。并利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。本申请通过结合印章擦除和文本检测识别方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
附图说明
图1是本申请实施例提供的一种文本信息提取方法的流程图;
图2是图1中的步骤S140的流程图;
图3是本申请实施例提供的文本擦除模型的训练流程图;
图4是图3中的步骤S320的流程图;
图5是本申请实施例提供的文本检测模型的训练流程图;
图6是图5中的步骤S520的流程图;
图7是本申请实施例提供的一种文本信息提取系统的结构示意图;
图8是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN):是一种网络结构,主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。
长短期记忆网络(Long Short-Term Memory,LSTM):是一种时间循环神经网络,不仅能够解决RNN无法处理长距离的依赖的问题,还能够解决神经网络中常见的梯度爆炸或梯度消失等问题,在处理序列数据方面非常有效。
双向LSTM(Long Short-Term Memory,BiLSTM):是将同一个输入序列分别接入向前和先后的两个LSTM中,然后将两个网络的隐含层连在一起,共同接入到输出层进行预测。
卷积神经网络(ConvolutionalNeural Networks,CNN):是一种多层的监督学习神经网络,隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。
多通道图像:指多个摄像机拍摄的同一个场景的图像或者一个摄像机在不同时刻拍摄的同一场景的图像。在表示图像时,使用多个通道对图像进行编码。多通道图像常用于人工智能领域。
三通道图像:指具有RGB三种通道的图像,即彩色图像。其中,R为红色,G为绿色,B为蓝色。
单通道图像:也称灰度图,即图像的每个像素点只有一个值表示颜色,它的像素值在0到255之间,0是黑色,255是白色,中间值表示一些不同等级的灰色。
编码器-解码器(Encoder-Decoder):是深度学习中常见的模型框架,很多常见的应用都是利用编码-解码框架设计的,Encoder和Decoder部分可以是任意文字、语音、图像和视频数据等,基于Encoder-Decoder可以设计出各种各样的模型。
特征金字塔网络(Feature Pyramid Network,FPN):同时利用低层特征高分辨率和高层特征的高语义信息,通过融合不同层的特征以达到预测的效果。
可微二值化网络(Differentiable Binarization Network,DBNet):是一种基于分割的文本检测算法,其能够自适应图像场景从而完成文本区域的精准检测。DBNet算法在阈值选取上,通过网络去预测图像每个位置处的阈值,而不是采用一个固定的值,这样就可以很好地将背景与前景分离出来。同时,DBNet算法采用FPN网络结构进行特征提取,能够更好地实现对文本的检测。
目前,许多影像资料都会带有印章,例如,在金融行业,比如保险领域,使用光学字符识别(Optical Character Recognition,OCR)技术把许多业务影像资料(比如投保单、核保资料、理赔文件等)转化成文字并做结构化存储时,由于印章覆盖在影像资料中带文字的区域,对文本检测或文本识别的效果和信息提取的识别准确率都有很大影响。
基于此,本申请实施例提供了一种文本信息提取方法、提取系统、电子设备及存储介质,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
本申请实施例提供的信息提取方法、信息提取系统、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的一种文本信息提取方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的一种文本信息提取方法,涉及人工智能技术领域。本申请实施例提供的一种文本信息提取方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现一种文本信息提取方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
请参阅图1,图1是本申请实施例提供的一种文本信息提取方法的一个可选的流程图,图1中的方法可以具体包括但不限于步骤S110至步骤S140。
步骤S110,获取待提取的目标图像;
步骤S120,利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像;
步骤S130,利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息;
步骤S140,利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。
在一些实施例的步骤S110至步骤S140中,通过获取待提取的目标图像,为了避免了无法对目标图像上被印章遮盖的信息的提取,利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像。为了提高对第一图像中文本信息的识别能力,利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息。并利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。本申请通过结合印章擦除和文本检测识别方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
在一些实施例的步骤S110中,为了实现对带印章图像的文本检测和识别,首先,获取待提取的目标图像。具体地,可以通过图像采集设备,例如摄像机、图像扫描仪等,对待识别的带印章图像进行图像采集,得到目标图像。例如,当需要对带印章的证件进行信息提取时,可以采用摄像机等图像采集设备得到目标图像。
需要说明的是,通过图像采集设备得到了包含带印章的目标文件的初始图像时,由于该初始图像中可能包含会干扰目标文件的背景信息,则可以对初始图像先进行图像截取,得到待提取的目标图像。
在一些实施例的步骤S120中,为了有效地实现对带印章图像的文本检测,利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像。具体地,为了避免目标图像中的印章对文本信息提取的干扰,在对目标图像进行文本行检测前,需要利用预训练的文本擦除模型对目标图像进行印章擦除,以得到去除目标图像上印章的第一图像。本申请实施例通过结合印章擦除的方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
在一些实施例的步骤S130中,在得到去除目标图像上印章的第一图像后,为了实现对目标图像中的文本信息提取,利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息。具体地,利用文本检测模型对第一图像进行文本行检测,得到至少一个包含文本信息的文本框,且根据每个文本框再第一图像中的位置信息,得到第一图像对应的至少一组文本行坐标信息。
在一些实施例的步骤S140中,当得到至少一组文本行坐标信息构成的文本框列表,利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。具体地,利用文本识别模型对每组文本行坐标信息对应的文本框进行文本识别,得到该文本框中全部的目标文本信息,当对所有的文本行坐标信息在第一图像中对应的文本框进行文本识别之后,得到了目标图像对应的多个目标文本信息。本申请实施例通过结合印章擦除的方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
需要说明的是,为了实现根据每组文本行坐标信息对第一图像的文本识别,采用基于CRNN网络结构的文本识别模型对第一图像进行文本识别。具体地,文本识别模型CRNN包括卷积层、循环层和转录层,通过卷积层对每组文本行坐标信息在第一图像中进行特征提取,得到卷积特征向量,实现了对第一图像的特征降维和计算量的减少。通过循环层对卷积特征向量进行标签预测,得到标签分布。并通过转录层对标签分布进行特征整合,得到每组文本行坐标信息对应的目标文本信息。例如,将多组文本行坐标信息和第一图像输入预训练的文本识别模型,输出得到多个目标文本信息。本申请实施例通过对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
需要说明的是,为了提高文本识别模型的识别效率,去除CRNN网络结构中的双向LSTM部分,保留CRNN网络结构中的CNN骨干网部分,以得到预训练的文本识别模型,提高了文本识别模型的识别效率。
需要说明的是,本申请实施例的信息提取方法可以应用于不同的领域,例如,在金融行业的保险领域,当需要对一些业务影像等已经盖有印章的资料,如投保单、核保资料、理赔文件等,将其转换成文字并进行结构化存储时,可以采用本申请实施例的信息提取方法,以准确地实现对带印章图像的文本检测和识别。且本申请实施例的方法也同样可以应用于其他需要对带印章的文件信息进行信息提取的业务场景。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据、用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
请参阅图2,图2是本申请一些实施例的步骤S140的具体方法的流程图。在本申请的一些实施例中,步骤S140具体包括但不限于步骤S210和步骤S220,下面结合图2对这两个步骤进行详细介绍。
步骤S210,根据每组文本行坐标信息对第一图像进行文本图像截取,得到文本行图像;
步骤S220,利用预训练的文本识别模型对每个文本行图像进行文本识别,得到多个目标文本信息。
在一些实施例的步骤S210和步骤S220中,为了提高对每组文本行坐标信息在第一图像中的文本识别效率,根据每组文本行坐标信息对第一图像进行文本图像截取,得到对应的文本行图像,即该文本行图像表示每组文本行坐标信息在第一图像中对应的文本框。利用预训练的文本识别模型对每个文本行图像进行文本识别,得到多个目标文本信息。具体地,利用文本识别模型对每组文本行坐标信息对应的文本框进行文本识别,得到该文本框中全部的目标文本信息,当对所有的文本行坐标信息在第一图像中对应的文本框进行文本识别之后,得到了目标图像对应的多个目标文本信息。本申请实施例通过结合印章擦除的方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
在本申请的一些实施例中,在步骤S210后,本申请的一种文本信息提取方法还包括:对文本行图像进行灰度图像转换,以更新文本行图像。
在一些实施例中,为了减少文本识别模型的计算量,以提高文本识别模型对文本行图像的识别效率,在将每个文本行图像输入到文本识别模型之前,对每个文本行图像进行灰度图像转换,即将属于多通道图像的文本行图像进行灰度图像转换,转换为属于单通道图像的文本行图像,以更新该文本行图像。例如,当文本行图像为三通道图像,则将该文本行图像进行灰度图像转换,转换为属于单通道图像的文本行图像,以更新该文本行图像。本申请实施例通过对文本行图像进行灰度图像转换,提高了对带印章图像的信息提取的准确率。
请参阅图3,图3是本申请预训练的文本擦除模型的训练流程图。在本申请的一些实施例中,文本擦除模型的训练过程具体包括但不限于步骤S310至步骤S350,下面结合图3对这五个步骤进行详细介绍。
步骤S310,构建第一训练样本集,第一训练样本集包括多个第一训练样本,每个第一训练样本包括带印章的初始图像和去除印章的样本图像;
步骤S320,基于EraseNet算法构建端到端的初始文本擦除模型;
步骤S330,将多个带印章的初始图像输入初始文本擦除模型进行模型训练,得到去除印章的第二图像;
步骤S340,根据第二图像和去除印章的样本图像确定第一损失值;
步骤S350,根据第二图像和去除印章的样本图像对初始文本擦除模型的模型参数进行调整,并基于第一训练样本集继续训练调整后的模型,直至第一损失值满足预设训练结束条件,以得到文本擦除模型。
在一些实施例的步骤S310中,为了避免图像中的印章对文本信息提取的干扰,构建第一训练样本集,第一训练样本集包括多个第一训练样本,每个第一训练样本包括带印章的初始图像和去除印章的样本图像,即将大量的带印章的初始图像送入模型进行训练,以使得到的文本擦除模型具有印章擦除功能。
在一些实施例的步骤S320至步骤S350中,为了得到用于实现印章擦除功能的文本擦除模型,首先,基于EraseNet算法构建端到端的初始文本擦除模型。将多个带印章的初始图像输入初始文本擦除模型进行模型训练,得到去除印章的第二图像,根据第二图像和样本图像确定第一损失值。其中,该第一损失值用于表示训练得到的第二图像和去除印章的样本图像之间的误差,则根据第二图像和样本图像对初始文本擦除模型的模型参数进行调整,并基于第一训练样本集继续训练调整后的模型,直至第一损失值满足预设训练结束条件,以得到文本擦除模型。本申请通过结合印章擦除和文本检测识别方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
需要说明的是,基于EraseNet算法构建的端到端的初始文本擦除模型包括:粗擦除网络、精擦除网络和用于感知文本区域的分割头。其中,粗擦除网络包括多个残差块和横向连接,且通过采用非线性变换和卷积操作,能够实现从不同层的特征提取和集成。为了提高初始文本擦除模型对印章擦除的能力,在粗擦除网络级联了一个优化子网络即精擦除网络,将粗擦除网络的输出送入精擦除网络进行预测,可以预测得到更高质量的输出结果。具体地,该精擦除网络中包括dilated卷积和空洞卷积,用于在不增加冗余计算代价的情况下扩大卷积核的大小,且通过结合skip连接来集成更高层次的语义信息和来自粗擦除网络和精擦除网络中较低层次的细节信息。为了避免出现文本误擦除或文本背景情况的误擦除,在粗擦除网络中添加用于感知文本区域的分割头。其中,该分割头是另一种编码器-解码器架构,解码器部分在粗擦除网络的卷积层之后级联,编码器部分与骨干网络共享权重,从而有效解决第一训练样本集中样本不平衡的问题。本申请通过结合印章擦除和文本检测识别方法,能够实现对带印章图像的文本检测和识别,提高了对带印章图像的信息提取的准确率。
请参阅图4,图4是本申请实施例的步骤S320的具体方法的流程图。在本申请的一些实施例中,步骤S320具体包括但不限于步骤S410和步骤S420,下面结合图4对这两个步骤进行详细介绍。
步骤S410,基于EraseNet算法构建端到端的第一文本擦除模型;
步骤S420,利用Mobilenet-v3网络结构优化第一文本擦除模型,得到初始文本擦除模型。
在一些实施例中,为了减小初始文本擦除模型的模型大小,并提高对带印章图像的信息提取的效率,首先,基于EraseNet算法构建端到端的第一文本擦除模型,利用轻量化的Mobilenet-v3网络结构优化第一文本擦除模型,得到初始文本擦除模型。将多个带印章的初始图像输入初始文本擦除模型进行模型训练,得到去除印章的第二图像,根据第二图像和样本图像确定第一损失值。其中,该第一损失值用于表示训练得到的第二图像和去除印章的样本图像之间的误差,则根据第二图像和样本图像对初始文本擦除模型的模型参数进行调整,并基于第一训练样本集继续训练调整后的模型,直至第一损失值满足预设训练结束条件,以得到文本擦除模型。本申请通过优化初始文本擦除模型,以得到文本擦除模型,能够实现对带印章图像的印章擦除,提高了对带印章图像的信息提取的准确率。
请参阅图5,图5是本申请预训练的文本检测模型的训练流程图。在本申请的一些实施例中,文本检测模型的训练过程具体包括但不限于步骤S510至步骤S550,下面结合图5对这五个步骤进行详细介绍。
步骤S510,构建第二训练样本集,第二训练样本集包括多个第二训练样本,每个第二训练样本包括初始训练图像和检测后样本图像;
步骤S520,基于DBNet算法构建初始文本检测模型;
步骤S530,将多个初始训练图像输入初始文本检测模型进行模型训练,得到第三图像;
步骤S540,根据第三图像和检测后样本图像确定第二损失值;
步骤S550,根据第三图像和检测后样本图像对初始文本检测模型的模型参数进行调整,并基于第二训练样本集继续训练调整后的模型,直至第二损失值满足预设训练结束条件,以得到文本检测模型。
在一些实施例中,构建第二训练样本集,第二训练样本集包括多个第二训练样本,每个第二训练样本包括初始训练图像和检测后样本图像。其中,检测后样本图像为初始训练图像中得到的所有文本行坐标信息对应的图像。为了提高文本检测模型的检测效率,基于DBNet算法构建初始文本检测模型。将多个初始训练图像输入初始文本检测模型进行模型训练,得到第三图像,并根据第三图像和检测后样本图像确定第二损失值。其中,该第二损失值用于表示训练得到的第三图像和对应的检测后样本图像之间的误差,根据第三图像和检测后样本图像对初始文本检测模型的模型参数进行调整,并基于第二训练样本集继续训练调整后的模型,直至第二损失值满足预设训练结束条件,以得到文本检测模型。本申请通过文本检测模型对第一图像进行文本行检测,从而实现对带印章图像的文本识别,提高了对带印章图像的信息提取的准确率。
请参阅图6,图6是本申请实施例的步骤S520的具体方法的流程图。在本申请的一些实施例中,步骤S520具体包括但不限于步骤S610和步骤S620,下面结合图6对这两个步骤进行详细介绍。
步骤S610,基于DBNet算法构建第一文本检测模型;
步骤S620,利用Resnet-50网络结构优化第一文本检测模型,得到初始文本检测模型。
在一些实施例的步骤S610和步骤S620中,为了提高文本检测模型的检测准确率,首先,基于DBNet算法构建第一文本检测模型,为了提升第一文本检测模型中卷积层的特征提取能力,利用Resnet-50网络结构优化第一文本检测模型,得到初始文本检测模型。之后,将多个初始训练图像输入初始文本检测模型进行模型训练,得到第三图像,并根据第三图像和检测后样本图像确定第二损失值。其中,该第二损失值用于表示训练得到的第三图像和对应的检测后样本图像之间的误差,根据第三图像和检测后样本图像对初始文本检测模型的模型参数进行调整,并基于第二训练样本集继续训练调整后的模型,直至第二损失值满足预设训练结束条件,以得到文本检测模型。本申请通过优化文本检测模型,提高了文本检测模型对第一图像的文本行检测能力,从而实现对带印章图像的文本识别,提高了对带印章图像的信息提取的准确率。
需要说明的是,DBNet算法采用FPN网络结构进行特征提取,为了提取到更丰富且准确的文本行坐标信息,可以将第一文本检测模型中FPN部分的特征提取层数增加至五层,得到初始文本检测模型,从而提升初始文本检测模型对小目标检测的能力。根据优化的初始文本检测模型进行模型训练,得到文本检测模型,能够提高文本检测模型对第一图像的文本行检测能力,从而实现对带印章图像的文本识别,提高了对带印章图像的信息提取的准确率。需要说明的是,本申请实施例并不限定于只能将FPN部分的特征提取层数增加至五层,可以根据实际的需求和对文本检测模型识别性能的提高进行调整,在此不再赘述。
本申请实施例提供的一种文本信息提取方法,通过获取待提取的目标图像,为了避免了无法对目标图像上被印章遮盖的信息的提取,利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像。为了提高对第一图像中文本信息的识别能力,利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息。为了提高对每组文本行坐标信息在第一图像中的文本识别效率,根据每组文本行坐标信息对第一图像进行文本图像截取,得到对应的文本行图像,即该文本行图像表示每组文本行坐标信息在第一图像中对应的文本框。为了减少文本识别模型的计算量,以提高文本识别模型对文本行图像的识别效率,对每个文本行图像进行灰度图像转换,即将属于多通道图像的文本行图像进行灰度图像转换,转换为属于单通道图像的文本行图像,以更新该文本行图像。利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。为了提高对带印章图像的信息提取的准确率,本申请通过结合优化的文本擦除模型对目标图像进行印章擦除,并结合优化的文本检测模型,提高了文本检测模型对第一图像的文本行检测能力,从而实现了对带印章图像的文本识别,提高了对带印章图像的信息提取的准确率。
请参阅图7,本申请实施例还提供了一种文本信息提取系统,可以实现上述一种文本信息提取方法,该系统包括图像获取模块710、印章擦除模块720、文本行检测模块730和文本识别模块740。
图像获取模块710,用于获取待提取的目标图像;
印章擦除模块720,用于利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像;
文本行检测模块730,用于利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息;
文本识别模块740,用于利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。
需要说明的是,本申请实施例的文本信息提取系统用于实现上述文本信息提取方法,本申请实施例的文本信息提取系统与前述的文本信息提取方法相对应,具体的处理过程请参照前述的文本信息提取方法,在此不再赘述。
本申请实施例提供的文本信息提取系统,可以实现上述文本信息提取方法,通过获取待提取的目标图像,为了避免了无法对目标图像上被印章遮盖的信息的提取,利用预训练的文本擦除模型对目标图像进行印章擦除,得到去除目标图像上印章的第一图像。为了提高对第一图像中文本信息的识别能力,利用预训练的文本检测模型对第一图像进行文本行检测,得到至少一组文本行坐标信息。为了提高对每组文本行坐标信息在第一图像中的文本识别效率,根据每组文本行坐标信息对第一图像进行文本图像截取,得到对应的文本行图像,即该文本行图像表示每组文本行坐标信息在第一图像中对应的文本框。为了减少文本识别模型的计算量,以提高文本识别模型对文本行图像的识别效率,对每个文本行图像进行灰度图像转换,即将属于多通道图像的文本行图像进行灰度图像转换,转换为属于单通道图像的文本行图像,以更新该文本行图像。利用预训练的文本识别模型和每组文本行坐标信息对第一图像进行文本识别,得到多个目标文本信息。为了提高对带印章图像的信息提取的准确率,本申请通过结合优化的文本擦除模型对目标图像进行印章擦除,并结合优化的文本检测模型,提高了文本检测模型对第一图像的文本行检测能力,从而实现了对带印章图像的文本识别,提高了对带印章图像的信息提取的准确率。
本申请实施例还提供了一种电子设备,该电子设备包括:至少一个存储器,至少一个处理器,至少一个计算机程序,至少一个计算机程序被存储在至少一个存储器中,至少一个处理器执行至少一个计算机程序以实现上述实施例中任一种的文本信息提取方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图8,图8示意了另一实施例的一种电子设备的硬件结构,该电子设备包括:
处理器810,可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器820,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器820可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器820中,并由处理器810来调用执行本申请实施例的文本信息提取方法;
输入/输出接口830,用于实现信息输入及输出;
通信接口840,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线850,在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息;
其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种存储介质,该存储介质为计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序用于使计算机执行上述实施例中任一种的文本信息提取方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1至6中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参阅附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (5)
1.一种文本信息提取方法,其特征在于,用于提取保险业务中影像资料的文本信息,其中所述影像资料包括投保单、核保资料、理赔文件的至少一种,所述方法包括:
获取待提取的目标图像;
利用预训练的文本擦除模型对所述目标图像进行印章擦除,得到去除所述目标图像上印章的第一图像;其中,构建所述文本擦除模型的过程具体包括:基于EraseNet算法构建端到端的第一文本擦除模型;利用Mobilenet-v3网络结构优化所述第一文本擦除模型,得到初始文本擦除模型,且所述初始文本擦除模型的模型结构小于所述第一文本擦除模型的模型结构;根据第一训练样本集对所述初始文本擦除模型进行模型训练,得到所述文本擦除模型;
利用预训练的文本检测模型对所述第一图像进行文本行检测,得到至少一组文本行坐标信息;其中,预训练的所述文本检测模型通过如下方法训练得到:构建第二训练样本集,所述第二训练样本集包括多个第二训练样本,每个第二训练样本包括初始训练图像和检测后样本图像;基于DBNet算法构建初始文本检测模型;将多个所述初始训练图像输入所述初始文本检测模型进行模型训练,得到第三图像;根据所述第三图像和所述检测后样本图像确定第二损失值;根据所述第三图像和所述检测后样本图像对所述初始文本检测模型的模型参数进行调整,并基于所述第二训练样本集继续训练调整后的模型,直至所述第二损失值满足预设训练结束条件,以得到所述文本检测模型;其中,所述基于DBNet算法构建初始文本检测模型,包括:基于DBNet算法构建第一文本检测模型,所述DBNet算法利用五层的FPN网络结构进行特征提取;利用Resnet-50网络结构优化所述第一文本检测模型,得到初始文本检测模型;
利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息;其中,所述利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息,包括:根据每组文本行坐标信息对所述第一图像进行文本图像截取,得到文本行图像;对所述文本行图像进行灰度图像转换,以更新所述文本行图像,且更新后的所述文本行图像为单通道图像;利用预训练的文本识别模型对每个所述文本行图像进行文本识别,得到多个目标文本信息。
2.根据权利要求1所述的一种文本信息提取方法,其特征在于,所述预训练的文本擦除模型通过如下方法训练得到:
构建第一训练样本集,所述第一训练样本集包括多个第一训练样本,每个第一训练样本包括带印章的初始图像和去除印章的样本图像;
基于EraseNet算法构建端到端的初始文本擦除模型;
将多个所述带印章的初始图像输入所述初始文本擦除模型进行模型训练,得到去除印章的第二图像;
根据所述第二图像和所述去除印章的样本图像确定第一损失值;
根据所述第二图像和所述去除印章的样本图像对所述初始文本擦除模型的模型参数进行调整,并基于所述第一训练样本集继续训练调整后的模型,直至所述第一损失值满足预设训练结束条件,以得到所述文本擦除模型。
3.一种文本信息提取系统,其特征在于,用于提取保险业务中影像资料的文本信息,其中所述影像资料包括投保单、核保资料、理赔文件的至少一种,所述系统包括:
图像获取模块,用于获取待提取的目标图像;
印章擦除模块,用于利用预训练的文本擦除模型对所述目标图像进行印章擦除,得到去除所述目标图像上印章的第一图像;其中,构建所述文本擦除模型的过程具体包括:基于EraseNet算法构建端到端的第一文本擦除模型;利用Mobilenet-v3网络结构优化所述第一文本擦除模型,得到初始文本擦除模型,且所述初始文本擦除模型的模型结构小于所述第一文本擦除模型的模型结构;根据第一训练样本集对所述初始文本擦除模型进行模型训练,得到所述文本擦除模型;
文本行检测模块,用于利用预训练的文本检测模型对所述第一图像进行文本行检测,得到至少一组文本行坐标信息;其中,预训练的所述文本检测模型通过如下方法训练得到:构建第二训练样本集,所述第二训练样本集包括多个第二训练样本,每个第二训练样本包括初始训练图像和检测后样本图像;基于DBNet算法构建初始文本检测模型;将多个所述初始训练图像输入所述初始文本检测模型进行模型训练,得到第三图像;根据所述第三图像和所述检测后样本图像确定第二损失值;根据所述第三图像和所述检测后样本图像对所述初始文本检测模型的模型参数进行调整,并基于所述第二训练样本集继续训练调整后的模型,直至所述第二损失值满足预设训练结束条件,以得到所述文本检测模型;其中,所述基于DBNet算法构建初始文本检测模型,包括:基于DBNet算法构建第一文本检测模型,所述DBNet算法利用五层的FPN网络结构进行特征提取;利用Resnet-50网络结构优化所述第一文本检测模型,得到初始文本检测模型;
文本识别模块,用于利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息;其中,所述利用预训练的文本识别模型和每组文本行坐标信息对所述第一图像进行文本识别,得到多个目标文本信息,包括:根据每组文本行坐标信息对所述第一图像进行文本图像截取,得到文本行图像;对所述文本行图像进行灰度图像转换,以更新所述文本行图像,且更新后的所述文本行图像为单通道图像;利用预训练的文本识别模型对每个所述文本行图像进行文本识别,得到多个目标文本信息。
4.一种电子设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述至少一个计算机程序被存储在所述至少一个存储器中,所述至少一个处理器执行所述至少一个计算机程序以实现:
如权利要求1至2任一项所述的一种文本信息提取方法。
5.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行:
如权利要求1至2中任一项所述的一种文本信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581957.4A CN114973271B (zh) | 2022-05-26 | 2022-05-26 | 一种文本信息提取方法、提取系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581957.4A CN114973271B (zh) | 2022-05-26 | 2022-05-26 | 一种文本信息提取方法、提取系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114973271A CN114973271A (zh) | 2022-08-30 |
CN114973271B true CN114973271B (zh) | 2024-09-17 |
Family
ID=82955770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210581957.4A Active CN114973271B (zh) | 2022-05-26 | 2022-05-26 | 一种文本信息提取方法、提取系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973271B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173731B (zh) * | 2023-11-02 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、图像处理的方法以及相关装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033543A (zh) * | 2021-04-27 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 曲形文本识别方法、装置、设备及介质 |
CN113191335A (zh) * | 2021-05-31 | 2021-07-30 | 景德镇陶瓷大学 | 基于深度学习的日用陶瓷类型识别方法 |
CN114445841A (zh) * | 2021-12-15 | 2022-05-06 | 阿里巴巴(中国)有限公司 | 纳税申报表识别方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985464B (zh) * | 2020-08-13 | 2023-08-22 | 山东大学 | 面向法院判决文书的多尺度学习的文字识别方法及系统 |
CN114022843A (zh) * | 2021-10-28 | 2022-02-08 | 上海东普信息科技有限公司 | 图片处理方法、装置、计算机设备和存储介质 |
-
2022
- 2022-05-26 CN CN202210581957.4A patent/CN114973271B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033543A (zh) * | 2021-04-27 | 2021-06-25 | 中国平安人寿保险股份有限公司 | 曲形文本识别方法、装置、设备及介质 |
CN113191335A (zh) * | 2021-05-31 | 2021-07-30 | 景德镇陶瓷大学 | 基于深度学习的日用陶瓷类型识别方法 |
CN114445841A (zh) * | 2021-12-15 | 2022-05-06 | 阿里巴巴(中国)有限公司 | 纳税申报表识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
《EraseNet: End-to-End Text Removal in the Wild》;Chongyu Liu et al.;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20200925;第29卷;第8760-8775页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114973271A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3786835A1 (en) | Traffic image recognition method and apparatus, and computer device and medium | |
CN111931664A (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN110598603A (zh) | 人脸识别模型获取方法、装置、设备和介质 | |
CN112949507A (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN113887472B (zh) | 基于级联颜色及纹理特征注意力的遥感图像云检测方法 | |
CN116645624A (zh) | 视频内容理解方法和系统、计算机设备、存储介质 | |
CN114973271B (zh) | 一种文本信息提取方法、提取系统、电子设备及存储介质 | |
CN115205546A (zh) | 模型训练方法和装置、电子设备、存储介质 | |
CN115131634A (zh) | 图像识别方法、装置、设备、存储介质及计算机程序产品 | |
CN115222061A (zh) | 基于持续学习的联邦学习方法以及相关设备 | |
CN116994000A (zh) | 零件边缘特征提取方法和装置、电子设备及存储介质 | |
CN112738555B (zh) | 视频处理方法及装置 | |
CN114005019A (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN117746015A (zh) | 小目标检测模型训练方法、小目标检测方法及相关设备 | |
CN113496212A (zh) | 箱式结构的文本识别方法、装置及电子设备 | |
CN117668758A (zh) | 对话意图识别方法和装置、电子设备及存储介质 | |
CN111753836A (zh) | 文字识别方法、装置、计算机可读介质及电子设备 | |
CN116311276A (zh) | 文档图像矫正方法、装置、电子设备及可读介质 | |
CN113887470B (zh) | 基于多任务注意力机制的高分辨率遥感图像地物提取方法 | |
CN113627243B (zh) | 一种文本识别方法及相关装置 | |
CN113158818A (zh) | 用于识别伪造视频的方法、装置和设备 | |
CN113516148A (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN113542866B (zh) | 视频处理方法、装置、设备及计算机可读存储介质 | |
WO2024174583A1 (zh) | 一种模型训练方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |