CN115810197A - 一种多模态电力表单识别方法及装置 - Google Patents
一种多模态电力表单识别方法及装置 Download PDFInfo
- Publication number
- CN115810197A CN115810197A CN202211651612.8A CN202211651612A CN115810197A CN 115810197 A CN115810197 A CN 115810197A CN 202211651612 A CN202211651612 A CN 202211651612A CN 115810197 A CN115810197 A CN 115810197A
- Authority
- CN
- China
- Prior art keywords
- image
- preprocessed image
- power form
- modal
- preprocessed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供了一种多模态电力表单识别方法及装置。在执行该方法时,先获取待识别电力表单的图像,接着对待识别电力表单的图像进行预处理,得到预处理后的图像,然后利用CTPN神经网络模型对预处理后的图像进行文本行位置信息提取,得到预处理后的图像中文本行的位置信息;并基于文本行的位置信息,利用CRNN模型对预处理后的图像进行识别,得到预处理后的图像的识别结果;最后利用多模态特征信息提取算法,对预处理后的图像的识别结果进行提取,将多模态特征信息作为待识别的电力表单的识别结果。本申请能够在多个场景下自动识别表格性质的电力表单的多模态特征信息,解决人工摘录工作效率低的问题,提高电力表单识别效率,且具有强壮的鲁棒性。
Description
技术领域
本申请涉及图像识别领域,尤其涉及一种多模态电力表单识别方法及装置。
背景技术
由于电力行业长期存在基层结构性缺员,关键基层岗位上人员数量不足且工作任务繁杂,运检部的试验报告作为工单票据均需要人工识别内容后手动操作业务系统来完成录入工作,手动操作录入不但要求高、工作量大且重复性高,无法高效转化为数字文件,且电力表单识别效率低。
目前,对于传统大部分基于模板匹配的方法需要针对不同的场景制定模板并进行适配,较为繁琐,不够鲁棒。
发明内容
有鉴于此,本申请提供了一种多模态电力表单识别方法及装置,旨在解决人工摘录工作的效率低,提高电力表单识别效率,且鲁棒性强。
第一方面,本申请实施例提供了一种多模态电力表单识别方法,所述方法包括:
获取待识别电力表单的图像;
对所述待识别电力表单的图像进行预处理,得到预处理后的图像;
利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;
基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;
利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果。
可选地,所述对所述待识别电力表单的图像进行预处理,包括:
基于加权值法对所述待识别电力表单的图像进行灰度变换处理,得到所述待识别电力表单对应的灰度图像;
利用二值化函数,对所述灰度图像进行二值化处理,得到所述灰度图像对应的二值化图像。
可选地,在得到所述灰度图像对应的二值化图像之后,所述方法还包括:
对所述二值化图像进行方向检测,得到检测结果;
基于所述检测结果,对所述二值化图像的位置进行校正。
可选地,所述预先训练的CTPN神经网络模型包括VGG16网络层,全连接层;
所述利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息,包括:
将所述预处理后的图像输入所述VGG16网络层中进行特征提取,生成第一特征图;
对所述第一特征图进行滑动窗口操作,生成第二特征图;
利用所述全连接层对所述第二特征图进行提取,得到所述第二特征图对应的特征向量;
分别将所述特征向量输入所述全连接层的三个分支层中进行预测,得到所述特征向量对应的垂直坐标回归、分类得分、水平平移量;
将所述垂直坐标回归、分类得分、水平平移量进行换算后,得到所述预处理后的图像中文本行的位置信息。
可选地,所述预先训练的CRNN模型包括卷积层、RNN循环层;
所述基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果包括:
所述卷积层基于所述文本行的位置信息,将所述预处理后的图像进行提取,得到预处理后的图像对应的特征信息;
利用所述RNN循环层对所述预处理后的图像对应的特征信息进行预测,得到对应的预测概率分布序列;
利用所述RNN循环层将所述预测概率分布序列进行转换,得到对应的标记序列;
将所述标记序列作为所述预处理后的图像的识别结果。
可选地,所述利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果,包括:
利用所述多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息;
利用多模态注意力算法,对所述多模态特征信息进行关联和融合,得到多模态目标特征信息,将所述多模态目标特征信息作为所述待识别的电力表单图片的识别结果,所述多模态目标特征信息包括待识别的电力表单图片的文本内容以及所述文本内容对应的类别属性。
第二方面,本申请实施例提供了一种多模态电力表单识别装置,所述装置包括:
获取模块,用于获取待识别电力表单的图像;
预处理模块,用于对所述待识别电力表单的图像进行预处理,得到预处理后的图像;
第一提取模块,用于利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;
识别模块,用于基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;
第二提取模块,用于基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果。
可选地,所述预处理模块包括灰度处理子模块和二值化处理子模块;
所述灰度处理子模块,用于基于加权值法对所述待识别电力表单的图像进行灰度变换处理,得到所述待识别电力表单对应的灰度图像;
所述二值化处理子模块,用于对所述灰度图像进行二值化处理,得到所述灰度图像对应的二值化图像。
可选地,在得到所述灰度图像对应的二值化图像之后,所述装置还包括:
校正模块,用于对所述二值化图像进行方向检测,得到检测结果;
基于所述检测结果,对所述二值化图像的位置进行校正。
第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以上任意一项所述方法。
上述技术方案具有如下有益效果:
本申请提供了一种多模态电力表单识别方法及装置。在执行所述方法时,先获取待识别电力表单的图像,接着对所述待识别电力表单的图像进行预处理,得到预处理后的图像,然后利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;并基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;最后利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果。这样一来,本申请利用预先训练的CTPN神经网络模型提取待识别电力表单图像中文本行的位置信息,基于文本行的位置信息,利用预先训练的CRNN模型识别预处理后的图像的文本信息,利用多模态特征信息提取算法,对预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,能够在多个场景下自动识别表格性质的电力表单的多模态特征信息,解决人工摘录工作效率低的问题,提高电力表单识别效率,且具有强壮的鲁棒性。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的多模态电力表单识别方法的一种方法流程图;
图2为本申请实施例提供的多模态电力表单识别装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中相关术语介绍如下:
CTPN神经网络模型:基于连接预选框网络的文本检测(Detecting Text inNatural Image with Connectionist Text Proposal Network,CTPN)神经网络模型。该模型主要是对图片中的文本行进行准确定位,其基本做法是直接在卷积获得的feature map(特征图)上生成的一系列适当尺寸的文本proposals(预选框)进行文本行的检测。
CRNN模型:全称为Convolutional Recurrent Neural Network,主要用于端到端地对不定长的文本序列进行识别,不需要先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,基于图像的序列识别。
多模态:在人工智能领域中,往往指感知信息,如图像、文本、语音等协同,帮人工智能更准确地理解外部世界。
为便于理解本申请提供的技术方案,下面将先对本申请涉及的背景技术进行说明。
发明人经研究发现,由于电力行业长期存在基层结构性缺员,关键基层岗位上人员数量不足且工作任务繁杂,运检部的试验报告作为工单票据均需要人工识别内容后手动操作业务系统来完成录入工作,手动操作录入不但要求高、工作量大且重复性高,无法高效转化为数字文件,且电力表单识别效率低。
进一步地,传统基于模板匹配的方法需要针对不同的场景制定模板并进行适配,较为繁琐,不够鲁棒,无法针对电力试验报告表单文字、页面布局、不同版式解决识别问题。
为了克服上述技术问题,本申请实施例提供了一种多模态电力表单识别方法,本申请实施例的方法可以由一种多模态电力表单识别装置来执行,该装置可以由软件和/或硬件的方式实现,并一般可集成于服务器或终端设备中。
请参见图1,图1为本申请实施例提供的一种多模态电力表单识别方法的一种方法流程图,该方法可以包括:
步骤S101:获取待识别电力表单的图像。
本申请实施例中,首先获取待识别电力表单的图像,便于后续对所述待识别电力表单的图像进行预处理。
步骤S102:对所述待识别电力表单的图像进行预处理,,得到预处理后的图像。
在一种可能实现的方式中,所述对所述待识别电力表单的图像进行预处理,包括:基于加权值法对所述待识别电力表单的图像进行灰度变换处理,得到所述待识别电力表单对应的灰度图像;利用二值化函数,对所述灰度图像进行二值化处理,得到所述灰度图像对应的二值化图像。
具体地,本申请实施例基于加权值法对待识别电力表单的图像进行灰度变换处理,得到待识别电力表单对应的灰度图像。
具体方法为,基于加权值法对图像进行灰度变换处理,其中红色(R)、绿色(G)、蓝色(B)权值分别按照0.299、0.587、0.144比例加权平均得到合理的灰度图像,公式Gray(灰度值)=R*0.299+G*0.587+B*0..144。
在得到待识别电力表单对应的灰度图像后,利用二值化函数,对灰度图像进行二值化处理,得到灰度图像对应的二值化图像。
具体地,二值化函数为:
其中,ex,y为处理后图像中坐标(x,y)处的像素值,fx,y为图像图像中坐标(x,y)处的原始像素值,T为二值化阈值。
需要说明的是,二值化处理能够减少数据维度,排除原图中噪声带来的干扰凸显有效区域的轮廓范围,可以显著提升识别的准确率。
在一种可能实现的方式中,在得到所述灰度图像对应的二值化图像之后,所述方法还包括:对所述二值化图像进行方向检测,得到检测结果;基于所述检测结果,对所述二值化图像的位置进行校正。
由于拍摄待识别电力表单的图像的过程涉及人工操作,获取的待识别图像或多或少都会存在一些倾斜。因此,在得到所述灰度图像对应的二值化图像后,对所述二值化图像进行方向检测,得到检测结果;基于所述检测结果,对所述二值化图像的位置进行校正。
具体地:通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度,具体是指:对于二值图像矩阵I(ky,jx)的矩阵坐标(ky,jx),将(N,1)作为原点坐标,建立笛卡尔坐标轴,矩阵坐标变换为笛卡尔坐标X=jx,Y=N-ky相对于X轴θ建立(ky,jx)坐标轴,图像的笛卡尔坐标在(X',Y')的X'轴上进行投影,统计投影值,θ从0~90°度变换,寻找最大投影值对应的角度θ,90-θ便是矩阵图像矩阵I(ky,jx)需要逆时针转动的倾斜角度,本质上,,追踪图像中每个点对应曲线间的交点,如果交于一点的曲线的数量超过了阈值,那么可以认为这个交点所代表的参数对在原图像中为一条直线。
步骤S103:利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息。
具体地,在通过步骤S102得到预处理后的图像之后,利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,从而得到所述预处理后的图像中文本行的位置信息。
需要说明的是,CTPN神经网络模型的训练过程如下:
获取用于训练CTPN神经网络模型的训练集,所述训练集包括多个历史电力表单。具体地,首先收集多个历史电力表单,接着利用labelimg标注工具对多个历史电力表单进行标注,得到xml格式的数据集然后再转成VOCdevkit数据集。
而后利用python语言结合Tensorflow框架、Opencv等第三方工具包构建CTPN神经网络,最后利用数据集,训练该CTPN神经网络模型。
在一种可能实现的方式中,所述预先训练的CTPN神经网络模型包括VGG16网络层,全连接层;
所述利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息,包括:
将所述预处理后的图像输入所述VGG16网络层中进行特征提取,生成第一特征图;对所述第一特征图进行滑动窗口操作,生成第二特征图;利用所述全连接层对所述第二特征图进行提取,得到所述第二特征图对应的特征向量;分别将所述特征向量输入所述全连接层的三个分支层中进行预测,得到所述特征向量对应的垂直坐标回归、分类得分、水平平移量;将所述垂直坐标回归、分类得分、水平平移量进行换算后,得到所述预处理后的图像中文本行的位置信息。
具体地,将预处理后的图像输入预先训练的CTPN神经网络模型中的VGG16网络层进行特征提取,生成第一特征图。然后对第一特征图进行一系列滑动窗口操作,从而生成第二特征图。接着将第二特征图输入预先训练的CTPN神经网络模型中的全连接层进行提取,得到第二特征图对应的特征向量,并分别将特征向量输入预先训练的CTPN神经网络模型中的全连接层的三个分支层中进行预测,得到特征向量对应的垂直坐标回归、分类得分、水平平移量,最后将所述垂直坐标回归、分类得分、水平平移量进行换算后,得到所述预处理后的图像中文本行的位置信息。
在实际应用中,VGG16网络层由一个W*H*C的conv5的featuremap,使用大小为3*3的空间窗口,在最后一层卷积(VGG16的conv5)的featuremap上滑动窗口,每行中的顺序窗口通过BLSTM(bi-directionallongshort-termmemory)循环连接,其中每个窗口的卷积特征(3*3*C)作为BLSTM的输入,再实现双向BLSTM,增强关联序列的信息学习,再将VGG16最后一层卷积层输出的featuremap转化为向量形式,得到特征向量。
步骤S104:基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果。
具体地,在通过步骤S103得到预处理后的图像中文本行的位置信息后,基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果。
需要说明的是,CRNN模型的训练过程如下:
获取训练集,所述训练集包括历史电力表单中的文字字符,所述数据是根据历史电力表单的票据字符信息生成的,利用所述训练集训练所述CRNN模型。
在一种可能实现的方式中,所述预先训练的CRNN模型包括卷积层、RNN循环层;所述基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果包括:所述卷积层基于所述文本行的位置信息,将所述预处理后的图像进行提取,得到预处理后的图像对应的特征信息;利用所述RNN循环层对所述预处理后的图像对应的特征信息进行预测,得到对应的预测概率分布序列;利用所述RNN循环层将所述预测概率分布序列进行转换,得到对应的标记序列;将所述标记序列作为所述预处理后的图像的识别结果。
需要说明的是,预先训练的CRNN模型的卷积层是采用改进的VGG卷积层,该卷积层主要参考了VGG16卷积网络的设计,该VGG16卷积网络的设计耗费更多计算资源,并且参数量很大,所以在其基础上进行了改进,将原来13个卷积层改为现在的7个卷积层,并取消了3个全连接层,这种改进方法减少了网络的训练参数,提高网络训练效率。其中,每个卷积层采用滑动步长为1的3x3的卷积核。
本申请实施例中利用改进的卷积层,基于文本行的位置信息,将所述预处理后的图像进行提取,得到预处理后的图像对应的特征信息,接着利用RNN循环层对所述预处理后的图像对应的特征信息进行预测,得到对应的预测概率分布序列,然后利用述RNN循环层将所述预测概率分布序列进行转换,得到对应的标记序列,并最后将标记序列作为所述预处理后的图像的识别结果。
步骤S105:利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果。
本申请实施例中,在通过步骤S104得到所述预处理后的图像的识别结果后,利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,最后将多模态特征信息作为所述待识别的电力表单的识别结果。
在一种可能实现的方式中,所述利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果,包括:利用所述多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息;利用多模态注意力算法,对所述多模态特征信息进行关联和融合,得到多模态目标特征信息,将所述多模态目标特征信息作为所述待识别的电力表单图片的识别结果,所述多模态目标特征信息包括待识别的电力表单图片的文本内容以及所述文本内容对应的类别属性。
具体地,首先利用所述多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息。
在实际应用中,利用所述多模态特征信息提取算法VI-LayoutXLM,使用BERT预训练语言表征模型作为backbone主干网络的基础,并加入2-D绝对位置信息,图像信息,分别捕获预处理后的图像的识别结果中的位置、字体、文字方向、颜色等视觉信息特征。使用PaddleOCR组件中的VI-LayoutXLM的多模态语义实体识别方法,通过融合文本、位置与版面信息,引入符合阅读顺序的文本行排序方法,得到预处理后的图像的文本特征,结合预处理后的图像的文本特征和视觉信息特征,得到对应的多模态特征信息。
接着,利用多模态注意力算法,对所述多模态特征信息进行关联和融合,得到多模态目标特征信息,将所述多模态目标特征信息作为所述待识别的电力表单图片的识别结果。其中,多模态目标特征信息包括待识别的电力表单图片的文本内容以及所述文本内容对应的类别属性,实现关键字段的抽取。
需要说明的是,在得到多模态目标特征信息之后,还可以利用多层感知机MLP,对多模态目标特征信息进行预测,得到预测答案。
需要说明的是,由于传统的模板匹配方法对于电力试验报告的识别不具有泛化性,尤其当试验报告格式、版面出现变化时,相对应的模板也随之失效。而本申请通过捕获图片文本中的相对位置以及字体、文字方向、颜色等视觉信息特征,和通过融合文本、位置与版面信息,引入符合阅读顺序的文本行排序方法,得到预处理后的图像的文本特征。能够实现关键信息提取模块具备强壮的鲁棒性,可以应对不同的报告单格式的识别。
从上述技术方案可以看出,本申请实施例先获取待识别电力表单的图像,接着对所述待识别电力表单的图像进行预处理,得到预处理后的图像,然后利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;并基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;最后利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果。这样一来,本申请利用预先训练的CTPN神经网络模型提取待识别电力表单图像中文本行的位置信息,基于文本行的位置信息,利用预先训练的CRNN模型识别预处理后的图像的文本信息,利用多模态特征信息提取算法,对预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,能够在多个场景下自动识别表格性质的电力表单的多模态特征信息,解决人工摘录工作效率低的问题,提高电力表单识别效率,且具有强壮的鲁棒性。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以上为本申请实施例提供一种CVT变速器中滤清器的故障检测方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。
参见图2所示的一种多模态电力表单识别装置的结构示意图,该装置可以包括获取模块100、预处理模块200、第一提取模块300、识别模块400和第二提取模块500。
获取模块100,用于获取待识别电力表单的图像;
预处理模块200,用于对所述待识别电力表单的图像进行预处理,得到预处理后的图像;
第一提取模块300,用于利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;
识别模块400,用于基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;
第二提取模块500,用于基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果。
可选地,所述预处理模块包括灰度处理子模块和二值化处理子模块;
所述灰度处理子模块,用于基于加权值法对所述待识别电力表单的图像进行灰度变换处理,得到所述待识别电力表单对应的灰度图像;
所述二值化处理子模块,用于对所述灰度图像进行二值化处理,得到所述灰度图像对应的二值化图像。
可选地,在得到所述灰度图像对应的二值化图像之后,所述装置还包括:
校正模块,用于对所述二值化图像进行方向检测,得到检测结果;
基于所述检测结果,对所述二值化图像的位置进行校正。
从上述技术方案可以看出,本申请实施例先获取待识别电力表单的图像,接着对所述待识别电力表单的图像进行预处理,得到预处理后的图像,然后利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;;并基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;最后利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果。这样一来,本申请利用预先训练的CTPN神经网络模型提取待识别电力表单图像中文本行的位置信息,基于文本行的位置信息,利用预先训练的CRNN模型识别预处理后的图像的文本信息,利用多模态特征信息提取算法,对预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,能够在多个场景下自动识别表格性质的电力表单的多模态特征信息,解决人工摘录工作效率低的问题,提高电力表单识别效率,且具有强壮的鲁棒性。
本申请实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例中所述的一种多模态电力表单识别方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本领域技术人员可以理解,图所示的流程图仅是本申请的实施方式可以在其中得以实现的一个示例,本申请实施方式的适用范围不受到该流程图任何方面的限制。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种多模态电力表单识别方法,其特征在于,所述方法包括:
获取待识别电力表单的图像;
对所述待识别电力表单的图像进行预处理,得到预处理后的图像;
利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;
基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;
利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别电力表单的图像进行预处理,包括:
基于加权值法对所述待识别电力表单的图像进行灰度变换处理,得到所述待识别电力表单对应的灰度图像;
利用二值化函数,对所述灰度图像进行二值化处理,得到所述灰度图像对应的二值化图像。
3.根据权利要求2所述的方法,其特征在于,在得到所述灰度图像对应的二值化图像之后,所述方法还包括:
对所述二值化图像进行方向检测,得到检测结果;
基于所述检测结果,对所述二值化图像的位置进行校正。
4.根据权利要求1所述的方法,其特征在于,所述预先训练的CTPN神经网络模型包括VGG16网络层,全连接层;
所述利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息,包括:
将所述预处理后的图像输入所述VGG16网络层中进行特征提取,生成第一特征图;
对所述第一特征图进行滑动窗口操作,生成第二特征图;
利用所述全连接层对所述第二特征图进行提取,得到所述第二特征图对应的特征向量;
分别将所述特征向量输入所述全连接层的三个分支层中进行预测,得到所述特征向量对应的垂直坐标回归、分类得分、水平平移量;
将所述垂直坐标回归、分类得分、水平平移量进行换算后,得到所述预处理后的图像中文本行的位置信息。
5.根据权利要求1所述的方法,其特征在于,所述预先训练的CRNN模型包括卷积层、RNN循环层;
所述基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果包括:
所述卷积层基于所述文本行的位置信息,将所述预处理后的图像进行提取,得到预处理后的图像对应的特征信息;
利用所述RNN循环层对所述预处理后的图像对应的特征信息进行预测,得到对应的预测概率分布序列;
利用所述RNN循环层将所述预测概率分布序列进行转换,得到对应的标记序列;
将所述标记序列作为所述预处理后的图像的识别结果。
6.根据权利要求1所述的方法,其特征在于,所述利用多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息,将所述多模态特征信息作为所述待识别的电力表单的识别结果,包括:
利用所述多模态特征信息提取算法,对所述预处理后的图像的识别结果进行提取,得到对应的多模态特征信息;
利用多模态注意力算法,对所述多模态特征信息进行关联和融合,得到多模态目标特征信息,将所述多模态目标特征信息作为所述待识别的电力表单图片的识别结果,所述多模态目标特征信息包括待识别的电力表单图片的文本内容以及所述文本内容对应的类别属性。
7.一种多模态电力表单识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别电力表单的图像;
预处理模块,用于对所述待识别电力表单的图像进行预处理,得到预处理后的图像;
第一提取模块,用于利用预先训练的CTPN神经网络模型对所述预处理后的图像进行文本行位置信息提取,得到所述预处理后的图像中文本行的位置信息;
识别模块,用于基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果;
第二提取模块,用于基于所述文本行的位置信息,利用预先训练的CRNN模型对所述预处理后的图像进行识别,得到所述预处理后的图像的识别结果。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括灰度处理子模块和二值化处理子模块;
所述灰度处理子模块,用于基于加权值法对所述待识别电力表单的图像进行灰度变换处理,得到所述待识别电力表单对应的灰度图像;
所述二值化处理子模块,用于对所述灰度图像进行二值化处理,得到所述灰度图像对应的二值化图像。
9.根据权利要求8所述的装置,其特征在于,在得到所述灰度图像对应的二值化图像之后,所述装置还包括:
校正模块,用于对所述二值化图像进行方向检测,得到检测结果;
基于所述检测结果,对所述二值化图像的位置进行校正。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211651612.8A CN115810197A (zh) | 2022-12-19 | 2022-12-19 | 一种多模态电力表单识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211651612.8A CN115810197A (zh) | 2022-12-19 | 2022-12-19 | 一种多模态电力表单识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115810197A true CN115810197A (zh) | 2023-03-17 |
Family
ID=85486450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211651612.8A Pending CN115810197A (zh) | 2022-12-19 | 2022-12-19 | 一种多模态电力表单识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115810197A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403203A (zh) * | 2023-06-06 | 2023-07-07 | 武汉精臣智慧标识科技有限公司 | 一种标签生成方法、系统、电子设备及存储介质 |
CN117576699A (zh) * | 2023-11-06 | 2024-02-20 | 华南理工大学 | 一种基于深度学习的机车工单信息智能识别方法及系统 |
-
2022
- 2022-12-19 CN CN202211651612.8A patent/CN115810197A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116403203A (zh) * | 2023-06-06 | 2023-07-07 | 武汉精臣智慧标识科技有限公司 | 一种标签生成方法、系统、电子设备及存储介质 |
CN116403203B (zh) * | 2023-06-06 | 2023-08-29 | 武汉精臣智慧标识科技有限公司 | 一种标签生成方法、系统、电子设备及存储介质 |
CN117576699A (zh) * | 2023-11-06 | 2024-02-20 | 华南理工大学 | 一种基于深度学习的机车工单信息智能识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993160B (zh) | 一种图像矫正及文本与位置识别方法及系统 | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
Yin et al. | FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution | |
CN111860348A (zh) | 基于深度学习的弱监督电力图纸ocr识别方法 | |
CN112801146B (zh) | 一种目标检测方法及系统 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
CN111401372A (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN101807257A (zh) | 图像标签信息识别方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
He et al. | Context-aware mathematical expression recognition: An end-to-end framework and a benchmark | |
CN114758341A (zh) | 一种智能化合同图像识别与合同要素抽取方法及装置 | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
Salunkhe et al. | Recognition of multilingual text from signage boards | |
CN104881641A (zh) | 基于移动设备的问卷和表格数字化识别方法及系统 | |
US20230196718A1 (en) | Image augmentation device and method | |
CN114694133B (zh) | 一种基于图像处理与深度学习相结合的文本识别方法 | |
CN116912872A (zh) | 图纸识别方法、装置、设备及可读存储介质 | |
Shi et al. | An invoice recognition system using deep learning | |
WO2023273196A1 (zh) | 一种文本识别方法及相关装置 | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
CN113657162A (zh) | 一种基于深度学习的票据ocr识别方法 | |
CN112434698A (zh) | 字符识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |