CN114550153A - 一种端子排图像检测识别方法 - Google Patents
一种端子排图像检测识别方法 Download PDFInfo
- Publication number
- CN114550153A CN114550153A CN202210117989.9A CN202210117989A CN114550153A CN 114550153 A CN114550153 A CN 114550153A CN 202210117989 A CN202210117989 A CN 202210117989A CN 114550153 A CN114550153 A CN 114550153A
- Authority
- CN
- China
- Prior art keywords
- stage
- text
- image
- detection
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明涉及一种端子排图像检测识别方法,涉及图像处理技术领域。该方法包括:在端子排机柜上,先获取端子排待处理图像,然后基于所提出的一阶段结合注意力模块的文字检测网络预先训练好的模型,进行端子排文字检测、分割到实例。基于一阶段所得到的文本实例,再通过二阶段预先训练好的文本识别模型,识别出文本的实际的内容。这种结合了注意力模块和文本扭曲增强的方式,能够有效解决文本目标检测分割边界定位不准的问题,能够有效解决扭曲文本识别转译的问题。最终实现端子排文本检测、识别的准确率提升,且提升效果比较明显。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种端子排图像检测识别方法。
背景技术
人工智能被誉为第四次工业革命的核心驱动力,对社会和经济的影响日益凸显。随着人工智能技术的进一步成熟以及政府和产业界投入的日益增长,人工智能应用将不断加速。各国政府纷纷出台相关政策,并将其上升到国家战略高度。当前,国家电网的运行方式和发展模式也正在发生变化,电网向高电压大电网、广域互连、配电网柔性自适应方向发展,能源互联网逐步形成。传统技术方法已无法满足电网业务的快速发展需求和解决相关业务痛点,需借助人工智能技术,从模型、样本、平台、通用组件、各专业智能化应用、运营机制、开放生态等多个方面统筹开展人工智能体系设计,加快人工智能的应用落地,促进公司电网数字化转型升级,实现对电网业务全面赋能。现阶段国家电网在面向人工智能应用建设方面,已成功应用无人机智能巡检技术,替代传统人工巡检,极大提高了隐蔽性缺陷发现率;安监领域亦开展了现场作业视频智能分析,实现典型违章行为的智能识别;基建领域在高风险和复杂工序现场,实施违章智能告警应用,有效识别电力作业现场安全隐患。
随着神经网络的复兴,场景文字检测和识别任务得到了很大推动,基于自然场景图像的文字识别技术也逐渐成为计算机视觉研究中的热点问题,并且近年来涌现了许多基于深度学习的场景文字检测和识别的算法。OCR文字识别作为一种通用的图像理解技术,对信息检索、电力系统信息回路,图纸、图片数据转换等应用的研究都有着重要意义。但现阶段因文字字符结构复杂,种类繁多,自然环境复杂多样、文字扭曲的原因,造成检测、识别、转译难度大的问题,依然不能得到有效解决。在实际应用过程中,失败案例屡屡出现,原因各不相同,其中大部分都是源于模型对于新“新数据”缺乏泛化能力。因此,即使OCR模型可以处理许多情况,如不同的字体、方向、角度、曲线、背景,但也有一些偏差是不能工作,如一些不流行的字体、符号、背景等等。
本研究针对目前电力系统设备的二次作业智能回路检修工作过程中,存在机房电器柜端子排关联信息与标准CAD图纸信息对比复核,及现场信息二次回路识别智能化辅助人员决策的应用需求。开展现场端子排图像文字检测、识别、CAD图纸结构化数据库建设及端子号对应关系核查、校准的应用技术研究。以期实现辅助检修作业过程中的CAD图纸、图像识别对比,达到提升设备检修作业效率、降低人员操作工作失误率,实现二次作业智能化决策的实际应用。
发明内容
本发明的目的在于针对现场端子排的数据形式,结合现阶段OCR检测识别研究现状,当前最先进的OCR识别系统,所采取的技术路线多数是以分割为基础的算法检测,再根据对分割结果进行文字识别的两阶段方法。本发明的技术方案:
一种端子排图像检测识别方法,采用OCR识别系统,以分割为基础的算法检测,再根据对分割结果进行文字识别的两阶段方法,通过由下而上的方式,先对文本进行分割,然后再根据文本分割实例,计算出文本的实际内容;
两阶段方法为两阶段OCR字符识别,一阶段采用可微的二值化DBNet网络结构作为文本检测,在模型骨干(backbone)的各个阶段添加了BAM模块,用于增强模型的增强表达,在文本结构信息缺失的情况下,仍然能对文本目标分割边界定位;二阶段采用CNN+RNN+CTC方法实现文本识别。
CNN为卷积神经网络结构,RNN为循环神经网络结构,CTC是一种避开输入与输出手动对齐的一种方式。是语音识别或者OCR识别的常用应用方法。
CNN+RNN+CTC表述为:
采用CNN卷积网络结构,用于提取输入文本图像的卷积特征,RNN循环神经网络是将在卷积特征的基础上继续提取文字序列特征,用于表征文本序列之间的上下文语义信息,是指文本的实际内容。使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列,即实际文本内容。CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者OCR应用。
Backbone-通常指在不同图像细粒度上聚合并形成图像特征的卷积神经网络。
Neck:通常指一系列混合和组合图像特征的网络层,并将图像特征传递到预测层。
Head:通常指对图像特征进行预测,转译部分。
优选的,所述以分割为基础的算法检测:就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程;
OCR识别技术路线,第一阶段先通过图像分割确定文字的位置,并将确定的文字位置进行抠图,第二阶段,基于抠出的图像,进行OCR文字识别。
优选的,所述两阶段OCR字符识别的文字识别网络架构包括两部分:检测端和识别端。
优选的,检测端为OCR检测识别模型的第一阶段,先对现场采集的数据做有效的数据增强功能,包含文字的变形、光照和噪声数据处理方式;其次,再具体使用当前CNN特征提取结构作为Resnet-backbone,同时neck端,SFF融合CNN阶段的特征分布;最后head端达到从输入图像到文字分割,基于分割结果,实现一阶段预测定位到文本的位置信息。
优选的,采用ResNet作为backbone,在残差数据融合阶段,附加了瓶颈注意模块,使得更倾向于模型所注意的边界上面。
优选的,采用Backbone为Resnet50,并在网络的四个阶段:阶段1,阶段2,阶段3和阶段4,分别添加一个BAM模块,用于注意不同阶段的注意力边界信息,所提出的改进的Improved-DB-Net网络结构;依据更改的网络结构在公有的数据集上,进行训练,并同时确保同样的数据以及训练参数,最终在同一张端子排线管图像上进行检测效果对比。
优选的,识别端包括另一部分OCR Recognition,所述另一部分OCR Recognition作为第二阶段,二阶段的输入为一阶段4-points位置输出,通过位置输出,将可回归文本区域的图像信息进行抠图,抠出原始图像,作为二阶段的输入;二阶段网络结构,使用CNN+RNN网络结构。
优选的,为了提高第二阶段识别准确率,首先通过BDA+TIA的数据增强方式,一是扩充自然环境的光照影响,二是扩增扭曲文本样本的数量,增强表达进而提高模型的学习能力,进而提高OCR文字转译准确率,解决扭曲文本识别转译的问题。
BDA(Base Data Augmentation,基于基本图像处理的数据增强),包含但不限于颜色、噪声、透视等变化,用于生成新的图像;TIA一种新的数据增强方法,是一种有效的扭曲文本增强策略。其原理是首先,设置一些参考点,然后将这些参考点进行随机扰动,并将相应的局部图像进行几何变换,形成新的变换图像。
优选的,二阶段,CNN+RNN之后,将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行预测得到文本序列;
转译阶段使用CTC)解码对齐方式,一是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;二是解决图像中文字存在类似的Sequence to Sequence问题。
CNN+RNN:以CNN卷积神经网络进行文本图像处理得到图像的序列特征,以图像序列特征作为RNN循环神经网络结构的输入,进行文本字符序列的上下文特征学习。
Sequence to Sequence问题:指从序列到序列的映射问题,机器翻译,语音转译及OCR等领域的都需要语音、文本对齐(见图),但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时,由于人的语速的不同,或者字符间距离的不同,导致模型很难收敛。也即是用CTC的原因。
优选的,在端子排图像检测识别之前进行端子排图像标注处理。
针对端子排上的文字数字、文本内容标注,为弥补数据不足,防止漏标的情况,本标注方法大方面采用“应标尽标”的原则。正确标注方式。
采用原则一般为:角度为非水平位(向上/向下带倾斜角度)的端子排需采用四点式标注,保证标注边框紧贴文字数字的周边,不得留有空隙。同一线管上的文字标注为一个整体,文字(数字)间若带有空格,不需要分开标注。且需要将空格标注出来,在标注过程中,如果中间存在若干空格只标注一个空格即可。
依据端子排现场数据情况,常常会存在各式各样的问题,为满足端子排检测识别,参考当前OCR技术领域的数据常用处理方法,针对不同情况,进行有效调节解决。
本发明的有益效果:
本发明SFF融合不同CNN阶段的特征分布,实现不同尺度上的检测能力,弥补待检测目标的尺度问题。最后head端达到从输入图像到文字分割,最后基于分割结果,实现一阶段预测定位到文本的位置信息。本发明以进一步提升使识别准确率,且效果提升比较明显。本发明利用BLSTM和CTC部件学习字符图像中的上下文关系,从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征。
本发明结合了注意力模块和文本扭曲增强的方式,能够有效解决文本目标检测分割边界定位不准的问题,能够有效解决扭曲文本识别转译的问题。最终实现端子排文本检测、识别的准确率提升,且提升效果比较明显。
附图说明
图1-1端子排文本正确标注示例图;
图1-2常见标注形式及解决方法图;
图2-1端子排文字字符OCR检测识别网络架构图;
图2-2 BAM:Bottleneck Attention Module---BMCV2018图;
图2-3 Improved-DB-Net网络结构图;
图2-4 DB-Net对比Improved-DB-Net检测效果图;
图2-5 TIA数据增强方法效果图;
图2-6 CNN+RNN网络结构图;
图3为一致性结果对比技术路线图。
具体实施方式
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。术语“内”、“上”、“下”等指示的方位或状态关系为基于附图所示的方位或状态关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。
下面结合附图以及具体实施方式对本发明作进一步详细说明。
针对端子排二次作业应用功能需求,结合端子排现场工作环境分析。存在困难点如下:
(1)自然环境复杂多样,端子排背景并不单一,背景如果存在非端子信息的文字,会形成文字的误检测、识别,给端子排关联关系增加不必要的外来输入;端子排线号呈现递增式分布,相对识别较易但也存在因拍摄角度的问题,造成“端子号偏斜”、“端子排线管文字少部分遮挡”,造成字符信息缺失(半字或少半字)不全,影响文本检测定位的准确性。
(2)端子排场景现场在排线、安装时线管会存在弯折、扭曲等情况,造成文字随着线管产生文字扭曲变形,“文字结构信息不对称”等情况;且线管文本字符数据存在诸如“/”,“-”,“I”,“II”,“0”和“D”,“B”,“8”等难区分特殊字符;中英文不同格式的字符集如“/”、“/”等等,字符集庞大且纷乱复杂,造成识别、转译难度大的问题。
综上,针对端子排数据情况的分析,本发明通过二个方向进行研究部署,以期最大程度上解决现有问题的不足。
(1)文本结构信息缺失的定位检测问题。
(2)扭曲文本识别转译问题。
1、端子排图像标注处理方案
针对端子排上的文字数字、文本内容标注,为弥补数据不足,防止漏标的情况,本标注方法大方面采用“应标尽标”的原则。正确标注方式,见图1-1所示。
采用原则一般为:角度为非水平位(向上/向下带倾斜角度)的端子排需采用四点式标注,保证标注边框紧贴文字数字的周边,不得留有空隙。同一线管上的文字标注为一个整体,文字(数字)间若带有空格,不需要分开标注。且需要将空格标注出来,在标注过程中,如果中间存在若干空格只标注一个空格即可。
依据端子排现场数据情况,常常会存在各式各样的问题,为满足端子排检测识别,参考当前OCR技术领域的数据常用处理方法,针对不同情况,进行有效调节解决,见图1-2。
2、端子排图像检测识别方法
针对现场端子排的数据形式,结合现阶段OCR检测识别研究现状,当前最先进的OCR识别系统,所采取的技术路线多数是以分割为基础的算法检测,再根据对分割结果进行文字识别的两阶段方法。即是通过由下而上的方式,先对文本进行分割,然后再根据文本分割实例,计算出文本的实际内容。而当前OCR文字识别技术,真正端到端的深度学习网络模型架构设计尚不成熟,网络loss目标损失函数的定义容易引起网络学习过程的相悖、矛盾、冲突(如检测趋向于回归,识别趋向于分类),且训练困难,泛化能力不足,模型大,速度慢,精度低,并不适用与工业实际应用领域。
本方案采取两阶段OCR字符识别,一阶段采用可微的二值化(differentiablebinarization)DBNet网络结构作为文本检测,不同的是在神经网络模型的不同阶段添加了BAM(Bottleneck Attention Module)模块,用于增强模型的增强表达,达到在文本结构信息缺失的情况下,仍然能得到有效的对文本目标分割边界定位的目的;二阶段采用CNN+RNN+CTC方法实现文本识别,此种方式是目前最优秀的文字识别网络架构。
总体上,其网络结构层,如图2-1所示(端子排文字字符OCR检测识别网络架构)具体为两部分:检测端和识别端。
(1)端子排文字字符OCR检测端
检测端为OCR检测识别模型的第一阶段,先对现场采集的数据做有效的数据增强功能,包含文字的变形、光照、噪声等数据处理方式;其次,再具体使用当前最优秀的CNN特征提取结构作为Resnet-backbone,同时neck端,SFF(spatial feature fusion)融合不同CNN阶段的特征分布,实现不同尺度上的检测能力,弥补待检测目标的尺度问题。最后head端达到从输入图像到文字分割,最后基于分割结果,实现一阶段预测定位到文本的位置信息。
文本信息不全的定位检测问题,归根结底是文本边界定位不准的问题,是模型缺乏泛化能力的表现。本方案采用ResNet作为backbone,在残差数据融合阶段,附加了瓶颈注意模块(BAM),如图2-2,BAM是一种增强注意力的新方法,用于增强网络模型的表示能力。它是依据于“人看东西时不可能把注意力放在所有的图像上,会把焦点目光聚集在图像的重要物体上,仿照人的眼睛聚焦在图像几个重要的点上”,使得更倾向于模型所注意的边界上面。所采用的注意力模块,既可以满足学习聚焦不同Channel上的不同内容,又可以在Spatial上、位置上有效地通过dilation膨胀系数,去拟合中间特征,增加信息的表达能力。该工作机制更符合人类视觉系统的在“关键敏感信息”刺激下,“定位区域”、“定位位置”的过程表达。所提出BAM注意力模块,作者亦强调了在不同的阶段残差端添加一个注意力模块网络是信息流增强表达的关键点。
依据BAM思路,本方案采用Backbone为Resnet50,并在网络的四个阶段:阶段1,阶段2,阶段3和阶段4,分别添加一个BAM模块,用于注意不同阶段的注意力边界信息,所提出的改进的Improved-DB-Net网络结构,如图2-3所示。
依据更改的网络结构在公有的数据集上,进行训练,并同时确保同样的数据以及训练参数,最终在同一张端子排线管图像上进行检测效果对比,对比结果如图2-4所示。对比结果发现该方法具备一定的边界“学习能力”。
(2)端子排文字字符OCR识别端
另一部分OCR Recognition作为第二阶段,二阶段的输入为一阶段4-points位置输出,通过位置输出,将可回归文本区域的图像信息进行抠图,抠出原始图像,作为二阶段的输入,见网络结构图。
扭曲文本识别转译问题,原因在于整个模型结构,对扭曲文本没有进行有效的学习,端子排所包含的弯曲数据过少。数据增强是提升文本识别效果的常用方法,除了(文本BDA(Base Data Augmentation,基于基本图像处理的数据增强),最近Luo等人针对文字识别提出的一种新的数据增强方法TIA《Learn to Augment:Joint Data Augmentation andNetwork Optimization for文本Recognition.2020》,如图2-5所示。它是一种有效文本扭曲增强的策略。其原理是首先设置一些参考点,然后将这些参考点进行随机扰动,并将相应的局部图像进行几何变换,形成新的变换图像。现阶段OCR识别技术研究方法已证明,它可以进一步提升使识别准确率,且效果提升比较明显。
本研究首先通过(Base Data Augmentation)BDA+TIA的数据增强方式,一是扩充自然环境的光照影响,二是扩增扭曲文本样本的数量,增强表达进而提高模型的学习能力,进而提高OCR文字转译准确率,解决扭曲文本识别转译的问题。另二阶段网络结构,使用CNN+RNN网络结构,如图2-6所示。CNN+RNN(Convolutional Recurrent Neural Network)是目前较为流行的图文识别模型,可识别较长的文本序列(RNN通常使用长短时记忆网络(BLSTM)实现)。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。它利用BLSTM和CTC部件学习字符图像中的上下文关系,从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征。(Recurrent Neural Network)循环层结构。RNN的作用是预测从卷积层获取的特征序列的标签(真实值)分布。OCR文本序列数据分布是指在不同位置点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义,不是指时间而是文字序列,是解决序列数据前后的数据关系映射问题。
二阶段,CNN+RNN之后,将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层(CTC-Connectionist TemporalClassification)进行预测得到文本序列。转译阶段使用CTC)解码对齐方式。一是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;二是解决图像中文字存在类似的Sequence to Sequence问题,如同一般场景OCR文字识别一样,也需要在预处理操作时进行对齐,如果不使用对齐而直接训练模型时,由于文本的位置分布不同,或者端子字符间距离的不同,或者端子字符扭曲、型形变导致模型很难收敛,而CTC是一种避开输入与输出手动对齐的一种方式,是非常适合OCR文本对齐应用的一种有效方法,能有效起到端子文字对齐转译功能。
本发明主要创新点:
文本结构信息缺失的定位检测
提出一种Imporved-DBNet网络结构,意在通过在网络结构Backbone的四个阶段阶段中,附加注意力BAM(Bottleneck Attention Module)模块,提高模型的分割边界泛化能力,进而解决文本结构信息缺失的边界分割定位问题。
扭曲文本识别转译
采用TIA数据增强方法,增加必要的文本扭曲数量,丰富扭曲结构特征的多样性,实现部分因线管“弯折”引起的变形文字的“错”-“误”-“漏”识别问题。
本发明采用基于深度学习的图像文字识别、数据信息关联匹配、数据库关联匹配等核心算法,实现现场端子排数据检测识别及端子号和端子线排信息关联匹配对比。具体表现为利用OCR识别检测端子排结果,通过二分图数据关联匹配算法,形成最后的OCR图像数据匹配结果,进而生成由图像到端子信息的表格化转化;CAD图纸端,通过端子排行业标准规范,建立对应图的图纸数据库,并赋予基于带属性的各端子信息,形成端子信息关联。最后,将OCR检测数据与CAD数据库结果对比,进而实现完整的端子排信息核检回路闭环,辅助巡检工作人员核检、比对应用。如图3所示,实一致性结果对比技术路线。
应可理解的是,本发明不将其应用限制到本文提出的部件的详细结构和布置方式。本发明能够具有其他实施例,并且能够以多种方式实现并且执行。前述变形形式和修改形式落在本发明的范围内。应可理解的是,本文公开和限定的本发明延伸到文中和/或附图中提到或明显的两个或两个以上单独特征的所有可替代组合。本文所述的实施例说明了已知用于实现本发明的最佳方式,并且将使本领域技术人员能够利用本发明。
Claims (10)
1.一种端子排图像检测识别方法,其特征在于,采用OCR识别系统,以分割为基础的算法检测,再根据对分割结果进行文字识别的两阶段方法,通过由下而上的方式,先对文本进行分割,然后再根据文本分割实例,计算出文本的实际内容;
两阶段方法为两阶段OCR字符识别,一阶段采用可微的二值化DBNet网络结构作为文本检测,在模型骨干的各个阶段添加了BAM模块,用于增强模型的增强表达,在文本结构信息缺失的情况下,仍然能对文本目标分割边界定位;二阶段采用CNN+RNN+CTC方法实现文本识别。
2.根据权利要求1所述的一种端子排图像检测识别方法,其特征在于,所述以分割为基础的算法检测:就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程;
OCR识别技术路线,第一阶段先通过图像分割确定文字的位置,并将确定的文字位置进行抠图,第二阶段,基于抠出的图像,进行OCR文字识别。
3.根据权利要求1所述的一种端子排图像检测识别方法,其特征在于,所述两阶段OCR字符识别的文字识别网络架构包括两部分:检测端和识别端。
4.根据权利要求3所述的一种端子排图像检测识别方法,其特征在于,检测端为OCR检测识别模型的第一阶段,先对现场采集的数据做有效的数据增强功能,包含文字的变形、光照和噪声数据处理方式;其次,再具体使用当前CNN特征提取结构作为骨干backbone,同时neck端,融合CNN阶段的特征分布;最后head端达到从输入图像到文字分割,基于分割结果,实现一阶段预测定位到文本的位置信息。
5.根据权利要求4所述的一种端子排图像检测识别方法,其特征在于,采用ResNet作为backbone,在残差数据融合阶段,附加了瓶颈注意模块,使得更倾向于模型所注意的边界上面。
6.根据权利要求5所述的一种端子排图像检测识别方法,其特征在于,采用Backbone为Resnet50,并在网络的四个阶段:阶段1,阶段2,阶段3和阶段4,分别添加一个BAM模块,用于注意不同阶段的注意力边界信息,所提出的改进的Improved-DB-Net网络结构;依据更改的网络结构在公有的数据集上,进行训练,并同时确保同样的数据以及训练参数,最终在同一张端子排线管图像上进行检测效果对比。
7.根据权利要求3所述的一种端子排图像检测识别方法,其特征在于,识别端包括另一部分文本识别,所述另一部分文本识别作为第二阶段,二阶段的输入为一阶段4-points位置输出,通过位置输出,将可回归文本区域的图像信息进行抠图,抠出原始图像,作为二阶段的输入;二阶段网络结构,使用CNN+RNN网络结构。
8.根据权利要求7所述的一种端子排图像检测识别方法,其特征在于,为了提高第二阶段识别准确率,首先通过BDA+TIA的数据增强方式,一是扩充自然环境的光照影响,二是扩增扭曲文本样本的数量,增强表达进而提高模型的学习能力,进而提高OCR文字转译准确率,解决扭曲文本识别转译的问题。
9.根据权利要求8所述的一种端子排图像检测识别方法,其特征在于,二阶段,CNN+RNN之后,将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行预测得到文本序列;
转译阶段使用CTC解码对齐方式,一是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;二是解决图像中文字存在Sequence to Sequence问题。
10.根据权利要求9所述的一种端子排图像检测识别方法,其特征在于,
在端子排图像检测识别之前进行端子排图像标注处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210117989.9A CN114550153A (zh) | 2022-02-08 | 2022-02-08 | 一种端子排图像检测识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210117989.9A CN114550153A (zh) | 2022-02-08 | 2022-02-08 | 一种端子排图像检测识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550153A true CN114550153A (zh) | 2022-05-27 |
Family
ID=81674125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210117989.9A Pending CN114550153A (zh) | 2022-02-08 | 2022-02-08 | 一种端子排图像检测识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550153A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740688A (zh) * | 2023-08-11 | 2023-09-12 | 武汉市中西医结合医院(武汉市第一医院) | 一种药品识别方法和系统 |
CN117037185A (zh) * | 2023-10-10 | 2023-11-10 | 天津普传控制设备有限公司 | 一种基于光学字符识别技术的导线线号识别方法及装置 |
-
2022
- 2022-02-08 CN CN202210117989.9A patent/CN114550153A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740688A (zh) * | 2023-08-11 | 2023-09-12 | 武汉市中西医结合医院(武汉市第一医院) | 一种药品识别方法和系统 |
CN116740688B (zh) * | 2023-08-11 | 2023-11-07 | 武汉市中西医结合医院(武汉市第一医院) | 一种药品识别方法和系统 |
CN117037185A (zh) * | 2023-10-10 | 2023-11-10 | 天津普传控制设备有限公司 | 一种基于光学字符识别技术的导线线号识别方法及装置 |
CN117037185B (zh) * | 2023-10-10 | 2024-01-12 | 天津普传控制设备有限公司 | 一种基于光学字符识别技术的导线线号识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN111860348A (zh) | 基于深度学习的弱监督电力图纸ocr识别方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN103984943B (zh) | 一种基于贝叶斯概率框架的场景文本识别方法 | |
CN112541355B (zh) | 一种实体边界类别解耦的少样本命名实体识别方法与系统 | |
CN114550153A (zh) | 一种端子排图像检测识别方法 | |
CN110569843B (zh) | 一种矿井目标智能检测与识别方法 | |
CN113591866B (zh) | 基于db与crnn的特种作业证件检测方法及系统 | |
CN112528894A (zh) | 一种差异项判别方法及装置 | |
CN112163596B (zh) | 复杂场景文本识别方法、系统、计算机设备及存储介质 | |
Zhang et al. | Character-level street view text spotting based on deep multisegmentation network for smarter autonomous driving | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112836650A (zh) | 一种质量检验报告扫描图像表格语义解析方法与系统 | |
CN115620265B (zh) | 基于深度学习的机车标志牌信息智能识别方法及系统 | |
CN114973207A (zh) | 一种基于目标检测的路标识别方法 | |
CN116229482A (zh) | 网络舆情分析中视觉多模态文字检测识别及纠错方法 | |
CN111368703A (zh) | 一种基于fpn的台标检测与识别的方法 | |
CN115546553A (zh) | 一种基于动态特征抽取和属性修正的零样本分类方法 | |
Seo et al. | Temporary traffic control device detection for road construction projects using deep learning application | |
CN111145314B (zh) | 一种结合地名标注的扫描电子地图地名符号的提取方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN112990196A (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
CN111753714A (zh) | 基于字符分割的多方向自然场景文本检测方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |