CN114463197A - 一种用于电力设备的文本识别方法及设备 - Google Patents
一种用于电力设备的文本识别方法及设备 Download PDFInfo
- Publication number
- CN114463197A CN114463197A CN202111669615.XA CN202111669615A CN114463197A CN 114463197 A CN114463197 A CN 114463197A CN 202111669615 A CN202111669615 A CN 202111669615A CN 114463197 A CN114463197 A CN 114463197A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- region
- equipment
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000012544 monitoring process Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims abstract description 24
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000002146 bilateral effect Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000004321 preservation Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 13
- 230000008447 perception Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20028—Bilateral filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种用于电力设备的文本识别方法及设备,该方法获取设备监拍图像,通过预设的文本检测模型,确定设备监拍图像的文本区域。其中,文本检测模型通过若干电力设备样本图训练得到。电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成。电力设备标注图为标注电力设备表面的文本信息的图像。将文本区域相应的区域图像,输入预设的文本识别模型,以确定区域图像中的文本信息。其中,文本识别模型通过预设处理后的若干文本区域图像训练得到。预设处理为文本识别模型将各文本区域图像遮挡处理。文本区域图像根据电力设备样本图得到。根据文本信息,生成设备监拍图像相应的标注图像。其中,标注图像包括标注的文本信息。
Description
技术领域
本申请涉及电力行业技术领域,尤其涉及一种用于电力设备的文本识别方法及设备。
背景技术
电力系统作为当今能源产业的重要组成部分,是国民经济的基础和命脉。随着经济的发展,对电力产业的质量也有了更高的要求。电力行业的电力设备运行状况与电力产业的质量,有着密切的关系。
当前,电力设备的运行状态的监测主要通过人工巡检、机器拍照识别来完成。人工巡检的方式,过于浪费人力资源,同时随着人工智能技术的进步,人工巡检的方式也会被逐步替代。对于机器拍照识别的方式,由于电力设备所处配电环境复杂多样,容易出现电力设备存在遮挡物、强光照射、雾天影响等情况,无法保证机器拍照识别的电力设备所显示的文本信息一定准确。
基于此,亟需一种能够在电力设备运行的复杂场景下,准确识别电力设备中的文本信息的技术方案。
发明内容
本申请实施例提供了一种用于电力设备的文本识别方法及设备,用于在复杂场景下,准确识别电力设备中的文本信息。
一方面,本申请提供了一种用于电力设备的文本识别方法,该方法包括:
获取设备监拍图像。通过预设的文本检测模型,确定设备监拍图像的文本区域。其中,文本检测模型通过若干电力设备样本图训练得到。电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成。电力设备标注图为标注电力设备表面的文本信息的图像。将文本区域相应的区域图像,输入预设的文本识别模型,以确定区域图像中的文本信息。其中,文本识别模型通过预设处理后的若干文本区域图像训练得到。预设处理为所述文本识别模型将各文本区域图像遮挡处理。文本区域图像根据电力设备样本图得到。根据文本信息,生成设备监拍图像相应的标注图像。其中,标注图像包括标注的文本信息。
在本申请的一种实现方式中,通过互联网爬虫软件,获取若干电力领域词汇。其中,电力领域词汇为爬取若干电力专业词汇得到的。通过预设的开源字体库,对各电力领域词汇进行字体处理。字体处理为将电力领域词汇的字体属性进行随机设置。字体属性至少包括以下一项或多项:字体大小、笔画宽度、字体间距。根据字体处理后的各电力领域词汇与数码管字体集,生成电力领域文本集。
在本申请的一种实现方式中,确定各电力设备标注图中,标注的文本区域图像的前景图像的图像特征,为第一特征。前景图像为文本区域图像中的文本。确定电力设备标注图中背景图像的图像特征,为第二特征。将电力领域文本集中各电力文本,与各第一特征进行随机匹配,得到随机文本图像集合。将随机文本图像集合中的各文本图像与各第二特征相应的背景图像进行随机组合,生成电力设备样本图。
在本申请的一种实现方式中,将设备监拍图像,进行双边滤波处理,得到边缘保存图像。通过颜色空间转换算法,将边缘保存图像转换至HSV颜色空间。其中,颜色空间转换算法用于将RGB色彩模式与HSV颜色空间进行转换。通过限制对比度自适应直方图均衡CLAHE算法,将转换至HSV颜色空间的边缘保存图像的亮度分量,进行对比度处理,得到预处理图像。其中,对比度处理用于调整边缘保存图像的背景与文本的对比度。通过颜色空间转换算法,将预处理图像转换至RGB色彩模式,以将RGB色彩模式的预处理图像输入文本检测模型,确定设备监拍图像的文本区域。
在本申请的一种实现方式中,根据文本区域图像,确定文本区域图像中文本序列。文本序列根据文本区域图像中的文本字符数量生成。确定文本序列中的各待遮挡文本。其中,待遮挡文本至少包括文本序列相应的一个文本字符。将文本区域图像中,各待遮挡文本相应的区域依次进行遮挡,得到遮挡文本区域图像,直至文本区域图像的各区域完成遮挡处理。
在本申请的一种实现方式中,通过文本识别模型,对区域图像进行卷积处理,得到区域图像相应的特征向量。根据注意力机制,将区域图像输入文本识别模型的注意力层,得到区域图像的若干注意力图。将各注意力图相应向量与特征向量进行点乘运算,并将点乘运算的运算结果输入文本识别模型的全连接层,得到区域图像相应的文本信息。
在本申请的一种实现方式中,确定设备监拍图像中文本信息的位置数据。根据位置数据,确定与文本信息匹配的文本标注框。其中,匹配为位置及所占图像区域面积匹配。根据设备监拍图像的面积,生成文本信息相应的标注文本。其中,标注文本为文本信息的文本,标注文本的字体比例与设备监拍图像的面积满足预设规则。预设规则根据预设的字体比例对照表得到。将标注文本添加至文本标注框的预设位置,生成设备监拍图像相应的标注图像。
在本申请的一种实现方式中,将文本信息以及标注文本选定信息发送至用户终端。基于用户在预设时间内对用户终端的操作,确定用户选定的标注文本的文本属性,以根据文本属性,确定标注文本。文本属性包括:字体类型、字体颜色。
在本申请的一种实现方式中,向用户终端发送标注确认信息。其中,标注确认信息用于确认标注图像相应的标注的文本信息是否准确。根据用户终端的反馈信息,确定标注图像相应的文本信息是否准确。在标注图像相应的文本信息不准确的情况下,确定反馈信息中的标注错误数据。其中,标注错误数据用于表征标注图像相应的文本区域的错误和/或标注图像相应的文本信息的错误。根据标注错误数据,对文本检测模型和/或文本识别模型进行再训练。
另一方面,本申请实施例还提供了一种用于电力设备的文本识别设备,该设备包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取设备监拍图像。通过预设的文本检测模型,确定设备监拍图像的文本区域。其中,文本检测模型通过若干电力设备样本图训练得到。电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成。电力设备标注图为标注电力设备表面的文本信息的图像。将文本区域相应的区域图像,输入预设的文本识别模型,以确定区域图像中的文本信息。其中,文本识别模型通过预设处理后的若干文本区域图像训练得到。预设处理为文本识别模型将各文本区域图像遮挡处理。文本区域图像根据电力设备样本图得到。根据文本信息,生成设备监拍图像相应的标注图像。其中,标注图像包括标注的文本信息。
通过上述方案,提高了在电力设备的设备监拍图像存在遮挡时,文本信息识别的准确度,满足复杂场景中识别电力设备中的文本信息的需求,提高了用户的使用体验。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中一种用于电力设备的文本识别方法的一种流程示意图;
图2为本申请实施例中一种用于电力设备的文本识别方法的另一种流程示意图;
图3为本申请实施例中一种用于电力设备的文本识别方法中的一种示意图;
图4为本申请实施例中一种用于电力设备的文本识别方法中的另一种示意图;
图5为本申请实施例中一种用于电力设备的文本识别方法中的又一种示意图;
图6为本申请实施例中一种用于电力设备的文本识别方法中的再一种示意图;
图7为本申请实施例中一种用于电力设备的文本识别方法中的再一种示意图;
图8为本申请实施例中一种用于电力设备的文本识别设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
电力产业的质量伴随着经济的发展具有了更高的要求,电力系统作为当今能源产业的重要组成部分,是国民经济的基础和命脉。
电力运行设备中包含大量文本信息,通过这些信息可以更好的了解设备运行情况及性能。具体而言,如数码管、LED显示器、设备铭牌以及设备对应管控区域等。实现电力设备文本的自动识别对于提高电力系统管控和安全运行具有重要意义。
文本识别通常包含两个步骤,首先是文本检测,从图像中获取文本所在位置,主要有基于连通区域分析法和滑动窗口法,以及基于机器学习(回归)的方式;其二是文本识别,从已确定的文本区域中识别文本内容,主要方法可以分为基于字符、基于整词和基于序列的文本识别。
现有技术识别电力设备的文本时,容易受遮挡、光照强度的影响,不能准确地识别电力设备的文本。
基于此,本申请实施例提供了一种用于电力设备的文本识别方法及设备,用于在复杂场景下,准确识别电力设备中的文本信息。
以下结合附图,详细说明本申请的各个实施例。
本申请实施例提供了一种用于电力设备的文本识别方法,如图1所示,该方法可以包括步骤S101-S104:
S101,服务器获取设备监拍图像。
在本申请实施例中,设备监拍图像可以是设置于电力设备的场景下的图像采集设备,实时采集到的设备监拍图像。图像采集设备可以是相机、摄像头、摄像机等设备,本申请对此不作具体限定。设备监拍图像也可以是图像采集设备采集到电力设备图像后,发送至服务器相应的存储器存储的。
需要说明的是,服务器作为用于电力设备的文本识别方法的执行主体,仅为示例性存在,执行主体不仅限于服务器,本申请对此不作具体限定。
在本申请实施例中,服务器要执行用于电力设备的文本识别方法之前,需要对文本检测模型、文本识别模型进行训练,其中文本检测模型用户获取文本信息的位置信息即文本区域,文本识别模型用于获取文本信息的内容。在本申请实施例中,用于模型训练的样本可以通过以下方法获取,如图2所示,步骤具体如下:
S201,服务器通过互联网爬虫软件,获取若干电力领域词汇。
其中,电力领域词汇为爬取若干电力专业词汇得到的。
服务器通过互联网爬虫软件,爬取网站中的电力专业词汇,例如中国人工智能产业发展联盟比赛中6000条电力专业词汇,将该6000条进行随机组合,生成若干电力领域词汇。
S202,服务器通过预设的开源字体库,对各电力领域词汇进行字体处理。字体处理为将电力领域词汇的字体属性进行随机设置。
字体属性至少包括以下一项或多项:字体大小、笔画宽度、字体间距。
服务器从开源字体库,在本申请实施例,可以将Reading Chinese Text in theWild(RCTW-17)数据集作为开源字体库,获取数据集中若干字体属性。然后,服务器将各电力领域词汇匹配各字体属性,实现字体处理,例如“蓄电池电压表”,采用的字体属性为“宋体,小二,字体间距5毫米”。
此外,本申请实施中的数码管字体集包含七段数码管,其数码管字体可以同上述字体处理的方式确定。
S203,服务器根据字体处理后的各电力领域词汇与数码管字体集,生成电力领域文本集。
在本申请实施例中,服务器存储字体处理后的各电力领域词汇与数码管字体集至电力领域文本集,并可以根据用户的设定,进行更新电力领域文本集,更新的方式可以通过上述S201-S203的步骤。电力领域文本集中包括若干生成的电力文本。
S204,服务器确定各电力设备标注图中,标注的文本区域图像的前景图像的图像特征,为第一特征。
前景图像为文本区域图像中的文本。
服务器可以通过网络获取预先采集到电力设备图像,该电力设备图像预先标注了表面的文本信息,即标注了电力设备图像中文本信息的位置,该标注位置为文本区域图像。如图3所示,每个文本区域图像具有相应的标签,该标签为文本区域图像内部的文本信息,例如图3中七段数码管“234.4”相应的文本区域图像(文本边框内部)对应的标签为234.4。
服务器可以确定标注的文本区域图像中的前景图像,并得到前景图像的图像特征,服务器将前景图像的图像特征作为第一特征。该前景图像即为文本区域图像中的文本,如图3中的七段数码管“234.4”为前景图像。
S205,服务器确定电力设备标注图中背景图像的图像特征,为第二特征。
服务器可以将电力设备标注图中,除前景图像以外的,作为背景图像,并提取背景图像的图像特征,图像特征至少包括颜色特征,在实际使用过程中,根据实际需求,可以添加图像特征,如色彩的渐变特征。服务器将背景图像的图像特征作为第二特征。
S206,服务器将电力领域文本集中各电力文本,与各第一特征进行随机匹配,得到随机文本图像集合。
在本申请实施例中,服务器从电力领域文本集中,获取电力文本,并将各个第一特征与各电力文本进行随机匹配,比如第一特征为:红色,电力文本为:字体为楷体,字体大小为五号的“电压”,服务器将该“电压”的字体颜色设置为红色。服务器将随机生成的文本相应的图像,存储至随机文本图像集合。
S207,服务器将随机文本图像集合中的各文本图像与各第二特征相应的背景图像进行随机组合,生成电力设备样本图。
服务器可以将随机文本图像集合中的文本图像与上述步骤S205得到的各个第二特征进行随机组合,例如第二特征有背景:黄色、灰色、黑色,那么文本图像为红色的“电压”文本图像时,可以组合有:背景黄色的红字“电压”、背景灰色的红字“电压”、背景黑色的红字“电压”。服务器将随机文本图像集合中各文本图像与各第二特征进行组合后,可以将组合后得到的若干图像,作为电力设备样本图。
在本申请实施例中,生成电力设备样本图时,服务器可以利用随机矩阵,对各文本图像进行透视变换,以更好模拟真实场景中的图像。然后,服务器可以将预先采集的设备监拍图像中的非文本区域图像为背景,将文本图像与背景图像进行集成。接着,服务器可以在集成后的图像中添加白噪声和缩放噪声。
此外,电力设备样本图还记录有文本区域的位置,以及文本区域内相应的文本信息。
通过上述方案,在数码管字体集、电力领域词汇与当前开源的文本数据集存在样本不均衡的情况下,生成用于训练文本检测模型及文本识别模型的样本图,使训练得到文本检测模型及文本识别模型更适用于电力行业的复杂场景下的文本识别。
S102,服务器通过预设的文本检测模型,确定设备监拍图像的文本区域。
其中,文本检测模型通过若干电力设备样本图训练得到。电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成。电力设备标注图为标注电力设备表面的文本信息的图像。
在本申请实施例中,服务器通过预设的文本检测模型,确定设备监拍图像的文本区域,具体包括:
首先,服务器将设备监拍图像,进行双边滤波处理,得到边缘保存图像。
其中,双边滤波是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一种折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的。具有简单、非迭代、局部的特点。双边滤波器的好处是可以做边缘保存,一般过去用的维纳滤波或者高斯滤波去降噪,都会较明显地模糊边缘,对于高频细节的保护效果并不明显。
然后,服务器通过颜色空间转换算法,将边缘保存图像转换至HSV颜色空间。
其中,颜色空间转换算法用于将RGB色彩模式与HSV颜色空间进行转换。
颜色空间转换算法可以将RGB色彩模式下的图像,转换至HSV颜色空间,以及将HSV颜色空间的图像,转换值RGB色彩模型。该颜色空间转换算法包括两个算法单元,在输入图像为RGB色彩模式时,通过第一算法单元,将RGB色彩模式下的图像,转换至HSV颜色空间;在输入图像为HSV颜色空间时,通过第二算法单元,将HSV颜色空间的图像,转换值RGB色彩模型。
接着,服务器通过限制对比度自适应直方图均衡(Contrast Limited AdaptiveHistogram Equalization,CLAHE)算法,将转换至HSV颜色空间的边缘保存图像的亮度分量,进行对比度处理,得到预处理图像。
其中,对比度处理用于调整边缘保存图像的背景与文本的对比度。
最后,服务器通过颜色空间转换算法,将预处理图像转换至RGB色彩模式,以将RGB色彩模式的预处理图像输入文本检测模型,确定设备监拍图像的文本区域。
通过将RGB色彩模式的设备监拍图像转换至HSV颜色空间,并仅对亮度分量V进行处理,可以避免在RGB色彩模式下,将三通道分开处理导致的偏色,影响文本识别结果。而且,通过CLAHE算法进行对比度处理,可以提高设备监拍图像中前景图像与背景图像的对比度,并在雾天图像处理时,有良好效果。
本申请实施例中,文本检测模型所采用的是端到端的训练方式,可以采用基于深度神经网络的对象识别和定位算法(You Only Look Once,YOLO),例如YOLOv5。
具体地,采用YOLOv5的模型结构,主要包括输入端、Backbone、Neck、Prediction。其中,Backbone为Focus结构、跨阶段部分(Cross Stage Partial,CSP)结构与CBL结构相结合的方式。并采用空间金字塔池(Spatial Pyramid Pooling,SPP)结构,通过不同大小的最大池化Maxpool操作,并进行通道维度的融合,增大感受野。Neck:提取的特征输入到金字塔特征网络(Feature Pyramid Networks,FPN)及路径聚合网络(Path AggregationNetwork,PAN)结构中,提升不同尺寸目标的检测性能。Prediction:对于不同尺度的输出,采用非极大抑制操作(Non-Maximum Suppression,NMS),生成置信度、目标边界框位置、类别等信息。对于边界框损失使用GIoU_Loss,更好的衡量预测框与目标框相交的情况。其中,GIoU_Loss相应公式如下:
在文本检测模型的具体训练过程中,模型的输入端,可以对于每一张训练图像缩放至640*640像素大小,缩放过程保持原图比例;采用Mosaic、随机缩放、随机裁剪、透视变换等进行数据增强;训练过程中,利用Adam优化器根据历史梯度的震荡情况和过滤震荡后的真实历史梯度对模型参数进行更新,直至损失函数逐渐趋于0,模型收敛。
S103,服务器将文本区域相应的区域图像,输入预设的文本识别模型,以确定区域图像中的文本信息。
其中,文本识别模型通过预设处理后的若干文本区域图像训练得到。预设处理为文本识别模型将各文本区域图像遮挡处理。文本区域图像根据电力设备样本图得到。
以图3为电力设备样本图为例,图3的标注框301内为文本区域图像。
在本申请实施例中,服务器通过文本识别模型将各文本区域图像遮挡处理,具体包括:
首先,文本识别模型根据文本区域图像,确定文本区域图像中文本序列。
其中,文本序列根据文本区域图像中的文本字符数量生成。
在本申请实施例中,如文本区域图像中文本信息为“电力设备显示屏”,那么文本序列可以是[1,2,3,4,5,6,7]。
然后,文本识别模型确定文本序列中的各待遮挡文本。
其中,待遮挡文本至少包括文本序列相应的一个文本字符。
文本识别模型中的语义感知模块(如图4所示)可以将文本序列相应的一个文本字符作为待遮挡文本,例如服务器将文本序列中第一个文本字符作为待遮挡文本,即“电”字被遮挡;再例如服务器将文本序列中第三个文本字符作为待遮挡文本,即“设”字被遮挡。
最后,文本识别模型将文本区域图像中,各待遮挡文本相应的区域依次进行遮挡,得到遮挡文本区域图像,直至文本区域图像的各区域完成遮挡处理。
遮挡处理具体执行流程如图4所示,序列P为3,为“直流充电屏”中的“充”为待遮挡文本。遮挡处理得到的掩码矩阵Mask,掩码Mask的生成是通过弱监督互补学习模块(如图5所示),通过两个平行的分支(权值共享)有指导的学习字符索引指定需要遮挡的文本信息以及不需要遮挡的文本信息。具体流程如下,首先,将P=3经过嵌入模块Embedding处理,并将文本区域图像的特征向量V进行注意力结构Transformer处理,然后进行映射融合(concate),再通过激活函数sigmoid生成掩码Mask。此时,掩码的生成没有指导,无法满足遮挡的期望。然后,利用生成的掩码Mask与特征向量V进行点乘,得到此时被遮挡文本P=3的语义信息V1;同理,对于未被遮挡文本的语义信息V2可以通过1-Mask与特征V点乘的方式生成。生成的V1和V2并行经过注意力机制结构与预测层后生成对应文本信息。再利用文本信息真值结合交叉熵损失函数(Cross Entropy Loss,CE Loss)实现掩码有指导的生成,可以随机对字符遮挡。利用生成的1-Mask与特征V点乘,生成遮挡后的特征向量V3。V3生成如图5所示。
在本申请实施例中,文本识别模型可以将得到的待遮挡文本,随机进行遮挡,例如将待遮挡文本随机进行遮挡后,可以得到文本序列相应的若干遮挡文本区域图像。此外,上述语义感知模块用于文本识别模型的训练过程,在文本识别模型训练完成后,实际使用文本识别模型时,不必再使用语义感知模块,实际使用过程中,识别设备监拍图像的文本信息时,使用的是视觉推理模块(如图6所示)。
通过上述方案,可以实现得到文本区域被遮挡的图像,从而在训练文本识别模型时,有更多的遮挡场景的样本,训练文本识别模型,以使文本识别模型可以在电力设备被遮挡时,识别的文本信息的鲁棒性。
在本申请实施例中,服务器将文本区域相应的区域图像,输入预设的文本识别模型,以确定区域图像中的文本信息,具体包括:
首先,服务器通过文本识别模型,对区域图像进行卷积处理,得到区域图像相应的特征向量。
服务器可以将区域图像输入文本识别模型,文本识别模型为卷积神经网络CNN,文本识别模型的ResNet45结构对区域图像进行卷积处理,得到特征向量。
然后,服务器根据注意力机制,将区域图像输入文本识别模型的注意力层,得到区域图像的若干注意力图。
如图6所示,区域图像输入文本识别模型的注意力层,得到若干注意力图,图6为文本识别模型的视觉推理模块,训练过程中,视觉推理模块获取语义感知模块得到的特征向量V3,并根据多层transformer结构,建立长序列依赖关系。长序列依赖关系可以在区域图像中有遮挡时,根据区域图像未被遮挡的文本,预测遮挡文本。
最后,服务器将各注意力图相应向量与特征向量进行点乘运算,并将点乘运算的运算结果输入文本识别模型的全连接层,得到区域图像相应的文本信息。
其中,上述步骤为文本识别模型的使用过程中的步骤,若在文本识别模型的训练过程中,文本识别模型得到文本信息后,需要通过CE Loss验证识别到的文本信息是否准确。
S104,服务器根据文本信息,生成设备监拍图像相应的标注图像。
其中,标注图像包括标注的文本信息。
在本申请实施例中,服务器根据文本信息,生成设备监拍图像相应的标注图像,具体包括:
首先,服务器确定设备监拍图像中文本信息的位置数据。
位置数据可以是文本信息在设备监拍图像中的位置坐标,该位置坐标可以是以设备监拍图像中某一点,建立的直角坐标系中的坐标。
其次,服务器根据位置数据,确定与文本信息匹配的文本标注框。
其中,匹配为位置及所占图像区域面积匹配。
在本申请实施例中,服务器可以确定文本信息形成的文本区域,在设备监拍图像中,占用的面积,其中,文本信息为一连续的文本,如图3中所示,“234.4”为文本信息,“蓄电池电压表”为文本信息,而非将连续位置上的连续文本拆开,举例如“蓄电池”“电压表”这样拆开不能作为文本信息,或“23”“4.4”不能作为文本信息。文本信息为连续位置上的连续文本。
服务器可以确定文本信息所占图像区域面积,根据该面积得到包括该面积在内的文本标注框,并且该文本标注框的位置与文本信息的位置数据相对应。如图7所示,文本标注框701。
再次,服务器根据设备监拍图像的面积,生成文本信息相应的标注文本。
其中,标注文本为文本信息的文本,标注文本的字体比例与设备监拍图像的面积满足预设规则。预设规则根据预设的字体比例对照表得到。
服务器可以预先存储有字体比例对照表,例如设备监拍图像的面积为S1,那么相应的字体比例可以为S1/N1,其中N1为预设值,用于计算字体比例,标注文本如图7中,文本标注框701中的标注文本702。
在本申请实施例中,为了满足标注文本的个性化需求,还可以用户选择设置标注文本,具体如下。
接着,服务器将文本信息以及标注文本选定信息发送至用户终端。
再接着,服务器基于用户在预设时间内对用户终端的操作,确定用户选定的标注文本的文本属性,以根据文本属性,确定标注文本。
文本属性包括:字体类型、字体颜色。
例如,用户选择字体类型为草书,字体颜色为蓝色的字体属性,生成草书、颜色为蓝色的标注文本。
最后,服务器将标注文本添加至文本标注框的预设位置,生成设备监拍图像相应的标注图像。
预设位置可以在实际使用过程中进行选择,例如文本标注框的左上方,文本标注框的中间居中位置等。
在本申请实施例中,服务器根据文本信息,生成设备监拍图像相应的标注图像之后,方法还包括:
首先,服务器向用户终端发送标注确认信息。
其中,标注确认信息用于确认标注图像相应的标注的文本信息是否准确。
然后,服务器根据用户终端的反馈信息,确定标注图像相应的文本信息是否准确。
接着,服务器在标注图像相应的文本信息不准确的情况下,确定反馈信息中的标注错误数据。
其中,标注错误数据用于表征标注图像相应的文本区域的错误和/或标注图像相应的文本信息的错误。
最后,服务器根据标注错误数据,对文本检测模型和/或文本识别模型进行再训练。
通过上述方案,可以在得到的文本信息不准确时,及时地对文本检测模型及文本识别模型进行重新训练,以实现准确识别电力设备的文本信息。
本申请通过上述方案,可以在设备监拍图像中存在遮挡文本信息时,对完整的文本信息进行准确地识别,可以应对各种复杂场景下电力设备中的文本信息的识别,实现电力设备中的文本准确识别,提高用户的使用体验。
图8为本申请实施例提供的一种用于电力设备的文本识别设备,如图8所示,该设备包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取设备监拍图像。通过预设的文本检测模型,确定设备监拍图像的文本区域。其中,文本检测模型通过若干电力设备样本图训练得到。电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成。电力设备标注图为标注电力设备表面的文本信息的图像。将文本区域相应的区域图像,输入预设的文本识别模型,以确定区域图像中的文本信息。其中,文本识别模型通过预设处理后的若干文本区域图像训练得到。预设处理为文本识别模型将各文本区域图像遮挡处理。文本区域图像根据电力设备样本图得到。根据文本信息,生成设备监拍图像相应的标注图像。其中,标注图像包括标注的文本信息。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备与方法是一一对应的,因此,设备也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备的有益技术效果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种用于电力设备的文本识别方法,其特征在于,所述方法包括:
获取设备监拍图像;
通过预设的文本检测模型,确定所述设备监拍图像的文本区域;其中,所述文本检测模型通过若干电力设备样本图训练得到;所述电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成;所述电力设备标注图为标注电力设备表面的文本信息的图像;
将所述文本区域相应的区域图像,输入预设的文本识别模型,以确定所述区域图像中的文本信息;其中,所述文本识别模型通过预设处理后的若干文本区域图像训练得到;所述预设处理为所述文本识别模型将各所述文本区域图像遮挡处理;所述文本区域图像根据所述电力设备样本图得到;
根据所述文本信息,生成所述设备监拍图像相应的标注图像;其中,所述标注图像包括标注的所述文本信息。
2.根据权利要求1所述方法,其特征在于,通过预设的文本检测模型,确定所述设备监拍图像的文本区域之前,所述方法还包括:
通过互联网爬虫软件,获取若干电力领域词汇;其中,所述电力领域词汇为爬取若干电力专业词汇得到的;
通过预设的开源字体库,对各所述电力领域词汇进行字体处理;所述字体处理为将所述电力领域词汇的字体属性进行随机设置;所述字体属性至少包括以下一项或多项:字体大小、笔画宽度、字体间距;
根据字体处理后的各所述电力领域词汇与数码管字体集,生成所述电力领域文本集。
3.根据权利要求1所述方法,其特征在于,通过预设的文本检测模型,确定所述设备监拍图像的文本区域之前,所述方法还包括:
确定各所述电力设备标注图中,标注的所述文本区域图像的前景图像的图像特征,为第一特征;所述前景图像为所述文本区域图像中的文本;
确定所述电力设备标注图中背景图像的图像特征,为第二特征;
将所述电力领域文本集中各电力文本,与各所述第一特征进行随机匹配,得到随机文本图像集合;
将所述随机文本图像集合中的各文本图像与各所述第二特征相应的背景图像进行随机组合,生成所述电力设备样本图。
4.根据权利要求1所述方法,其特征在于,通过预设的文本检测模型,确定所述设备监拍图像的文本区域,具体包括:
将所述设备监拍图像,进行双边滤波处理,得到边缘保存图像;
通过颜色空间转换算法,将所述边缘保存图像转换至HSV颜色空间;其中,所述颜色空间转换算法用于将RGB色彩模式与所述HSV颜色空间进行转换;
通过限制对比度自适应直方图均衡CLAHE算法,将转换至所述HSV颜色空间的所述边缘保存图像的亮度分量,进行对比度处理,得到预处理图像;其中,所述对比度处理用于调整所述边缘保存图像的背景与文本的对比度;
通过所述颜色空间转换算法,将所述预处理图像转换至所述RGB色彩模式,以将所述RGB色彩模式的所述预处理图像输入所述文本检测模型,确定所述设备监拍图像的文本区域。
5.根据权利要求1所述方法,其特征在于,所述文本识别模型将各所述文本区域图像遮挡处理,具体包括:
根据所述文本区域图像,确定所述文本区域图像中文本序列;所述文本序列根据所述文本区域图像中的文本字符数量生成;
确定所述文本序列中的各待遮挡文本;其中,所述待遮挡文本至少包括所述文本序列相应的一个文本字符;
将所述文本区域图像中,各所述待遮挡文本相应的区域依次进行遮挡,得到遮挡文本区域图像,直至所述文本区域图像的各区域完成遮挡处理。
6.根据权利要求1所述方法,其特征在于,将所述文本区域相应的区域图像,输入预设的文本识别模型,以确定所述区域图像中的文本信息,具体包括:
通过所述文本识别模型,对所述区域图像进行卷积处理,得到所述区域图像相应的特征向量;
根据注意力机制,将所述区域图像输入所述文本识别模型的注意力层,得到所述区域图像的若干注意力图;
将各所述注意力图相应向量与所述特征向量进行点乘运算,并将所述点乘运算的运算结果输入所述文本识别模型的全连接层,得到所述区域图像相应的所述文本信息。
7.根据权利要求1所述方法,其特征在于,根据所述文本信息,生成所述设备监拍图像相应的标注图像,具体包括:
确定所述设备监拍图像中所述文本信息的位置数据;
根据所述位置数据,确定与所述文本信息匹配的文本标注框;其中,所述匹配为位置及所占图像区域面积匹配;
根据所述设备监拍图像的面积,生成所述文本信息相应的标注文本;其中,所述标注文本为所述文本信息的文本,所述标注文本的字体比例与所述设备监拍图像的面积满足预设规则;所述预设规则根据预设的字体比例对照表得到;
将所述标注文本添加至所述文本标注框的预设位置,生成所述设备监拍图像相应的标注图像。
8.根据权利要求7所述方法,其特征在于,根据所述设备监拍图像的面积,生成所述文本信息相应的标注文本,具体包括:
将所述文本信息以及标注文本选定信息发送至用户终端;
基于用户在预设时间内对所述用户终端的操作,确定所述用户选定的标注文本的文本属性,以根据所述文本属性,确定所述标注文本;所述文本属性包括:字体类型、字体颜色。
9.根据权利要求1所述方法,其特征在于,根据所述文本信息,生成所述设备监拍图像相应的标注图像之后,所述方法还包括:
向用户终端发送标注确认信息;其中,所述标注确认信息用于确认所述标注图像相应的标注的所述文本信息是否准确;
根据所述用户终端的反馈信息,确定所述标注图像相应的所述文本信息是否准确;
在所述标注图像相应的所述文本信息不准确的情况下,确定所述反馈信息中的标注错误数据;其中,所述标注错误数据用于表征所述标注图像相应的文本区域的错误和/或所述标注图像相应的所述文本信息的错误;
根据所述标注错误数据,对所述文本检测模型和/或所述文本识别模型进行再训练。
10.一种用于电力设备的文本识别设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取设备监拍图像;
通过预设的文本检测模型,确定所述设备监拍图像的文本区域;其中,所述文本检测模型通过若干电力设备样本图训练得到;所述电力设备样本图基于预先确定的电力设备标注图以及电力领域文本集生成;所述电力设备标注图为标注电力设备表面的文本信息的图像;
将所述文本区域相应的区域图像,输入预设的文本识别模型,以确定所述区域图像中的文本信息;其中,所述文本识别模型通过预设处理后的若干文本区域图像训练得到;所述预设处理为所述文本识别模型将各所述文本区域图像遮挡处理;所述文本区域图像根据所述电力设备样本图得到;
根据所述文本信息,生成所述设备监拍图像相应的标注图像;其中,所述标注图像包括标注的所述文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111669615.XA CN114463197A (zh) | 2021-12-31 | 2021-12-31 | 一种用于电力设备的文本识别方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111669615.XA CN114463197A (zh) | 2021-12-31 | 2021-12-31 | 一种用于电力设备的文本识别方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463197A true CN114463197A (zh) | 2022-05-10 |
Family
ID=81408308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111669615.XA Pending CN114463197A (zh) | 2021-12-31 | 2021-12-31 | 一种用于电力设备的文本识别方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463197A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311333A (zh) * | 2023-02-21 | 2023-06-23 | 南京云阶电力科技有限公司 | 针对电气图纸中边缘细小文字识别的预处理方法及系统 |
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-31 CN CN202111669615.XA patent/CN114463197A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311333A (zh) * | 2023-02-21 | 2023-06-23 | 南京云阶电力科技有限公司 | 针对电气图纸中边缘细小文字识别的预处理方法及系统 |
CN116311333B (zh) * | 2023-02-21 | 2023-12-01 | 南京云阶电力科技有限公司 | 针对电气图纸中边缘细小文字识别的预处理方法及系统 |
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN116884003B (zh) * | 2023-07-18 | 2024-03-22 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059694B (zh) | 电力行业复杂场景下的文字数据的智能识别方法 | |
Le et al. | From shadow segmentation to shadow removal | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
CN111178197B (zh) | 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法 | |
CN110569700B (zh) | 优化损伤识别结果的方法及装置 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN114463197A (zh) | 一种用于电力设备的文本识别方法及设备 | |
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN112489143A (zh) | 一种颜色识别方法、装置、设备及存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN111339902A (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN113505854A (zh) | 一种人脸图像质量评价模型构建方法、装置、设备及介质 | |
CN113095441A (zh) | 一种猪群扎堆检测方法、装置、设备及可读存储介质 | |
CN108647696B (zh) | 图片颜值确定方法及装置、电子设备、存储介质 | |
CN113515655A (zh) | 一种基于图像分类的故障识别方法及装置 | |
CN113435407A (zh) | 一种输电系统的小目标识别方法及装置 | |
CN113255699A (zh) | 小目标物体图像检测方法、装置、电子设备及存储介质 | |
CN111582344A (zh) | 一种加油站卸油口盖状态识别方法 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
EP4174769A1 (en) | Method and apparatus for marking object outline in target image, and storage medium and electronic apparatus | |
CN113205507B (zh) | 一种视觉问答方法、系统及服务器 | |
CN113780469A (zh) | 图像识别模型的训练方法、介质、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |