CN111539438B - 文本内容的识别方法、装置及电子设备 - Google Patents
文本内容的识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111539438B CN111539438B CN202010349150.9A CN202010349150A CN111539438B CN 111539438 B CN111539438 B CN 111539438B CN 202010349150 A CN202010349150 A CN 202010349150A CN 111539438 B CN111539438 B CN 111539438B
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- center line
- dial
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims description 50
- 238000005070 sampling Methods 0.000 claims description 32
- 238000001514 detection method Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 230000001629 suppression Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
Abstract
本申请公开了一种文本内容的识别方法、装置及电子设备,涉及计算机技术领域中的文本识别技术。具体实现方案为:获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
Description
技术领域
本申请涉及计算机技术领域中的文本识别技术,尤其涉及一种文本内容的识别方法、装置及电子设备。
背景技术
仪表盘作为一种计量装置,其被广泛应用于各个领域,包括机械制造、水务系统、电力系统、汽车以及医疗,等等。目前,随着仪表计量技术的发展,传统的指针式仪表盘逐渐被数字式仪表盘,数字式仪表盘通过设置的液晶显示面板等表盘显示计量内容,如计量指标项以及计量数值等。
其中,为提升仪表盘的抄表效率,目前通常是通过设置在仪表盘的数据采集装置采集仪表盘的图片,再由服务器等电子设备识别仪表盘的图片中的计量内容。但是,目前仪表盘的计量内容的识别过程中,容易出现计量内容的识别出错,从而降低仪表盘的计量内容的识别准确性。
可见,目前仪表盘的计量内容的识别过程中,存在识别准确性低的问题。
发明内容
提供了一种文本内容的识别方法、装置及电子设备,以解决目前仪表盘的计量内容的识别过程中存在识别准确性低的问题的问题。
根据第一方面,提供了一种文本内容的识别方法,应用于电子设备,包括:
获取表盘图片;
检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;
基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。
根据第二方面,还提供了一种文本内容的识别装置,应用于电子设备,包括:
图片获取模块,用于获取表盘图片;
检测模块,用于检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;
识别模块,用于基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。
根据第三方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
本申请第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
本申请中,通过获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图之一;
图2是根据本申请第一实施例的示意图之二;
图3是根据本申请第二实施例的示意图之一;
图4是根据本申请第二实施例的示意图之二;
图5是根据本申请第二实施例的示意图之三;
图6是根据本申请第二实施例的示意图之四;
图7是根据本申请第二实施例的示意图之五;
图8是根据本申请第二实施例的示意图之六;
图9是用来实现本申请实施例的文本内容的识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
请参见图1,本申请实施例提供的一种文本内容的识别方法,该方法可以应用于电子设备,如图1所示,所述文本内容的识别方法包括如下步骤:
步骤101、获取表盘图片。
本申请中,在电子设备接收到仪表盘的拍摄图片的情况下,电子设备可以通过该仪表盘的拍摄图片获取到表盘图片。其中,上述表盘图片包括:拍摄图片中仪表盘的表盘所在区域的图像,且上述表盘是指仪表盘中显示屏所在的区域。
例如,如图2中所示,电子设备接收到输入的仪表盘的拍摄图片21,电子设备通过拍摄图片21中的表盘所在的区域的图像211生成表盘图片22。
需要说明的是,上述电子设备通过仪表盘的拍摄图片获取到表盘图片,可以是电子设备接收操作人员在拍摄图片中的标注操作,该标注操作用于标注拍摄图片中仪表盘的表盘所在区域的图像;电子设备响应于该标注操作,将该标注操作所标注的图像生成上述表盘图片。
或者,在一些实施方式中,上述步骤101,可以包括:
在接收到仪表盘的拍摄图片的情况下,对所述拍摄图片的图片特征进行多尺度特征处理,得到具有多尺度特征的拍摄图片;
对具有多尺度特征的拍摄图片进行特征分类以及回归处理,确定所述拍摄图片中的表盘区域;
将所述表盘区域的图片输出作为所述表盘图片。
这里,电子设备可以通过对仪表盘的拍摄图片进行多尺度特征处理、中心线检测和包围框回归处理,从而能够准确识别到拍摄图像中仪表盘的表盘位置,进而提升仪表盘中文本内容的识别准确度。
其中,上述对拍摄图片的图片特征进行多尺度特征处理,可以是通过预设的用于进行多尺度特征处理的算法实现。
具体地,在如图2所示的质量控制过程中,对输入图片(即上述拍摄图片)先通过主体网络中的轻量级网络(如采用复合缩放方法对传统的卷积神经网络(CNN)进行优化的轻量级网络EfficientNetB0Small等)进行主体特征提取,结合深度学习分割网络(如UNet等)实现特征维度的多尺度适应,即对输入图片先下采样,再经过不同程度的卷积,学习得到输入图片的深层次的特征(在EfficientNetB0Small实现),最后对输入图片的深层次的特征经过上采样恢复为原图大小,从而得到具有多尺度特征的输入图片,其中,上采样通过反卷积实现。这里,采用轻量级网络对拍摄图片的图片特征进行多尺度特征处理,可以提升处理的准确率和效率。
另外,在电子设备对仪表盘的拍摄图片进行多尺度特征处理之后,电子设备还可以对具有多尺度特征的拍摄图片进行特征分类以及回归处理,从而确定拍摄图片中的表盘区域。
具体地,如图2中所示,在得到具有多尺度特征的输入图片之后,电子设备还可以在质量控制过程的East检测中对具有多尺度特征的输入图片进行分类和回归,例如,分类和回归网络可以均是采用2级3X3的网络和一个分类层提取前景和回归位置信息,且分类通过过dice_loss进行监督学习,回归通过smooth_l1_loss进行监督学习,从而确定表盘在拍摄图片中的位置,实现对拍摄图片中表盘区域的定位。
当然,在上述对拍摄图片的图片特征进行多尺度特征处理之前,电子设备还可以对拍摄图片进行预处理,具体地,可以裁剪上述拍摄图片至预设尺寸,以及,对上述拍摄图片进行减均值处理,等等。
例如,在接收到上述仪表盘的拍摄图片的情况下,电子设备可以对输入图片统一按照长边改变至预设尺寸(如256尺度),从而可以提升获取表盘图片的处理速度;另外,还可以对图片进行减均值处理,从而在减少计算复杂度的同时还可以凸显个体特征差异。
步骤102、检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框。
本申请中,在电子设备获取到上述表盘图片之后,电子设备可以检测表盘图片中的至少一根文本中心线和至少一个包围框,且至少一根文本中心线与至少一个包围框一一对应,即每一根文本中心线具有一个与其对应的包围框。
其中,上述每一根文本中心线为上述表盘图片中一行文本的中心线,且每一包围框为沿处于其对应的文本中心线上的文本的外边缘形成的边框。
需要说明的是,上述检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框,可以是通过任意的预设的用于检测文本中心线和包围框的算法实现,在此并不进行限定。
具体地,在如图2所示的端到端识别(可以是一阶段one-stage的端到端识别)的过程的,电子设备可以将表盘图像的特征作为检测分支的输入,实现表盘图像的文本中心线检测和回归文本中心线的包围框的目标。其中,该检测分支分为文本中心线检测和文本中心线包围框回归两部分,具体如下:
在文本中心线检测中,主干特征(表盘图像的特征)先通过若干卷积层得到检测前背景分类的特征图,以及通过单个滤波器的卷积层得到单一特征图(map),以表征前景和背景的分割;再通过对分割的前景和背景进行监督学习(如dice-loss监督学习),得到前景为1且背景为0的特征图,且特征图中文本中心线处呈高亮形式,从而实现确定表盘图像的文本中心;
在文本中心线包围框回归中,主干特征先通过若干层卷积得到高层特征,在通过含有第一数量的滤波器(如4个滤波器)的卷积层得到分类结果(分类结果中包括第一数量的特征图),第一数量的特征图(如4个特征图)表征每个像素点距离中心线上边界和下边界的(x,y);最后通过对第一数量的特征图进行监督学习(如smoothl1-loss监督学习),回归出中心线的包围外边框。
在一些实施方式中,上述步骤102之前,还包括:
对所述表盘图片的图片特征进行多尺度特征处理,得到具有多尺度特征的表盘图片。
这里,电子设备可以对表盘图像进行多尺度特征处理,从而使仪表盘的文本识别过程中可以适应不同分辨率的表盘图像,进而提升文本识别的准确度。
其中,上述对表盘图片的图片特征进行多尺度特征处理,可以是通过预设的用于进行多尺度特征处理的算法实现。
具体地,电子设备可以通过轻量级网络(如EfficientNetB0Small等)和特征图金字塔网络(Feature Pyramid Networks,FPN)实现对表盘图片的图片特征进行多尺度特征处理,即如图2中所示,在端到端识别过程的主体网络中,电子设备采用轻量级网络将表盘图像的不同尺度的特征存在不同的块(block)中,再通过FPN网络把更抽象、语义更强的高层特征图进行上采样,然后把该上采样后的特征横向连接至前一层特征,这样,表盘图片的高层特征可以得到增强,每一层预测所用的特征图(Feature map)都融合了不同分辨率以及不同语义强度的特征,可以完成对应分辨率大小的物体进行检测,保证每一层都有合适的分辨率以及强语义特征。
当然,在上述步骤102对表盘图片进行检测之前,电子设备也还可以对表盘图像进行预处理,具体地,在上述步骤102之前,还可以包括:对所述表盘图片进行预处理,其中,所述预处理包括:裁剪所述表盘图片至预设尺寸,以及,对所述表盘图片进行减均值处理,从而不仅可以提升获取表盘图片的处理速度,还可以减少计算复杂度以及凸显个体特征差异。
步骤103、基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。
本申请中,在上述电子设备检测到上述至少一根文本中心线以及与每一文本中心线对应的包围框之后,电子设备可以基于上述至少一根文本中心线以及与每一文本中心线对应的包围框,识别表盘图片中的每一行文本的文本内容。
其中,上述基于至少一根文本中心线以及与每一文本中心线对应的包围框,识别表盘图片中的每一行文本的文本内容,可以是通过任意能够基于文本中心线以及与每一文本中心线对应的包围框识别该处于该文本中心线上的文本的方法实现,在此并不进行限定。
具体地,上述步骤103,可以包括:
基于目标文本中心线以及与所述第一文本中心线对应的包围框,获取与所述表盘图片中目标行文本对应的至少一个采样点的文本特征,其中,所述目标行文本位于与所述目标文本中心线对应的包围框内,且所述目标文本中心线为所述至少一根文本中心线中的任一根文本中心线;
对所述至少一个采样点的文本特征进行序列化处理,得到目标文本特征序列;
通过预设的损失函数对目标文本特征序列进行监督学习;
对监督学习后的所述目标文本特征序列进行解码,得到所述目标行文本的文本内容。
这里,通过对文本中心线上的采样点进行特征提取,以及对提取到的特征进行监督学习,实现对文本中心线对应的文本内容的识别,可以提升识别准确度。
其中,电子设备可以基于任一根文本中心线以及与该文本中心线对应的包围框,获取与表盘图片中目标行文本对应的至少一个采样点的文本特征,例如,可以是采用经典CNN网络实现。
或者,如图2中所示的识别分支是为实现对检测输出位置的内容进行识别,且不同识别任务的分类类别数不同,以及类别数的含义是识别的字符个数,实现过程为:电子设备可以将端到端识别过程中的主体网络输出的特征(即上述至少一根文本中心线以及与每一文本中心线对应的包围框对应的特征)作为识别分支的输入,通过卷积层和类别数个+1个滤波器提取到文本特征,该文本特征是整图级别的特征,记为f_char;再基于整图级别的特征学习文本中心线上文本的特征(即目标行文本对应的至少一个采样点的文本特征),例如,采用深度学习训练框架集成工具在gather_nd层(其中,gather_nd层支持通过多维向量索引,从特征图上提取不连续的特征)进行特征提取,即:在数据处理阶段预设文本中心线上采样点的个数,通过数据处理定义采样点的位置和对应标签(label),记为tcl_pos,然后将f_char和tcl_pos送入gather_nd层得到文本中心线上采样点的特征,其中,得到采样点的特征的维度具有类别数+1。
另外,电子设备可以是采用经典的warpctc loss作为损失函数,对目标文本特征序列进行监督学习,然后通过ctc解码得到预测的样本(即目标行文本的文本内容)输出。
在一些实施方式中,上述对所述至少一个采样点的文本特征进行序列化处理之前,还包括:
对所述至少一个采样点的文本特征进行背景抑制处理;
所述对所述至少一个采样点的文本特征进行序列化处理,包括:
对背景抑制处理后的所述至少一个采样点的文本特征进行序列化处理。
这里,可以采样点的文本特征进行背景抑制处理,进一步提升识别的准确度。
需要说明的是,由于提取到的采样点的文本特征包括前景信息和背景信息,电子设备可以对上述提取到的采样点的文本特征进行背景抑制处理,例如,通过mask对背景map的背景做加强处理,对前景map的背景做抑制处理,以保证背景map预测背景的概率都是1,前景map预测背景的概率都是0。
本申请中,通过获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
请参见图3,本申请实施例提供一种文本内容的识别装置,应用于电子设备,如图3所示,文本内容的识别装置300包括:
图片获取模块301,用于获取表盘图片;
检测模块302,用于检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;
识别模块303,用于基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。
可选的,如图4所示,所述识别模块303,包括:
特征获取单元3031,用于基于目标文本中心线以及与所述第一文本中心线对应的包围框,获取与所述表盘图片中目标行文本对应的至少一个采样点的文本特征,其中,所述目标行文本位于与所述目标文本中心线对应的包围框内,且所述目标文本中心线为所述至少一根文本中心线中的任一根文本中心线;
序列化单元3032,用于对所述至少一个采样点的文本特征进行序列化处理,得到目标文本特征序列;
监督学习单元3033,用于通过预设的损失函数对目标文本特征序列进行监督学习;
解码单元3034,用于对监督学习后的所述目标文本特征序列进行解码,得到所述目标行文本的文本内容。
可选的,如5所示,所述识别模块303,还包括:
背景抑制单元3035,用于对所述至少一个采样点的文本特征进行背景抑制处理;
所述序列化单元3032,具体用于:
对背景抑制处理后的所述至少一个采样点的文本特征进行序列化处理。
可选的,如图6所示,所述装置300,还包括:
多尺度特征模块304,用于对所述表盘图片的图片特征进行多尺度特征处理,得到具有多尺度特征的表盘图片。
可选的,如图7所示,所述图片获取模块301,包括:
多尺度特征单元3011,用于在接收到仪表盘的拍摄图片的情况下,对所述拍摄图片的图片特征进行多尺度特征处理,得到具有多尺度特征的拍摄图片;
分类回归单元3012,用于对具有多尺度特征的拍摄图片进行特征分类以及回归处理,确定所述拍摄图片中的表盘区域;
图片输出单元3013,用于将所述表盘区域的图片输出作为所述表盘图片。
可选的,如图8所示,所述装置300,还包括:
预处理模块305,用于对所述表盘图片进行预处理,其中,所述预处理包括:裁剪所述表盘图片至预设尺寸,以及,对所述表盘图片进行减均值处理。
需要说明的是,文本内容的识别装置300能够实现本申请图1方法实施例中电子设备实现的各个过程,以及达到相同的有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的文本内容的识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本内容的识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本内容的识别方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本内容的识别方法对应的程序指令/模块(例如,附图3所示的图片获取模块301、检测模块302和识别模块303)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本内容的识别方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据回声时延的检测的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至回声时延的检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本内容的识别方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与回声时延的检测的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请中,通过获取表盘图片;检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容。这样,电子设备可以准确且快速地识别表盘图片中的文本内容,从而提升仪表盘的计量内容的识别准确度以及效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种文本内容的识别方法,应用于电子设备,其特征在于,包括:
获取表盘图片;
检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;
基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容;
所述检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框,包括:
利用检测分支和识别分支分别接受主体网络输出的特征;其中,所述主体网络用于所述表盘图片的主体特征提取;
利用所述检测分支实现表盘图像的文本中心线检测和回归文本中心线的包围框的目标;
利用所述识别分支基于所述主体网络输出的特征,提取整图级别的文本特征,并基于整图级别的文本特征学习文本中心线上文本的特征,实现对检测输出位置的内容进行识别,得到文本中心线上采样点的特征;
其中,所述检测分支和识别分支并行处理,识别过程为一阶段one-stage的端到端识别。
2.根据权利要求1所述的方法,所述基于所述少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本,包括:
基于目标文本中心线以及与第一文本中心线对应的包围框,获取与所述表盘图片中目标行文本对应的至少一个采样点的文本特征,其中,所述目标行文本位于与所述目标文本中心线对应的包围框内,且所述目标文本中心线为所述至少一根文本中心线中的任一根文本中心线;
对所述至少一个采样点的文本特征进行序列化处理,得到目标文本特征序列;
通过预设的损失函数对目标文本特征序列进行监督学习;
对监督学习后的所述目标文本特征序列进行解码,得到所述目标行文本的文本内容。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少一个采样点的文本特征进行序列化处理之前,还包括:
对所述至少一个采样点的文本特征进行背景抑制处理;
所述对所述至少一个采样点的文本特征进行序列化处理,包括:
对背景抑制处理后的所述至少一个采样点的文本特征进行序列化处理。
4.根据权利要求1所述的方法,其特征在于,所述检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框之前,还包括:
对所述表盘图片的图片特征进行多尺度特征处理,得到具有多尺度特征的表盘图片。
5.根据权利要求1所述的方法,其特征在于,所述获取表盘图片,包括:
在接收到仪表盘的拍摄图片的情况下,对所述拍摄图片的图片特征进行多尺度特征处理,得到具有多尺度特征的拍摄图片;
对具有多尺度特征的拍摄图片进行特征分类以及回归处理,确定所述拍摄图片中的表盘区域;
将所述表盘区域的图片输出作为所述表盘图片。
6.根据权利要求1所述的方法,其特征在于,所述检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框之前,还包括:
对所述表盘图片进行预处理,其中,所述预处理包括:裁剪所述表盘图片至预设尺寸,以及,对所述表盘图片进行减均值处理。
7.一种文本内容的识别装置,应用于电子设备,其特征在于,包括:
图片获取模块,用于获取表盘图片;
检测模块,用于检测所述表盘图片中的至少一根文本中心线以及与每一文本中心线对应的包围框;
识别模块,用于基于所述至少一根文本中心线以及与每一文本中心线对应的包围框,识别所述表盘图片中的每一行文本的文本内容;
所述检测模块,具体用于:
利用检测分支和识别分支分别接受主体网络输出的特征;其中,所述主体网络用于所述表盘图片的主体特征提取;
利用所述检测分支实现表盘图像的文本中心线检测和回归文本中心线的包围框的目标;
利用所述识别分支基于所述主体网络输出的特征,提取整图级别的文本特征,并基于整图级别的文本特征学习文本中心线上文本的特征,实现对检测输出位置的内容进行识别,得到文本中心线上采样点的特征;
其中,所述检测分支和识别分支并行处理,识别过程为一阶段one-stage的端到端识别。
8.根据权利要求7所述的装置,所述识别模块,包括:
特征获取单元,用于基于目标文本中心线以及与第一文本中心线对应的包围框,获取与所述表盘图片中目标行文本对应的至少一个采样点的文本特征,其中,所述目标行文本位于与所述目标文本中心线对应的包围框内,且所述目标文本中心线为所述至少一根文本中心线中的任一根文本中心线;
序列化单元,用于对所述至少一个采样点的文本特征进行序列化处理,得到目标文本特征序列;
监督学习单元,用于通过预设的损失函数对目标文本特征序列进行监督学习;
解码单元,用于对监督学习后的所述目标文本特征序列进行解码,得到所述目标行文本的文本内容。
9.根据权利要求8所述的装置,其特征在于,所述识别模块,还包括:
背景抑制单元,用于对所述至少一个采样点的文本特征进行背景抑制处理;
所述序列化单元,具体用于:
对背景抑制处理后的所述至少一个采样点的文本特征进行序列化处理。
10.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
多尺度特征模块,用于对所述表盘图片的图片特征进行多尺度特征处理,得到具有多尺度特征的表盘图片。
11.根据权利要求7所述的装置,其特征在于,所述图片获取模块,包括:
多尺度特征单元,用于在接收到仪表盘的拍摄图片的情况下,对所述拍摄图片的图片特征进行多尺度特征处理,得到具有多尺度特征的拍摄图片;
分类回归单元,用于对具有多尺度特征的拍摄图片进行特征分类以及回归处理,确定所述拍摄图片中的表盘区域;
图片输出单元,用于将所述表盘区域的图片输出作为所述表盘图片。
12.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
预处理模块,用于对所述表盘图片进行预处理,其中,所述预处理包括:裁剪所述表盘图片至预设尺寸,以及,对所述表盘图片进行减均值处理。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010349150.9A CN111539438B (zh) | 2020-04-28 | 2020-04-28 | 文本内容的识别方法、装置及电子设备 |
US17/172,031 US11810384B2 (en) | 2020-04-28 | 2021-02-09 | Method and apparatus for recognizing text content and electronic device |
EP21156038.8A EP3905112A1 (en) | 2020-04-28 | 2021-02-09 | Method and apparatus for recognizing text content and electronic device |
KR1020210033503A KR20210036319A (ko) | 2020-04-28 | 2021-03-15 | 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 |
JP2021043037A JP7124153B2 (ja) | 2020-04-28 | 2021-03-17 | テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010349150.9A CN111539438B (zh) | 2020-04-28 | 2020-04-28 | 文本内容的识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539438A CN111539438A (zh) | 2020-08-14 |
CN111539438B true CN111539438B (zh) | 2024-01-12 |
Family
ID=71980255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010349150.9A Active CN111539438B (zh) | 2020-04-28 | 2020-04-28 | 文本内容的识别方法、装置及电子设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11810384B2 (zh) |
EP (1) | EP3905112A1 (zh) |
JP (1) | JP7124153B2 (zh) |
KR (1) | KR20210036319A (zh) |
CN (1) | CN111539438B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860479B (zh) * | 2020-06-16 | 2024-03-26 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备及存储介质 |
CN112686843B (zh) * | 2020-12-21 | 2023-09-15 | 福建新大陆软件工程有限公司 | 一种基于神经网络的木板缺陷检测方法及系统 |
CN114283411B (zh) * | 2021-12-20 | 2022-11-15 | 北京百度网讯科技有限公司 | 文本识别方法、文本识别模型的训练方法及装置 |
CN114708580B (zh) * | 2022-04-08 | 2024-04-16 | 北京百度网讯科技有限公司 | 文本识别、模型训练方法、装置、设备、存储介质及程序 |
CN114882485A (zh) * | 2022-04-25 | 2022-08-09 | 华南理工大学 | 一种面向细长文本的自然场景文字检测方法、系统及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016027532A1 (ja) * | 2014-08-18 | 2016-02-25 | 株式会社日立製作所 | 通信制御装置およびネットワーク中継装置 |
CN105574526A (zh) * | 2015-12-10 | 2016-05-11 | 广东小天才科技有限公司 | 一种实现逐行扫描的方法及系统 |
CN106485246A (zh) * | 2016-09-19 | 2017-03-08 | 北京小米移动软件有限公司 | 字符识别方法及装置 |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及系统 |
CN110032990A (zh) * | 2019-04-23 | 2019-07-19 | 杭州智趣智能信息技术有限公司 | 一种发票文本识别方法、系统及相关组件 |
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
CN110378338A (zh) * | 2019-07-11 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种文本识别方法、装置、电子设备和存储介质 |
CN110458107A (zh) * | 2019-08-13 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于图像识别的方法和装置 |
CN110598690A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种端到端光学字符检测识别方法与系统 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111027613A (zh) * | 2019-12-04 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种场景文字识别方法、装置、存储介质及终端 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
US7400768B1 (en) * | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
US7644053B2 (en) * | 2004-03-03 | 2010-01-05 | The Boeing Company | System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support |
US7454063B1 (en) * | 2005-09-22 | 2008-11-18 | The United States Of America As Represented By The Director National Security Agency | Method of optical character recognition using feature recognition and baseline estimation |
US8271902B1 (en) * | 2006-07-20 | 2012-09-18 | Adobe Systems Incorporated | Communication of emotions with data |
US9135277B2 (en) * | 2009-08-07 | 2015-09-15 | Google Inc. | Architecture for responding to a visual query |
US8670597B2 (en) * | 2009-08-07 | 2014-03-11 | Google Inc. | Facial recognition with social network aiding |
US9183224B2 (en) * | 2009-12-02 | 2015-11-10 | Google Inc. | Identifying matching canonical documents in response to a visual query |
US8977639B2 (en) * | 2009-12-02 | 2015-03-10 | Google Inc. | Actionable search results for visual queries |
US20110255789A1 (en) * | 2010-01-15 | 2011-10-20 | Copanion, Inc. | Systems and methods for automatically extracting data from electronic documents containing multiple layout features |
JP5768451B2 (ja) * | 2011-04-07 | 2015-08-26 | 株式会社リコー | コンテンツ処理装置、コンテンツ処理方法及びコンテンツ処理装置の制御プログラム |
US20130210507A1 (en) | 2012-02-15 | 2013-08-15 | Damon Kyle Wayans | Method and apparatus for implementing video game and includes social darts |
CN104580110A (zh) | 2013-10-24 | 2015-04-29 | 西安群丰电子信息科技有限公司 | 基于gprs的车载语音数据实时传输方法 |
US9646202B2 (en) | 2015-01-16 | 2017-05-09 | Sony Corporation | Image processing system for cluttered scenes and method of operation thereof |
CN107967471A (zh) | 2017-09-20 | 2018-04-27 | 北京工业大学 | 一种基于机器视觉的表具自动识别方法 |
CN109993040B (zh) * | 2018-01-03 | 2021-07-30 | 北京世纪好未来教育科技有限公司 | 文本识别方法及装置 |
CN110197227B (zh) | 2019-05-30 | 2023-10-27 | 成都中科艾瑞科技有限公司 | 一种多模型融合的仪表读数智能识别方法 |
CN110458011A (zh) | 2019-07-05 | 2019-11-15 | 北京百度网讯科技有限公司 | 端到端的文字识别方法及装置、计算机设备及可读介质 |
CN110929665B (zh) | 2019-11-29 | 2022-08-26 | 河海大学 | 一种自然场景曲线文本检测方法 |
CN111027456B (zh) | 2019-12-06 | 2023-06-20 | 四川杰森机电有限公司 | 基于图像识别的机械水表读数识别方法 |
-
2020
- 2020-04-28 CN CN202010349150.9A patent/CN111539438B/zh active Active
-
2021
- 2021-02-09 US US17/172,031 patent/US11810384B2/en active Active
- 2021-02-09 EP EP21156038.8A patent/EP3905112A1/en not_active Ceased
- 2021-03-15 KR KR1020210033503A patent/KR20210036319A/ko not_active Application Discontinuation
- 2021-03-17 JP JP2021043037A patent/JP7124153B2/ja active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016027532A1 (ja) * | 2014-08-18 | 2016-02-25 | 株式会社日立製作所 | 通信制御装置およびネットワーク中継装置 |
CN105574526A (zh) * | 2015-12-10 | 2016-05-11 | 广东小天才科技有限公司 | 一种实现逐行扫描的方法及系统 |
CN106485246A (zh) * | 2016-09-19 | 2017-03-08 | 北京小米移动软件有限公司 | 字符识别方法及装置 |
CN108805131A (zh) * | 2018-05-22 | 2018-11-13 | 北京旷视科技有限公司 | 文本行检测方法、装置及系统 |
CN110033000A (zh) * | 2019-03-21 | 2019-07-19 | 华中科技大学 | 一种票据图像的文本检测与识别方法 |
CN110032990A (zh) * | 2019-04-23 | 2019-07-19 | 杭州智趣智能信息技术有限公司 | 一种发票文本识别方法、系统及相关组件 |
CN110378338A (zh) * | 2019-07-11 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种文本识别方法、装置、电子设备和存储介质 |
CN110598690A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种端到端光学字符检测识别方法与系统 |
CN110458107A (zh) * | 2019-08-13 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于图像识别的方法和装置 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN111027613A (zh) * | 2019-12-04 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种场景文字识别方法、装置、存储介质及终端 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的指针式仪表检测与识别研究;徐发兵;吴怀宇;陈志环;喻汉;;高技术通讯(第12期) * |
Also Published As
Publication number | Publication date |
---|---|
EP3905112A1 (en) | 2021-11-03 |
KR20210036319A (ko) | 2021-04-02 |
JP7124153B2 (ja) | 2022-08-23 |
US20210334602A1 (en) | 2021-10-28 |
US11810384B2 (en) | 2023-11-07 |
JP2021103545A (ja) | 2021-07-15 |
CN111539438A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539438B (zh) | 文本内容的识别方法、装置及电子设备 | |
US11710215B2 (en) | Face super-resolution realization method and apparatus, electronic device and storage medium | |
US11694461B2 (en) | Optical character recognition method and apparatus, electronic device and storage medium | |
US11841921B2 (en) | Model training method and apparatus, and prediction method and apparatus | |
CN111639637B (zh) | 表格识别方法、装置、电子设备和存储介质 | |
CN113642583B (zh) | 用于文本检测的深度学习模型训练方法及文本检测方法 | |
US11704811B2 (en) | Method and apparatus for generating background-free image, device, and medium | |
CN111814637A (zh) | 一种危险驾驶行为识别方法、装置、电子设备及存储介质 | |
CN111709873A (zh) | 图像转换模型生成器的训练方法和装置 | |
JP7389824B2 (ja) | オブジェクト識別方法と装置、電子機器及び記憶媒体 | |
CN112508003A (zh) | 字符识别处理方法和装置 | |
CN112508027B (zh) | 用于实例分割的头部模型、实例分割模型、图像分割方法及装置 | |
CN111932530B (zh) | 三维对象检测方法、装置、设备和可读存储介质 | |
CN112749701B (zh) | 车牌污损分类模型的生成方法和车牌污损分类方法 | |
CN111523292B (zh) | 用于获取图像信息的方法和装置 | |
CN111563541B (zh) | 图像检测模型的训练方法和装置 | |
CN112488126A (zh) | 特征图处理方法、装置、设备以及存储介质 | |
CN112001369B (zh) | 船舶烟囱的检测方法、装置、电子设备及可读存储介质 | |
CN112990201A (zh) | 文本框检测方法、装置、电子设备和计算机存储介质 | |
CN113887394A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN112101368B (zh) | 一种字符图像处理方法、装置、设备和介质 | |
CN111695491B (zh) | 用于检测行人的方法和装置 | |
CN113052771B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN113763310A (zh) | 用于分割图像的方法和装置 | |
CN114399730A (zh) | 交通目标检测模型训练和目标检测方法及边缘计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |