CN113486828A - 图像处理方法、装置、设备和存储介质 - Google Patents
图像处理方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113486828A CN113486828A CN202110788327.XA CN202110788327A CN113486828A CN 113486828 A CN113486828 A CN 113486828A CN 202110788327 A CN202110788327 A CN 202110788327A CN 113486828 A CN113486828 A CN 113486828A
- Authority
- CN
- China
- Prior art keywords
- image
- initial
- blocks
- bounding boxes
- image blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 89
- 238000001514 detection method Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims description 47
- 230000015654 memory Effects 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 230000006740 morphological transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 33
- 230000011218 segmentation Effects 0.000 description 25
- 238000004891 communication Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000003909 pattern recognition Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/155—Segmentation; Edge detection involving morphological operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Geometry (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
一种图像处理方法、图像处理装置、电子设备和计算机可读存储介质。图像处理方法包括:获得初始图像,初始图像包括至少一个目标对象;对初始图像进行处理以得到中间图像;利用区域检测模型对中间图像进行识别,以得到包括M个对象连通区域的连通图像;确定在连通图像中与M个对象连通区域分别对应的M个包围框;基于M个包围框,从初始图像中截取N个图像块,每个图像块包括至少一个目标对象;以及利用对象识别模型识别N个图像块,以得到初始图像中的目标对象。
Description
技术领域
本公开的实施例涉及一种图像处理方法、图像处理装置、电子设备和计算机可读存储介质。
背景技术
随着数字化技术的发展,可以利用文本识别技术等对文本图像进行识别,以获取文本图像记载的信息,例如利用OCR(Optical Character Recognition,光学字符识别)识别技术,将图片、照片上的文字内容,直接转换为可编辑的文本。然而,目前的文字识别算法的复杂度高、计算量大,因而对使用环境存在限制,只适用于在服务器等硬件配置较高的设备上执行,而在终端设备等硬件配置较低的设备上执行时会导致识别速度很慢甚至不能识别的问题,因而在终端设备离线的情况下不易进行文字识别。
发明内容
本公开至少一个实施例提供一种图像处理方法,包括:获得初始图像,初始图像包括至少一个目标对象;对初始图像进行处理以得到中间图像;利用区域检测模型对中间图像进行识别,以得到包括M个对象连通区域的连通图像;确定在连通图像中与M个对象连通区域分别对应的M个包围框;基于M个包围框,从初始图像中截取N个图像块,每个图像块包括至少一个目标对象;以及利用对象识别模型识别N个图像块,以得到初始图像中的目标对象,M和N均为正整数。
例如,在本公开一实施例提供的图像处理方法中,利用区域检测模型对中间图像进行识别,以得到包括M个对象连通区域的连通图像,包括:利用区域检测模型处理中间图像,得到包括多个初始对象连通区域的连通图像;对包括多个初始对象连通区域的连通图像进行形态学变换,以基于包括多个初始对象连通区域的连通图像得到包括M个对象连通区域的连通图像。
例如,在本公开一实施例提供的图像处理方法中,对初始图像进行处理以得到中间图像包括:将初始图像的尺寸由初始尺寸缩小至预定尺寸;对预定尺寸的初始图像进行二值化处理,得到中间图像。
例如,在本公开一实施例提供的图像处理方法中,确定在连通图像中与M个对象连通区域分别对应的M个包围框,包括:提取M个对象连通区域各自的轮廓信息;基于轮廓信息,确定M个对象连通区域各自的包围框。
例如,在本公开一实施例提供的图像处理方法中,基于M个包围框,从初始图像中截取N个图像块,包括:根据中间图像和初始图像之间的对应关系,基于M个包围框中的每个包围框,对应截取初始图像中的一个图像块,M与N相等;或者对M个包围框进行预定处理,得到N个处理后的包围框,并根据中间图像和初始图像之间的对应关系,基于每个处理后的包围框,对应截取初始图像中的一个图像块。
例如,在本公开一实施例提供的图像处理方法中,对M个包围框进行预定处理,包括:对M个包围框进行评分,以得到M个包围框分别对应的质量分值;将质量分值小于分值阈值的包围框作为无效包围框,并删除无效包围框。
例如,在本公开一实施例提供的图像处理方法中,对M个包围框进行评分包括:针对M个包围框中的每个包围框执行以下操作:确定包围框的面积和位于包围框中的目标对象对应的像素的面积;基于像素的面积与包围框的面积的比例,确定包围框对应的质量分值。
例如,在本公开一实施例提供的图像处理方法中,对M个包围框进行预定处理,包括:将M个包围框中的一个或多个包围框放大第一预定倍数。
例如,在本公开一实施例提供的图像处理方法中,对M个包围框进行预定处理,还包括:检测M个包围框中每相邻两个包围框之间是否至少部分区域重叠,若是,将至少部分区域重叠的两个包围框中的每个包围框基于第二预定倍数进行缩小处理,以使得缩小后的两个包围框不重叠或者重叠区域减小。
例如,在本公开一实施例提供的图像处理方法中,利用对象识别模型识别N个图像块,以得到初始图像中的目标对象,包括:确定N个图像块中在第一方向上的长度大于识别长度阈值的P个第一图像块,并将每个第一图像块分割为至少两个子图像块,以得到与P个第一图像块对应的多个子图像块,每个子图像块的长度等于或小于识别长度阈值;以及利用对象识别模型识别多个子图像块,以得到P个第一图像块中的目标对象,初始图像中的目标对象包括P个第一图像块中的目标对象,P为正整数。
例如,在本公开一实施例提供的图像处理方法中,利用对象识别模型识别N个图像块,以得到初始图像中的目标对象,还包括:确定N个图像块中在第一方向上的长度小于识别长度阈值的Q个第二图像块,并对每个第二图像块进行处理,得到Q个处理后的第二图像块,每个处理后的第二图像块在第一方向上的长度为识别长度阈值;利用对象识别模型识别Q个处理后的第二图像块,以得到Q个第二图像块中的目标对象,初始图像中的目标对象还包括Q个第二图像块中的目标对象,Q为正整数。
例如,在本公开一实施例提供的图像处理方法中,将每个第一图像块分割为至少两个子图像块包括:针对N个图像块中的第i个第一图像块执行以下操作:在第一方向上,每间隔识别长度阈值设置一个候选分割点,以确定第i个第一图像块对应的至少一个候选分割点;基于至少一个候选分割点,确定第i个第一图像块对应的至少一个分割点;基于至少一个分割点,将第i个第一图像块分割为至少两个子图像块,i为小于等于P的正整数。
例如,在本公开一实施例提供的图像处理方法中,基于至少一个候选分割点,确定第i个第一图像块对应的至少一个分割点,包括:若在第i个第一图像块中的至少一个候选分割点中的任一候选分割点的距离阈值的范围内包含间隔区域,则将间隔区域中的一点作为第i个第一图像块对应的一个分割点;若在第i个第一图像块中的至少一个候选分割点中的任一候选分割点的距离阈值的范围内不包含间隔区域,则将任一候选分割点作为第i个第一图像块对应的一个分割点。
例如,在本公开一实施例提供的图像处理方法中,对每个第二图像块进行处理,包括:在第一方向上,在每个第二图像块的至少一端拼接端部图像块,以得到每个第二图像块对应的处理后的第二图像块,端部图像块中的每个像素的像素值与第二图像块中的每个对象对应的像素的像素值不同。
例如,在本公开一实施例提供的图像处理方法中,每个第一图像块包括多个目标对象,多个目标对象沿第一方向依次排列。
例如,在本公开一实施例提供的图像处理方法中,至少一个目标对象包括字符。
本公开一实施例提供一种图像处理装置,包括:图像获取模块,配置为获得初始图像,所述初始图像包括至少一个目标对象;图像处理模块,配置为对所述初始图像进行处理以得到中间图像;区域识别模块,配置为利用区域检测模型对所述中间图像进行识别,以得到包括M个对象连通区域的连通图像;确定模块,配置为在所述连通图像中确定与所述M个对象连通区域分别对应的M个包围框;截取模块,配置为基于所述M个包围框,从所述初始图像中截取N个图像块,每个所述图像块包括至少一个目标对象;以及对象识别模块,配置为利用对象识别模型识别所述N个图像块,以得到所述初始图像中的目标对象,M和N均为正整数。
本公开一实施例还提供一种电子设备,包括:处理器;存储器,存储一个或多个计算机程序模块;所述一个或多个计算机程序模块被配置为由所述处理器执行,所述一个或多个计算机程序模块包括用于实现根据上述任一实施例所述的图像处理方法。
本公开一实施例还提供一种计算机可读存储介质,用于非暂时性存储计算机可读指令,当所述计算机可读指令由计算机执行时可以实现根据上述任一实施例所述的图像处理方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一实施例提供的一种图像处理方法的示意性流程图;
图2为本公开至少一实施例提供的初始图像的示意图;
图3为本公开至少一实施例提供的一种目标对象的示意图;
图4为本公开至少一实施例提供的二值化图像的示意图;
图5为本公开至少一实施例提供的连通图像的示意图;
图6为本公开至少一实施例提供的包围框的示意图;
图7A为本公开至少一实施例提供的从初始图像截取图像块的示意图;
图7B为本公开至少一实施例提供的图像块的示意图;
图8为本公开至少一实施例提供的包括多个初始对象连通区域的连通图像的示意图;
图9为本公开至少一实施例提供的识别N个图像块的示意性流程图;
图10A为本公开至少一实施例提供的分割图像块的示意图;
图10B为本公开至少一实施例提供的拼接端部图像块的示意图;
图11为本公开至少一实施例提供的目标对象识别结果的示意图;
图12为本公开至少一实施例提供的一种图像处理装置的示意性框图;
图13为本公开至少一实施例提供的一种电子设备的示意性框图;
图14为本公开至少一实施例提供的另一种电子设备的示意性框图;
图15为本公开至少一实施例提供的一种计算机可读存储介质的示意图;以及
图16示出了为本公开至少一实施例提供的一种硬件环境的示意图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本公开至少一实施例提供一种图像处理方法、图像处理装置、电子设备和计算机可读存储介质。该图像处理方法包括:获得初始图像,初始图像包括至少一个目标对象;对初始图像进行处理以得到中间图像;利用区域检测模型对中间图像进行识别,以得到包括M个对象连通区域的连通图像;确定在连通图像中与M个对象连通区域分别对应的M个包围框;基于M个包围框,从初始图像中截取N个图像块,每个图像块包括至少一个目标对象;以及利用对象识别模型识别N个图像块,以得到初始图像中的目标对象,M和N均为正整数。
本公开实施例提供的图像处理方法,可以先将初始图像转换为中间图像,再利用区域检测模型将中间图像转换为连通图像以得到若干个对象连通区域,确定对象连通区域对应的包围框,然后再回到初始图像中截取包围框对应的图像块。本公开实施例的这一方式相比于相关技术中直接根据初始图像确定对象所在区域的算法计算量更小且处理过程更为简单,因而解决了复杂度高、计算量大的问题,使对象识别算法能够应用于手机等硬件配置较低的终端设备上,使终端设备在离线的情况下也能够进行对象识别。
本公开实施例的图像处理方法可应用于本公开实施例的图像处理装置,该图像处理装置可被配置于电子设备上。该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等硬件设备。
下面结合附图对本公开的实施例进行详细说明,但是本公开并不限于这些具体的实施例。
图1为本公开至少一实施例提供的一种图像处理方法的示意性流程图。
如图1所示,该方法包括步骤S110~S160。
步骤S110:获得初始图像,初始图像包括至少一个目标对象。
步骤S120:对初始图像进行处理以得到中间图像。
步骤S130:利用区域检测模型对中间图像进行识别,以得到包括M个对象连通区域的连通图像。
步骤S140:确定在连通图像中与M个对象连通区域分别对应的M个包围框。
步骤S150:基于M个包围框,从初始图像中截取N个图像块,每个图像块包括至少一个目标对象。
步骤S160:利用对象识别模型识别N个图像块,以得到初始图像中的目标对象。
例如,M和N均为正整数。
例如,在步骤S110中,初始图像可以为多种形式,例如照片、扫描图、截图、PDF图片页面等任何图像形式的电子文件。初始图像可以为灰度图像,也可以为彩色图像。
图2为本公开至少一实施例提供的初始图像201的示意图。如图2所示,初始图像201包括至少一个目标对象,至少一个目标对象可以包括字符。例如,每个字符可以为数字、中文字(中文汉字、中文单词等)、外文字(例如,外文字母、外文单词等)、特殊字符(例如,百分号“%”)、标点符号、图形(例如,三角形、箭头)等。例如,字符可以为多种字体,可以是打印字体也可以是手写字体,打印字体可以包括已知的多种字体,例如宋体、黑体、楷体、Times New Roman、Arial等,此外,打印字体还可以包括艺术字体等。例如,图2所示的示例中,目标对象包括英文字母和数字。
图3为本公开至少一实施例提供的一种目标对象的示意图,如图3所示,在另一示例中,目标对象还可以包括多种图案,例如,心形图案、笑脸图案、云形图案、太阳图案、月亮图案等等。此外,目标对象还可以是除字符和图案之外的其他形式,以下以目标对象为字符为例进行详细描述,其他类型的目标对象的处理方式可以对应参照字符的处理方式。
例如,目标对象的类型可以根据实际需求而定,可以预先设定需要识别的目标对象的类型,并根据需要识别的对象类型来训练相应的区域检测模型和对象识别模型,以使区域检测模型能够将相应类型的对象所在的位置包含在对象连通区域内,以及使对象识别模型能够识别相应类型的对象。例如,在一些应用场景中,需要识别英文单词和标点符号,则可以利用包含英文单词和标点符号的样本图像训练区域检测模型和对象识别模型,以使训练得到的区域检测模型能够将英文单词和标点符号所在的区域进行连通,并使训练得到的对象识别模型能够识别英文单词和标点符号。
例如,在步骤S120中,对初始图像进行处理以得到中间图像可以包括:将初始图像的尺寸由初始尺寸缩小至预定尺寸;对预定尺寸的初始图像进行二值化处理,得到中间图像。
例如,不同初始图像的尺寸可能不一致,为了便于处理,可以先将初始图像由其原始尺寸统一缩小为一个预定尺寸,预定尺寸例如可以是640*640(像素),一方面可以减小后续的计算量,另一方面统一的尺寸可以便于后续处理,例如,可以便于区域检测模型进行区域识别处理。
例如,可以对缩小为预定尺寸的图像(即预定尺寸的初始图像)进行归一化处理,在一个示例中,可以将预定尺寸的初始图像的各个像素值(例如灰度值)均映射至0~1之间,也就是说,使像素值除以255以转化为0~1之间的数值。在另一示例中,可以将预定尺寸的初始图像的各个像素值均映射至-1.0~1.0之间。
例如,对于归一化后的图像,可以进行二值化处理,得到二值化图像,并可以将该二值化图像作为上述的中间图像。图4为本公开至少一实施例提供的二值化图像的示意图,图4所示的二值化图像为图2所示的初始图像的二值化图像。如图4所示,可以预先设置一个二值化阈值(例如为0.3,二值化阈值可以根据实际情况设置,本公开对此不作具体限定),并将归一化后的各个像素值与该二值化阈值的大小进行比较,若像素值高于或等于该二值化阈值,则将像素值转换为1,即将对应像素点的颜色变为纯白色;若像素值低于该二值化阈值,则将像素值转换为0,即将对应像素点的颜色变为纯黑色,基于这一方式,可以得到一张纯黑白图像,该纯黑白图像即为二值化图像。
例如,在一些实施例中,还可以在上述缩小尺寸处理、归一化处理和二值化处理中的任一步骤之前或之后,对图像(初始图像或预定尺寸的初始图像或归一化后的初始图像或二值化图像)进行倾斜校正,以使图像中的字符按照水平方向(例如图4所示的X方向)或者竖直方向(例如图4所示的Y方向)排列。此外,还可以对初始图像进行裁剪,去除四周区域的背景区域。
例如,在步骤S130中,区域检测模型可以采用机器学习技术实现并且例如运行在通用计算装置或专用计算装置上。该区域检测模型为预先训练得到的神经网络模型。例如,区域检测模型可以采用深度卷积神经网络(DEEP-CNN)等神经网络实现。将中间图像输入区域检测模型,区域检测模型可以识别出待识别的中间图像中的各个对象所在的区域,并将识别出的各个对象连通区域标注出来。在目标对象为字符的场景中,对象连通区域可以为字符连通区域。例如,区域检测模型可以采用DBNet(Driving Behavior Net,驾驶行为网络)架构实现,DBNet架构中的主干网络(Backbone)可以采用MobileNetV3 Large网络,MobileNetV3 Large为轻量级网络,在一些实施例中,MobileNetV3 Large网络的参数量例如可以在原始数据量的基础上削减,例如削减为原始数据量的r倍,r为大于0小于1的整数,例如r=0.75(r可以根据实际情况设置)。在本公开其他实施例中,根据实际需求,区域检测模型可以采用除DBNet架构之外的其他网络架构,主干网络可以采用除MobileNetV3 Large网络之外的其他网络。
需要说明的是,初始图像中的各个对象的位置和类型等与中间图像中的各个对象的位置和类型等均相同,如图2和4所示,初始图像包括对象“DECLARATION ANDASSIGNMENT”,且该对象“DECLARATION AND ASSIGNMENT”位于该初始图像的上侧,中间图像也包括对象“DECLARATION AND ASSIGNMENT”,且该对象“DECLARATION AND ASSIGNMENT”也位于该中间图像的上侧。
图5为本公开至少一实施例提供的连通图像的示意图,图5所示的连通图像为对图4所示的中间图像进行处理得到的连通图像,图5所示的连通图像为包括M个对象连通区域的连通图像。例如,图5所示的连通图像的尺寸和图4所示的中间图像的尺寸相同。
结合图4和图5所示,每行字符可以对应一个或多个对象连通区域(也可称为字符连通区域)。例如,若一行中的各个字符连续排列,即一行中的每相邻两个字符之间的间隔不超过预定间隔(例如,两个或三个等)空格的间隔),则该行字符可以对应形成一个对象连通区域。例如,图4示出了字符行“DECLARATION AND ASSIGNMENT”,由于该行中的相邻字符之间的间隔均未超过预定间隔,则可以对应该字符行“DECLARATION AND ASSIGNMENT”形成一个对象连通区域501。需要说明的是,预定间隔可以根据实际情况设置本公开对此不作限定。此外,对于字符行“DECLARATION AND ASSIGNMENT”,可以将单个英文字母作为一个字符,也可以将一个英文单词作为一个字符。
例如,若一行中的各个字符不连续排列,即一个字符行中出现相邻两个字符之间的间隔超过了预定间隔(例如,两个(或三个等)空格的间隔),则可以根据间隔的数量形成若干个对象连通区域,例如一个字符行中的第a个字符至第a+b个字符连续排列,第a+b个字符与第a+b+1个字符之间的间隔超过了预定间隔,第a+b+1个字符至第a+b+c个字符连续排列,则第a个字符至第a+b个字符可以对应形成一个对象连通区域,并第a+b+1个字符至第a+b+c个字符可以对应形成另一个对象连通区域,a、b和c均为正整数。例如,图4示出了字符行“Signature:_____Date:_____”,若在该实施例中,下划线不作为检测和识别的对象,则该行中的字符依次为第一个字符“Signature”、第二个字符“:”、第三个字符“Date”和第四个字符“:”,由于第二个字符“:”和第三个字符“Date”之间的间隔超过了预定间隔,第一个字符“Signature”和第二个字符“:”是连续的,第三个字符“Date”和第四个字符“:”是连续的,因此第一个字符“Signature”和第二个字符“:”可以对应形成一个对象连通区域502,并第三个字符“Date”和第四个字符“:”可以对应形成另一个对象连通区域503。
例如,在步骤S140中,可以根据M个对象连通区域中的每个对象连通区域确定一个对应的包围框。
图6为本公开至少一实施例提供的包围框的示意图,结合图5和图6所示,在本实施例中,包围框例如为矩形框,包围框例如可以是最小外接框,即能够将对象连通区域完全包围在内的最小尺寸的边框,可以根据对象连通区域的长度和高度来确定最小外接包围框的尺寸。例如,如图5和图6所示,对于对象连通区域501,在确定对象连通区域501的包围框在X方向上的尺寸的过程中,可以确定对象连通区域501在X方向上的最左侧的端点对应的X坐标以及最右侧的端点对应的X坐标,将该两个X坐标之间的差值的绝对值作为对象连通区域501的包围框601的在X方向上的尺寸。在确定对象连通区域501的包围框在Y方向上的尺寸的过程中,可以确定对象连通区域501在Y方向上的最低点对应的Y坐标以及最高点对应的Y坐标,将该两个Y坐标之间的差值的绝对值作为对象连通区域501的包围框601的在Y方向上的尺寸,由此,可以得到将对象连通区域501包围在内的包围框601。类似地,可以确定得到每个对象连通区域对应的包围框,例如对象连通区域502对应的包围框602和对象连通区域503对应的包围框603等。值得注意的是,为了清楚示出包围框,图6所示的各个包围框的在X方向和Y方向上的尺寸均大于基于上述方式确定的尺寸,然而,需要理解的是,每个包围框的在X方向和Y方向上的尺寸可以与上述方式确定的尺寸相等。
例如,在其他实施例中,包围框还可以是除矩形之外的其他形状,例如可以是椭圆形、三角形、梯形等等。
需要说明的是,还可以通过其他合适的方式确定对象连通区域的包围框。
例如,在步骤150中,可以根据M个包围框中的一个或多个(N个)包围框,从初始图像201中截取对应的图像块。
图7A为本公开至少一实施例提供的从初始图像截取图像块的示意图,图7B为本公开至少一实施例提供的图像块的示意图,结合图2、图7A和图7B所示,若在得到中间图像或者连通图像的过程中进行了倾斜校正处理,则在从初始图像中截取图像块之前,可以先对初始图像201进行倾斜校正处理,得到校正后的初始图像201`,然后再从矫正后的初始图像201`中截取图像块。在一个示例中,可以针对M个包围框中的每个包围框,均从初始图像201中截取对应区域的一个图像块,这种情况下,M与N相等。例如,根据M个包围框的坐标参数,根据中间图像和初始图像之间的对应关系(例如,映射关系),将M个包围框均映射至初始图像201`,以截取初始图像201`中被每个包围框框起来的一个图像块,从而得到M个图像块,例如根据包围框601截取得到图像块701、根据包围框602截取得到图像块702、根据包围框603截取得到图像块703、根据包围框604截取得到图像块704、以及根据包围框605截取得到图像块705等。在另一示例中,N也可以小于M,即可以从M个包围框中选取部分包围框,然后从初始图像201中截取该部分包围框所限定的图像块。
例如,在步骤S160中,可以利用对象识别模型识别各个图像块,得到每个图像块中的字符内容。在目标对象包括字符的情况下,对象识别模型可以包括字符识别模型,例如,字符识别模型可以基于光学字符识别等技术实现并且例如运行在通用计算装置或专用计算装置上,例如,字符识别模型也可以为预先训练好的神经网络模型。在一些实施例中,例如,识别得到的多个字符内容可能存在语义错误、逻辑错误等,因此,需要对字符识别模型识别得到的字符内容进行校验,纠正字符内容中的语义错误、逻辑错误等,以得到准确的字符内容。例如,字符识别模型可以采用CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)+CTC(Connectionist Temporal Classification,连接时序分类)架构,CRNN+CTC架构的主干网络(Backbone)可以采用MobileNetV3 Small网络,为了适配本公开实施例中的对图像块的识别,可以进行适应性的调整,例如对MobileNetV3 Small网络中的inverted_res_block部分进行适应性调整。
例如,针对每个图像块可以识别得到至少一个字符,每个字符可以为单个中文字、单个外文字(例如,单个英文字母或单个英文单词等)、单个数字、单个符号、单个图形、单个标点符号等。例如,根据图像块701可以识别得到字符内容“DECLARATION ANDASSIGNMENT”,根据图像块702可以识别得到字符内容“Signature:”,以及根据图像块702可以识别得到字符内容“Date:”等。
例如,在其他实施例中,目标对象可以包括除字符之外的其他对象,例如图案等,在这种情况下,对象识别模型还可以包括图案识别模型等,图案识别模型例如运行在通用计算装置或专用计算装置上,例如,图案识别模型也可以为预先训练好的神经网络模型。在一个示例中,图案识别模型可以将图案识别为相应的英文单词或中文词,例如可以将太阳图案识别为文字“太阳”。在另一示例中,还可以利用图案识别模型将图案转换为相应的简笔画图形,例如可以预存多种简笔画图形,若利用图案识别模型识别出待识别的图案为太阳图案,则可以从图形库中选出与太阳图案对应的简笔画图形,并将该简笔画图形作为识别结果。
例如,在目标对象包含多种类型的情况下,可以分别利用不同的识别模型识别不同类型的目标对象,并可以将多个识别模型的识别结果拼接结合得到初始图像中的全部目标对象的识别结果。
本公开实施例提供的图像处理方法,可以先将初始图像转换为中间图像,再利用区域检测模型将中间图像转换为连通图像以得到若干个对象连通区域,确定对象连通区域对应的包围框,然后再回到初始图像中截取包围框对应的图像块。本公开实施例的这一方式相比于相关技术中直接根据初始图像确定对象所在区域的算法计算量更小且处理过程更为简单,因而至少部分解决了复杂度高、计算量大的问题,使对象识别算法能够应用于手机等硬件配置较低的终端设备上,使终端设备在离线的情况下也能够进行对象识别。
例如,在步骤S130(利用区域检测模型对所述中间图像进行识别,以得到包括M个对象连通区域的连通图像)中,可以利用区域检测模型处理中间图像,得到包括多个初始对象连通区域的连通图像;对包括多个初始对象连通区域的连通图像进行形态学变换,以基于包括多个初始对象连通区域的连通图像得到包括M个对象连通区域的连通图像。
图8为本公开至少一实施例提供的包括多个初始对象连通区域的连通图像的示意图,如图8所示,利用区域检测模型处理得到的包括多个初始对象连通区域的连通图像中可能会存在小白点801和黏连行802等问题,例如某相邻的两行文本行因为行之间的某一个像素而形成黏连。这种情况下,可以对包括多个初始对象连通区域的连通图像进行形态学(morphology)变换,以得到图5所示的修正后的连通图像(即M个对象连通区域的连通图像),在修正后的连通图像中,小白点801被去除,黏连行802被拆分为图5所示的行504和行505。形态学(morphology)变换可以包括闭操作和开操作,开操作可以平滑轮廓,断开较窄的狭颈(例如细长的白色线条),并消除细小的突出物,例如去除黏连行的凸起;闭操作也可以平滑物体轮廓,但与开操作相反的是,闭操作可以弥合较窄的间断和细长的沟壑,消除小的空洞,填补轮廓线的中的断裂,例如去除小白点。
例如,在步骤S140(确定在连通图像中与M个对象连通区域分别对应的M个包围框)中,可以提取M个对象连通区域各自的轮廓信息;基于轮廓信息,确定M个对象连通区域各自的包围框。
例如,轮廓信息可以是轮廓线信息,例如轮廓线的坐标信息。可以针对每个对象连通区域提取区域的轮廓线信息,根据轮廓线信息可以确定对象连通区域在X方向和Y方向上的边界点,进而可以根据边界点确定对象连通区域对应的最小外接框,即对象连通区域的包围框。例如,可以采用opencv(一种计算机视觉和机器学习软件库)中的多种轮廓提取算法实现轮廓线信息的提取,多种轮廓提取算法例如包括Canny(坎尼)边缘检测算法、Sobel(索贝尔)边缘检测算法等。
例如,在步骤S150(基于M个包围框,从初始图像中截取N个图像块)中,如上所述,在一个示例中,M与N可以相等,根据中间图像和初始图像之间的对应关系,基于M个包围框中的每个包围框,对应截取初始图像中的一个图像块。
例如,在一个示例中,在确定包围框之前,可以先将连通图像的尺寸缩放(例如放大)至初始图像的原始尺寸,使连通图像的尺寸与初始图像的尺寸一致,然后再在具有原始尺寸的连通图像中根据对象连通区域的轮廓信息确定对象连通区域的包围框,然后将各个包围框映射至初始图像中。在将连通图像的尺寸缩放为原始尺寸之后,由于新增的一些像素的像素值是利用插值计算而得到的,这些像素的像素值是介于0~1之间的数值,因此,为了便于处理,可以对缩放后的连通图像进行二值化处理(例如,图像的灰阶值范围为0~255的情况下设置阈值为127,图像的灰阶值范围为0~1的情况下设置阈值为0.5),使缩放后的连通图像转换为纯黑白图,然后再在二值化后的连通图像中确定包围框。在另一示例中,可以不对连通图像进行缩放,而是在具有预定尺寸的连通图像中确定包围框,然后再根据原始尺寸和预定尺寸的比例关系,将包围框的尺寸放大以得到与原始尺寸相对应的放大尺寸后的包围框,以便将放大尺寸后的包围框映射至初始图像的相应区域。需要说明的是,还可以采用其他合适的方式将连通图像中的包围框映射至初始图像,本公开对此不作具体限定。
在另一示例中,可以对M个包围框进行预定处理,得到N个处理后的包围框,并根据中间图像和初始图像之间的对应关系,基于每个处理后的包围框,对应截取初始图像中的一个图像块,M与N相等或不相等。
例如,对M个包围框进行预定处理可以包括:对M个包围框进行评分,以得到M个包围框分别对应的质量分值;将质量分值小于分值阈值的包围框作为无效包围框,并删除无效包围框。
例如,对M个包围框进行评分可以包括:针对M个包围框中的每个包围框执行以下操作:确定包围框的面积和位于包围框中的目标对象对应的像素的面积;基于像素的面积与包围框的面积的比例,确定包围框对应的质量分值。
例如,可以将包围框映射至图4所示的二值化图像中,字符的颜色与背景颜色不同,即字符的像素值与背景的像素值不同,例如,字符的像素值为1,背景的像素值为0。在计算包围框中的目标对象的面积与包围框的面积的比例的过程中,可以遍历包围框中的各个像素,统计像素值与目标对象的像素值相等的像素的数量,以得到目标对象对应的像素数量,利用统计的目标对象对应的像素数量除以包围框包含的全部像素的数量,即可得到目标对象对应的像素的面积与包围框的面积的比例。在一个示例中,可以直接将该比例作为包围框的质量分值;在另一示例中,可以划分若干个比例范围,每个比例范围对应一个分值,例如,比例范围[0~0.2)可以对应分值1,[0.2~0.4)可以对应分值2,…,[0.8~1]可以对应分值5。
例如,在其他实施例中,可以根据包围框的倾斜度来确定质量分值,例如,对于图4所示的二值化图像,字符均按照X方向排列,可以根据包围框的轴线与X方向(或Y方向)的夹角来确定包围框的质量分值,例如可以将夹角直接作为质量分值,或者可以划分若干个夹角范围,每个夹角范围对应一个分值。此外,本领域技术人员还可以采用其他方式对图像块进行评分。
例如,在获得包围框的质量分值之后,可以将质量分值低于预定分值阈值的包围框去除,保留优质包围框。通过对包围框进行评分并去除无效包围框的方式,可以过滤掉无效内容,避免后续无效的计算量,并保证识别结果的准确度。
例如,分值阈值可以根据实际情况设置,在一些示例中,分值阈值可以为最高预定分值的s倍,s例如介于0.3~0.8之间。例如,质量分值为0~1之间的数值,则最高预定分值为1,分值阈值可以是0.3~0.8之间的数值(例如0.5),质量分值大于等于分值阈值的包围框可以认为是优质包围框,质量分值小于分值阈值的包围框可以认为是无效包围框。
例如,对M个包围框进行预定处理还可以包括:将M个包围框中的一个或多个包围框放大第一预定倍数。
例如,可能有些包围框包围的范围较小而导致目标对象未被完全包围在包围框中,例如文本行中有部分字符未被包围框包围或者一些字符的部分区域未包含在包围框中。为解决这一问题,可以对这些包围框进行放大处理,以将未被包含在包围框中的目标对象包含进包围框中。例如,可以将包围框按照面积周长比的k(第一预定倍数)倍进行放大,例如,放大中心为该包围框的中心,k例如为大于1且小于2的整数,例如k为1.6。例如,对于任一包围框,该包围框对应的放大后的包围框可以完全覆盖该包围框。
例如,可以对M个包围框均进行放大处理,或者可以从M个包围框中筛选出范围较小的若干个包围框进行放大处理,例如,可以检测每个包围框的预定周边范围内是否存在目标对象未被包围进任一包围框中,例如可以检测包围框的预定周边范围内是否存在一定数量的目标对象的像素,若是,则可以对该包围框进行放大处理。例如,预定周边范围可以是将包围框以其中心点为放大中心等比例放大t倍后所得的虚拟包围框与该包围框之间的环形区域,t例如大于1且小于2。例如,M个包围框包括第一包围框,以第一包围框的中心点为放大中心将第一包围框放大t倍得到第一虚拟包围框,可以将该第一虚拟包围框与第一包围框之间的环形区域作为第一包围框的预定周边范围。例如,包围框包括沿X方向延伸的两个第一边和沿Y方向延伸的两个第二边,第一边与第二边垂直,等比例放大可以是将包围框的第一边和第二边均放大t倍,得到虚拟包围框。这种情况下,包围框的中心点与虚拟包围框的第一边之间的距离为该中心点与包围框的第一边之间的距离的t倍,例如,该中心点与包围框的第一边之间的距离为5(mm),则包围框的中心点与虚拟包围框的第一边之间的距离为5t(mm)。同样地,包围框的中心点与虚拟包围框的第二边之间的距离为该中心点与包围框的第二边之间的距离的t倍。
例如,针对包围框的放大操作可以在去除无效包围框的操作之后进行,这种情况下,去除无效包围框后剩余N个包围框,可以对N个包围框均进行放大处理,或者可以从N个包围框中筛选出范围较小的若干个包围框进行放大处理。
例如,对M个包围框进行预定处理还可以包括:检测M个包围框中每相邻两个包围框之间是否至少部分区域重叠,若是,将至少部分区域重叠的两个包围框中的每个包围框基于第二预定倍数进行缩小处理,以使得缩小后的两个包围框不重叠或者重叠区域减小。
例如,可能有些包围框包围的范围较大而导致相邻两个包围框部分区域重叠,为解决这一问题,可以对这些包围框进行缩小处理以使得缩小后的两个包围框不重叠或者重叠区域减小。例如,可以计算每相邻两个包围框之间的交集,相邻两个包围框之间的交集例如是相邻两个包围框之间的MIoU值(Mean Intersection over Union,语义分割评估指标),并按照0.9*(1-MIoU)的倍数进行缩小,第二预定倍数例如为该0.9*(1-MIoU),第二预定倍数例如为0.5~0.9之间的数值,即将包围框缩小为原尺寸的0.5~0.9倍。针对包围框的缩小处理可以在针对包围框的放大处理之后进行,这样可以避免包围框扩大后导致相邻包围框连接或者重叠的问题,使每个包围框具有合适的范围,进而可以在初始图像中截取到合适大小的图像块。
例如,在截取得到N个图像块之后,可以对N个图像块中的至少部分图像块进行缩放处理,以使处理后的N个图像块在Y方向上的尺寸相同,例如可以将N个图像块在Y方向上的尺寸统一缩放为32像素对应的尺寸,以方便后续对象识别模型的处理。
图9为本公开至少一实施例提供的识别N个图像块的示意性流程图,如图9所示,例如,在步骤S160(利用对象识别模型识别N个图像块,以得到初始图像中的目标对象)中,可以包括步骤S161~步骤S164。
步骤S161:确定N个图像块中在第一方向上的长度大于识别长度阈值的P个第一图像块,并将每个第一图像块分割为至少两个子图像块,以得到与P个第一图像块对应的多个子图像块,每个子图像块的长度等于或小于识别长度阈值。例如,P为正整数。
步骤S162:利用对象识别模型识别多个子图像块,以得到P个第一图像块中的目标对象。例如,初始图像中的目标对象包括P个第一图像块中的目标对象。
步骤S163:确定N个图像块中在第一方向上的长度小于识别长度阈值的Q个第二图像块,并对每个第二图像块进行处理,得到Q个处理后的第二图像块,每个处理后的第二图像块在第一方向上的长度为识别长度阈值。例如,Q为正整数。
步骤S164:利用对象识别模型识别Q个处理后的第二图像块,以得到Q个第二图像块中的目标对象。例如,初始图像中的目标对象还包括Q个第二图像块中的目标对象。
例如,在一些实施例中,N个图像块中可以仅包括第一图像块而不包括第二图像块,这种情况下,在步骤S160中,可以仅执行步骤S161和步骤S162,而无需执行步骤S163和步骤S164。在另一些实施例中,N个图像块中可以仅包括第二图像块而不包括第一图像块,这种情况下,在步骤S160中,可以仅执行步骤S163和步骤S164,而无需执行步骤S161和步骤S162。
例如,每个第一图像块包括多个目标对象,多个目标对象沿第一方向依次排列。第一方向可以是图像块的长度方向,图像块的长度方向可以根据图像块中目标对象的排列方向来确定,例如如图7B所示,图像块中的字符按照X方向排列,则第一方向可以是指X方向。
例如,图像块的长度可以用像素数量来表示,可以预设一个识别长度阈值,识别长度阈值例如可以是400~1000个像素,例如640像素。对于N个图像块中大于该识别长度阈值的图像块,可以将图像块进行分割,例如分割为若干个长度小于或等于识别长度阈值的子图像块。对于N个图像块中小于该识别长度阈值的图像块,可将图像块处理为长度等于识别长度阈值。基于这一方式,一方面,将图像块处理为近似统一的尺寸可以便于模型处理,另一方面,将较大的图像块分割为小图像块,可以减小模型的计算量,并且可以使用简单的识别模型进行识别,提高了识别速度。
例如,在步骤S161中,将每个第一图像块分割为至少两个子图像块可以包括:针对N个图像块中的第i个第一图像块执行以下操作:在第一方向上,每间隔识别长度阈值设置一个候选分割点,以确定第i个第一图像块对应的至少一个候选分割点;基于至少一个候选分割点,确定第i个第一图像块对应的至少一个分割点;基于至少一个分割点,将第i个第一图像块分割为至少两个子图像块,例如,i为小于等于P的正整数。
图10A为本公开至少一实施例提供的分割图像块的示意图,如图10A所示,以图像块704为例对分割过程进行说明,可以从图像块704的起点901开始,每间隔识别长度阈值L设置一个候选分割点,例如得到候选分割点902和903。根据每个候选分割点可以确定一个分割点,在一个示例中,候选分割点可以直接作为一个分割点,例如,候选分割点902可以作为一个分割点;在另一示例中,可以将候选分割点的预定距离范围内的一个点作为一个分割点,预定距离范围例如可以是X方向上[pc-lg,pc+lg]之间的范围,pc为候选分割点的X坐标,lg为g个像素的尺寸,g例如介于12~60之间。
例如在候选分割点903的预定距离范围确定一个分割点903`。在得到各个分割点之后,可以沿分割点对图像块进行切割,例如切割得到子图像块7041、7042和7043。
例如,基于至少一个候选分割点,确定第i个第一图像块对应的至少一个分割点可以包括:若在第i个第一图像块中的至少一个候选分割点中的任一候选分割点的距离阈值的范围内包含间隔区域,则将间隔区域中的一点作为第i个第一图像块对应的一个分割点;若在第i个第一图像块中的至少一个候选分割点中的任一候选分割点的距离阈值的范围内不包含间隔区域,则将任一候选分割点作为第i个第一图像块对应的一个分割点。
例如,在目标对象包括字符的场景中,若候选分割点正好位于相邻两个字符之间的间隔区域内,则可以将候选分割点作为分割点,例如候选分割点902位于字符“,”和字符“Building”之间的间隔区域内,则可以将候选分割点作为一个分割点。若候选分割点没有位于相邻两个字符之间的间隔区域内,则可以确定候选分割点附近的间隔区域,并将间隔区域内的一点作为分割点,例如,候选分割点903位于字符“Beijing”中,而没有位于字符的间隔区域中,因此,可以遍历候选分割点903的一定距离范围内的像素点,以寻找字符“Beijing”附近的间隔区域,例如字符“,”(位于字符“Road”和字符“Beijing”之间)和字符“Beijing”之间的间隔区域位于字符“Beijing”的一定距离范围内,则可以在字符“,”和字符“Beijing”之间的间隔区域中确定一个点作为分割点,例如将字符间隔区域的中点作为分割点。若候选分割点的预定距离范围内不存在字符间隔区域,则可以将候选分割点作为一个分割点。
例如,在确定分割点之后,可以按照切割点所在的位置对第一图像块进行切割处理,得到若干个子图像块。
例如,对每个第二图像块进行处理可以包括:在第一方向上,在每个第二图像块的至少一端拼接端部图像块,以得到每个第二图像块对应的处理后的第二图像块。例如,端部图像块中的每个像素的像素值与第二图像块中的每个对象对应的像素的像素值不同。
图10B为本公开至少一实施例提供的拼接端部图像块的示意图,如图10B所示,以图像块702为例对分割过程进行说明,例如,对于长度小于识别长度阈值L的图像块702,可以对图像块702进行补长处理,例如可以在图像块702的X方向的一侧或者两侧拼接端部图像块,端部图像块的像素值与目标对象的像素值不同,端部图像块的像素值例如可以与图像块702的背景部分的像素值一致,拼接后得到的新的图像块702`的长度例如等于识别长度阈值L。
例如,对于切割后得到的长度不足识别长度阈值L的子图像块,也可以进行拼接补长处理,例如,如图10A所示,若切割后得到的子图像块7043的长度小于识别长度阈值L,则可以按照上述拼接方式处理子图像块7043,以使处理后的子图像块7043的长度等于识别长度阈值L。
例如,在利用切割处理的方式和/或拼接处理的方式得到与识别长度阈值对应的各个子图像块和第二图像块之后,可以利用对象识别模型对各个子图像块和第二图像块进行识别处理。以识别英文字母为例,每个英文字母和标点符号的长度例如为4像素,则对于一个32*640*3的图像块,可以识别得到640/4=160个英文字母,32*640*3中的32例如代表图像块高度为32个像素对应的高度,640例如代表图像块长度为640个像素对应的长度,3例如代表这是图像块为3通道的图像块。
例如,可以将对象识别模型训练为针对每个目标对象输出d个可能的候选识别结果,d为大于0且小于5的整数,例如,以识别英文字母为例,在d为2的情况下,针对图像块中的英文字母“m”,对象识别模型可能会输出候选识别结果为“m”和“n”。例如,对于一个32*640*3的图像块可以返回160*d个识别结果,每个字符是4个像素,那么就是有160个字符,d代表着对象识别模型判断每个字符的候选识别结果的数量。然后,可以利用argmax函数对160*d个识别结果进行操作返回160个识别结果。相当于从每个字符的候选识别结果中找到最可能的识别结果。例如,在一些实施例中,在识别过程中是按照逐像素分割4个像素来进行判断识别,可能会有重复的识别结果,因此还可以通过去重操作,去除重复的识别结果,得到图像块的最终的识别结果。
图11为本公开至少一实施例提供的目标对象识别结果的示意图,结合图2、7A、7B和11所示,例如,将根据每个子图像块和处理后的第二图像块识别得到的对象识别结果进行组合拼接,可以得到与初始图像对应的对象识别结果1100,即利用本公开提供的图像处理方法处理初始图像201之后得到的处理结果如该图11所示。如图11所示,在该对象识别结果1100中,初始图像201中的所有字符(即目标对象)被识别,且在该对象识别结果1100中各个字符之间的相对位置关系与其在初始图像201中的相对位置关系相同。
本公开至少一实施例还提供一种图像处理装置,图12为本公开至少一实施例提供的一种图像处理装置的示意性框图。
如图12所示,图像处理装置可以包括:图像获取模块1201、图像处理模块1202、区域识别模块1203、确定模块1204、截取模块1205和对象识别模块1204。
例如,图像获取模块1201配置为获得初始图像,初始图像包括至少一个目标对象。例如,图像获取模块1201例如可以执行图1描述的步骤S110,具体介绍可参考步骤S110的相关描述,在此不再赘述。
例如,图像处理模块1202配置为对初始图像进行处理以得到中间图像。例如,图像处理模块1202例如可以执行图1描述的步骤S120,具体介绍可参考步骤S120的相关描述,在此不再赘述。
例如,区域识别模块1203配置为利用区域检测模型对中间图像进行识别,以得到包括M个对象连通区域的连通图像,M为正整数。例如,区域识别模块1203例如可以执行图1描述的步骤S130,具体介绍可参考步骤S130的相关描述,在此不再赘述。
例如,确定模块1204配置为在连通图像中确定与M个对象连通区域分别对应的M个包围框。例如,确定模块1204例如可以执行图1描述的步骤S140,具体介绍可参考步骤S140的相关描述,在此不再赘述。
例如,截取模块1205配置为基于M个包围框,从初始图像中截取N个图像块,每个图像块包括至少一个目标对象,N为正整数。例如,截取模块1205例如可以执行图1描述的步骤S150,具体介绍可参考步骤S150的相关描述,在此不再赘述。
例如,对象识别模块1206配置为利用对象识别模型识别N个图像块,以得到初始图像中的目标对象。例如,对象识别模块1206例如可以执行图1描述的步骤S160,具体介绍可参考步骤S160的相关描述,在此不再赘述。
此外,图像处理装置可以实现与前述图像处理方法相似的技术效果,在此不再赘述。
例如,图像获取模块1201、图像处理模块1202、区域识别模块1203、确定模块1204、截取模块1205和/或对象识别模块1204包括存储在存储器中的代码和程序;处理器可以执行该代码和程序以实现如上所述的图像获取模块1201、图像处理模块1202、区域识别模块1203、确定模块1204、截取模块1205和/或对象识别模块1204的一些功能或全部功能。例如,图像获取模块1201、图像处理模块1202、区域识别模块1203、确定模块1204、截取模块1205和/或对象识别模块1204可以是专用硬件器件,用来实现如上所述的该图像获取模块1201、图像处理模块1202、区域识别模块1203、确定模块1204、截取模块1205和/或对象识别模块1204的一些或全部功能。例如,图像获取模块1201、图像处理模块1202、区域识别模块1203、确定模块1204、截取模块1205和/或对象识别模块1204可以是一个电路板或多个电路板的组合,用于实现如上所述的功能。在本申请实施例中,该一个电路板或多个电路板的组合可以包括:(1)一个或多个处理器;(2)与处理器相连接的一个或多个非暂时的存储器;以及(3)处理器可执行的存储在存储器中的固件。
本公开至少一实施例还提供一种电子设备,图13为本公开至少一实施例提供的一种电子设备的示意性框图。
例如,如图13所示,电子设备1300包括处理器1301、通信接口1302、存储器1303和通信总线1304。处理器1301、通信接口1302、存储器1303通过通信总线1304实现相互通信,处理器1301、通信接口1302、存储器1303等组件之间也可以通过网络连接进行通信。本公开对网络的类型和功能在此不作限制。
例如,存储器1303用于存储计算机可读指令。处理器1301用于执行计算机可读指令时,实现根据上述任一实施例所述的图像处理方法。关于该图像处理方法的各个步骤的具体实现以及相关解释内容可以参见上述图像处理方法的实施例,在此不做赘述。
例如,处理器1301执行存储器1303上所存放的程序而实现的图像处理方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
例如,通信总线1304可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
例如,通信接口1302用于实现电子设备与其他设备之间的通信。
例如,处理器1301和存储器1303可以设置在服务器端(或云端)。
例如,处理器1301可以控制电子设备中的其它组件以执行期望的功能。处理器1301可以是中央处理器(CPU)、网络处理器(NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。
例如,存储器1303可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令,处理器1301可以运行所述计算机可读指令,以实现电子设备的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。
例如,关于电子设备执行图像处理的过程的详细说明可以参考图像处理方法的实施例中的相关描述,重复之处不再赘述。
图14为本公开至少一实施例提供的另一种电子设备的示意性框图。
本公开至少一实施例还提供另一种电子设备。如图14所示,电子设备1400可以包括存储器1401、处理器1402和图像获取部件1403。应当注意,图14所示的电子设备1400的组件只是示例性的,而非限制性的,根据实际应用需要,该电子设备1400还可以具有其他组件。
例如,图像获取部件1403用于获得初始图像。存储器1401用于存储初始图像以及计算机可读指令。处理器1402用于读取初始图像,并运行计算机可读指令。计算机可读指令被处理器1402运行时执行根据上述任一实施例所述的图像处理方法中的一个或多个步骤。
例如,图像获取部件1403可以是图像采集装置,例如,图像获取部件1403可以是智能手机的摄像头、平板电脑的摄像头、个人计算机的摄像头、数码照相机的镜头、网络摄像头以及其它用于图像采集的装置。
例如,初始图像可以是图像获取部件1403直接采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。预处理可以消除原始图像中的无关信息或噪声信息,以便于更好地对图像进行处理。预处理例如可以包括对原始图像进行图像扩充(DataAugment)、图像缩放、伽玛(Gamma)校正、图像增强或降噪滤波等处理。
例如,处理器1402可以控制电子设备1400中的其它组件以执行期望的功能。处理器1402可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器(GPU)等具有数据处理能力和/或程序执行能力的器件。
例如,存储器1401可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。在计算机可读存储介质上可以存储一个或多个计算机可读指令,处理器1402可以运行计算机可读指令,以实现电子设备1400的各种功能。
例如,关于电子设备1400执行图像处理的过程的详细说明可以参考图像处理方法的实施例中的相关描述,重复之处不再赘述。
图15为本公开至少一实施例提供的一种计算机可读存储介质的示意图。例如,如图15所示,在存储介质1500上可以非暂时性地存储一个或多个计算机可读指令1501。例如,当计算机可读指令1501由处理器执行时可以执行根据上文所述的图像处理方法中的一个或多个步骤。
例如,该存储介质1500可以应用于上述电子设备1300和/或电子设备1400中,例如,其可以包括电子设备1300中的存储器1303和/或电子设备1400中的存储器1401。
例如,关于存储介质1500的说明可以参考电子设备1300和/或电子设备1400的实施例中对于存储器的描述,重复之处不再赘述。
图16示出了为本公开至少一实施例提供的一种硬件环境的示意图。本公开提供的电子设备可以应用在互联网系统。
利用图16中提供的计算机系统可以实现本公开中涉及的图像处理装置、电子设备1300和/或电子设备1400。这类计算机系统可以包括个人电脑、笔记本电脑、平板电脑、手机、个人数码助理、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备或可穿戴设备。本实施例中的特定系统利用功能框图解释了一个包含用户界面的硬件平台。这种计算机设备可以是一个通用目的的计算机设备,或一个有特定目的的计算机设备。两种计算机设备都可以被用于实现本实施例中的图像处理装置和电子设备。计算机系统可以实施当前描述的实现图像处理识别所需要的信息的任何组件。例如,计算机系统能够被计算机设备通过其硬件设备、软件程序、固件以及它们的组合所实现。为了方便起见,图16中只绘制了一台计算机设备,但是本实施例所描述的实现图像处理所需要的信息的相关计算机功能是可以以分布的方式、由一组相似的平台所实施的,分散计算机系统的处理负荷。
如图16所示,计算机系统可以包括通信端口1650,与之相连的是实现数据通信的网络,例如,计算机系统可以通过通信端口1650发送和接收信息及数据,即通信端口1650可以实现计算机系统与其他电子设备进行无线或有线通信以交换数据。计算机系统还可以包括一个处理器组1620(即上面描述的处理器),用于执行程序指令。处理器组1620可以由至少一个处理器(例如,CPU)组成。计算机系统可以包括一个内部通信总线1610。计算机系统可以包括不同形式的程序储存单元以及数据储存单元(即上面描述的存储器或存储介质),例如硬盘1670、只读存储器(ROM)1630、随机存取存储器(RAM)1640,能够用于存储计算机处理和/或通信使用的各种数据文件,以及处理器组1620所执行的可能的程序指令。计算机系统还可以包括一个输入/输出组件1660,输入/输出组件1660用于实现计算机系统与其他组件(例如,用户界面1680等)之间的输入/输出数据流。
通常,以下装置可以连接输入/输出组件1660:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信接口。
虽然图16示出了具有各种装置的计算机系统,但应理解的是,并不要求计算机系统具备所有示出的装置,可以替代地,计算机系统可以具备更多或更少的装置。
对于本公开,还有以下几点需要说明:
(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上所述仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (19)
1.一种图像处理方法,包括:
获得初始图像,其中,所述初始图像包括至少一个目标对象;
对所述初始图像进行处理以得到中间图像;
利用区域检测模型对所述中间图像进行识别,以得到包括M个对象连通区域的连通图像;
确定在所述连通图像中与所述M个对象连通区域分别对应的M个包围框;
基于所述M个包围框,从所述初始图像中截取N个图像块,其中,每个所述图像块包括至少一个目标对象;以及
利用对象识别模型识别所述N个图像块,以得到所述初始图像中的目标对象,
其中,M和N均为正整数。
2.根据权利要求1所述的方法,其中,利用区域检测模型对所述中间图像进行识别,以得到包括M个对象连通区域的连通图像,包括:
利用所述区域检测模型处理所述中间图像,得到包括多个初始对象连通区域的连通图像;
对所述包括多个初始对象连通区域的连通图像进行形态学变换,以基于所述包括多个初始对象连通区域的连通图像得到所述包括M个对象连通区域的连通图像。
3.根据权利要求2所述的方法,其中,对所述初始图像进行处理以得到中间图像包括:
将所述初始图像的尺寸由初始尺寸缩小至预定尺寸;
对所述预定尺寸的初始图像进行二值化处理,得到所述中间图像。
4.根据权利要求2所述的方法,其中,确定在所述连通图像中与所述M个对象连通区域分别对应的M个包围框,包括:
提取所述M个对象连通区域各自的轮廓信息;
基于所述轮廓信息,确定所述M个对象连通区域各自的包围框。
5.根据权利要求1所述的方法,其中,基于所述M个包围框,从所述初始图像中截取N个图像块,包括:
根据所述中间图像和所述初始图像之间的对应关系,基于所述M个包围框中的每个包围框,对应截取所述初始图像中的一个图像块,其中,M与N相等;或者
对所述M个包围框进行预定处理,得到N个处理后的包围框,并根据所述中间图像和所述初始图像之间的对应关系,基于每个所述处理后的包围框,对应截取所述初始图像中的一个图像块。
6.根据权利要求5所述的方法,其中,对所述M个包围框进行预定处理,包括:
对所述M个包围框进行评分,以得到所述M个包围框分别对应的质量分值;
将质量分值小于分值阈值的包围框作为无效包围框,并删除所述无效包围框。
7.根据权利要求6所述的方法,其中,对所述M个包围框进行评分包括:针对所述M个包围框中的每个包围框执行以下操作:
确定所述包围框的面积和位于所述包围框中的目标对象对应的像素的面积;
基于所述像素的面积与所述包围框的面积的比例,确定所述包围框对应的质量分值。
8.根据权利要求5所述的方法,其中,对所述M个包围框进行预定处理,包括:
将所述M个包围框中的一个或多个包围框放大第一预定倍数。
9.根据权利要求6-8任一项所述的方法,其中,对所述M个包围框进行预定处理,还包括:
检测所述M个包围框中每相邻两个包围框之间是否至少部分区域重叠,
若是,将至少部分区域重叠的两个包围框中的每个包围框基于第二预定倍数进行缩小处理,以使得缩小后的两个包围框不重叠或者重叠区域减小。
10.根据权利要求1-6任一项所述的方法,其中,利用对象识别模型识别所述N个图像块,以得到所述初始图像中的目标对象,包括:
确定所述N个图像块中在第一方向上的长度大于识别长度阈值的P个第一图像块,并将每个所述第一图像块分割为至少两个子图像块,以得到与所述P个第一图像块对应的多个子图像块,其中,每个所述子图像块的长度等于或小于所述识别长度阈值;以及
利用所述对象识别模型识别所述多个子图像块,以得到所述P个第一图像块中的目标对象,
其中,所述初始图像中的目标对象包括所述P个第一图像块中的目标对象,P为正整数。
11.根据权利要求10所述的方法,其中,利用对象识别模型识别所述N个图像块,以得到所述初始图像中的目标对象,还包括:
确定所述N个图像块中在所述第一方向上的长度小于所述识别长度阈值的Q个第二图像块,并对每个所述第二图像块进行处理,得到Q个处理后的第二图像块,其中,每个所述处理后的第二图像块在所述第一方向上的长度为所述识别长度阈值;
利用所述对象识别模型识别所述Q个处理后的第二图像块,以得到所述Q个第二图像块中的目标对象,
其中,所述初始图像中的目标对象还包括所述Q个第二图像块中的目标对象,Q为正整数。
12.根据权利要求10所述的方法,其中,将每个所述第一图像块分割为至少两个子图像块包括:
针对所述N个图像块中的第i个第一图像块执行以下操作:
在所述第一方向上,每间隔所述识别长度阈值设置一个候选分割点,以确定所述第i个第一图像块对应的至少一个候选分割点;
基于所述至少一个候选分割点,确定所述第i个第一图像块对应的至少一个分割点;
基于所述至少一个分割点,将所述第i个第一图像块分割为至少两个子图像块,
其中,i为小于等于P的正整数。
13.根据权利要求12所述的方法,其中,基于所述至少一个候选分割点,确定所述第i个第一图像块对应的至少一个分割点,包括:
若在所述第i个第一图像块中的所述至少一个候选分割点中的任一候选分割点的距离阈值的范围内包含间隔区域,则将所述间隔区域中的一点作为所述第i个第一图像块对应的一个分割点;
若在所述第i个第一图像块中的所述至少一个候选分割点中的任一候选分割点的所述距离阈值的范围内不包含间隔区域,则将所述任一候选分割点作为所述第i个第一图像块对应的一个分割点。
14.根据权利要求11所述的方法,其中,对每个所述第二图像块进行处理,包括:
在所述第一方向上,在每个所述第二图像块的至少一端拼接端部图像块,以得到每个所述第二图像块对应的处理后的第二图像块,其中,所述端部图像块中的每个像素的像素值与所述第二图像块中的每个对象对应的像素的像素值不同。
15.根据权利要求10所述的方法,其中,每个所述第一图像块包括多个目标对象,所述多个目标对象沿所述第一方向依次排列。
16.根据权利要求1-6任一项所述的方法,其中,所述至少一个目标对象包括字符。
17.一种图像处理装置,包括:
图像获取模块,配置为获得初始图像,其中,所述初始图像包括至少一个目标对象;
图像处理模块,配置为对所述初始图像进行处理以得到中间图像;
区域识别模块,配置为利用区域检测模型对所述中间图像进行识别,以得到包括M个对象连通区域的连通图像;
确定模块,配置为在所述连通图像中确定与所述M个对象连通区域分别对应的M个包围框;
截取模块,配置为基于所述M个包围框,从所述初始图像中截取N个图像块,其中,每个所述图像块包括至少一个目标对象;以及
对象识别模块,配置为利用对象识别模型识别所述N个图像块,以得到所述初始图像中的目标对象,
其中,M和N均为正整数。
18.一种电子设备,包括:
处理器;
存储器,存储一个或多个计算机程序模块;
其中,所述一个或多个计算机程序模块被配置为由所述处理器执行,所述一个或多个计算机程序模块包括用于实现权利要求1-16任一项所述的图像处理方法的指令。
19.一种计算机可读存储介质,用于非暂时性存储计算机可读指令,当所述计算机可读指令由计算机执行时可以实现权利要求1-16任一项所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110788327.XA CN113486828B (zh) | 2021-07-13 | 2021-07-13 | 图像处理方法、装置、设备和存储介质 |
PCT/CN2022/100269 WO2023284502A1 (zh) | 2021-07-13 | 2022-06-22 | 图像处理方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110788327.XA CN113486828B (zh) | 2021-07-13 | 2021-07-13 | 图像处理方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486828A true CN113486828A (zh) | 2021-10-08 |
CN113486828B CN113486828B (zh) | 2024-04-30 |
Family
ID=77938189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110788327.XA Active CN113486828B (zh) | 2021-07-13 | 2021-07-13 | 图像处理方法、装置、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113486828B (zh) |
WO (1) | WO2023284502A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445825A (zh) * | 2022-02-07 | 2022-05-06 | 北京百度网讯科技有限公司 | 文字检测方法、装置、电子设备和存储介质 |
CN114745500A (zh) * | 2022-03-28 | 2022-07-12 | 联想(北京)有限公司 | 图像处理方法及输出检测系统 |
WO2023284502A1 (zh) * | 2021-07-13 | 2023-01-19 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116189194B (zh) * | 2023-04-27 | 2023-07-14 | 北京中昌工程咨询有限公司 | 一种用于工程建模的图纸增强分割方法 |
CN116204105B (zh) * | 2023-05-05 | 2023-07-21 | 北京睿企信息科技有限公司 | 一种关联图像呈现的处理系统 |
CN117409428B (zh) * | 2023-12-13 | 2024-03-01 | 南昌理工学院 | 一种试卷信息处理方法、系统、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140072219A1 (en) * | 2012-09-08 | 2014-03-13 | Konica Minolta Laboratory U.S.A., Inc. | Document image binarization and segmentation using image phase congruency |
CN110222613A (zh) * | 2019-05-28 | 2019-09-10 | 绍兴数鸿科技有限公司 | 一种基于卷积神经网络的竖排版繁体中文识别方法 |
CN110348449A (zh) * | 2019-07-10 | 2019-10-18 | 电子科技大学 | 一种基于神经网络的身份证文字识别方法 |
CN111860479A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备及存储介质 |
WO2020248497A1 (zh) * | 2019-06-12 | 2020-12-17 | 平安科技(深圳)有限公司 | 图片扫描件处理方法、装置、计算机设备及存储介质 |
CN112560847A (zh) * | 2020-12-25 | 2021-03-26 | 中国建设银行股份有限公司 | 图像文本区域定位方法及装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464931B (zh) * | 2020-11-06 | 2021-07-30 | 马上消费金融股份有限公司 | 文本检测方法、模型训练方法及相关设备 |
CN113486828B (zh) * | 2021-07-13 | 2024-04-30 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
-
2021
- 2021-07-13 CN CN202110788327.XA patent/CN113486828B/zh active Active
-
2022
- 2022-06-22 WO PCT/CN2022/100269 patent/WO2023284502A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140072219A1 (en) * | 2012-09-08 | 2014-03-13 | Konica Minolta Laboratory U.S.A., Inc. | Document image binarization and segmentation using image phase congruency |
CN110222613A (zh) * | 2019-05-28 | 2019-09-10 | 绍兴数鸿科技有限公司 | 一种基于卷积神经网络的竖排版繁体中文识别方法 |
WO2020248497A1 (zh) * | 2019-06-12 | 2020-12-17 | 平安科技(深圳)有限公司 | 图片扫描件处理方法、装置、计算机设备及存储介质 |
CN110348449A (zh) * | 2019-07-10 | 2019-10-18 | 电子科技大学 | 一种基于神经网络的身份证文字识别方法 |
CN111860479A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备及存储介质 |
CN112560847A (zh) * | 2020-12-25 | 2021-03-26 | 中国建设银行股份有限公司 | 图像文本区域定位方法及装置、存储介质及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023284502A1 (zh) * | 2021-07-13 | 2023-01-19 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
CN114445825A (zh) * | 2022-02-07 | 2022-05-06 | 北京百度网讯科技有限公司 | 文字检测方法、装置、电子设备和存储介质 |
WO2023147717A1 (zh) * | 2022-02-07 | 2023-08-10 | 北京百度网讯科技有限公司 | 文字检测方法、装置、电子设备和存储介质 |
CN114745500A (zh) * | 2022-03-28 | 2022-07-12 | 联想(北京)有限公司 | 图像处理方法及输出检测系统 |
CN114745500B (zh) * | 2022-03-28 | 2023-09-19 | 联想(北京)有限公司 | 图像处理方法及输出检测系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2023284502A1 (zh) | 2023-01-19 |
CN113486828B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486828B (zh) | 图像处理方法、装置、设备和存储介质 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN110659647B (zh) | 印章图像识别方法及装置、智能发票识别设备和存储介质 | |
CN111275139B (zh) | 手写内容去除方法、手写内容去除装置、存储介质 | |
US20190304066A1 (en) | Synthesis method of chinese printed character images and device thereof | |
CN110866495A (zh) | 票据图像识别方法及装置和设备、训练方法和存储介质 | |
KR20220160660A (ko) | 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체 | |
EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
CN110942004A (zh) | 基于神经网络模型的手写识别方法、装置及电子设备 | |
CN111598074A (zh) | 边缘检测方法和装置、电子设备和存储介质 | |
CN110647882A (zh) | 图像校正方法、装置、设备及存储介质 | |
CN112926421B (zh) | 图像处理方法和装置、电子设备和存储介质 | |
CN111507330A (zh) | 习题识别方法、装置、电子设备及存储介质 | |
WO2021051553A1 (zh) | 一种证件信息的分类定位方法及装置 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110598703A (zh) | 一种基于深度神经网络的ocr识别方法及装置 | |
CN111027545A (zh) | 卡证图片标志检测方法、装置、计算机设备及存储介质 | |
CN113436222A (zh) | 图像处理方法、图像处理装置、电子设备及存储介质 | |
WO2022166707A1 (zh) | 图像处理方法和装置、电子设备和存储介质 | |
WO2022002002A1 (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
CN115527215A (zh) | 包含文本的图像处理方法、系统及存储介质 | |
US11367296B2 (en) | Layout analysis | |
CN114241486A (zh) | 一种提高识别试卷学生信息准确率的方法 | |
CN111783780B (zh) | 图像处理方法、装置及计算机可读存储介质 | |
CN114049646A (zh) | 一种银行卡识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |