CN105117706A - 图像处理方法和装置、字符识别方法和装置 - Google Patents
图像处理方法和装置、字符识别方法和装置 Download PDFInfo
- Publication number
- CN105117706A CN105117706A CN201510542653.7A CN201510542653A CN105117706A CN 105117706 A CN105117706 A CN 105117706A CN 201510542653 A CN201510542653 A CN 201510542653A CN 105117706 A CN105117706 A CN 105117706A
- Authority
- CN
- China
- Prior art keywords
- boundary rectangle
- textural characteristics
- pixel
- boundary
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/162—Detection; Localisation; Normalisation using pixel segmentation or colour matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本公开是关于一种图像处理方法和装置、字符识别方法和装置。所述图像处理方法包括:提取一灰度图像的纹理特征,生成纹理特征图;确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。本公开根据灰度图像的纹理特征图得到连通域,然后根据连通域的外接矩形中像素点的特征参数,判断出每一个外接矩形内的图像中是否为字符图像。这样,使得对所选图片进行文字识别时,只需对确定为字符图像的部分进行识别。因此,减少了运算量,加快了识别速度,节省了时间。
Description
技术领域
本公开涉及计算机视觉领域,尤其涉及一种图像处理方法和装置、字符识别方法和装置。
背景技术
随着扫描仪的广泛应用,在很多场合下,人们都通过扫描来得到字符的相关图像。随着不断发展的光学字符识别的相关技术,当人们需要将图像格式的字符进行编辑时,还能够根据图像格式的字符得到计算机能够识别的可编辑字符。例如,广泛使用的OCR文字识别软件就是利用OCR(OpticalCharacterRecognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的软件。利用该OCR软件进行文字识别时,如果一张图片中文字部分和图片部分相互交错,则识别效果很不理想。
发明内容
为克服相关技术中存在的问题,本公开提供一种图像处理方法和装置、字符识别方法和装置。
根据本公开实施例的第一方面,提供一种图像处理方法。所述方法包括:提取一灰度图像的纹理特征,生成纹理特征图;确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
根据本公开实施例的第二方面,提供一种字符识别方法。所述方法包括:根据本公开提供的图像处理方法确定一图像中所包括的字符图像;以及对所确定的字符图像进行字符识别。
根据本公开实施例的第三方面,提供一种图像处理装置。所述装置包括:生成模块,用于提取一灰度图像的纹理特征,生成纹理特征图;连通域确定模块,用于确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及字符图像确定模块,用于根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
根据本公开实施例的第四方面,提供一种字符识别装置。所述装置包括:图像处理装置,用于根据本公开提供的图像处理方法确定一图像中所包括的字符图像;以及识别装置,用于对所确定的字符图像进行字符识别。
根据本公开实施例的第五方面,提供一种图像处理装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:提取一灰度图像的纹理特征,生成纹理特征图;确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
根据本公开实施例的第六方面,提供一种字符识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:根据本公开提供的图像处理方法确定一图像中所包括的字符图像;以及对所确定的字符图像进行字符识别。
本公开的实施例提供的技术方案可以包括以下有益效果:
根据灰度图像的纹理特征图得到连通域,然后根据连通域的外接矩形中像素点的特征参数,判断出每一个外接矩形内的图像中是否为字符图像。这样,使得对所选图片进行文字识别时,只需对确定为字符图像的部分进行识别。因此,减少了运算量,加快了识别速度,节省了时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种图像处理方法的流程图;
图2是根据另一示例性实施例示出的一种图像处理方法的流程图;
图3是根据一示例性实施例示出的选取图像的示意图;
图4是根据一示例性实施例示出的提取灰度图像的纹理特征的流程图;
图5是根据一示例性实施例示出的根据多个单方向纹理特征图确定纹理特征图的流程图;
图6是根据一示例性实施例示出的确定纹理特征图中的连通域和连通域的外接矩形的流程图;
图7是根据又一示例性实施例示出的确定纹理特征图中的连通域和连通域的外接矩形的流程图;
图8是根据一示例性实施例示出的确定纹理特征图中的连通域和连通域的外接矩形的示意图;
图9是根据一示例性实施例示出的合并外接矩形的示意图;
图10是根据一示例性实施例示出的确定每一个外接矩形内的图像是否为字符图像的流程图;
图11是根据一示例性实施例示出的确定每一个外接矩形各自的像素点的占空比率的流程图;
图12是根据一示例性实施例示出的确定每一个外接矩形各自的像素点的高频分量比率的流程图;
图13是根据一示例性实施例示出的一种字符识别方法的流程图;
图14是根据另一示例性实施例示出的一种字符识别方法的流程图;
图15是根据一示例性实施例示出的一种图像处理装置的框图;
图16是根据另一示例性实施例示出的一种图像处理装置的框图。;
图17是根据一示例性实施例示出的生成模块的框图;
图18是根据一示例性实施例示出的纹理特征图确定单元的框图;
图19是根据一示例性实施例示出的连通域确定模块的框图;
图20是根据一示例性实施例示出的连通域确定模块的框图;
图21是根据一示例性实施例示出的字符图像确定模块的框图;
图22是根据一示例性实施例示出的比率确定单元的框图;
图23是根据一示例性实施例示出的比率确定单元的框图;
图24是根据一示例性实施例示出的一种字符识别装置的框图;
图25是根据另一示例性实施例示出的一种字符识别装置的框图;以及
图26是根据一示例性实施例示出的一种图像处理装置或字符识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开中,在未作相反说明的情况下,使用的方位词如“水平、竖直、横、竖、撇、捺”通常是指相对于用户的方向。
图1是根据一示例性实施例示出的一种图像处理方法的流程图。如图1所示,所述方法包括以下步骤。
在步骤S11中,提取一灰度图像的纹理特征,生成纹理特征图。
纹理是一种反映图像中同质现象的视觉特征,体现了物体表面共有的内在属性,包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。如果要处理的图像是经过灰度化处理以后的灰度图像,可以在该步骤S11中,基于相关技术中的基于统计、模型、结构或信号处理的方法来提取该灰度图像的纹理特征,生成纹理特征图。
在步骤S12中,确定纹理特征图中的连通域和连通域的外接矩形。
通常求图像中的连通域在是将图像进行二值化以后进行的。也就是,将图像中的像素点的像素值分为0和255两个值以后,根据像素值为0或255的像素点确定连通域。在该步骤S12中,可以将纹理特征图中的像素点按照其像素值分为两类,一类为连通域中的像素点,一类为非连通域中的像素点。从而确定纹理特征图中的连通域。根据连通域可以计算得到该连通域的外接矩形。
在步骤S13中,根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
通常情况下,一个字符对应着一个连通域。因此,一个外接矩形即对应着一个字符。该步骤S13中,可以设置表示外接矩形中像素点的特征的特征参数,将一外接矩形的特征参数与对大量字符进行统计得到的特征参数进行比对,相似度较高的,可以认为该外接矩形内的图像为字符图像。也就是,判断一外接矩形是否为字符图像,可以以该外接矩形的像素点的特征参数为依据,而将所述外接矩形中每一个外接矩形都进行判断,最终得到纹理特征图中哪些外接矩形内的图像是字符图像的判断结果。
本公开的上述实施例中,根据灰度图像的纹理特征图得到连通域,然后根据连通域的外接矩形中像素点的特征参数,判断出每一个外接矩形内的图像中是否为字符图像。这样,使得对所选图片进行文字识别时,只需对确定为字符图像的部分进行识别。因此,减少了运算量,加快了识别速度,节省了时间。
如果要处理的图像不是灰度图像,可以先将要处理的图像进行灰度化,然后再实施以上步骤。图2是根据另一示例性实施例示出的一种图像处理方法的流程图。如图2所示,在图1的基础上,该方法还包括步骤S10。
在步骤S10中,将一选定图像灰度化,得到所述灰度图像。
选定图像时,可以直接将一幅图像全部选定,也可以只选定一幅图像中的一部分,只对选定的部分进行处理。通常选定图像的框为矩形框,本公开中,以选定框为矩形框为例进行说明。
将选定图像灰度化可以采用常用的灰度化方法,例如,分量法、最大值法、平均值法和加权平均法。灰度化后得到的灰度图像中,像素点的像素值范围通常为0-255。将选定的图像灰度化之后,再进行步骤S11中的提取纹理特征的步骤。
图3是根据一示例性实施例示出的选取图像的示意图。如图3所示,当用户看到图3中有一段诗词,要想将该段诗词转换成可编辑的字符,在WORD软件进行编辑,可以用图3中所示的矩形框选定该段诗词,经本公开的上述图像处理方法进行处理后,能够将其识别为字符图像,之后就可以将选定的诗词(图片格式)置于分类器中识别出来。如果用户选定的图像中还包括其他非字符的图像,则应用本公开提供的上述图像处理方法,可以只确定出其中的字符图像,在后续的字符识别中,只对确定为字符图像的图像进行识别。因此,减少了运算量,加快了识别速度,节省了时间。
图4是根据一示例性实施例示出的提取灰度图像的纹理特征的流程图。如图4所示,在步骤S11中,提取灰度图像的纹理特征,生成纹理特征图的步骤包括以下步骤。
在步骤S111中,在多个方向上提取灰度图像的纹理特征,生成分别对应于多个方向的多个单方向纹理特征图。
其中,可以在任意方向上提取灰度图像的纹理特征。单方向纹理特征图表示出所述灰度图像在某一特定方向上的纹理特征。因此,每个单方向纹理特征图都在一定程度上表示出所述灰度图像的纹理特征。因此,可以通过对多个单方向纹理特征图进行适当的处理,得到灰度图像的比较全面的纹理特征。多个单方向纹理特征图可以利用方向滤波器(例如,Gabor小波滤波器)将灰度图像在多个方向进行滤波得到。
在步骤S112中,根据多个单方向纹理特征图确定纹理特征图。
如上所述,可以通过对多个单方向纹理特征图进行适当的处理,得到灰度图像的比较全面的纹理特征,即得到纹理特征图。其中,对多个单方向纹理特征图进行适当的处理,目的在于使最终得到的纹理特征图中包含有各个单方向纹理特征图中的主要信息,从而使得纹理特征图中全面地包含了所述灰度图像的纹理特征。
可以通过将灰度图像中的每个像素点在多个单方向纹理特征图中具有的多个像素值整合为一个像素值,使得这一个像素值带有多个像素值的信息,而整合后的像素值可以作为纹理特征图中的像素值。
图5是根据一示例性实施例示出的根据多个单方向纹理特征图确定纹理特征图的流程图。如图5所示,在步骤S112中,根据多个单方向纹理特征图确定纹理特征图分为以下步骤。
在步骤S1121中,分别计算灰度图像中的每个像素点在多个单方向纹理特征图中的像素值的加权平均值。
也就是,给每个单方向纹理特征图附加一个权重,则灰度图像中的每个像素点在各个单方向纹理特征图中不仅具有对应的像素值,而且具有对应的权重。计算每个像素点在多个单方向纹理特征图中的像素值的加权平均值,得到一个像素值,这样能够将灰度图像中的每个像素点在多个单方向纹理特征图中具有的多个像素值整合为一个像素值,并使这一个像素值带有多个像素值的信息。
其中,可以根据字符中各个方向上的笔画出现的概率大小来设置各个方向的权重,使得各个方向的笔画在字符中出现的概率与该方向的权重相符合。
由于横、竖、撇和捺这四种笔画是字符中出现概率最多的四种笔画,横方向、竖方向、撇方向和捺方向这四个方向的单方向纹理特征图具有纹理的典型代表性。因此,多个单方向纹理特征图可以包括横方向纹理特征图、竖方向纹理特征图、撇方向纹理特征图和捺方向纹理特征图。
并且,横和竖在字符中是出现次数最多的笔画,撇和捺次之。因此在多个方向包括横方向、竖方向、撇方向和捺方向的情况下,各个方向权重的大小可以这样设置:横方向纹理特征图中的像素值的权重大于撇方向纹理特征图中的像素值的权重,并且大于捺方向纹理特征图中的像素值的权重;竖方向纹理特征图中的像素值的权重大于撇方向纹理特征图中的像素值的权重,并且大于捺方向纹理特征图中的像素值的权重。
具体地,为了方便计算,可以取多个单方向纹理特征图中的像素值的权重之和为一。举例来说,横方向和竖方向的权重可以各取三分之一,撇方向和捺方向的权重可以各取六分之一。这样,这四种笔画在字符中出现的概率与其权重相符合,而且这四个单方向纹理特征图的权重之和为一。
在步骤S1122中,由每个像素点在多个单方向纹理特征图中的像素值的加权平均值生成纹理特征图。
也就是,取多个单方向纹理特征图中该像素点的像素值的加权平均值作为所生成的纹理特征图中的像素点的像素值。这样就将灰度图像中的每个像素点在多个单方向纹理特征图中具有的多个像素值整合为一个像素值,即加权平均值,并将这个带有多个像素值信息的值作为了纹理特征图中的像素点的像素值。
图6是根据一示例性实施例示出的确定纹理特征图中的连通域和连通域的外接矩形的流程图。如图6所述,在步骤S12中,确定纹理特征图中的连通域和连通域的外接矩形的步骤包括以下步骤。
在步骤S121中,将像素值处于一预定的像素值范围内、且连通的像素点确定为一连通域中的像素点。
由于灰度图像中像素点的像素值包括多个等级,因此,要想将灰度图像中像素点的像素值分为连通域中的像素点和不属于连通域中的像素点两类,可以将像素值的多个等级划分为两个等级。也就是,可以设定一像素值范围,像素值在该范围内则考虑该像素点是否与其他像素点连通,不在该范围内则认为该像素点为背景像素点。该像素值范围可以通过多次试验,将处理效果较好的像素值范围选为预定的像素值范围而得到。
例如,可以设定一像素值范围为150-255,像素值在该范围内的像素点可以作为连通域中的像素点,而使该像素值范围之外(0-149)的像素点不包括在连通域中。
在步骤S122中,生成所确定的连通域的外接矩形。生成连通域的外接矩形的方法已为本领域技术人员所公知,故不再详细描述。
图7是根据又一示例性实施例示出的确定纹理特征图中的连通域和连通域的外接矩形的流程图。如图7所示,在图6的基础上,所述方法还包括步骤S123。
在步骤S123中,将位置符合预定的位置条件的两个外接矩形进行合并,生成外接于所述两个外接矩形中的两个连通域的一个外接矩形。
由于有些字符是由不连通的多个偏旁部首组成的,因此,需要将这些偏旁部首的外接矩形进行合并,使得一个字符具有一个外接矩形。以便于根据一外接矩形中像素点的特征参数确定该外接矩形内的图像是否为字符图像(步骤S13)。也就是,可以设置适当的位置条件,使得一个字符图像中包括的外接矩形能够符合该位置条件而合并,这样,一个字符中所包含的连通域的外接矩形最终都能够合并成一个外接矩形,而不同字符中所包含的连通域的外接矩形并不能够进行合并。
可选地,所述预定的位置条件可以包括以下中的任意一者:
a)两个外接矩形有重叠区域;
b)两个外接矩形在水平方向上的投影有重叠区域,并且两个外接矩形在水平方向上的间距与两个外接矩形中的任一外接矩形在水平方向上的边长的比值小于或等于一预定阈值;或者
c)两个外接矩形在竖直方向上的投影有重叠区域,并且两个外接矩形在竖直方向上的间距与两个外接矩形中的任一外接矩形在竖直方向上的边长的比值小于或等于所述预定阈值。
其中,预定阈值反映了同一字符图像中包含的、相邻的连通域区别于不同字符图像中所包含的、相邻的连通域之间的紧凑程度。也就是,该预定阈值意于将同一字符图像中包含的、相邻的连通域合并,而将不同字符图像中包含的、相邻的连通域不进行合并。可以通过对预定阈值进行多次的试验,最终将所述预定阈值确定为使图像处理结果比较理想的取值。
图8是根据一示例性实施例示出的确定纹理特征图中的连通域和连通域的外接矩形的示意图。如图8所示为“欢迎品尝”字符图像中的各个连通域及其外接矩形。“欢”字的两个外接矩形有重叠区域,因此可以合并为具有一个外接矩形。“迎”字中,除了一点之外的其余外接矩形有重叠区域,其余外接矩形合并之后形成的新的外接矩形又与这一点的外接矩形有重叠区域,因此,整个“迎”字也合并为具有一个外接矩形。“品”字可以包括三个不具有重叠区域的外接矩形,其能够根据上述位置条件b)或c)进行合并,具体合并情况在下文中详细描述。“尝”字的上面三个外接矩形可以根据有重叠区域而合并为一个外接矩形,合并以后的外接矩形与下面的外接矩形的合并能够根据上述位置条件c)来进行。最后,“欢迎品尝”四个字可以合并为每个字符具有一个外接矩形。
图9是根据一示例性实施例示出的合并外接矩形的示意图。如图9所示,根据上述位置条件c),“品”字的上面的“口”和右下的“口”,其外接矩形在竖直方向上的投影有重叠区域,并且这两个外接矩形在竖直方向上的间距L3与任一外接矩形在竖直方向上的边长L1或L2的比值(L3/L1或L3/L2)小于预定阈值,则这两个“口”的外接矩形可以合并为一个外接矩形。合并以后的外接矩形与左下的“口”的外接矩形具有重叠区域,又可以合并,最后,“品”字可以合并为具有一个外接矩形。
图10是根据一示例性实施例示出的确定每一个外接矩形内的图像是否为字符图像的流程图。如图10所示,根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定每一个外接矩形内的图像是否为字符图像的步骤(步骤S13)包括以下步骤。
在步骤S131中,确定所述外接矩形中每一个外接矩形各自的像素点的占空比率和/或高频分量比率。
其中,所述外接矩形中每一个外接矩形各自的像素点的占空比率分别为每一个外接矩形各自包含的所有连通域中的所有像素点的个数与每一个外接矩形各自包含的所有像素点的个数的比值。
也就是,每一个外接矩形都有自已的像素点的占空比率,每一个外接矩形自己的像素点的占空比率是自己内部的像素点特征的运算结果。例如,所述外接矩形中的两个外接矩形,这两个外接矩形各自包含的所有连通域中的所有像素点的个数分别为100和200,各自包含的所有像素点的个数分别为200和500,则这两个外接矩形各自的像素点的占空比率为0.5(100/200)和0.4(200/500)。
根据对大量字符图像的统计结果,字符图像的外接矩形的占空比率能够稳定在一个固定的范围内,而图形图像的占空比率容易集中在两个极端(0和1)附近。字符图像和图形图像能够利用二者外接矩形的占空比率存在较大差异的特点区分开来。
所述外接矩形中每一个外接矩形各自的像素点的高频分量比率分别为每一个外接矩形包含的所有连通域中高频率的像素点的个数与每一个外接矩形包含的所有连通域中的所有像素点的个数的比值。
与占空比率相似地,每一个外接矩形都有自已的像素点的高频分量比率,每一个外接矩形自己的像素点的高频分量比率是自己内部的像素点特征的运算结果。
在图像的频率域中,像素点的频率表征图像中灰度变化剧烈程度,是灰度在平面空间上的梯度。因此,本公开将图像从灰度分布转化到频率分布上来得到图像的特征。由于字符图像由多个笔划组成,与图形图像相比较,其灰度的变化更加剧烈。因此,一个字符图像的连通域中,高频率的像素点所占的比率通常远大于图形图像中高频率的像素点所占的比率。字符图像和图形图像能够利用二者外接矩形的高频分量比率存在较大差异的特点区分开来。
具体地,用于定义高频率的像素点可以取像素值为255的像素点,也可以取像素值处于一定范围(例如,250-255)内的像素点。该像素值的具体范围可以根据最终图像处理的效果进行调整。
在步骤S132中,分别判断所述外接矩形中每一个外接矩形各自的像素点的占空比率是否满足预定的第一阈值条件和/或像素点的高频分量比率是否满足预定的第二阈值条件。
也就是,对于每一个外接矩形都可以用以下中的任意一种判断方法:判断像素点的占空比率是否满足预定的第一阈值条件;判断像素点的高频分量比率是否满足预定的第二阈值条件;或者上述二者的结合。
其中,第一阈值条件可以根据字符图像和图形图像关于占空比率的区别来设置。第二阈值条件可以根据字符图像和图形图像关于高频分量比率的区别来设置。例如,第一阈值条件可以设定为0.4-0.7,第二阈值条件可以设定为0.8-1.0。第一阈值条件和第二阈值条件的具体数值可以通过对大量的字符图像进行统计得到。
在步骤S133中,将所述外接矩形中像素点的占空比率满足第一阈值条件和/或像素点的高频分量比率满足第二阈值条件的外接矩形内的图像确定为字符图像。
也就是,可以将一外接矩形被确定为字符图像需要满足的条件设置为以下中的任意一者:像素点的占空比率满足第一阈值条件;像素点的高频分量比率满足第二阈值条件;或者上述二者的结合。这样,就能够通过特征参数与相应的阈值相对比的结果来得到每一个外接矩形内的图像是否为字符图像的判断结果。
图11是根据一示例性实施例示出的确定每一个外接矩形各自的像素点的占空比率的流程图。如图11所示,步骤S131中,确定所述外接矩形中每一个外接矩形各自的像素点的占空比率的步骤包括以下步骤。
在步骤S1311中,分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数。
在步骤S1312中,分别统计所述每一个外接矩形各自包含的所有像素点的个数。
在步骤S1313中,分别将所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的占空比率。
图12是根据一示例性实施例示出的确定每一个外接矩形各自的像素点的高频分量比率的流程图。如图12所示,步骤S131中,确定所述外接矩形中每一个外接矩形各自的像素点的高频分量比率的步骤包括以下步骤。
在步骤S1311中,分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数。
在步骤S1314中,分别将每一个外接矩形中的图像进行傅里叶变换,得到每一个外接矩形的频谱图。
图像经傅立叶变换得到的频谱图,就是图像梯度的分布图。对图像而言,连通域的边缘部分是突变部分,变化较快,因此反映在频谱图上就是高频分量。得到频谱图的方法为本领域技术人员所公知,此处不再赘述。
在步骤S1315中,分别根据所述每一个外接矩形的频谱图统计所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数。如上所述,高频率的像素点定义的具体范围可以根据最终图像处理的效果进行选取。
在步骤S1316中,分别将每一个外接矩形各自包含的所有连通域中高频率的像素点的个数与每一个外接矩形各自包含的所有连通域中的所有像素点的个数的比值确定为每一个外接矩形的像素点的高频分量比率。
本公开根据灰度图像的纹理特征图得到连通域,然后根据连通域的外接矩形中像素点的特征参数,判断出每一个外接矩形内的图像中是否为字符图像。这样,使得对所选图片进行文字识别时,只需对确定为字符图像的部分进行识别。因此,减少了运算量,加快了识别速度,节省了时间。
本公开还提供一种字符识别方法。图13是根据一示例性实施例示出的一种字符识别方法的流程图。如图13所述,所述方法包括以下步骤。
在步骤S21中,根据本公开提供的图像处理方法确定一图像中所包括的字符图像。
在步骤S22中,对所确定的字符图像进行字符识别。
图14是根据另一示例性实施例示出的一种字符识别方法的流程图。如图14所述,在图13的基础上,所述字符识别方法还包括步骤S211。
在步骤S211中,训练每个字符的后向传输神经网络分类器。其中,在步骤S22中,对所确定的字符图像进行字符识别的步骤为:用后向传输神经网络分类器对所确定的字符图像进行字符识别。
由于后向传输神经网络具有高度自学习和自适应的能力,并具有一定的容错能力,因此,该实施例中,用后向传输神经网络分类器进行字符识别能够使字符识别更准确。
另外,在图14中,步骤S211设置在步骤S21之后,这并不作为对该步骤顺序的限制,本领域技术人员可以理解是是,步骤S211也可以设置在步骤S21之前。
图15是根据一示例性实施例示出的一种图像处理装置的框图。如图15所示,所述装置包括生成模块11、连通域确定模块12和字符图像确定模块13。
该生成模块11用于提取灰度图像的纹理特征,生成纹理特征图。
该连通域确定模块12用于确定纹理特征图中的连通域和连通域的外接矩形。
该字符图像确定模块13用于根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
图16是根据另一示例性实施例示出的一种图像处理装置的框图。如图16所示,在图15的基础上,所述装置还包括灰度化模块10。
该灰度化模块10用于将一选定图像灰度化,得到灰度图像。
图17是根据一示例性实施例示出的生成模块的框图。如图17所示,生成模块11包括单方向纹理特征图生成单元111和纹理特征图确定单元112。
该单方向纹理特征图生成单元111用于在多个方向上提取灰度图像的纹理特征,得到分别对应于多个方向的多个单方向纹理特征图。
该纹理特征图确定单元112用于根据多个单方向纹理特征图确定纹理特征图。
图18是根据一示例性实施例示出的纹理特征图确定单元的框图。如图16所示,纹理特征图确定单元112包括计算单元1121和纹理特征图生成单元1122。
该计算单元1121用于分别计算灰度图像中的每个像素点在多个单方向纹理特征图中的像素值的加权平均值。
该纹理特征图生成单元1122用于由每个像素点在多个单方向纹理特征图中的像素值的加权平均值生成所述纹理特征图。
可选地,多个单方向纹理特征图中的像素值的权重之和为一。
可选地,多个方向包括横方向、竖方向、撇方向和捺方向。
可选地,所述横方向纹理特征图中的像素值的权重大于所述撇方向纹理特征图中的像素值的权重,并且大于所述捺方向纹理特征图中的像素值的权重;以及
所述竖方向纹理特征图中的像素值的权重大于所述撇方向纹理特征图中的像素值的权重,并且大于所述捺方向纹理特征图中的像素值的权重。
图19是根据一示例性实施例示出的连通域确定模块的框图。如图19所示,连通域确定模块12包括连通域确定单元121和外接矩形生成单元122。
该连通域确定单元121用于将像素值处于一预定的像素值范围内、且连通的像素点确定为一连通域中的像素点。
该外接矩形生成单元122用于生成所确定的连通域的外接矩形。
图20是根据一示例性实施例示出的连通域确定模块的框图。如图20所示,在图19的基础上,连通域确定模块12还包括合并单元123。
该合并单元123用于将位置符合预定的位置条件的两个外接矩形进行合并,生成外接于两个外接矩形中的两个连通域的一个外接矩形。
可选地,预定的位置条件可以包括以下中的任意一者:
a)两个外接矩形有重叠区域;
b)两个外接矩形在水平方向上的投影有重叠区域,并且所述两个外接矩形在水平方向上的间距与所述两个外接矩形中的任一外接矩形在水平方向上的边长的比值小于或等于一预定阈值;或者
c)两个外接矩形在竖直方向上的投影有重叠区域,并且所述两个外接矩形在竖直方向上的间距与所述两个外接矩形中的任一外接矩形在竖直方向上的边长的比值小于或等于所述预定阈值。
图21是根据一示例性实施例示出的字符图像确定模块的框图。如图21所示,字符图像确定模块13包括比率确定单元131、判断单元132和字符图像确定单元133。
该比率确定单元131用于确定所述外接矩形中每一个外接矩形各自的像素点的占空比率和/或高频分量比率,其中,所述外接矩形中每一个外接矩形各自的像素点的所述占空比率分别为所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值,所述外接矩形中每一个外接矩形各自的像素点的所述高频分量比率分别为所述每一个外接矩形包含的所有连通域中高频率的像素点的个数与所述每一个外接矩形包含的所有连通域中的所有像素点的个数的比值;
该判断单元132用于分别判断所述外接矩形中每一个外接矩形各自的像素点的所述占空比率是否满足预定的第一阈值条件和/或像素点的所述高频分量比率是否满足预定的第二阈值条件;以及
该字符图像确定单元133用于将所述外接矩形中像素点的所述占空比率满足所述第一阈值条件和/或像素点的所述高频分量比率满足所述第二阈值条件的外接矩形内的图像确定为字符图像。
图22是根据一示例性实施例示出的比率确定单元的框图。如图22所示,所述比率确定单元131包括第一统计单元1311、第二统计单元1312和占空比率确定单元1313。
该第一统计单元1311用于分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数。
该第二统计单元1312用于分别统计所述每一个外接矩形各自包含的所有像素点的个数。
该占空比率确定单元1313用于分别将所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的占空比率。
图23是根据一示例性实施例示出的比率确定单元的框图。如图23所示,所述比率确定单元131包括第一统计单元1311、变换单元1314、第三统计单元1315和高频分量比率确定单元1316。
该第一统计单元1311用于分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数。
该变换单元1314用于分别将所述每一个外接矩形中的图像进行傅里叶变换,得到所述每一个外接矩形的频谱图。
该第三统计单元1315用于分别根据所述每一个外接矩形的频谱图统计所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数。
该高频分量比率确定单元1316用于分别将所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数与所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的高频分量比率。
本公开还提供一种字符识别装置。图24是根据一示例性实施例示出的一种字符识别装置的框图。如图24所示,字符识别装置包括图像处理装置10和识别装置20。
该图像处理装置10用于根据本公开提供的图像处理方法确定一图像中所包括的字符图像。
该识别装置20用于对所确定的字符图像进行字符识别。
图25是根据另一示例性实施例示出的一种字符识别装置的框图。如图25所示,所述字符识别装置还包括训练装置30。
该训练装置30用于训练每个字符的后向传输神经网络分类器。
其中,识别装置20用于用后向传输神经网络分类器对所确定的字符图像进行字符识别。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开的上述实施例中,根据图像的纹理特征图得到连通域,然后根据连通域的外接矩形中像素点的特征参数,判断出每一个外接矩形内的图像中是否为字符图像。这样,使得对所选图片进行文字识别时,只需对确定为字符图像的部分进行识别。因此,减少了运算量,加快了识别速度,节省了时间。
图26是根据一示例性实施例示出的一种图像处理装置或字符识别装置2600的框图。例如,装置2600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图26,装置2600可以包括以下一个或多个组件:处理组件2602,存储器2604,电力组件2606,多媒体组件2608,音频组件2610,输入/输出(I/O)的接口2612,传感器组件2614,以及通信组件2616。
处理组件2602通常控制装置2600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件2602可以包括一个或多个处理器2620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件2602可以包括一个或多个模块,便于处理组件2602和其他组件之间的交互。例如,处理组件2602可以包括多媒体模块,以方便多媒体组件2608和处理组件2602之间的交互。
存储器2604被配置为存储各种类型的数据以支持在装置2600的操作。这些数据的示例包括用于在装置2600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器2604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件2606为装置2600的各种组件提供电力。电力组件2606可以包括电源管理系统,一个或多个电源,及其他与为装置2600生成、管理和分配电力相关联的组件。
多媒体组件2608包括在所述装置2600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件2608包括一个前置摄像头和/或后置摄像头。当装置2600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件2610被配置为输出和/或输入音频信号。例如,音频组件2610包括一个麦克风(MIC),当装置2600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器2604或经由通信组件2616发送。在一些实施例中,音频组件2610还包括一个扬声器,用于输出音频信号。
I/O接口2612为处理组件2602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件2614包括一个或多个传感器,用于为装置2600提供各个方面的状态评估。例如,传感器组件2614可以检测到装置2600的打开/关闭状态,组件的相对定位,例如所述组件为装置2600的显示器和小键盘,传感器组件2614还可以检测装置2600或装置2600一个组件的位置改变,用户与装置2600接触的存在或不存在,装置2600方位或加速/减速和装置2600的温度变化。传感器组件2614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件2614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件2614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件2616被配置为便于装置2600和其他设备之间有线或无线方式的通信。装置2600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件2616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件2616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置2600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述图像处理方法或字符识别方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器2604,上述指令可由装置2600的处理器2620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (30)
1.一种图像处理方法,其特征在于,所述方法包括:
提取一灰度图像的纹理特征,生成纹理特征图;
确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及
根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
2.根据权利要求1所述的方法,其特征在于,所述提取一灰度图像的纹理特征,生成纹理特征图的步骤包括:
在多个方向上提取所述灰度图像的纹理特征,生成分别对应于所述多个方向的多个单方向纹理特征图;以及
根据所述多个单方向纹理特征图确定所述纹理特征图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个单方向纹理特征图确定所述纹理特征图的步骤包括:
分别计算所述灰度图像中的每个像素点在所述多个单方向纹理特征图中的像素值的加权平均值;以及
由所述每个像素点在所述多个单方向纹理特征图中的像素值的加权平均值生成所述纹理特征图。
4.根据权利要求3所述的方法,其特征在于,所述多个单方向纹理特征图包括横方向纹理特征图、竖方向纹理特征图、撇方向纹理特征图和捺方向纹理特征图。
5.根据权利要求4所述的方法,其特征在于,
所述横方向纹理特征图中的像素值的权重大于所述撇方向纹理特征图中的像素值的权重,并且大于所述捺方向纹理特征图中的像素值的权重;以及
所述竖方向纹理特征图中的像素值的权重大于所述撇方向纹理特征图中的像素值的权重,并且大于所述捺方向纹理特征图中的像素值的权重。
6.根据权利要求1所述的方法,其特征在于,所述确定所述纹理特征图中的连通域和所述连通域的外接矩形的步骤包括:
将像素值处于一预定的像素值范围内、且连通的像素点确定为一连通域中的像素点;以及
生成所确定的连通域的外接矩形。
7.根据权利要求6所述的方法,其特征在于,所述确定所述纹理特征图中的连通域和所述连通域的外接矩形的步骤还包括:
将位置符合预定的位置条件的两个外接矩形进行合并,生成外接于所述两个外接矩形中的两个连通域的一个外接矩形。
8.根据权利要求7所述的方法,其特征在于,所述预定的位置条件包括以下中的任意一者:
所述两个外接矩形有重叠区域;
所述两个外接矩形在水平方向上的投影有重叠区域,并且所述两个外接矩形在水平方向上的间距与所述两个外接矩形中的任一外接矩形在水平方向上的边长的比值小于或等于一预定阈值;或者
所述两个外接矩形在竖直方向上的投影有重叠区域,并且所述两个外接矩形在竖直方向上的间距与所述两个外接矩形中的任一外接矩形在竖直方向上的边长的比值小于或等于所述预定阈值。
9.根据权利要求1-8中任一权利要求所述的方法,其特征在于,所述根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像的步骤包括:
确定所述外接矩形中每一个外接矩形各自的像素点的占空比率和/或高频分量比率,其中,所述外接矩形中每一个外接矩形各自的像素点的所述占空比率分别为所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值,所述外接矩形中每一个外接矩形各自的像素点的所述高频分量比率分别为所述每一个外接矩形包含的所有连通域中高频率的像素点的个数与所述每一个外接矩形包含的所有连通域中的所有像素点的个数的比值;
分别判断所述外接矩形中每一个外接矩形各自的像素点的所述占空比率是否满足预定的第一阈值条件和/或像素点的所述高频分量比率是否满足预定的第二阈值条件;以及
将所述外接矩形中像素点的所述占空比率满足所述第一阈值条件和/或像素点的所述高频分量比率满足所述第二阈值条件的外接矩形内的图像确定为字符图像。
10.根据权利要求9所述的方法,其特征在于,所述确定所述外接矩形中每一个外接矩形各自的像素点的占空比率的步骤包括:
分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数;
分别统计所述每一个外接矩形各自包含的所有像素点的个数;以及
分别将所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的占空比率。
11.根据权利要求9所述的方法,其特征在于,所述确定所述外接矩形中每一个外接矩形各自的像素点的高频分量比率的步骤包括:
分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数;
分别将所述每一个外接矩形中的图像进行傅里叶变换,得到所述每一个外接矩形的频谱图;
分别根据所述每一个外接矩形的频谱图统计所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数;以及
分别将所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数与所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的高频分量比率。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将一选定图像灰度化,得到所述灰度图像。
13.一种字符识别方法,其特征在于,所述方法包括:
根据权利要求1-12中任一权利要求所述的图像处理方法确定一图像中所包括的字符图像;以及
对所确定的字符图像进行字符识别。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
训练每个字符的后向传输神经网络分类器,
其中,对所确定的字符图像进行字符识别的步骤为:用所述后向传输神经网络分类器对所确定的字符图像进行字符识别。
15.一种图像处理装置,其特征在于,所述装置包括:
生成模块,用于提取一灰度图像的纹理特征,生成纹理特征图;
连通域确定模块,用于确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及
字符图像确定模块,用于根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
16.根据权利要求15所述的装置,其特征在于,所述生成模块包括:
单方向纹理特征图生成单元,用于在多个方向上提取所述灰度图像的纹理特征,生成分别对应于所述多个方向的多个单方向纹理特征图;以及
纹理特征图确定单元,用于根据所述多个单方向纹理特征图确定所述纹理特征图。
17.根据权利要求16所述的装置,其特征在于,所述纹理特征图确定单元包括:
计算单元,用于分别计算所述灰度图像中的每个像素点在所述多个单方向纹理特征图中的像素值的加权平均值;以及
纹理特征图生成单元,用于由所述每个像素点在所述多个单方向纹理特征图中的像素值的加权平均值生成所述纹理特征图。
18.根据权利要求17所述的装置,其特征在于,所述多个单方向纹理特征图包括横方向纹理特征图、竖方向纹理特征图、撇方向纹理特征图和捺方向纹理特征图。
19.根据权利要求18所述的装置,其特征在于,
所述横方向纹理特征图中的像素值的权重大于所述撇方向纹理特征图中的像素值的权重,并且大于所述捺方向纹理特征图中的像素值的权重;以及
所述竖方向纹理特征图中的像素值的权重大于所述撇方向纹理特征图中的像素值的权重,并且大于所述捺方向纹理特征图中的像素值的权重。
20.根据权利要求15所述的装置,其特征在于,所述连通域确定模块包括:
连通域确定单元,用于将像素值处于一预定的像素值范围内、且连通的像素点确定为一连通域中的像素点;以及
外接矩形生成单元,用于生成所确定的连通域的外接矩形。
21.根据权利要求20所述的装置,其特征在于,所述连通域确定模块还包括:
合并单元,用于将位置符合预定的位置条件的两个外接矩形进行合并,生成外接于所述两个外接矩形中的两个连通域的一个外接矩形。
22.根据权利要求21所述的装置,其特征在于,所述预定的位置条件包括以下中的任意一者:
所述两个外接矩形有重叠区域;
所述两个外接矩形在水平方向上的投影有重叠区域,并且所述两个外接矩形在水平方向上的间距与所述两个外接矩形中的任一外接矩形在水平方向上的边长的比值小于或等于一预定阈值;或者
所述两个外接矩形在竖直方向上的投影有重叠区域,并且所述两个外接矩形在竖直方向上的间距与所述两个外接矩形中的任一外接矩形在竖直方向上的边长的比值小于或等于所述预定阈值。
23.根据权利要求15-22中任一权利要求所述的装置,其特征在于,所述字符图像确定模块包括:
比率确定单元,用于确定所述外接矩形中每一个外接矩形各自的像素点的占空比率和/或高频分量比率,其中,所述外接矩形中每一个外接矩形各自的像素点的所述占空比率分别为所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值,所述外接矩形中每一个外接矩形各自的像素点的所述高频分量比率分别为所述每一个外接矩形包含的所有连通域中高频率的像素点的个数与所述每一个外接矩形包含的所有连通域中的所有像素点的个数的比值;
判断单元,用于分别判断所述外接矩形中每一个外接矩形各自的像素点的所述占空比率是否满足预定的第一阈值条件和/或像素点的所述高频分量比率是否满足预定的第二阈值条件;以及
字符图像确定单元,用于将所述外接矩形中像素点的所述占空比率满足所述第一阈值条件和/或像素点的所述高频分量比率满足所述第二阈值条件的外接矩形内的图像确定为字符图像。
24.根据权利要求23所述的装置,其特征在于,所述比率确定单元包括:
第一统计单元,用于分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数;
第二统计单元,用于分别统计所述每一个外接矩形各自包含的所有像素点的个数;以及
占空比率确定单元,用于分别将所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数与所述每一个外接矩形各自包含的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的占空比率。
25.根据权利要求23所述的装置,其特征在于,所述比率确定单元包括:
第一统计单元,用于分别统计所述外接矩形中每一个外接矩形各自包含的所有连通域中的所有像素点的个数;
变换单元,用于分别将所述每一个外接矩形中的图像进行傅里叶变换,得到所述每一个外接矩形的频谱图;
第三统计单元,用于分别根据所述每一个外接矩形的频谱图统计所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数;以及
高频分量比率确定单元,用于分别将所述每一个外接矩形各自包含的所有连通域中高频率的像素点的个数与所述每一个外接矩形各自包含的所有连通域中的所有像素点的个数的比值确定为所述每一个外接矩形的像素点的高频分量比率。
26.根据权利要求15所述的装置,其特征在于,所述装置还包括:
灰度化模块,用于将一选定图像灰度化,得到所述灰度图像。
27.一种字符识别装置,其特征在于,所述装置包括:
图像处理装置,用于根据权利要求1-12中任一权利要求所述的图像处理方法确定一图像中所包括的字符图像;以及
识别装置,用于对所确定的字符图像进行字符识别。
28.根据权利要求27所述的装置,其特征在于,所述装置还包括:
训练装置,用于训练每个字符的后向传输神经网络分类器,
其中,所述识别装置用于:用所述后向传输神经网络分类器对所确定的字符图像进行字符识别。
29.一种图像处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
提取一灰度图像的纹理特征,生成纹理特征图;
确定所述纹理特征图中的连通域和所述连通域的外接矩形;以及
根据所述外接矩形中每一个外接矩形各自的像素点的特征参数分别确定所述每一个外接矩形内的图像是否为字符图像。
30.一种字符识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据权利要求1-12中任一权利要求所述的图像处理方法确定一图像中所包括的字符图像;以及
对所确定的字符图像进行字符识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510542653.7A CN105117706B (zh) | 2015-08-28 | 2015-08-28 | 图像处理方法和装置、字符识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510542653.7A CN105117706B (zh) | 2015-08-28 | 2015-08-28 | 图像处理方法和装置、字符识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105117706A true CN105117706A (zh) | 2015-12-02 |
CN105117706B CN105117706B (zh) | 2019-01-18 |
Family
ID=54665689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510542653.7A Active CN105117706B (zh) | 2015-08-28 | 2015-08-28 | 图像处理方法和装置、字符识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105117706B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815561A (zh) * | 2016-12-22 | 2017-06-09 | 北京五八信息技术有限公司 | 营业执照版面分析方法及装置 |
WO2017118356A1 (zh) * | 2016-01-05 | 2017-07-13 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
CN107316078A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN107707458A (zh) * | 2017-10-01 | 2018-02-16 | 李子盈 | 一种传输图片格式文字信息的通信方法及系统与设备 |
CN107330465B (zh) * | 2017-06-30 | 2019-07-30 | 清华大学深圳研究生院 | 一种图像目标识别方法及装置 |
CN110135426A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110135225A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110866529A (zh) * | 2019-10-29 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN115995080A (zh) * | 2023-03-22 | 2023-04-21 | 曲阜市检验检测中心 | 基于ocr识别的档案智能管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571875A (zh) * | 2009-05-05 | 2009-11-04 | 程治永 | 一种基于图像识别的图像搜索系统的实现方法 |
JP2013016168A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 画像におけるテキスト領域を位置決めする方法及び装置 |
CN103049756A (zh) * | 2012-11-16 | 2013-04-17 | 健雄职业技术学院 | 基于cema算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法 |
CN104346615A (zh) * | 2013-08-08 | 2015-02-11 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
CN104598905A (zh) * | 2015-02-05 | 2015-05-06 | 广州中国科学院软件应用技术研究所 | 一种车牌定位方法和装置 |
-
2015
- 2015-08-28 CN CN201510542653.7A patent/CN105117706B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571875A (zh) * | 2009-05-05 | 2009-11-04 | 程治永 | 一种基于图像识别的图像搜索系统的实现方法 |
JP2013016168A (ja) * | 2011-06-30 | 2013-01-24 | Fujitsu Ltd | 画像におけるテキスト領域を位置決めする方法及び装置 |
CN103049756A (zh) * | 2012-11-16 | 2013-04-17 | 健雄职业技术学院 | 基于cema算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法 |
CN104346615A (zh) * | 2013-08-08 | 2015-02-11 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
CN104598905A (zh) * | 2015-02-05 | 2015-05-06 | 广州中国科学院软件应用技术研究所 | 一种车牌定位方法和装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572728B2 (en) | 2016-01-05 | 2020-02-25 | Tencent Technology (Shenzhen) Company Limited | Text image processing method and apparatus |
WO2017118356A1 (zh) * | 2016-01-05 | 2017-07-13 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
CN107316078A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN107316078B (zh) * | 2016-04-27 | 2021-05-07 | 中科寒武纪科技股份有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN106815561A (zh) * | 2016-12-22 | 2017-06-09 | 北京五八信息技术有限公司 | 营业执照版面分析方法及装置 |
CN107330465B (zh) * | 2017-06-30 | 2019-07-30 | 清华大学深圳研究生院 | 一种图像目标识别方法及装置 |
CN107707458A (zh) * | 2017-10-01 | 2018-02-16 | 李子盈 | 一种传输图片格式文字信息的通信方法及系统与设备 |
CN110135225A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110135225B (zh) * | 2018-02-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110135426B (zh) * | 2018-02-09 | 2021-04-30 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110135426A (zh) * | 2018-02-09 | 2019-08-16 | 北京世纪好未来教育科技有限公司 | 样本标注方法及计算机存储介质 |
CN110866529A (zh) * | 2019-10-29 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN110866529B (zh) * | 2019-10-29 | 2024-08-13 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、电子设备及存储介质 |
CN115995080A (zh) * | 2023-03-22 | 2023-04-21 | 曲阜市检验检测中心 | 基于ocr识别的档案智能管理系统 |
CN115995080B (zh) * | 2023-03-22 | 2023-06-02 | 曲阜市检验检测中心 | 基于ocr识别的档案智能管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105117706B (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105117706A (zh) | 图像处理方法和装置、字符识别方法和装置 | |
CN105095881B (zh) | 人脸识别方法、装置及终端 | |
CN105224924A (zh) | 活体人脸识别方法和装置 | |
US20220309836A1 (en) | Ai-based face recognition method and apparatus, device, and medium | |
US20210097278A1 (en) | Method and apparatus for recognizing stacked objects, and storage medium | |
CN106295515B (zh) | 确定图像中的人脸区域的方法及装置 | |
AU2020309090A1 (en) | Image processing methods and apparatuses, electronic devices, and storage media | |
CN106228556B (zh) | 图像质量分析方法和装置 | |
CN105528602A (zh) | 区域识别方法及装置 | |
CN105069786A (zh) | 直线检测方法及装置 | |
CN105528600A (zh) | 区域识别方法及装置 | |
CN104243814A (zh) | 图像中物体布局的分析方法、图像拍摄提示方法及装置 | |
CN105469356A (zh) | 人脸图像处理方法及装置 | |
US20210201478A1 (en) | Image processing methods, electronic devices, and storage media | |
CN105528078A (zh) | 控制电子设备的方法及装置 | |
CN105678242A (zh) | 手持证件模式下的对焦方法和装置 | |
CN105957037B (zh) | 图像增强方法及装置 | |
CN105139378A (zh) | 卡片边界检测方法及装置 | |
CN107091704A (zh) | 压力检测方法和装置 | |
CN105138956A (zh) | 人脸检测方法和装置 | |
CN104268864A (zh) | 卡片边缘提取方法和装置 | |
CN107992811A (zh) | 人脸识别方法及装置 | |
CN105335714A (zh) | 照片处理方法、装置和设备 | |
CN105635574A (zh) | 图像的处理方法和装置 | |
CN107977636A (zh) | 人脸检测方法及装置、终端、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |