CN109308478B - 一种字符识别方法及装置 - Google Patents
一种字符识别方法及装置 Download PDFInfo
- Publication number
- CN109308478B CN109308478B CN201811125411.8A CN201811125411A CN109308478B CN 109308478 B CN109308478 B CN 109308478B CN 201811125411 A CN201811125411 A CN 201811125411A CN 109308478 B CN109308478 B CN 109308478B
- Authority
- CN
- China
- Prior art keywords
- character
- pixel
- area
- region
- pixel point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请实施例提供了一种字符识别方法及装置,涉及信息处理技术领域,其中,上述方法包括:判断图像的字符区域是否为斜体字符区域;对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;对所述待识别字符区域中的字符进行字符识别。应用本申请实施例提供的方案进行字符识别,在使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,能够提高对斜体字符进行字符识别的准确度。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种字符识别方法及装置。
背景技术
在人工智能技术高速发展的今天,基于图像进行字符识别的需求越来越多。在基于图像进行字符识别时,需获取大量样本图像,然后基于这些样本图像训练字符识别模型,并通过训练好的字符识别模型识别图像中的字符。
由于实际应用中大多数字符均为正常字符,也就是不具有倾斜度的字符,所以在训练上述字符识别模型时,所采用的样本图像一般为包含正常字符的图像。由于正常字符与斜体字符的特征不同,这样在图像中包含斜体字符的情况下,仍然采用上述字符识别模型进行字符,易导致准确度较低。
发明内容
本申请实施例的目的在于提供一种字符识别方法及装置,以在使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,提高对斜体字符进行字符识别的准确度。具体技术方案如下:
第一方面,本申请实施例提供了一种字符识别方法,所述方法包括:
判断图像的字符区域是否为斜体字符区域;
若为是,对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
对所述待识别字符区域中的字符进行字符识别。
第二方面,本申请实施例提供了一种字符识别装置,所述装置包括:
区域判断模块,用于判断图像的字符区域是否为斜体字符区域,若为是,触发校正处理模块;
所述校正处理模块,用于对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
字符识别模块,用于对所述待识别字符区域中的字符进行字符识别。
第三方面,本申请实施例提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本申请实施例所述的字符识别方法步骤。
第四方面,本申请实施例提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的字符识别方法步骤。
由以上可见,应用本申请实施例提供的方案识别字符时,若图像的字符区域为斜体字符区域,则先对字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域,再对待识别字符区域中的字符进行字符识别。由于对字符区域进行的是减轻字符倾斜程度的校正处理,因此会减轻字符区域中字符的倾斜程度,使得斜体字符被校正为正常字符,从而应用本申请实施例提供的方案、使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,能够提高对斜体字符进行字符识别的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种字符识别方法的流程示意图;
图2为本申请实施例提供的第一种字符区域示意图;
图3a为本申请实施例提供的第二种字符区域示意图;
图3b为本申请实施例提供的第三种字符区域示意图;
图3c为本申请实施例提供的一种字符识别结果示意图;
图3d为现有技术提供的字符识别结果示意图;
图4为本申请实施例提供的一种字符识别装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于现有技术中对包含斜体字符的图像进行字符识别时,准确度低,为解决这一技术问题,本申请实施例提供了一种字符识别方法及装置。
下面通过具体实施例对本申请实施例提供的字符识别方法进行详细介绍。
图1为本申请实施例提供的一种字符识别方法的流程示意图,该方法包括:
S101:判断图像的字符区域是否为斜体字符区域,若为是,执行S102。
上述图像的字符区域可以理解为包含字符的图像中的部分区域,例如,图像中一字符行所在的区域、多个字符行所在的区域、字符行中连续的部分字符所在区域等等。
其中,上述字符行可以理解为:各个字符沿水平方向依次排列形成的行。
斜体字符区域是指所包含的字符为斜体字符的区域。
本申请的一个实施例中,在对图像中的字符进行识别时,也就是识别图像中的字符时,可以先对图像中的字符进行定位处理,通过定位处理可以确定出图像中的各个字符行所在区域,这种情况下,上述S101中提及的字符区域可以为定位处理后得到的各个字符行所在区域。
另外,字符区域中所包含的字符可以是中文简体字、中文繁体字、英文、法文、德文、日文等等中的任一字符,本申请并不对此进行限定。
由于图像中字符行的方向与水平方向一致,因此,上述斜体字符可以理解为:向字符行的方向倾斜的字符,或者向水平方向倾斜的字符。例如,图2和图3a中所示的各个中文字符,沿水平方向向右倾斜,或沿字符行的方向向右倾斜。
本申请的一种实现方式中,在判断出上述字符区域不是斜体字符区域时,可以结束本流程,也就是不再继续执行后续各个步骤。具体的,这种情况下,可以认为上述字符区域为正常字符区域,可以使用包含正常字符的样本图像训练的字符识别模型直接进行字符识别。
S102:对字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域。
上述字符倾斜程度可以理解为:字符向字符行的方向倾斜的程度。
由于执行本步骤时可能还未确定字符区域中各个字符所在的具体子区域,所以进行校正处理时,可以是以整个字符区域为对象进行处理。例如,对字符区域中的各个像素点逐一进行校正处理。
对字符区域进行校正处理的具体实现方式在后续实施例中进行详细说明,这里暂不详述。
S103:对待识别字符区域中的字符进行字符识别。
本申请的一个实施例中,对待识别字符区域中的字符进行字符识别时,可以基于预先训练好的字符识别模型,对待识别字符区域中的字符进行字符识别。
本申请的一个实施例中,上述步骤S101判断图像的字符区域是否为斜体字符区域时,可以通过以下步骤A和步骤B实现。
步骤A:统计图像的字符区域中纵向边缘像素点的第一数量,并统计字符区域中具有斜体字符特征的像素点的第二数量。
从图2所示的字符区域中各个斜体字符可以看出,斜体字符具有以下任一特征或任意几项组合的特征:
特征1:在纵向方向边缘呈锯齿状;
特征2:当字符倾斜方向为:向字符右侧倾斜时,字符从上到下整体向左偏移;
特征3:与向字符右侧倾斜的字符相类似,当字符倾斜方向为:向字符左侧倾斜时,字符从上到下整体向右偏移。
本申请的一个实施例中,字符倾斜方向为:向字符右侧倾斜。
图像的字符区域中纵向边缘像素点(x1,y1)满足以下表达式1:
|gv1-gBkg|<GREY_THRESH且|gr1-gBkg|>GREY_THRESH (表达式1)
其中,gv1表示坐标为(x1,y1)的像素点的灰度值,gr1表示坐标为(x1+1,y1)的像素点的灰度值,gBkg表示字符区域中各像素点的灰度平均值,GREY_THRESH表示第一预设阈值。
具体的,上述第一预设阈值GREY_THRESH可以理解为:表示像素点的像素值与上述灰度平均值之间差异大小的阈值。
另外,从上述描述可见,可以认为字符区域中各个像素点具有坐标,则这些坐标所在坐标系的描述参数可以为:
坐标原点:字符区域一般为矩形区域,则上述坐标原点可以为矩形区域的左上角顶点;
横轴:水平方向,其正方向为水平向左的方向;
纵轴:垂直方向,其正方向为垂直向下的方向。
需要说明的是,本申请仅仅以上述为例对坐标系进行说明,并不对本申请构成限定。
从上述描述可见,字符区域中满足上述表达式1的像素点(x1,y1)被认为是字符区域中的一个纵向边缘像素点,也就是,字符区域中满足上述表达式1的像素点(x1,y1)的数量即为上述第一数量。
参照上述表达式1,字符区域中具有斜体字符特征的像素点(x2,y2)满足以下表达式2:
|gv2-gBkg|<GREY_THRESH且|gr2-gBkg|>GREY_THRESH且|gb2-gr|<GREY_THRESH (表达式2)
其中,gv2表示坐标为(x2,y2)的像素点的灰度值,gr2表示坐标为(x2+1,y2)的像素点的灰度值,gb2表示坐标为(x2,y2+1)的像素点的灰度值。
从上述描述可见,字符区域中满足上述表达式2的像素点(x2,y2)被认为是字符区域中具有斜体字符特征的像素点,也就是,字符区域中满足上述表达式2的像素点(x2,y2)的数量即为上述第二数量。
上述x1、x2表示像素点的横坐标,其取值受字符区域宽度的限制,如,字符区域的宽度为width,则x1、x2的取值可以为1~width。
上述y1、y2表示像素点的纵坐标,其取值受字符区域高度的限制,如,字符区域的高度为height,则y1、y2的取值可以为1~height。
具体的,上述GREY_THRESH的取值可以是根据经验值确定的,如,30;也可以是根据上述gBkg和字符区域的特征灰度平均值确定的,如,GREY_THRESH的取值为:gBkg与字符区域的特征灰度平均值绝对差值的1/2、gBkg与字符区域的特征灰度平均值绝对差值的1/3等。
假设,gBkg为:50,字符区域的特征灰度平均值为:180,则GREY_THRESH可以为:|50-180|/2=65。
具体的,在统计上述第一数量和第二数量时,可以采用遍历字符区域中各个像素点的方式统计,例如,以像素行为单位,逐行遍历每一像素行中的每一像素点,当然,也可以以像素列为单位,逐列遍历每一像素列中的每一像素点。
步骤B:根据第一数量与第二预设阈值的乘积是否小于第二数量,判断字符区域是否为斜体字符区域。
本申请的一个实施例中,判断字符区域是否为斜体字符区域时,可以判断第一数量与第二预设阈值的乘积是否小于第二数量,若小于第二数量,则判定字符区域为斜体字符区域;若不小于第二数量,则判定字符区域不为斜体字符区域。
具体的,上述第二预设阈值的取值可以是根据斜体字符的特征设定的,如,第二预设阈值的取值范围可以是[1/3,0.4],可选的,第二预设阈值的取值为:0.35。
与前述在字符倾斜方向为向字符右侧倾斜时统计第一数量和第二数量相类似,本申请的另一个实施例中,在字符倾斜方向为:向字符左侧倾斜时,
图像的字符区域中纵向边缘像素点(x3,y3)满足以下表达式3:
|gv3-gBkg|<GREY_THRESH且|gl3-gBkg|>GREY_THRESH (表达式3)
其中,gv3表示坐标为(x3,y3)的像素点的灰度值,gl3表示坐标为(x3-1,y3)的像素点的灰度值。
这种情况下,字符区域中满足上述表达式3的像素点(x3,y3)被认为是字符区域中的一个纵向边缘像素点,也就是,字符区域中满足上述表达式3的像素点(x3,y3)的数量即为上述第一数量。
参照上述表达式3,字符区域中具有斜体字符特征的像素点(x4,y4)满足以下表达式4:
|gv4-gBkg|<GREY_THRESH且|gl4-gBkg|>GREY_THRESH且|gb4-gl4|<GREY_THRESH (表达式4)
其中,gv4表示坐标为(x4,y4)的像素点的灰度值,gl4表示坐标为(x4-1,y4)的像素点的灰度值,gb4表示坐标为(x4,y4+1)的像素点的灰度值。
从上述描述可见,字符区域中满足上述表达式4的像素点(x4,y4)被认为是字符区域中具有斜体字符特征的像素点,也就是,字符区域中满足上述表达式4的像素点(x4,y4)的数量即为上述第二数量。
本申请的一个实施例中,上述步骤S102对字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域时,可以通过以下步骤C-步骤D实现。
步骤C:确定字符区域的字符行中的每一像素点的校正像素值。
具体的,每一像素点的校正值为:从该像素点开始、沿字符倾斜方向偏移目标偏移量的像素点的像素值。
其中,目标偏移量为:根据表达式line/ITALIC_OFFUNIT计算得到的偏移量,line表示像素点所在的像素行在字符行所包含像素行中的行号,ITALIC_OFFUNIT表示第三预设阈值。
例如,假设字符行包含5个像素行,这5个像素行的行号依次为:0、1、2、3、4,若像素点所在的像素行为字符行所包含像素行中的第一个像素行,则上述line的取值为:0,若像素点所在的像素行为字符行所包含像素行中的第三个像素行,则上述line的取值为:2。
具体的,上述字符倾斜方向可以是向字符右侧倾斜,当然也可以是向字符左侧倾斜。
本申请的一个实施例中,上述字符倾斜方向可以是预先设定的。
具体的,上述ITALIC_OFFUNIT的取值可以是根据斜体字符的特征设定的,例如,3等等。也可以是根据开发人员的经验值确定的。本申请并不对此进行限定。
步骤D:根据上述字符区域中每一像素点的校正像素值,获得对应的校正像素点,并根据上述字符区域中每一像素点对应的校正像素点,获得包含上述字符区域中所有像素点对应的校正像素点的待识别字符区域。其中,针对每一像素点,其对应的校正像素点为对该像素点进行校正后的像素点。
在一实施例中,利用每一像素点的校正像素值,对该像素点进行校正,在对所有的像素点校正完成后,获得待识别字符区域。在一个示例中,在确定像素点的校正像素值后,可以直接将字符区域中的像素点的取值替换为校正像素值,这种情况下,待识别字符区域即为像素值替换之后的字符区域。
由于字符行中各个像素点的校正像素值可以是按照一定的顺序确定的,所以可以认为像素点的校正值有些是先确定的,有些是后确定的。又由于要减轻字符的倾斜程度,所以各个像素点的校正值是依据其他像素点的像素值确定的。因此,在这一情况下,为防止确定一些像素点的校正像素值时所要依据的像素点的像素值被替换,可以结合字符倾斜方向遍历各个像素点。
例如,字符倾斜方向为向字符右侧倾斜时,每一像素行中右侧像素点的校正像素值需要依据该像素行中左侧像素点的像素值确定,因此可以按照像素行,从每一像素行的右侧像素点开始向左侧逐一遍历像素点。相应的,字符倾斜方向为向字符左侧倾斜时,每一像素行中左侧像素点的校正像素值需要依据该像素行中右侧像素点的像素值确定,因此可以按照像素行,从每一像素行的左侧像素点开始向右逐一遍历像素点。
在另一实施例中,还可以重新分配一块内存区域,用于存储待识别字符区域中各个像素点的像素值,这样确定像素点的校正像素值后,可以根据像素点在字符区域中的位置,将所确定的校正像素值存储至新分配内存区域中。待所确定的每一像素点的校正像素值均存储至上述内存区域后,即获得了待识别字符区域。
这种情况下,由于新分配的内存区域与上述字符区域对应的内存区域并不重合,也就是说,字符区域中每一像素点的像素值存储在第一内存区域中,而字符区域中每一像素点的校正像素值存储在第二内存区域中,即待识别字符区域中各个像素点的像素值存储在上述第二内存区域中,上述第一内存区域和第二内存区域是不重合的两个内存区域。这样在第二内存区域中存储字符区域中每一像素点的校正像素值后,不会覆盖掉第一内存区域中存储的字符区域中任何一个像素点的像素值。因此,在确定字符区域中每一像素点的校正像素值时,不管用到哪个像素点的像素值均可以在上述第一内存区域中找到,所以,在遍历像素点时,可以不考虑字符倾斜方向。
假设,字符区域中每一像素点的像素值存储的内存区域称为区域1,新分配的内存区域,也就是用于存储待识别字符区域中各个像素点的像素值的内存区域称为区域2,上述区域1和区域2是不重合的两个内存区域。
字符区域中字符的倾斜方向为向字符右侧倾斜,以字符区域中像素点a为例,在计算像素点a的校正像素值时会用到像素点a左侧的像素点,计算出像素点a的校正像素值后,存储至上述区域2中,由于区域2和区域1不重合,所以在区域2中存储像素点a的校正像素值不会覆盖掉区域1中的任何数据,也就是,区域1中像素点a左侧的像素点会依然存在于区域1中。
可见这种情况下,虽然计算字符区域中每一像素点的校正像素值时会用到像素点左侧的像素值,但是由于字符区域中每一像素点的像素值一直存储在区域1中,不会被覆盖掉,所以遍历像素点计算校正像素值时,不管用到哪个像素点的像素值均可以在区域1中找到,也就是可以不考虑字符的倾斜方向。
由以上可见,应用上述各个实施例提供的方案识别字符时,若字符区域为斜体字符区域,则先对字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域,再对待识别字符区域中的字符进行字符识别。由于对字符区域进行的是减轻字符倾斜程度的校正处理,因此会减轻字符区域中字符的倾斜程度,使得斜体字符被校正为正常字符,从而使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,能够提高对斜体字符进行字符识别的准确度。
下面再结合图3a-图3d,通过实验对比的方式对本申请实施例提供的字符识别方法进行说明。
图3a为字符区域,图3b为对图3a进行字符倾斜度校正处理后的字符区域,图3c为采用本申请实施例提供的方案对图3a所示的字符区域进行字符识别得到的结果示意图,图3d为采用现有技术对图3a所示的字符区域进行字符识别得到的结果示意图。
对比图3c和图3d可见,应用本申请实施例提供的方案进行字符识别的准确度远远高于应用现有技术进行字符识别的准确度。
与上述字符识别方法相对应,本申请实施例还提供了一种字符识别装置。
图4为本申请实施例提供的一种字符识别装置的结构示意图,该装置包括:
区域判断模块401,用于判断图像的字符区域是否为斜体字符区域,若为是,触发校正处理模块402;
校正处理模块402,用于对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
字符识别模块403,用于对所述待识别字符区域中的字符进行字符识别。
本申请的一个实施例中,所述区域判断模块401可以包括:
第一数量统计子模块,用于统计图像的字符区域中纵向边缘像素点的第一数量;
第二数量统计子模块,用于统计所述字符区域中具有斜体字符特征的像素点的第二数量;
区域判断子模块,用于根据所述第一数量与第二预设阈值的乘积是否小于所述第二数量,判断所述字符区域是否为斜体字符区域。
本申请的一个实施例中,字符倾斜方向为:向字符右侧倾斜,
图像的字符区域中纵向边缘像素点(x1,y1)满足以下表达式:
|gv1-gBkg|<GREY_THRESH且|gr1-gBkg|>GREY_THRESH
其中,gv1表示坐标为(x1,y1)的像素点的灰度值,gr1表示坐标为(x1+1,y1)的像素点的灰度值,gBkg表示所述字符区域中各像素点的灰度平均值,GREY_THRESH表示第一预设阈值;
所述字符区域中具有斜体字符特征的像素点(x2,y2)满足以下表达式:
统计所述字符区域中满足以下表达式的像素点数量,作为第二数量:
|gv2-gBkg|<GREY_THRESH且|gr2-gBkg|>GREY_THRESH且|gb2-gr|<GREY_THRESH
其中,gv2表示坐标为(x2,y2)的像素点的灰度值,gr2表示坐标为(x2+1,y2)的像素点的灰度值,gb2表示坐标为(x2,y2+1)的像素点的灰度值。
本申请的一个实施例中,所述区域判断子模块,具体用于判断所述第一数量与第二预设阈值的乘积是否小于所述第二数量;若为是,判定所述字符区域为斜体字符区域;若为否,判定所述字符区域不为斜体字符区域。
本申请的一个实施例中,所述校正处理模块402可以包括:
像素值确定子模块,用于确定所述字符区域的字符行中每一像素点的校正像素值,其中,每一像素点的校正像素值为:从该像素点开始、沿字符倾斜方向偏移目标偏移量的像素点的像素值,所述目标偏移量为:根据表达式line/ITALIC_OFFUNIT计算得到的偏移量,line表示像素点所在的像素行在字符行所包含的像素行中的行号,ITALIC_OFFUNIT表示第三预设阈值;
区域获得子模块,用于根据所述字符区域中每一像素点的校正像素值,获得对应的校正像素点,并根据所述字符区域中每一像素点对应的校正像素点,获得包含所述字符区域中所有像素点对应的校正像素点的待识别字符区域。
由以上可见,应用上述各个实施例提供的方案识别字符时,若图像的字符区域为斜体字符区域,则先对字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域,再对待识别字符区域进行字符识别。由于对字符区域进行的是减轻字符倾斜程度的校正处理,因此会减轻字符区域中字符的倾斜程度,使得斜体字符被校正为正常字符,从而应用上述各个实施例提供的方案、使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,能够提高对斜体字符进行字符识别的准确度。
与上述字符识别方法相对应,本申请实施例还提供了一种电子设备。
图5为本申请实施例提供的一种电子设备的结构示意图,该电子设备包括:处理器501和机器可读存储介质502,所述机器可读存储介质502存储有能够被所述处理器501执行的机器可执行指令,所述处理器501被所述机器可执行指令促使:实现本申请实施例所述的字符识别方法。
本申请的一个实施例中,提供了一种字符识别方法,所述方法包括:
判断图像的字符区域是否为斜体字符区域;
若为是,对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
对所述待识别字符区域中的字符进行字符识别。
需要说明的是,上述处理器501被机器可执行指令促使所实现的字符识别方法的其他实施例,与前述方法实施例部分所提及的实施例相同,这里不再赘述。
上述机器可读存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,上述机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由以上可见,本实施例提供的电子设备进行字符识别时,由于对图像的字符区域进行的是减轻字符倾斜程度的校正处理,因此会减轻字符区域中字符的倾斜程度,使得斜体字符被校正为正常字符,从而应用上述各个实施例提供的方案、使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,能够提高对斜体字符进行字符识别的准确度。
与上述字符识别方法相对应,本申请实施例还提供了一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现本申请实施例所述的字符识别方法。
本申请的一个实施例中,提供了一种字符识别方法,所述方法包括:
判断图像的字符区域是否为斜体字符区域;
若为是,对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
对所述待识别字符区域中的字符进行字符识别。
需要说明的是,上述机器可执行指令促使处理器实现的字符识别方法的其他实施例,与前述方法实施例部分所提及的实施例相同,这里不再赘述。
由以上可见,执行本实施例提供的机器可读存储介质中存储的机器可执行指令进行字符识别时,由于对图像的字符区域进行的是减轻字符倾斜程度的校正处理,因此会减轻字符区域中字符的倾斜程度,使得斜体字符被校正为正常字符,从而应用上述各个实施例提供的方案、使用包含正常字符的样本图像训练的字符识别模型进行字符识别时,能够提高对斜体字符进行字符识别的准确度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备和机器可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (10)
1.一种字符识别方法,其特征在于,所述方法包括:
判断图像的字符区域是否为斜体字符区域;
若为是,对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
对所述待识别字符区域中的字符进行字符识别;
所述判断图像的字符区域是否为斜体字符区域,包括:
统计图像的字符区域中纵向边缘像素点的第一数量,并统计所述字符区域中具有斜体字符特征的像素点的第二数量;
根据所述第一数量与第二预设阈值的乘积是否小于所述第二数量,判断所述字符区域是否为斜体字符区域。
2.根据权利要求1所述的方法,其特征在于,字符倾斜方向为:向字符右侧倾斜,图像的字符区域中纵向边缘像素点(x1,y1)满足以下表达式:
|gv1-gBkg|<GREY_THRESH且|gr1-gBkg|>GREY_THRESH
其中,gv1表示坐标为(x1,y1)的像素点的灰度值,gr1表示坐标为(x1+1,y1)的像素点的灰度值,gBkg表示所述字符区域中各像素点的灰度平均值,GREY_THRESH表示第一预设阈值;
所述字符区域中具有斜体字符特征的像素点(x2,y2)满足以下表达式:
|gv2-gBkg|<GREY_THRESH且|gr2-gBkg|>GREY_THRESH且|gb2-gr|<GREY_THRESH
其中,gv2表示坐标为(x2,y2)的像素点的灰度值,gr2表示坐标为(x2+1,y2)的像素点的灰度值,gb2表示坐标为(x2,y2+1)的像素点的灰度值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一数量与第二预设阈值的乘积是否小于所述第二数量,判断所述字符区域是否为斜体字符区域,包括:
判断所述第一数量与第二预设阈值的乘积是否小于所述第二数量;
若为是,判定所述字符区域为斜体字符区域;
若为否,判定所述字符区域不为斜体字符区域。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域,包括:
确定所述字符区域的字符行中每一像素点的校正像素值,其中,每一像素点的校正像素值为:从该像素点开始、沿字符倾斜方向偏移目标偏移量的像素点的像素值,所述目标偏移量为:根据表达式line/ITALIC_OFFUNIT计算得到的偏移量,line表示像素点所在的像素行在字符行所包含像素行中的行号,ITALIC_OFFUNIT表示第三预设阈值;
根据所述字符区域中每一像素点的校正像素值,获得对应的校正像素点,并根据所述字符区域中每一像素点对应的校正像素点,获得包含所述字符区域中所有像素点对应的校正像素点的待识别字符区域。
5.一种字符识别装置,其特征在于,所述装置包括:
区域判断模块,用于判断图像的字符区域是否为斜体字符区域,若为是,触发校正处理模块;
所述校正处理模块,用于对所述字符区域进行减轻字符倾斜程度的校正处理,获得待识别字符区域;
字符识别模块,用于对所述待识别字符区域中的字符进行字符识别;
所述区域判断模块,包括:
第一数量统计子模块,用于统计图像的字符区域中纵向边缘像素点的第一数量;
第二数量统计子模块,用于统计所述字符区域中具有斜体字符特征的像素点的第二数量;
区域判断子模块,用于根据所述第一数量与第二预设阈值的乘积是否小于所述第二数量,判断所述字符区域是否为斜体字符区域。
6.根据权利要求5所述的装置,其特征在于,字符倾斜方向为:向字符右侧倾斜,
图像的字符区域中纵向边缘像素点(x1,y1)满足以下表达式:
|gv1-gBkg|<GREY_THRESH且|gr1-gBkg|>GREY_THRESH
其中,gv1表示坐标为(x1,y1)的像素点的灰度值,gr1表示坐标为(x1+1,y1)的像素点的灰度值,gBkg表示所述字符区域中各像素点的灰度平均值,GREY_THRESH表示第一预设阈值;
所述字符区域中具有斜体字符特征的像素点(x2,y2)满足以下表达式:
统计所述字符区域中满足以下表达式的像素点数量,作为第二数量:
|gv2-gBkg|<GREY_THRESH且|gr2-gBkg|>GREY_THRESH且|gb2-gr|<GREY_THRESH
其中,gv2表示坐标为(x2,y2)的像素点的灰度值,gr2表示坐标为(x2+1,y2)的像素点的灰度值,gb2表示坐标为(x2,y2+1)的像素点的灰度值。
7.根据权利要求5所述的装置,其特征在于,
所述区域判断子模块,具体用于判断所述第一数量与第二预设阈值的乘积是否小于所述第二数量;若为是,判定所述字符区域为斜体字符区域;若为否,判定所述字符区域不为斜体字符区域。
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述校正处理模块,包括:
像素值确定子模块,用于确定所述字符区域的字符行中每一像素点的校正像素值,其中,每一像素点的校正像素值为:从该像素点开始、沿字符倾斜方向偏移目标偏移量的像素点的像素值,所述目标偏移量为:根据表达式line/ITALIC_OFFUNIT计算得到的偏移量,line表示像素点所在的像素行在字符行所包含像素行中的行号,ITALIC_OFFUNIT表示第三预设阈值;
区域获得子模块,用于根据所述字符区域中每一像素点的校正像素值,获得对应的校正像素点,并根据所述字符区域中每一像素点对应的校正像素点,获得包含所述字符区域中所有像素点对应的校正像素点的待识别字符区域。
9.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-4任一所述的方法步骤。
10.一种机器可读存储介质,其特征在于,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现权利要求1-4任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811125411.8A CN109308478B (zh) | 2018-09-26 | 2018-09-26 | 一种字符识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811125411.8A CN109308478B (zh) | 2018-09-26 | 2018-09-26 | 一种字符识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308478A CN109308478A (zh) | 2019-02-05 |
CN109308478B true CN109308478B (zh) | 2021-02-05 |
Family
ID=65224822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811125411.8A Active CN109308478B (zh) | 2018-09-26 | 2018-09-26 | 一种字符识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308478B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695557B (zh) * | 2019-08-30 | 2024-04-26 | 新华三信息安全技术有限公司 | 一种图像处理方法及装置 |
CN111914764B (zh) * | 2020-08-05 | 2023-09-15 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备和存储介质 |
CN111967459B (zh) * | 2020-10-21 | 2021-01-22 | 北京易真学思教育科技有限公司 | 模型训练方法、图像识别方法、装置、设备及存储介质 |
CN112749735B (zh) * | 2020-12-30 | 2023-04-07 | 中冶赛迪信息技术(重庆)有限公司 | 基于深度学习的转炉出钢钢流识别方法、系统、介质及终端 |
CN118470720B (zh) * | 2024-07-12 | 2024-09-20 | 成都阿加犀智能科技有限公司 | 点状喷码字符识别方法和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064008A (zh) * | 2006-04-29 | 2007-10-31 | 北大方正集团有限公司 | 一种印刷体斜体字符的识别方法 |
CN106650736A (zh) * | 2016-09-28 | 2017-05-10 | 浪潮软件集团有限公司 | 一种基于深度学习的汉字识别系统的实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6624120B2 (ja) * | 2017-02-27 | 2019-12-25 | 京セラドキュメントソリューションズ株式会社 | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 |
-
2018
- 2018-09-26 CN CN201811125411.8A patent/CN109308478B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101064008A (zh) * | 2006-04-29 | 2007-10-31 | 北大方正集团有限公司 | 一种印刷体斜体字符的识别方法 |
CN106650736A (zh) * | 2016-09-28 | 2017-05-10 | 浪潮软件集团有限公司 | 一种基于深度学习的汉字识别系统的实现方法 |
Non-Patent Citations (1)
Title |
---|
一种斜体印刷字倾斜角度检测算法;苏文珣等;《计算机仿真》;20090831;第365-368页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109308478A (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308478B (zh) | 一种字符识别方法及装置 | |
US9135489B2 (en) | System for decoding two dimensional code and method thereof | |
US9679388B2 (en) | Region segmentation apparatus and method | |
US8433104B2 (en) | Image processing method for background removal | |
CN104966092B (zh) | 一种图像处理方法和装置 | |
CN112001406B (zh) | 一种文本区域检测方法及装置 | |
CN111695554B (zh) | 一种文本矫正的方法、装置、电子设备和存储介质 | |
CN110413805B (zh) | 一种图像存储方法、装置、电子设备及存储介质 | |
CN111259878A (zh) | 一种检测文本的方法和设备 | |
CN112215856A (zh) | 图像分割的阈值确定方法、装置、终端及存储介质 | |
CN109729298B (zh) | 图像处理方法与图像处理装置 | |
CN114418869B (zh) | 一种文档图像几何校正方法、系统、装置及介质 | |
CN111767752B (zh) | 一种二维码识别方法及装置 | |
CN114494775A (zh) | 视频切分方法、装置、设备及存储介质 | |
CN109785380B (zh) | 一种内切圆确定方法及装置 | |
CN108921869B (zh) | 一种图像二值化方法及装置 | |
CN112766256B (zh) | 光栅相位图处理方法、装置、电子设备及存储介质 | |
CN114140336B (zh) | 一种基于红外图像的坏点处理方法及装置 | |
CN112529923B (zh) | 一种控件识别方法及装置 | |
CN112580638B (zh) | 文本检测方法、装置、存储介质及电子设备 | |
CN111860492B (zh) | 一种车牌倾斜矫正方法、装置、计算机设备和存储介质 | |
CN114387217A (zh) | 一种类圆形重叠目标的分割方法、系统、装置及存储介质 | |
CN114140362A (zh) | 一种热成像图像校正方法和装置 | |
CN111695557B (zh) | 一种图像处理方法及装置 | |
CN114648751A (zh) | 一种处理视频字幕的方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |