CN108304839B - 一种图像数据处理方法以及装置 - Google Patents
一种图像数据处理方法以及装置 Download PDFInfo
- Publication number
- CN108304839B CN108304839B CN201710770911.6A CN201710770911A CN108304839B CN 108304839 B CN108304839 B CN 108304839B CN 201710770911 A CN201710770911 A CN 201710770911A CN 108304839 B CN108304839 B CN 108304839B
- Authority
- CN
- China
- Prior art keywords
- pixel
- identified
- points
- arc
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像数据处理方法以及装置,其中方法包括:获取目标图像,并生成目标图像对应的单色分量图像;根据每个单色分量图像中的角点和端点,在目标图像中划分待识别区域;基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。采用本发明,可降低识别文字区域的实现成本,且可以降低网络流量的消耗。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像数据处理方法以及装置。
背景技术
目前对图片中的文字区域进行识别的方案通常为:手机拍摄一张包含文字内容的图片,并将该图片发送至云端服务器,由云端服务器对该图片进行深度学习检测,以识别出该图片中的文字区域。这种方式虽然可以准确识别出图片中的文字区域,但是云端服务器所使用的是复杂的层级较多的深度学习技术,即对设备的计算能力要求较高,所以若将这种深度学习技术应用在大多数手机上,将会因大多数手机的计算能力而导致无法达到实时性要求,因此,需要通过部署云端服务器才能实现这种深度学习技术,进而提高了实现成本;而且由于手机须将图片发送至云端服务器,且由云端服务器再将识别结果返回手机,所以若有较多图片需要进行文字区域识别,则可能会大大增加网络流量的消耗。
发明内容
本发明实施例提供一种图像数据处理方法以及装置,可降低识别文字区域的实现成本,且可以降低网络流量的消耗。
本发明实施例的一方面提供了一种图像数据处理方法,包括:
获取目标图像,并生成所述目标图像对应的单色分量图像;
根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
其中,所述根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域,包括:
识别每个单色分量图像中的角点和端点;
将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域。
其中,所述识别每个单色分量图像中的角点和端点,包括:
分别以所述每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的像素点与各对应的圆心的像素差值;
根据所述像素差值识别所述每个单色分量图像中的角点和端点。
其中,所述根据所述像素差值识别所述每个单色分量图像中的角点和端点,包括:
统计各圆弧上的像素差值的绝对值大于第一预设像素阈值的像素点数量,作为差异像素点数量;
将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点,并基于非极大值抑制算法在所述第一待识别像素点中筛选出至少一个第二待识别像素点;
在所述至少一个第二待识别像素点中识别角点和端点。
其中,所述在所述至少一个第二待识别像素点中识别角点和端点,包括:
在以各第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量;
将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点;
将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。
其中,还包括:
获取样本图像;所述样本图像包括字符类型的文字,且一个样本图像包括一种字符类型的文字;
对所述样本图像中的文字区域进行标记,并将标记后的样本图像作为深度学习模型的输入值;
根据所述标记后的样本图像对所述深度学习模型中的模型参数进行训练;
将包含训练后的模型参数的深度学习模型确定为用于识别图片中的文字区域的分类器。
其中,所述基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域,包括:
将每个待识别区域输入至分类器的输入层,并根据所述分类器中的训练后的模型参数计算所述每个待识别区域分别对应的区域图像特征,并计算各区域图像特征分别对应的文字识别概率;
将所述每个待识别区域分别对应的文字识别概率输入至所述分类器的输出层,并对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率;
将所述目标文字识别概率对应的待识别区域确定为文字区域。
其中,还包括:
计算所述文字区域在所述目标图像中的位置坐标,以便于后续根据所述文字区域分别对应的位置坐标进行文字识别。
本发明实施例的另一方面提供了一种图像数据处理装置,包括:
分量获取模块,用于获取目标图像,并生成所述目标图像对应的单色分量图像;
划分模块,用于根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
区域识别模块,用于基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
其中,所述划分模块包括:
特征识别单元,用于识别每个单色分量图像中的角点和端点;
划分单元,用于将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域。
其中,所述特征识别单元包括:
差值计算子单元,用于分别以所述每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的像素点与各对应的圆心的像素差值;
特征识别子单元,用于根据所述像素差值识别所述每个单色分量图像中的角点和端点。
其中,所述特征识别子单元包括:
统计子单元,用于统计各圆弧上的像素差值的绝对值大于第一预设像素阈值的像素点数量,作为差异像素点数量;
筛选子单元,用于将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点,并基于非极大值抑制算法在所述第一待识别像素点中筛选出至少一个第二待识别像素点;
特征点识别子单元,用于在所述至少一个第二待识别像素点中识别角点和端点。
其中,所述特征点识别子单元,具体用于在以各第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量,并将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点,并将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。
其中,还包括:
样本获取模块,用于获取样本图像;一个样本图像包括一种字符类型的文字;
标记模块,用于对所述样本图像中的文字区域进行标记,并将标记后的样本图像作为深度学习模型的输入值;
训练模块,用于根据所述标记后的样本图像对所述深度学习模型中的模型参数进行训练;
模型确定模块,用于将包含训练后的模型参数的深度学习模型确定为用于识别图片中的文字区域的分类器。
其中,所述区域识别模块包括:
概率计算单元,用于将每个待识别区域输入至分类器的输入层,并根据所述分类器中的训练后的模型参数计算所述每个待识别区域分别对应的区域图像特征,并计算各区域图像特征分别对应的文字识别概率;
排序选择单元,用于将所述每个待识别区域分别对应的文字识别概率输入至所述分类器的输出层,并对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率;
区域确定单元,用于将所述目标文字识别概率对应的待识别区域确定为文字区域。
其中,还包括:
坐标计算模块,用于计算所述文字区域在所述目标图像中的位置坐标,以便于后续根据所述文字区域分别对应的位置坐标进行文字识别。
本发明实施例的另一方面提供了一种图像数据处理装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行以下操作:
获取目标图像,并生成所述目标图像对应的单色分量图像;
根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
本发明实施例的另一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述处理器执行所述程序指令时执行本发明实施例中的图像数据处理方法方法。
本发明实施例通过生成目标图像对应的单色分量图像,并根据每个单色分量图像中的角点和端点,在目标图像中划分待识别区域,并基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。由于识别角点和端点的过程和计算文字识别概率的过程均可以在大多数用户终端中实现,所以本发明实施例无需部署云端服务器即可在用户终端侧完成对文字区域的准确识别,从而降低了实现成本,而且也避免了与云端服务器进行数据传输,从而降低了网络流量的消耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像数据处理方法的流程示意图;
图1a是本发明实施例提供的一种角点和端点的叠加过程示意图;
图2是本发明实施例提供的另一种图像数据处理方法的流程示意图;
图3是本发明实施例提供的一种识别第一待识别像素点的界面示意图;
图4是本发明实施例提供的一种识别文字区域的界面示意图;
图5是本发明实施例提供的一种图像数据处理装置的结构示意图;
图6是本发明实施例提供的一种划分模块的结构示意图;
图7是本发明实施例提供的一种区域识别模块的结构示意图;
图8是本发明实施例提供的另一种图像数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种图像数据处理方法,所述方法可以应用于识别图片中的文字区域的场景,即所述方法可以应用于需要识别图片中的文字区域的用户终端或应用程序中。所述用户终端可以包括计算机、平板电脑、智能手机、笔记本电脑、掌上电脑、数字电视以及移动互联网设备(MID)等终端设备,或者可以为所述终端设备中的客户端,所述用户终端也可以包括智能终端(例如,智能手表、智能眼镜、虚拟现实设备等智能终端)。例如,可以将所述方法应用于翻译软件中,即首先拍一张照片,再通过所述方法检测照片里面文字区域,进而识别文字区域中的文字,最后再对其进行翻译。又例如,可以将所述方法应用于电视设备,以实现电视字幕翻译功能,即首先输入一帧视频(一帧视频即为一张图像),然后通过所述方法检测该帧视频中的文字区域,进而可以对文字区域内的文字进行翻译。又例如,可以将所述方法应用于广告敏感词过滤软件,即首先获取广告中的图片,然后通过所述方法检测图片中的文字区域,进而可以对文字区域中的文字进行识别,以将所识别出的敏感词过滤。又例如,可以将所述方法应用于教育产品软件中,即首先拍摄一张包含题目的图片,然后通过所述方法检测图片中的文字区域,进而可以对文字区域中的文字进行识别,以识别出题目内容,最后再为该题目匹配解题方案。其中,所述方法的具体实现方式(即检测图片中的文字区域的具体实现方式)可以参见下面图1-图2对应实施例的描述。
请参见图1,是本发明实施例提供的一种图像数据处理方法的流程示意图,所述方法可以包括:
S101,获取目标图像,并生成所述目标图像对应的单色分量图像;
具体的,用户终端可以通过摄像头采集目标图像,所述用户终端也可以通过互联网从服务器获取目标图像(即所述目标图像预先存储于所述服务器中)。所述用户终端可以包括计算机、平板电脑、智能手机、笔记本电脑、掌上电脑、数字电视以及移动互联网设备(MID)等终端设备,或者可以为所述终端设备中的客户端。所述目标图像可以为至少包含文字内容的图像,且所述目标图像可以为RGB(red、green、blue,红、绿、蓝)图像,即所述目标图像中的每个像素点的像素值均为RGB值。
所述用户终端可以进一步生成所述目标图像对应的多个单色分量图像,所述多个单色分量图像可以包括红色分量图像、绿色分量图像、蓝色分量图像、灰度图像。其中,所述红色分量图像的生成过程可以为:在所述目标图像中的每个像素点的像素值(即RGB值)中提取R分量值(即RGB值中的红色分量值),并将所述目标图像中的每个像素点的像素值分别更新为对应的R分量值,即可生成所述红色分量图像,即所述红色分量图像中的每个像素点的像素值均为R分量值。其中,所述绿色分量图像的生成过程可以为:在所述目标图像中的每个像素点的像素值(即RGB值)中提取G分量值(即RGB值中的绿色分量值),并将所述目标图像中的每个像素点的像素值分别更新为对应的G分量值,即可生成所述绿色分量图像,即所述绿色分量图像中的每个像素点的像素值均为G分量值。其中,所述蓝色分量图像的生成过程可以为:在所述目标图像中的每个像素点的像素值(即RGB值)中提取B分量值(即RGB值中的蓝色分量值),并将所述目标图像中的每个像素点的像素值分别更新为对应的B分量值,即可生成所述蓝色分量图像,即所述蓝色分量图像中的每个像素点的像素值均为B分量值。
其中,所述目标图像对应的灰度图像可以通过所述目标图像中的每个像素点的RGB值计算得到,即计算所述目标图像中的每个像素点的RGB值分别对应的灰度值,并将所述目标图像中的每个像素点的像素值分别更新为对应的灰度值,即可生成所述灰度图像,即所述灰度图像中的每个像素点的像素值均为灰度值。
S102,根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
具体的,所述用户终端可以识别每个单色分量图像中的角点和端点;每个单色分量图像中的角点和端点均为图像特征点,所述角点可以是指多条线段的相交点,所述端点可以是指仅与一条线段相连的端点。所述每个单色分量图像中的角点和端点均可以用于描述各自的单色分量图像中的字符、图案的大致轮廓。
进一步的,通过将各单色分量图像与所述目标图像重合,即可将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,得到所述目标图像上的大部分角点和端点,进而可以根据叠加后的角点和端点在所述目标图像中划分多个待识别区域。通过叠加所述每个单色分量图像中的角点和端点,可以避免部分角点和端点的漏识别,以保证可以识别出所述目标图像中的大部分角点和端点。由于基于角点和端点所构成的轮廓可以划分出多个待识别区域,所以若识别出的角点和端点的数量越多,则对所述目标图像中的字符、图案的轮廓描述越准确,进而所划分出的多个待识别区域也越准确。例如,所述目标图像中的上半部分包含一行文字、下半部分包含一朵花的图案,则可以识别出该行文字中每个字符的角点和端点,并可以识别出图案为花的角点和端点,并可以基于每个字符的角点和端点将该行文字所在区域确定为待识别区域,并可以基于图案为花的角点和端点将该图案所在区域确定为待识别区域,即从所述目标图像中划分出了2个待识别区域。
进一步的,请一并参见图1a,是本发明实施例提供的一种角点和端点的叠加过程示意图。如图1a所示,目标图像500a包含字符“V W T”,根据目标图像500a可以生成对应的三个单色分量图像,分别为图1a中的红色分量图像600a、绿色分量图像600b、蓝色分量图像600c。如图1a所示,红色分量图像600a、绿色分量图像600b、蓝色分量图像600c均包含有所能够识别出的角点a和端点b,其中,由于红色分量图像600a、绿色分量图像600b、蓝色分量图像600c中的像素值不同,所以所识别出的角点a和端点b可以不同,且由于通过一个单色分量图像不一定可以识别出目标图像500a中的所有角点a和端点b,所以可以通过叠加各单色分量图像中的角点a和端点b以尽可能识别出目标图像500a中的所有角点a和端点b。如图1a所示,将目标图像500a与红色分量图像600a进行重合,可以将红色分量图像600a中的角点a和端点b叠加到目标图像500a中,即得到目标图像500b;再将目标图像500b与绿色分量图像600b进行重合,以将绿色分量图像600b中的角点a和端点b进一步叠加到目标图像500b中,以得到目标图像500c,可见目标图像500c的角点a和端点b要比目标图像500b的角点a和端点b多;再将目标图像500c与蓝色分量图像600c进行重合,以将蓝色分量图像600c中的角点a和端点b进一步叠加到目标图像500c中,以得到目标图像500d,可见目标图像500d已包含所有的角点a和端点b。本发明实施例不对单色分量图像的叠加顺序进行限定,即可以先叠加任意的单色分量图像的角点和端点,或者也可以同时将各单色分量图像的角点和端点都叠加到目标图像中。
S103,基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域;
具体的,所述分类器可以为CNN(Convolutional Neural Network,卷积神经网络)分类器,所述分类器可以是基于包含文字区域的多个样本图像训练得到,不同样本图像中的文字区域所包含的字符的类型可以互不相同,因此,所述分类器可以得知包含各种类型的字符的文字区域所对应的文字特征。因此,所述用户终端划分出多个待识别区域后,可以通过所述分类器分别计算各待识别区域的区域图像特征,并在所述分类器中将各待识别区域的区域图像特征与各文字特征进行匹配,并根据匹配程度计算出各待识别区域分别对应的文字识别概率。例如,某待识别区域的区域图像特征与中文类型的文字特征十分匹配,则所计算出的该待识别区域对应的文字识别概率就会比较高;某待识别区域的区域图像特征与各文字特征都不匹配,则所计算出的该待识别区域对应的文字识别概率就会比较低。所述分类器可以为层级较少的CNN分类器,因此,所述用户终端在运行所述分类器时,可以保证实时性要求。
进一步的,所述用户终端还可以将所述文字识别概率大于预设概率阈值的待识别区域确定为文字区域。在所述目标图像中识别出文字区域后,可以进一步计算各文字区域在所述目标图像中的位置坐标,以便于后续根据所述各文字区域分别对应的位置坐标对各文字区域进行文字识别。
本发明实施例通过生成目标图像对应的单色分量图像,并根据每个单色分量图像中的角点和端点,在目标图像中划分待识别区域,并基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。由于识别角点和端点的过程和计算文字识别概率的过程均可以在大多数用户终端中实现,所以本发明实施例无需部署云端服务器即可在用户终端侧完成对文字区域的准确识别,从而降低了实现成本,而且也避免了与云端服务器进行数据传输,从而降低了网络流量的消耗。
请参见图2,是本发明实施例提供的另一种图像数据处理方法的流程示意图,所述方法可以包括:
S201,获取目标图像,并生成所述目标图像对应的单色分量图像;
其中,S201步骤的具体实现方式可以参见上述图1对应实施例中的S101,这里不再进行赘述。
S202,分别以所述每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的像素点与各对应的圆心的像素差值;
具体的,以所述目标分量图像中的其中一个像素点p为例,以该像素点p为圆心设置半径为3个像素点的圆,因此,圆弧可以经过16个像素点,并分别计算圆弧上的16个像素点的像素值与该像素点p的像素值的差值,即可得到该像素点p对应的16个像素差值。同样的,对于所述目标分量图像中的其他像素点,也可以设置相同半径(如半径为3个像素点)的圆,以计算得到各像素点分别对应的多个像素差值。进一步的,可以根据所述像素差值识别所述每个单色分量图像中的角点和端点。其中,根据所述像素差值识别所述每个单色分量图像中的角点和端点的具体过程可以参见以下S203-S205的步骤。
S203,统计各圆弧上的像素差值的绝对值大于第一预设像素阈值的像素点数量,作为差异像素点数量;
例如,若某圆弧上有16个像素点,且16个像素点中有9个像素点与该圆弧的圆心之间的像素差值的绝对值均大于所述第一预设像素阈值,则可以确定该圆弧上的差异像素点数量为9。同样的,可以统计出所述目标分量图像中各像素点分别对应的圆弧上的差异像素点数量。
S204,将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点,并基于非极大值抑制算法在所述第一待识别像素点中筛选出至少一个第二待识别像素点;
具体的,所述用户终端可以进一步将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点。例如,若所述第一预设数量阈值为9,且以像素点p为圆心的圆弧上的差异像素点数量为10,则可以将该像素点p确定为第一待识别像素点。因此,基于所述第一预设数量阈值可以在所述目标分量图像中筛选出多个第一待识别像素点。
进一步的,所述用户终端还可以基于非极大值抑制算法在所述多个第一待识别像素点中筛选出至少一个第二待识别像素点。其中,基于所述非极大值抑制算法进行筛选的具体过程可以为:以像素点b为第一待识别像素点为例,检测以像素点b为中心的邻域(如该邻域可以是:边长为n个像素点的正方形)内是否还有其他的第一待识别像素点;若检测出该邻域内只有像素点b是第一待识别像素点,则可以确定像素点b是第二待识别像素点;若检测出该邻域内还有像素点c、像素点d也为第一待识别像素点,则可以通过计算以像素点b为圆心的圆弧上的各像素点分别与像素点b之间的像素差值的绝对值的总和,得到像素点b的得分值,同理可计算出像素点c的得分值和像素点d的得分值,并进一步判断像素点b的得分值是否比像素点c的得分值和像素点d的得分值都大,若像素点b的得分值最大,则可以确定像素点b是第二待识别像素点,否则确定像素点b不为第二待识别像素点。以此类推,基于所述非极大值抑制算法可以确定所述目标分量图像中的各第一待识别像素点是否为第二待识别像素点,即可以在所述多个第一待识别像素点中筛选出至少一个第二待识别像素点。
可选的,为了进一步提高对第一待识别像素点的选择效率,可以在S203中的分别计算各圆弧上的像素点与各对应的圆心的像素差值的步骤之前,可以先计算各圆弧上的第一指定位置上的像素点与各对应的圆心的像素差值,若某圆弧对应的各像素差值的绝对值都小于或等于所述第一预设像素阈值,则可以确定该圆弧的圆心不属于第一待识别像素点,若该圆弧对应的各像素差值的绝对值都大于所述第一预设像素阈值,则可以进一步计算该圆弧上的第二指定位置上的像素点与各对应的圆心的像素差值,若该圆弧对应的各像素差值的绝对值大于所述第一预设像素阈值的像素点数量大于某数量阈值,则可以继续执行S203中的计算该圆弧上的像素点与对应的圆心的像素差值的步骤,否则确定该圆弧的圆心不属于第一待识别像素点。其中,第一指定位置上的像素点可以指与圆心呈上下位置关系的两个像素点,第二指定位置上的像素点可以指与圆心呈左右位置关系的两个像素点,因此,通过对第一指定位置和第二指定位置的像素点进行判断,可以提前将一些明显不属于第一待识别像素点的像素点过滤掉,避免对每个圆弧上的所有像素点都进行计算,从而提高了对第一待识别像素点的选择效率。
进一步的,请一并参见图3,是本发明实施例提供的一种识别第一待识别像素点的界面示意图。在图3中,以识别像素点P是否为第一待识别像素点为例,先以像素点P为圆心、以3个像素点为半径画圆(即图3中的虚线圆弧),其中,虚线圆弧上有16个像素点,分别为像素点1至像素点16;再分别计算像素点1和像素点9(即第一指定位置上的像素点)与像素点P之间的像素差值,若像素点1和像素点9与像素点P之间的像素差值的绝对值都大于所述预设像素阈值,则可以进一步计算像素点5和像素点13(即第二指定位置上的像素点)与像素点P之间的像素差值,否则确定像素点P不属于第一待识别像素点。若像素点1、像素点9、像素点5以及像素点13中有至少3个像素点对应的像素差值的绝对值大于所述预设像素阈值,则可以进一步计算虚线圆弧上剩下的所有像素点分别与像素点P之间的像素差值,否则确定像素点P不属于第一待识别像素点。若像素点1至像素点16中有至少9个像素点对应的像素差值的绝对值大于所述预设像素阈值,则确定像素点P为第一待识别像素点,否则确定像素点P不属于第一待识别像素点。
S205,在所述至少一个第二待识别像素点中识别角点和端点;
具体的,所述用户终端可以进一步在以各第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量;进而可以将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点,并将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。以像素点P为例,若像素点P为第二待识别像素点,则可以进一步在以像素点P为圆心的圆弧上统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量(即相似像素点数量),其中,所述第二预设数量阈值为1;若像素点P对应的相似像素点数量为2(或大于2),则可以确定像素点P为角点;若像素点P对应的相似像素点为1,则可以确定像素点P为端点。
S206,将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域;
具体的,所述每个单色分量图像中的角点和端点均可以用于描述各自的单色分量图像中的字符、图案的大致轮廓。进一步的,所述用户终端通过将各单色分量图像与所述目标图像重合,即可将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,得到所述目标图像上的大部分角点和端点,进而可以根据叠加后的角点和端点在所述目标图像中划分多个待识别区域。通过叠加所述每个单色分量图像中的角点和端点,可以避免部分角点和端点的漏识别,以保证可以识别出所述目标图像中的大部分角点和端点。由于基于角点和端点所构成的轮廓可以划分出多个待识别区域,所以若识别出的角点和端点的数量越多,则对所述目标图像中的字符、图案的轮廓描述越准确,进而所划分出的多个待识别区域也越准确。例如,所述目标图像中的上半部分包含一行文字、下半部分包含一朵花的图案,则可以识别出该行文字中每个字符的角点和端点,并可以识别出图案为花的角点和端点,并可以基于每个字符的角点和端点将该行文字所在区域确定为待识别区域,并可以基于图案为花的角点和端点将该图案所在区域确定为待识别区域,即从所述目标图像中划分出了2个待识别区域。
S207,将每个待识别区域输入至分类器的输入层,并根据所述分类器中的训练后的模型参数计算所述每个待识别区域分别对应的区域图像特征,并计算各区域图像特征分别对应的文字识别概率;
具体的,在S201步骤之前,所述用户终端还可以获取多个样本图像;所述多个样本图像包括多个字符类型的文字,且一个样本图像包括一种字符类型的文字,例如,样本图像可以包括文字0-9或a-z或A-Z。所述用户终端可以进一步对各样本图像中的文字区域进行标记,并将标记后的各样本图像作为深度学习模型的输入值,并根据所述标记后的各样本图像对所述深度学习模型中的多个模型参数进行训练,将包含训练后的各模型参数的深度学习模型确定为用于识别图片中的文字区域的分类器。所述分类器可以为CNN分类器,所述分类器可以包括输入层、多个卷积层、多个pool层、全连接层、输出层,其中,主要通过多个卷积层和多个pool层对所述多个样本图像进行训练,得到训练后的多个模型参数。因此,所述分类器可以得知包含各种类型的字符的文字区域所对应的文字特征。可选的,也可以将训练所述分类器的过程放在服务器侧执行,即服务器可以预先训练出所述分类器,并将训练后的所述分类器发送给所述用户终端;或者,服务器也可以将训练后的所述分类器封装在用于识别文字区域的应用程序中,使得所述用户终端下载并安装该应用程序后,即可得到训练后的所述分类器。所述分类器可以为层级较少的CNN分类器,因此,所述用户终端在运行所述分类器时,可以保证实时性要求。
进一步的,在S207步骤之后,所述用户终端可以将各待识别区域输入至所述分类器的输入层,并根据所述分类器中的训练后的各模型参数计算所述各待识别区域分别对应的区域图像特征。由于所述分类器包含已训练出的各种类型的字符的文字区域所对应的文字特征,所以可以在所述分类器中将各待识别区域的区域图像特征与各文字特征进行匹配,并根据匹配程度计算出各待识别区域分别对应的文字识别概率。例如,某待识别区域的区域图像特征与中文类型的文字特征十分匹配,则所计算出的该待识别区域对应的文字识别概率就会比较高;某待识别区域的区域图像特征与各文字特征都不匹配,则所计算出的该待识别区域对应的文字识别概率就会比较低。
S208,将所述每个待识别区域分别对应的文字识别概率输入至所述分类器的输出层,并对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率;
具体的,在所述分类器中,所述各待识别区域分别对应的文字识别概率将会被输入至所述分类器的输出层,进而所述用户终端可以对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率。
S209,将所述目标文字识别概率对应的待识别区域确定为文字区域。
可选的,在所述目标图像中识别出文字区域后,所述用户终端还可以进一步计算各文字区域在所述目标图像中的位置坐标,以便于后续根据所述各文字区域分别对应的位置坐标对各文字区域进行文字识别。
进一步的,请一并参见图4,是本发明实施例提供的一种识别文字区域的界面示意图。所示图4包括目标图像100,所述目标图像100中的图像内容包括“一支笔”的图案、字符“V W T E A F”。如图4所示,所述用户终端可以进一步识别出“一支笔”的图案上的多个角点a,并识别出字符“V W T E A F”中每个字符上的角点a和端点b,进而可以根据所识别出的角度a和端点b在所述目标图像100中划分出包含“一支笔”的图案的待识别区域200,并划分出包含“V W T”字符的待识别区域300,并划分出包含“E A F”字符的待识别区域400。进一步的,所述用户终端可以基于所述分类器计算待识别区域200、待识别区域300、待识别区域400分别对应的文字识别概率;其中,待识别区域200对应的文字识别概率小于所述预设概率阈值,所以可以确定待识别区域200不是文字区域;其中,待识别区域300和待识别区域400分别对应的文字识别概率均大于所述预设概率阈值,所以可以确定待识别区域300和待识别区域400均为文字区域。
本发明实施例通过生成目标图像对应的单色分量图像,并根据每个单色分量图像中的角点和端点,在目标图像中划分待识别区域,并基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。由于识别角点和端点的过程和计算文字识别概率的过程均可以在大多数用户终端中实现,所以本发明实施例无需部署云端服务器即可在用户终端侧完成对文字区域的准确识别,从而降低了实现成本,而且也避免了与云端服务器进行数据传输,从而降低了网络流量的消耗。
请参见图5,是本发明实施例提供的一种图像数据处理装置的结构示意图。所述图像数据处理装置2可以应用于上述图1或图2对应实施例中的用户终端,所述图像数据处理装置2可以包括:分量获取模块21、划分模块22、区域识别模块23;
所述分量获取模块21,用于获取目标图像,并生成所述目标图像对应的单色分量图像;
所述划分模块22,用于根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
所述区域识别模块23,用于基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域;
其中,所述分量获取模块21、所述划分模块22、所述区域识别模块23的具体功能实现方式可以参见上述图1对应实施例中的S101-S103,这里不再进行赘述。
可选的,如图5所示,所述图像数据处理装置2还可以进一步包括:样本获取模块24、标记模块25、训练模块26、模型确定模块27、坐标计算模块28;
所述样本获取模块24,用于获取样本图像;一个样本图像包括一种字符类型的文字;
所述标记模块25,用于对所述样本图像中的文字区域进行标记,并将标记后的样本图像作为深度学习模型的输入值;
所述训练模块26,用于根据所述标记后的样本图像对所述深度学习模型中的模型参数进行训练;
所述模型确定模块27,用于将包含训练后的模型参数的深度学习模型确定为用于识别图片中的文字区域的分类器;
其中,所述分类器可以为CNN分类器,所述分类器可以包括输入层、多个卷积层、多个pool层、全连接层、输出层,其中,主要通过多个卷积层和多个pool层对所述多个样本图像进行训练,得到训练后的多个模型参数。因此,所述分类器可以得知包含各种类型的字符的文字区域所对应的文字特征。可选的,也可以将所述样本获取模块24、所述标记模块25、所述训练模块26、所述模型确定模块27所执行的功能(即训练所述分类器的过程)放在服务器侧执行,即服务器可以预先训练出所述分类器,并将训练后的所述分类器发送给所述用户终端;或者,服务器也可以将训练后的所述分类器封装在用于识别文字区域的应用程序中,使得所述用户终端下载并安装该应用程序后,即可得到训练后的所述分类器。所述分类器可以为层级较少的CNN分类器,因此,所述用户终端在运行所述分类器时,可以保证实时性要求。
所述坐标计算模块28,用于计算所述文字区域在所述目标图像中的位置坐标,以便于后续根据所述文字区域分别对应的位置坐标进行文字识别。
进一步的,请一并参见图6,是本发明实施例提供的一种划分模块22的结构示意图,所述划分模块22可以包括:特征识别单元221、划分单元222;
所述特征识别单元221,用于识别每个单色分量图像中的角点和端点;
所述划分单元222,用于将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域。
其中,所述划分单元222的具体功能实现方式可以参见上述图2对应实施例中的S206,这里不再进行赘述。
进一步的,如图6所示,所述特征识别单元221可以包括:差值计算子单元2212、特征识别子单元2211;
所述差值计算子单元2212,用于分别以所述每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的像素点与各对应的圆心的像素差值;
所述差值计算子单元2212的具体功能实现方式可以参见上述图2对应实施例中的S202,这里不再进行赘述。
所述特征识别子单元2211,用于根据所述像素差值识别所述每个单色分量图像中的角点和端点;
进一步的,如图6所示,所述特征识别子单元2211可以包括:统计子单元22111、筛选子单元22112、特征点识别子单元22113;
所述统计子单元22111,用于统计各圆弧上的像素差值的绝对值大于第一预设像素阈值的像素点数量,作为差异像素点数量;
所述筛选子单元22112,用于将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点,并基于非极大值抑制算法在所述第一待识别像素点中筛选出至少一个第二待识别像素点;
所述特征点识别子单元22113,用于在所述至少一个第二待识别像素点中识别角点和端点;
其中,所述特征点识别子单元22113,具体用于在以各第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量,并将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点,并将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。
其中,所述统计子单元22111、所述筛选子单元22112、所述特征点识别子单元22113的具体功能实现方式可以参见上述图2对应实施例中的S203-S205,这里不再进行赘述。
进一步的,请一并参见图7,是本发明实施例提供的一种区域识别模块23的结构示意图,所述区域识别模块23可以包括:概率计算单元231、排序选择单元232、区域确定单元233;
所述概率计算单元231,用于将每个待识别区域输入至分类器的输入层,并根据所述分类器中的训练后的模型参数计算所述每个待识别区域分别对应的区域图像特征,并计算各区域图像特征分别对应的文字识别概率;
所述排序选择单元232,用于将所述每个待识别区域分别对应的文字识别概率输入至所述分类器的输出层,并对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率;
所述区域确定单元233,用于将所述目标文字识别概率对应的待识别区域确定为文字区域。
其中,所述概率计算单元231、所述排序选择单元232、所述区域确定单元233的具体功能实现方式可以参见上述图2对应实施例中的S207-S209,这里不再进行赘述。
本发明实施例通过生成目标图像对应的单色分量图像,并根据每个单色分量图像中的角点和端点,在目标图像中划分待识别区域,并基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。由于识别角点和端点的过程和计算文字识别概率的过程均可以在大多数用户终端中实现,所以本发明实施例无需部署云端服务器即可在用户终端侧完成对文字区域的准确识别,从而降低了实现成本,而且也避免了与云端服务器进行数据传输,从而降低了网络流量的消耗。
请参见图8,是本发明实施例提供的另一种图像数据处理装置的结构示意图。如图8所示,所述图像数据处理装置1000可以应用于上述图1或图2对应实施例中的用户终端,所述图像数据处理装置1000可以包括:处理器1001、网络接口1004、存储器1005,此外,所述图像数据处理装置1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的图像数据处理装置1000中,所述网络接口1004用于与服务器进行通信,以从服务器获取目标图像(或者所述图像数据处理装置1000也可以在本地存储库中获取目标图像);而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标图像,并生成所述目标图像对应的单色分量图像;
根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
在一个实施例中,所述处理器1001在执行根据每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域时,可以具体执行以下步骤:
识别每个单色分量图像中的角点和端点;
将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域。
在一个实施例中,所述处理器1001在执行识别每个单色分量图像中的角点和端点时,可以具体执行以下步骤:
分别以所述每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的像素点与各对应的圆心的像素差值;
根据所述像素差值识别所述每个单色分量图像中的角点和端点。
在一个实施例中,所述处理器1001在执行根据所述像素差值识别所述每个单色分量图像中的角点和端点时,可以具体执行以下步骤:
统计各圆弧上的像素差值的绝对值大于第一预设像素阈值的像素点数量,作为差异像素点数量;
将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点,并基于非极大值抑制算法在所述第一待识别像素点中筛选出至少一个第二待识别像素点;
在所述至少一个第二待识别像素点中识别角点和端点。
在一个实施例中,所述处理器1001在执行在所述至少一个第二待识别像素点中识别角点和端点时,可以具体执行以下步骤:
在以各第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量;
将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点;
将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。
在一个实施例中,所述处理器1001还可以执行以下步骤:
获取样本图像;所述样本图像包括字符类型的文字,且一个样本图像包括一种字符类型的文字;
对所述样本图像中的文字区域进行标记,并将标记后的样本图像作为深度学习模型的输入值;
根据所述标记后的样本图像对所述深度学习模型中的模型参数进行训练;
将包含训练后的模型参数的深度学习模型确定为用于识别图片中的文字区域的分类器。
在一个实施例中,所述处理器1001在执行基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域时,可以具体执行以下步骤:
将每个待识别区域输入至分类器的输入层,并根据所述分类器中的训练后的模型参数计算所述每个待识别区域分别对应的区域图像特征,并计算各区域图像特征分别对应的文字识别概率;
将所述每个待识别区域分别对应的文字识别概率输入至所述分类器的输出层,并对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率;
将所述目标文字识别概率对应的待识别区域确定为文字区域。
在一个实施例中,所述处理器1001还可以执行以下步骤:
计算所述文字区域在所述目标图像中的位置坐标,以便于后续根据所述文字区域分别对应的位置坐标进行文字识别。
本发明实施例通过生成目标图像对应的单色分量图像,并根据每个单色分量图像中的角点和端点,在目标图像中划分待识别区域,并基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据文字识别概率在待识别区域中识别文字区域。由于识别角点和端点的过程和计算文字识别概率的过程均可以在大多数用户终端中实现,所以本发明实施例无需部署云端服务器即可在用户终端侧完成对文字区域的准确识别,从而降低了实现成本,而且也避免了与云端服务器进行数据传输,从而降低了网络流量的消耗。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的图像数据处理装置2所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图1或图2所对应实施例中对所述图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (15)
1.一种图像数据处理方法,其特征在于,包括:
获取目标图像,并生成所述目标图像对应的单色分量图像;
分别以每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的第一指定位置上的像素点与各对应的圆心的像素差值;所述各圆弧上的第一指定位置上的像素点基于各对应的圆心成对称分布;
若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值大于第一预设像素阈值的圆弧,则统计所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量;所述圆弧上的第二指定位置上的像素点基于对应的圆心成对称分布,且所述圆弧上的第二指定位置上的像素点与所述圆弧上的第一指定位置上的像素点基于对应的圆心成均匀分布;
若统计到的像素点数量与所述圆弧上的第一指定位置上的像素点的数量之和大于数量阈值,则根据所述圆弧上的像素点与对应的圆心的像素差值,确定所述每个单色分量图像中的第一待识别像素点;
基于非极大值抑制算法,在所述第一待识别像素点中筛选出所述每个单色分量图像中的第二待识别像素点,在所述第二待识别像素点中识别所述每个单色分量图像中的角点和端点;
根据所述每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
2.如权利要求1所述的方法,其特征在于,所述根据所述每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域,包括:
将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域。
3.如权利要求1所述的方法,其特征在于,所述若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值大于第一预设像素阈值的圆弧,则统计所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量,包括:
若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值小于或等于第一预设像素阈值的圆弧,则确定所述圆弧的圆心不属于第一待识别像素点;
若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值大于第一预设像素阈值的圆弧,则计算所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值;
统计所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量。
4.如权利要求1所述的方法,其特征在于,所述若统计到的像素点数量与所述圆弧上的第一指定位置上的像素点的数量之和大于数量阈值,则根据所述圆弧上的像素点与对应的圆心的像素差值,确定所述每个单色分量图像中的第一待识别像素点,包括:
若统计到的像素点数量与所述圆弧上的第一指定位置上的像素点的数量之和大于数量阈值,则统计所述圆弧上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量,作为差异像素点数量;
将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点。
5.如权利要求1所述的方法,其特征在于,所述在所述第二待识别像素点中识别所述每个单色分量图像中的角点和端点,包括:
在以所述第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量;
将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点;
将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。
6.如权利要求1所述的方法,其特征在于,还包括:
获取样本图像;一个样本图像包括一种字符类型的文字;
对所述样本图像中的文字区域进行标记,并将标记后的样本图像作为深度学习模型的输入值;
根据所述标记后的样本图像对所述深度学习模型中的模型参数进行训练;
将包含训练后的模型参数的深度学习模型确定为用于识别图片中的文字区域的分类器。
7.如权利要求1所述的方法,其特征在于,所述基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域,包括:
将每个待识别区域输入至分类器的输入层,并根据所述分类器中的训练后的模型参数计算所述每个待识别区域分别对应的区域图像特征,并计算各区域图像特征分别对应的文字识别概率;
将所述每个待识别区域分别对应的文字识别概率输入至所述分类器的输出层,并对所述输出层中的各文字识别概率进行排序,并在排序结果中选择文字识别概率大于预设概率阈值的文字识别概率,作为目标文字识别概率;
将所述目标文字识别概率对应的待识别区域确定为文字区域。
8.如权利要求1所述的方法,其特征在于,还包括:
计算所述文字区域在所述目标图像中的位置坐标,以便于后续根据所述文字区域分别对应的位置坐标进行文字识别。
9.一种图像数据处理装置,其特征在于,包括:
分量获取模块,用于获取目标图像,并生成所述目标图像对应的单色分量图像;
所述分量获取模块,还用于分别以每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的第一指定位置上的像素点与各对应的圆心的像素差值;所述各圆弧上的第一指定位置上的像素点基于各对应的圆心成对称分布;
所述分量获取模块,还用于若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值大于第一预设像素阈值的圆弧,则统计所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量;所述圆弧上的第二指定位置上的像素点基于对应的圆心成对称分布,且所述圆弧上的第二指定位置上的像素点与所述圆弧上的第一指定位置上的像素点基于对应的圆心成均匀分布;
所述分量获取模块,还用于若统计到的像素点数量与所述圆弧上的第一指定位置上的像素点的数量之和大于数量阈值,则根据所述圆弧上的像素点与对应的圆心的像素差值,确定所述每个单色分量图像中的第一待识别像素点;
所述分量获取模块,还用于基于非极大值抑制算法,在所述第一待识别像素点中筛选出所述每个单色分量图像中的第二待识别像素点,在所述第二待识别像素点中识别所述每个单色分量图像中的角点和端点;
划分模块,用于根据所述每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
区域识别模块,用于基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
10.如权利要求9所述的装置,其特征在于,所述划分模块包括:
划分单元,用于将所述每个单色分量图像中的角点和端点在所述目标图像上进行叠加,根据叠加后的角点和端点在所述目标图像中划分待识别区域。
11.如权利要求9所述的装置,其特征在于,所述分量获取模块包括:
差值计算单元,用于若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值小于或等于第一预设像素阈值的圆弧,则确定所述圆弧的圆心不属于第一待识别像素点;
所述差值计算单元,还用于若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值大于第一预设像素阈值的圆弧,则计算所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值;
所述差值计算单元,还用于统计所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量,以及第一指定位置上的像素点对应的像素点数量。
12.如权利要求9所述的装置,其特征在于,
所述分量获取模块,具体用于若统计到的像素点数量与所述圆弧上的第一指定位置上的像素点的数量之和大于数量阈值,则统计所述圆弧上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量,作为差异像素点数量;
所述分量获取模块,还具体用于将所述差异像素点数量大于第一预设数量阈值的圆弧所对应的圆心确定为第一待识别像素点。
13.如权利要求9所述的装置,其特征在于,
所述分量获取模块,具体用于在以所述第二待识别像素点为圆心的圆弧中,分别统计所述像素差值的绝对值小于第二预设像素阈值的像素点数量,作为相似像素点数量;
所述分量获取模块,还具体用于将所述相似像素点数量大于第二预设数量阈值的圆弧所对应的第二待识别像素点确定为角点;
所述分量获取模块,还具体用于将所述相似像素点数量小于或等于所述第二预设数量阈值的圆弧所对应的第二待识别像素点确定为端点。
14.一种图像数据处理装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行以下操作:
获取目标图像,并生成所述目标图像对应的单色分量图像;
分别以每个单色分量图像中的各像素点为圆心设置半径相同的圆,并分别计算各圆弧上的第一指定位置上的像素点与各对应的圆心的像素差值;所述各圆弧上的第一指定位置上的像素点基于各对应的圆心成对称分布;
若存在第一指定位置上的像素点与对应的圆心的像素差值的绝对值大于第一预设像素阈值的圆弧,则统计所述圆弧上的第二指定位置上的像素点与对应的圆心的像素差值的绝对值大于所述第一预设像素阈值的像素点数量;所述圆弧上的第二指定位置上的像素点基于对应的圆心成对称分布,且所述圆弧上的第二指定位置上的像素点与所述圆弧上的第一指定位置上的像素点基于对应的圆心成均匀分布;
若统计到的像素点数量与所述圆弧上的第一指定位置上的像素点的数量之和大于数量阈值,则根据所述圆弧上的像素点与对应的圆心的像素差值,确定所述每个单色分量图像中的第一待识别像素点;
基于非极大值抑制算法,在所述第一待识别像素点中筛选出所述每个单色分量图像中的第二待识别像素点,在所述第二待识别像素点中识别所述每个单色分量图像中的角点和端点;
根据所述每个单色分量图像中的角点和端点,在所述目标图像中划分待识别区域;
基于分类器,计算每个待识别区域分别对应的文字识别概率,并根据所述文字识别概率在所述待识别区域中识别文字区域。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,当处理器执行所述程序指令时执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710770911.6A CN108304839B (zh) | 2017-08-31 | 2017-08-31 | 一种图像数据处理方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710770911.6A CN108304839B (zh) | 2017-08-31 | 2017-08-31 | 一种图像数据处理方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304839A CN108304839A (zh) | 2018-07-20 |
CN108304839B true CN108304839B (zh) | 2021-12-17 |
Family
ID=62869693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710770911.6A Active CN108304839B (zh) | 2017-08-31 | 2017-08-31 | 一种图像数据处理方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304839B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740337B (zh) * | 2019-01-25 | 2020-12-22 | 宜人恒业科技发展(北京)有限公司 | 一种实现滑块验证码识别的方法及装置 |
CN110414527A (zh) * | 2019-07-31 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN110929496B (zh) * | 2019-11-15 | 2023-06-16 | 北京乐蜜科技有限责任公司 | 文字模板生成方法和装置 |
CN111191657B (zh) * | 2019-11-19 | 2023-08-18 | 泰康保险集团股份有限公司 | 一种文字识别方法、装置及计算机可读存储介质 |
CN111563464B (zh) * | 2020-05-11 | 2023-11-14 | 奇安信科技集团股份有限公司 | 图像处理方法、装置、计算设备以及介质 |
CN113221696A (zh) * | 2021-04-29 | 2021-08-06 | 四川大学华西医院 | 一种图像识别方法、系统、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901344A (zh) * | 2010-08-13 | 2010-12-01 | 上海交通大学 | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 |
CN102156985A (zh) * | 2011-04-11 | 2011-08-17 | 上海交通大学 | 基于虚拟卡口的行人及车辆数目计数方法 |
CN102799879A (zh) * | 2012-07-12 | 2012-11-28 | 中国科学技术大学 | 从自然场景图像中识别多言语、多字体文字的方法 |
CN102799850A (zh) * | 2012-06-30 | 2012-11-28 | 北京百度网讯科技有限公司 | 一种条形码识别方法和装置 |
CN103927750A (zh) * | 2014-04-18 | 2014-07-16 | 上海理工大学 | 棋盘格图像角点亚像素的检测方法 |
WO2014184372A1 (en) * | 2013-05-17 | 2014-11-20 | Wonga Technology Limited | Image capture using client device |
CN104881029A (zh) * | 2015-05-15 | 2015-09-02 | 重庆邮电大学 | 基于一点ransac和fast算法的移动机器人导航方法 |
CN105046255A (zh) * | 2015-07-16 | 2015-11-11 | 北京交通大学 | 一种基于车尾文字识别的车型鉴定方法及系统 |
CN105205488A (zh) * | 2015-07-13 | 2015-12-30 | 西北工业大学 | 基于Harris角点和笔画宽度的文字区域检测方法 |
WO2016003191A1 (ko) * | 2014-07-01 | 2016-01-07 | 네이버 주식회사 | Ocr를 기반으로 지도 이미지를 인식하는 시스템과 방법, 그리고 기록 매체 및 파일 배포 시스템 |
CN105574531A (zh) * | 2015-12-11 | 2016-05-11 | 中国电力科学研究院 | 一种基于交点特征提取的数字识别方法 |
CN105868758A (zh) * | 2015-01-21 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 图像中文本区域检测方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7406196B2 (en) * | 2004-03-19 | 2008-07-29 | Lockheed Martin Corporation | Methods and systems for automatic detection of corners of a region |
-
2017
- 2017-08-31 CN CN201710770911.6A patent/CN108304839B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901344A (zh) * | 2010-08-13 | 2010-12-01 | 上海交通大学 | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 |
CN102156985A (zh) * | 2011-04-11 | 2011-08-17 | 上海交通大学 | 基于虚拟卡口的行人及车辆数目计数方法 |
CN102799850A (zh) * | 2012-06-30 | 2012-11-28 | 北京百度网讯科技有限公司 | 一种条形码识别方法和装置 |
CN102799879A (zh) * | 2012-07-12 | 2012-11-28 | 中国科学技术大学 | 从自然场景图像中识别多言语、多字体文字的方法 |
WO2014184372A1 (en) * | 2013-05-17 | 2014-11-20 | Wonga Technology Limited | Image capture using client device |
CN103927750A (zh) * | 2014-04-18 | 2014-07-16 | 上海理工大学 | 棋盘格图像角点亚像素的检测方法 |
WO2016003191A1 (ko) * | 2014-07-01 | 2016-01-07 | 네이버 주식회사 | Ocr를 기반으로 지도 이미지를 인식하는 시스템과 방법, 그리고 기록 매체 및 파일 배포 시스템 |
CN105868758A (zh) * | 2015-01-21 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 图像中文本区域检测方法、装置及电子设备 |
CN104881029A (zh) * | 2015-05-15 | 2015-09-02 | 重庆邮电大学 | 基于一点ransac和fast算法的移动机器人导航方法 |
CN105205488A (zh) * | 2015-07-13 | 2015-12-30 | 西北工业大学 | 基于Harris角点和笔画宽度的文字区域检测方法 |
CN105046255A (zh) * | 2015-07-16 | 2015-11-11 | 北京交通大学 | 一种基于车尾文字识别的车型鉴定方法及系统 |
CN105574531A (zh) * | 2015-12-11 | 2016-05-11 | 中国电力科学研究院 | 一种基于交点特征提取的数字识别方法 |
Non-Patent Citations (4)
Title |
---|
"FASText:efficient unconstrained scene text detector";Buta M等;《2015 IEEE International Conference on Computer Vision》;20151213;第1206-1214页 * |
"利用PCA加速实现基于特征点的图像拼接";魏雪丽等;《光电子激光》;20081031;第19卷(第10期);第1398-1399页第2节 * |
"基于区域灰度变化的自适应FAST角点检测算法";刘亮等;《微电子学与计算机》;20170331;第34卷(第3期);第21页第2节和第2页左栏第3段 * |
"面向汉字识别的新特征及其提取方法";赵健等;《软件》;20151231;第36卷(第3期);第31-36页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304839A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304839B (zh) | 一种图像数据处理方法以及装置 | |
CN112348815B (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
CN109753953B (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
CN108875750B (zh) | 物体检测方法、装置和系统及存储介质 | |
CN112381183B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN107272899B (zh) | 一种基于动态手势的vr交互方法、装置及电子设备 | |
CN111886600A (zh) | 一种用于图像的实例级别分割的设备和方法 | |
CN110858414A (zh) | 图像处理方法、装置、可读存储介质与增强现实系统 | |
CN112633313B (zh) | 一种网络终端的不良信息识别方法及局域网终端设备 | |
CN111178355A (zh) | 印章识别方法、装置和存储介质 | |
WO2022160587A1 (zh) | 深度检测方法、装置、电子设备、存储介质及程序产品 | |
CN114402369A (zh) | 人体姿态的识别方法、装置、存储介质及电子设备 | |
CN111339976A (zh) | 室内定位方法、装置、终端及存储介质 | |
CN103946865A (zh) | 用于有助于检测图像内的文本的方法和装置 | |
CN112396050A (zh) | 图像的处理方法、设备以及存储介质 | |
CN109816628B (zh) | 人脸评价方法及相关产品 | |
CN114581535B (zh) | 图像中用户骨关键点标注方法、装置、存储介质及设备 | |
CN108304840B (zh) | 一种图像数据处理方法以及装置 | |
CN111107264A (zh) | 图像处理方法、装置、存储介质以及终端 | |
CN112862842B (zh) | 图像数据的处理方法和装置、存储介质及电子装置 | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
CN108694347B (zh) | 图像处理方法和装置 | |
CN111857350A (zh) | 用于旋转显示设备的方法及装置、设备 | |
CN112819685B (zh) | 一种图像的风格模式推荐方法和终端 | |
CN115953603A (zh) | 图像匹配方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |