CN110490056A - 对包含算式的图像进行处理的方法和装置 - Google Patents
对包含算式的图像进行处理的方法和装置 Download PDFInfo
- Publication number
- CN110490056A CN110490056A CN201910610943.9A CN201910610943A CN110490056A CN 110490056 A CN110490056 A CN 110490056A CN 201910610943 A CN201910610943 A CN 201910610943A CN 110490056 A CN110490056 A CN 110490056A
- Authority
- CN
- China
- Prior art keywords
- image
- character
- formula
- algorithm
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了对包含算式的图像进行处理的方法和装置。所述方法包括:对所述包含算式的图像进行预处理;所述预处理包括:从所述包含算式的图像中去除干扰线,得到中间图像,以及对所述中间图像进行字符切割处理,得到包含顺序的多幅字符图像;基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果;基于所述识别结果以及所述顺序确定数学算式,对所述数学算式进行相应的计算,得到计算结果。该技术方案考虑到了包含算式的图像的特点,通过去除干扰线来提高后续字符切割的准确率以及字符图像的识别率,并基于确定的数学算式自动、快速地进行解答,能够给出数学习题、算式验证码等的答案,节省了人工劳动。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及对包含算式的图像进行处理的方法和装置。
背景技术
目前,包含算式的图像在许多场景得到了应用,例如,许多网站和APP都需要用户输入验证码进行人机安全验证,所采用的验证码图像就是包含算式的图像,用户需要输入算式的答案;又例如中小学数据运算题目也可以以图片方式展示,等等。因此需要一种能够对包含算式的图像进行处理的手段,帮助人们自动获得算式的答案。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的对包含算式的图像进行处理的方法和装置。
依据本申请的一个方面,提供了一种对包含算式的图像进行处理的方法,包括:
对所述包含算式的图像进行预处理;所述预处理包括:从所述包含算式的图像中去除干扰线,得到中间图像,以及对所述中间图像进行字符切割处理,得到包含顺序的多幅字符图像;
基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果;
基于所述识别结果以及所述顺序确定数学算式,对所述数学算式进行相应的计算,得到计算结果。
可选地,所述从所述包含算式的图像中去除干扰线包括:
对所述包含算式的图像执行颜色空间转换,将预设的阈值范围作为过滤条件,基于所述过滤条件去除干扰线的颜色区域。
可选地,所述对所述中间图像进行字符切割处理包括:
基于所述中间图像在x轴方向上的投影得到像素分布,根据所述像素分布进行字符切割处理。
可选地,所述字符识别模型是基于深度卷积神经网络训练得到的;其中,在训练过程中使用的训练数据是对字符图像进行图像聚类后标注得到的,所述字符图像是对包含算式的样本图像进行所述预处理后得到的。
可选地,所述图像聚类包括:
将字符图像在主成分上的投影系数作为字符图像的特征向量,利用k均值聚类算法对字符图像进行聚类,得到一级图像类簇;
将字符图像的方向梯度直方图特征作为字符图像的特征向量,利用k均值聚类算法对各一级图像类簇中的字符图像进行聚类,得到二级图像类簇;
对各二级图像类簇中的字符图像,基于dHash算法,计算各图像间的汉明距离,根据所述距离进行聚类,得到最终的图像类簇。
可选地,所述识别结果包括数字和运算符号;所述基于所述识别结果以及所述顺序确定数学算式包括:
根据所述识别结果中运算符号的相对位置进行运算转换,得到数学算式。
可选地,所述包含算式的图像为图像验证码;所述计算结果是用于完成验证的验证信息;
所述基于所述识别结果以及所述顺序确定数学算式包括:
当一幅字符图像的识别结果有多个时,依据各识别结果对应的预估概率选择识别结果,根据选择的识别结果和所述顺序确定数学算式;若不能确定数学算式或所述验证信息验证失败,则重新选择识别结果。
依据本申请的另一方面,提供了一种对包含算式的图像进行处理的装置,包括:
预处理单元,用于对所述包含算式的图像进行预处理;所述预处理包括:从所述包含算式的图像中去除干扰线,得到中间图像,以及对所述中间图像进行字符切割处理,得到包含顺序的多幅字符图像;
字符识别单元,用于基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果;
计算单元,用于基于所述识别结果以及所述顺序确定数学算式,对所述数学算式进行相应的计算,得到计算结果。
可选地,所述预处理单元,用于对所述包含算式的图像执行颜色空间转换,将预设的阈值范围作为过滤条件,基于所述过滤条件去除干扰线的颜色区域。
可选地,所述预处理单元,用于基于所述中间图像在x轴方向上的投影得到像素分布,根据所述像素分布进行字符切割处理。
可选地,所述字符识别模型是基于深度卷积神经网络训练得到的;其中,在训练过程中使用的训练数据是对字符图像进行图像聚类后标注得到的,所述字符图像是对包含算式的样本图像进行所述预处理后得到的。
可选地,所述图像聚类包括:
将字符图像在主成分上的投影系数作为字符图像的特征向量,利用k均值聚类算法对字符图像进行聚类,得到一级图像类簇;
将字符图像的方向梯度直方图特征作为字符图像的特征向量,利用k均值聚类算法对各一级图像类簇中的字符图像进行聚类,得到二级图像类簇;
对各二级图像类簇中的字符图像,基于dHash算法,计算各图像间的汉明距离,根据所述距离进行聚类,得到最终的图像类簇。
可选地,所述识别结果包括数字和运算符号;
所述计算单元,用于根据所述识别结果中运算符号的相对位置进行运算转换,得到数学算式。
可选地,所述包含算式的图像为图像验证码;所述计算结果是用于完成验证的验证信息;
所述计算单元,用于当一幅字符图像的识别结果有多个时,依据各识别结果对应的预估概率选择识别结果,根据选择的识别结果和所述顺序确定数学算式;若不能确定数学算式或所述验证信息验证失败,则重新选择识别结果。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,通过对包含算式的图像进行去除干扰线,得到中间图像,以及对中间图像进行字符切割处理,得到包含顺序的多幅字符图像作为预处理手段,从而基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果,最终基于识别结果以及顺序确定数学算式,对数学算式进行相应的计算,得到计算结果。该技术方案考虑到了包含算式的图像的特点,通过去除干扰线来提高后续字符切割的准确率以及字符图像的识别率,并基于确定的数学算式自动、快速地进行解答,能够给出数学习题、算式验证码等的答案,节省了人工劳动。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的一种对包含算式的图像进行处理的方法的流程示意图;
图2示出了根据本申请一个实施例的一种对包含算式的图像进行处理的装置的结构示意图;
图3示出了根据本申请一个实施例的电子设备的结构示意图;
图4示出了根据本申请一个实施例的计算机可读存储介质的结构示意图;
图5示出了根据本申请一个实施例的包含算式的图像示例;
图6示出了根据本申请一个实施例的对图5去除干扰线得到的中间图像示例;
图7示出了根据本申请一个实施例的图6所示的中间图像在x轴方向上的投影示例;
图8示出了根据本申请一个实施例的对图6进行字符切割得到的多幅字符图像示例;
图9示出了根据本申请一个实施例的图像聚类示例。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
OCR(Optical Character Recognition,光学字符识别)技术对于图像识别有着重要帮助,但是现有技术对于许多特定场景的识别准确度并不高。原因主要在于,这些特定场景中往往存在着字符形状特殊、背景图片影响识别等情况。包含算式的图像就属于其中之一。目前对于包含算式的图像,主要是采用人工处理的方式,这无疑极大地耗费人力和时间成本,并且不能保证准确度。
机器学习在图像识别中的应用也越来越多,但是有监督学习需要大量的训练样本,而包含算式的图像由于缺少标注,也不适合这种方式。
为此,本申请提出的解决方案是,对包含算式的图像进行一定的预处理后再进行识别,并进行后续计算;在采用机器学习技术时通过聚类来解决标注的问题。
图1示出了根据本申请一个实施例的一种对包含算式的图像进行处理的方法的流程示意图。如图1所示,该方法包括:
步骤S110,对包含算式的图像进行预处理;预处理包括:从包含算式的图像中去除干扰线,得到中间图像,以及对中间图像进行字符切割处理,得到包含顺序的多幅字符图像。
对包含算式的图像进行分析发现,其中往往包含着一条或多条干扰线,这是影响后续识别的主要原因。一个包含算式的图像示例如图5所示,算式为“?-28=41”。因此在步骤S110中首先去除掉干扰线,得到中间图像,再进行字符切割。由于算式中各字符是有顺序的,因此得到的字符图像也是依序排列的。
步骤S120,基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果。这里的字符识别模型可以是通过预先的训练得到的。
步骤S130,基于识别结果以及顺序确定数学算式,对数学算式进行相应的计算,得到计算结果。
可见,图1所示的方法,考虑到了包含算式的图像的特点,通过去除干扰线来提高后续字符切割的准确率以及字符图像的识别率,并基于确定的数学算式自动、快速地进行解答,能够给出数学习题、算式验证码等的答案,节省了人工劳动。
在本申请的一个实施例中,上述方法中,从包含算式的图像中去除干扰线包括:对所述包含算式的图像执行颜色空间转换,将预设的阈值范围作为过滤条件,基于过滤条件去除干扰线的颜色区域。
干扰线增加了机器识别的难度,但是在设计验证码时为了让人类能够识别出其中的算式,一般来说干扰线与算式是能够分辨开来的,例如,算式所采用的颜色与干扰线所采用的颜色不同,干扰线所采用的颜色也比较固定,即干扰线上像素的颜色值落入到特定区间内。基于这一特点,本申请可以采用颜色空间转换的方式,基于过滤条件去除干扰线的颜色区域,使得转换后的图像就是去除了干扰线的图像。例如,图5所示图像在去除了干扰线后如图6所示。
HSV(Hue,Saturation,Value——色调,饱和度,明度)颜色空间对颜色的描述更符合人类的认知,因此具体地,可以通过BGR2HSV的方式来实现颜色空间转换。
在本申请的一个实施例中,上述方法中,对中间图像进行字符切割处理包括:基于中间图像在x轴方向上的投影得到像素分布,根据像素分布进行字符切割处理。
图6所示的中间图像在x轴方向上的投影如图7所示。可见,该曲线有着较为明显的分割点,可以作为字符切割的依据,确定各字符出现的区域。切割而成的多个字符图像如图8所示。
在本申请的一个实施例中,上述方法中,字符识别模型是基于深度卷积神经网络训练得到的;其中,在训练过程中使用的训练数据是对字符图像进行图像聚类后标注得到的,字符图像是对包含算式的样本图像进行预处理后得到的。
深度卷积神经网络对于图像分类有着很好的效果,但是在训练模型时需要大量的数据标注,如果仅依靠人工标注,效率太低,成本较高。因此本申请的实施例给出了聚类的方式,对标注过程进行了优化,解决了标注数据的难题。具体地,通过对字符图像进行聚类后再标注,从而得到训练数据;聚类具体可以是多层次的。
在本申请的一个实施例中,上述方法中,图像聚类包括:将字符图像在主成分上的投影系数作为字符图像的特征向量,利用k均值聚类算法对字符图像进行聚类,得到一级图像类簇;将字符图像的方向梯度直方图特征作为字符图像的特征向量,利用k均值聚类算法对各一级图像类簇中的字符图像进行聚类,得到二级图像类簇;对各二级图像类簇中的字符图像,基于dHash算法,计算各图像间的汉明距离,根据距离进行聚类,得到最终的图像类簇。
例如,图9示出了根据本申请一个实施例的图像聚类示例图。原始的字幅图像有9幅,分别对应的字符为“+”、“1”、“7”、“+”、“1”、“5”、“-”、“5”和“6”。首先将字符图像在主成分上的投影系数作为字符图像的特征向量,利用k均值(k-means)聚类算法对字符图像进行聚类,得到一级图像类簇,共两个,一个一级图像类簇中包含“+”、“1”、“+”、“1”和“-”,另一个一级图像类簇中包含“7”、“5”、“5”和“6”。进一步地,将字符图像的方向梯度直方图(HOG)特征作为字符图像的特征向量,利用k均值聚类算法对各一级图像类簇中的字符图像进行聚类,得到二级图像类簇,共五个。最后,通过计算各图像间的汉明距离,根据距离进行聚类,得到最终的图像类簇。最终得到六个图像类簇,可见,与原始的字符图像中包含的六种字符“1”、“+”、“-”、“6”、“5”和“7”一一对应。因此最后只需要对每一类图像打上标注即可,由于阿拉伯数字和加减乘除、问号等字符的总数也并不多,相较于对每个字符图像进行标注,效率有着极大的提升。
在本申请的一个实施例中,上述方法中,识别结果包括数字和运算符号;基于识别结果以及顺序确定数学算式包括:根据识别结果中运算符号的相对位置进行运算转换,得到数学算式。
在具体场景中,识别结果还可以包含问号,如图5所示的“?-28=41”,最终识别到的字符为“?”、“-”、“2”、“8”、“=”、“4”和1。这里可以根据运算符号的相对位置(当算式包含问号时,相对位置也考虑到问号),进行运算转换。相对位置的示例为:“+=?”、“-=?”、“+?=”、“?+=”、“-?=”、“?-=”,等等。
运算转换可以进一步提高计算效率,例如,x-?=y这个数学算式可以被转换为?=x-y;x+?=y这个数学算式可以转换为?=y-x。那么图5中的算式可以被转换为计算28+41,结果为69。
在本申请的一个实施例中,上述方法中,包含算式的图像为图像验证码;计算结果是用于完成验证的验证信息;基于识别结果以及顺序确定数学算式包括:当一幅字符图像的识别结果有多个时,依据各识别结果对应的预估概率选择识别结果,根据选择的识别结果和顺序确定数学算式;若不能确定数学算式或验证信息验证失败,则重新选择识别结果。
例如,一个加号如果不清楚,可能识别为减号,那么得到的数学算式可以计算,但是以计算结果作为验证信息是无法验证通过的;如果等号被识别为减号,那么就不构成一个数学算式。
由于通过识别实际预估的是一个字符图像与哪个字符更近似,预估概率是从高到低排列的,因此当识别为最近似的字符导致验证失败时,可以考虑替换为第二近似的字符。
图2示出了根据本申请一个实施例的一种对包含算式的图像进行处理的装置的结构示意图。如图2所示,对包含算式的图像进行处理的装置200包括:
预处理单元210,用于对包含算式的图像进行预处理;预处理包括:从包含算式的图像中去除干扰线,得到中间图像,以及对中间图像进行字符切割处理,得到包含顺序的多幅字符图像。
字符识别单元220,用于基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果。
计算单元230,用于基于识别结果以及顺序确定数学算式,对数学算式进行相应的计算,得到计算结果。
可见,图2所示的装置,通过各单元的相互配合,考虑到了包含算式的图像的特点,通过去除干扰线来提高后续字符切割的准确率以及字符图像的识别率,并基于确定的数学算式自动、快速地进行解答,能够给出数学习题、算式验证码等的答案,节省了人工劳动。
在本申请的一个实施例中,上述装置中,预处理单元210,用于对所述包含算式的图像执行颜色空间转换,将预设的阈值范围作为过滤条件,基于所述过滤条件去除干扰线的颜色区域。
在本申请的一个实施例中,上述装置中,预处理单元210,用于基于中间图像在x轴方向上的投影得到像素分布,根据像素分布进行字符切割处理。
在本申请的一个实施例中,上述装置中,字符识别模型是基于深度卷积神经网络训练得到的;其中,在训练过程中使用的训练数据是对字符图像进行图像聚类后标注得到的,字符图像是对包含算式的样本图像进行预处理后得到的。
在本申请的一个实施例中,上述装置中,图像聚类包括:将字符图像在主成分上的投影系数作为字符图像的特征向量,利用k均值聚类算法对字符图像进行聚类,得到一级图像类簇;将字符图像的方向梯度直方图特征作为字符图像的特征向量,利用k均值聚类算法对各一级图像类簇中的字符图像进行聚类,得到二级图像类簇;对各二级图像类簇中的字符图像,基于dHash算法,计算各图像间的汉明距离,根据距离进行聚类,得到最终的图像类簇。
在本申请的一个实施例中,上述装置中,识别结果包括数字和运算符号;计算单元230,用于根据识别结果中运算符号的相对位置进行运算转换,得到数学算式。
在本申请的一个实施例中,上述装置中,包含算式的图像为图像验证码;计算结果是用于完成验证的验证信息;计算单元230,用于当一幅字符图像的识别结果有多个时,依据各识别结果对应的预估概率选择识别结果,根据选择的识别结果和顺序确定数学算式;若不能确定数学算式或验证信息验证失败,则重新选择识别结果。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,通过对包含算式的图像进行去除干扰线,得到中间图像,以及对中间图像进行字符切割处理,得到包含顺序的多幅字符图像作为预处理手段,从而基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果,最终基于识别结果以及顺序确定数学算式,对数学算式进行相应的计算,得到计算结果。技术方案考虑到了包含算式的图像的特点,通过去除干扰线来提高后续字符切割的准确率以及字符图像的识别率,并基于确定的数学算式自动、快速地进行解答,能够给出数学习题、算式验证码等的答案,节省了人工劳动;通过多层次图像聚类算法完成对训练数据的快速标注,解决了机器学习的识别方式里缺乏数据标注的问题。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的对包含算式的图像进行处理的装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备300包括处理器310和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码331的存储空间330。例如,用于存储计算机可读程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码331。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。图4示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质400存储有用于执行根据本申请的方法步骤的计算机可读程序代码331,可以被电子设备300的处理器310读取,当计算机可读程序代码331由电子设备300运行时,导致该电子设备300执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码331可以执行上述任一实施例中示出的方法。计算机可读程序代码331可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种对包含算式的图像进行处理的方法,其特征在于,该方法包括:
对所述包含算式的图像进行预处理;所述预处理包括:从所述包含算式的图像中去除干扰线,得到中间图像,以及对所述中间图像进行字符切割处理,得到包含顺序的多幅字符图像;
基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果;
基于所述识别结果以及所述顺序确定数学算式,对所述数学算式进行相应的计算,得到计算结果。
2.如权利要求1所述的方法,其特征在于,所述从所述包含算式的图像中去除干扰线包括:
对所述包含算式的图像执行颜色空间转换,将预设的阈值范围作为过滤条件,基于所述过滤条件去除干扰线的颜色区域。
3.如权利要求1所述的方法,其特征在于,所述对所述中间图像进行字符切割处理包括:
基于所述中间图像在x轴方向上的投影得到像素分布,根据所述像素分布进行字符切割处理。
4.如权利要求1所述的方法,其特征在于,所述字符识别模型是基于深度卷积神经网络训练得到的;其中,在训练过程中使用的训练数据是对字符图像进行图像聚类后标注得到的,所述字符图像是对包含算式的样本图像进行所述预处理后得到的。
5.如权利要求4所述的方法,其特征在于,所述图像聚类包括:
将字符图像在主成分上的投影系数作为字符图像的特征向量,利用k均值聚类算法对字符图像进行聚类,得到一级图像类簇;
将字符图像的方向梯度直方图特征作为字符图像的特征向量,利用k均值聚类算法对各一级图像类簇中的字符图像进行聚类,得到二级图像类簇;
对各二级图像类簇中的字符图像,基于dHash算法,计算各图像间的汉明距离,根据所述距离进行聚类,得到最终的图像类簇。
6.如权利要求1所述的方法,其特征在于,所述识别结果包括数字和运算符号;所述基于所述识别结果以及所述顺序确定数学算式包括:
根据所述识别结果中运算符号的相对位置进行运算转换,得到数学算式。
7.如权利要求1所述的方法,其特征在于,所述包含算式的图像为图像验证码;所述计算结果是用于完成验证的验证信息;
所述基于所述识别结果以及所述顺序确定数学算式包括:
当一幅字符图像的识别结果有多个时,依据各识别结果对应的预估概率选择识别结果,根据选择的识别结果和所述顺序确定数学算式;若不能确定数学算式或所述验证信息验证失败,则重新选择识别结果。
8.一种对包含算式的图像进行处理的装置,其特征在于,该装置包括:
预处理单元,用于对所述包含算式的图像进行预处理;所述预处理包括:从所述包含算式的图像中去除干扰线,得到中间图像,以及对所述中间图像进行字符切割处理,得到包含顺序的多幅字符图像;
字符识别单元,用于基于预置的字符识别模型对各字符图像分别进行识别,得到相应的识别结果;
计算单元,用于基于所述识别结果以及所述顺序确定数学算式,对所述数学算式进行相应的计算,得到计算结果。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910610943.9A CN110490056A (zh) | 2019-07-08 | 2019-07-08 | 对包含算式的图像进行处理的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910610943.9A CN110490056A (zh) | 2019-07-08 | 2019-07-08 | 对包含算式的图像进行处理的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110490056A true CN110490056A (zh) | 2019-11-22 |
Family
ID=68546707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910610943.9A Pending CN110490056A (zh) | 2019-07-08 | 2019-07-08 | 对包含算式的图像进行处理的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490056A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712075A (zh) * | 2020-12-30 | 2021-04-27 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN112906559A (zh) * | 2021-02-10 | 2021-06-04 | 网易有道信息技术(北京)有限公司 | 由机器实施的用于批改算式的方法及相关产品 |
CN113034109A (zh) * | 2021-03-26 | 2021-06-25 | 北京乐学帮网络技术有限公司 | 作答结果的校验方法及系统、可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021376A (zh) * | 2014-06-05 | 2014-09-03 | 北京乐动卓越科技有限公司 | 验证码识别方法和装置 |
CN105426890A (zh) * | 2015-11-09 | 2016-03-23 | 成都数之联科技有限公司 | 一种字符扭曲粘连的图形验证码识别方法 |
CN106446897A (zh) * | 2016-09-09 | 2017-02-22 | 浪潮软件股份有限公司 | 一种空心验证码的识别方法 |
CN106650398A (zh) * | 2017-01-03 | 2017-05-10 | 深圳博十强志科技有限公司 | 移动平台的验证码识别系统及识别方法 |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN108446704A (zh) * | 2018-03-29 | 2018-08-24 | 哈尔滨理工大学 | 一种粘连字符验证码分割与识别方法 |
CN108805126A (zh) * | 2017-04-28 | 2018-11-13 | 上海斯睿德信息技术有限公司 | 一种文本图像的长干扰线去除方法 |
US20190122163A1 (en) * | 2017-10-24 | 2019-04-25 | Booz Allen Hamilton Inc. | System and method for delivery payment and verification |
CN109933975A (zh) * | 2019-03-20 | 2019-06-25 | 山东浪潮云信息技术有限公司 | 一种基于深度学习的验证码识别方法及系统 |
CN109948621A (zh) * | 2019-03-20 | 2019-06-28 | 南京工业大学 | 一种基于图片验证码的图像处理与字符分割方法 |
-
2019
- 2019-07-08 CN CN201910610943.9A patent/CN110490056A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021376A (zh) * | 2014-06-05 | 2014-09-03 | 北京乐动卓越科技有限公司 | 验证码识别方法和装置 |
CN105426890A (zh) * | 2015-11-09 | 2016-03-23 | 成都数之联科技有限公司 | 一种字符扭曲粘连的图形验证码识别方法 |
CN106446897A (zh) * | 2016-09-09 | 2017-02-22 | 浪潮软件股份有限公司 | 一种空心验证码的识别方法 |
CN106650398A (zh) * | 2017-01-03 | 2017-05-10 | 深圳博十强志科技有限公司 | 移动平台的验证码识别系统及识别方法 |
CN108805126A (zh) * | 2017-04-28 | 2018-11-13 | 上海斯睿德信息技术有限公司 | 一种文本图像的长干扰线去除方法 |
US20190122163A1 (en) * | 2017-10-24 | 2019-04-25 | Booz Allen Hamilton Inc. | System and method for delivery payment and verification |
CN107967475A (zh) * | 2017-11-16 | 2018-04-27 | 广州探迹科技有限公司 | 一种基于窗口滑动和卷积神经网络的验证码识别方法 |
CN108446704A (zh) * | 2018-03-29 | 2018-08-24 | 哈尔滨理工大学 | 一种粘连字符验证码分割与识别方法 |
CN109933975A (zh) * | 2019-03-20 | 2019-06-25 | 山东浪潮云信息技术有限公司 | 一种基于深度学习的验证码识别方法及系统 |
CN109948621A (zh) * | 2019-03-20 | 2019-06-28 | 南京工业大学 | 一种基于图片验证码的图像处理与字符分割方法 |
Non-Patent Citations (1)
Title |
---|
袁津生等著: "《搜索引擎与信息检索教程》", 30 April 2008, 中国水利水电出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712075A (zh) * | 2020-12-30 | 2021-04-27 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN112712075B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN112906559A (zh) * | 2021-02-10 | 2021-06-04 | 网易有道信息技术(北京)有限公司 | 由机器实施的用于批改算式的方法及相关产品 |
CN112906559B (zh) * | 2021-02-10 | 2022-03-18 | 网易有道信息技术(北京)有限公司 | 由机器实施的用于批改算式的方法及相关产品 |
CN113034109A (zh) * | 2021-03-26 | 2021-06-25 | 北京乐学帮网络技术有限公司 | 作答结果的校验方法及系统、可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399386B (zh) | 饼图中的信息提取方法及装置 | |
CN107958230B (zh) | 人脸表情识别方法及装置 | |
CN110582783B (zh) | 训练装置、图像识别装置、训练方法和计算机可读信息存储介质 | |
CN110490056A (zh) | 对包含算式的图像进行处理的方法和装置 | |
CN110287125A (zh) | 基于图像识别的软件例行化测试方法及装置 | |
CN109858542B (zh) | 一种字符识别方法和装置 | |
CN112613553B (zh) | 图片样本集生成方法、装置、计算机设备和存储介质 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN107784321A (zh) | 数字绘本快速识别方法、系统及计算机可读存储介质 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN113762274B (zh) | 一种答题卡目标区域检测方法、系统、存储介质及设备 | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
CN111191584A (zh) | 一种人脸识别方法及装置 | |
US10282596B2 (en) | Facial recognition encode analysis | |
CN116824135A (zh) | 基于机器视觉的大气自然环境试验工业产品识别分割方法 | |
CN115471775A (zh) | 基于录屏视频的信息验证方法、装置、设备及存储介质 | |
CN109784207B (zh) | 一种人脸识别方法、装置及介质 | |
CN109034032B (zh) | 图像处理方法、装置、设备及介质 | |
CN111310837A (zh) | 车辆改装识别方法、装置、系统、介质和设备 | |
CN104966109A (zh) | 医疗化验单图像分类方法及装置 | |
CN113468905B (zh) | 图形码识别方法、装置、计算机设备和存储介质 | |
CN114639152A (zh) | 基于人脸识别的多模态语音交互方法、装置、设备及介质 | |
CN113918471A (zh) | 测试用例的处理方法、装置及计算机可读存储介质 | |
CN117884379A (zh) | 一种矿石分选方法及系统 | |
CN115439850B (zh) | 基于审单的图文字符识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191122 |
|
RJ01 | Rejection of invention patent application after publication |