CN107992872A - 一种对图片进行文本识别的方法及移动终端 - Google Patents

一种对图片进行文本识别的方法及移动终端 Download PDF

Info

Publication number
CN107992872A
CN107992872A CN201711422254.2A CN201711422254A CN107992872A CN 107992872 A CN107992872 A CN 107992872A CN 201711422254 A CN201711422254 A CN 201711422254A CN 107992872 A CN107992872 A CN 107992872A
Authority
CN
China
Prior art keywords
mobile terminal
frame
picture
target
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711422254.2A
Other languages
English (en)
Other versions
CN107992872B (zh
Inventor
龙安忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201711422254.2A priority Critical patent/CN107992872B/zh
Publication of CN107992872A publication Critical patent/CN107992872A/zh
Application granted granted Critical
Publication of CN107992872B publication Critical patent/CN107992872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

一种对图片进行文本识别的方法及移动终端,包括:移动终端可以将移动终端中的图片进行二值化处理;移动终端还可以根据相邻像素之间的距离与指定阈值之间的大小关系可以将二值化图片中的黑色部分分别框选出来,得到至少一个目标框,该目标框中任意两个相邻像素点之间的距离小于或等于指定阈值;移动终端还能计算每个目标框的面积和中心点坐标,并根据相邻中心点坐标的距离与预设距离的大小关系将目标框分为噪点框集和文本框集两类集合;当文本框集的总面积大于噪点框集的总面积时,移动终端则可以对文本框集进行文本识别,以获取二值化图片中的题目信息。实施本发明实施例,能够提升对存在噪点较多的图片进行文本识别时的识别准确率。

Description

一种对图片进行文本识别的方法及移动终端
技术领域
本发明涉及计算机技术领域,具体涉及一种对图片进行文本识别的方法及移动终端。
背景技术
随着智能手机以及学习平板的普及,学生们获取知识的方式不再局限于书本和老师,当面临一些作业难题的时候,学生们更多的会使用智能手机中的拍题APP拍照搜索相似题目,一并获得相似题目所对应的答案。但是,当学生在夜间或者光线不好的条件下拍摄时,拍出的照片中存在较多的噪点,此时,多数拍题APP就难以准确识别照片中的题目信息了。
发明内容
本发明实施例公开了一种对图片进行文本识别的方法及移动终端,能够提升对存在噪点较多的图片进行文本识别时的识别准确率。
本发明实施例第一方面公开了一种对图片进行文本识别的方法,所述方法包括:
移动终端对所述移动终端中的目标图片进行二值化处理,得到二值化图片;
所述移动终端对所述二值化图片中的黑色部分进行框选,得到至少一个目标框;所述目标框中任意两个相邻像素点之间的距离小于或等于指定阈值;
所述移动终端分别获取每一个所述目标框的中心点坐标,以及分别获取每一个所述目标框的面积;
所述移动终端根据所述至少一个目标框确定出噪点框集和文本框集;其中,所述噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,所述文本框集中相邻目标框之间的中心点坐标距离大于或等于所述预设距离;
所述移动终端获取所述噪点框集的总面积以及所述文本框集的总面积;其中,所述噪点框集的总面积为所述噪点框集中包含的所有目标框的面积之和,所述文本框集的总面积为所述文本框集中包含的所有目标框的面积之和;
所述移动终端判断所述文本框集的总面积是否大于所述噪点框集的总面积;
如果是,所述移动终端对所述文本框集进行文本识别,得到所述二值化图片中包含的文本信息。
作为一种可选的实施方式,在本发明实施例第一方面中,所述方法还包括:
如果所述移动终端判断出所述文本框集的总面积小于所述噪点框集的总面积,所述移动终端输出用于提示用户所述目标图片清晰度过低的提示信息;
所述移动终端检测所述移动终端是否收到用户输入的重新拍摄指令,如果是,开启所述移动终端中的摄像头。
作为一种可选的实施方式,在本发明实施例第一方面中,所述文本信息为题目信息,所述方法还包括:
所述移动终端搜索与所述题目信息相似度大于或等于预设相似度的至少一个相似题目信息;
所述移动终端按照与所述题目信息相似度由高到低的顺序输出所述至少一个相似题目信息以及所述至少一个相似题目信息分别对应的答案信息;
所述移动终端检测用户从所述至少一个相似题目信息中选择的目标题目信息以及所述目标题目信息对应的答案信息;
所述移动终端将所述目标题目信息以及所述目标题目信息对应的答案信息存储至云端数据库。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的移动终端对所述移动终端中的目标图片进行二值化处理,得到二值化图片,包括:
移动终端对所述移动终端中的目标图片进行灰度化处理,得到灰度化图片;
所述移动终端将所述灰度化图片中大于或等于预设临界灰度值的像素灰度作为灰度极大值,并且将所述灰度化图片中小于预设临界灰度值的像素灰度作为灰度极小值;
所述移动终端根据所述灰度极大值和所述灰度极小值对所述灰度化图片进行二值化处理,得到二值化图片。
作为一种可选的实施方式,在本发明实施例第一方面中,所述的所述移动终端对所述二值化图片中的黑色部分进行框选,得到至少一个目标框,包括:
所述移动终端检测所述二值化图片黑色部分中的所有相邻像素之间的距离;
所述移动终端框选所述二值化图片的黑色部分,得到至少一个目标框,所述目标框中任意两个所述像素之间的距离小于或等于预设像素距离。
本发明实施例第二方面公开了一种移动终端,所述移动终端包括:
二值化处理单元,用于对所述移动终端中的目标图片进行二值化处理,得到二值化图片;
框选单元,用于对所述二值化图片中的黑色部分进行框选,得到至少一个目标框;所述目标框中任意两个相邻像素点之间的距离小于或等于指定阈值;
第一获取单元,用于分别获取每一个所述目标框的中心点坐标,以及分别获取每一个所述目标框的面积;
确定单元,用于根据所述至少一个目标框确定出噪点框集和文本框集;其中,所述噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,所述文本框集中相邻目标框之间的中心点坐标距离大于或等于所述预设距离;
第二获取单元,用于获取所述噪点框集的总面积以及所述文本框集的总面积;其中,所述噪点框集的总面积为所述噪点框集中包含的所有目标框的面积之和,所述文本框集的总面积为所述文本框集中包含的所有目标框的面积之和;
判断单元,用于判断所述文本框集的总面积是否大于所述噪点框集的总面积;
识别单元,用于在所述判断单元判断出所述文本框集的总面积大于所述噪点框集的总面积之后,对所述文本框集进行文本识别,得到所述二值化图片中包含的文本信息。
作为一种可选的实施方式,在本发明实施例第二方面中,所述移动终端还包括:
第一输出单元,用于在所述判断单元判断出所述文本框集的总面积小于所述噪点框集的总面积之后,输出用于提示用户所述目标图片清晰度过低的提示信息;
第一检测单元,用于检测所述移动终端是否收到用户输入的重新拍摄指令;
开启单元,用于在所述第一检测单元检测到所述移动终端收到用户输入的重新拍摄指令之后,开启所述移动终端中的摄像头。
作为一种可选的实施方式,在本发明实施例第二方面中,所述文本信息为题目信息,所述移动终端还包括:
搜索单元,用于搜索与所述题目信息相似度大于或等于预设相似度的至少一个相似题目信息;
第二输出单元,用于按照与所述题目信息相似度由高到低的顺序输出所述至少一个相似题目信息以及所述至少一个相似题目信息分别对应的答案信息;
第二检测单元,用于检测用户从所述至少一个相似题目信息中选择的目标题目信息以及所述目标题目信息对应的答案信息;
存储单元,用于将所述目标题目信息以及所述目标题目信息对应的答案信息存储至云端数据库。
作为一种可选的实施方式,在本发明实施例第二方面中,所述二值化处理单元包括:
灰度化处理子单元,用于对所述移动终端中的目标图片进行灰度化处理,得到灰度化图片;
确定子单元,用于将所述灰度化图片中大于或等于预设临界灰度值的像素灰度作为灰度极大值,并且将所述灰度化图片中小于预设临界灰度值的像素灰度作为灰度极小值;
二值化处理子单元,用于根据所述灰度极大值和所述灰度极小值对所述灰度化图片进行二值化处理,得到二值化图片。
作为一种可选的实施方式,在本发明实施例第二方面中,所述框选单元包括:
检测子单元,用于检测所述二值化图片黑色部分中的所有相邻像素之间的距离;
框选子单元,用于框选所述二值化图片的黑色部分,得到至少一个目标框,所述目标框中任意两个所述像素之间的距离小于或等于预设像素距离。
本发明实施例第三方面公开了一种移动终端,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的对图片进行文本识别的方法。
本发明实施例第四方面公开了一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的对图片进行文本识别的方法。
本发明实施例第五方面公开了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面公开的对图片进行文本识别的方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,移动终端可以将移动终端中的图片进行二值化处理,得到只有黑色视觉效果以及白色视觉效果的二值化图片;移动终端还可以根据像素点之间的距离框选二值化图片中的黑色部分,其中,由于移动终端中有预先设定的相邻像素之间的指定阈值作为框选标准,所以移动终端根据相邻像素之间的距离与上述指定阈值之间的大于或小于或等于的关系可以将二值化图片中的黑色部分分别框选出来,得到至少一个目标框,该目标框中任意两个相邻像素点之间的距离小于或等于指定阈值;不仅如此,移动终端还能计算每个目标框的面积和中心点坐标,并根据相邻中心点坐标的距离与预设距离的大于或小于或等于的关系将目标框分为噪点框集和文本框集两类集合,其中,噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,文本框集中相邻目标框之间的中心点坐标距离大于或等于预设距离;当文本框集的总面积大于噪点框集的总面积时,移动终端则可以对文本框集进行文本识别,以获取二值化图片中的题目信息。综上所述,实施本发明实施例,能够通过排除图片上的噪点,提升对存在噪点较多的图片进行文本识别时的识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种对图片进行文本识别的方法的流程示意图;
图2是本发明实施例公开的另一种对图片进行文本识别的方法的流程示意图;
图3是本发明实施例公开的又一种对图片进行文本识别的方法的流程示意图;
图4是本发明实施例公开的一种移动终端的结构示意图;
图5是本发明实施例公开的另一种移动终端的结构示意图;
图6是本发明实施例公开的又一种移动终端的结构示意图;
图7是本发明实施例公开的又一种移动终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种对图片进行文本识别的方法及移动终端,能够提升对存在噪点较多的图片进行文本识别时的识别准确率。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种对图片进行文本识别的方法的流程示意图。其中,本发明各实施例所示的方法适用于智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑、UMPC(Ultra-mobile Personal Computer,超级移动个人计算机)、上网本以及移动互联网设备(Mobile Internet Devices,MID)、PAD等移动终端中。如图1所示该对图片进行文本识别的方法可以包括以下步骤:
101、移动终端对移动终端中的目标图片进行二值化处理,得到二值化图片。
本发明实施例中,移动终端中的目标图片可以是用户使用移动终端的摄像头拍摄的图片,也可以是用户从网页中下载的图片,也可以是其他终端通过蓝牙传输给该移动终端的图片,本发明实施例不作限定。移动终端可以将该移动终端中的目标图片(目标图片可以是用户选定的图片)二值化,对图片进行二值化处理可以是将图片上的像素点的灰度值设置为0或255,使整个图片呈现黑白效果。其中,二值化是图片分割的一种方法,移动终端在对图片进行二值化的时候,可以将大于移动终端中预设的临界灰度值的像素灰度作为灰度极大值(灰度极大值可以为255),将小于该临界灰度值的像素灰度作为灰度最小值(灰度极大值可以为0),进而可以实现图片二值化。另外,在该实施例中,二值化的算法可以使用全局固定阈值,也可以使用局部自适应阈值,本发明实施例不作限定。其中,全局固定阈值是用一个统一的阈值对整个图片进行二值化;局部自适应阈值是根据像素的邻域块的像素值分布来确定该像素位置上的二值化阈值,每个像素位置处的二值化阈值不是固定不变的,而是由周围邻域像素的分布来决定的。在步骤101中,如果目标图片为彩色图片,则需要在将图片二值化之前先将彩色图片灰度化得到灰度化图片,再将灰度化图片二值化,才能得到二值化图片。所以,执行步骤101能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量。
本发明实施例中,移动终端对图片进行二值化处理的方法可以是迭代方法、或者Huang阈值分割法、或者InterModes阈值分割法、或者IsoData阈值分割法、或者Li阈值分割法、或者MaxEntropy(最大熵值分割)、或者均值分割法、或者MinError(最小错误)法、或者Minimum(最小阈值)法、或者Moments(集合矩阈值)法、或者Otsu阈值法、或者Percentile阈值法、或者RenyiEntropy(雷尼熵阈值分割)法、或者Shanbhag(阈值分割)法、或者Triangle(三角阈值分割)法、或者Yen(阈值分割)法,本发明实施例不作限定。
102、移动终端对二值化图片中的黑色部分进行框选,得到至少一个目标框;目标框中任意两个相邻像素点之间的距离小于或等于指定阈值。
本发明实施例中,在步骤101得到二值化图片之后,移动终端可以对具有黑白效果的二值化图片中的黑色效果部分进行框选。其中,黑色效果部分实际为像素点的聚集,移动终端可以判断整个图片黑色效果部分中所包含的所有相邻像素之间的距离,并根据该距离对整个图片中黑色效果部分包含的像素进行框选,可以得到至少一个目标框,每个目标框中的黑色部分中的相邻像素之间距离均小于或等于某个移动终端中的预设像素距离。所以,执行步骤102能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率。
103、移动终端分别获取每一个目标框的中心点坐标,以及分别获取每一个目标框的面积。
本发明实施例中,在步骤102对二值化图片中的黑色部分进行框选,得到至少一个目标框之后,移动终端可以以目标图片的左下角作为平面直角坐标系的原点分别获取每一个目标框的中心点坐标,以及每一个目标框的面积。其中,以目标图片的左下角作为平面直角坐标系的原点为了使得所有目标框的中心点坐标为正值,以减少移动终端中中央处理器(CPU)的计算量,降低移动终端的功耗。
104、移动终端根据至少一个目标框确定出噪点框集和文本框集;其中,噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,文本框集中相邻目标框之间的中心点坐标距离大于或等于预设距离。
本发明实施例中,在步骤103分别获取每一个目标框的中心点坐标,以及分别获取每一个目标框的面积之后,移动终端可以使用聚类分析(Cluster analysis)将二值化图片中所有目标框分为噪点框集以及文本框集。其中,聚类分析(Cluster analysis)也可以称为群集分析,聚类分析(Cluster analysis)可以应用于机器学习、数据挖掘、模式识别、图像分析以及生物信息等领域。聚类分析(Cluster analysis)是把相似的对象通过静态分析的方法分成不同的组别或者更多的子集,即同一个子集中的成员对象均包含有相似的属性。在该实施例中,移动终端可使用结构性数据聚类算法也可以使用分散性数据聚类算法,本发明实施例中不作限定,如果移动终端中使用结构性数据聚类算法,可以使用的距离计算方法可以为欧氏距离(2-norm距离)、也可以为曼哈顿距离(Manhattan distance,1-norm距离)、也可以为马氏距离、也可以为余弦相似性、也可以使用汉明距离,本发明实施例不做限定;如果移动终端中使用分散性数据聚类算法,该分散性数据聚类算法可以包括K-均值法聚类,以及QT聚类算法,分散性数据聚类算法能够简洁、快速的得出结果。另外,移动终端中使用的聚类分析计算方法可以为分裂法(partitioning methods)、也可以为层次法(hierarchical methods)、基于密度的方法(density-based methods)、也可以为基于网格的方法(grid-basedmethods)、也可以为基于模型的方法(model-based methods),本发明实施例不作限定。所以,执行步骤104能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率。
105、移动终端获取噪点框集的总面积以及文本框集的总面积;其中,噪点框集的总面积为噪点框集中包含的所有目标框的面积之和,文本框集的总面积为文本框集中包含的所有目标框的面积之和。
本发明实施例中,在步骤104根据至少一个目标框确定出噪点框集和文本框集之后,移动终端可以将噪点框集中包含的所有目标框的面积相加,得到的面积之和即为噪点框集的总面积;移动终端还可以将文本框集中包含的所有目标框的面积相加,得到的面积之和即为文本框集的总面积。
106、移动终端判断文本框集的总面积是否大于噪点框集的总面积,如果是,执行步骤107,如果否,结束本次流程。
本发明实施例中,在步骤105获取到噪点框集的总面积以及文本框集的总面积之后,移动终端可以判断文本框集的总面积是否大于噪点框集的总面积,如果文本框集的总面积大于噪点框集的总面积,移动终端可以认为该目标图片的识别准确率高于某一阈值(例如70%),则执行步骤107;如果文本框集的总面积小于噪点框集的总面积,移动终端可以认为该目标图片的识别准确率低于某一阈值(例如70%),即目标图片较为模糊,可能无法识别,遂结束本次流程。所以,执行步骤106能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗。
107、移动终端对文本框集进行文本识别,得到二值化图片中包含的文本信息。
本发明实施例中,移动终端在判断出文本框集的总面积大于噪点框集的总面积之后,移动终端可以对文本框集进行文本识别,进而可以得到二值化图片中包含的文本信息。其中,移动终端对文本框集进行的文本识别可以是OCR(Optical Character Recognition光学字符识别)技术。OCR技术的识别过程首先是图片输入、图片前处理、预识别(包括二值化、噪声去除、倾斜校正等),再对图片进行版面分析、字符分割、字符识别,最终再对图片进行版面还原、后处理以及校对(根据特定的语言上下文的关系,对识别结果进行校正)。
可见,实施图1所描述的方法,移动终端能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量;移动终端还能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率;移动终端还能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率;移动终端还能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗。所以,实施图1所描述的方法能够提升对存在噪点较多的图片进行文本识别时的识别准确率。
实施例二
请参阅图2,图2是本发明实施例公开的另一种对图片进行文本识别的方法的流程示意图。如图2所示该对图片进行文本识别的方法可以包括以下步骤:
在本发明实施例中,该对图片进行文本识别的方法包括步骤201~步骤207,针对步骤201~步骤207的描述,请参照实施例一中针对步骤101~步骤107的详细描述,本发明实施例不再赘述。
208、移动终端输出用于提示用户目标图片清晰度过低的提示信息。
本发明实施例中,在步骤206判断出文本框集的总面积小于或等于噪点框集的总面积之后,移动终端默认噪点过多导致图片清晰度过低,所以,移动终端输出用于提示用户目标图片清晰度过低的提示信息。所以,执行步骤208能够通过输出用于提示用户目标图片清晰度过低的提示信息这样的人机交互方式,改善用户体验。
209、移动终端检测移动终端是否收到用户输入的重新拍摄指令,如果是,执行步骤210,如果否,执行步骤207。
本发明实施例中,在步骤208输出用于提示用户目标图片清晰度过低的提示信息之后,移动终端可以对该移动终端进行实时监测,如果接收到用户输入的用于重新拍摄的指令,则执行步骤210,如果未接收到用户输入的用于重新拍摄的指令,则执行步骤207,即对文本框集进行文本识别。
210、移动终端开启移动终端中的摄像头。
可见,实施图2所描述的方法,移动终端能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量;移动终端还能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率;移动终端还能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率;移动终端还能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗;移动终端还能够通过输出用于提示用户目标图片清晰度过低的提示信息这样的人机交互方式,改善用户体验。所以,实施图2所描述的方法能够进一步提升对存在噪点较多的图片进行文本识别时的识别准确率。
实施例三
请参阅图3,图3是本发明实施例公开的又一种对图片进行文本识别的方法的流程示意图。在实施例三中,文本信息为题目信息。如图3所示,该对图片进行文本识别的方法可以包括以下步骤:
在本发明实施例中,该对图片进行文本识别的方法包括步骤301~步骤307,针对步骤301~步骤307的描述,请参照实施例一中针对步骤101~步骤107的详细描述,本发明实施例不再赘述。
308、移动终端搜索与题目信息相似度大于或等于预设相似度的至少一个相似题目信息。
本发明实施例中,当步骤307得到二值化图片中包含的文本信息时,又因为在该实施例中,文本信息即为题目信息,移动终端可以搜索与题目信息中所包含的信息具有相同部分的相似题目信息,其中,题目信息包括题干信息和选项信息。
309、移动终端按照与题目信息相似度由高到低的顺序输出至少一个相似题目信息以及至少一个相似题目信息分别对应的答案信息。
本发明实施例中,在步骤308搜索到与题目信息相似度大于或等于预设相似度的至少一个相似题目信息之后,移动终端可以按照与题目信息相似度由高到低的顺序输出至少一个相似题目信息以及至少一个相似题目信息分别对应的答案信息,其中,每个相似题目信息都有一个一一对应的答案信息。所以,执行步骤309能够通过由高到低的相似度将搜索到的相似题目信息排序,减少了用户在乱序排列情况下的翻阅查找的工作,进而改善了用户体验。
310、移动终端检测用户从至少一个相似题目信息中选择的目标题目信息以及目标题目信息对应的答案信息。
本发明实施例中,在步骤309按照与题目信息相似度由高到低的顺序输出至少一个相似题目信息以及至少一个相似题目信息分别对应的答案信息之后,移动终端可以检测到用户根据需求选择的某一个相似题目信息以及其对应的答案。
311、移动终端将目标题目信息以及目标题目信息对应的答案信息存储至云端数据库。
本发明实施例中,在步骤310检测到用户从至少一个相似题目信息中选择的目标题目信息以及目标题目信息对应的答案信息之后,移动终端可以将用户的选择结果进行存储,方便用户查阅。所以,执行步骤311能够通过将目标题目信息以及目标题目信息对应的答案信息存储至云端数据库,为移动终端分析用户提供了更多数据,有助于移动终端自适应用户,进而可以进一步改善用户体验。
其中,该对图片进行文本识别的方法还包括步骤312~步骤314,针对步骤312~步骤314的描述,请参照实施例二中针对步骤208~步骤210的详细描述,本发明实施例不再赘述。
作为一种可选的实施例,移动终端对移动终端中的目标图片进行二值化处理,得到二值化图片,可以包括:
移动终端对移动终端中的目标图片进行灰度化处理,得到灰度化图片;
移动终端将所述灰度化图片中大于或等于预设临界灰度值的像素灰度作为灰度极大值,并且将灰度化图片中小于预设临界灰度值的像素灰度作为灰度极小值;
移动终端根据灰度极大值和灰度极小值对灰度化图片进行二值化处理,得到二值化图片。
可见,实施该实施例能够通过移动终端对目标图片的灰度化处理以及二值化处理,提高移动终端对图片进行文本识别的效率。
作为另一种可选的实施例,移动终端对二值化图片中的黑色部分进行框选,得到至少一个目标框,可以包括:
移动终端检测二值化图片黑色部分中的所有相邻像素之间的距离;
移动终端框选二值化图片的黑色部分,得到至少一个目标框,目标框中任意两个像素之间的距离小于或等于预设像素距离。
可见,实施该实施例能够通过移动终端对二值化图片的黑色部分中的相邻像素之间距离的计算,得到的目标框中的像素均小于或等于预设像素距离,可以提高对噪点和文本的区分度,进而可以提高移动终端对噪点较多的图片进行文本识别时的准确率。
可见,实施图3所描述的方法,移动终端能够移动终端能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量;移动终端还能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率;移动终端还能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率;移动终端还能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗;移动终端还能够通过输出用于提示用户目标图片清晰度过低的提示信息这样的人机交互方式,改善用户体验;移动终端还能够通过由高到低的相似度将搜索到的相似题目信息排序,减少了用户在乱序排列情况下的翻阅查找的工作,进而改善了用户体验;移动终端还能够通过将目标题目信息以及目标题目信息对应的答案信息存储至云端数据库,为移动终端分析用户提供了更多数据,有助于移动终端自适应用户,进而可以进一步改善用户体验;移动终端还能够通过移动终端对目标图片的灰度化处理以及二值化处理,提高移动终端对图片进行文本识别的效率;移动终端还能够通过移动终端对二值化图片的黑色部分中的相邻像素之间距离的计算,得到的目标框中的像素均小于或等于预设像素距离,可以提高对噪点和文本的区分度,进而可以提高移动终端对噪点较多的图片进行文本识别时的准确率。所以,实施图3所描述的方法能够更进一步提升对存在噪点较多的图片进行文本识别时的识别准确率。
实施例四
请参阅图4,图4是本发明实施例公开的一种移动终端的结构示意图。其中,本发明各实施例所示的移动终端可为智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑、UMPC(Ultra-mobile Personal Computer,超级移动个人计算机)、上网本以及移动互联网设备(Mobile Internet Devices,MID)、PAD等移动终端。如图4所示,该移动终端可以包括:
二值化处理单元401,用于对移动终端中的目标图片进行二值化处理,得到二值化图片。
本发明实施例中,移动终端中的目标图片可以是用户使用移动终端的摄像头拍摄的图片,也可以是用户从网页中下载的图片,也可以是其他终端通过蓝牙传输给该移动终端的图片,本发明实施例不作限定。二值化处理单元401可以将该移动终端中的目标图片(目标图片可以是用户选定的图片)二值化,对图片进行二值化处理可以是将图片上的像素点的灰度值设置为0或255,使整个图片呈现黑白效果。其中,二值化是图片分割的一种方法,移动终端在对图片进行二值化的时候,可以将大于移动终端中预设的临界灰度值的像素灰度作为灰度极大值(灰度极大值可以为255),将小于该临界灰度值的像素灰度作为灰度最小值(灰度极大值可以为0),进而可以实现图片二值化。另外,在该实施例中,二值化的算法可以使用全局固定阈值,也可以使用局部自适应阈值,本发明实施例不作限定。其中,全局固定阈值是用一个统一的阈值对整个图片进行二值化;局部自适应阈值是根据像素的邻域块的像素值分布来确定该像素位置上的二值化阈值,每个像素位置处的二值化阈值不是固定不变的,而是由周围邻域像素的分布来决定的。在二值化处理单元401中,如果目标图片为彩色图片,则需要在将图片二值化之前先将彩色图片灰度化得到灰度化图片,再将灰度化图片二值化,才能得到二值化图片。所以,执行二值化处理单元401能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量。
本发明实施例中,二值化处理单元401对图片进行二值化处理的方法可以是迭代方法、或者Huang阈值分割法、或者InterModes阈值分割法、或者IsoData阈值分割法、或者Li阈值分割法、或者MaxEntropy(最大熵值分割)、或者均值分割法、或者MinError(最小错误)法、或者Minimum(最小阈值)法、或者Moments(集合矩阈值)法、或者Otsu阈值法、或者Percentile阈值法、或者RenyiEntropy(雷尼熵阈值分割)法、或者Shanbhag(阈值分割)法、或者Triangle(三角阈值分割)法、或者Yen(阈值分割)法,本发明实施例不作限定。
框选单元402,用于对二值化图片中的黑色部分进行框选,得到至少一个目标框;目标框中任意两个相邻像素点之间的距离小于或等于指定阈值。
本发明实施例中,在二值化处理单元401得到二值化图片之后,框选单元402可以对具有黑白效果的二值化图片中的黑色效果部分进行框选。其中,黑色效果部分实际为像素点的聚集,移动终端可以判断整个图片黑色效果部分中所包含的所有相邻像素之间的距离,并根据该距离对整个图片中黑色效果部分包含的像素进行框选,可以得到至少一个目标框,每个目标框中的黑色部分中的相邻像素之间距离均小于或等于某个移动终端中的预设像素距离。所以,执行框选单元402能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率。
第一获取单元403,用于分别获取每一个目标框的中心点坐标,以及分别获取每一个目标框的面积。
本发明实施例中,在框选单元402对二值化图片中的黑色部分进行框选,得到至少一个目标框之后,第一获取单元403可以以目标图片的左下角作为平面直角坐标系的原点分别获取每一个目标框的中心点坐标,以及每一个目标框的面积。其中,以目标图片的左下角作为平面直角坐标系的原点为了使得所有目标框的中心点坐标为正值,以减少移动终端中中央处理器(CPU)的计算量,降低移动终端的功耗。
确定单元404,用于根据至少一个目标框确定出噪点框集和文本框集;其中,噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,文本框集中相邻目标框之间的中心点坐标距离大于或等于预设距离。
本发明实施例中,在第一获取单元403分别获取每一个目标框的中心点坐标,以及分别获取每一个目标框的面积之后,确定单元404可以使用聚类分析(Cluster analysis)将二值化图片中所有目标框分为噪点框集以及文本框集。其中,聚类分析(Clusteranalysis)也可以称为群集分析,聚类分析(Cluster analysis)可以应用于机器学习、数据挖掘、模式识别、图像分析以及生物信息等领域。聚类分析(Cluster analysis)是把相似的对象通过静态分析的方法分成不同的组别或者更多的子集,即同一个子集中的成员对象均包含有相似的属性。在该实施例中,确定单元404可使用结构性数据聚类算法也可以使用分散性数据聚类算法,本发明实施例中不作限定,如果移动终端中使用结构性数据聚类算法,可以使用的距离计算方法可以为欧氏距离(2-norm距离)、也可以为曼哈顿距离(Manhattandistance,1-norm距离)、也可以为马氏距离、也可以为余弦相似性、也可以使用汉明距离,本发明实施例不做限定;如果移动终端中使用分散性数据聚类算法,该分散性数据聚类算法可以包括K-均值法聚类,以及QT聚类算法,分散性数据聚类算法能够简洁、快速的得出结果。另外,移动终端中使用的聚类分析计算方法可以为分裂法(partitioning methods)、也可以为层次法(hierarchical methods)、基于密度的方法(density-based methods)、也可以为基于网格的方法(grid-basedmethods)、也可以为基于模型的方法(model-basedmethods),本发明实施例不作限定。所以,执行确定单元404能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率。
第二获取单元405,用于获取噪点框集的总面积以及文本框集的总面积;其中,噪点框集的总面积为噪点框集中包含的所有目标框的面积之和,文本框集的总面积为文本框集中包含的所有目标框的面积之和。
本发明实施例中,在确定单元404根据至少一个目标框确定出噪点框集和文本框集之后,第二获取单元405可以将噪点框集中包含的所有目标框的面积相加,得到的面积之和即为噪点框集的总面积;移动终端还可以将文本框集中包含的所有目标框的面积相加,得到的面积之和即为文本框集的总面积。
判断单元406,用于判断文本框集的总面积是否大于噪点框集的总面积。
本发明实施例中,在第二获取单元405获取到噪点框集的总面积以及文本框集的总面积之后,判断单元406可以判断文本框集的总面积是否大于噪点框集的总面积,如果文本框集的总面积大于噪点框集的总面积,判断单元406可以认为该目标图片的识别准确率高于某一阈值(例如70%),则执行步骤107;如果文本框集的总面积小于噪点框集的总面积,判断单元406可以认为该目标图片的识别准确率低于某一阈值(例如70%),即目标图片较为模糊,可能无法识别,遂结束本次流程。所以,执行判断单元406能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗。
识别单元407,用于在判断单元406判断出文本框集的总面积大于噪点框集的总面积之后,对文本框集进行文本识别,得到二值化图片中包含的文本信息。
本发明实施例中,判断单元406在判断出文本框集的总面积大于噪点框集的总面积之后,识别单元407可以对文本框集进行文本识别,进而可以得到二值化图片中包含的文本信息。其中,移动终端对文本框集进行的文本识别可以是OCR(Optical CharacterRecognition光学字符识别)技术。OCR技术的识别过程首先是图片输入、图片前处理、预识别(包括二值化、噪声去除、倾斜校正等),再对图片进行版面分析、字符分割、字符识别,最终再对图片进行版面还原、后处理以及校对(根据特定的语言上下文的关系,对识别结果进行校正)。
可见,实施图4所描述的移动终端中,二值化处理单元401能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量;框选单元402能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率;确定单元404能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率;判断单元406能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗。所以,实施图4所描述的移动终端能够提升对存在噪点较多的图片进行文本识别时的识别准确率。
实施例五
请参阅图5,图5是本发明实施例公开的另一种移动终端的结构示意图。其中,图5所示的移动终端是由图4所示的移动终端进行优化得到的。与图4所示的移动终端相比较,图5所示的移动终端还可以包括:
第一输出单元408,用于在判断单元406判断出文本框集的总面积小于噪点框集的总面积之后,输出用于提示用户目标图片清晰度过低的提示信息。
本发明实施例中,在第一输出单元408输出用于提示用户目标图片清晰度过低的提示信息之后,触发执行第一检测单元409。
本发明实施例中,在判断单元406判断出文本框集的总面积小于或等于噪点框集的总面积之后,移动终端默认噪点过多导致图片清晰度过低,所以,第一输出单元408输出用于提示用户目标图片清晰度过低的提示信息。所以,执行第一输出单元408能够通过输出用于提示用户目标图片清晰度过低的提示信息这样的人机交互方式,改善用户体验。
第一检测单元409,用于检测移动终端是否收到用户输入的重新拍摄指令。
本发明实施例中,在第一输出单元408输出用于提示用户目标图片清晰度过低的提示信息之后,第一检测单元409可以对该移动终端进行实时监测,如果接收到用户输入的用于重新拍摄的指令,则执行开启单元410,如果未接收到用户输入的用于重新拍摄的指令,则执行识别单元407,即对文本框集进行文本识别。
开启单元410,用于在第一检测单元409检测到移动终端收到用户输入的重新拍摄指令之后,开启移动终端中的摄像头。
可见,实施图5所描述的移动终端中,获取单元401能够二值化处理单元401能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量;框选单元402能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率;确定单元404能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率;判断单元406能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗;第一输出单元408能够通过输出用于提示用户目标图片清晰度过低的提示信息这样的人机交互方式,改善用户体验。所以,实施图5所描述的移动终端能够进一步提升对存在噪点较多的图片进行文本识别时的识别准确率。
实施例六
请参阅图6,图6是本发明实施例公开的又一种移动终端的结构示意图。其中,图6所示的移动终端是由图5所示的移动终端进行优化得到的。与图5所示的移动终端相比较,图6所示的移动终端中,文本信息为题目信息,图6所示的移动终端还可以包括:
搜索单元411,用于搜索与题目信息相似度大于或等于预设相似度的至少一个相似题目信息。
本发明实施例中,在识别单元407对文本框集进行文本识别,得到二值化图片中包含的文本信息之后,又因为在该实施例中,文本信息即为题目信息,搜索单元411可以搜索与题目信息相似度大于或等于预设相似度的至少一个相似题目信息,其中,题目信息包括题干信息和选项信息。
第二输出单元412,用于按照与题目信息相似度由高到低的顺序输出至少一个相似题目信息以及至少一个相似题目信息分别对应的答案信息。
本发明实施例中,在搜索单元411搜索到与题目信息相似度大于或等于预设相似度的至少一个相似题目信息之后,第二输出单元412可以按照与题目信息相似度由高到低的顺序输出至少一个相似题目信息以及至少一个相似题目信息分别对应的答案信息,其中,每个相似题目信息都有一个一一对应的答案信息。所以,执行第二输出单元412能够通过由高到低的相似度将搜索到的相似题目信息排序,减少了用户在乱序排列情况下的翻阅查找的工作,进而改善了用户体验。
第二检测单元413,用于检测用户从至少一个相似题目信息中选择的目标题目信息以及目标题目信息对应的答案信息。
本发明实施例中,在第二输出单元412按照与题目信息相似度由高到低的顺序输出至少一个相似题目信息以及至少一个相似题目信息分别对应的答案信息之后,第二检测单元413可以检测到用户根据需求选择的某一个相似题目信息以及其对应的答案。
存储单元414,用于将目标题目信息以及目标题目信息对应的答案信息存储至云端数据库。
本发明实施例中,在第二检测单元413检测到用户从至少一个相似题目信息中选择的目标题目信息以及目标题目信息对应的答案信息之后,存储单元414可以将用户的选择结果进行存储,方便用户查阅。所以,执行存储单元414能够通过将目标题目信息以及目标题目信息对应的答案信息存储至云端数据库,为移动终端分析用户提供了更多数据,有助于移动终端自适应用户,进而可以进一步改善用户体验。
二值化处理单元401可以包括:
灰度化处理子单元4011,用于对移动终端中的目标图片进行灰度化处理,得到灰度化图片。
确定子单元4012,用于将灰度化图片中大于或等于预设临界灰度值的像素灰度作为灰度极大值,并且将灰度化图片中小于预设临界灰度值的像素灰度作为灰度极小值。
二值化处理子单元4013,用于根据灰度极大值和灰度极小值对灰度化图片进行二值化处理,得到二值化图片。
本发明实施例中,灰度化处理子单元4011、确定子单元4012、以及二值化处理子单元4013能够通过对目标图片的灰度化处理以及二值化处理,提高移动终端对图片进行文本识别的效率。
框选单元402可以包括:
检测子单元4021,用于检测二值化图片黑色部分中的所有相邻像素之间的距离。
框选子单元4022,用于框选二值化图片的黑色部分,得到至少一个目标框,目标框中任意两个像素之间的距离小于或等于预设像素距离。
本发明实施例中,检测子单元4021以及框选子单元4022能够通过移动终端对二值化图片的黑色部分中的相邻像素之间距离的计算,得到的目标框中的像素均小于或等于预设像素距离,可以提高对噪点和文本的区分度,进而可以提高移动终端对噪点较多的图片进行文本识别时的准确率。
可见,实施图6所描述的移动终端中,获取单元401能够二值化处理单元401能够通过将目标图片转变为二值化图片,简化目标图片,进而可以减少移动终端中的中央处理器(CPU)的计算量;框选单元402能够通过对二值化图片中的黑色部分进行框选,得到至少一个目标框,因为目标框中可能存在噪点框,所以,执行该步骤有助于区分噪点,进而提高移动终端对目标框中文本框的识别准确率;确定单元404能够通过确定出噪点框集和文本框集,将噪点部分与文本部分区分出来,有助于移动终端消除图片中的噪点,提高了移动终端对图片中文本部分识别的效率;判断单元406能够通过判断文本框集的总面积是否大于噪点框集的总面积来决定是否对文本框进行文本识别,当文本框集的总面积大于噪点框集的总面积的时候,移动终端才对文本框集进行文本识别,如果文本框集的总面积小于噪点框集的总面积,移动终端则不会对文本框集进行文本识别,降低了移动终端的功耗;第一输出单元408能够通过输出用于提示用户目标图片清晰度过低的提示信息这样的人机交互方式,改善用户体验;第二输出单元412能够通过由高到低的相似度将搜索到的相似题目信息排序,减少了用户在乱序排列情况下的翻阅查找的工作,进而改善了用户体验;存储单元414能够通过将目标题目信息以及目标题目信息对应的答案信息存储至云端数据库,为移动终端分析用户提供了更多数据,有助于移动终端自适应用户,进而可以进一步改善用户体验;灰度化处理子单元4011、确定子单元4012、以及二值化处理子单元4013能够通过移动终端对目标图片的灰度化处理以及二值化处理,提高移动终端对图片进行文本识别的效率;检测子单元4021以及框选子单元4022能够通过移动终端对二值化图片的黑色部分中的相邻像素之间距离的计算,得到的目标框中的像素均小于或等于预设像素距离,可以提高对噪点和文本的区分度,进而可以提高移动终端对噪点较多的图片进行文本识别时的准确率。所以,实施图6所描述的移动终端能够更进一步提升对存在噪点较多的图片进行文本识别时的识别准确率。
实施例七
请参阅图7,图7是本发明实施例公开的又一种移动终端的结构示意图。如图7所示,该移动终端可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
其中,处理器702调用存储器701中存储的可执行程序代码,执行图1~图3任意一种对图片进行文本识别的方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图3任意一种对图片进行文本识别的方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在上述实施例中,可全部或部分地通过软件、硬件、固件或其任意组合来实现。当使用软件实现时,可全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(磁性介质例如可以是软盘、硬盘、磁带)、光介质(例如光盘)、或半导体介质(例如固态硬盘)等。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可以通过其它的方式来实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或者讨论的相互之间的耦合或直接耦合或通信连接可以通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的全部或部分步骤。
以上所述,以上实施例仅用以说明本申请的技术方案而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,然而本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种对图片进行文本识别的方法,其特征在于,所述方法包括:
移动终端对所述移动终端中的目标图片进行二值化处理,得到二值化图片;
所述移动终端对所述二值化图片中的黑色部分进行框选,得到至少一个目标框;所述目标框中任意两个相邻像素点之间的距离小于或等于指定阈值;
所述移动终端分别获取每一个所述目标框的中心点坐标,以及分别获取每一个所述目标框的面积;
所述移动终端根据所述至少一个目标框确定出噪点框集和文本框集;其中,所述噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,所述文本框集中相邻目标框之间的中心点坐标距离大于或等于所述预设距离;
所述移动终端获取所述噪点框集的总面积以及所述文本框集的总面积;其中,所述噪点框集的总面积为所述噪点框集中包含的所有目标框的面积之和,所述文本框集的总面积为所述文本框集中包含的所有目标框的面积之和;
所述移动终端判断所述文本框集的总面积是否大于所述噪点框集的总面积;
如果是,所述移动终端对所述文本框集进行文本识别,得到所述二值化图片中包含的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述移动终端判断出所述文本框集的总面积小于所述噪点框集的总面积,所述移动终端输出用于提示用户所述目标图片清晰度过低的提示信息;
所述移动终端检测所述移动终端是否收到用户输入的重新拍摄指令,如果是,开启所述移动终端中的摄像头。
3.根据权利要求2所述的方法,其特征在于,所述文本信息为题目信息,所述方法还包括:
所述移动终端搜索与所述题目信息相似度大于或等于预设相似度的至少一个相似题目信息;
所述移动终端按照与所述题目信息相似度由高到低的顺序输出所述至少一个相似题目信息以及所述至少一个相似题目信息分别对应的答案信息;
所述移动终端检测用户从所述至少一个相似题目信息中选择的目标题目信息以及所述目标题目信息对应的答案信息;
所述移动终端将所述目标题目信息以及所述目标题目信息对应的答案信息存储至云端数据库。
4.根据权利要求3所述的方法,其特征在于,所述的移动终端对所述移动终端中的目标图片进行二值化处理,得到二值化图片,包括:
移动终端对所述移动终端中的目标图片进行灰度化处理,得到灰度化图片;
所述移动终端将所述灰度化图片中大于或等于预设临界灰度值的像素灰度作为灰度极大值,并且将所述灰度化图片中小于预设临界灰度值的像素灰度作为灰度极小值;
所述移动终端根据所述灰度极大值和所述灰度极小值对所述灰度化图片进行二值化处理,得到二值化图片。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述的所述移动终端对所述二值化图片中的黑色部分进行框选,得到至少一个目标框,包括:
所述移动终端检测所述二值化图片黑色部分中的所有相邻像素之间的距离;
所述移动终端框选所述二值化图片的黑色部分,得到至少一个目标框,所述目标框中任意两个所述像素之间的距离小于或等于预设像素距离。
6.一种移动终端,其特征在于,所述移动终端包括:
二值化处理单元,用于对所述移动终端中的目标图片进行二值化处理,得到二值化图片;
框选单元,用于对所述二值化图片中的黑色部分进行框选,得到至少一个目标框;所述目标框中任意两个相邻像素点之间的距离小于或等于指定阈值;
第一获取单元,用于分别获取每一个所述目标框的中心点坐标,以及分别获取每一个所述目标框的面积;
确定单元,用于根据所述至少一个目标框确定出噪点框集和文本框集;其中,所述噪点框集中相邻目标框之间的中心点坐标距离小于预设距离,所述文本框集中相邻目标框之间的中心点坐标距离大于或等于所述预设距离;
第二获取单元,用于获取所述噪点框集的总面积以及所述文本框集的总面积;其中,所述噪点框集的总面积为所述噪点框集中包含的所有目标框的面积之和,所述文本框集的总面积为所述文本框集中包含的所有目标框的面积之和;
判断单元,用于判断所述文本框集的总面积是否大于所述噪点框集的总面积;
识别单元,用于在所述判断单元判断出所述文本框集的总面积大于所述噪点框集的总面积之后,对所述文本框集进行文本识别,得到所述二值化图片中包含的文本信息。
7.根据权利要求6所述的移动终端,其特征在于,所述移动终端还包括:
第一输出单元,用于在所述判断单元判断出所述文本框集的总面积小于所述噪点框集的总面积之后,输出用于提示用户所述目标图片清晰度过低的提示信息;
第一检测单元,用于检测所述移动终端是否收到用户输入的重新拍摄指令;
开启单元,用于在所述第一检测单元检测到所述移动终端收到用户输入的重新拍摄指令之后,开启所述移动终端中的摄像头。
8.根据权利要求7所述的移动终端,其特征在于,所述文本信息为题目信息,所述移动终端还包括:
搜索单元,用于搜索与所述题目信息相似度大于或等于预设相似度的至少一个相似题目信息;
第二输出单元,用于按照与所述题目信息相似度由高到低的顺序输出所述至少一个相似题目信息以及所述至少一个相似题目信息分别对应的答案信息;
第二检测单元,用于检测用户从所述至少一个相似题目信息中选择的目标题目信息以及所述目标题目信息对应的答案信息;
存储单元,用于将所述目标题目信息以及所述目标题目信息对应的答案信息存储至云端数据库。
9.根据权利要求8所述的移动终端,其特征在于,所述二值化处理单元包括:
灰度化处理子单元,用于对所述移动终端中的目标图片进行灰度化处理,得到灰度化图片;
确定子单元,用于将所述灰度化图片中大于或等于预设临界灰度值的像素灰度作为灰度极大值,并且将所述灰度化图片中小于预设临界灰度值的像素灰度作为灰度极小值;
二值化处理子单元,用于根据所述灰度极大值和所述灰度极小值对所述灰度化图片进行二值化处理,得到二值化图片。
10.根据权利要求6~9任一项所述的移动终端,其特征在于,所述框选单元包括:
检测子单元,用于检测所述二值化图片黑色部分中的所有相邻像素之间的距离;
框选子单元,用于框选所述二值化图片的黑色部分,得到至少一个目标框,所述目标框中任意两个所述像素之间的距离小于或等于预设像素距离。
CN201711422254.2A 2017-12-25 2017-12-25 一种对图片进行文本识别的方法及移动终端 Active CN107992872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711422254.2A CN107992872B (zh) 2017-12-25 2017-12-25 一种对图片进行文本识别的方法及移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711422254.2A CN107992872B (zh) 2017-12-25 2017-12-25 一种对图片进行文本识别的方法及移动终端

Publications (2)

Publication Number Publication Date
CN107992872A true CN107992872A (zh) 2018-05-04
CN107992872B CN107992872B (zh) 2020-04-28

Family

ID=62041734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711422254.2A Active CN107992872B (zh) 2017-12-25 2017-12-25 一种对图片进行文本识别的方法及移动终端

Country Status (1)

Country Link
CN (1) CN107992872B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110087233A (zh) * 2019-03-28 2019-08-02 东南大学 一种基于射频指纹的无人机身份认证方法
CN110334702A (zh) * 2019-05-30 2019-10-15 深圳壹账通智能科技有限公司 基于配置平台的数据传输方法、装置和计算机设备
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373121A (zh) * 2016-09-18 2017-02-01 广东小天才科技有限公司 模糊图像识别方法和装置
EP2808827B1 (en) * 2013-05-28 2017-04-26 Xerox Corporation System and method for OCR output verification
CN106845474A (zh) * 2015-12-07 2017-06-13 富士通株式会社 图像处理装置和方法
CN106991422A (zh) * 2017-05-02 2017-07-28 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2808827B1 (en) * 2013-05-28 2017-04-26 Xerox Corporation System and method for OCR output verification
CN106845474A (zh) * 2015-12-07 2017-06-13 富士通株式会社 图像处理装置和方法
CN106373121A (zh) * 2016-09-18 2017-02-01 广东小天才科技有限公司 模糊图像识别方法和装置
CN106991422A (zh) * 2017-05-02 2017-07-28 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110087233A (zh) * 2019-03-28 2019-08-02 东南大学 一种基于射频指纹的无人机身份认证方法
CN110087233B (zh) * 2019-03-28 2022-06-24 东南大学 一种基于射频指纹的无人机身份认证方法
CN110334702A (zh) * 2019-05-30 2019-10-15 深圳壹账通智能科技有限公司 基于配置平台的数据传输方法、装置和计算机设备
CN112183249A (zh) * 2020-09-14 2021-01-05 北京神州泰岳智能数据技术有限公司 一种视频处理方法和装置

Also Published As

Publication number Publication date
CN107992872B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
US10204216B2 (en) Verification methods and verification devices
CN108664897A (zh) 票据识别方法、装置及存储介质
CN107679546A (zh) 人脸图像数据采集方法、装置、终端设备及存储介质
CN111553326B (zh) 手部动作识别方法、装置、电子设备及存储介质
CN109255297A (zh) 动物状态监测方法、终端设备、存储介质及电子设备
CN108228844A (zh) 一种图片筛选方法及装置、存储介质、计算机设备
CN107992872A (zh) 一种对图片进行文本识别的方法及移动终端
CN102663435B (zh) 基于半监督的垃圾图片过滤方法
CN108228720B (zh) 识别目标文字内容和原图相关性的方法、系统、装置、终端、及存储介质
CN110349082A (zh) 图像区域的裁剪方法和装置、存储介质及电子装置
JP6787831B2 (ja) 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法
TW201118780A (en) Intelligent mobile dervice product evaluation system and method based on information retrieval technnology
CN113420690A (zh) 基于感兴趣区域的静脉识别方法、装置、设备及存储介质
Zhu et al. A modified deep neural network enables identification of foliage under complex background
CN108108450B (zh) 图像处理的方法及相关设备
EP3037985A1 (en) Search method and system, search engine and client
CN110503409A (zh) 信息处理的方法以及相关装置
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN113435335A (zh) 微观表情识别方法、装置、电子设备及存储介质
CN104077524B (zh) 用于病毒鉴定的训练方法和病毒鉴定方法及装置
JPWO2019244276A1 (ja) 検索システム、検索方法、及びプログラム
CN112818114B (zh) 信息的分类方法、检测方法、计算设备及存储介质
CN110427870B (zh) 眼部图片识别方法、目标识别模型训练方法及装置
CN110210572A (zh) 图像分类方法、装置、存储介质及设备
CN109033078A (zh) 语句类别识别方法及装置、存储介质、处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant