CN104573675B - 作业图像的展示方法和装置 - Google Patents
作业图像的展示方法和装置 Download PDFInfo
- Publication number
- CN104573675B CN104573675B CN201510047554.1A CN201510047554A CN104573675B CN 104573675 B CN104573675 B CN 104573675B CN 201510047554 A CN201510047554 A CN 201510047554A CN 104573675 B CN104573675 B CN 104573675B
- Authority
- CN
- China
- Prior art keywords
- image
- ordinate
- pair
- target area
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
Abstract
本发明提出一种作业图像的展示方法和装置,该作业图像的展示方法包括获取作业图像;确定所述作业图像中的目标区域;在所述作业图像中,标识出所述目标区域。该方法能够降低用户操作的代价和成本。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种作业图像的展示方法和装置。
背景技术
移动应用程序是运行在移动设备上的应用程序,用户可以通过运行移动应用程序通过移动网络获取信息。移动应用程序的功能越来越多,一种移动应用程序可以解答学生用户的作业难题,方便学生用户使用,例如,百度提出的作业帮。用户在使用这类应用程序时,可以先对作业进行拍照,得到作业图像,再根据作业图像进行搜索,得到答案。
现有技术中,在得到作业图像后,可以在作业图像上显示系统默认的裁剪框,用户可以对该裁剪框进行操作,选择出要搜索的内容,在选择后通过提交搜索选择的内容。
但是,这种方式需要用户手工选择,存在一定的代价和成本。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种作业图像的展示方法,该方法可以降低用户操作的代价和成本。
本发明的另一个目的在于提出一种作业图像的展示装置。
为达到上述目的,本发明第一方面实施例提出的作业图像的展示方法,包括:获取作业图像;确定所述作业图像中的目标区域;在所述作业图像中,标识出所述目标区域。
本发明第一方面实施例提出的作业图像的展示方法,通过确定作业图像中的目标区域,并在作业图像中标识出目标区域,可以直接定位出目标区域,实现目标区域的自动识别,不需要用户手工选择目标区域,从而降低用户操作的代价和成本。
为达到上述目的,本发明第二方面实施例提出的作业图像的展示装置,包括:获取模块,用于获取作业图像;确定模块,用于确定所述作业图像中的目标区域;标识模块,用于在所述作业图像中,标识出所述目标区域。
本发明第二方面实施例提出的作业图像的展示装置,通过确定作业图像中的目标区域,并在作业图像中标识出目标区域,可以直接定位出目标区域,实现目标区域的自动识别,不需要用户手工选择目标区域,从而降低用户操作的代价和成本。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的作业图像的展示方法的流程示意图;
图2是本发明实施例中确定作业图像中目标区域的流程示意图;
图3是本发明实施例中在作业图像中标识目标区域的效果示意图;
图4是本发明另一实施例提出的作业图像的展示方法的流程示意图;
图5是本发明另一实施例提出的作业图像的展示装置的结构示意图;
图6是本发明另一实施例提出的作业图像的展示装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的作业图像的展示方法的流程示意图,该方法包括:
S11:获取作业图像。
例如,用户可以对要搜索的作业进行拍照,得到作业图像,或者,用户也可以直接从已有的图片库中选择作业图像。
在用户拍照或者选择得到作业图像后,移动应用程序可以接收用户拍照或者选择得到的作业图像。
S12:确定所述作业图像中的目标区域。
其中,目标区域是用户要搜索的内容所在的区域,例如,作业图像中题目所在的区域。
目标区域可以是一个或者多个,多个是指至少两个。
可选的,参见图2,所述确定所述作业图像中的目标区域,包括:
S21:提取所述作业图像中的文字特征信息,得到去除非文字信息的图像。
提取文字特征信息的方式可以有多种,例如,可以直接对原始的作业图像进行内容识别,从而提取出文字特征信息,并在作业图像中保留文字特征信息,去除非文字信息,从而得到去除非文字信息的图像。具体的,提取文字特征信息时,可以先对原始的作业图像进行连通域划分,连通域划分例如将像素值相同的连续像素点的个数大于一个阈值时得到一个连通域,在连通域划分后,对每个连通域内的内容进行识别,将连通域区分出文字区域和非文字区域,文字区域例如包括文字,字母,数字中的一项或者多项,具体的,可以根据像素密度,将像素密度大于阈值的区域确定为文字区域。或者,
所述提取所述作业图像中的文字特征信息,得到去除非文字信息的图像,包括:
对所述作业图像进行灰度化,得到灰度图像;
对所述灰度图像进行抽样,得到抽样后的图像;
将所述抽样后的图像放大到与所述作业图像相同大小,得到放大后的图像;
计算得到所述作业图像与所述放大后的图像的差值图像;
对所述差值图像进行二值化处理,得到二值化处理后的图像;
去除所述二值化处理后的图像中非文字区域的连通域,得到所述去除非文字信息的图像。
该提取文字特征信息的方式的具体内容可以参见后续实施例。
S22:对所述去除非文字信息的图像进行水平方向投影,得到目标区域的纵坐标对。
可选的,所述对所述去除非文字信息的图像进行水平方向投影,得到目标区域的纵坐标对,包括:
获取h1和h2,并由h1和h2组成纵坐标对,其中,当h1≤hi≤h2时,hi对应的水平方向投影值大于第一投影阈值,h1<h2,h1和h2分别表示两个纵坐标。
第一投影阈值可以根据像素平均值确定,例如,第一投影阈值=预设的系数*像素平均值,像素平均值的表达式可以具体是:去除非文字信息的图像中非0像素点个数的总数/去除非文字信息的图像的行高h。
例如,假设纵坐标从0开始,可以先判断hi=0对应的水平投影值是否大于第一投影阈值,如果大于,则继续判断hi=1对应的水平投影值是否大于第一投影阈值,如果大于继续下一个相邻纵坐标的判断,假设一直到hi=5对应的水平投影值都大于第一投影阈值,而hi=6对应的水平投影值小于第一投影阈值,则一组纵坐标对可以表示为<0,5>;之后,可以继续从hi=7开始判断水平投影值是否大于第一投影值。其中,hi对应的水平投影值是指所述去除非文字信息的图像中纵坐标是hi指示的一行像素点中像素值是非0的像素点的个数。
可以理解的是,纵坐标对可以是多组,多组纵坐标可以组成纵坐标队列,例如,纵坐标对包括:<0,5>,<7,10>等。
进一步的,采用上述方式确定的纵坐标对可能是多组,例如,<0,5>,<7,10>等,之后可以对多组纵坐标对进行合并和/或去除处理。
所述对所述至少两组的纵坐标对进行去除处理,包括:
对应要处理的当前纵坐标对,计算当前纵坐标对中两个纵坐标的差值;
如果所述差值小于第一距离差值,则去除所述当前纵坐标对。
例如,可以依次将每组纵坐标对确定为当前纵坐标对,假设当前纵坐标对是<0,5>,则可以计算5-0,如果差值5-0=5小于第一距离差值,则去除该纵坐标对<0,5>,否则保留,第一距离差值可以是预设的。
可选的,所述对所述至少两组的纵坐标对进行合并处理,包括:
对应要处理的相邻的第一组纵坐标对和第二组纵坐标对,计算所述第一组纵坐标对与所述第二组纵坐标对的间隔值;
如果所述间隔值小于第二距离差值,则合并所述第一组纵坐标对和第二组纵坐标对。
例如,可以依次将两组相邻的纵坐标对确定为第一组纵坐标对和第二组纵坐标对,假设第一组纵坐标对和第二组纵坐标对分别是<0,5>和<7,10>,两组纵坐标对的间隔值是指下一组纵坐标对中小的坐标值与上一组纵坐标对中大的坐标值的差值,例如,上述两组纵坐标对的间隔值是7-5=2,如果间隔值2小于第二距离差值,则合并该两组纵坐标对<0,5>和<7,10>,否则不合并,第二距离差值可以根据两组纵坐标对的坐标值确定,例如,假设两组纵坐标对分别是<h1,h2>和<h3,h4>,则第二距离差值可以表示为:(h3-h2)/((h2-h1+h4-h3)/2)。
S23:对所述去除非文字信息的图像进行垂直方向投影,对应所述纵坐标对得到横坐标对。
可选的,所述对所述去除非文字信息的图像进行垂直方向投影,对应所述纵坐标对得到横坐标对,包括:
获取w1和w2,并由w1和w2组成横坐标对,其中,w1<w2,w1是从所述去除非文字信息的图像的最左侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值,w2是从所述去除非文字信息的图像的最右侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值。第二投影值可以预先设置。
例如,假设横坐标从0开始,可以先判断wj=0对应的垂直投影值是否大于第二投影阈值,如果小于,则继续判断wj=1对应的垂直投影值是否小于第二投影阈值,如果小于继续下一个相邻横坐标的判断,假设一直到wj=5对应的水平投影值都小于第二投影阈值,而wj=6对应的垂直投影值大于第二投影阈值,则w1=6,另一方面,先判断wj=w-1(w是作业图像的横向像素点的总个数)对应的垂直投影值是否大于第二投影阈值,如果小于,则继续判断wj=w-2对应的垂直投影值是否小于第二投影阈值,如果小于继续下一个相邻横坐标的判断,假设一直到wj=w-8对应的水平投影值都小于第二投影阈值,而wj=w-9对应的垂直投影值大于第二投影阈值,则w2=w-9,因此,一组横坐标对可以表示为<6,w-9>。其中,对应每组纵坐标对,wj对应的垂直投影值是指该组纵坐标对所在的区域中,wj指示的一列像素点中像素值是非0的像素点的个数。
可以理解的是,如果纵坐标对是多组,且对多组纵坐标对进行了去除和/或合并处理时,横坐标对是对应去除和/或合并处理后的纵坐标对得到的。
S24:根据所述纵坐标对和所述横坐标对,得到所述作业图像中的目标区域。
例如,对应<h1,h2>的横坐标对是<w1,w2>,则目标区域是<h1,h2,w1,w2>,具体是指作业图像中纵坐标从h1到h2,且横坐标从w1到w2的像素点组成的区域。
S13:在所述作业图像中,标识出所述目标区域。
具体的,可以在所述作业图像中,将所述目标区域的边界以裁剪框形式进行展示。
可选的,当将裁剪框设置在目标区域的边界上后,用户还可以进一步对裁剪框进行操作,例如,移动裁剪框的位置,和/或,改变裁剪框的大小等。
当目标区域是多个时,可以在确定出所有的目标区域后,可以在作业图像中标识出所有的目标区域;或者,可以从所有的目标区域中确定出最佳目标区域,在作业图像中标识出最佳目标区域;或者,也可以标识出所有的目标区域,还标识出最佳目标区域,且,所有的目标区域和最佳目标区域采用不同的方式进行标识。
例如,参见图3,可以在作业图像上用第一裁剪框31标识出所有的目标区域,用第二裁剪框32标识出最佳目标区域为例,其中,第一裁剪框例如为白色,第二裁剪框例如为蓝色。
可选的,所述在所有的目标区域中确定出最佳目标区域,包括:
根据所述目标区域中的如下项中的至少一项,在所有的目标区域中确定出最佳目标区域:目标区域中的内容主体,目标区域的高度,目标区域的位置。具体的,内容主体,高度,位置满足的具体要求可以预先设置。
进一步的,在确定出目标区域后,可以获取并展示与每个目标区域对应的检索结果。具体的,客户端可以将目标区域发给服务端,由服务端进行图像识别并在数据库中检索等获取与每个目标区域对应的检索结果,并且服务端将检索结果发送给客户端进行展示。
当客户端获取的多个目标区域的检索结果后,可以将不同的检索结果按照翻页的形式进行展示,其中,不同目标区域的检索结果可以根据目标区域对应的题目顺序进行排序,或者,根据优先级进行排序,优先级可以根据目标区域的高度,位置等信息确定。
本实施例中,通过确定作业图像中的目标区域,并在作业图像中标识出目标区域,可以直接定位出目标区域,实现目标区域的自动识别,不需要用户手工选择目标区域,从而降低用户操作的代价和成本。
图4是本发明另一实施例提出的作业图像的展示方法的流程示意图,该方法包括:
S401:获取第一图像。
第一图像是原始的作业图像,可以由用户对作业题目进行拍照得到。
S402:对第一图像进行灰度化,得到灰度图像。
例如,第一图像通常是RGB图像,可以将RGB图像进行灰度化,得到灰度图像,以降低运算量。
S403:对灰度图像进行抽样,得到第二图像。
第二图像是抽样后的图像。
具体的,可以根据预设比例对灰度图像进行抽样,例如,在灰度图像的横向和纵向每N个像素点抽取一个像素点。其中,横向和纵向也可以分别称为水平方向和垂直方向,横向和纵向的抽取比例可以相同。
假设第一图像的大小是w*h,则灰度图像的大小也是w*h,第二图像的大小是i*j,其中,w和i是横向像素点的个数,h和j是纵向像素点的个数,并且,w>i,h>j,以及,w/i=h/j。
S404:对第二图像进行放大,得到第三图像,第三图像的大小与第一图像的大小相同。
例如,可以采用双线性插值方式对第二图像进行放大,得到第三图像,第三图像的大小是w*h。
S405:对第一图像和第三图像进行差值运算,得到第四图像。
例如,由于第一图像与第三图像的大小相同,则可以对应每个位置上的像素点,计算第一像素值与第二像素值得到差值,第一像素值是第一图像中该位置上的像素点的像素值,第二像素值是第二图像中该位置上的像素点的像素值,并将该差值确定为第四图像中该位置上的像素点的像素值。
S406:对第四图像进行二值化,并去除非文字区域的连通域后,得到第五图像。
其中,可以预先设置像素值阈值,将第四图像中大于该像素值阈值的像素值设置为255,将第四图像中小于该像素值阈值的像素值设置为0,从而实现二值化。
非文字区域可以根据像素值确定,例如,将二值化后是255的像素点组成的区域确定为非文字区域,连通域是指像素值相同的连续像素点的个数大于个数阈值的区域,例如,可以预先设置个数阈值,当连续的像素值为255的像素点的个数大于个数阈值时,则该连续的像素值为255的像素点组成的区域可以称为非文字区域的连通域,进而去除该非文字区域的连通域。具体的,去除可以是指将非文字区域的连通域中的像素点的像素值设置为0。
S407:对第五图像进行图像水平投影,确定目标区域的纵坐标队列。
其中,纵坐标队列可以包括至少一组纵坐标对。
假设一组纵坐标对表示为<h1,h2>,则需要满足如下条件:
当h1≤hi≤h2,hi对应的水平投影值大于第一投影阈值,第一投影阈值可以根据像素平均值确定,例如,第一投影阈值=预设的系数*像素平均值,像素平均值的表达式可以具体是:第五图像中非0像素点个数的总数/第五图像的行高h。
具体的,假设总坐标从0开始,可以先算hi=0时的水平投影值,如果该水平投影值大于第三阈值,再算hi=1时的水平投影值,如果该水平投影值也大于第三阈值,继续算下一个纵坐标对应的水平投影值,假设hi=5时的水平投影值大于第三阈值,而hi=6时的水平投影值小于第三阈值,则一组纵坐标对可以表示为<0,5>。之后,可以从hi=7继续算水平投影值是否大于第三阈值,从而可以确定新的纵坐标对。
经过上述处理,目标区域可以是一个或者多个,多个是指至少两个。每个目标区域可以对应一组纵坐标对,例如,一个目标区域的纵坐标对可以表示为<h1,h2>,至少一组的纵坐标对可以组成纵坐标队列,例如,纵坐标队列包括:<h1,h2>,<h3,h4>。
可以理解的是,以<h1,h2>为例,h1和h2分别是指纵坐标,当纵坐标从0开始编号时,0≤h1<h2≤w-1,当纵坐标从1开始编号时,1≤h1<h2≤w,h1和h2并不限于是相邻的两个纵坐标。
进一步的,采用上述方式确定的纵坐标对可能是多组,之后可以对多组纵坐标对进行合并和/或去除处理。具体的,合并和/或去除处理可以参见上一实施例,在此不再赘述。
S408:对第五图像进行图像垂直投影,确定每个目标区域的横坐标队。
当对至少一个目标区域的纵坐标对进行合并和/或去除处理后,对应每个处理后的目标区域可以确定相应的横坐标对。
假设一个目标区域的横坐标对用<w1,w2>表示,则w1,w2满足如下条件:
w1是从第五图像的最左侧开始的首个垂直投影值大于第二投影阈值的横坐标,w2是从第五图像的最右侧开始的首个垂直投影值大于第二投影阈值的横坐标。例如,假设横坐标从0开始,则先计算wj=0对应的垂直投影值,如果wj=0对应的垂直投影值小于第二投影阈值,则计算wj=1对应的垂直投影值,假设wj=1对应的垂直投影值大于第二投影阈值,则w1=1,另一方面,先计算wj=w-1对应的垂直投影值,如果wj=w-1对应的垂直投影值小于第二投影阈值,则计算wj=w-2对应的垂直投影值,如果wj=w-2对应的垂直投影值也小于第二投影阈值,则再计算wj=w-3对应的垂直投影值,如果wj=w-3对应的垂直投影值大于第二投影阈值,则w2=w-3。
可以理解的是,类似纵坐标,w1和w2也不限于是相邻的两个横坐标,例如,可以是w1=0,w2=3,而不限于w1=0,w2=1。
通过该步骤的处理,可以确定出每个目标区域的横坐标对。
S409:输出目标区域。
通过上述处理,可以分别确定出每个目标区域的纵坐标对,以及横坐标对,根据纵坐标对和横坐标对可以确定出目标区域。
例如,纵坐标对是<h1,h2>,横坐标对是<w1,w2>,则相应的目标区域是<h1,h2,w1,w2>对应的区域,具体的,目标区域是纵坐标从h1到h2,且,横坐标从w1到w2的区域。
在确定出目标区域后,可以在第一图像上标识出所有的目标区域;或者,还可以在所有的目标区域中确定出最佳目标区域,在第一图像上标识出最佳目标区域;或者,还可以在第一图像上采用不同的标识方式,标识出所有的目标区域,以及,标识出最佳目标区域,例如,用白色框标识出所有的目标区域,用蓝色框标识出最佳目标区域。
本实施例中,通过确定作业图像中的目标区域,并在作业图像中标识出目标区域,可以直接定位出目标区域,实现目标区域的自动识别,不需要用户手工选择目标区域,从而降低用户操作的代价和成本。本实施例通过多种方式实现目标区域的标识,可以实现多样化。
图5是本发明另一实施例提出的作业图像的展示装置的结构示意图,该装置50包括获取模块51,确定模块52和标识模块53。
获取模块51,用于获取作业图像;
例如,用户可以对要搜索的作业进行拍照,得到作业图像,或者,用户也可以直接从已有的图片库中选择作业图像。
在用户拍照或者选择得到作业图像后,移动应用程序可以接收用户拍照或者选择得到的作业图像。
确定模块52,用于确定所述作业图像中的目标区域;
其中,目标区域是用户要搜索的内容所在的区域,例如,作业图像中题目所在的区域。
目标区域可以是一个或者多个,多个是指至少两个。
可选的,参见图6,所述确定模块52包括:
第一单元521,用于提取所述作业图像中的文字特征信息,得到去除非文字信息的图像;
提取文字特征信息的方式可以有多种,例如,可以直接对原始的作业图像进行内容识别,从而提取出文字特征信息,并在作业图像中保留文字特征信息,去除非文字信息,从而得到去除非文字信息的图像。具体的,提取文字特征信息时,可以先对原始的作业图像进行连通域划分,连通域划分例如将像素值相同的连续像素点的个数大于一个阈值时得到一个连通域,在连通域划分后,对每个连通域内的内容进行识别,将连通域区分出文字区域和非文字区域,文字区域例如包括文字,字母,数字中的一项或者多项,具体的,可以根据像素密度,将像素密度大于阈值的区域确定为文字区域。或者,
可选的,所述第一单元521具体用于:
对所述作业图像进行灰度化,得到灰度图像;
对所述灰度图像进行抽样,得到抽样后的图像;
将所述抽样后的图像放大到与所述作业图像相同大小,得到放大后的图像;
计算得到所述作业图像与所述放大后的图像的差值图像;
对所述差值图像进行二值化处理,得到二值化处理后的图像;
去除所述二值化处理后的图像中非文字区域的连通域,得到去除非文字信息的图像。
上述的具体内容可以参见方法实施例,在此不再赘述。
第二单元522,用于对所述去除非文字信息的图像进行水平方向投影,得到目标区域的纵坐标对;
可选的,所述第二单元522具体用于:
获取h1和h2,并由h1和h2组成纵坐标对,其中,当h1≤hi≤h2时,hi对应的水平方向投影值大于第一投影阈值,h1<h2,h1和h2分别表示两个纵坐标。
第一投影阈值可以根据像素平均值确定,例如,第一投影阈值=预设的系数*像素平均值,像素平均值的表达式可以具体是:去除非文字信息的图像中非0像素点个数的总数/去除非文字信息的图像的行高h。
例如,假设纵坐标从0开始,可以先判断hi=0对应的水平投影值是否大于第一投影阈值,如果大于,则继续判断hi=1对应的水平投影值是否大于第一投影阈值,如果大于继续下一个相邻纵坐标的判断,假设一直到hi=5对应的水平投影值都大于第一投影阈值,而hi=6对应的水平投影值小于第一投影阈值,则一组纵坐标对可以表示为<0,5>;之后,可以继续从hi=7开始判断水平投影值是否大于第一投影值。其中,hi对应的水平投影值是指所述去除非文字信息的图像中纵坐标是hi指示的一行像素点中像素值是非0的像素点的个数。
可以理解的是,纵坐标对可以是多组,多组纵坐标可以组成纵坐标队列,例如,纵坐标对包括:<0,5>,<7,10>等。
进一步的,采用上述方式确定的纵坐标对可能是多组,例如,<0,5>,<7,10>等,之后可以对多组纵坐标对进行合并和/或去除处理。
可选的,参见图6,所述获取模块52还包括:
第五单元525,用于对所述至少两组的纵坐标对进行去除处理,和/或,合并处理,得到处理后的纵坐标对,以便对应所述处理后的纵坐标对确定横坐标对。
可选的,所述第五单元525用于对所述至少两组的纵坐标对进行去除处理,包括:
对应要处理的当前纵坐标对,计算当前纵坐标对中两个纵坐标的差值;
如果所述差值小于第一距离差值,则去除所述当前纵坐标对。
例如,可以依次将每组纵坐标对确定为当前纵坐标对,假设当前纵坐标对是<0,5>,则可以计算5-0,如果差值5-0=5小于第一距离差值,则去除该纵坐标对<0,5>,否则保留,第一距离差值可以是预设的。
可选的,所述第五单元525用于对所述至少两组的纵坐标对进行合并处理,包括:
对应要处理的相邻的第一组纵坐标对和第二组纵坐标对,计算所述第一组纵坐标对与所述第二组纵坐标对的间隔值;
如果所述间隔值小于第二距离差值,则合并所述第一组纵坐标对和第二组纵坐标对。
例如,可以依次将两组相邻的纵坐标对确定为第一组纵坐标对和第二组纵坐标对,假设第一组纵坐标对和第二组纵坐标对分别是<0,5>和<7,10>,两组纵坐标对的间隔值是指下一组纵坐标对中小的坐标值与上一组纵坐标对中大的坐标值的差值,例如,上述两组纵坐标对的间隔值是7-5=2,如果间隔值2小于第二距离差值,则合并该两组纵坐标对<0,5>和<7,10>,否则不合并,第二距离差值可以根据两组纵坐标对的坐标值确定,例如,假设两组纵坐标对分别是<h1,h2>和<h3,h4>,则第二距离差值可以表示为:(h3-h2)/((h2-h1+h4-h3)/2)。
第三单元523,用于对所述去除非文字信息的图像进行垂直方向投影,对应所述纵坐标对得到横坐标对;
可选的,所述第三单元523具体用于:
获取w1和w2,并由w1和w2组成横坐标对,其中,w1<w2,w1是从所述去除非文字信息的图像的最左侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值,w2是从所述去除非文字信息的图像的最右侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值。
例如,假设横坐标从0开始,可以先判断wj=0对应的垂直投影值是否大于第二投影阈值,如果小于,则继续判断wj=1对应的垂直投影值是否小于第二投影阈值,如果小于继续下一个相邻横坐标的判断,假设一直到wj=5对应的水平投影值都小于第二投影阈值,而wj=6对应的垂直投影值大于第二投影阈值,则w1=6,另一方面,先判断wj=w-1(w是作业图像的横向像素点的总个数)对应的垂直投影值是否大于第二投影阈值,如果小于,则继续判断wj=w-2对应的垂直投影值是否小于第二投影阈值,如果小于继续下一个相邻横坐标的判断,假设一直到wj=w-8对应的水平投影值都小于第二投影阈值,而wj=w-9对应的垂直投影值大于第二投影阈值,则w2=w-9,因此,一组横坐标对可以表示为<6,w-9>。其中,对应每组纵坐标对,wj对应的垂直投影值是指该组纵坐标对所在的区域中,wj指示的一列像素点中像素值是非0的像素点的个数。
可以理解的是,如果纵坐标对是多组,且对多组纵坐标对进行了去除和/或合并处理时,横坐标对是对应去除和/或合并处理后的纵坐标对得到的。
第四单元524,用于根据所述纵坐标对和所述横坐标对,得到所述作业图像中的目标区域。
例如,对应<h1,h2>的横坐标对是<w1,w2>,则目标区域是<h1,h2,w1,w2>,具体是指作业图像中纵坐标从h1到h2,且横坐标从w1到w2的像素点组成的区域。
标识模块53,用于在所述作业图像中,标识出所述目标区域。
具体的,可以在所述作业图像中,将所述目标区域的边界以裁剪框形式进行展示。
可选的,当将裁剪框设置在目标区域的边界上后,用户还可以进一步对裁剪框进行操作,例如,移动裁剪框的位置,和/或,改变裁剪框的大小等。
可选的,当所述目标区域是至少两个时,所述标识模块53用于标识出所述目标区域,包括:
标识出所有的目标区域;或者,
在所有的目标区域中确定出最佳目标区域,标识出所述最佳目标区域;或者,
采用不同的标识方式,标识出所有的目标区域,以及,标识出从所述所有的目标区域中确定的最佳目标区域。
例如,参见图3,可以在作业图像上用第一裁剪框31标识出所有的目标区域,用第二裁剪框32标识出最佳目标区域为例,其中,第一裁剪框例如为白色,第二裁剪框例如为蓝色。
可选的,所述标识模块用于在所有的目标区域中确定出最佳目标区域,包括:
根据所述目标区域中的如下项中的至少一项,在所有的目标区域中确定出最佳目标区域:目标区域中的内容主体,目标区域的高度,目标区域的位置。
具体的,内容主体,高度,位置满足的具体要求可以预先设置。
另一实施例中,参见图6,所述目标区域是一个或者多个,该装置50还包括处理模块54,用于获取并展示与每个目标区域对应的检索结果。
当客户端获取的多个目标区域的检索结果后,可以将不同的检索结果按照翻页的形式进行展示,其中,不同目标区域的检索结果可以根据目标区域对应的题目顺序进行排序,或者,根据优先级进行排序,优先级可以根据目标区域的高度,位置等信息确定。
本实施例中,通过确定作业图像中的目标区域,并在作业图像中标识出目标区域,可以直接定位出目标区域,实现目标区域的自动识别,不需要用户手工选择目标区域,从而降低用户操作的代价和成本。本实施例通过多种方式实现目标区域的标识,可以实现多样化。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种作业图像的展示方法,其特征在于,包括:
获取作业图像;
提取所述作业图像中的文字特征信息,得到去除非文字信息的图像;
对所述去除非文字信息的图像进行水平方向投影,得到目标区域的纵坐标对;
对所述去除非文字信息的图像进行垂直方向投影,对应所述纵坐标对得到横坐标对;
根据所述纵坐标对和所述横坐标对,得到所述作业图像中的目标区域,其中,所述纵坐标对是至少两组,对所述至少两组的纵坐标对进行去除处理,和/或,合并处理,得到处理后的纵坐标对,以便对应所述处理后的纵坐标对确定横坐标对,其中,对应要处理的当前纵坐标对,计算当前纵坐标对中两个纵坐标的差值,如果所述差值小于第一距离差值,则去除所述当前纵坐标对,和/或对应要处理的相邻的第一组纵坐标对和第二组纵坐标对,计算所述第一组纵坐标对与所述第二组纵坐标对的间隔值,如果所述间隔值小于第二距离差值,则合并所述第一组纵坐标对和第二组纵坐标对,所述第一组纵坐标对与所述第二组纵坐标对的间隔值是指所述第二组纵坐标中小的坐标值与所述第一组纵坐标对中大的坐标值的差值;
在所述作业图像中,标识出所述目标区域。
2.根据权利要求1所述的方法,其特征在于,所述提取所述作业图像中的文字特征信息,得到去除非文字信息的图像,包括:
对所述作业图像进行灰度化,得到灰度图像;
对所述灰度图像进行抽样,得到抽样后的图像;
将所述抽样后的图像放大到与所述作业图像相同大小,得到放大后的图像;
计算得到所述作业图像与所述放大后的图像的差值图像;
对所述差值图像进行二值化处理,得到二值化处理后的图像;
去除所述二值化处理后的图像中非文字区域的连通域,得到所述去除非文字信息的图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述去除非文字信息的图像进行水平方向投影,得到目标区域的纵坐标对,包括:
获取h1和h2,并由h1和h2组成纵坐标对,其中,当h1≤hi≤h2时,hi对应的水平方向投影值大于第一投影阈值,h1<h2,h1和h2分别表示两个纵坐标。
4.根据权利要求1所述的方法,其特征在于,所述对所述去除非文字信息的图像进行垂直方向投影,对应所述纵坐标对得到横坐标对,包括:
获取w1和w2,并由w1和w2组成横坐标对,其中,w1<w2,w1是从所述去除非文字信息的图像的最左侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值,w2是从所述去除非文字信息的图像的最右侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值。
5.根据权利要求1-4任一项所述的方法,其特征在于,当所述目标区域是至少两个时,所述标识出所述目标区域,包括:
标识出所有的目标区域;或者,
在所有的目标区域中确定出最佳目标区域,标识出所述最佳目标区域;或者,
采用不同的标识方式,标识出所有的目标区域,以及,标识出从所述所有的目标区域中确定的最佳目标区域。
6.根据权利要求5所述的方法,其特征在于,所述在所有的目标区域中确定出最佳目标区域,包括:
根据所述目标区域中的如下项中的至少一项,在所有的目标区域中确定出最佳目标区域:目标区域中的内容主体,目标区域的高度,目标区域的位置。
7.根据权利要求1所述的方法,其特征在于,所述目标区域是一个或者多个,所述方法还包括:
获取并展示与每个目标区域对应的检索结果。
8.一种作业图像的展示装置,其特征在于,包括:
获取模块,用于获取作业图像;
确定模块,用于确定所述作业图像中的目标区域,其中,所述确定模块包括:
第一单元,用于提取所述作业图像中的文字特征信息,得到去除非文字信息的图像;
第二单元,用于对所述去除非文字信息的图像进行水平方向投影,得到目标区域的纵坐标对;
第三单元,用于对所述去除非文字信息的图像进行垂直方向投影,对应所述纵坐标对得到横坐标对;
第四单元,用于根据所述纵坐标对和所述横坐标对,得到所述作业图像中的目标区域;
其中,所述纵坐标对是至少两组,所述确定模块还包括:
第五单元,用于对所述至少两组的纵坐标对进行去除处理,和/或,合并处理,得到处理后的纵坐标对,以便对应所述处理后的纵坐标对确定横坐标对,其中,所述第五单元用于对应要处理的当前纵坐标对,计算当前纵坐标对中两个纵坐标的差值,如果所述差值小于第一距离差值,则去除所述当前纵坐标对,和/或对应要处理的相邻的第一组纵坐标对和第二组纵坐标对,计算所述第一组纵坐标对与所述第二组纵坐标对的间隔值,如果所述间隔值小于第二距离差值,则合并所述第一组纵坐标对和第二组纵坐标对,所述第一组纵坐标对与所述第二组纵坐标对的间隔值是指所述第二组纵坐标中小的坐标值与所述第一组纵坐标对中大的坐标值的差值;
标识模块,用于在所述作业图像中,标识出所述目标区域。
9.根据权利要求8所述的装置,其特征在于,所述第一单元具体用于:
对所述作业图像进行灰度化,得到灰度图像;
对所述灰度图像进行抽样,得到抽样后的图像;
将所述抽样后的图像放大到与所述作业图像相同大小,得到放大后的图像;
计算得到所述作业图像与所述放大后的图像的差值图像;
对所述差值图像进行二值化处理,得到二值化处理后的图像;
去除所述二值化处理后的图像中非文字区域的连通域,得到所述去除非文字信息的图像。
10.根据权利要求8所述的装置,其特征在于,所述第二单元具体用于:
获取h1和h2,并由h1和h2组成纵坐标对,其中,当h1≤hi≤h2时,hi对应的水平方向投影值大于第一投影阈值,h1<h2,h1和h2分别表示两个纵坐标。
11.根据权利要求8所述的装置,其特征在于,所述第三单元具体用于:
获取w1和w2,并由w1和w2组成横坐标对,其中,w1<w2,w1是从所述去除非文字信息的图像的最左侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值,w2是从所述去除非文字信息的图像的最右侧开始首个对应的垂直方向投影值大于第二投影阈值的横坐标值。
12.根据权利要求8-11任一项所述的装置,其特征在于,当所述目标区域是至少两个时,所述标识模块用于标识出所述目标区域,包括:
标识出所有的目标区域;或者,
在所有的目标区域中确定出最佳目标区域,标识出所述最佳目标区域;或者,
采用不同的标识方式,标识出所有的目标区域,以及,标识出从所述所有的目标区域中确定的最佳目标区域。
13.根据权利要求12所述的装置,其特征在于,所述标识模块用于在所有的目标区域中确定出最佳目标区域,包括:
根据所述目标区域中的如下项中的至少一项,在所有的目标区域中确定出最佳目标区域:目标区域中的内容主体,目标区域的高度,目标区域的位置。
14.根据权利要求8所述的装置,其特征在于,所述目标区域是一个或者多个,所述装置还包括:
处理模块,用于获取并展示与每个目标区域对应的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510047554.1A CN104573675B (zh) | 2015-01-29 | 2015-01-29 | 作业图像的展示方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510047554.1A CN104573675B (zh) | 2015-01-29 | 2015-01-29 | 作业图像的展示方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573675A CN104573675A (zh) | 2015-04-29 |
CN104573675B true CN104573675B (zh) | 2018-10-09 |
Family
ID=53089697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510047554.1A Active CN104573675B (zh) | 2015-01-29 | 2015-01-29 | 作业图像的展示方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573675B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106293036B (zh) * | 2015-06-12 | 2021-02-19 | 联想(北京)有限公司 | 一种交互方法及电子设备 |
CN105389165B (zh) * | 2015-10-21 | 2019-04-30 | 广州视睿电子科技有限公司 | 一种文档图片显示方法、装置及终端 |
CN107016392A (zh) * | 2016-01-27 | 2017-08-04 | 四川效率源信息安全技术股份有限公司 | 一种去除图片中文字边框的方法 |
CN106250518A (zh) * | 2016-08-03 | 2016-12-21 | 广东小天才科技有限公司 | 智能搜题方法及装置 |
CN108304360A (zh) * | 2017-12-19 | 2018-07-20 | 深圳市因尚网络科技股份有限公司 | 抢单控制方法、设备及计算机可读存储介质 |
CN108021320B (zh) * | 2017-12-25 | 2020-07-28 | 广东小天才科技有限公司 | 一种电子设备题目搜索方法及电子设备 |
CN111104883B (zh) * | 2019-12-09 | 2023-06-06 | 平安国际智慧城市科技股份有限公司 | 作业答案提取方法、装置、设备及计算机可读存储介质 |
CN113537225A (zh) * | 2020-04-22 | 2021-10-22 | 华晨宝马汽车有限公司 | 用于字符识别的方法、电子设备和存储介质 |
CN112488890B (zh) * | 2021-02-05 | 2021-05-07 | 南京熊大未来窗智能科技有限公司 | 基于远距离显示的交互学习辅助方法 |
CN113505745B (zh) * | 2021-07-27 | 2024-04-05 | 京东科技控股股份有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268481A (zh) * | 2013-05-29 | 2013-08-28 | 焦点科技股份有限公司 | 一种复杂背景图像中的文本提取方法 |
CN103456195A (zh) * | 2012-05-28 | 2013-12-18 | 上海易酷信息技术服务有限公司 | 一种基于智能手机的远程答疑辅导系统及其使用方法 |
CN103544475A (zh) * | 2013-09-23 | 2014-01-29 | 方正国际软件有限公司 | 一种版面类型的识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8565474B2 (en) * | 2010-03-10 | 2013-10-22 | Microsoft Corporation | Paragraph recognition in an optical character recognition (OCR) process |
-
2015
- 2015-01-29 CN CN201510047554.1A patent/CN104573675B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456195A (zh) * | 2012-05-28 | 2013-12-18 | 上海易酷信息技术服务有限公司 | 一种基于智能手机的远程答疑辅导系统及其使用方法 |
CN103268481A (zh) * | 2013-05-29 | 2013-08-28 | 焦点科技股份有限公司 | 一种复杂背景图像中的文本提取方法 |
CN103544475A (zh) * | 2013-09-23 | 2014-01-29 | 方正国际软件有限公司 | 一种版面类型的识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104573675A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573675B (zh) | 作业图像的展示方法和装置 | |
US20190188528A1 (en) | Text detection method and apparatus, and storage medium | |
CN108230359B (zh) | 目标检测方法和装置、训练方法、电子设备、程序和介质 | |
CN106845408B (zh) | 一种复杂环境下的街道垃圾识别方法 | |
CN106570453B (zh) | 用于行人检测的方法、装置和系统 | |
JP6303332B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN104952083B (zh) | 一种基于显著性目标背景建模的视频显著性检测方法 | |
CN110334709B (zh) | 基于端到端多任务深度学习的车牌检测方法 | |
US9781382B2 (en) | Method for determining small-object region, and method and apparatus for interpolating frame between video frames | |
CN103218600B (zh) | 一种实时人脸检测算法 | |
CN110582783B (zh) | 训练装置、图像识别装置、训练方法和计算机可读信息存储介质 | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN111062331A (zh) | 图像的马赛克检测方法、装置、电子设备及存储介质 | |
CN104966109B (zh) | 医疗化验单图像分类方法及装置 | |
CN111652140A (zh) | 基于深度学习的题目精准分割方法、装置、设备和介质 | |
CN103714517B (zh) | 视频去雨方法 | |
JP6623851B2 (ja) | 学習方法、情報処理装置および学習プログラム | |
JP5264457B2 (ja) | 物体検出装置 | |
Kim et al. | Real-time anomaly detection in packaged food X-ray images using supervised learning | |
CN110008362A (zh) | 一种案件归类方法及装置 | |
JP5027201B2 (ja) | テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム | |
CN110443277A (zh) | 基于注意力模型的少量样本分类方法 | |
CN114384073B (zh) | 一种地铁隧道裂纹检测方法及系统 | |
CN109325415A (zh) | 一种基于图像列对齐特征预测所有目标区域的方法 | |
WO2015168362A1 (en) | Method and apparatus for processing block to be processed of urine sediment image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160216 Address after: 100085, Beijing, Haidian District on the road to entrepreneurship No. 1, 28, 4, room 417 Applicant after: Operation education technology (Beijing) Co., Ltd. Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |