CN106503634B - 一种图像对齐方法及装置 - Google Patents

一种图像对齐方法及装置 Download PDF

Info

Publication number
CN106503634B
CN106503634B CN201610887988.7A CN201610887988A CN106503634B CN 106503634 B CN106503634 B CN 106503634B CN 201610887988 A CN201610887988 A CN 201610887988A CN 106503634 B CN106503634 B CN 106503634B
Authority
CN
China
Prior art keywords
image
text
character string
connection
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610887988.7A
Other languages
English (en)
Other versions
CN106503634A (zh
Inventor
张银田
胡雨隆
胡金水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
Original Assignee
Xun Feizhi Metamessage Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xun Feizhi Metamessage Science And Technology Ltd filed Critical Xun Feizhi Metamessage Science And Technology Ltd
Priority to CN201610887988.7A priority Critical patent/CN106503634B/zh
Publication of CN106503634A publication Critical patent/CN106503634A/zh
Application granted granted Critical
Publication of CN106503634B publication Critical patent/CN106503634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种图像对齐方法及装置,其中方法包括:获取第一图像,其中所述第一图像为拍摄目标文本所得图像;获取所述第一图像中的文本短行;确定各文本短行之间的连接关系;根据所述连接关系将所述各文本短行连接成第一字符串;将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐,其中所述第二字符串是所述模板图像中的文本行或文本短行连接成的字符串。本发明并未使用现有技术中的图像特征点匹配等算法,而是根据文本短行连接后得到的字符串对图像进行对齐。这种基于内容的对齐方法可以克服图像变形等的影响,大大提高了图像对齐的效果,进而可以正确提取出答题区域,为自动阅卷打下了坚实的基础。

Description

一种图像对齐方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像对齐方法及装置。
背景技术
随着科技的发展,具有拍照功能的设备越来越普及,使得拍照文档识别迅速兴起并蓬勃发展起来,尤其是在教育教学领域。例如,阅卷老师可通过相机或手机摄像头拍下学生答卷,然后导入自动阅卷系统进行相关处理,从而提高阅卷的效率。
不过发明人在实现本发明的过程中发现,拍摄到的图像经常碰到变形问题。例如由于相机拍摄角度不同而引起的透视变形,或者由于被摄纸张弯曲而使拍摄图像存在扭曲变形等。这些变形问题的存在带来了较大的麻烦,尤其是在自动阅卷系统中,对学生试卷拍照时经常不能保证试卷的平整或拍摄角度的统一,存在上述透视变形或扭曲变形等问题,故导致实际拍摄的图像与理想图像存在较大差异,给自动阅卷工作造成较大困难。
发明内容
本发明提供一种图像对齐方法及装置,以提高含有文本的图像之间的对齐效果。
根据本发明实施例的第一方面,提供一种图像对齐方法,所述方法包括:
获取第一图像,其中所述第一图像为拍摄目标文本所得图像;
获取所述第一图像中的文本短行;
确定各文本短行之间的连接关系;
根据所述连接关系将所述各文本短行连接成第一字符串;
将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐,其中所述第二字符串是所述模板图像中的文本行或文本短行连接成的字符串。
可选的,将所述第一字符串与第二字符串对齐之后,所述方法还包括:
根据对齐的所述第一字符串和所述第二字符串,从所述第一图像中识别出目标局部区域。
可选的:
所述第一图像为已作答的试卷的图像,所述模板图像为与所述第一图像对应的空白试卷的图像,所述目标局部区域为所述第一图像中的答题区域。
可选的,所述确定各文本短行之间的连接关系,包括:
根据各文本短行在所述第一图像中的位置关系及预设的第一规则,构建连接矩阵,其中所述连接矩阵中的元素用于指示各文本短行之间是否可连接;
根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树;
通过遍历所述连接树,获取一条或多条候选连接路径;
根据预设的第三规则,从所述候选连接路径中选取一条候选连接路径作为所述各文本短行之间的连接关系。
可选的,所述预设的第一规则,包括:
每个文本短行仅可与其附近的文本短行连接,所述附近的文本短行是指与当前文本短行的纵坐标距离低于第一阈值的当前文本短行上下左右的文本短行;当两个文本短行为上下行关系且在横坐标上有重叠时不可连接,除非在上的文本短行为最右侧文本短行且在下的文本短行为最左侧文本短行;连接的两个文本短行中间不可包含其它文本短行。
可选的,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树,包括:
从第一个文本短行开始,从所述连接矩阵中找到当前父节点可以连接的文本短行依次作为当前父节点的子节点,以实现所述连接树的生长;
在为父节点添加子节点时,判断当前子节点是否已在当前父节点到根节点的路径中出现过,如果已出现过,则取消为当前父节点添加当前子节点,以停止当前父节点在当前子节点方向上的路径生长。
可选的,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树,还包括:
在所述连接树生长过程中,实时或定期计算所述连接树中每条路径对应的文本短行组成的字符串的语言模型得分;
如果当前路径的语言模型得分低于预设的第二阈值,则停止在当前路径上的生长。
可选的,根据预设的第三规则,从所述候选连接路径中选取一条候选连接路径作为所述各文本短行之间的连接关系,包括:
对于一条候选连接路径,将所述候选连接路径内的文本短行进行连接,以得到所述候选连接路径对应的字符串;
计算每条候选连接路径对应的字符串与所述第二字符串之间的编辑距离;
通过比较所述编辑距离选取一条候选连接路径作为所述连接关系。
可选的,将所述第一字符串与第二字符串对齐之前,所述方法还包括以下确定所述模板图像的步骤:
获取所述第一图像中的页码信息;
根据所述页码信息从各候选模板图像中确定所述模板图像。
可选的,将所述第一字符串与第二字符串对齐之前,所述方法还包括以下确定所述模板图像的步骤:
按照从左至右、从上到下的顺序将所述第一图像中的文本短行连接,以得到临时第一字符串;
计算所述临时第一字符串与各候选模板图像的第二字符串之间的编辑距离;
根据所述编辑距离从各候选模板图像中确定所述模板图像。
根据本发明实施例的第二面,提供一种图像对齐装置,所述装置包括:
图像获取单元,用于获取第一图像,其中所述第一图像为拍摄目标文本所得图像;
文本短行获取单元,用于获取所述第一图像中的文本短行;
连接关系确定单元,用于确定各文本短行之间的连接关系;
连接单元,用于根据所述连接关系将所述各文本短行连接成第一字符串;
对齐单元,用于将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐,其中所述第二字符串是所述模板图像中的文本行或文本短行连接成的字符串。
可选的,所述装置还包括:
局部区域识别单元,用于根据对齐的所述第一字符串和所述第二字符串,从所述第一图像中识别出目标局部区域。
可选的:
所述第一图像为已作答的试卷的图像,所述模板图像为与所述第一图像对应的空白试卷的图像,所述目标局部区域为所述第一图像中的答题区域。
可选的,所述连接关系确定单元包括:
连接矩阵构建子单元,用于根据各文本短行在所述第一图像中的位置关系及预设的第一规则,构建连接矩阵,其中所述连接矩阵中的元素用于指示各文本短行之间是否可连接;
连接树生成子单元,用于根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树;
候选连接路径获取子单元,用于通过遍历所述连接树,获取一条或多条候选连接路径;
连接路径确定子单元,用于根据预设的第三规则,从所述候选连接路径中选取一条候选连接路径作为所述各文本短行之间的连接关系。
可选的,所述预设的第一规则,包括:
每个文本短行仅可与其附近的文本短行连接,所述附近的文本短行是指与当前文本短行的纵坐标距离低于第一阈值的当前文本短行上下左右的文本短行;当两个文本短行为上下行关系且在横坐标上有重叠时不可连接,除非在上的文本短行为最右侧文本短行且在下的文本短行为最左侧文本短行;连接的两个文本短行中间不可包含其它文本短行。
可选的,所述连接树生成子单元用于:
从第一个文本短行开始,从所述连接矩阵中找到当前父节点可以连接的文本短行依次作为当前父节点的子节点,以实现所述连接树的生长;
在为父节点添加子节点时,判断当前子节点是否已在当前父节点到根节点的路径中出现过,如果已出现过,则取消为当前父节点添加当前子节点,以停止当前父节点在当前子节点方向上的路径生长。
可选的,所述连接树生成子单元还用于:
在所述连接树生长过程中,实时或定期计算所述连接树中每条路径对应的文本短行组成的字符串的语言模型得分;
如果当前路径的语言模型得分低于预设的第二阈值,则停止在当前路径上的生长。
可选的,所述连接路径确定子单元用于:
对于一条候选连接路径,将所述候选连接路径内的文本短行进行连接,以得到所述候选连接路径对应的字符串;
计算每条候选连接路径对应的字符串与所述第二字符串之间的编辑距离;
通过比较所述编辑距离选取一条候选连接路径作为所述连接关系。
可选的,所述装置还包括:
第一模板图像确定单元,用于获取所述第一图像中的页码信息,根据所述页码信息从各候选模板图像中确定所述模板图像。
可选的,所述装置还包括:
第二模板图像确定单元,用于:按照从左至右、从上到下的顺序将所述第一图像中的文本短行连接,以得到临时第一字符串;计算所述临时第一字符串与各候选模板图像的第二字符串之间的编辑距离;根据所述编辑距离从各候选模板图像中确定所述模板图像。
本发明的实施例提供的技术方案可以包括以下有益效果:
在将第一图像与模板图像对齐时,本发明实施例并未使用现有技术中的图像特征点匹配等算法,而是结合图像中所含有的文本短行,根据文本短行连接后得到的字符串对图像进行对齐。这种基于内容的对齐方法可以克服图像变形等的影响,大大提高了图像对齐的效果,进而可以正确提取出答题区域,为自动阅卷打下了坚实的基础。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种图像对齐方法的流程图;
图2是根据本发明一示例性实施例示出的图像对齐示意图;
图3是根据本发明一示例性实施例示出的文本短行连接示意图;
图4是根据本发明一示例性实施例示出的一种图像对齐方法的流程图;
图5是根据本发明一示例性实施例示出的连接矩阵示意图;
图6是根据本发明一示例性实施例示出的连接树示意图;
图7是根据本发明一示例性实施例示出的一种图像对齐装置的示意图;
图8是根据本发明一示例性实施例示出的一种图像对齐装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种图像对齐方法的流程图。作为示例该方法可用于手机、相机、平板电脑、个人电脑、服务器等设备。
参见图1所示,该方法可以包括以下步骤:
步骤S101,获取第一图像,其中所述第一图像为拍摄目标文本所得图像。
容易理解的是,在本发明中,所谓图像对齐是指将两幅图像内的细节建立起对应关系。例如目标文本可以为学生已作答的试卷,对该试卷拍照后得到第一图像,而第一图像需要与模板图像对齐,其中模板图像可以为一份空白试卷的图像。这样将第一图像与模板图像进行图像对齐后,就可以知道第一图像中哪些具体的区域是学生所写的答案(即答题区域),进而可以对答题区域进行自动阅卷。因此图像对齐可以说是自动阅卷的基础。
对于如何获取第一图像本实施例并不进行限制,例如可以使用手机进行拍照,或者可以使用相机进行拍照,等等。另外目标文本也并不限于试卷,还可以是其他文本,对此本发明实施例也不进行限制。
步骤S102,获取所述第一图像中的文本短行。
文本行即文本内的一行文本,文本短行则为文本行中的部分文本,一个文本行可以包含一或多个文本短行,换句话说,文本短行是在文本行的基础上进行分割而得到的。对于一行文本(即一个文本行),因为其内可能存在一些中断,例如因为拍照原因导致一个文本行出现扭曲、变形等,则发生扭曲、变形的位置可以作为中断,又例如一行中可能存在空白区或手写区域等,则这些区域也可以作为中断,进而可以根据这些中断来分割文本行,得到文本短行。
在本发明实施例中,为了防止拍摄图像由于存在形变而导致的文本行提取错误,以文本短行为单位对拍摄图像中的文本进行提取。文本行、文本短行等概念以及文本行、文本短行的具体获取方式均可以使用现有技术,本实施例不再赘述。
在现有技术中,当需要对两幅图像进行对齐时,往往会采用基于特征点匹配的方法,例如先提取模板图像和第一图像上的较为稳定的特征点,如角点、SIFT(Scale-invariant feature transform)、SURF(Speeded Up Robust Features)或ORB(orientedFAST and rotated BRIEF)等,然后匹配第一图像和模板图像之间的特征点,根据匹配结果,对模板图像和第一图像上的图像细节进行对齐。
然而发明人在实现本发明的过程中发现,由于现场通常没有扫描仪等专业设备,或者出于方便等原因,工作人员一般都是使用手机或相机等设备对试卷进行拍照而得到试卷的图像,这就导致试卷的图像存在由于拍摄角度不同而引起的透视变形或者由于被摄纸张弯曲而存在扭曲变形等变形问题,这种变形问题使得现有技术中的特征点匹配算法很难奏效,故给自动阅卷系统带来难题。
发明人进一步发现,可以结合图像中所含有的文本短行,使用文本短行对图像进行对齐,这种基于内容的对齐方法可以克服图像变形等的影响,可大大提高图像对齐的效果,进而可以正确提取出答题区域。
步骤S103,确定各文本短行之间的连接关系。
步骤S104,根据所述连接关系将所述各文本短行连接成第一字符串。
对于从图像中提取出的一个个文本短行,需要将它们按照正确的顺序再次连接起来。对于如何确定各文本短行之间的连接关系本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
步骤S105,将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐,其中所述第二字符串是所述模板图像中的文本行或文本短行连接成的字符串。
例如,可以使用动态规划方法将第一字符串与第二字符串进行对齐,具体实现方式可以采用现有技术,对此本实施例不再赘述。
此外,将所述第一字符串与所述第二字符串对齐之后,所述方法还可以包括:
根据对齐的所述第一字符串和所述第二字符串,从所述第一图像中识别出目标局部区域。
例如,所述第一图像可以为已作答的试卷的图像,所述模板图像可以为与所述第一图像对应的空白试卷的图像,所述目标局部区域可以为所述第一图像中的答题区域。
又例如,目标局部区域也可以为供签名或填写其他内容的空白区域。再例如,目标局部区域还可以是包含某些特定字符(如敏感词)的区域,等等。对于目标局部区域的具体内容本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例可参见图2所示,在图2中,201为模板图像,模板图像可以通过将空白试卷放入扫描仪后得到,故得到的模板图像通常是较为规整的。202为对已作答的试卷拍照而得到的第一图像,第一图像通常存在一些变形等问题。通过字符串的对齐之后,可以确定模板图像中“He”和第一图像中“He”对齐,模板图像中“his”和第一图像中“his”对齐,进而可以确定第一图像中“He”和“his”之间的区域(即学生手写的“took off”)为答题区域,然后进行后续自动阅卷相关操作。
在将第一图像与模板图像对齐时,本发明实施例并未使用现有技术中的图像特征点匹配等算法,而是结合图像中所含有的文本短行,根据文本短行连接后得到的字符串对图像进行对齐。这种基于内容的对齐方法可以克服图像变形等的影响,大大提高了图像对齐的效果,进而可以正确提取出答题区域,为自动阅卷打下了坚实的基础。
下面再对步骤S103进行进一步举例说明。
由第一图像在拍摄时经常存在透视、扭曲等变形问题,导致在拍摄后的图像中,原本处于同一纵坐标(或者说是处于同一水平线上)的文本行发生弯曲变形,使得文本行中字符的纵坐标变化较大,文本行提取易发生错误,因此本发明实施例以文本短行为基本单位进行处理。在一个文本短行内,各字符的纵坐标变化较小。
作为示例可参见图3所示,在图3中带有0、1、2、3等编号的长条或短条均指代一个文本短行。需要说明的是,图3仅为示意图,故在图3中未具体显示每个文本短行内的字符内容,而只是用长条或短条显示出了文本短行的大致轮廓。
参见图4所示,所述确定各文本短行之间的连接关系,即步骤S103,可以包括以下子步骤:
步骤S401,根据各文本短行在所述第一图像中的位置关系及预设的第一规则,构建连接矩阵,其中所述连接矩阵中的元素用于指示各文本短行之间是否可连接。
对于第一规则的具体内容本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,所述预设的第一规则,可以包括:
1)每个文本短行仅可与其附近的文本短行连接,所述附近的文本短行是指与当前文本短行的纵坐标距离低于第一阈值的当前文本短行上下左右的文本短行。
上下左右也可以称为四周,当前文本短行的四周可能存在众多文本短行,但本实施例中将“附近”限制在一定的纵坐标区域内,而对于纵坐标超出该区域的那些文本短行,则认为其与当前文本短行不可能连接在一起。作为示例,第一阈值可以为第一图像高度的10%,等等。
2)当两个文本短行为上下行关系且在横坐标上有重叠时不可连接,除非在上的文本短行为最右侧文本短行且在下的文本短行为最左侧文本短行。
例如图3中,最右侧文本短行1与最左侧文本短行2之间的连接是正确的。
3)连接的两个文本短行中间不可包含其它文本短行。
例如图3中,文本短行4和文本短行5之间的连接是正确的,而文本短行1和文本短行3的连接则是错误的,文本短行4和文本短行6的连接也是错误的。
作为示例,连接矩阵可参见图5所示。可以先对每个文本短行按照在图像中从左到右、从上到下的顺序进行从小到大的编号,并创建一个n×n的空矩阵,其中n为文本短行的数量。然后根据第一规则,在空连接矩阵中对各文本短行之间的连接关系进行填写,例如文本短行之间可以连接则使用1表示,不可以连接使用0表示,即(i,j)=1表示第i个文本短行可以与每j个文本短行连接,从而最终得到连接矩阵。图5即为图4中各文本短行之间的连接矩阵,其中n=10。
步骤S402,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树。
对于具体如何生成连接树,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
作为示例,生成的连接树可参见图6所示。
步骤S403,通过遍历所述连接树,获取一条或多条候选连接路径。
作为示例,遍历时可以采用常用树结构遍历方法,如前序遍历、后序遍历等,遍历结束后可以得到一条或多条包含所有文本短行编号的路径,每条路径也即各文本短行连接时的候选连接路径,如图6中,可以找到两条包含所有文本短行编号的路径,即:
0→1→2→3→4→5→6→7→8→9,和,
0→1→2→4→5→6→7→8→9→3。
步骤S404,根据预设的第三规则,从所述候选连接路径中选取一条候选连接路径作为所述各文本短行之间的连接关系。
例如,对于一条候选连接路径,可以将所述候选连接路径内的文本短行进行连接,以得到所述候选连接路径对应的字符串;然后计算每条候选连接路径对应的字符串与所述第二字符串之间的编辑距离;再通过比较所述编辑距离选取一条候选连接路径作为所述连接关系,例如选择编辑距离最小的候选连接路径作为最佳路径,也即作为所述连接关系。对于编辑距离,由于其属于现有技术,此处不再赘述。
在本实施例或本发明其他某些实施例中,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树,也即步骤S402,可以包括:
i)从第一个文本短行开始,从所述连接矩阵中找到当前父节点可以连接的文本短行依次作为当前父节点的子节点,以实现所述连接树的生长。
例如可以将第一个文本短行作为根节点(也即第一个父节点),从连接矩阵中找到父节点可以连接的文本短行的编号,按照编号从小到大顺序,依次作为父节点从左到右的子节点。然后再分别将子节点分别作为父节点,重复上述添加子节点的过程,从而实现连接树的生长。
ii)在为父节点添加子节点时,判断当前子节点是否已在当前父节点到根节点的路径中出现过,如果已出现过,则取消为当前父节点添加当前子节点,以停止当前父节点在当前子节点方向上的路径生长。
例如可参见图6所述,在图6中虚线表示该路径不通,无法再向下继续生长。
另外,如果第一图像中文本短行较多,则构建的连接树一般较大,为了提高效率,可以在构建连接树的同时对连接树进行裁剪。作为示例,具体裁剪的方式可以如下:
在本实施例或本发明其他某些实施例中,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树,还可以包括:
在所述连接树生长过程中,实时或定期计算所述连接树中每条路径对应的文本短行组成的字符串的语言模型得分;
如果当前路径的语言模型得分低于预设的第二阈值,则停止在当前路径上的生长。
对于语言模型得分,由于其属于现有技术,本实施例不再赘述。
此外关于模板图像,下面对其进行进一步的举例说明。
以自动阅卷系统为例,由于试卷的版式、内容、页码等不同,通常要准备多个模板图像,因此需要确定当前拍摄的第一图像对应哪个模板图像。
一种简单的方式是可由操作人员直接指定,也即操作人员可以直接将模板图像的标识输入处理系统,系统自动从数据库中调取已存的该模板图像的第二字符串。
对于如何从模板图像中得到第二字符串本实施例并不进行限制,例如,因为模板图像通常较为规整(如通过扫描得到),不存在扭曲、变形等问题,所以可以直接识别出其内的文本行或文本短行,然后将各文本行或文本短行按照从左到右从上到下的顺序直接连接起来得到第二字符串。
另一种方式是:
在本实施例或本发明其他某些实施例中,将所述第一字符串与第二字符串对齐之前,所述方法还可以包括以下确定所述模板图像的步骤:
获取所述第一图像中的页码信息;
根据所述页码信息从各候选模板图像中确定所述模板图像。
例如可以利用OCR(Optical Character Recognition,光学字符识别)技术识别第一图像的页码位置处的页码信息,然后根据页面信息直接找到该页码对应的模板图像。
此外,再一种方式是:
将所述第一字符串与第二字符串对齐之前,所述方法还包括以下确定所述模板图像的步骤:
按照从左至右、从上到下的顺序将所述第一图像中的文本短行连接,以得到临时第一字符串;
计算所述临时第一字符串与各候选模板图像的第二字符串之间的编辑距离;
根据所述编辑距离从各候选模板图像中确定所述模板图像。
因为此处只是用于挑选模板图像,所以对第一图像中的各文本短行的连接关系的要求并不严格,所以只需粗略连接即可。例如可以直接根据文本短行的坐标,按照从左至右、从上到下的顺序将各文本短行粗略连接起来,然后选择编辑距离最小的候选模板图像作为第一图像对应的模板图像。
在将第一图像与模板图像对齐时,本发明实施例并未使用现有技术中的图像特征点匹配等算法,而是结合图像中所含有的文本短行,根据文本短行连接后得到的字符串对图像进行对齐。这种基于内容的对齐方法可以克服图像变形等的影响,大大提高了图像对齐的效果,进而可以正确提取出答题区域,为自动阅卷打下了坚实的基础。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图7是根据本发明一示例性实施例示出的一种图像对齐装置的示意图。作为示例该装置可用于手机、相机、平板电脑、个人电脑、服务器等设备。
参见图7所示,该装置可以包括:
图像获取单元701,用于获取第一图像,其中所述第一图像为拍摄目标文本所得图像;
文本短行获取单元702,用于获取所述第一图像中的文本短行;
连接关系确定单元703,用于确定各文本短行之间的连接关系;
连接单元704,用于根据所述连接关系将所述各文本短行连接成第一字符串;
对齐单元705,用于将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐,其中所述第二字符串是所述模板图像中的文本行或文本短行连接成的字符串。
在本实施例或本发明其他某些实施例中,所述装置还可以包括:
局部区域识别单元,用于根据对齐的所述第一字符串和所述第二字符串,从所述第一图像中识别出目标局部区域。
作为示例,所述第一图像为已作答的试卷的图像,所述模板图像为与所述第一图像对应的空白试卷的图像,所述目标局部区域为所述第一图像中的答题区域。
参见图8所示,在本实施例或本发明其他某些实施例中,所述连接关系确定单元703可以包括:
连接矩阵构建子单元7031,用于根据各文本短行在所述第一图像中的位置关系及预设的第一规则,构建连接矩阵,其中所述连接矩阵中的元素用于指示各文本短行之间是否可连接;
连接树生成子单元7032,用于根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树;
候选连接路径获取子单元7033,用于通过遍历所述连接树,获取一条或多条候选连接路径;
连接路径确定子单元7034,用于根据预设的第三规则,从所述候选连接路径中选取一条候选连接路径作为所述各文本短行之间的连接关系。
作为示例,所述预设的第一规则,可以包括:
每个文本短行仅可与其附近的文本短行连接,所述附近的文本短行是指与当前文本短行的纵坐标距离低于第一阈值的当前文本短行上下左右的文本短行;当两个文本短行为上下行关系且在横坐标上有重叠时不可连接,除非在上的文本短行为最右侧文本短行且在下的文本短行为最左侧文本短行;连接的两个文本短行中间不可包含其它文本短行。
在本实施例或本发明其他某些实施例中,所述连接树生成子单元可以用于:
从第一个文本短行开始,从所述连接矩阵中找到当前父节点可以连接的文本短行依次作为当前父节点的子节点,以实现所述连接树的生长;
在为父节点添加子节点时,判断当前子节点是否已在当前父节点到根节点的路径中出现过,如果已出现过,则取消为当前父节点添加当前子节点,以停止当前父节点在当前子节点方向上的路径生长。
在本实施例或本发明其他某些实施例中,所述连接树生成子单元还可以用于:
在所述连接树生长过程中,实时或定期计算所述连接树中每条路径对应的文本短行组成的字符串的语言模型得分;
如果当前路径的语言模型得分低于预设的第二阈值,则停止在当前路径上的生长。
在本实施例或本发明其他某些实施例中,所述连接路径确定子单元可以用于:
对于一条候选连接路径,将所述候选连接路径内的文本短行进行连接,以得到所述候选连接路径对应的字符串;
计算每条候选连接路径对应的字符串与所述第二字符串之间的编辑距离;
通过比较所述编辑距离选取一条候选连接路径作为所述连接关系。
在本实施例或本发明其他某些实施例中,所述装置还可以包括:
第一模板图像确定单元,用于获取所述第一图像中的页码信息,根据所述页码信息从各候选模板图像中确定所述模板图像。
在本实施例或本发明其他某些实施例中,所述装置还可以包括:
第二模板图像确定单元,用于:按照从左至右、从上到下的顺序将所述第一图像中的文本短行连接,以得到临时第一字符串;计算所述临时第一字符串与各候选模板图像的第二字符串之间的编辑距离;根据所述编辑距离从各候选模板图像中确定所述模板图像。
在将第一图像与模板图像对齐时,本实施例并未使用现有技术中的图像特征点匹配等算法,而是结合图像中所含有的文本短行,根据文本短行连接后得到的字符串对图像进行对齐。这种基于内容的对齐方法可以克服图像变形等的影响,大大提高了图像对齐的效果,进而可以正确提取出答题区域,为自动阅卷打下了坚实的基础。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (20)

1.一种图像对齐方法,其特征在于,所述方法包括:
获取第一图像,其中所述第一图像为拍摄目标文本所得图像;
获取所述第一图像中的文本短行;
以第一个文本短行为根节点生成连接树;
基于所述连接树,获取一条或多条候选连接路径;
根据每条候选连接路径对应的字符串与第二字符串之间的编辑距离,从所述候选连接路径中选取一条候选连接路径作为各文本短行之间的连接关系,其中所述第二字符串是模板图像中的文本行或文本短行连接成的字符串;
根据所述连接关系将所述各文本短行连接成第一字符串;
将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐。
2.根据权利要求1所述的方法,其特征在于,将所述第一字符串与第二字符串对齐之后,所述方法还包括:
根据对齐的所述第一字符串和所述第二字符串,从所述第一图像中识别出目标局部区域。
3.根据权利要求2所述的方法,其特征在于:
所述第一图像为已作答的试卷的图像,所述模板图像为与所述第一图像对应的空白试卷的图像,所述目标局部区域为所述第一图像中的答题区域。
4.根据权利要求1所述的方法,其特征在于,所述以第一个文本短行为根节点生成连接树;基于所述连接树,获取一条或多条候选连接路径,包括:
根据各文本短行在所述第一图像中的位置关系及预设的第一规则,构建连接矩阵,其中所述连接矩阵中的元素用于指示各文本短行之间是否可连接;
根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树;
通过遍历所述连接树,获取一条或多条候选连接路径。
5.根据权利要求4所述的方法,其特征在于,所述预设的第一规则,包括:
每个文本短行仅可与其附近的文本短行连接,所述附近的文本短行是指与当前文本短行的纵坐标距离低于第一阈值的当前文本短行上下左右的文本短行;当两个文本短行为上下行关系且在横坐标上有重叠时不可连接,除非在上的文本短行为最右侧文本短行且在下的文本短行为最左侧文本短行;连接的两个文本短行中间不可包含其它文本短行。
6.根据权利要求4所述的方法,其特征在于,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树,包括:
从第一个文本短行开始,从所述连接矩阵中找到当前父节点可以连接的文本短行依次作为当前父节点的子节点,以实现所述连接树的生长;
在为父节点添加子节点时,判断当前子节点是否已在当前父节点到根节点的路径中出现过,如果已出现过,则取消为当前父节点添加当前子节点,以停止当前父节点在当前子节点方向上的路径生长。
7.根据权利要求6所述的方法,其特征在于,根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树,还包括:
在所述连接树生长过程中,实时或定期计算所述连接树中每条路径对应的文本短行组成的字符串的语言模型得分;
如果当前路径的语言模型得分低于预设的第二阈值,则停止在当前路径上的生长。
8.根据权利要求4所述的方法,其特征在于,所述根据每条候选连接路径对应的字符串与第二字符串之间的编辑距离,从所述候选连接路径中选取一条候选连接路径作为各文本短行之间的连接关系,包括:
对于一条候选连接路径,将所述候选连接路径内的文本短行进行连接,以得到所述候选连接路径对应的字符串;
计算每条候选连接路径对应的字符串与所述第二字符串之间的编辑距离;
通过比较所述编辑距离选取一条候选连接路径作为所述连接关系。
9.根据权利要求1所述的方法,其特征在于,将所述第一字符串与第二字符串对齐之前,所述方法还包括以下确定所述模板图像的步骤:
获取所述第一图像中的页码信息;
根据所述页码信息从各候选模板图像中确定所述模板图像。
10.根据权利要求1所述的方法,其特征在于,将所述第一字符串与第二字符串对齐之前,所述方法还包括以下确定所述模板图像的步骤:
按照从左至右、从上到下的顺序将所述第一图像中的文本短行连接,以得到临时第一字符串;
计算所述临时第一字符串与各候选模板图像的第二字符串之间的编辑距离;
根据所述编辑距离从各候选模板图像中确定所述模板图像。
11.一种图像对齐装置,其特征在于,所述装置包括:
图像获取单元,用于获取第一图像,其中所述第一图像为拍摄目标文本所得图像;
文本短行获取单元,用于获取所述第一图像中的文本短行;
连接关系确定单元,用于确定各文本短行之间的连接关系,包括:以第一个文本短行为根节点生成连接树;基于所述连接树,获取一条或多条候选连接路径;根据每条候选连接路径对应的字符串与第二字符串之间的编辑距离,从所述候选连接路径中选取一条候选连接路径作为所述各文本短行之间的连接关系,其中所述第二字符串是模板图像中的文本行或文本短行连接成的字符串;
连接单元,用于根据所述连接关系将所述各文本短行连接成第一字符串;
对齐单元,用于将所述第一字符串与第二字符串对齐,以实现所述第一图像与模板图像的对齐。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
局部区域识别单元,用于根据对齐的所述第一字符串和所述第二字符串,从所述第一图像中识别出目标局部区域。
13.根据权利要求12所述的装置,其特征在于:
所述第一图像为已作答的试卷的图像,所述模板图像为与所述第一图像对应的空白试卷的图像,所述目标局部区域为所述第一图像中的答题区域。
14.根据权利要求11所述的装置,其特征在于,所述连接关系确定单元包括:
连接矩阵构建子单元,用于根据各文本短行在所述第一图像中的位置关系及预设的第一规则,构建连接矩阵,其中所述连接矩阵中的元素用于指示各文本短行之间是否可连接;
连接树生成子单元,用于根据所述连接矩阵及预设的第二规则,以第一个文本短行为根节点生成连接树;
候选连接路径获取子单元,用于通过遍历所述连接树,获取一条或多条候选连接路径。
15.根据权利要求14所述的装置,其特征在于,所述预设的第一规则,包括:
每个文本短行仅可与其附近的文本短行连接,所述附近的文本短行是指与当前文本短行的纵坐标距离低于第一阈值的当前文本短行上下左右的文本短行;当两个文本短行为上下行关系且在横坐标上有重叠时不可连接,除非在上的文本短行为最右侧文本短行且在下的文本短行为最左侧文本短行;连接的两个文本短行中间不可包含其它文本短行。
16.根据权利要求14所述的装置,其特征在于,所述连接树生成子单元用于:
从第一个文本短行开始,从所述连接矩阵中找到当前父节点可以连接的文本短行依次作为当前父节点的子节点,以实现所述连接树的生长;
在为父节点添加子节点时,判断当前子节点是否已在当前父节点到根节点的路径中出现过,如果已出现过,则取消为当前父节点添加当前子节点,以停止当前父节点在当前子节点方向上的路径生长。
17.根据权利要求16所述的装置,其特征在于,所述连接树生成子单元还用于:
在所述连接树生长过程中,实时或定期计算所述连接树中每条路径对应的文本短行组成的字符串的语言模型得分;
如果当前路径的语言模型得分低于预设的第二阈值,则停止在当前路径上的生长。
18.根据权利要求14所述的装置,其特征在于,所述连接关系确定单元还包括:连接路径确定子单元,所述连接路径确定子单元用于:
对于一条候选连接路径,将所述候选连接路径内的文本短行进行连接,以得到所述候选连接路径对应的字符串;
计算每条候选连接路径对应的字符串与所述第二字符串之间的编辑距离;
通过比较所述编辑距离选取一条候选连接路径作为所述连接关系。
19.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第一模板图像确定单元,用于获取所述第一图像中的页码信息,根据所述页码信息从各候选模板图像中确定所述模板图像。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二模板图像确定单元,用于:按照从左至右、从上到下的顺序将所述第一图像中的文本短行连接,以得到临时第一字符串;计算所述临时第一字符串与各候选模板图像的第二字符串之间的编辑距离;根据所述编辑距离从各候选模板图像中确定所述模板图像。
CN201610887988.7A 2016-10-11 2016-10-11 一种图像对齐方法及装置 Active CN106503634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610887988.7A CN106503634B (zh) 2016-10-11 2016-10-11 一种图像对齐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610887988.7A CN106503634B (zh) 2016-10-11 2016-10-11 一种图像对齐方法及装置

Publications (2)

Publication Number Publication Date
CN106503634A CN106503634A (zh) 2017-03-15
CN106503634B true CN106503634B (zh) 2020-02-14

Family

ID=58294809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610887988.7A Active CN106503634B (zh) 2016-10-11 2016-10-11 一种图像对齐方法及装置

Country Status (1)

Country Link
CN (1) CN106503634B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107067425B (zh) * 2017-04-25 2019-09-27 西安理工大学 一种印刷品质量自动检测中印刷图像同步对齐方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4443443B2 (ja) * 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
CN101436248B (zh) * 2007-11-14 2012-10-24 佳能株式会社 用于根据图像生成文本字符串的方法和设备
CN103077389B (zh) * 2013-01-07 2016-08-03 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN103914567A (zh) * 2014-04-23 2014-07-09 北京奇虎科技有限公司 匹配目标试题答案的方法和装置
CN104199805B (zh) * 2014-09-11 2017-10-20 清华大学 文本拼接方法及装置
CN104598887B (zh) * 2015-01-29 2017-11-24 华东师范大学 用于非规范格式手写中文地址的识别方法
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
CN105912993A (zh) * 2016-03-31 2016-08-31 深圳感官密码科技有限公司 自动阅卷图像识别方法和系统

Also Published As

Publication number Publication date
CN106503634A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN109993112B (zh) 一种图片中表格的识别方法及装置
CN109815932B (zh) 一种试卷批改方法、装置、电子设备及存储介质
CN111507251B (zh) 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质
CN110008933B (zh) 一种通用智能阅卷系统和方法
CN110738602B (zh) 图像处理方法、装置、电子设备及可读存储介质
US10339428B2 (en) Intelligent scoring method and system for text objective question
RU2651144C2 (ru) Ввод данных с изображений документов с фиксированной структурой
CN112990180B (zh) 判题方法、装置、设备及存储介质
CN107590495B (zh) 答题卡图片纠偏方法、装置、可读存储介质以及电子设备
CN113076872B (zh) 一种智能试卷批改方法
CN111104883B (zh) 作业答案提取方法、装置、设备及计算机可读存储介质
CN111242045A (zh) 自动化作业习题对错指示方法及系统
CN111079483A (zh) 一种书写规范判断方法及电子设备
CN106503634B (zh) 一种图像对齐方法及装置
CN114694161A (zh) 一种特定版式证件的文本识别方法、设备及存储介质
CN108764149B (zh) 一种针对班级学生人脸模型的训练方法
US20070047815A1 (en) Image recognition apparatus, image recognition method, and image recognition program
CN113112511B (zh) 试卷批改的方法、装置、存储介质及电子设备
CN110956087B (zh) 一种图片中表格的识别方法、装置、可读介质和电子设备
WO2023024898A1 (zh) 题目辅助方法、题目辅助装置和题目辅助系统
KR20150099906A (ko) 자동 채점 방법
CN111563407B (zh) 模型训练方法、图片方向纠正方法及装置
CN112364679A (zh) 一种图像区域识别方法及电子设备
CN107220900B (zh) 基于中心投影的学生课堂社交网络自动构建方法
CN111507292B (zh) 手写板校正方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant