CN109274898B - 文档图像智能采集方法、装置和系统 - Google Patents
文档图像智能采集方法、装置和系统 Download PDFInfo
- Publication number
- CN109274898B CN109274898B CN201810906241.0A CN201810906241A CN109274898B CN 109274898 B CN109274898 B CN 109274898B CN 201810906241 A CN201810906241 A CN 201810906241A CN 109274898 B CN109274898 B CN 109274898B
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- destination document
- image acquisition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/90—Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
Abstract
本发明公开了一种文档图像智能采集方法、装置和系统。所述方法包括:采集包括一个或多个待识别目标文档的场景图;定位所述待识别目标文档在所述场景图的位置;依据所述位置和反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像;对采集到的所述待识别目标文档成像后的图像进行图像识别处理。本发明具有无需给会议或者课堂参与人员每个人配备电子设备、不改变课堂和会议等场景下参与人员的传统活动习惯、不会给会议或者课堂参与人员带来干扰以及管理负担、提升会议或课堂信息交互效率的优点。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及文档图像智能采集方法、装置和系统。
背景技术
目前,图像识别技术已经发展得越来越成熟,在很多领域都得到了较广泛的应用,如安防监控、无人机拍摄、交通中车牌识别等。然而在其它一些领域中,图像识别技术的应用还面临着一些技术难题,尚未实现大面积的使用。如现代教育的课堂中,尽管引入了很多现代化的设备,实现了多媒体教学,然而教师与学生之间的交流互动,仍然停留在传统课堂的方式,如老师提问,指定某一学生回答,这种一问一答的方式。尽管有部分新的技术出现,如学生通过有线或无线投票器提交答案;或者学生通过点读笔点读答题板提交答案。这两种答题方式局限于为选择题提交答案。另外一些技术中,如学生通过专用的笔在专用的纸上书写,所述专用笔自动提取笔迹坐标获得学生的书写结果,从而实现主观题作答;或者学生通过在电磁坐标感应板上书写,并由电磁坐标感应板采集笔迹坐标获得学生的书写结果,从而实现主观题作答。这些方案均需要给每个学生配备专用电子设备,学生需要花时间学习如何使用这些专用电子设备,而且在实际使用中容易分散学生的注意力,给课堂管理带来了繁重的负担,极大的影响了使用效果和教学质量。
此外,在其它一些场合中,如会议培训、考试、办理证件填写纸质文档资料等,需要对如纸质或其它介质上的文档撰写人写的资料进行现场数字化实时采集的场合,现有技术还没有较好地解决。
发明内容
本发明所要解决的技术问题是,提供一种无需给课堂、会议等参与人员配备专用电子设备,且操作简单、高效率、高质量采集文档的文档图像智能采集方法、装置和系统。
作为本发明的第一方面,本发明实施例提供一种文档图像智能采集方法,所述方法包括:采集包括一个或多个待识别目标文档的场景图;定位所述待识别目标文档在所述场景图的位置;依据所述位置和反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像;对采集到的所述待识别目标文档的成像后的图像进行图像识别处理。
在一个较佳实施例中,所述依据所述位置和一反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像包括:
依据所述位置和反光单元与待识别目标文档平面之间的距离,控制一第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像,将所述待识别目标文档成像至所述第一图像采集单元,所述预定角度由所述距离和所述位置决定。
在一个较佳实施例中,所述对采集到的所述待识别目标文档的成像后的图像进行图像识别处理包括:根据所述待识别目标文档成像时的所述反光单元的转动角度对所述待识别目标文档的图像进行旋转和透视校正。
作为本发明的第二方面,本发明实施例提供一种文档图像智能采集装置,所述装置包括:
采集模块,用于采集包括一个或多个待识别目标文档的场景图;
定位模块,用于定位所述待识别目标文档在所述场景图的位置;
反光单元控制模块,用于依据所述位置和反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像;
图像处理模块,用于对采集到的所述待识别目标文档的成像后的图像进行图像识别处理。
作为本发明的第三方面,本发明实施例提供一种文档图像智能采集系统,所述系统包括:至少一组图像采集装置,所述图像采集装置包括:控制单元、第一图像采集单元、第二图像采集单元、反光单元,所述第二图像采集单元采集包括待识别目标文档的场景图;依据定位出所述待识别目标文档在所述场景图中的位置和反光单元与待识别目标文档平面之间的距离,所述控制单元控制所述反光单元转动以预定时序对所述待识别目标文档成像至所述第一图像采集单元;将所述第一图像采集单元采集到的所述待识别目标文档的成像后的图像进行图像识别处理。
在一个较佳实施例中,所述依据定位出所述待识别目标文档在所述场景图中的位置和反光单元与待识别目标文档平面之间的距离,所述控制单元控制所述反光单元转动以预定时序对所述待识别目标文档成像至所述第一图像采集单元包括:
依据定位出所述待识别目标文档在所述场景图中的位置和反光单元与待识别目标文档平面之间的距离,所述控制单元控制所述第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像,将所述待识别目标文档成像至所述第一图像采集单元,所述预定角度由所述距离和所述位置决定。
在一个较佳实施例中,所述反光单元包括反光镜、第一驱动单元、第二驱动单元,第一驱动单元驱动所述反光镜在第一方向上运动,所述第二驱动单元驱动所述反光镜在第二方向上运动,所述第一方向与所述第二方向成预设角度。
在一个较佳实施例中,所述第一图像采集单元采集所述待识别目标文档的关联信息,所述关联信息包括:所述待识别目标文档的身份标识信息、含所述待识别目标文档的用户的编码信息。
在一个较佳实施例中,所述反光镜在所述第一方向和所述第二方向上绕一支点转动,所述支点位于所述第一图像采集单元的光轴上。
在一个较佳实施例中,依据所述第一图像采集单元与所述反光镜之间的间距、第一图像采集单元的视场角及所述反光镜的偏转角度范围确定所述反光镜尺寸。
在一个较佳实施例中,所述图像采集装置还包括校正单元,通过安装的激光发射器发射激光至所述反光单元的所述支点,所述激光的路径与所述第一图像采集单元的光轴重合,校准文档上设置有网格线,所述第二图像采集单元拍摄所述校准文档的网格线,识别所述网格线的交叉点坐标,以所述交叉点对应的所述校准文档为拍摄目标;所述第二图像采集单元或第一图像采集单元拍摄所述激光发射器在所述标准文档的激光点,获取所述激光点在所述标准文档所成图像中的激光点坐标;依据所述激光点坐标和所述交叉点坐标,获取所述激光点坐标与所述交叉点坐标之间的误差,基于所述误差调整所述反光镜的角度使得所述激光点与所述网格线对应的交叉点重合。
在一个较佳实施例中,所述系统包括:第一组图像采集装置和与所述第一组图像采集装置相邻设置的第二组图像采集装置,所述第一组图像采集装置采集的所述场景与所述第二图像采集装置采集的所述场景有一个交叠区域,所述交叠区域的大小至少可覆盖所述待识别目标文档的大小。
在一个较佳实施例中,根据第一组图像采集装置采集的待识别目标文档的ID标识和第二组图像采集装置的待识别目标文档的ID标识,对于具有同一ID标识的待识别目标文档,从中选出满足预定要求的待识别目标文档。
在一个较佳实施例中,所述第一图像采集单元与所述第二图像采集单元之间设置所述反光单元,所述第二图像采集单元的摄像头拍摄包括所述待识别目标文档的场景,所述第一图像采集单元的摄像头采集经所述反光单元的反光镜反射的图像,所述支点位于所述第一图像采集单元的光轴上,所述第一图像采集单元的光轴与所述第二图像采集单元的光轴相互垂直。
在一个较佳实施例中,所述支点距离所述反光镜的几何中心预定距离,且位于所述第一图像采集单元的光轴上。
本发明的文档图像智能采集方法、装置和系统,通过采集一个或多个待识别目标文档的场景图,定位待识别目标文档在所述场景图的位置,控制反光单元以预定时序拍摄待识别目标文档的图像,具有无需给会议或者课堂参与人员每个人配备电子设备,不会给会议或者课堂参与人员带来干扰以及管理负担,从而提升会议或课堂信息交互效率的优点。现有技术中需要摄像头整体移动来采集目标对象的图像,这种采集图像方式具有噪声大、整体移动的惯性大难以精准定位、占用空间面积大、造成视觉干扰。而本发明还可以将反光单元至于采集装置内部,噪声低,占用空间小,无视觉干扰。本发明的上述文档图像智能采集方法、装置和系统可作为课堂数据采集平台,采集的内容可以作为多种应用的资料。如试卷批改,考场情况监测等。在不改变人们已经熟悉的传统课堂教学方式的基础上,实现课堂教育多样化,文档识别数字化,文档处理智能化,大大提升了传统课堂的教学效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明第一实施例的文档图像智能采集方法的流程示意图。
图2示出了图1中转动预定时序对所述待识别目标文档成像的例示图。
图3示出了本发明第二实施例的文档图像智能采集装置的原理框图。
图4示出了本发明第三实施例的文档图像智能采集系统的结构示意图。
图5示出了本发明第三实施例的文档图像智能采集系统中反光单元的结构示意图。
图6示出了本发明第三实施例的文档图像智能采集系统中进行角度校正的一个几何示意图。
图7示出了本发明第三实施例的文档图像智能采集系统中进行角度校正的另一几何示意图。
图8示出了本发明第三实施例的文档图像智能采集系统中进行角度校正的又一几何示意图。
图9示出了本发明第三实施例的文档图像智能采集系统中确定反光镜尺寸的计算示意图。
图10a示出了本发明第四实施例的文档图像智能采集系统中采用激光发射器进行角度自动校准的结构示意图。
图10b示出了基于图10a激光发射器进行角度自动校准的实际目标文档设置网格线的示意图。
图10c示出了基于图10a激光发射器进行角度自动校准的采集到含实际目标文档的场景图像中的网格线的示意图。
图11a示出了本发明第五实施例的文档图像智能采集系统中自动对焦的一视角下结构示意图。
图11b示出了本发明第五实施例的文档图像智能采集系统中自动对焦的另一视角下的结构示意图。
图12示出了本发明第六实施例的文档图像智能采集系统进行图像校正的一个几何示意图。
图13示出了本发明第六实施例的文档图像智能采集系统进行图像校正的另一个几何示意图。
图14示出了本发明第六实施例的文档图像智能采集系统的根据反光单元的转动角度对目标图像进行旋转校正的几何示意图。
图15a示出了本发明第六实施例的文档图像智能采集系统在图像校正过程中第一图像采集单元采集的原始图片。
图15b示出了本发明第六实施例的文档图像智能采集系统在图像校正过程中经过投影校正后得到的图片。
图15c示出了本发明第六实施例的文档图像智能采集系统在图像校正过程中经过旋转校正后得到的图片。
图15d示出了本发明第六实施例的文档图像智能采集系统在图像校正过程中经过镜像还原后得到的图片。
图15e示出了本发明第六实施例的文档图像智能采集系统在图像校正过程中消除背景图后得到的最终目标图片。
图16示出了本发明应用实施例一中的教室课桌布局与尺寸示意图。
图17示出了本发明应用实施例一中的教室课桌区域划分示意图。
图18示出了本发明应用实施例一中文档尺寸与图像分辨率计算的一个几何示意图。
图19示出了本发明应用实施例一中文档尺寸与图像分辨率计算的另一个几何示意图。
图20示出了本发明应用实施例一中文档尺寸与图像分辨率计算的又一个几何示意图。
图21示出了本发明应用实施例一中文档尺寸与图像分辨率计算的再一个几何示意图。
图22示出了本发明应用实施例一中计算第二图像采集单元的视场角FOV的示意图。
图23示出了本发明应用实施例一中待识别目标文档放置与标识的示意图。
图24示出了本发明应用实施例一在课堂中的文档图像智能采集方法流程示意图。
图25示出了本发明应用实施例一在课堂中的文档图像智能采集方法对应系统的原理框图。
图26示出了本发明应用实施例一在课堂中的文档图像智能采集方法完整采集流程示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例1
本发明提供一种文档图像智能采集方法,主要用于智能化采集到文档图像,实时从背景中识别出文档对象。请参见图1,本发明第一实施例的文档图像智能采集方法,主要包括:
S1、采集包括一个或多个待识别目标文档的场景图;这里待识别目标文档例如是学生上课时课桌上的作业本,或者开会时书写的便签纸等传统手写介质。这里主要是实现广视角拍摄,得到包括一个或多个待识别目标文档、承载待识别目标文档的载体和人员的场景图。
S2、定位所述待识别目标文档在所述场景图的位置;这里场景图可以用3D图像传感器采集,则可直接用空间立体坐标系坐标(x,y,z)来定位待识别目标文档的位置。当然,场景图也可用二维图像传感器采集,则这里位置可以以平面坐标系平面坐标(x,y)的形式来定位出待识别目标文档,深度信息z由目标文档平面至第二图像采集单元的距离来决定,构成立体坐标(x,y,z)。
S3、依据所述位置和反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像;待识别目标文档平面通常是其上表面。这里控制反光单元转动以预定时序对所述待识别目标文档成像主要描述如下:
第一图像采集单元在采集待识别目标文档的图像前,需等待反光单元转动到其光轴经反光单元反射后对准待识别目标文档,当场景图中包含多个待识别目标文档时,需合理设定反光单元的动作时序,以减少机械运动的等待时间。如图2所示,图中X001为所述包含9个所述待识别目标文档的所述场景图,X002为所述课桌桌面1501在场景图的的图像,X003为课桌桌面1501之上的所述文档对象的图像。优选地,本发明的反光单元动作时序(预定时序)为,从第一图像采集单元当前瞄准的最接近目标开始,顺序无重复路径的遍历瞄准每个文档图像目标X003,例如,假设第一图像采集单元当前对准的是图2中的5号目标文档,则最优的目标瞄准时序(也即预定时序)之一为⑤→②→③→⑥→⑨→⑧→⑦→④→①,假设第一图像采集单元当前对准的是图2中的1号目标文档,则最优的目标瞄准时序(也即预定时序)之一为①→②→③→⑥→⑤→④→⑦→⑧→⑨。依据反光单元的转动时序,选择最优的路径使场景图X001中的课桌桌面图像X002上的文档图像依次成像,并被第一图像采集单元采集到。
S4、对采集到的所述待识别目标文档的成像后的图像进行图像识别处理。本发明的图像识别处理主要是从第一图像采集单元拍摄的包括待识别目标文档的图像中识别出目标文档,定位目标文档的位置,进而裁剪掉目标文档图像以外的背景图像,提取出目标文档图像。这里的图像识别处理主要包括:透视校正;旋转校正;镜像校正;去除背景;以及优化图像对比度和清晰度等步骤(详细请参见后面实施例的叙述)。这里通常是由高分辨率、小的FOV(Field OfView,视场角)、长焦距的相机来采集经反光单元反射的图像。
本发明的文档图像智能采集方法,通过采集一个或多个待识别目标文档的场景图,定位待识别目标文档在所述场景图的位置,控制反光单元以预定时序拍摄待识别目标文档的图像,具有无需给会议或者课堂参与人员每个人配备电子设备,不会给会议或者课堂参与人员带来干扰以及管理负担,从而提升会议或课堂信息交互效率的优点。此外,本发明还具有高效率的特点,例如课堂作业做完了,老师要收数字化的作业,现有技术解决方式有以下两种:1)老师把作业本收上去逐个扫描或拍照,2)学生把作业拿回家自己拍照再通过即时通讯工具(如QQ或微信)发给老师。本发明可以在课堂上通过图像采集几秒钟内就把所有作业全部收上来。这样比现有技术高效率多了。此外,课堂集中答题也是一样,每人一个纸条,把答案写上,派人把纸条收上去,然后逐个念答案,本发明无需这么繁琐,可以在数秒内把所有的纸条内容显示在同一个大屏幕上。因而大大提高了数字化教学的效率。
本发明实施例整体说来,主要工作流程如下:先用第二图像采集单元采集包括一个或多个待识别目标文档的场景图,从场景图中识别并定位出目标文档的位置,然后反光单元配合第一图像采集单元,逐一采集每个目标文档的图像,然后通过对第一图像采集单元采集到的每个目标文档的图像进行图像识别和定位处理,从图像中提取出每一个最终目标文档。第一图像采集单元与第二图像采集单元可以是一体式设置,也可以是分体式设置。一体式设置时,第一图像采集单元、反光单元和第二图像采集单元成一个整体,便于运输和安装。分体式设置时,第一图像采集单元、反光单元和第二图像采集单元各单元可根据安装场地调节彼此间的间距。
在一个具体实施例中,所述依据所述位置和一反光单元与目标文档平面之间的距离,控制所述反光单元以预定时序转动对所述待识别目标文档成像包括:
依据所述位置和反光单元与目标文档平面之间的距离,控制所述第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像,将所述待识别目标文档成像至所述第一图像采集单元,所述预定角度由所述距离和所述位置决定。通过上述聚焦部旋转预定角度或伸缩预定距离聚焦待识别目标文档,并成像至第一图像采集单元,因此可以在一个较大的空间范围内采集图像,并且可以实现自动对焦。聚焦部具体来说,设第一图像采集单元的焦距为F,像距为V,物距为U,则F、U、V满足公式1/F=1/V+1/U,当F固定,物距U变化后像距V必须同步变化使得公式1/F=1/V+1/U保持成立,为此第一图像采集单元上通常设置有一聚焦环,这里聚焦环是聚焦部一种形态,聚焦部也可以是其它形态,甚至可以与镜头结构一体化。每个物距U的值对应一个像距V的值,也对应一个聚焦环的旋转角度γ(也即聚焦部的预定角度)。因此,对于每个特定的镜头,F固定后,物距U与聚焦环的旋转角度γ是一一对应的且是已知参数。本发明在反光单元安装固定后,反光单元的旋转角度(α,β)角确定后,所述物距U也就确定了,相应的所述聚焦环的旋转角度γ也就确定了,因而无需通过图像循环反馈来调节所述聚焦环的旋转角度γ,实现一步直接聚焦。也就是说,预定角度由距离和位置决定。
在一个具体实施例中,根据所述待识别目标文档成像时的所述反光单元的转动角度对所述待识别目标文档的图像进行旋转和透视校正。进一步地,还包括:从第一图像采集单元拍摄的包括待识别目标文档的图像中识别出目标文档,定位目标文档的位置,进而裁剪掉目标文档图像以外的背景图像,提取出目标文档图像,这样有助于对目标文档图像进行高质量的后续应用识别与处理,不会受到背景图像的影响。
本发明还可以基于上述文档图像智能采集方法的实施例作出各种变形,或者在该实施例基础上增加新的步骤,如在步骤S1之前增加转动角度校正步骤,校正反光单元基于一支点(或原点)绕X轴旋转的α角和Z轴旋转的β角,具体请参见后面实施例的叙述。
实施例2
请参见图3,本发明第二实施例对应上述文档图像智能采集方法还提供一种文档图像智能采集装置。该文档图像智能采集装置主要包括:
采集模块10,用于采集包括一个或多个待识别目标文档的场景图;这里通常由前面的第二图像采集单元来采集场景图。
定位模块20,用于定位所述待识别目标文档在所述场景图的位置;
反光单元控制模块30,用于依据所述位置和反光单元与目标文档平面之间的距离,控制所述反光单元以预定时序转动对所述待识别目标文档成像;
图像处理模块40,用于对所述待识别目标文档的成像后的图像进行采集,采集后进行图像识别处理。这里由第一图像采集单元采集包括待识别目标文档的高分辨率图。
本发明的文档图像智能采集装置,具有无需给会议或者课堂参与人员每个人配备电子设备,不改变课堂和会议等场景下参与人员的传统活动习惯,不会给会议或者课堂参与人员带来干扰以及管理负担,从而提升会议或课堂信息交互效率的优点。
进一步地,反光单元控制模块30包括:
反光单元控制子模块,用于依据所述位置和反光单元与目标文档平面之间的距离,所述控制单元控制所述第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像;
成像子模块,用于将所述待识别目标文档成像至所述第一图像采集单元,所述预定角度由所述距离和所述位置决定。
进一步地,所述文档图像智能采集装置的图像处理模块40还包括:旋转和透视校正处理模块,根据所述待识别目标文档成像时的所述反光单元的转动角度对所述待识别目标文档的图像进行旋转和透视校正。此外,还包括:识别模块,用于从第二图像采集单元采集的包括待识别目标文档的场景图像中,识别出待识别目标文档;定位模块,用于定位出待识别目标文档的位置;目标文档图像提取模块,用于从第一图像采集单元拍摄的场景图像中裁剪掉待识别目标文档图像以外的背景图像,提取出目标文档图像。
实施例3
本发明基于上述文档图像智能采集装置,还相应提供一种文档图像智能采集系统。本发明第三实施例所提供的文档图像智能采集系统,包括:至少一组图像采集装置(与上述文档图像智能采集装置相对应),可以是一组图像采集装置,也可以是多组图像采集装置。每一组图像采集装置包括:控制单元、第一图像采集单元、第二图像采集单元、反光单元,所述第二图像采集单元采集包括待识别目标文档的场景图;依据定位出的所述待识别目标文档在所述场景图中的位置和反光单元与目标文档平面之间的距离,所述控制单元控制所述反光单元转动以预定时序对所述待识别目标文档成像至所述第一图像采集单元;将所述第一图像采集单元采集到的所述待识别目标文档的成像后的图像进行图像识别处理。上述控制单元可以是单独设置的处理器,也可以是设置于第一图像采集单元的处理器,或者第二图像采集单元的处理器。图像识别处理可以是将所述待识别目标文档的成像后的图像发送至服务器中处理,也可以是由第一图像采集单元的处理器处理,或者控制单元处理。所述第一图像采集单元可以是逐一采集待识别目标文档,也可以是一次采集多个相邻的待识别目标文档。
在一个较佳实施例中,所述依据所述位置和反光单元与目标文档平面之间的距离,所述控制单元控制所述反光单元转动以预定时序对所述待识别目标文档成像至所述第一图像采集单元包括:
依据所述位置和反光单元与目标文档平面之间的距离,控制所述第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像,将所述待识别目标文档成像至所述第一图像采集单元。可实现直接驱动对焦,无需图像反馈,只与物距有关,而物距又是由前述位置和反光单元与目标文档平面之间的距离来决定的。
在一个较佳实施例中,所述反光单元包括反光镜、第一驱动单元、第二驱动单元,第一驱动单元驱动所述反光镜在第一方向上运动,所述第二驱动单元驱动所述反光镜在第二方向上运动,所述第一方向与所述第二方向成预设角度。优选地,第一方向与第二方向相互垂直,当然也可以是其它角度,如45°或60°或75°等依据实际情况设定的角度。此外支撑反光镜的支点距离反光镜的几何中心一定的距离,且支点位于第一图像采集单元的光轴上。当然,支点也可以设置于与第一图像采集单元光轴相隔一定距离处,也可实现本发明实施例的经反光镜反射后的图像采集。
在一个较佳实施例中,所述第一图像采集单元采集所述待识别目标文档的关联信息,所述关联信息包括:所述待识别目标文档的身份标识信息、含所述待识别目标文档的用户的编码信息。这里的编码信息可以是条码或者二维码等常见的字符编码方式。这里关联信息可以是设置在待识别目标文档上,也可以设置在承载所述待识别目标文档的载体,例如课桌桌面。这里可以采用QR二维码识别技术实现。
在一个较佳实施例中,所述反光镜在所述第一方向和所述第二方向上绕一支点转动,所述支点位于所述第一图像采集单元的光轴上。
在一个较佳实施例中,依据所述第一图像采集单元与所述反光镜之间的间距、第一图像采集单元的视场角及所述反光镜的偏转角度范围确定所述反光镜尺寸。
在一个较佳实施例中,所述图像采集装置还包括校正单元,通过安装的激光发射器发射激光至所述反光单元的所述支点,所述激光的路径与所述第一图像采集单元的光轴重合,校准文档上设置有网格线,所述第二图像采集单元拍摄所述校准文档的网格线,识别所述网格线的交叉点坐标,以所述交叉点对应的所述校准文档为拍摄目标;所述第二图像采集单元或第一图像采集单元拍摄所述激光发射器在所述标准文档的激光点,获取所述激光点在所述标准文档所成图像中的激光点坐标;依据所述激光点坐标和所述交叉点坐标,获取所述激光点坐标与所述交叉点坐标之间的误差,基于所述误差调整所述反光镜的角度使得所述激光点与所述网格线对应的交叉点重合。需要说明的是,采用第一图像采集单元拍摄所述激光发射器在所述校准文档的激光点,因为激光发射器设置在第一图像采集单元的光轴上,会对图像亮度有一定影响,但不对识别激光点和网格线造成任何影响。实际使用中,由于图像采集装置安装的空间高度是不同的,因此需要选取在多个不同空间高度上重复进行上述校正过程,其它任意指定高度的校正参数使用已校正的相邻高度的校正参数线性插值获得。例如教室的高度通常是2.5m至3.5m之间,这就需要选取几个值,例如2.5m,2.8m,3m,3.2m,3.5m的数值,每个数值对应有一个校正参数。当教室高度为2.7m时,利用2.5m和2.8m对应的校正参数,通过线性插值来实现。此外,前述所述第二图像采集单元拍摄所述校准文档的网格线,识别所述网格线的交叉点坐标,以所述交叉点对应的所述校准文档为拍摄目标,可以是以一定时序逐个瞄准网格线交叉点进行,也可以是在分辨率和视场角较佳的情况下一次性同时瞄准所有网格线进行校准。
在一个较佳实施例中,所述系统包括:第一组图像采集装置和与所述第一组图像采集装置相邻设置的第二组图像采集装置,所述第一组图像采集装置采集的所述场景与所述第二图像采集装置采集的所述场景有一个交叠区域,所述交叠区域的大小至少可覆盖所述待识别目标文档的大小。本发明实施例可以有效避免因图像拼接处理而使得文档的图像质量达不到要求(文档图像的拼接精度需求远高于风景图的拼接精度需求),因而处理简单,效率高,满足实时性需求。
在一个较佳实施例中,根据第一组图像采集装置采集的待识别目标文档的ID标识和第二组图像采集装置的待识别目标文档的ID标识,对于具有同一ID标识的待识别目标文档,从中选出满足预定要求的待识别目标文档,剔除重复文档。
在一个较佳实施例中,所述第一图像采集单元与所述第二图像采集单元之间设置所述反光单元,所述第二图像采集单元的摄像头拍摄包括所述待识别目标文档的场景,所述第一图像采集单元的摄像头采集经所述反光单元的反光镜反射的图像,所述支点位于所述第一图像采集单元的光轴上,所述第一图像采集单元的光轴与所述第二图像采集单元的光轴相互垂直。进一步地,所述反光单元旋转的最大范围内贴附所述第二图像采集单元时,第一图像采集单元的视场角在反光单元的作用下与所述第二图像采集单元的视场角基本重合。也就是说,反光单元距离第二图像采集单元越近越好。进一步地,所述支点距离所述反光镜的几何中心预定距离,且位于所述第一图像采集单元的光轴上。
具体来说,请参见图4至图9,本发明第三实施例的文档图像智能采集系统的图像采集装置主要包括:
第二图像采集单元2002,其优选为低分辨率带广角、大景深定焦镜头的相机。
第一图像采集单元2001,其优选为一高分辨率带长焦、大景深定焦镜头的相机。其中,2004为第一图像采集单元2001的镜头的光轴,光轴2004经过在YOZ坐标平面的原点2000。2005为第二图像采集单元2002的镜头的光轴。
在一个实施例中,反光单元2003,其基于原点2000可绕X轴旋转α角和Z轴旋转β角,所述反光单元2003包括反光镜、旋转机构、驱动电路、接收指令的输入电路,以及输出工作状态的输出电路。当接收指令的输入电路接收到图像采集指令后,驱动电路驱动旋转机构带动反光镜旋转至指定角度,输出工作状态的输出电路反馈指定角度信息。第一光轴2004经过反光单元2003折向拍摄目标,而第二光轴2005直接对准包括待识别目标文档的场景。2008为反光单元的反光镜平面的法向量,定义α为法向量2008在YOZ平面上的投影与Y正轴之间的夹角,角度增长的方向由Y正轴转向Z负轴,定义β为法向量2008在XOY平面上的投影与Y轴负方向之间的夹角,角度增长的方向由Y负轴转向X轴正方向(以XYZ的立体坐标为基础,各箭头所指方向为正方向),当α=0、β=0时法向量2008指向Y轴正方向且与第一光轴2004重合。
进一步地,还可以包括包覆上述第二图像采集单元2002、第一图像采集单元2001以及反光单元2003的外壳组件,外壳组件包括外壳2006以及将外壳2006固定到某一指定物上的支架,用于支持第二图像采集单元2002、第一图像采集单元2001以及反光单元2003保持固定的相对位置。此外,为保护第二图像采集单元2002、第一图像采集单元2001在未拍摄场景图像时不受外物如灰尘污染等,本发明实施例中还设置有电驱动开关仓门2007,在图像采集装置工作时打开,停止工作或断电时自动关闭,用于防尘、防潮。优选地,电驱动开关仓门2007设于外壳的面向拍摄场景一侧,外壳2006可被固定在天花板或墙面2010上。
第一图像采集单元2001的功能为拍摄高分辨率目标文档(如学生课桌桌面上的作业和试卷)的图像,在反光单元2003的共同作用下,逐个瞄准多个目标中的每一个目标进行拍摄。第二图像采集单元2002的功能为拍摄包含第一图像采集单元2001要拍摄的多个目标的场景图(如全局预览图)(如一张场景图包含了多行多列学生课桌桌面)。
需要说明的是,一般说来,很容易想到将第一图像采集单元2001的镜头替换为变焦镜头,省去第二图像采集单元2002,因而可以节省成本。然而实际应用时,将第一图像采集单元2001的高分辨率、长焦、大景深镜头与第二图像采集单元2002的低分辨率、短焦、广角镜头合并为一个高分辨率、大景深、电驱动大范围变焦镜头,此项改动增加的成本远大于第二图像采集单元2002的成本,此外还有以下缺陷:
1)电驱动大范围变焦镜头在工作时会发出噪声;
2)镜头切换焦距所消耗的时间会显著降低整体系统获取图像的实时性;
镜头工作在短焦广角端时,因为入射光的角度大,镜头需要足够靠近反光镜,然而当镜头切换到长焦端时,镜头会伸长,这就要求镜头入光面位置不变而相机主体向后移动,这样的设计从技术实现产品成本的角度来看都是不合理的。
请参见图5,在本发明的一个具体实施例中,反光单元主要包括:
反光镜2031,优选为全光谱反光镜片;
反光镜旋转机构,通过调整反光镜的转动角度,实现第一图像采集单元2001的镜头对不同位置的文档采集图像。其主要包括转子机构、定子机构、动力机构及支撑机构。其中转子机构包括:第一云台2036、第二云台2034。定子机构包括外壳2035。动力机构包括:舵机转盘2037以及舵机2038。支撑机构包括:转动轴2033以及轴承2032。通过将反光镜2031、第一云台2036、第二云台2034、舵机转盘2037以及舵机2038等组装起来,构成反光单元。
驱动控制电路,接受控制指令,驱动控制反光单元工作。具体包括:驱动电路、接收指令的输入电路,以及输出工作状态的输出电路。控制反光镜在第一方向上旋转α角度和第二方向上旋转β角度,也即反光镜的旋转角度(α,β)角。所述驱动电路控制反光镜旋转机构完成(α,β)角的旋转后,通过所述输出电路输出状态指示信号,此信号可用于触发第一图像采集单元2001拍照。
请参见图6至图8,第二图像采集单元2002拍摄的全局预览图发送给图像处理服务器(如AI(人工智能)图像处理服务器)进行目标识别与定位后,获得N个目标的中心点在场景图(如全局预览图)中的像素坐标(X1,Y1),(X2,Y2),……(Xn,Yn),为了使第一图像采集单元2001能分别瞄准坐标(X1,Y1)~(Xn,Yn)对应的目标的中心点进行高分辨率拍摄,反光单元2003需绕X轴和Z轴分别转动(α1,β1),(α2,β2),……,(αn,βn)角度。
假定所有目标(例如学生的课桌桌面)近似处于同一个水平平面F内,即图4的平面2009,定义水平平面F的原点为光轴2004上的原点O 2000在水平平面F上的垂直投影O′,约定光轴2004未经反光镜折射的部分与平面F平行(可在外壳2006固定设置电驱动开关仓门2007时借助水平仪保证)。光轴2005垂直于平面F,因此第二图像采集单元2002的像平面与平面F平行,进而可以依据全局图像中目标中心点的图像像素坐标(X1,Y1)~(Xn,Yn)计算目标中心点在平面F中的坐标(U1,V1)、(U2,V2),……,(Un,Vn),进而可以计算出(α1,β1)~(αn,βn)的值,计算步骤简述如下:
第一步:先根据每个目标的中心点在预览图中的像素坐标计算对应目标中心点坐标在F平面中的坐标值。如图6所示,3003为像平面中的一目标的中心点T′,其对应在F平面中的目标的中心点T为3004,3001为第二图像采集单元2002的图像传感器距离第二图像采集单元2002的镜头的光学中心点距离L1,3002为F平面距离第二图像采集单元2002的镜头的光学中心点距离L2,本发明的系统实际安装时L1和L2均为已知的参数。OsOs′为第二图像采集单元2002的光轴2005,原点O 2000与光轴2005之间的距离为D 3005,本发明的系统实际安装时D为已知参数。根据相似三角形原理,只需计算出T′在像平面中的坐标即可计算出T在F平面中的坐标。T′的坐标可由T′在场景图(如全局预览图像)中的像素坐标值乘上图像传感器单个像素的物理尺寸得到,而本发明实施例中实际安装时图像传感器单个像素的物理尺寸为已知的参数。
设T′的像素坐标为(x′,y′),第二图像采集单元2002的图像传感器单个像素的尺寸为(a,b),T在F平面中的坐标为(u,v),则:
u=-x′*a*L2/L1;
v=-y′*b*L2/L1+D。
第二步:根据第一步计算的目标中心点3004在F平面中的坐标T(u,v)计算反光镜所在平面的法向量。如图7和图8所示,O′为F平面2009的原点,平面XOY平行于平面UO′V,且OO′同时垂直于平面XOY和平面UO′V。L3为OO′的长度,本发明的系统实际安装时L3为已知参数。P′为T在V轴上的投影,T和P′在Y轴上的投影为P,因此,T在XYZ坐标系中的3D坐标为(u,v,-L3),P在XYZ坐标系中的3D坐标为(0,v,0)。为法向量2008,为了让第一图像采集单元2001瞄准T,则必须使∠POQ=∠QOT,计算出反光镜平面的法向量,也就间接计算出(α,β)角度值。
因为P是T在Y轴上的投影,所以三角形OPT是直角三角形,根据反余弦函数的定义有:∠POT=cos-1(|OP|/|OT|),其中|OP|=abs(v),根据勾股定理|OT|=sqrt(u*u+v*v+L3*L3)。上述公式中,cos-1为反余弦函数,abs为取绝对值函数,sqrt为求平方根的函数,以下相同。
因为三角形OPQ为直角三角形,根据正切函数的定义有|PQ|=tan(∠POQ)*|OP|=tan(1/2*∠POT)*abs(v)。tan为正切函数。
根据勾股定理有|PT|=sqrt((u-0)*(u-0)+(v-v)*(v-v)+(-L3-0)*(-L3-0))=sqrt(u*u+L3*L3)。
令t=|PQ|/|PT|,根据直线的参数方程有:
Qx=Px*(1-t)+t*Tx
Qy=Py*(1-t)+t*Ty
Qz=Pz*(1-t)+t*Tz
代入P和Q的坐标,得:
Qx=t*u,Qy=v*(1-t)+t*v=v,Qz=t*(-L3)=-t*L3
故Q的坐标为(t*u,v,-t*L3)。
第三步:根据法向量计算α角度与β角度。
如图7所示,法向量在YOZ平面上的投影为Q′在XYZ坐标系中的坐标为(0,v,-t*L3),在XOY平面上的投影为Q″在XYZ坐标系中的坐标为(t*u,v,0),反光镜平面的法向量的初始状态为与OY轴重合,可以看成是OY绕X轴由Y正轴向Z负轴旋转∠YOQ′到达然后再绕Z轴由Y负轴向X正轴方向旋转∠POQ″后到达因此α=∠YOQ′,β=∠POQ″。
∠YOQ′=π/2+sin-1(|OP|/|OQ’|)
∠POQ″=tan-1(|PQ”|/|OP|)
其中:
|OQ′|=sqrt(v*v+(-t*L3)*(-t*L3))=sqrt(v*v+t*t*L3*L3)
|PQ″|=sqrt(t*u*t*u+v*v)=sqrt(t*t*u*u+v*v)
|OP|=abs(v)
当T在UO′V平面的其它象限时,可同样按照上述三步的计算方法计算出对应的α和β角。其中,sin-1为反正弦函数,tan-1为反正切函数。
请参见图9,关于本发明实施例中,所述支点距离所述反光镜的几何中心预定距离,且位于所述第一图像采集单元的光轴上,本实施例中将结合图9来详细论证和说明。具体如下:
在固定反光镜旋转支点到目标文档平面的距离B11的情况下,B7为图像传感器的尺寸,即图像传感器的像素数量X单个像素物理尺寸,本发明的系统实施时为已知参数;
B9为镜头入光面到像面的距离,该参数为相机的已知参数;
镜头的焦距F为相机的已知参数;
B10为镜头入光面到反光镜旋转支点之间的距离,该参数为本发明需要优选的参数;
B11为反光镜旋转支点到目标文档平面的距离,本发明的系统安装时为已知参数;
定义D7为光程总长(即像距+物距)=B9+B10+B11,本发明的系统安装时为已知参数;
D8为像距,待计算;
定义D9为物距,D9=D7-D8,待计算;
B13为目标文档尺寸,待计算;
B18和B19分别为反光镜的有效工作半尺寸,待计算;
设物距为U=D9,像距为V=D8,则以上各待计算参数计算过程如下:
解方程
U+V=D7
1/F=1/U+1/V
得:
D9=U=(D7+sqrt(D7*D7-4*D7*F))/2
D8=V=(D7-sqrt(D7*D7-4*D7*F))/2
B13=D9/D8*B7(因为物距:像距=目标文档尺寸:传感器尺寸)
由反正切函数可得镜头的视场角为FOV=2*arctan(B13/2/D9)/π*180
设反光镜偏转角为θ,由三角形正弦定理可得:
B18=(B9+B10-D8)/sin((180-FOV/2-θ)/180*π)*sin(FOV/2/180*π)
B19=(B9+B10-D8)/sin((θ-FOV/2)/180*π)*sin(FOV/2/180*π)
由以上计算分析可知,当反光镜正常工作时,B18≠B19,也就是说为了保证反光镜尺寸尽可能小,反光镜的支点的理想位置并不位于反光镜的正中心(几何中心),而是有一定的偏心,也就是说支点距离反光镜的几何中心预定距离。同时也可得出,第一图像采集单元与反光镜之间的间距、第一图像采集单元的视场角及所述反光镜的偏转角度范围决定了所述反光镜尺寸。
实施例4
请参见图10a、图10b及图10c,本发明实施例还对反光单元的旋转角度进行事先校正,以提高对待识别目标文档的瞄准精度。由于存在机械加工与装配误差,以及第二图像采集单元2002通过其广角镜头获取的场景图(如全局预览图像)存在一定的畸变(例如桶形失真或枕形失真),通过实施例3的第一步至第三步计算出的(α,β)角必定存在一定程度的误差。当第一图像采集单元2001的工作区域(即与第一图像采集单元2001中图像传感器的感光区域光学对称的物体区域)远大于目标尺寸时,第一图像采集单元2001的拍摄图像总能包含目标的像,所述误差不会带来危害,然而当目标尺寸接近第一图像采集单元2001的工作区域时,第一图像采集单元2001拍摄的图像可能不能完全包含目标的像,此时,需要对(α,β)角进行误差校正。本发明实施例中给出了下面的校正方法:
如图10a所示,6001为一固定在外壳2006上的微型激光发射器,其发射出的激光束6002与第一图像采集单元2001的光轴2004重合,因此激光束6002经反光镜2003反射后瞄准2001要拍摄的真实目标的中心点。
校正过程如下:
1)如图10b所示,在F平面UO′V上放置绘有正方形网格(也可以是矩形网格或者其它便于识别的几何形状网格)的平板纸7000,正方形网格的中心点与O′重合,网格水平线与U轴平行,网格垂直线和V轴平行;
2)图10c为第二图像采集单元2002拍摄的网格7000的所述场景图;
3)定义网格7000的每一个水平线和垂直线的交叉点为第一图像采集单元2001的拍摄目标中心点;
4)通过图像识别算法识别出场景图10c中的所有网格线的交叉点坐标(x′0,y′0)、(x′1,y′1)、……(x′n,y′n)。(具体步骤为通过霍夫变换检测出所有的水平线和垂直线,然后求直线的相交点,霍夫变换为数字图像处理领域的工程师所熟知的技术);
5)针对(x′0,y′0)~(x′n,y′n)中的每一对坐标点,按如下方式采集校正数据:
a.设网格交叉点7001的坐标为(x′i,y′i),其在F平面中对应的名义坐标为网格交叉点7002;
b.按照S3001~S3003的步骤计算(α,β)角得(αi,βx),然后控制反光镜旋转(αi,βi)角;
c.激光束经2003反射后照射在F平面上形成亮斑7003,7004为7003在场景图(如全局预览图像)中的像,通过图像处理算法检测出7004的中心坐标(x′s i,y′s i)(由于7004是激光光斑的像,其亮度非常大,通过简单的二值化算法即可将其检测出来,涉及的技术是数字图像处理领域的工程师所熟知的技术);
d.如果abs(x′i-x′s i)或abs(y′i-y′s i)大于预设的误差上限值d,则调整(αi,βi)的角度为(αR i,βR i),使得7002与7003重合(同时7004与7001重合),所述(αi,βi)角度调整为(αR i,βR i)方法在后面说明;
6)步骤5执行完毕后,获得一组全局图像坐标(x′,y′)到(α,β)角的校正映射数据(x′i,y′i)→(αR i,βR i),为了获得任意(x′,y′)坐标对应的(α,β)角,可以使用多项式拟合的算法。假设多项式的最高次数为3,则可定义如下公式:
α=C0+C1x′+C2y′+C3x′2+C4y′2+C5x′y′+C6x′3+C7y′3+C8x′2y′+C9x′y′2
β=D0+D1x′+D2y′+D3x′2+D4y′2+D5x′y′+D6x′3+D7y′3+D8x′2y′+D9x′y′2
将步骤5采集得到的校正数据代入这个两个公式可得矩阵方程:
和
当n大于参数向量C和D的元素的个数时,以上两个矩阵方程通过最小二乘法获得最优近似解。为了提高拟合精度,一般取n远大于参数向量C和D的元素个数。也可以提高多项式的阶数进一步提高拟合的进度。
求得参数向量C和D后,输入场景图中的目标中心像素坐标(x′,y′),代入上述多项式公式,即可求得(α,β)角。
需要说明的是参数向量C和D与图7中L3的值是相关的,实际安装时L3的值可以限定在合理的范围之内(如2.8米至3.5米),因此可将6001固定在程序可控伸缩长度的电动伸缩臂上,在不同高度上校正(α,β)角。为了减少校正的时长,可以将L3的取值由最小值L3min至L3max均分成M段,对每一个L3的取值L3i(0<=i<m)做一次校正并计算、存储一组参数向量Ci和Di,如果系统实际安装时L3的取值为L=t*L3i+(1-t)*L3i+1,(0≤t≤1),根据线性差值算法,参数向量C和D的取值为t*Ci+(1-t)*Ci+1与t*Di+(1-t)*Di+1。
以上校准过程在出厂前于生产厂家的专用校正环境下进行,整个校正过程可做到全自动化(包括校正数据的采集、计算与存储),微型激光发射器6001在校正前由人工安装上,校正完成后取下,实际应用现场无需安装6001。
整个校正过程的时间瓶颈在反光镜模块2003的(α,β)角切换速度。假设M=5,网格7000有10*10个网格交叉点,则校正过程需要采集5*10*10=500个数据点,现代微型舵机的执行速度通常可达0.2秒60°旋转角度,优化校正过程中校正数据采集时按顺序瞄准网格7000的交叉点,从而减小每次舵机所需执行的旋转角度,假设0.25秒完成一个网格交叉点数据采集,则500个校正数据的采集需时500*0.25秒≈2分钟,此时间消耗是生产效益范围内可以接受的。
根据α与β的定义,在第一图像采集单元2001所瞄准的F平面范围内,参照图7可知,当(α,β)的取值为(135°,0°)时,第一图像采集单元2001的瞄准点(光轴2004)对准F平面的原点o′,当2001的瞄准点由原点o′向U正轴方向移动,α的取值减小,当2001的瞄准点由原点o′向U负轴方向移动,α的取值增加;当2001的瞄准点由原点o′向V正轴方向移动,β的取值增加,当2001的瞄准点由原点o′向V负轴方向移动,β的取值减小。因此,如果前面过程的第5步中计算出x′i-x′s i>0,则图10b和图10c中7004和7003需要向右移动,才能分别与7002和7001重合,因此需要增加αi以获得校正角度αR i,反之需要减小αi;如果前面过程的第5步中计算出y′i-y′s i>0,则图10b和图10c中7004和7003需要向上移动,才能分别与7002和7001重合,因此需要增加βi以获得校正角度βR i,反之需要减小βi。
具体的调节过程中,可以使用2003的最小转动角逐步逼近,直至abs(x′i-x′s i)与abs(y′i-y′s i)均小于预设的误差上限值d。为了加快逼近速度,也可以使用最小转动角的K倍值作为初始步长,如果调节没到位,则继续调节,如果α或/和β调节过头,则将对应的K倍值减半并取反后再调节,直至abs(x′i-x′s i)与abs(y′i-y′s i)均小于预设的误差上限值d。
实施例5
请参见图11a和图11b,本发明第五实施例的文档图像智能采集系统中自动对焦实现。当反光单元2003工作在不同的(α,β)角时,第一图像采集单元2001拍摄的目标距离(也称工作距离)存在远近变化,因而处于相机能清晰成像景深之外的目标将会成像不清晰,通常的解决办法有a)调节光圈大小,减小镜头的通光孔径直径,以加大镜头的景深范围;b)使用基于图像负反馈控制的自动对焦镜头。方案a的缺陷是镜头通光孔径减小后虽然加大了景深,但也同也减少了相机图像传感器(sensor)的感光强度,需要加大曝光时间,然而当环境光比较弱的时候,曝光时间可能超出实际应用场景的范围而不可取。方案b的缺陷在于基于图像负反馈控制的自动对焦镜头锁定目标的时间不确定,尤其当对焦点瞄准的目标部分的图像对比度不够时对焦可能失败。故方案a和方案b均存在较大的不足。
注意到图7中的L3确定后,反光单元2003的每一对角度(α,β)所确定的第一图像采集单元2001的工作距离(即图7中的|OT|)可精确计算出来,对于定焦镜头而言,工作距离与调焦参数(即镜头调焦环的旋转角度γ)是一一对应的,因此可以通过(α,β)角的值直接计算出镜头调焦环的旋转角度γ,从而实现快速自动直接对焦。
如图11a和图11b所示为所述自动直接对焦机构工作原理图。图中,8000为镜头主体,8001为镜头的聚焦部(这里优选采用调焦环),8002为套在调焦环之外的调焦齿轮,8003为驱动齿轮,驱动齿轮8003与调焦齿轮8002啮合,驱动齿轮8003转带动调焦齿轮8002转动,驱动齿轮8003与舵机8004的驱动轴相连并由舵机驱动其转动,舵机8004固定在整机外壳8005(图4中的2006)之上。通常舵机8004的扭力可达数公斤,驱动调焦环8001绰绰有余。本发明实施例中采用的是舵机8004,也可以采用步进电机或者伺服电机驱动。
舵机8004通过电力驱动线和电信号控制线与舵机控制模块相连,舵机8004控制模块存储了(α,β)角度到调焦环旋转角度γ的对应关系。优选的方案是将8004的驱动电路与反光单元2003的驱动电路集成在一起,同一个模块接收发来的(α,β)角指令,同时驱动反光镜旋转(α,β)角和调焦环旋转γ角,当(α、β,γ)三个角度旋转就位后所述驱动电路触发第一图像采集单元2001拍照获得清晰的照片。采用舵机可以精确控制调焦环的旋转角度(精度可达0.1°以上)。
实施例6
请参见图12、图13、图14以及图15a至图15e,本发明第六实施例的文档图像智能采集系统进行图像校正的主要实现方式如下:
物体反射的光线经过反光镜反射后成像,等效于相机在反光镜中的像(虚相机)对准目标直接拍摄。当(α=145°,β=0)时,虚成像系统的像平面与F平面平行,图像除了被水平镜像之外,无其它畸变;当α≠145°并且β=0时,像平面与F平面相交,透视形变会导致物体的像“近大远小”,但平行于X轴的平行线在图像中仍然平行;同理,当α=145°并且β≠0时,像平面与F平面相交,透视形变会导致物体的像“近大远小”,但平行于Y轴的平行线在图像中仍然平行;然而,当α≠145°并且β≠0时,图像除了有“近大远小”的透视畸变,还会发生旋转,这一点可以从图12、图13中看出。
如图12、图13所示,ABCD为图像传感器的感测平面(sensor面),也是图像像素平面,A′B′C′D′为sensor在反光镜另一侧的虚像。当(α≠145°,β≠0)时:A′B′//C′D′,但A′B′不平行于X轴;A′D′//B′C′,但A′D′不平行于Y轴。
本发明的图像校正的过程主要分为3步:
第一步透视校正。透视校正需要将A′B′C′D′投影到XOY平面(或平行于XOY平面)上,如图13所示,得到平行四边形A″B″C″D″,平行四边形A″B″C″D″内的像素沿Z方向从矩形A′B′C′D′内取样像素获得。
具体来说,请参见图13,反光镜旋转角(α,β)确定了反光镜平面的空间位置,也就是说根据(α,β)可计算出反光镜平面的空间几何方程,根据所述反光镜平面的空间几何方程可以计算出图像传感器矩形ABCD的虚像矩形A′B′C′D′的空间坐标,将矩形A′B′C′D′投影到XOY平面(或与XOY平面平行的平面)得平行四边形面A″B″C″D″,平行四边形面A″B″C″D″与被成像目标文档平行,因而其内的图像修正了透视形变。
第二步旋转校正,透视校正之后旋转θ角度将待识别目标文档转正,θ角度的计算方法如下:
如图14所示,过矩形A′B′C′D′的中心点H′和原点O画一条直线,在该直线上取一坐标已知的空间点H,过H画一条平行于OX且端点坐标已知的线段KL,将线段KL过原点O点投影到A′B′C′D′上得线段K′L′,再将K′L′投影到XOY平面(或平行于XOY平面的平面上)得K″L″,则K″L″与OX轴的夹角即是θ角。如上所述,根据旋转角度(α,β)可计算出矩形A′B′C′D′的空间坐标,进而可以计算出H′的坐标,H在直线OH′上,LK平行于OX,进而可以自由指定H、K、L的空间坐标,已知KL坐标和A′B′C′D′的空间坐标,则可计算出K′和L′的坐标,进而可计算出OXY平面中的K″和L″的坐标,因而最终计算出θ角。
第三步镜像校正,镜像校正较为容易,将图像水平翻转即可。
当然,上述第一步至第三步之间的先后顺序不作限定,可以是先镜像,再旋转,然后作透视校正,也可以是其它的顺序,这些都在本发明的保护范围内。
整个计算过程中最为关键的是计算A′B′C′D′的坐标,计算过程如下:
如图12和图13所示,ABCD为像面,即图像传感器sensor面,A′B′C′D′为图像传感器senor的像,为反光镜的法向量,成像时α、β为已知值,因此法向量的值也是已知的(n0,n1,n2),则反光镜平面的方程为:
n0X+n1Y+n2Z=0 (1)
预设|AB|=a |AD|=b |SO|=d,则图像传感器sensor四角的空间坐标为:
A(a/2,d,b/2)、B(-a/2,d,b/2)、C(-a/2,d,-b/2)、D(-a/2,d,b/2)
PA为A在反光镜上的投影点,点A坐标(XA,YA,ZA)满足方程(1),因而有
n0XA+n1YA+n2ZA=0 (2)
向量APA为
因为平行于
所以有
根据方程(3)可得:
YA=(XA-a/2)*n1/n0+d (4)
ZA=(XA-a/2)*n2/n0+b/2 (5)
(4)、(5)代入(2)即可就得XA,XA代入(4)(5)即可求得YA和ZA。
因为A′A关于PA对称,所以A′的坐标为(2*XA-a/2,2*YA-d,2*ZA-b/2),相似的方法可以求得B′、C′、D′的坐标。
本发明通过上述图像校正的过程如图15a至图15e所示,图15a所示为第一图像采集单元采集到的原始采集图像;图15b所示为透视校正结果;图15c所示为旋转校正结果;图15d所示为镜像校正结果;图15e所示为经过目标识别后将背景裁剪去掉后的结果。
应用实施例1
请参见图16至图22,本发明的文档图像智能采集方法、装置和系统,可以应用于教育活动中,实现教育智能化。以课堂教学为例,本系统由固定在天花板上的一个或多个自瞄准数字成像子系统(图像采集装置)以及与之相连接的AI图像处理服务器组成,教学应用系统(或其它应用系统)调用AI图像处理服务器的软件接口使用本系统。整个通信过程通过千兆以太网互联。由于所述自瞄准数字成像系统工作在教室课堂上,因而主要有如下设计约束:
1.工作时不能发出人耳可感知的声响(如相机镜头对焦声响、镜头快门开关声响、机械部件运行噪声等等)以免分散学生注意力;
2.工作时不能裸露和摆动镜头,以免给人造成压迫感,或分散学生的注意力;
3.体积必须足够小,以便安装在教室天花板上,不会给人带来视觉干扰;
4.工作速度足够快,能在数秒之内完成多个课桌桌面上目标文档的瞄准和拍照。
如图16和图17所示,为某一小学教室的座位摆放俯视图示意图,1501为课桌桌面,面积为60cm X 40cm,课桌的高度为60cm;1502为座椅面,面积为36cm X 36cm,总共有6横排X8列48个座位(每座位包含一个课桌和一个座椅),每个座位占据面积为1m2的方格子,8列座位被分为4组,每组2列。
如图17所示,将48个座位用虚线框1601(矩形ABED)、虚线框1602(矩形BCFE)、虚线框(矩形DEHG)和虚线框(矩形EFIH)划分为等分的四块,每个虚线框的面积为4x3m2。1605、1606、1607、1608分别为虚线框1601、1602、1603、1604的中心点。
在虚线框1601至1604中的每个中心点的正上方安装一个台自瞄准数字成像系统1003(也即本发明前述实施例的图像采集装置),并满足如下约束条件:
1)每个反光镜2003的旋转支点2000到其对应的1601至1604中的中心点连线与课桌桌面1501所在平面(即平面F)垂直;
2)调整所有图像采集装置1003的高度,使得反光镜2003的旋转支点2000与平面F的距离为预设距离285cm。
3)所述4个图像采集装置1003的配置完全相同。
本发明实施例选择以中心点1605对应的图像采集装置1003为例进行说明和计算,其余的计算方式类似。
如图18所示,第一图像采集单元2001的光学相关参数为:
1)图像传感器CMOS Sensor 1701的分辨率为5488*4116,每个像素的物理尺寸为2.4μ*2.4μ,因此像的宽度为5488*2.4/1000=1.31712cm,像高为4116*2.4/1000=0.98784cm;
2)镜头1702为一焦距50mm的定焦镜头,镜头的机构总长(由镜筒端面到像面的距离)d2为7.68cm;
3)反光镜旋转支点2000到镜筒端面的距离d4为预设值7.32cm;
4)点2000到点1605的距离d5为预设值285cm。
基于以上配置和预设值,当反光镜2003的旋转角度(α,β)取值为(135°,0°)时,支点2000到点1605的连线与F平面垂直。设像距为V(即长度d3),物距为U(即长度d7),焦距为F,则:
U+V=d2+d4+d5=7.68cm+7.32cm+285cm=300.00cm
即U+V=300,又F=5。根据凸透镜成像公式1/F=1/U+1/V(U>V)有:
U=((U+V)+((U+V)2-4*(U+V))0.5*F)/2
V=((U+V)-((U+V)2-4*(U+V))0.5*F)/2
代入(U+V)与F求得U=294.9137675,V=5.0862325
下面求拍摄目标的尺寸d6。根据相似三角形原理,
d6:d7=d1:d3,
d6=d7*d1/d3=U*d1/V。
代入像的宽度1.31712cm,得目标的宽度
W=294.9137675/5.0862325*1.31712=76.37cm
代入像的高度0.98784cm,得目标的高度
H=294.9137675/5.0862325*0.98784=57.28cm。
因此第一图像采集单元2001的像能完全覆盖一张课桌桌面(图16中的1501)。图像的物理分辨率R=图像宽度像素个数/物体的宽度(英寸)=5488/76.37*2.54≈183PPI(Pixel PerInch),这样的分辨率足以清晰呈现5号字大小的字符(5号字为10.5磅,每磅1/72英寸,10.5/72*183≈27像素)。注意,为了保持图的尺寸合适以及实际说明需要,图18中的d5与实际比例不一致。
当反光镜2003的旋转角(α,β)取其它值时,O点到目标点的距离大于d5,目标的尺寸W和H也会增加,但图像的分辨率会降低。
下面计算当第一图像采集单元2001的光轴经反光镜2003瞄准图17中的A、B、E、D时(即第一图像采集单元2001工作区域的最极端情况),W、H、R以及(α,β)的取值。
如图20和图21所示,因AD、BE关于O′对称,AE、BD关于U轴对称,DE、AB关于V轴对称,为了便于作图,选择E点为代表进行计算。由图1501知|AB|=4m,|AE|=3m,所以|EO′|=(4*4+3*3)0.5/2=2.5m=250cm
由前面的配置可知|OO′|=285cm,且三角形OEO′为直角三角形,所以|OE|=(250*250+285*285)0.5≈379cm,如图18、图19所示,代入下列公式:
F=5;
1/F=1/U+1/V;
U+V=d2+d4+|OE|;
U=((U+V)+((U+V)2-4*(U+V))0.5*F)/2;
V=((U+V)-((U+V)2-4*(U+V))0.5*F)/2;
可计算出像距V=5.065=|GM|,物距U=388.935=|EG|。
宽度方向:
∠EGN=arctan(像宽/2/像距V)=arctan(1.31712/2/5.065)=7.41°=∠MGE
∠EGG′=∠EOO′=cos-1(|OO′|/|OE|)=cos-1(285/379)=41.24°
∠NGG′=∠FGG′-∠EGN=33.83°
∠MGG′=∠MGE+∠EGG′=48.65°
因为|GG′|:|OO′|=|EG|:|OE|,
所以|GG′|=|OO′|*|EG|/|OE|=285*388.935/379=292.47。
|NG′|=tan(∠NGG′)*|GG′|=tan(33.83°)*292.47=196.01cm
|MG′|=tan(∠MGG′)*|GG′|=tan(48.65°)*292.47=332.33cm
|MN|=|MG′|-|NG′|=332.33-196.01=136.32cm
所以目标的宽度为W=136.32cm
高度方向:
∠EGN=arctan(像高/2/像距V)=arctan(0.98784/2/5.065)=5.57°=∠MGE
∠NGG′=∠EGG′-∠EGN=41.24°-5.57°=35.67°
∠MGG′=∠MGE+∠EGG′=41.24°+5.57°=46.81°
|NG′|=tan(∠NGG′)*|GG′|=tan(35.67°)*292.47=209.93cm
|MG′|=tan(∠MGG′)*|GG′|=tan(46.81°)*292.47=311.56cm
|MN|=|MG′|-|NG′|=311.56-209.93=101.63cm
所以目标的高度为H=101.63cm
图像宽度方向的物理分辨率RW=5488/136.32*2.54≈102PPI,图像高度方向的物理分辨率RH=4116/101.63*2.54≈103PPI。作为比较,通常桌面显示器的物理分辨率为96PPI,因此即使拍摄最远端目标,第一图像采集单元2001获得的文档图像的分辨率仍大于显示器的物理分辨率,可以满足人眼阅读文档的需要。
下面计算(α,β)角:
如图21所示,E′为E在Y轴上的投影,Q位于直线EE′上,且为法向量2008,所以∠EOQ=∠QOE′。Q′为Q在平面YOZ上的投影,Q″为Q在XOY平面上的投影。根据(α,β)角的定义有α=∠YOQ′,β=∠Q″OE′。
因为E′为E在Y轴上的投影,|OE′|=|AB|/2=200cm,且三角形OE′E为直角三角形,所以有|EE′|=(|EO|2-|E′O|2)0.5=(|379|2-|200|2)0.5=321.93cm。
∠E′OE=cos-1(|OE′|/|OE|)=58.15°
∠OQE′=∠E′OE/2=29.075°
|E′Q|=|OE′|*tan(∠OQE′)=200*tan(29.075)=111.20cm
因为QQ′平行于EA,所以
|E′Q|/|EE′|=|QQ′|/(|EA|/2)=|E′Q′|/|OO′|
|QQ′|=|EA|/2*|E′Q|/|EE′|=150*111.20/321.93=51.81cm=|E′Q″|
|E′Q′|=|E′Q|*|OO′|/|EE′|=111.20*285/321.93=98.44cm
a=∠YOQ′=180°-arctan(|E′Q′|/|OE′|)=180°-arctan(98.44/200)=153.79°
β=∠Q″OE′=arctan(|E′Q″|/|OE′|)=arctan(51.81/200)=14.52°
第二图像采集单元2002获取的全景图用于AI算法识别课桌桌面1051的位置,定义第一图像采集单元2001在F平面上目标选择目标的位置的分辨率为1cm,则第二图像采集单元2002的像素尺寸为400cm/1cm*300cm/cm=400*300,实际选型为800*600分辨率的CMOSsensor。
第二图像采集单元2002的镜头为广角镜头,为了尽可能减小图像的畸变,在图像能够覆盖住矩形ABDE的情况下应尽量减小镜头的视场角(FOV)。
如图22所示,|OOs|预设值为10cm,则第二图像采集单元2002的最小FOV为∠SOsT=2*arctan(|SO′s|/|OsO′s|)=2*arctan((400/2+10)/285)=72.77°,实际选型为5mm焦距80°FOV角的镜头。
在本发明实施例实际应用时,拍摄的目标文档是由本系统使用者在使用时主观定义的,例如课堂上老师想获取的学生课桌上的目标文档按尺寸从小到大依次可能为:长条小便签(1.5cm x 7.5cm)、方形便签(7.5cmx7.5cm)、32开作业本(14.5cm x 22cm)、A4纸(21cm x 29.7cm)、A3尺寸试卷(42cm x 29.7cm),以及整个课桌桌面(例如某小学课桌60cmx 42cm)。如果简单的将整个课桌桌面定义为要拍摄的目标文档,那么每次获取的图像都包含整个桌面的文档内容,实际应用会因为图像太大而不方便。此外,应用时还需将目标文档和其拥有者(如学生)进行关联标识,以便应用软件系统对目标文档的图像以及图像的识别结果进行存储、处理与显示。
如图23所示,本发明实现了一种目标文档定义与标识的方法,1001为课桌桌面;1002为贴在课桌桌面上的文档尺寸与对齐标识,方便学生放置文档对象(AI图像处理算法不依此标识进行目标文档识别或图像处理);1003为贴在课桌右上角存储了学生ID的二维码,供软件算法识别后标识目标文档的所有者;1004为虚拟的尺寸指示线,实际应用不需要。一般情况下,所述场景图包含多个课桌桌面,而第一图像采集单元2001每次仅瞄准其中的一课桌桌面进行高分辨率拍摄。AI图像处理算法从第一图像采集单元2001拍摄的图片中提取目标的过程为:1)识别课桌桌面并定位其四角坐标;2)解码课桌桌面右上角的二维码获得学生ID和姓名;3)识别并定位桌面上的所有文档对象;4)如果只有一个文档对象,则该对象为输出目标,如果有多个文档对象,选择最靠近桌面右上角的对象作为输出目标;5)对包含输出目标的图像区域进行图像校正获得结果图像;6)输出结果图像和学生ID与姓名。请参见图24示出的所述工作流程。具体包括:
S101、输入第一图像采集单元采集的高分辨率图像;
S102、识别课桌桌面并定位其四角坐标;
S103、解码课桌桌面右上角的二维码获得学生的ID信息和姓名信息等代表学生属性的信息;
S104、识别并定位桌面上放置的文档对象;
S105、若只有一个文档对象,则该文档对象为目标文档;若有多个文档对象,则选择最靠近桌面右上角的文档为目标文档;
S106、将目标文档进行图像识别处理,包括:图像转正,修正透视形变,优化对比度与清晰度;
S107、输出文档图像的内容以及对应的学生ID信息与姓名信息。
以课堂教学为例的本发明的文档图像智能采集系统整体工作流程如下:
图25为AI图像处理服务器1002和自瞄准数字成像子系统1003的内部主要功能框图,图26是AI图像处理服务器1002与自瞄准数字成像子系统1003协同工作的内部流程示意框图。AI图像处理服务器1002和自瞄准数字成像子系统1003通过高速以太网互联,反光镜模块(反光镜)2003与高分辨率第一图像采集单元2001之间通过电压信号线直接连接,当反光镜模块2003接收指令完成(α,β)角旋转后通过电信号触发第一图像采集单元2001拍照,并且第一图像采集单元2001完成拍照后会通过电压信号触发反光镜模块2003执行下一次(α,β)角旋转,以实现多个目标的连续瞄准与拍摄。
AI图像处理服务器1002的功能被划分为多个子服务承担,各子服务以管道+数据流的形式串接起来协同工作。应用系统请求响应子服务10021负责响应应用系统的文档对象拍摄请求,触发所述场景图采集子服务10022工作,然后向全景预览相机(第二图像采集单元)2002发送拍照指令,第二图像采集单元2002拍照后将所述场景图发送给等待接收所述场景图采集子服务10022。所述场景图采集子服务10022接收到所述场景图后触发多目标识别、定位与(α,β)角计算子服务10023,10023按照前面所述的方法和步骤计算每个目标的(α,β)角,然后将计算得到的(α,β)角序列发送给目标图像采集子服务10024。目标图像采集子服务10024将(α,β)角序列发送给反光镜(即图中的反光镜模块)2003,然后等待接收第一图像采集单元2001发送回来的包含目标的图像,反光镜2003每完成一组(α,β)角的转动执行后用电压信号触发第一图像采集单元(高分辨率相机)2001拍照,第一图像采集单元2001完成拍照后将照片发送给目标图像采集子服务10024,然后通过电压信号触发反光镜模块2003执行下一组(α,β)角的旋转,循环执行直至完成所有目标拍摄任务。目标图像采集子服务10024每收到一帧反光镜模块2003发来的图像就将其转发给目标图像识别与处理子服务10025,目标图像识别与处理子服务10025按照图22的流程执行目标识别与处理,并将结果发送给结果发送子服务10026,然后将结果返回给课堂教学应用系统,课堂教学应用系统根据应用上下文需求或对结果进行OCR文字识别,或对图像进行存储、处理和显示。以上流程的执行过程整理在图26的流程图,具体流程描述如下:
S301:接收用户通过课堂教学应用系统发出的图像采集指令;
S302、AI图像处理服务器向第二图像采集单元发出图像采集指令;
S303、接收到所述图像采集指令后,第二图像采集单元响应反光单元发送的拍照触发信号,拍摄指定场景获得所述场景图,并发送给AI图像处理服务器;
S304、AI图像处理服务器接收到所述场景图后,执行目标检测算法,识别出所有课桌的桌面,输出所有目标的中心像素坐标;
S305、根据目标文档的中心像素坐标,计算出每个目标文档的旋转角度(α,β)获得(α1,β1)、(α2,β2)…(αn,βn)序列;
S306、AI图像处理服务器发送上述序列,然后等待接收第一图像采集单元返回的目标文档的图像;
S307、反光单元接收到上述序列后,依次按照每组旋转角执行旋转,每次执行结束后给第一图像采集单元发送拍照触发信号,并在接收到第一图像采集单元反馈的拍照完成信号再执行下一组旋转角的旋转;
S308、AI图像处理服务器逐帧接收第一图像采集单元采集的图像,然后对每帧图像执行图像处理,并发送图像处理结果至课堂教学应用系统,直至接收并处理完全部第一图像采集单元发送的图像。
本发明实施例中所使用的课桌桌面、纸质文档对象的图像识别技术可以是现阶段人工智能领域已成熟、公开的技术,如论文YOLO9000:Better,Faster,Stronger(https://arxiv.org/abs/1612.08242)所提出的一个实时对象检测系统,可实时检测定位9000种目标类型,其目标类型清单就包括“paper”(纸张)和“table”(桌子)。实际应用时,为了节省计算资源,可以采集待识别目标的样本,通过迁移学习技术对目标范围内的样本种类进行学习,进而获得定制的高效检测算法。这些技术是深度神经网络学习领域的工作者所具备的基本技能。
应用实施例2
本发明的文档图像智能采集方法、装置和系统,可以应用于古籍保护活动中,使古典文集实现数字化存储,使稀有古籍的内容不再丢失。
中国是拥有5000年文明的古国,古人留下来丰富的文化遗产。但在遗留下来的纸质文档中,由于年久老化,很多书籍都已变黄,纸质变脆破损,纸质书籍的保存更需要专门的设备。随着科技的发展,数字化书籍逐渐成为人们生活当中的主要阅读方式,同时数字化文档具有易存储,体积小,方便查询传阅等优势。所以将古籍整理成数字文档或制作成电子书,对其传播以及保护具有明显优势
相比于现有的高拍仪,扫描仪,本发明在书籍数字化方面具有如下优势:
1)快速定位拍照识别文档外框,对各种规格纸质文件都有非常好的适应能力:利用人工智能领域已成熟、公开的图像目标识别技术,如YOLO 9000,可以快速准确的识别每个文本外框,所以即使不是如A4或A3标准版型也可以准确识别。
2)对由于年代久远所造成的纸质颜色泛黄等,有较好的适配能力。
3)大面积一次性拍摄,可以将各类不同尺寸、厚度、材质的文档页面拼摆后一次性拍摄,时间短,效率高。
4)依照本发明,并通过AI图像处理服务器进行目标识别与定位后,利用OCR技术对文档进行数字化,存储成可编辑的文本件,这样可以大大减轻文字录入的工作量。
应用实施例3
本发明的文档图像智能采集方法、装置和系统,可以应用于会议活动中,实现会议智能化。
1)会议投票以及统计:在会议形成决议的过程中,会经常使用如德尔菲技术,问卷调查等工具。会议主持人可依照不同的议题,要求会议参与者对所述议题进行投票。该投票方式可以为在投票单上勾选,也可以针对议题进行选择。在该类场景下,本发明可以快速采集相关投票数据并进行统计,得出会议决议。
2)人数统计:可用本发明的第二图像采集单元进行采集所述场景图,利用人工智能领域已成熟、公开的图像目标识别技术(如YOLO 9000)识别所述场景图中的人头,进而对人数进行统计。
会议场景视频记录:本发明的第二图像采集单元具有较高帧率,配合麦克风可以对会场进行视频录制。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (15)
1.一种文档图像智能采集方法,其特征在于,所述方法包括:
采集包括一个或多个待识别目标文档的场景图;
定位所述待识别目标文档在所述场景图的位置;
依据所述位置和一反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像;
对采集到的所述待识别目标文档成像后的图像进行图像识别处理。
2.根据权利要求1所述的文档图像智能采集方法,其特征在于,所述依据所述位置和一反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像包括:
依据所述位置和反光单元与待识别目标文档平面之间的距离,控制一第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像,将所述待识别目标文档成像至所述第一图像采集单元,所述预定角度由所述距离和所述位置决定。
3.根据权利要求1或2所述的文档图像智能采集方法,其特征在于,所述对采集到的所述待识别目标文档成像后的图像进行图像识别处理包括:根据所述待识别目标文档成像时的所述反光单元的转动角度对所述待识别目标文档的图像进行旋转和透视校正。
4.一种文档图像智能采集装置,其特征在于,所述装置包括:
采集模块,用于采集包括一个或多个待识别目标文档的场景图;
定位模块,用于定位所述待识别目标文档在所述场景图的位置;
反光单元控制模块,用于依据所述位置和反光单元与待识别目标文档平面之间的距离,控制所述反光单元转动以预定时序对所述待识别目标文档成像;
图像处理模块,用于对所述待识别目标文档的成像后的图像进行采集,采集后进行图像识别处理。
5.一种文档图像智能采集系统,其特征在于,所述系统包括:至少一组图像采集装置,所述图像采集装置包括:控制单元、第一图像采集单元、第二图像采集单元、反光单元,所述第二图像采集单元采集包括待识别目标文档的场景图;依据定位出所述待识别目标文档在所述场景图中的位置和所述反光单元与目标文档平面之间的距离,所述控制单元控制所述反光单元转动以预定时序对所述待识别目标文档成像至所述第一图像采集单元;将所述第一图像采集单元采集到的所述待识别目标文档的成像后的图像进行图像识别处理。
6.根据权利要求5所述的文档图像智能采集系统,其特征在于,所述依据定位出所述待识别目标文档在所述场景图中的位置和反光单元与待识别目标文档平面之间的距离,所述控制单元控制所述反光单元转动以预定时序对所述待识别目标文档成像至所述第一图像采集单元包括:
依据定位出所述待识别目标文档在所述场景图中的位置和反光单元与目标文档平面之间的距离,所述控制单元控制所述第一图像采集单元的聚焦部旋转预定角度或伸缩预定距离聚焦于经所述反光单元反射的所述待识别目标文档的像,将所述待识别目标文档成像至所述第一图像采集单元,所述预定角度由所述距离和所述位置决定。
7.根据权利要求6所述的文档图像智能采集系统,其特征在于,所述反光单元包括反光镜、第一驱动单元、第二驱动单元,第一驱动单元驱动所述反光镜在第一方向上运动,所述第二驱动单元驱动所述反光镜在第二方向上运动,所述第一方向与所述第二方向成预设角度。
8.根据权利要求7所述的文档图像智能采集系统,其特征在于,所述第一图像采集单元采集所述待识别目标文档的关联信息,所述关联信息包括:所述待识别目标文档的身份标识信息、含所述待识别目标文档的用户的编码信息。
9.根据权利要求7所述的文档图像智能采集系统,其特征在于,所述反光镜在所述第一方向和所述第二方向上绕一支点转动,所述支点位于所述第一图像采集单元的光轴上。
10.根据权利要求7所述的文档图像智能采集系统,其特征在于,依据所述第一图像采集单元与所述反光镜之间的间距、第一图像采集单元的视场角及所述反光镜的偏转角度范围确定所述反光镜尺寸。
11.根据权利要求9所述的文档图像智能采集系统,其特征在于,所述图像采集装置还包括校正单元,通过安装的激光发射器发射激光至所述反光单元的所述支点,所述激光的路径与所述第一图像采集单元的光轴重合,校准文档上设置有网格线,所述第二图像采集单元拍摄所述校准文档的网格线,识别所述网格线的交叉点坐标,以所述交叉点对应的所述校准文档为拍摄目标;所述第二图像采集单元或第一图像采集单元拍摄所述激光发射器在所述校准文档的激光点,获取所述激光点在所述校准文档所成图像中的激光点坐标;依据所述激光点坐标和所述交叉点坐标,获取所述激光点坐标与所述交叉点坐标之间的误差,基于所述误差调整所述反光镜的角度使得所述激光点与所述网格线对应的交叉点重合。
12.根据权利要求5至11任一项所述的文档图像智能采集系统,其特征在于,所述系统包括:第一组图像采集装置和与所述第一组图像采集装置相邻设置的第二组图像采集装置,所述第一组图像采集装置采集的所述场景与所述第二图像采集装置采集的所述场景有一个交叠区域,所述交叠区域的大小至少可覆盖所述待识别目标文档的大小。
13.根据权利要求12所述的文档图像智能采集系统,其特征在于,根据第一组图像采集装置采集的待识别目标文档的ID标识和第二组图像采集装置的待识别目标文档的ID标识,对于具有同一ID标识的待识别目标文档,从中选出满足预定要求的待识别目标文档。
14.根据权利要求9所述的文档图像智能采集系统,其特征在于,所述第一图像采集单元与所述第二图像采集单元之间设置所述反光单元,所述第二图像采集单元的摄像头拍摄包括所述待识别目标文档的场景,所述第一图像采集单元的摄像头采集经所述反光单元的反光镜反射的图像,所述支点位于所述第一图像采集单元的光轴上,所述第一图像采集单元的光轴与所述第二图像采集单元的光轴相互垂直。
15.根据权利要求9所述的文档图像智能采集系统,其特征在于,所述支点距离所述反光镜的几何中心预定距离,且位于所述第一图像采集单元的光轴上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810906241.0A CN109274898B (zh) | 2018-08-08 | 2018-08-08 | 文档图像智能采集方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810906241.0A CN109274898B (zh) | 2018-08-08 | 2018-08-08 | 文档图像智能采集方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109274898A CN109274898A (zh) | 2019-01-25 |
CN109274898B true CN109274898B (zh) | 2019-11-19 |
Family
ID=65153539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810906241.0A Active CN109274898B (zh) | 2018-08-08 | 2018-08-08 | 文档图像智能采集方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109274898B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110086982A (zh) * | 2019-03-12 | 2019-08-02 | 浙江艺旗教育科技有限公司 | 一种图像透视矫正方法及装置 |
CN111914821A (zh) * | 2019-05-10 | 2020-11-10 | 广东小天才科技有限公司 | 一种听写检测方法及电子设备 |
CN111077995B (zh) * | 2019-06-09 | 2023-07-25 | 广东小天才科技有限公司 | 一种点读模式的控制方法及电子设备 |
CN111081105B (zh) * | 2019-07-17 | 2022-07-08 | 广东小天才科技有限公司 | 一种黑屏待机状态下的听写检测方法及电子设备 |
CN110584344B (zh) * | 2019-09-23 | 2021-06-04 | 青岛大学 | 一种纸件档案管理系统 |
CN111010513B (zh) * | 2019-12-23 | 2021-07-02 | 北大方正集团有限公司 | 画面采集方法、系统和终端设备 |
JP7297694B2 (ja) * | 2020-01-16 | 2023-06-26 | 株式会社東芝 | システム及び方法 |
CN113420581A (zh) * | 2020-10-19 | 2021-09-21 | 杨宏伟 | 书面文档图像的校正方法、装置、电子设备及可读介质 |
CN113723416B (zh) * | 2021-08-30 | 2024-03-29 | 北京字节跳动网络技术有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN113794824B (zh) * | 2021-09-15 | 2023-10-20 | 深圳市智像科技有限公司 | 室内可视化文档智能交互式采集方法、装置、系统及介质 |
CN114051103A (zh) * | 2021-11-11 | 2022-02-15 | 陕西师范大学 | 基于教室清晰拍摄学生表情的摄像头组合的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101374183A (zh) * | 2007-08-24 | 2009-02-25 | 富士施乐株式会社 | 文档监控装置、文档监控方法和文档监控系统 |
CN106454146A (zh) * | 2016-10-20 | 2017-02-22 | 北京旷视科技有限公司 | 图像处理方法及装置和电子系统 |
CN106650664A (zh) * | 2016-12-22 | 2017-05-10 | 深圳爱拼信息科技有限公司 | 一种高招大本数据采集系统及方法 |
CN107748880A (zh) * | 2017-11-17 | 2018-03-02 | 成都伟嘉斯特科技有限公司 | 一种基于图像相似度计算的阅读机器人 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600165B2 (en) * | 2010-02-12 | 2013-12-03 | Xerox Corporation | Optical mark classification system and method |
US9697236B2 (en) * | 2014-12-05 | 2017-07-04 | Microsoft Technology Licensing, Llc | Image annotation using aggregated page information from active and inactive indices |
CN105338248B (zh) * | 2015-11-20 | 2018-08-28 | 成都因纳伟盛科技股份有限公司 | 智能多目标主动跟踪监控方法及系统 |
CN112818947A (zh) * | 2016-12-15 | 2021-05-18 | 网易(杭州)网络有限公司 | 试卷图像处理方法、设备和计算机可读存储介质 |
-
2018
- 2018-08-08 CN CN201810906241.0A patent/CN109274898B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101374183A (zh) * | 2007-08-24 | 2009-02-25 | 富士施乐株式会社 | 文档监控装置、文档监控方法和文档监控系统 |
CN106454146A (zh) * | 2016-10-20 | 2017-02-22 | 北京旷视科技有限公司 | 图像处理方法及装置和电子系统 |
CN106650664A (zh) * | 2016-12-22 | 2017-05-10 | 深圳爱拼信息科技有限公司 | 一种高招大本数据采集系统及方法 |
CN107748880A (zh) * | 2017-11-17 | 2018-03-02 | 成都伟嘉斯特科技有限公司 | 一种基于图像相似度计算的阅读机器人 |
Non-Patent Citations (1)
Title |
---|
基于数学形态学的文档图像段落标记及其应用;王佐林;《山东师范大学学报(自然科学版)》;20071215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109274898A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109274898B (zh) | 文档图像智能采集方法、装置和系统 | |
US7292269B2 (en) | Context aware projector | |
Nalwa | A true omnidirectional viewer | |
US6844990B2 (en) | Method for capturing and displaying a variable resolution digital panoramic image | |
Chahl et al. | Reflective surfaces for panoramic imaging | |
CA1284375C (en) | Electronic mosaic imaging process | |
US20020171746A1 (en) | Template for an image capture device | |
CN104094318A (zh) | 适用于拍摄视频电影的系统 | |
CN108471494A (zh) | 图像捕获系统和成像光学系统 | |
CN1147862A (zh) | 供三维摄影/摄象用的单镜头多孔径摄影机 | |
Bhasker et al. | Registration techniques for using imperfect and par tially calibrated devices in planar multi-projector displays | |
CN109146781A (zh) | 激光切割中的图像校正方法及装置、电子设备 | |
CN103533235A (zh) | 面向重大案事件现场的快速的基于线阵ccd的数字全景装置 | |
CN108446596A (zh) | 基于可见光相机矩阵的虹膜3d四维数据采集系统及方法 | |
US6345129B1 (en) | Wide-field scanning tv | |
CN107527336A (zh) | 镜头相对位置标定方法及装置 | |
CN102647549B (zh) | 摄像设备、图像信号处理设备和记录设备 | |
CN111694534A (zh) | 拼接屏的显示单元信息的获取方法及装置 | |
CN109214350A (zh) | 一种光照参数的确定方法、装置、设备及存储介质 | |
CN109996048A (zh) | 一种基于结构光的投影校正方法及其系统 | |
US6118595A (en) | Mounted immersive view | |
JP2001330915A (ja) | 立体画像撮影方法及び撮影補助具 | |
CN107977998B (zh) | 一种基于多视角采样的光场校正拼接装置及方法 | |
CN108205236B (zh) | 全景摄像机及其镜头 | |
CN111242107B (zh) | 用于设置空间中的虚拟对象的方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |