CN112132148B

CN112132148B - 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法

Info

Publication number: CN112132148B
Application number: CN202010871500.8A
Authority: CN
Inventors: 李明; 刘秋文
Original assignee: Shenzhen Mith Semiconductor Technology Co ltd
Current assignee: Shenzhen Mith Semiconductor Technology Co ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2024-01-30
Anticipated expiration: 2040-08-26
Also published as: CN112132148A

Abstract

本发明涉及一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法。本发明对文档进行文字识别，利用识别的文字和文字之间的关系作为特征块，充分利用了文档具有文字的特征，由于文字量大，且之间的关系重复率极低，因此使用文字和文字之间的关系作为特征块可以一方面大大提高图像的拼接速度，另一方面，可以大大提高准确率；本发明在对文档图像进行拼接的过程中完成了文字的OCR识别，可以为后续文字的转码提供方便；本发明了不仅利用文字作为特征块，还利用了文字之间的向量关系，大大提高了拼接的准确性；以文字为基准的图像拼接方式，更适合于文档的拼接，不会出现图像拼接中文字断开的现象。

Description

一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法

技术领域

本发明涉及图像处理方法，尤其涉及基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法。

背景技术

图像拼接技术就是将数张有重叠部分的图像（可能是不同时间、不同视角或者不同传感器获得的）拼成一幅无缝的全景图或高分辨率图像的技术。图像配准（imagealignment）和图像融合是图像拼接的两个关键技术。图像配准是图像融合的基础,而且图像配准算法的计算量一般非常大,因此图像拼接技术的发展很大程度上取决于图像配准技术的创新。早期的图像配准技术主要采用点匹配法,这类方法速度慢、精度低,而且常常需要人工选取初始匹配点,无法适应大数据量图像的融合。图像拼接的方法很多,不同的算法步骤会有一定差异,但大致的过程是相同的。

申请号：201610516653.4公开了一种全自动的快速柱面全景图像拼接方法，首先使用Harris特征点检测算法和HOG描述子得到平面图像的特征点，并使用一种基于预测的快速特征点匹配算法高效的计算出匹配特征点，使用RANSAC算法提纯匹配特征点，然后使用一种基于纯旋转运动的快速焦距估计算法估计出焦距，把平面图像投影至圆柱平面，并进行图像拼接，合成全景图像。其需要计算图像中每个像素，且拼接计算复杂，效率低。

申请号：201510346108.0公开了一种全自动图像拼接装置，包括：工作台、支撑架、丝杆、手轮、丝杆螺母、圆棒、支撑块、夹具、显微镜、数字相机、横向电机、横向丝杆、下滑台、纵向电机、纵向丝杆、上滑台、电控箱、工控机、显示屏，支撑架上通过轴承竖直安装一个丝杆，丝杆上安装一个丝杆螺母，丝杆螺母的右端竖直安装一个圆棒，夹具上竖直安装一个显微镜，显微镜的上端安装一个数字相机，横向丝杆上安装一个下滑台，纵向丝杆上安装一个上滑台，横向电机以及纵向电机均通过导线与电控箱连接，电控箱通过导线连接一个工控机，数字相机通过导线与工控机连接，工控机通过导线与显示屏连接。其对图像进行拍摄和拼接还需要设置特定的装置保持，拼接十分不便。

此外，现有的图像拼接都是基于对图像像素特征的识别，找到基准点，然后进行图像拼接，计算量大，且拼接的结果往往还是存在裂痕。尤其涉及文档的拼接，没必要进行如此大的计算量，且文档拼接的目的还是获得可以识别的文字，现有技术中还没有专门针对文档进行拼接的方法。

发明内容

针对上述内容，为解决上述问题提供一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法，其特征在于：

本方法适用于包含文字的文档扫描，利用手机对文档的一部分进行拍摄，并进行OCR文字识别，在拍摄图像中设置包含文字信息的特征块，并在不同图像中利用特征块重叠的方法进行拼接，直到扫描完成整个文档。

该方法包括如下步骤：

步骤1：在手机中设置扫描文档的语言，可以选择的语言包括简体中文、繁体中文、英语、日语、俄语、德语、法语、韩语；

步骤2：使手机摄像头对准待扫描的文档的一部分，且保证手机成像范围内的文字多于4行4列，字数多于16个；手机执行自动对焦和亮度检测，自动对焦使得待扫描文档位于手机成像的焦平面上，并根据亮度检测结果调节闪光灯的亮度；手机对待扫描文档的一部分拍摄成像，获得基准图像，并显示在手机屏幕上；

步骤3：手机对基准图像进行OCR识别，获取基准图像中包含的文字，并根据文字的方向区分文字的行和列，建立以基准图像的中心点为原点的基准坐标系，所述基准坐标系的横轴平行于文字的行，并计算每个文字相对基准图像中心的坐标；

步骤4：在基准坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字，标记为基准图像对应象限的特征块；即第N象限的特征块标记为基准图像的第N象限特征块；特征块的特征信息包括文字本身和文字之间的位置矢量关系，即以每个特征块左下角的文字的中心为起点，到其他三个文字的中心的矢量的单位向量；

特征信息表示形式为（n,A,x,B,y,C,z,D）,其中n表示第n个特征块，ABCD表示四个文字本身，x表示B的中心到达A中心的矢量的单位向量，y表示C的中心到达A中心的矢量的单位向量，z分别表示D的中心到达A中心的矢量的单位向量；

步骤5：使手机摄像头对准待扫描的文档的另一部分，且保证手机成像范围内的文字多于4行4列，字数多于16个，以及成像范围内至少覆盖基准图像的一个特征块；手机执行自动对焦和亮度检测，自动对焦使得待扫描文档位于手机成像的焦平面上，并根据亮度检测结果调节闪光灯的亮度；手机对待扫描文档的当前部分拍摄成像，获得拼入图像，并显示在手机屏幕上；

步骤6：手机对拼入图像进行OCR识别，获取拼入图像中包含的文字，并根据文字的方向区分文字的行和列，建立以拼入图像的中心点为原点的拼入坐标系，所述拼入坐标系的横轴平行于文字的行，并计算每个文字相对基准图像中心的坐标；在拼入图像中扫描寻找基准图像的四个特征块；

寻找方式为首先寻找基准图像中四个特征块的左下角的文字，找到之后计算将其与附近的文字的关系能否满足基准图像的特征块的特征信息；

当找到基准图像的特征块后，根据基准图像中对应特征块的文字之间的距离关系，调整拼入图像的大小，使得拼入图像中的对应的特征块与基准图像的特征块能够完全重合；

步骤7：在拼入坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字，标记为拼入图像对应象限的特征块；特征块的特征信息包括文字本身和文字之间的位置矢量关系，即以每个特征块左下角的文字的中心为起点，到其他三个文字的中心的矢量的单位向量；特征信息表示形式为（n,A,x,B,y,C,z,D）,其中n表示第n个特征块，n接续基准图像特征块顺序编码，ABCD表示四个文字本身，x表示B的中心到达A中心的矢量的单位向量，y表示C的中心到达A中心的矢量的单位向量，z分别表示D的中心到达A中心的矢量的单位向量；

步骤8：根据拼入图像中的对应的特征块与基准图像的特征块能够完全重合为基准，将基准图像和拼入图像进行拼接，获得第一拼接图像；将基准图像和拼入图像的共8个特征块标记为第一拼接图像的特征块；并使第一拼接图像代替基准图像；

步骤9：重复进行步骤5-8，直到基准图像覆盖待扫描文档的全部范围，图像扫描完成。

本发明的有益效果为：

本发明对文档进行文字识别，利用识别的文字和文字之间的关系作为特征块，充分利用了文档具有文字的特征，由于文字量大，且之间的关系重复率极低，因此使用文字和文字之间的关系作为特征块可以一方面大大提高图像的拼接速度，另一方面，可以大大提高准确率；本发明在对文档图像进行拼接的过程中完成了文字的OCR识别，可以为后续文字的转码提供方便；本发明了不仅利用文字作为特征块，还利用了文字之间的向量关系，大大提高了拼接的准确性；以文字为基准的图像拼接方式，更适合于文档的拼接，不会出现图像拼接中文字断开的现象。

附图说明

被包括来提供对所公开主题的进一步认识的附图，将被并入此说明书并构成该说明书的一部分。附图也阐明了所公开主题的实现，以及连同详细描述一起用于解释所公开主题的实现原则。没有尝试对所公开主题的基本理解及其多种实践方式展示超过需要的结构细节。

图1为本申请获得基准图像和基准图像特征块举例示意图；

图2为本申请拼入图像和拼入图像特征块举例示意图；

图3为第一拼接图像示意图。

具体实施方式

本发明的优点、特征以及达成所述目的的方法通过附图及后续的详细说明将会明确。

实施例1：

结合附图，一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法，其特征在于：

该方法包括如下步骤：

实施例2：

一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法，其特征在于：

该方法包括如下步骤：

步骤2：使手机摄像头对准待扫描的文档的一部分，且保证手机成像范围内的文字多于9行9列，字数多于81个；手机执行自动对焦和亮度检测，自动对焦使得待扫描文档位于手机成像的焦平面上，并根据亮度检测结果调节闪光灯的亮度；手机对待扫描文档的一部分拍摄成像，获得基准图像，并显示在手机屏幕上；

步骤4：在基准坐标系的每个象限中筛选出距离原点最远的满足3行3列9个文字，标记为基准图像对应象限的特征块；即第N象限的特征块标记为基准图像的第N象限特征块；特征块的特征信息包括文字本身和文字之间的位置矢量关系，即以每个特征块左下角的文字的中心为起点，到其他三个文字的中心的矢量的单位向量；

步骤5：使手机摄像头对准待扫描的文档的另一部分，且保证手机成像范围内的文字多于9行9列，字数多于81个，以及成像范围内至少覆盖基准图像的一个特征块；手机执行自动对焦和亮度检测，自动对焦使得待扫描文档位于手机成像的焦平面上，并根据亮度检测结果调节闪光灯的亮度；手机对待扫描文档的当前部分拍摄成像，获得拼入图像，并显示在手机屏幕上；

当找到基准图像的特征块后，根据基准图像中对应特征块的文字之间的距离关系，调整拼入图像的大小，使得拼入图像中的对应的特征块与基准图像的特征块能够完全重合；同时调节拼入图像和基准图像的亮度和对比度，使得拼入图像和基准图像的平均亮度相等，对比度相等；

步骤7：在拼入坐标系的每个象限中筛选出距离原点最远的满足3行3列9个文字，标记为拼入图像对应象限的特征块；特征块的特征信息包括文字本身和文字之间的位置矢量关系，即以每个特征块左下角的文字的中心为起点，到其他三个文字的中心的矢量的单位向量；特征信息表示形式为（n,A,x,B,y,C,z,D）,其中n表示第n个特征块，n接续基准图像特征块顺序编码，ABCD表示四个文字本身，x表示B的中心到达A中心的矢量的单位向量，y表示C的中心到达A中心的矢量的单位向量，z分别表示D的中心到达A中心的矢量的单位向量；

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法，其特征在于：

利用手机对文档的一部分进行拍摄，并进行OCR文字识别，在拍摄图像中设置包含文字信息的特征块，并在不同图像中利用特征块重叠的方法进行拼接，直到扫描完成整个文档；包括：

步骤6：手机对拼入图像进行OCR识别，获取拼入图像中包含的文字，并根据文字的方向区分文字的行和列，建立以拼入图像的中心点为原点的拼入坐标系，所述拼入坐标系的横轴平行于文字的行，并计算每个文字相对拼入图像中心的坐标；在拼入图像中扫描寻找基准图像的四个特征块；