CN112132148B - 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 - Google Patents
一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 Download PDFInfo
- Publication number
- CN112132148B CN112132148B CN202010871500.8A CN202010871500A CN112132148B CN 112132148 B CN112132148 B CN 112132148B CN 202010871500 A CN202010871500 A CN 202010871500A CN 112132148 B CN112132148 B CN 112132148B
- Authority
- CN
- China
- Prior art keywords
- characters
- image
- mobile phone
- reference image
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012015 optical character recognition Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 17
- 238000003384 imaging method Methods 0.000 claims description 16
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/70—Circuitry for compensating brightness variation in the scene
- H04N23/74—Circuitry for compensating brightness variation in the scene by influencing the scene brightness using illuminating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法。本发明对文档进行文字识别,利用识别的文字和文字之间的关系作为特征块,充分利用了文档具有文字的特征,由于文字量大,且之间的关系重复率极低,因此使用文字和文字之间的关系作为特征块可以一方面大大提高图像的拼接速度,另一方面,可以大大提高准确率;本发明在对文档图像进行拼接的过程中完成了文字的OCR识别,可以为后续文字的转码提供方便;本发明了不仅利用文字作为特征块,还利用了文字之间的向量关系,大大提高了拼接的准确性;以文字为基准的图像拼接方式,更适合于文档的拼接,不会出现图像拼接中文字断开的现象。
Description
技术领域
本发明涉及图像处理方法,尤其涉及基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法。
背景技术
图像拼接技术就是将数张有重叠部分的图像(可能是不同时间、不同视角或者不同传感器获得的)拼成一幅无缝的全景图或高分辨率图像的技术。图像配准(imagealignment)和图像融合是图像拼接的两个关键技术。图像配准是图像融合的基础,而且图像配准算法的计算量一般非常大,因此图像拼接技术的发展很大程度上取决于图像配准技术的创新。早期的图像配准技术主要采用点匹配法,这类方法速度慢、精度低,而且常常需要人工选取初始匹配点,无法适应大数据量图像的融合。图像拼接的方法很多,不同的算法步骤会有一定差异,但大致的过程是相同的。
申请号:201610516653.4公开了一种全自动的快速柱面全景图像拼接方法,首先使用Harris特征点检测算法和HOG描述子得到平面图像的特征点,并使用一种基于预测的快速特征点匹配算法高效的计算出匹配特征点,使用RANSAC算法提纯匹配特征点,然后使用一种基于纯旋转运动的快速焦距估计算法估计出焦距,把平面图像投影至圆柱平面,并进行图像拼接,合成全景图像。其需要计算图像中每个像素,且拼接计算复杂,效率低。
申请号:201510346108.0公开了一种全自动图像拼接装置,包括:工作台、支撑架、丝杆、手轮、丝杆螺母、圆棒、支撑块、夹具、显微镜、数字相机、横向电机、横向丝杆、下滑台、纵向电机、纵向丝杆、上滑台、电控箱、工控机、显示屏,支撑架上通过轴承竖直安装一个丝杆,丝杆上安装一个丝杆螺母,丝杆螺母的右端竖直安装一个圆棒,夹具上竖直安装一个显微镜,显微镜的上端安装一个数字相机,横向丝杆上安装一个下滑台,纵向丝杆上安装一个上滑台,横向电机以及纵向电机均通过导线与电控箱连接,电控箱通过导线连接一个工控机,数字相机通过导线与工控机连接,工控机通过导线与显示屏连接。其对图像进行拍摄和拼接还需要设置特定的装置保持,拼接十分不便。
此外,现有的图像拼接都是基于对图像像素特征的识别,找到基准点,然后进行图像拼接,计算量大,且拼接的结果往往还是存在裂痕。尤其涉及文档的拼接,没必要进行如此大的计算量,且文档拼接的目的还是获得可以识别的文字,现有技术中还没有专门针对文档进行拼接的方法。
发明内容
针对上述内容,为解决上述问题提供一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法,其特征在于:
本方法适用于包含文字的文档扫描,利用手机对文档的一部分进行拍摄,并进行OCR文字识别,在拍摄图像中设置包含文字信息的特征块,并在不同图像中利用特征块重叠的方法进行拼接,直到扫描完成整个文档。
该方法包括如下步骤:
步骤1:在手机中设置扫描文档的语言,可以选择的语言包括简体中文、繁体中文、英语、日语、俄语、德语、法语、韩语;
步骤2:使手机摄像头对准待扫描的文档的一部分,且保证手机成像范围内的文字多于4行4列,字数多于16个;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的一部分拍摄成像,获得基准图像,并显示在手机屏幕上;
步骤3:手机对基准图像进行OCR识别,获取基准图像中包含的文字,并根据文字的方向区分文字的行和列,建立以基准图像的中心点为原点的基准坐标系,所述基准坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;
步骤4:在基准坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字,标记为基准图像对应象限的特征块;即第N象限的特征块标记为基准图像的第N象限特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;
特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤5:使手机摄像头对准待扫描的文档的另一部分,且保证手机成像范围内的文字多于4行4列,字数多于16个,以及成像范围内至少覆盖基准图像的一个特征块;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的当前部分拍摄成像,获得拼入图像,并显示在手机屏幕上;
步骤6:手机对拼入图像进行OCR识别,获取拼入图像中包含的文字,并根据文字的方向区分文字的行和列,建立以拼入图像的中心点为原点的拼入坐标系,所述拼入坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;在拼入图像中扫描寻找基准图像的四个特征块;
寻找方式为首先寻找基准图像中四个特征块的左下角的文字,找到之后计算将其与附近的文字的关系能否满足基准图像的特征块的特征信息;
当找到基准图像的特征块后,根据基准图像中对应特征块的文字之间的距离关系,调整拼入图像的大小,使得拼入图像中的对应的特征块与基准图像的特征块能够完全重合;
步骤7:在拼入坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字,标记为拼入图像对应象限的特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,n接续基准图像特征块顺序编码,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤8:根据拼入图像中的对应的特征块与基准图像的特征块能够完全重合为基准,将基准图像和拼入图像进行拼接,获得第一拼接图像;将基准图像和拼入图像的共8个特征块标记为第一拼接图像的特征块;并使第一拼接图像代替基准图像;
步骤9:重复进行步骤5-8,直到基准图像覆盖待扫描文档的全部范围,图像扫描完成。
本发明的有益效果为:
本发明对文档进行文字识别,利用识别的文字和文字之间的关系作为特征块,充分利用了文档具有文字的特征,由于文字量大,且之间的关系重复率极低,因此使用文字和文字之间的关系作为特征块可以一方面大大提高图像的拼接速度,另一方面,可以大大提高准确率;本发明在对文档图像进行拼接的过程中完成了文字的OCR识别,可以为后续文字的转码提供方便;本发明了不仅利用文字作为特征块,还利用了文字之间的向量关系,大大提高了拼接的准确性;以文字为基准的图像拼接方式,更适合于文档的拼接,不会出现图像拼接中文字断开的现象。
附图说明
被包括来提供对所公开主题的进一步认识的附图,将被并入此说明书并构成该说明书的一部分。附图也阐明了所公开主题的实现,以及连同详细描述一起用于解释所公开主题的实现原则。没有尝试对所公开主题的基本理解及其多种实践方式展示超过需要的结构细节。
图1为本申请获得基准图像和基准图像特征块举例示意图;
图2为本申请拼入图像和拼入图像特征块举例示意图;
图3为第一拼接图像示意图。
具体实施方式
本发明的优点、特征以及达成所述目的的方法通过附图及后续的详细说明将会明确。
实施例1:
结合附图,一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法,其特征在于:
本方法适用于包含文字的文档扫描,利用手机对文档的一部分进行拍摄,并进行OCR文字识别,在拍摄图像中设置包含文字信息的特征块,并在不同图像中利用特征块重叠的方法进行拼接,直到扫描完成整个文档。
该方法包括如下步骤:
步骤1:在手机中设置扫描文档的语言,可以选择的语言包括简体中文、繁体中文、英语、日语、俄语、德语、法语、韩语;
步骤2:使手机摄像头对准待扫描的文档的一部分,且保证手机成像范围内的文字多于4行4列,字数多于16个;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的一部分拍摄成像,获得基准图像,并显示在手机屏幕上;
步骤3:手机对基准图像进行OCR识别,获取基准图像中包含的文字,并根据文字的方向区分文字的行和列,建立以基准图像的中心点为原点的基准坐标系,所述基准坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;
步骤4:在基准坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字,标记为基准图像对应象限的特征块;即第N象限的特征块标记为基准图像的第N象限特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;
特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤5:使手机摄像头对准待扫描的文档的另一部分,且保证手机成像范围内的文字多于4行4列,字数多于16个,以及成像范围内至少覆盖基准图像的一个特征块;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的当前部分拍摄成像,获得拼入图像,并显示在手机屏幕上;
步骤6:手机对拼入图像进行OCR识别,获取拼入图像中包含的文字,并根据文字的方向区分文字的行和列,建立以拼入图像的中心点为原点的拼入坐标系,所述拼入坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;在拼入图像中扫描寻找基准图像的四个特征块;
寻找方式为首先寻找基准图像中四个特征块的左下角的文字,找到之后计算将其与附近的文字的关系能否满足基准图像的特征块的特征信息;
当找到基准图像的特征块后,根据基准图像中对应特征块的文字之间的距离关系,调整拼入图像的大小,使得拼入图像中的对应的特征块与基准图像的特征块能够完全重合;
步骤7:在拼入坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字,标记为拼入图像对应象限的特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,n接续基准图像特征块顺序编码,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤8:根据拼入图像中的对应的特征块与基准图像的特征块能够完全重合为基准,将基准图像和拼入图像进行拼接,获得第一拼接图像;将基准图像和拼入图像的共8个特征块标记为第一拼接图像的特征块;并使第一拼接图像代替基准图像;
步骤9:重复进行步骤5-8,直到基准图像覆盖待扫描文档的全部范围,图像扫描完成。
实施例2:
一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法,其特征在于:
本方法适用于包含文字的文档扫描,利用手机对文档的一部分进行拍摄,并进行OCR文字识别,在拍摄图像中设置包含文字信息的特征块,并在不同图像中利用特征块重叠的方法进行拼接,直到扫描完成整个文档。
该方法包括如下步骤:
步骤1:在手机中设置扫描文档的语言,可以选择的语言包括简体中文、繁体中文、英语、日语、俄语、德语、法语、韩语;
步骤2:使手机摄像头对准待扫描的文档的一部分,且保证手机成像范围内的文字多于9行9列,字数多于81个;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的一部分拍摄成像,获得基准图像,并显示在手机屏幕上;
步骤3:手机对基准图像进行OCR识别,获取基准图像中包含的文字,并根据文字的方向区分文字的行和列,建立以基准图像的中心点为原点的基准坐标系,所述基准坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;
步骤4:在基准坐标系的每个象限中筛选出距离原点最远的满足3行3列9个文字,标记为基准图像对应象限的特征块;即第N象限的特征块标记为基准图像的第N象限特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;
特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤5:使手机摄像头对准待扫描的文档的另一部分,且保证手机成像范围内的文字多于9行9列,字数多于81个,以及成像范围内至少覆盖基准图像的一个特征块;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的当前部分拍摄成像,获得拼入图像,并显示在手机屏幕上;
步骤6:手机对拼入图像进行OCR识别,获取拼入图像中包含的文字,并根据文字的方向区分文字的行和列,建立以拼入图像的中心点为原点的拼入坐标系,所述拼入坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;在拼入图像中扫描寻找基准图像的四个特征块;
寻找方式为首先寻找基准图像中四个特征块的左下角的文字,找到之后计算将其与附近的文字的关系能否满足基准图像的特征块的特征信息;
当找到基准图像的特征块后,根据基准图像中对应特征块的文字之间的距离关系,调整拼入图像的大小,使得拼入图像中的对应的特征块与基准图像的特征块能够完全重合;同时调节拼入图像和基准图像的亮度和对比度,使得拼入图像和基准图像的平均亮度相等,对比度相等;
步骤7:在拼入坐标系的每个象限中筛选出距离原点最远的满足3行3列9个文字,标记为拼入图像对应象限的特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,n接续基准图像特征块顺序编码,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤8:根据拼入图像中的对应的特征块与基准图像的特征块能够完全重合为基准,将基准图像和拼入图像进行拼接,获得第一拼接图像;将基准图像和拼入图像的共8个特征块标记为第一拼接图像的特征块;并使第一拼接图像代替基准图像;
步骤9:重复进行步骤5-8,直到基准图像覆盖待扫描文档的全部范围,图像扫描完成。
以上所述,仅为本发明的优选实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (1)
1.一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法,其特征在于:
利用手机对文档的一部分进行拍摄,并进行OCR文字识别,在拍摄图像中设置包含文字信息的特征块,并在不同图像中利用特征块重叠的方法进行拼接,直到扫描完成整个文档;包括:
步骤1:在手机中设置扫描文档的语言,可以选择的语言包括简体中文、繁体中文、英语、日语、俄语、德语、法语、韩语;
步骤2:使手机摄像头对准待扫描的文档的一部分,且保证手机成像范围内的文字多于4行4列,字数多于16个;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的一部分拍摄成像,获得基准图像,并显示在手机屏幕上;
步骤3:手机对基准图像进行OCR识别,获取基准图像中包含的文字,并根据文字的方向区分文字的行和列,建立以基准图像的中心点为原点的基准坐标系,所述基准坐标系的横轴平行于文字的行,并计算每个文字相对基准图像中心的坐标;
步骤4:在基准坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字,标记为基准图像对应象限的特征块;即第N象限的特征块标记为基准图像的第N象限特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;
特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤5:使手机摄像头对准待扫描的文档的另一部分,且保证手机成像范围内的文字多于4行4列,字数多于16个,以及成像范围内至少覆盖基准图像的一个特征块;手机执行自动对焦和亮度检测,自动对焦使得待扫描文档位于手机成像的焦平面上,并根据亮度检测结果调节闪光灯的亮度;手机对待扫描文档的当前部分拍摄成像,获得拼入图像,并显示在手机屏幕上;
步骤6:手机对拼入图像进行OCR识别,获取拼入图像中包含的文字,并根据文字的方向区分文字的行和列,建立以拼入图像的中心点为原点的拼入坐标系,所述拼入坐标系的横轴平行于文字的行,并计算每个文字相对拼入图像中心的坐标;在拼入图像中扫描寻找基准图像的四个特征块;
寻找方式为首先寻找基准图像中四个特征块的左下角的文字,找到之后计算将其与附近的文字的关系能否满足基准图像的特征块的特征信息;
当找到基准图像的特征块后,根据基准图像中对应特征块的文字之间的距离关系,调整拼入图像的大小,使得拼入图像中的对应的特征块与基准图像的特征块能够完全重合;
步骤7:在拼入坐标系的每个象限中筛选出距离原点最远的满足2行2列4个文字,标记为拼入图像对应象限的特征块;特征块的特征信息包括文字本身和文字之间的位置矢量关系,即以每个特征块左下角的文字的中心为起点,到其他三个文字的中心的矢量的单位向量;特征信息表示形式为(n,A,x,B,y,C,z,D),其中n表示第n个特征块,n接续基准图像特征块顺序编码,ABCD表示四个文字本身,x表示B的中心到达A中心的矢量的单位向量,y表示C的中心到达A中心的矢量的单位向量,z分别表示D的中心到达A中心的矢量的单位向量;
步骤8:根据拼入图像中的对应的特征块与基准图像的特征块能够完全重合为基准,将基准图像和拼入图像进行拼接,获得第一拼接图像;将基准图像和拼入图像的共8个特征块标记为第一拼接图像的特征块;并使第一拼接图像代替基准图像;
步骤9:重复进行步骤5-8,直到基准图像覆盖待扫描文档的全部范围,图像扫描完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010871500.8A CN112132148B (zh) | 2020-08-26 | 2020-08-26 | 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010871500.8A CN112132148B (zh) | 2020-08-26 | 2020-08-26 | 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112132148A CN112132148A (zh) | 2020-12-25 |
CN112132148B true CN112132148B (zh) | 2024-01-30 |
Family
ID=73848550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010871500.8A Active CN112132148B (zh) | 2020-08-26 | 2020-08-26 | 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132148B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009114967A1 (zh) * | 2008-03-19 | 2009-09-24 | 东莞市步步高教育电子产品有限公司 | 基于移动扫描的图像处理方法及装置 |
CN101976449A (zh) * | 2010-11-25 | 2011-02-16 | 上海合合信息科技发展有限公司 | 拍摄多幅文本图像并拼接的方法 |
WO2015073920A1 (en) * | 2013-11-15 | 2015-05-21 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
CN105096239A (zh) * | 2015-07-02 | 2015-11-25 | 北京旷视科技有限公司 | 图像配准方法及其装置以及图像拼接方法及其装置 |
CN106780328A (zh) * | 2016-12-06 | 2017-05-31 | 烟台大学 | 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 |
CN109543680A (zh) * | 2018-11-19 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 兴趣点的位置确定方法、装置设备和介质 |
US10356318B1 (en) * | 2017-04-27 | 2019-07-16 | Intuit, Inc. | Long document capture on mobile devices |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7567729B2 (en) * | 2005-09-22 | 2009-07-28 | Konica Minolta Systems Laboratory, Inc. | Photo image matching method and apparatus |
JP6953230B2 (ja) * | 2017-08-22 | 2021-10-27 | キヤノン株式会社 | スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム |
-
2020
- 2020-08-26 CN CN202010871500.8A patent/CN112132148B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009114967A1 (zh) * | 2008-03-19 | 2009-09-24 | 东莞市步步高教育电子产品有限公司 | 基于移动扫描的图像处理方法及装置 |
CN101976449A (zh) * | 2010-11-25 | 2011-02-16 | 上海合合信息科技发展有限公司 | 拍摄多幅文本图像并拼接的方法 |
WO2015073920A1 (en) * | 2013-11-15 | 2015-05-21 | Kofax, Inc. | Systems and methods for generating composite images of long documents using mobile video data |
CN105096239A (zh) * | 2015-07-02 | 2015-11-25 | 北京旷视科技有限公司 | 图像配准方法及其装置以及图像拼接方法及其装置 |
CN106780328A (zh) * | 2016-12-06 | 2017-05-31 | 烟台大学 | 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 |
US10356318B1 (en) * | 2017-04-27 | 2019-07-16 | Intuit, Inc. | Long document capture on mobile devices |
CN109543680A (zh) * | 2018-11-19 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 兴趣点的位置确定方法、装置设备和介质 |
Non-Patent Citations (1)
Title |
---|
基于聚类分析和灰度值匹配的碎片文件拼接复原;刘孟娟;《价值工程》;基于聚类分析和灰度值匹配的碎片文件拼接复原 * |
Also Published As
Publication number | Publication date |
---|---|
CN112132148A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3690815B1 (en) | Method, medium and apparatus for automatically labeling target object within image | |
JP5075182B2 (ja) | 画像処理装置、画像処理方法、および、画像処理プログラム | |
CN108574825B (zh) | 一种云台摄像机的调整方法和装置 | |
CN109005334B (zh) | 一种成像方法、装置、终端和存储介质 | |
CN105744138B (zh) | 快速对焦方法和电子设备 | |
CN107862713B (zh) | 针对轮询会场的摄像机偏转实时检测预警方法及模块 | |
US20230237683A1 (en) | Model generation method and apparatus based on multi-view panoramic image | |
CN110348351B (zh) | 一种图像语义分割的方法、终端和可读存储介质 | |
CN111343360B (zh) | 一种校正参数获得方法 | |
JPH03200007A (ja) | ステレオ計測装置 | |
CN112132148B (zh) | 一种基于手机摄像头拍摄多幅照片自动拼接的文档扫描方法 | |
CN111818262B (zh) | 图像重建方法及装置 | |
CN113011327A (zh) | 一种三维图形识别方法、装置、设备及存储介质 | |
JP2004364212A (ja) | 物体撮影装置、物体撮影方法及び物体撮影プログラム | |
CN107146195A (zh) | 球面图像拼接方法和装置 | |
JP2018014572A (ja) | 情報処理装置、画像処理システム、プログラム | |
CN112861850B (zh) | 一种实现移动终端近距离提取文字的方法及系统 | |
JPH07128017A (ja) | 距離測定装置 | |
CN111862106B (zh) | 基于光场语义的图像处理方法、计算机装置、及存储介质 | |
CN111080564B (zh) | 一种图像处理方法及系统 | |
JP6161874B2 (ja) | 撮像装置、長さ計測方法及びプログラム | |
CN107123092B (zh) | 一种实时切换全景图像视角的方法和装置 | |
CN110930403A (zh) | 一种针对oled屏的屏幕像素采集方法 | |
CN113516007B (zh) | 多组双目相机组网的水下标志物识别与拼接方法 | |
Kumara et al. | Automatic panorama generation from a video with dynamic background |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231225 Address after: Room 401, Building 6, Hongxin Industrial Park, No. 1303, Sightseeing Road, Xinlan Community, Guanlan Street, Longhua District, Shenzhen City, Guangdong Province, 518110 Applicant after: Shenzhen mith Semiconductor Technology Co.,Ltd. Address before: No.333 Xueli Road, Kuancheng District, Changchun City, Jilin Province Applicant before: COLLEGE OF OPTICAL AND ELECTRONICAL INFORMATION CHANGCHUN University OF SCIENCE AND TECHNOLOGY |
|
GR01 | Patent grant | ||
GR01 | Patent grant |