CN113420581A - 书面文档图像的校正方法、装置、电子设备及可读介质 - Google Patents
书面文档图像的校正方法、装置、电子设备及可读介质 Download PDFInfo
- Publication number
- CN113420581A CN113420581A CN202011116885.3A CN202011116885A CN113420581A CN 113420581 A CN113420581 A CN 113420581A CN 202011116885 A CN202011116885 A CN 202011116885A CN 113420581 A CN113420581 A CN 113420581A
- Authority
- CN
- China
- Prior art keywords
- written document
- coordinate system
- document image
- image
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012937 correction Methods 0.000 title claims abstract description 50
- 238000013507 mapping Methods 0.000 claims abstract description 62
- 238000003384 imaging method Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003702 image correction Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本公开涉及一种书面文档图像的校正方法、装置、电子设备及计算机可读介质。该方法包括:成像装置拍摄书面文档以生成书面文档图像;获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正。本公开的方法,能够输出更加清晰准确的图像数据,增加图像识别中的精确度,提升用户的使用体验。
Description
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种书面文档图像的校正方法、装置、电子设备及计算机可读介质。
背景技术
多媒体、网课、远程办公、网上批改作业等在线作业方式被越来越广泛的使用。以网上批改作业为例,在线作业的方式先获取学生的笔记上的图像或者操作设备上的图像,然后对图像中的内容进行识别,更具体的,可对学生的文字书写的字体进行识别,或者是对数学公式进行识别,老师依据识别的结果进行作业批改。
但是,在很多情况下,学生的进行书写文字的纸质文档并不是和桌子完全贴合的,这造成拍摄到的学生文档的图像中也存在着变形现象,从而在文字识别中或者是在老师作业的批改中均会产生误差,对学生和老师都带来了困扰。
因此,需要一种新的书面文档图像的校正方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种书面文档图像的校正方法、装置、电子设备及计算机可读介质,能够对拍摄到的书面文档图像进行图像校正,以便输出更加清晰准确的图像数据,增加图像识别中的精确度、提升用户的使用体验。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种书面文档图像的校正方法,该方法包括:成像装置拍摄书面文档以生成书面文档图像;获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正。
在本公开的一种示例性实施例中,成像装置拍摄书面文档以生成书面文档图像之前,还包括:基于放置在所述书面文档上的标识物体生成所述多个校正识别点;或基于绘制在所述书面文档上的预设标识生成所述多个校正识别点。
在本公开的一种示例性实施例中,获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,包括:获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;基于所述标识物体或所述预设标识获取所述多个校正识别点在第一坐标系中的多个第一坐标。
在本公开的一种示例性实施例中,通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标之前,还包括:基于第二预设规则生成所述第二坐标系。
在本公开的一种示例性实施例中,通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,包括:通过图像识别方式获得所述书面文档图像中的所述多个校正识别点图像;确定所述多个校正识别点图像在所述书面文档图像中的多个位置;基于所述多个位置生成所述多个校正识别点图像在所述第二坐标系中的多个第二坐标。
在本公开的一种示例性实施例中,基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系,包括:确定所述多个第一坐标和所述多个第二坐标之间的对应关系;基于所述对应关系、所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系。
在本公开的一种示例性实施例中,基于所述坐标映射关系对所述书面文档图像进行校正,包括:基于放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识确定所述书面文档图像上的校正区域;基于所述坐标映射关系对所述校正区域中的图像进行校正。
在本公开的一种示例性实施例中,基于所述坐标映射关系对所述书面文档图像进行校正,包括:基于所述坐标映射关系获得所述书面文档图像各像素的第一坐标值;将所述书面文档图像各像素映射至第二坐标系中第一坐标值的位置以生成校正的书面文档图像。
在本公开的一种示例性实施例中,基于所述坐标映射关系对所述书面文档图像进行校正,包括:获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;基于所述标识物体或绘制在所述书面文档上的预设标识获取书面文档上一个或多个点在第二坐标系中的理想坐标值;在书面文档图像中识别所述书面文档上一个或多个点,将其图像映射到第二坐标系中的理想坐标值处。
在本公开的一种示例性实施例中,基于所述坐标映射关系对所述书面文档图像进行校正,包括:在书面文档图像中消除所述标识物体或预设标识的图像。
在本公开的一种示例性实施例中,还包括:成像装置与书面文档相对位置不变时,可基于所述坐标映射关系对所述书面文档图像进行多次校正。
根据本公开的一方面,提出一种书面文档图像的校正装置,该装置包括:图像模块,用于成像装置拍摄书面文档以生成书面文档图像;第一坐标模块,用于获取书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;第二坐标模块,用于通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;映射关系模块,用于基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;校正模块,用于基于所述坐标映射关系对所述书面文档图像进行校正。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的书面文档图像的校正方法、装置、电子设备及计算机可读介质,成像装置拍摄书面文档以生成书面文档图像;获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正的方式,能够对拍摄到的书面文档图像进行图像校正,以便输出更加清晰准确的图像数据,增加图像识别中的精确度、提升用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种书面文档图像的校正方法及装置的应用场景示意图。
图2是根据一示例性实施例示出的一种书面文档图像的校正方法的流程图。
图3是根据另一示例性实施例示出的一种书面文档图像的校正方法的流程图。
图4是根据另一示例性实施例示出的一种书面文档图像的校正方法的流程图。
图5是根据另一示例性实施例示出的一种书面文档图像的校正方法的示意图。
图6是根据另一示例性实施例示出的一种书面文档图像的校正方法的示意图。
图7是根据另一示例性实施例示出的一种书面文档图像的校正装置的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
图9是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“和/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种书面文档图像的校正方法及装置的应用场景示意图。
如图1所示,系统架构10可以包括标识物体101、成像装置102,网络103和处理装置104。系统架构10还可以包括若干个多媒体装置105。网络103用以在成像装置102和处理装置104之间提供通信链路的介质;网络103还用以在多媒体装置105和处理装置104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
标识物体101可以是放置在所述书面文档上的独立物体,还可以是绘制在所述书面文档上的预设标识。标识物体101可以是一维的和/或二维的和/或三维的,可以选择点、线、底纹、底色、文字、符号、数字、二维码、条码、图片、图形、图表、二维或三维标识物或其他可以通过计算机视觉识别的图文信息中的一种或几种构成标识物体101;
更进一步的,一个和/或多个标识物体101在时间和/或空间上按一定规则进行组合可以形成新的标识物体101,对标识物体101进行组合时可以仅使用原有标识物体101,也可以在原有标识物体101上增加用于表示标识物体101之间组合关系的标识物体101。
更进一步的,任一个标识物体101处于不同位置,和/或多个标识物体101的组合,和/或多个标识物体101之间处于不同的位置和/或相对位置,和/或一个或多个标识物体101与成像装置102处于的相对位置,和/或多个标识物体101按不同次序出现和/或消失,和/或一个或多个标识物体101的不同的运动轨迹和/或速度和/或加速度和/或角速度和/或角加速度和/或相对位置变化和/或相对速度和/或相对加速度和/或相对角速度和/或相对角加速度和/或振动频率和/或振动幅度,和/或一个或多个标识物体101变色和/或变形,可以对应不同的操作指令。
标识物体101通过图像识别可生成图文控制标识,图文控制标识与交互指令相对应,其中,交互指令的映射规则或其存储地址,执行识别图文控制标识任务的程序或其存储地址,转化交互指令的程序或其存储地址,可以存储在客户端或服务器端或云端的存储器上,也可以在图文控制标识上采用可视觉识别的信息存储方式(如二维码)进行存储。在图文控制标识上采用可视觉识别的信息存储方式(如二维码)进行存储时,通过对图文控制标识进行识别,即可获得在图文控制标识上以可视觉识别的信息存储方式存储的内容。
成像装置102用于拍摄书面文档以生成书面文档图像;
处理装置104用于获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正。
处理装置104上可以安装有各种数据传输类应用,例如图像识别类应用、教育平台类应用、多媒体类应用等。处理装置104可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
值得一提的是,处理装置104可以是一个实体的设备,还可为远端的服务器,还可为云端的虚拟设备,本公开不以此为限。
多媒体装置105用于基于处理结果,生成多媒体信息;并基于所述多媒体信息进行多媒体操作。多媒体装置105可包括多种类型的设置,可例如包括智能灯、智能音响、多媒体播放器、投影仪等。
在一个具体的使用场景中,书面文档和标识物体101被放置在一平面上,该平面可为课桌或其他平台,成像装置102用于拍摄书面文档以生成书面文档图像;处理装置104用于基于坐标映射关系对所述书面文档图像进行校正。
图2是根据一示例性实施例示出的一种书面文档图像的校正方法的流程图。书面文档图像的校正方法20至少包括步骤S202至S210。
如图2所示,在S202中,成像装置拍摄书面文档以生成书面文档图像。其中,成像装置可为摄像机或者相机,更进一步的,成像装置可为带有拍照或摄像功能的移动终端。成像装置可被固定在某一个地方,实时拍摄书面文档,还可以是用户手持拍摄,本公开不以此为限。
在一个实施例中,成像装置拍摄书面文档以生成书面文档图像之前,还包括:基于放置在所述书面文档上的标识物体生成所述多个校正识别点;或基于绘制在所述书面文档上的预设标识生成所述多个校正识别点。
其中,标识物体可以为一不同于书面文档的物体,用户可将标识物体点放置在书面文档的不同位置以生成校正识别点,还可实现将校正识别点直接印刷在书面文档上,还可通过其他方式将校正识别点显示在书面文档上,本公开不以此为限。
在S204中,获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系。
在一个实施例中,可包括:获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;基于所述标识物体或所述预设标识获取所述多个校正识别点在第一坐标系中的多个第一坐标。
其中,标识物体可为各种形状或者材质的物体,标识物体是不同于书面文档的物体,成像装置识别到标识物体之后,可由处理装置或者远端服务器上读取该标识物体对应的规则或者命令,进而获取校正识别点的在第一坐标系中的坐标。
在书面文档为标准文档(标准学生书写用的带有横线或者竖线的文档)时,还可在处理器内容预先设置标准文档的参数,比如可将标准文档A的左上角开始的第一个田字格中的4个顶点作为校正识别点等等。在这种情况下,校正识别点在第一坐标系中的坐标也可事先预存在处理器中。
在S206中,通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系。
在一个实施例中,还包括:基于第二预设规则生成所述第二坐标系。其中,第二预设规则可为指定书面文档图像中的像素和坐标位置之间的关系,第二预设规则可例如:指定不同图像分辨率的书面文档图像和坐标位置之间的关系。其中,图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸。
在S208中,基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系。其中,坐标映射是在书面文档与书面文档图像之间建立一种映射关系。根据第一坐标和第二坐标在两个坐标系里的坐标映射,推出两个坐标系之间的映射关系。
在一个实施例中,可包括:确定所述多个第一坐标和所述多个第二坐标之间的对应关系;基于所述对应关系、所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系。
在S210中,基于所述坐标映射关系对所述书面文档图像进行校正。可基于所述坐标映射关系获得所述书面文档图像各像素的第一坐标值;将所述书面文档图像各像素映射至第二坐标系中第一坐标值的位置以生成校正的书面文档图像。
还可获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;基于所述标识物体或绘制在所述书面文档上的预设标识获取书面文档上一个或多个点在第二坐标系中的理想坐标值;在书面文档图像中识别所述书面文档上一个或多个点,将其图像映射到第二坐标系中的理想坐标值处。
根据本公开的书面文档图像的校正方法,成像装置拍摄书面文档以生成书面文档图像;获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正的方式,能够对拍摄到的书面文档图像进行图像校正,以便输出更加清晰准确的图像数据,增加图像识别中的精确度,提升用户的使用体验。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种书面文档图像的校正方法的流程图。图3所示的流程30是对图2所示的流程中S206“通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标”的详细描述。
如图3所示,在S302中,通过图像识别方式获得所述书面文档图像中的所述多个校正识别点图像。在本实施例中,图像识别,是指利用计算机对书面文档图像进行处理、分析和理解,以识别出校正识别点的技术。
在S304中,确定所述多个校正识别点图像在所述书面文档图像中的多个位置。获取多个校正识别点在书面文档图像中的像素的标号。像素的标号可为横轴标号结合纵轴标号的形式。
值得一提的是,校正识别点在书面文档图像中可根据图像分辨率的不同,而占用多个像素位置。在这种情况下,可由多个像素中确定中心像素点,以此作为校正识别点的位置。
在S306中,基于所述多个位置生成所述多个校正识别点图像在所述第二坐标系中的多个第二坐标。
更具体的,可首先获取书面文档的图像分辨率,然后通过图像识别获取多个校正识别点在书面文档图像中的位置(像素标号),进而根据第二预设规则确定多个识别点在第二坐标系上的第二坐标。
图4是根据另一示例性实施例示出的一种书面文档图像的校正方法的流程图。图4所示的流程40是对图2所示的流程中S210“基于所述坐标映射关系对所述书面文档图像进行校正”的详细描述。
如图4所示,在S402中,基于放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识确定所述书面文档图像上的校正区域。如上文所述,标识物体在后台处理器中对应着不同的规则和命令,在实际情况中,为了图像校正的效率,可不对整张书面文档图像进行校准,可仅校准书面文档图像中的部分区域。可通过标识物体在书面文档图像上指定校正区域。
在S404中,基于所述坐标映射关系获得所述书面文档图像各像素的第一坐标值。
在S406中,将所述书面文档图像各像素映射至第二坐标系中第一坐标值的位置以生成校正的书面文档图像。基于上文获取的坐标映射关系,依次将校正区域中的书面文档图像中的各个像素进行坐标映射。
在一个实施例中,还可例如,获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;基于所述标识物体或绘制在所述书面文档上的预设标识获取书面文档上一个或多个点在第二坐标系中的理想坐标值;在书面文档图像中识别所述书面文档上一个或多个点,将其图像映射到第二坐标系中的理想坐标值处。
图5是根据另一示例性实施例示出的一种书面文档图像的校正方法的示意图。如图5所示,摄像装置与桌面相对位置固定后,摄像装置所拍摄图像的各成像像素与桌面上任意一点有一一对应关系。如果书面文档平行于桌面,根据书面文档上两点之间的距离,以及两点的成像像素,即可以计算得出书面文档的高度,从而得出各成像像素与书面文档上任意一点的映射关系。在一般情况下,为了进行图像校正,至少需要三个校正识别点进行计算,但是如图5所示的情况中,仅需2个校正识别点也可进行书面文档的校正。图5的实施例介绍了基于本公开中的方式进行书面文档图像校正的一个特殊情况下的示例。图5实施例的技术内容也在本公开保护的范围内。
图6是根据另一示例性实施例示出的一种书面文档图像的校正方法的示意图。如图6所示,物体在摄像头所拍摄图像上的尺寸,由物体的长短和物体与摄像头之间的距离决定的。可建立三者之间的对应关系。
在一个物体的表面画一个已知直径的圆,必然有一条直径垂直于摄像头与圆心的连线,正圆形的情况下,任意直径均可以,椭圆形的情况下,为最长直径。根据这条直径以及其在摄像头所拍摄图像上的长短,可知书面文档所在平面到摄像头的距离。根据图像上圆(或椭圆)的最长轴的方向,可知书面文档所在平面与最长轴和摄像头组成的平面的交线。根据图像上圆(或椭圆)的最短轴的长度与最长轴的长度的比,可知道书面文档所在平面相对最长轴和摄像头组成的平面的夹角。根据上述关系可以计算得到各成像像素与书面文档所在平面上任意一点的一一对应关系。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图7是根据一示例性实施例示出的一种书面文档图像的校正装置的框图。如图7所示,书面文档图像的校正装置70可包括:图像模块702,第一坐标模块704,第二坐标模块706,映射关系模块708,以及校正模块710。
图像模块702用于成像装置拍摄书面文档以生成书面文档图像;
第一坐标模块704用于获取书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;
第二坐标模块706用于通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;
映射关系模块708用于基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;
校正模块710用于基于所述坐标映射关系对所述书面文档图像进行校正。
根据本公开的书面文档图像的校正装置,成像装置拍摄书面文档以生成书面文档图像;获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正的方式,能够对拍摄到的书面文档图像进行图像校正,以便输出更加清晰准确的图像数据,增加图像识别中的精确度、提升用户的使用体验。
图8是根据一示例性实施例示出的一种电子设备的框图。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图2,图3,图4中所示的步骤。
所述存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
所述存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备800’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备800交互的设备通信,和/或该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器860可以通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图9所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:成像装置拍摄书面文档以生成书面文档图像;获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;基于所述坐标映射关系对所述书面文档图像进行校正。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (14)
1.一种书面文档图像的校正方法,其特征在于,包括:
成像装置拍摄书面文档以生成书面文档图像;
获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;
通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;
基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;
基于所述坐标映射关系对所述书面文档图像进行校正。
2.如权利要求1所述的方法,其特征在于,成像装置拍摄书面文档以生成书面文档图像之前,还包括:
基于放置在所述书面文档上的标识物体生成所述多个校正识别点;或
基于绘制在所述书面文档上的预设标识生成所述多个校正识别点。
3.如权利要求1所述的方法,其特征在于,获取所述书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,包括:
获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;
基于所述标识物体或所述预设标识获取所述多个校正识别点在第一坐标系中的多个第一坐标。
4.如权利要求1所述的方法,其特征在于,通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标之前,还包括:
基于第二预设规则生成所述第二坐标系。
5.如权利要求1所述的方法,其特征在于,通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,包括:
通过图像识别方式获得所述书面文档图像中的所述多个校正识别点图像;
确定所述多个校正识别点图像在所述书面文档图像中的多个位置;
基于所述多个位置生成所述多个校正识别点图像在所述第二坐标系中的多个第二坐标。
6.如权利要求1所述的方法,其特征在于,基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系,包括:
确定所述多个第一坐标和所述多个第二坐标之间的对应关系;
基于所述对应关系、所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系。
7.如权利要求1所述的方法,其特征在于,基于所述坐标映射关系对所述书面文档图像进行校正,包括:
基于放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识确定所述书面文档图像上的校正区域;
基于所述坐标映射关系对所述校正区域中的图像进行校正。
8.如权利要求7所述的方法,其特征在于,基于所述坐标映射关系对所述书面文档图像进行校正,包括:
基于所述坐标映射关系获得所述书面文档图像各像素的第一坐标值;
将所述书面文档图像各像素映射至第二坐标系中第一坐标值的位置以生成校正的书面文档图像。
9.如权利要求1所述的方法,其特征在于,基于所述坐标映射关系对所述书面文档图像进行校正,包括:
获取放置在所述书面文档上的标识物体或绘制在所述书面文档上的预设标识;
基于所述标识物体或绘制在所述书面文档上的预设标识获取书面文档上一个或多个点在第二坐标系中的理想坐标值;
在书面文档图像中识别所述书面文档上一个或多个点,将其图像映射到第二坐标系中的理想坐标值处。
10.如权利要求1所述的方法,其特征在于,基于所述坐标映射关系对所述书面文档图像进行校正,包括:
在书面文档图像中消除所述标识物体或预设标识的图像。
11.如权利要求1所述的方法,其特征在于,还包括:
成像装置与书面文档相对位置不变时,可基于所述坐标映射关系对所述书面文档图像进行多次校正。
12.一种书面文档图像的校正装置,其特征在于,包括:
图像模块,用于成像装置拍摄书面文档以生成书面文档图像;
第一坐标模块,用于获取书面文档上的多个校正识别点在第一坐标系中的多个第一坐标,所述第一坐标系为预设在书面文档上的坐标系;
第二坐标模块,用于通过图像识别方式获得所述书面文档图像中的多个校正识别点图像在第二坐标系中的多个第二坐标,所述第二坐标系为预设在书面文档图像上的坐标系;
映射关系模块,用于基于所述多个第一坐标和所述多个第二坐标生成所述书面文档和所述书面文档图像之间的坐标映射关系;
校正模块,用于基于所述坐标映射关系对所述书面文档图像进行校正。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011116885.3A CN113420581A (zh) | 2020-10-19 | 2020-10-19 | 书面文档图像的校正方法、装置、电子设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011116885.3A CN113420581A (zh) | 2020-10-19 | 2020-10-19 | 书面文档图像的校正方法、装置、电子设备及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420581A true CN113420581A (zh) | 2021-09-21 |
Family
ID=77711737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011116885.3A Pending CN113420581A (zh) | 2020-10-19 | 2020-10-19 | 书面文档图像的校正方法、装置、电子设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420581A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190240A (zh) * | 2022-06-29 | 2022-10-14 | 广东小天才科技有限公司 | 终端拍摄方法、装置、计算机设备及计算机可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012166982A2 (en) * | 2011-05-31 | 2012-12-06 | Polyvision Corporation | Document unbending systems and methods |
US20160203625A1 (en) * | 2015-01-09 | 2016-07-14 | Adobe Systems Incorporated | Providing in-line previews of a source image for aid in correcting ocr errors |
CN106991649A (zh) * | 2016-01-20 | 2017-07-28 | 富士通株式会社 | 对摄像装置所捕获的文档图像进行校正的方法和装置 |
CN107424126A (zh) * | 2017-05-26 | 2017-12-01 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备、系统及摄像设备和显示设备 |
CN107464266A (zh) * | 2017-08-30 | 2017-12-12 | 广州视源电子科技股份有限公司 | 摄像机标定参数的校正方法、装置、设备和存储介质 |
CN107516292A (zh) * | 2017-08-30 | 2017-12-26 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备和计算机可读存储介质 |
CN107527369A (zh) * | 2017-08-30 | 2017-12-29 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备和计算机可读存储介质 |
US20180246312A1 (en) * | 2017-02-27 | 2018-08-30 | Tsinghua University | Method and apparatus for calibrating image sensor array in microscopic imaging system |
CN108762492A (zh) * | 2018-05-14 | 2018-11-06 | 歌尔科技有限公司 | 基于虚拟场景实现信息处理的方法、装置、设备及存储介质 |
CN109274898A (zh) * | 2018-08-08 | 2019-01-25 | 深圳市智像科技有限公司 | 文档图像智能采集方法、装置和系统 |
CN110146869A (zh) * | 2019-05-21 | 2019-08-20 | 北京百度网讯科技有限公司 | 确定坐标系转换参数的方法、装置、电子设备和存储介质 |
CN110909726A (zh) * | 2019-11-15 | 2020-03-24 | 杨宏伟 | 一种基于图像识别的书面文档互动系统和方法 |
CN111144305A (zh) * | 2019-12-26 | 2020-05-12 | 京东数字科技控股有限公司 | 训练数据生成方法、装置、电子设备和介质 |
-
2020
- 2020-10-19 CN CN202011116885.3A patent/CN113420581A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012166982A2 (en) * | 2011-05-31 | 2012-12-06 | Polyvision Corporation | Document unbending systems and methods |
US20160203625A1 (en) * | 2015-01-09 | 2016-07-14 | Adobe Systems Incorporated | Providing in-line previews of a source image for aid in correcting ocr errors |
CN106991649A (zh) * | 2016-01-20 | 2017-07-28 | 富士通株式会社 | 对摄像装置所捕获的文档图像进行校正的方法和装置 |
US20180246312A1 (en) * | 2017-02-27 | 2018-08-30 | Tsinghua University | Method and apparatus for calibrating image sensor array in microscopic imaging system |
CN107424126A (zh) * | 2017-05-26 | 2017-12-01 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备、系统及摄像设备和显示设备 |
CN107527369A (zh) * | 2017-08-30 | 2017-12-29 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备和计算机可读存储介质 |
CN107516292A (zh) * | 2017-08-30 | 2017-12-26 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备和计算机可读存储介质 |
CN107464266A (zh) * | 2017-08-30 | 2017-12-12 | 广州视源电子科技股份有限公司 | 摄像机标定参数的校正方法、装置、设备和存储介质 |
WO2019041651A1 (zh) * | 2017-08-30 | 2019-03-07 | 广州视源电子科技股份有限公司 | 图像校正方法、装置、设备和计算机可读存储介质 |
CN108762492A (zh) * | 2018-05-14 | 2018-11-06 | 歌尔科技有限公司 | 基于虚拟场景实现信息处理的方法、装置、设备及存储介质 |
CN109274898A (zh) * | 2018-08-08 | 2019-01-25 | 深圳市智像科技有限公司 | 文档图像智能采集方法、装置和系统 |
CN110146869A (zh) * | 2019-05-21 | 2019-08-20 | 北京百度网讯科技有限公司 | 确定坐标系转换参数的方法、装置、电子设备和存储介质 |
CN110909726A (zh) * | 2019-11-15 | 2020-03-24 | 杨宏伟 | 一种基于图像识别的书面文档互动系统和方法 |
CN111144305A (zh) * | 2019-12-26 | 2020-05-12 | 京东数字科技控股有限公司 | 训练数据生成方法、装置、电子设备和介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115190240A (zh) * | 2022-06-29 | 2022-10-14 | 广东小天才科技有限公司 | 终端拍摄方法、装置、计算机设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766879B (zh) | 字符检测模型的生成、字符检测方法、装置、设备及介质 | |
US10013156B2 (en) | Information processing apparatus, information processing method, and computer-readable recording medium | |
CN109472852B (zh) | 点云图像的显示方法及装置、设备及存储介质 | |
CN112085775B (zh) | 图像处理的方法、装置、终端和存储介质 | |
CN113934297B (zh) | 一种基于增强现实的交互方法、装置、电子设备及介质 | |
CN108882025B (zh) | 视频帧处理方法和装置 | |
CN112308051B (zh) | 文本框检测方法、装置、电子设备和计算机存储介质 | |
CN111882634A (zh) | 一种图像渲染方法、装置、设备及存储介质 | |
CN112232315B (zh) | 文本框检测方法、装置、电子设备和计算机存储介质 | |
CN112489114A (zh) | 图像转换方法、装置、计算机可读存储介质及电子设备 | |
CN108597034B (zh) | 用于生成信息的方法和装置 | |
CN113591437B (zh) | 游戏文本翻译方法、电子设备及存储介质 | |
CN113420581A (zh) | 书面文档图像的校正方法、装置、电子设备及可读介质 | |
CN109614972A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN108536686B (zh) | 一种图片翻译方法、装置、终端及存储介质 | |
KR101582225B1 (ko) | 인터랙티브 증강현실 서비스 시스템 및 방법 | |
CN113434059A (zh) | 书面文档处理方法、装置、电子设备及计算机可读介质 | |
CN113784045B (zh) | 聚焦互动方法、装置、介质和电子设备 | |
CN113096217B (zh) | 图片生成方法、装置、电子设备以及存储介质 | |
CN111696154B (zh) | 坐标定位方法、装置、设备及存储介质 | |
Oluwaranti et al. | Architectural Model For An Augmented Reality Based Mobile Learning Application | |
CN110650239B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113613043A (zh) | 屏幕显示和图像处理方法以及嵌入式设备和云服务器 | |
Arciuch et al. | Simulation tool to check correctness of optical signatures detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |