CN112364868A - 一种电子文件的旋转校正方法和装置 - Google Patents
一种电子文件的旋转校正方法和装置 Download PDFInfo
- Publication number
- CN112364868A CN112364868A CN202011422419.8A CN202011422419A CN112364868A CN 112364868 A CN112364868 A CN 112364868A CN 202011422419 A CN202011422419 A CN 202011422419A CN 112364868 A CN112364868 A CN 112364868A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- feature
- target electronic
- layer
- electronic file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012937 correction Methods 0.000 title claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 142
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 230000000875 corresponding effect Effects 0.000 claims description 102
- 239000013598 vector Substances 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 78
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
- G06T3/608—Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种电子文件的旋转校正方法和装置,所述方法包括:获取待校正的目标电子文件图像;将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层;基于所述角度识别模型输出的校正旋转角度对所述目标电子文件图像进行校正。采用上述方法可以自动地对电子文件进行旋转校正,提高用户的阅读体验。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种电子文件的旋转校正方法和装置。
背景技术
生活中,常常需要将一些纸质文件扫描并上传得到电子文件,以基于电子文件进行后续处理。然而,由于扫描、上传过程中可能会存在一些不规范的操作,导致得到的电子文件存在一定角度的旋转,如扫描时由于未水平/垂直放置导致纸质文件偏移了一定角度、上传时将竖向放置的文件设置为横向放置等,这些都会给阅读者带来不便。
发明内容
有鉴于此,本申请提供一种电子文件的旋转校正方法和装置。
具体地,本申请是通过如下技术方案实现的:
一种电子文件的旋转校正方法,包括:
获取待校正的目标电子文件图像;
将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层;
其中,所述特征提取层用于基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征;
所述特征融合层用于将各个特征提取方向对应的初始特征进行融合,得到综合特征;
所述特征转换层用于将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关;
所述分类层用于基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度;
基于所述角度识别模型输出的校正旋转角度对所述目标电子文件图像进行校正。
一种电子文件的旋转校正装置,包括:
获取单元,用于获取待校正的目标电子文件图像;
输入单元,用于将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层;
其中,所述特征提取层用于基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征;
所述特征融合层用于将各个特征提取方向对应的初始特征进行融合,得到综合特征;
所述特征转换层用于将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关;
所述分类层用于基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度;
校正单元,用于基于所述角度识别模型输出的校正旋转角度对所述目标电子文件图像进行校正。
本申请实施例中,可以将待校正的目标电子文件图像输入角度识别模型,利用角度识别模型从若干个特征提取方向对目标电子文件图像进行特征提取,并对提取得到的各个特征提取方向的特征进行融合,然后将融合后的特征转换为若干个标准旋转角度对应的概率值,基于这些概率值确定目标电子文件的校正旋转角度,按照校正旋转角度对目标电子文件图像进行旋转校正。采用上述方法可以自动地识别出目标电子文件图像的旋转角度并进行调整,不需要人工点击旋转按钮进行校正,可以大大地提高便利性和阅读体验。
附图说明
图1是本申请一示例性实施例示出的一种电子文件旋转的示意图;
图2是本申请一示例性实施例示出的一种电子文件的旋转校正方法的流程示意图;
图3是本申请一示例性实施例示出的一种特征提取方向的示意图;
图4是本申请一示例性实施例示出的一种电子文件的旋转校正的示意图;
图5是本申请一示例性实施例示出的一种场景示意图;
图6是本申请一示例性实施例示出的一种角度识别模型的结构示意图;
图7是本申请一示例性实施例示出的一种电子文件的旋转校正装置所在服务器的一种硬件结构图;
图8是本申请一示例性实施例示出的一种电子文件的旋转校正装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
生活中,常常需要将一些纸质文件扫描并上传得到电子文件,以基于电子文件进行后续处理。以司法领域为例,在诉讼、调解、判决等环节可能会产生多种类型的证据或材料,如起诉状、判决书、证据文件、证件文件等等,这些材料中可能存在大量的纸质材料,为了便于归纳、整理,可以将这些纸质材料扫描成电子文件,以使相关人员对电子文件进行后续的处理。
然而,扫描、上传过程中可能会存在一些不规范的操作,导致得到的电子文件中的文本内容存在一定角度的旋转。比如,扫描时纸质文件未对齐扫描设备的水平线/垂直线,导致扫描得到的电子文件偏移了一定角度(可参见图1(a)所示);再比如,扫描或上传时将竖向放置的文件设置为横向放置(可参见图1(b)所示),这些都会给阅读带来不便。
相关技术中,对于上述将竖向放置的文件设置为横向放置,或者将横向放置的文件设置为竖向放置的情况,相关人员可以手动点击“顺时针旋转90度”、“逆时针旋转90”的按钮来对电子文件进行校正,然而,当存在大量错误放置的电子文件时,若逐一地进行人工校正显然十分繁琐,效率低下。并且,对于电子文件偏移了非90度、180度或270度的情况(如图1中的(a)所示),采用“顺时针旋转90度”、“逆时针旋转90度”的方法也无法对电子文件进行合适的校正,依然不便于阅读。
基于此,本申请提供了一种电子文件的旋转校正方法,可以通过旋转角度识别模型,识别出电子文件旋转的角度,并基于识别出的旋转角度自动地对电子文件进行校正,提升阅读体验。
请参见图2,图2为本申请一示例性实施例示出的一种电子文件的旋转校方法的流程示意图,所述电子文件的旋转校正方法可以应用于具有存储器、处理器的电子设备上,例如服务器或服务器集群。
所述电子文件的旋转校正方法可以包括以下步骤:
步骤102,获取待校正的目标电子文件图像。
首先对本实施例中的“电子文件图像”进行说明。本实施例中可以将电子文件/纸质文件转换为图像,该图像便称为电子文件图像。比如,可以对纸质文件进行拍照或扫描,拍照或扫描后得到的图像即电子文件图像。再比如,也可以将电子文件,如word文件、excel文件、pdf文件等转换为图像,转换后得到的图像即电子文件图像。其中,电子文件图像可以是司法领域的起诉状、判决书、证据文件、证件文件等,也可以是其他领域的文件,本申请对此不作特殊限制。
本步骤中,获取待校正的目标电子文件图像可以有以下方式:
在一个例子中,用户对纸质文件进行扫描后,服务器可以自动地获取到扫描后的图像,将该图像作为目标电子文件图像。
在另一个例子中,用户也可以在阅读电子文件或电子文件图像时,点击对应的“旋转校正”按钮以发起旋转校正的请求,服务器接收到该请求后,可以将电子文件转换为目标电子文件图像,或将电子文件图像作为目标电子文件图像。
当然,在实际情况下也可以采取除上述例子外的其他方式,本申请在此不一一举例。
步骤104,将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层。
其中,所述特征提取层用于基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征;所述特征融合层用于将各个特征提取方向对应的初始特征进行融合,得到综合特征;所述特征转换层用于将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关,所述分类层用于基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度。
本实施例中,可以将目标电子文件图像输入到角度识别模型中,以基于角度识别模型预测出目标电子文件图像的旋转角度。其中,角度识别模型可以确定出目标电子文件图像存在的角度偏差,该角度偏差可以是0-360度范围内的任意度数。
本步骤中,角度识别模型可以包括特征提取层、特征转换层、特征融合层和分类层,下面分别对这四层进行说明。
1、特征提取层
可以基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征。特征提取方向可以预先设置,可参见图3,可以是水平方向、垂直方向、偏离水平方向30度方向、偏离水平方向45度方向,当然也可以是其他方向。并且,特征提取方向的数量也可以预先设置,比如可以选取水平方向和垂直方向这两个特征提取方向,再比如也可以选取水平方向、偏离水平方向30度方向和偏离水平方向45度方向这三个特征提取方向,对此不作特殊限制。
值得说明的是,图3所示的特征提取方向仅仅是示意性的说明,即各个特征提取方向并不一定如图3所示以目标电子文件的左上角为起点沿着箭头方向进行特征提取。在实际情况下也可以选取其他起点、其他方向进行特征提取。
采用上述方法可以从多个方向对目标电子文件图像进行特征提取,使得提取得到的特征更丰富,从而可以基于这些特征预测得到更准确的旋转角度。
2、特征融合层
可以将各个特征提取方向对应的初始特征进行融合,得到综合特征。
仍以上述例子为例,若选取水平方向和垂直方向这两个特征提取方向,则可以在特征提取层提取得到水平方向对应的初始特征,以及垂直方向对应的初始特征,则特征融合层可以将水平方向对应的初始特征和垂直方向对应的初始特征进行融合,得到综合特征。
融合时,可以采取将各个特征提取方向对应的初始特征进行拼接,也可以采取其他融合方式,具体可参照相关技术,本说明书在此不一一说明。
3、特征转换层
可以将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关。
本实施例中,可以预先指定角度识别模型的角度识别精度,比如角度识别精度可以为10度,那么对于0-360度的角度识别范围,可以10度的精度划分得到36个标准旋转角度,如0°、10°、20°、30°、……、350°、360°。当然,也可以划分得到1°、11°、21°、……、359°,对此不作特殊限制。角度识别精度越高,标准旋转角度的数量越多;角度识别精度越低,标准旋转角度的数量越少。可根据实际情况设置角度识别精度。
特征转换层可以将综合特征转换为各个标准旋转角度对应的概率值,比如可以采用reshape函数将综合特征转换为旋转角度向量,向量中元素的数量与标准旋转角度的数量相同,元素值即标准旋转角度对应的概率值。
仍以上述例子为例,当角度识别精度为10度时,可以转换得到包含36个元素的旋转角度向量,比如该向量可以是T={0.1,0.6,0.11,0.05,……,0.02,0.01},其中,0.1可以代表标准旋转角度10度对应的概率值、0.6可以代表标准旋转角度20度对应的概率值、0.11可以代表标准旋转角度30度对应的概率值、……、0.01可以代表标准旋转角度360度对应的概率值。
值得说明的是,上述标准旋转角度对应的旋转中心点以及旋转方向可以是预先规定的好的。比如,可以规定旋转中心点为目标电子文件图像的中心点,旋转方向可以是逆时针。那么标准旋转角度20度对应的含义实际上是:目标电子文件图像相比于标准电子文件图像(即不存在角度偏移的、适合阅读的电子文件图像),以图像的中心点为旋转中心逆时针旋转了20度(可参见图4中的“校正前”目标电子文件图像)。当然,除上述例子外,在其他例子中,旋转中心点还可以是目标电子文件图像的顶点,或者其他位置,旋转方向也可以是顺时针。
4、分类层
分类层可以基于各个标准旋转角度对应的概率值,确定所述目标电子文件图像的校正旋转角度。
例如,可以将该旋转角度向量中概率值最高的元素对应的标准旋转角度,作为目标电子文件图像的旋转角度。仍以上述向量T为例,最高概率值为0.6,对应的标准旋转角度为20度,则可以将20度作为目标电子文件图像的校正旋转角度。
当然,也可以采取其他方法确定目标电子文件图像的校正旋转角度。比如,也可以从旋转角度向量中选取出概率值最高的前N个元素,对这N个元素对应的标准旋转角度求平均或加权平均,然后将得到的结果作为目标电子文件图像的旋转角度。
值得说明的是,虽然本实施例中分类层是属于角度识别模型的,但在其他实施例中,也可以由一个独立于角度识别模型的分类模型实现上述分类层的功能,本申请对此不作特殊限制。
步骤108,基于所述校正旋转角度对所述目标电子文件图像进行校正。
本步骤中,可以基于校正旋转角度对目标电子文件进行校正。比如,仍以校正旋转角度为20度为例,可参见图4,可以目标电子文件图像的中心点为旋转中心,将目标电子文件图像以顺时针的方向旋转20度,则可以得到校正后的目标电子文件图像。
当然,在其他例子中,也可以基于其他旋转中心点对目标电子文件进行校正,本申请在此不一一举例。
较优地,还可以在保留文本内容的基础上对校正后的目标电子图像进行裁剪,使得目标电子文件图像的边缘与文本内容对齐,进一步提升阅读体验。可参见图4中的“裁剪后”目标电子文件图像。
较优地,还可以将校正后的目标电子文件图像转换为原本的电子文件格式,比如目标电子文件图像一开始为pdf格式,则可以将校正后的目标电子文件图像转换为pdf格式。
本申请中,采用上述电子文件的旋转校正方法,可以将待校正的目标电子文件图像输入角度识别模型,利用角度识别模型从若干个特征提取方向对目标电子文件图像进行特征提取,并对提取得到的各个特征提取方向的特征进行融合,然后将融合后的特征转换为若干个标准旋转角度对应的概率值,基于这些概率值确定目标电子文件的校正旋转角度,按照校正旋转角度对目标电子文件图像进行旋转校正。
采用上述方法,可以自动地识别出目标电子文件图像的旋转角度并进行调整,不需要人工点击旋转按钮进行校正,可以大大地提高便利性和阅读体验,并且也可以实现目标电子文件图像发生了非90度、180度或270度旋转情况下的校正,解决了相关技术中无法合理校正的问题。此外,还可以调整角度识别模型的识别精度,实现自定义精度的旋转校正,以满足不同的实际需求。
下面以一个具体的场景为例进行说明。请参见图5,图5可以代表司法过程中的一个场景,相关人员在递交证据文件(纸质文件)时,可以利用高拍仪拍摄证据文件的图像(即目标证据文件图像),然后将该图像通过网络发送给服务端。由于拍摄得到的目标证据文件图像可能会存在一定角度的倾斜、不利于直接阅读,基于此,服务端可以对该目标证据文件图像进行旋转校正,得到校正后的证据文件图像,然后可以将校正证据文件图像发送给客户端,以供客户端在屏幕或投影幕布上展示校正证据文件图像,使得相关人员可以对该证据进行阅读、分析等后续处理,推动司法流程的进行。
当然,该场景仅仅是示意性的说明,并不用于限制本申请,本申请所述方法还可以用于其他场景。
下面结合本申请提供的角度识别模型的模型结构,对电子文件、纸质文件或图像的旋转校正方法进行说明。
所述角度识别模型的模型结构可以参见图6,包括特征提取层、特征融合层、特征转换层和分类层。其中,特征融合层包括第一子特征融合层、子池化层和第二子特征融合层。
本实施例中,可以先获取目标电子文件图像,获取目标电子文件图像的方法可参照前述实施例,在此不再赘述。然后对目标电子文件图像进行预处理,比如可以将目标电子文件图像转换为灰度图像。再比如,也可以对目标电子文件图像去噪,以去除扫描、拍照或上传过程中产生的一些噪音,避免影响后续的旋转角度识别。
然后可以将预处理后的目标电子文件图像输入角度识别模型。
首先,在角度识别模型的特征提取层,可以采用若干个特征提取模块分别对目标电子文件图像进行特征提取,每个特征提取模块中都可以包括若干个特征提取方向对应的卷积核,并且,每个特征提取模块中卷积核的权重值不同,该权重值可以在角度识别模型训练阶段基于反向传播算法确定。特征提取模块的数量可以根据实际情况确定,比如64个、128个,优选地,可以为256个。
如图6所示,每个特征提取模块可以包括第一卷积核和第二卷积核,那么每个特征提取模块对目标电子文件图像进行特征提取后,都可以得到第一卷积核对应特征提取方向的初始特征(下简称为第一初始特征)和第二卷积核对应特征提取方向的初始特征(下简称为第二初始特征)。
其中,第一卷积核和第二卷积核互为转置矩阵,第一卷积核的尺寸可以为a*b,第二卷积核的尺寸可以b*a,优选的,b/a>5。这样一来,每个特征提取模块都可以从互为90度的两个方向(比如水平方向和垂直方向)进行特征提取,使得提取得到的初始特征更加丰富,有助于提升角度识别模型的预测准确度。
提取得到的初始特征可以输入特征融合层。
特征融合层可以包括第一子特征融合层、子池化层和第二子特征融合层。
在第一子特征融合层,可以设置与特征提取模块的数量相同的卷积核,每个卷积核可以存在对应的特征提取模块,并对该特征提取模块对应的第一初始特征和第二初始特征进行融合,得到每个特征提取模块对应的中间特征,然后将这些中间特征输入子池化层。其中,可以采用concat函数进行融合。
在子池化层,同样可以设置与特征提取模块的数量相同的卷积核,每个卷积核可以存在对应的特征提取模块,并对该特征提取模块对应的中间特征进行池化处理。比如,可以先将中间特征均匀地分割为固定尺寸的块,如3*3尺寸,然后对每个块进行池化处理。可以将池化处理后的中间特征输入第二子特征融合层。
在第二子特征融合层,可以对各个特征提取模块对应的池化处理后的中间特征进行融合,得到融合特征。然后使用第三卷积核(比如1*1大小的卷积核)对融合特征进行特征提取,得到目标电子文件图像的综合特征。此处同样可以采用concat函数进行融合。然后可以将综合特征输入特征转换层。
其中,采用第三卷积核进行特征提取,可以实现层间映射、跨通道交互,并提高非线性表达。
在特征转换层,可以采用reshape函数将目标特征转换为旋转角度向量,该旋转角度向量中的元素可以对应标准旋转角度,元素的值即对应标准旋转角度的概率值,具体可参照前述实施例,在此不再赘述。可以将旋转角度向量中每个元素值(即标准旋转角度的概率值)输入分类层。
在分类层,可以从所述旋转角度向量的各个元素值中确定出最大值,将该大值对应的标准旋转角度确定为目标电子文件图像的校正旋转角度并输出。
在获取目标电子文件图像的校正旋转角度后,可以基于该校正旋转角度对目标电子文件进行旋转校正。
采用上述方法,可以采用多个特征提取模块对目标电子文件图像进行特征提取,并且每个特征提取模块可以采用两个互为转置矩阵的卷积核以从互为90度的特征提取方向进行特征提取,可以学习到目标电子文件图像的不同特征,提高了角度识别的准确性,使得最终校正后的目标电子文件图像更标准,提升阅读体验。
与前述电子文件的旋转校正方法的实施例相对应,本申请还提供了电子文件的旋转校正装置的实施例。
本申请电子文件的旋转校正装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图7所示,为本申请电子文件的旋转校正装置所在服务器的一种硬件结构图,除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图8,图8是本申请一示例性实施例示出的一种电子文件的旋转校正装置的框图。所述电子文件的旋转校正装置可以包括获取单元810、输入单元820和校正单元830。
其中,获取单元810,用于获取待校正的目标电子文件图像;
输入单元820,用于将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层;
其中,所述特征提取层用于基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征;
所述特征融合层用于将各个特征提取方向对应的初始特征进行融合,得到综合特征;
所述特征转换层用于将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关;
所述分类层用于基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度;
校正单元830,用于基于所述角度识别模型输出的校正旋转角度对所述目标电子文件图像进行校正。
可选的,
所述特征提取层包括若干个特征提取模块,每个特征提取模块执行所述基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到与所述特征提取模块对应的各个特征提取方向的初始特征;
所述特征融合层包括第一子特征融合层、子池化层和第二子特征融合层,其中,所述第一子特征融合层用于针对每个特征提取模块对应的各个特征提取方向的初始特征,将所述各个特征提取方向的初始特征进行融合,得到所述特征提取模块对应的中间特征;
所述子池化层用于分别对每个特征提取模块对应的中间特征进行池化处理,得到每个特征提取模块对应的池化处理后的中间特征;
所述第二子特征融合层用于对各个特征提取模块对应的池化处理后的中间特征进行融合,得到所述目标电子文件图像的综合特征。
可选的,所述基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征,包括:
分别采用第一特征提取方向对应的第一卷积核和第二特征提取方向对应的第二卷积核对所述目标电子文件进行特征提取,得到第一特征提取方向对应的初始特征和第二特征提取方向对应的初始特征,其中,所述第一卷积核和所述第二卷积核互为转置矩阵。
可选的,特征转换层将所述综合特征转换为若干个标准旋转角度对应的概率值,包括:
基于reshape函数将所述综合特征转换为旋转角度向量,其中,所述旋转角度向量中元素的数量与所述标准旋转角度的数量相同,所述旋转角度向量的每个元素值分别代表对应标准旋转角度的概率值。
可选的,所述基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度,包括:
将概率值高的标准旋转角度确定为所述目标电子文件图像的校正旋转角度。
可选的,所述待校正的目标电子文件图像通过扫描纸质文件得到。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请还提供一种机器可读存储介质,其上存储有程序,该程序被处理器执行时,实现如前述实施例中所述的会话环节确定方法。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请还提供一种设备,包括处理器及存储器,所述存储器存储有可被处理调用的程序,其中,所述处理器执行所述程序时,实现如上述实施例中所述的电子文件的旋转校正方法。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (14)
1.一种电子文件的旋转校正方法,其特征在于,所述方法包括:
获取待校正的目标电子文件图像;
将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层;
其中,所述特征提取层用于基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征;
所述特征融合层用于将各个特征提取方向对应的初始特征进行融合,得到综合特征;
所述特征转换层用于将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关;
所述分类层用于基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度;
基于所述角度识别模型输出的校正旋转角度对所述目标电子文件图像进行校正。
2.根据权利要求1所述方法,其特征在于,
所述特征提取层包括若干个特征提取模块,每个特征提取模块执行所述基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到与所述特征提取模块对应的各个特征提取方向的初始特征;
所述特征融合层包括第一子特征融合层、子池化层和第二子特征融合层,其中,所述第一子特征融合层用于针对每个特征提取模块对应的各个特征提取方向的初始特征,将所述各个特征提取方向的初始特征进行融合,得到所述特征提取模块对应的中间特征;
所述子池化层用于分别对每个特征提取模块对应的中间特征进行池化处理,得到每个特征提取模块对应的池化处理后的中间特征;
所述第二子特征融合层用于对各个特征提取模块对应的池化处理后的中间特征进行融合,得到所述目标电子文件图像的综合特征。
3.根据权利要求1或2所述方法,其特征在于,所述基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征,包括:
分别采用第一特征提取方向对应的第一卷积核和第二特征提取方向对应的第二卷积核对所述目标电子文件进行特征提取,得到第一特征提取方向对应的初始特征和第二特征提取方向对应的初始特征,其中,所述第一卷积核和所述第二卷积核互为转置矩阵。
4.根据权利要求1所述方法,其特征在于,特征转换层将所述综合特征转换为若干个标准旋转角度对应的概率值,包括:
基于reshape函数将所述综合特征转换为旋转角度向量,其中,所述旋转角度向量中元素的数量与所述标准旋转角度的数量相同,所述旋转角度向量的每个元素值分别代表对应标准旋转角度的概率值。
5.根据权利要求1所述方法,其特征在于,所述基于各个标准旋转角度对应的概率值,确定所述目标电子文件图像的校正旋转角度,包括:
将概率值高的标准旋转角度确定为所述目标电子文件图像的校正旋转角度。
6.根据权利要求1所述方法,其特征在于,所述待校正的目标电子文件图像通过扫描纸质文件得到。
7.一种电子文件的旋转校正装置,其特征在于,所述装置包括:
获取单元,用于获取待校正的目标电子文件图像;
输入单元,用于将所述目标电子文件图像输入角度识别模型,所述角度识别模型包括特征提取层、特征融合层、特征转换层和分类层;
其中,所述特征提取层用于基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征;
所述特征融合层用于将各个特征提取方向对应的初始特征进行融合,得到综合特征;
所述特征转换层用于将所述综合特征转换为若干个标准旋转角度对应的概率值,所述标准旋转角度的数量与角度识别精度正相关;
所述分类层用于基于各个标准旋转角度对应的概率值确定所述目标电子文件图像的校正旋转角度;
校正单元,用于基于所述角度识别模型输出的校正旋转角度对所述目标电子文件图像进行校正。
8.根据权利要求7所述装置,其特征在于,
所述特征提取层包括若干个特征提取模块,每个特征提取模块执行所述基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到与所述特征提取模块对应的各个特征提取方向的初始特征;
所述特征融合层包括第一子特征融合层、子池化层和第二子特征融合层,其中,所述第一子特征融合层用于针对每个特征提取模块对应的各个特征提取方向的初始特征,将所述各个特征提取方向的初始特征进行融合,得到所述特征提取模块对应的中间特征;
所述子池化层用于分别对每个特征提取模块对应的中间特征进行池化处理,得到每个特征提取模块对应的池化处理后的中间特征;
所述第二子特征融合层用于对各个特征提取模块对应的池化处理后的中间特征进行融合,得到所述目标电子文件图像的综合特征。
9.根据权利要求7或8所述装置,其特征在于,所述基于若干不同的特征提取方向对所述目标电子文件图像进行特征提取,得到各个特征提取方向对应的初始特征,包括:
分别采用第一特征提取方向对应的第一卷积核和第二特征提取方向对应的第二卷积核对所述目标电子文件进行特征提取,得到第一特征提取方向对应的初始特征和第二特征提取方向对应的初始特征,其中,所述第一卷积核和所述第二卷积核互为转置矩阵。
10.根据权利要求7所述装置,其特征在于,特征转换层将所述综合特征转换为若干个标准旋转角度对应的概率值,包括:
基于reshape函数将所述综合特征转换为旋转角度向量,其中,所述旋转角度向量中元素的数量与所述标准旋转角度的数量相同,所述旋转角度向量的每个元素值分别代表对应标准旋转角度的概率值。
11.根据权利要求7所述装置,其特征在于,所述基于各个标准旋转角度对应的概率值,确定所述目标电子文件图像的校正旋转角度,包括:
将概率值高的标准旋转角度确定为所述目标电子文件图像的校正旋转角度。
12.根据权利要求7所述装置,其特征在于,所述待校正的目标电子文件图像通过扫描纸质文件得到。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-6所述方法的步骤。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-6所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011422419.8A CN112364868A (zh) | 2020-12-08 | 2020-12-08 | 一种电子文件的旋转校正方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011422419.8A CN112364868A (zh) | 2020-12-08 | 2020-12-08 | 一种电子文件的旋转校正方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364868A true CN112364868A (zh) | 2021-02-12 |
Family
ID=74536016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011422419.8A Pending CN112364868A (zh) | 2020-12-08 | 2020-12-08 | 一种电子文件的旋转校正方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364868A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755707A (zh) * | 2004-09-30 | 2006-04-05 | 德鑫科技股份有限公司 | 一种倾斜图像自动校正方法 |
US20060170709A1 (en) * | 2005-02-01 | 2006-08-03 | Cyberlink Corp. | Image realignment apparatus and a method thereof |
CN102638656A (zh) * | 2012-04-18 | 2012-08-15 | 青岛海信移动通信技术股份有限公司 | 一种视频图像处理方法及装置 |
CN105825243A (zh) * | 2015-01-07 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 证件图像检测方法及设备 |
CN106548171A (zh) * | 2016-09-22 | 2017-03-29 | 青岛海信电器股份有限公司 | 一种图像自动校正的方法、装置及系统 |
-
2020
- 2020-12-08 CN CN202011422419.8A patent/CN112364868A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755707A (zh) * | 2004-09-30 | 2006-04-05 | 德鑫科技股份有限公司 | 一种倾斜图像自动校正方法 |
US20060170709A1 (en) * | 2005-02-01 | 2006-08-03 | Cyberlink Corp. | Image realignment apparatus and a method thereof |
CN102638656A (zh) * | 2012-04-18 | 2012-08-15 | 青岛海信移动通信技术股份有限公司 | 一种视频图像处理方法及装置 |
CN105825243A (zh) * | 2015-01-07 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 证件图像检测方法及设备 |
CN106548171A (zh) * | 2016-09-22 | 2017-03-29 | 青岛海信电器股份有限公司 | 一种图像自动校正的方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
李建军: "《基于图像深度信息的人体动作识别研究》", 31 December 2018, 重庆大学出版社 * |
杨露菁等: "《智能图像处理及应用》", 31 March 2019 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6267224B2 (ja) | 最良の写真を検出及び選択する方法及びシステム | |
CN110598710B (zh) | 证件识别方法及装置 | |
RU2651144C2 (ru) | Ввод данных с изображений документов с фиксированной структурой | |
JP5753473B2 (ja) | 二次元ビジュアルフィンガープリントを用いる複製ドキュメントコンテンツの検出方法 | |
Kumar et al. | A dataset for quality assessment of camera captured document images | |
US9171203B2 (en) | Scanbox | |
US20090074300A1 (en) | Automatic adaption of an image recognition system to image capture devices | |
CN110738236B (zh) | 图像匹配方法、装置、计算机设备及存储介质 | |
CN112560861A (zh) | 票据处理方法、装置、设备及存储介质 | |
Armas Vega et al. | Copy-move forgery detection technique based on discrete cosine transform blocks features | |
EP2608062A1 (en) | Method of automatic management of images in a collection of images and corresponding device | |
CN112613553B (zh) | 图片样本集生成方法、装置、计算机设备和存储介质 | |
US11715316B2 (en) | Fast identification of text intensive pages from photographs | |
CN111444795A (zh) | 票据数据识别方法、电子设备、存储介质及装置 | |
JP7421652B2 (ja) | オブジェクトの真正性を識別する方法 | |
US20240161523A1 (en) | Text image correction method and apparatus | |
US20140029854A1 (en) | Metadata supersets for matching images | |
CN111428656A (zh) | 基于深度学习的移动端身份证识别方法、移动设备 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN112085094A (zh) | 单证图像翻拍检测方法、装置、计算机设备和存储介质 | |
CN114742722A (zh) | 文档矫正方法、装置、电子设备及存储介质 | |
CN114120300A (zh) | 一种图片矫正方法及装置 | |
CN112364868A (zh) | 一种电子文件的旋转校正方法和装置 | |
CN113408553A (zh) | 图片类别的识别方法、装置、电子设备及存储设备 | |
Camacho | Initialization methods of convolutional neural networks for detection of image manipulations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |