CN112132054A - 一种基于深度学习的文档定位和分割方法 - Google Patents
一种基于深度学习的文档定位和分割方法 Download PDFInfo
- Publication number
- CN112132054A CN112132054A CN202011017876.9A CN202011017876A CN112132054A CN 112132054 A CN112132054 A CN 112132054A CN 202011017876 A CN202011017876 A CN 202011017876A CN 112132054 A CN112132054 A CN 112132054A
- Authority
- CN
- China
- Prior art keywords
- document
- image
- segmenting
- loss
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种基于深度学习的文档定位和分割方法,属于计算机技术领域。该方法包括:S1:输入图像,并使用卷积神经网络提取该图像的特征;S2:将提取到的特征图采用卷积核大小为1的卷积层进行降维;S3:将降维之后的特征图分离成四个通道;S4:将分离出的四个特征图分别输入关键点预测模块,分别预测左上、左下、右上、右下四个顶点的坐标;S5:根据得到的四个顶点坐标对文档图像进行校正和分割。本发明相较于目前的基于边缘检测的文档边缘检测方法,不易受到背景复杂线条的影响,对文档四个顶点的定位更加准确。
Description
技术领域
本发明属于计算机技术领域,涉及机器学习和深度学习技术领域,具体涉及一种基于深度学习的文档定位和分割方法。
背景技术
目前越来越多的人使用手机、平板等移动设备对文档文件进行拍摄,相比较传统的扫描仪去完成文档文件的数字化更加的方便快捷。但用户进行拍摄时存在使用扫描仪不会出现的问题:(1)拍摄的图片文档只占据中心的部分,需要去除无用的背景,将文档分割出来。(2)因为拍摄的角度与距离,拍摄的图片存在几何失真,需要进行校正。
在市场现有的软件中,文档的四个顶点有些是要求用户去手动指定的,这种模式需要用户的配合,用户体验较差,且不适用于处理大量图片。也有部分软件通过图像处理的方法自动定位文档的四个顶点,但是由于算法方面的局限性,经常出现误判,成功率较低。
因此,现有技术存在缺陷,亟需一种针对手机、平板等移动设备拍摄图像的有效识别方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习的文档定位和分割方法,能够处理较复杂文档类型,对文档顶点进行精确定位,并对文档进行准确有效的校正和分割。
为达到上述目的,本发明提供如下技术方案:
一种基于深度学习的文档定位和分割方法,具体包括以下步骤:
S1:输入图像,并使用卷积神经网络提取该图像的特征;
S2:将提取到的特征图采用卷积核大小为1的卷积层进行降维;
S3:将降维之后的特征图分离成四个通道;
S4:将分离出的四个特征图分别输入关键点预测模块,分别预测左上、左下、右上、右下四个顶点的坐标;
S5:根据得到的四个顶点坐标对文档图像进行校正和分割。
进一步,步骤S4中,所述关键点预测模块的处理步骤为:
S41:对分离出的每一个通道输出的特征图进行归一化;
S42:对归一化之后的特征图转换为坐标点。
进一步,所述步骤S41具体包括:采用SoftMax函数作为归一化函数对分离出的每一个通道输出的特征图进行归一化:Z=φ(z)。
进一步,所述步骤S42具体包括以下步骤:
S421:定义两个矩阵X和Y,其宽高和输入的特征图一致,具体数值计算为:
其中,w表示输入特征图的宽,h表示输入特征图的高;i=1...w,j=1...h;
这样可以将X和Y的坐标值归一化到(-1,1)之间。
S422:对归一化之后的特征图转换为坐标点,通过对归一化之后的特征图和定义的矩阵求得F范数,具体数值计算为:
x=<Z,X>F
y=<Z,Y>F
经过上述步骤后,得到顶点坐标点为:
μ=[<Z,X>F,<Z,Y>F]
S423:关键点预测模块的总Loss为误差平方和Loss与正则Loss,总Loss计算公式为:
L(Z,p)=LMSE(μ,p)+λLD(Z,p)
其中,λ为正则化系数,用来设置正则化的强度;误差平方和Loss为:
LMSE(μ,p)=||p-μ||2
其中,p为真实值,μ为模块预测值;
为了使网络可以学习到小方差的高斯热图,采用正则Loss,对正则项引入高斯热图先验。正则Loss采用JS散度,JS散度广泛应用于衡量两个分布相似性上。正则Loss为:
进一步,所述步骤S5具体包括:利用文档的四个顶点坐标计算单应性矩阵H,利用单应性矩阵H进行透视变换,将几何失真的文档图像投影到新的平面进行视角校正。
进一步,所述特征图为高斯热图。
本发明的有益效果在于:本发明使用卷积神经网络提取深度特征,然后利用高斯热图回归坐标点的方法检测文档的四个顶点,通过四个顶点的坐标对文档图像进行视角校正。这是一种端到端的方法,容易在移动端设备上进行部署。本发明相较于目前的基于边缘检测的文档边缘检测方法,不易受到背景复杂线条的影响,对文档四个顶点的定位更加准确。本发明适合应用于对移动设备拍摄的文档图像进行提取保存的应用中,也可以作为文档识别的预处理步骤。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于深度学习的文档定位和分割方法的具体实施流程图;
图2为本发明方法用于名片的分割效果图,(a)名片的原始拍摄图片,(b)对名片的定位图,(c)名片的最终分割效果图;
图3为本发明方法用于发票的分割效果图,(a)发票的原始拍摄图片,(b)对发票的定位图,(c)发票的最终分割效果图;
图4为本发明方法用于文件的分割效果图,(a)文件的原始拍摄图片,(b)对文件的定位图,(c)文件的最终分割效果图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图4,图1为本发明基于深度学习的文档定位和分割方法,具体包括以下的步骤:
S1:输入图像;
S2:使用卷积神经网络进行特征提取;
(1)使用MobilenetV2网络作为特征提取网络进行特征提取;
(2)网络输入为600×800×3的三通道彩色图像,网络输出为MobilenetV2网络最后一个卷积层的特征图。
S3:将提取到的特征图用卷积核大小为1的卷积层降维到4个通道;
(1)特征图大小为25×19×1280;
(2)设置卷积层参数:strides为1、filter为4、ksize为1。
S4:将降维之后的特征图分离成四个通道;
降维之后的特征图大小为25×19×4。
S5:将分离出的四个特征图分别输入关键点预测模块分别预测左上、左下、右上、右下四个顶点的坐标;
(1)采用SoftMax函数作为归一化函数对分离出的每一个通道输出的高斯热图进行归一化:Z=φ(z);
(2)定义两个矩阵X和Y,其宽高和输入的特征图一致,具体数值计算为:
其中,w表示输入特征图的宽,h表示输入特征图的高,i=1...w,j=1...h;
这样可以将X和Y的坐标值归一化到(-1,1)之间。
(3)对归一化之后的高斯热图转换为坐标点,通过对归一化之后的高斯热图和定义的矩阵求得F范数,具体数值计算为:
x=<Z,X>F
y=<Z,Y>F
经过上述步骤后,得到顶点坐标点为:
μ=[<Z,X>F,<Z,Y>F]
(4)关键点预测模块的总Loss为误差平方和Loss与正则项Loss,总Loss为:
L(Z,p)=LMSE(μ,p)+λLD(Z,p)
误差平方和Loss为:
其中,λ为正则化系数,用来设置正则化的强度;误差平方和Loss为:
LMSE(μ,p)=||p-μ||2
其中,p为真实值,μ为模块预测值;
为了使网络可以学习到小方差的高斯热图,采用正则Loss,对正则项引入高斯热图先验。正则Loss采用JS散度,JS散度广泛应用于衡量两个分布相似性上。正则Loss为:
S6:根据得到的四个顶点坐标对文档图像进行校正和分割。
用文档的四个顶点坐标计算单应性矩阵H,利用单应性矩阵H进行透视变换,将几何失真的文档图像投影到新的平面进行视角校正。
本发明方法通过对图像进行特征提取、关键点预测两个步骤自动确定文档图像中顶点的坐标。本发明可以将图像内的文档进行快速定位和分割,且不易受到复杂背景的干扰。本发明适合应用于对移动设备拍摄的文档图像进行提取保存的应用中,也可以作为文档识别的预处理步骤。具体的,采用本发明方法分别对名片、不同版本的发票进行识别,如图2~4所示,最终识别的效果清晰且无变形,证明了本发明对文档定位和分割的有效性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于深度学习的文档定位和分割方法,其特征在于,该方法具体包括以下步骤:
S1:输入图像,并使用卷积神经网络提取该图像的特征;
S2:将提取到的特征图采用卷积核大小为1的卷积层进行降维;
S3:将降维之后的特征图分离成四个通道;
S4:将分离出的四个特征图分别输入关键点预测模块,分别预测左上、左下、右上、右下四个顶点的坐标;
S5:根据得到的四个顶点坐标对文档图像进行校正和分割。
2.根据权利要求1所述的文档定位和分割方法,其特征在于,步骤S4中,所述关键点预测模块的处理步骤为:
S41:对分离出的每一个通道输出的特征图进行归一化;
S42:对归一化之后的特征图转换为坐标点。
3.根据权利要求2所述的文档定位和分割方法,其特征在于,所述步骤S41具体包括:采用SoftMax函数作为归一化函数对分离出的每一个通道输出的特征图进行归一化:Z=φ(z)。
4.根据权利要求3所述的文档定位和分割方法,其特征在于,所述步骤S42具体包括以下步骤:
S421:定义两个矩阵X和Y,其宽高和输入的特征图一致,具体数值计算为:
其中,w表示输入特征图的宽,h表示输入特征图的高,i=1...w,j=1...h;
S422:对归一化之后的特征图转换为坐标点,通过对归一化之后的特征图和定义的矩阵求得F范数,具体数值计算为:
x=<Z,X>F
y=<Z,Y>F
得到顶点坐标点为:
μ=[<Z,X>F,<Z,Y>F]
S423:关键点预测模块的总Loss为误差平方和Loss与正则Loss,总Loss计算公式为:
L(Z,p)=LMSE(μ,p)+λLD(Z,p)
其中,λ为正则化系数,用来设置正则化的强度;误差平方和Loss为:
LMSE(μ,p)=||p-μ||2
其中,p为真实值,μ为模块预测值;
正则Loss为:
5.根据权利要求4所述的文档定位和分割方法,其特征在于,所述步骤S5具体包括:利用文档的四个顶点坐标计算单应性矩阵H,利用单应性矩阵H进行透视变换,将几何失真的文档图像投影到新的平面进行视角校正。
6.根据权利要求1~4中任意一项所述的文档定位和分割方法,其特征在于,所述特征图为高斯热图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011017876.9A CN112132054A (zh) | 2020-09-24 | 2020-09-24 | 一种基于深度学习的文档定位和分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011017876.9A CN112132054A (zh) | 2020-09-24 | 2020-09-24 | 一种基于深度学习的文档定位和分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132054A true CN112132054A (zh) | 2020-12-25 |
Family
ID=73839368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011017876.9A Pending CN112132054A (zh) | 2020-09-24 | 2020-09-24 | 一种基于深度学习的文档定位和分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132054A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850805A (zh) * | 2021-11-29 | 2021-12-28 | 北京世纪好未来教育科技有限公司 | 多文档检测方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090423A (zh) * | 2017-12-01 | 2018-05-29 | 上海工程技术大学 | 一种基于热力图和关键点回归的深度车牌检测方法 |
CN110674889A (zh) * | 2019-10-15 | 2020-01-10 | 贵州电网有限责任公司 | 一种用于电表终端故障识别的图像训练方法 |
CN110942064A (zh) * | 2019-11-25 | 2020-03-31 | 维沃移动通信有限公司 | 图像处理方法、装置和电子设备 |
CN110969160A (zh) * | 2019-11-21 | 2020-04-07 | 合肥工业大学 | 一种基于深度学习的车牌图像校正、识别方法及系统 |
CN111160142A (zh) * | 2019-12-14 | 2020-05-15 | 上海交通大学 | 一种基于数值预测回归模型的证件票据定位检测方法 |
US20200193163A1 (en) * | 2014-02-28 | 2020-06-18 | Second Spectrum, Inc. | Methods and systems of combining video content with one or more augmentations to produce augmented video |
CN111445386A (zh) * | 2020-04-15 | 2020-07-24 | 深源恒际科技有限公司 | 基于文本内容四点检测的图像校正方法 |
CN111667429A (zh) * | 2020-06-06 | 2020-09-15 | 南京聚特机器人技术有限公司 | 一种巡检机器人目标定位校正方法 |
CN111695519A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
-
2020
- 2020-09-24 CN CN202011017876.9A patent/CN112132054A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193163A1 (en) * | 2014-02-28 | 2020-06-18 | Second Spectrum, Inc. | Methods and systems of combining video content with one or more augmentations to produce augmented video |
CN108090423A (zh) * | 2017-12-01 | 2018-05-29 | 上海工程技术大学 | 一种基于热力图和关键点回归的深度车牌检测方法 |
CN110674889A (zh) * | 2019-10-15 | 2020-01-10 | 贵州电网有限责任公司 | 一种用于电表终端故障识别的图像训练方法 |
CN110969160A (zh) * | 2019-11-21 | 2020-04-07 | 合肥工业大学 | 一种基于深度学习的车牌图像校正、识别方法及系统 |
CN110942064A (zh) * | 2019-11-25 | 2020-03-31 | 维沃移动通信有限公司 | 图像处理方法、装置和电子设备 |
CN111160142A (zh) * | 2019-12-14 | 2020-05-15 | 上海交通大学 | 一种基于数值预测回归模型的证件票据定位检测方法 |
CN111445386A (zh) * | 2020-04-15 | 2020-07-24 | 深源恒际科技有限公司 | 基于文本内容四点检测的图像校正方法 |
CN111667429A (zh) * | 2020-06-06 | 2020-09-15 | 南京聚特机器人技术有限公司 | 一种巡检机器人目标定位校正方法 |
CN111695519A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
AIDEN NIBALI等: "Numerical Coordinate Regression with Convolutional Neural Networks", 《ARXIV》 * |
王亚琴: "基于视觉的运动目标检测与跟踪研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850805A (zh) * | 2021-11-29 | 2021-12-28 | 北京世纪好未来教育科技有限公司 | 多文档检测方法、装置、电子设备及存储介质 |
CN113850805B (zh) * | 2021-11-29 | 2022-02-22 | 北京世纪好未来教育科技有限公司 | 多文档检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
Alcantarilla et al. | KAZE features | |
US7965893B2 (en) | Method, apparatus and storage medium for detecting cardio, thoracic and diaphragm borders | |
CN109325412B (zh) | 行人识别方法、装置、计算机设备及存储介质 | |
CN106981077B (zh) | 基于dce和lss的红外图像和可见光图像配准方法 | |
CN106599028B (zh) | 一种基于视频图像处理的书本内容搜索匹配方法 | |
US8355569B2 (en) | Object region extracting device | |
KR101893679B1 (ko) | 딥 러닝을 이용한 카드번호 인식방법 | |
CN111144366A (zh) | 一种基于联合人脸质量评估的陌生人脸聚类方法 | |
EP2605186B1 (en) | Method and apparatus for recognizing a character based on a photographed image | |
US11450087B2 (en) | System and method for multimedia analytic processing and display | |
CN109447117B (zh) | 双层车牌识别方法、装置、计算机设备及存储介质 | |
US20110262013A1 (en) | Fingerprint matcher using iterative process and related methods | |
CN111783770A (zh) | 图像的矫正方法、装置和计算机可读存储介质 | |
Bellavia et al. | HarrisZ+: Harris corner selection for next-gen image matching pipelines | |
CN113592923A (zh) | 一种基于深度局部特征匹配的批图像配准方法 | |
CN110288040B (zh) | 一种基于拓扑验证的图像相似评判方法及设备 | |
CN112132054A (zh) | 一种基于深度学习的文档定位和分割方法 | |
CN116434071B (zh) | 一种规整化建筑掩膜的确定方法、确定装置、设备及介质 | |
CN109785367B (zh) | 三维模型追踪中外点滤除方法和装置 | |
CN114998347B (zh) | 一种半导体面板角点定位方法及装置 | |
CN113159037B (zh) | 图片矫正方法、装置、计算机设备及存储介质 | |
Zhang et al. | Matching of images with projective distortion using transform invariant low-rank textures | |
CN112418210B (zh) | 一种杆塔巡检信息智能分类方法 | |
KR101741761B1 (ko) | 멀티 프레임 기반 건물 인식을 위한 특징점 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201225 |