CN117079301A - 一种证件文本检测方法及系统 - Google Patents
一种证件文本检测方法及系统 Download PDFInfo
- Publication number
- CN117079301A CN117079301A CN202310410397.0A CN202310410397A CN117079301A CN 117079301 A CN117079301 A CN 117079301A CN 202310410397 A CN202310410397 A CN 202310410397A CN 117079301 A CN117079301 A CN 117079301A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- text detection
- map
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 238000010586 diagram Methods 0.000 claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种证件文本检测方法及系统,所述方法包括:步骤S1:对获取到的证件图像预处理,得到待检测图像;步骤S2:对待检测图像进行特征提取,得到特征图F1;步骤S3:将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F;步骤S4:对融合特征图F进行进一步提取特征,获取文本检测框相关图;步骤S5:对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图;步骤S6:通过文本检测框相关图获取文本检测框的位置信息,然后根据文本检测框的位置信息以及图像的分类特征图得到文本检测框的类别信息。采用本发明的技术方案,可提高证件文本检测的效率。
Description
技术领域
本发明涉及证件检测领域,尤其涉及一种证件文本检测方法及系统。
背景技术
现如今互联网智慧城市的观念风靡全球,智慧机场的打造,能让旅客体会到智能化、便捷化的服务品质。护照作为一种国际通用的身份证件,无论是出国旅游、因公差旅、出国留学都是必不可少,海关在管理旅客出境、入境时,需要旅客出示有效证件,相关工作人员需要登记旅客的姓名、身份证号码、护照号、护照号等,同时还需旅客提供照片等信息,随后才能出入境。为了将这些信息录入计算机,往往需要手动打字,花费大量的时间。为了节省时间,人们开始采用将护照拍成图片,再利用计算机视觉技术从图片中自动获取文本的方法。护照文本检测是进行精确文本抽取的前提,其检测性能的好坏直接关系到整个识别率的高低。因此,如何快速、准确地检测出文字是护照文字识别技术中一个非常关键的问题。
目前基于深度学习的文本检测方法主要包括:基于候选框的文本检测、基于分割的文本检测、基于两者方法混合的文本检测以及其它方法的文本检测。基于候选框的文本检测,基本思路是先利用若干个anchor产生大量的候选文本框,再经过NMS(非极大值抑制)得到最终的检测结果;基于分割的文本检测,基本思路是通过分割网络结构进行像素级别的语义分割,再基于分割的结果构建文本行。
在护照文本检测上,上述检测方法都是直接将所有文本进行检测,并分为同一类(如文本框),然后将所有文本进行识别得到最终输出结果。实际上,护照数据上不仅包含了文本框,还包含了人脸框、手写签名以及条形码框,并且文本框可分为内容文本框和栏目文本框。在对现有护照文本检测方法的结果进行文本识别时,需要先进行一系列逻辑判断,去除人脸款、条形码框和手写签名框,这不仅需要严格的逻辑,还给整个流程增加了耗时。
在实际应用中,我们更关注内容文本框的文字,只需识别此部分内容进行输出即可,对于栏目文本框、人脸框、手写签名以及条形码框可省略识别这一步。
发明内容
本发明的目的在于提供了一种计算量少耗时短的证件文本检测方法及装置。
本发明实施例中,提供了一种证件文本检测方法,其包括:
步骤S1:对获取到的证件图像预处理,得到待检测图像;
步骤S2:对待检测图像进行特征提取,得到特征图F1;
步骤S3:将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F;
步骤S4:对融合特征图F进行进一步提取特征,获取文本检测框相关图,所述文本检测框相关图包括概率图、阈值图及近似二值图;
步骤S5:对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图;
步骤S6:通过文本检测框相关图获取文本检测框的位置信息,然后根据文本检测框的位置信息以及图像的分类特征图得到文本检测框的类别信息。
本发明实施例中,步骤S1中,对获取到的证件图像预处理,包括:
对获取到的证件图像进行比例缩放、均值化、归一化处理。
本发明实施例中,步骤S2中,采用轻量级网络MobileNetV3对待检测图像进行特征提取。
本发明实施例中,步骤S3中,特征金字塔网络RSEFPN对特征图F1的处理过程包括:
先得到四个不同大小的特征图,然后将四个特征图分别上采样至特征图F1的1/4大小,最后对上采样的四个特征图进行融合,得到此网络最终输出融合特征图F。
本发明实施例中,步骤S3、步骤S4、步骤S5和步骤S6采用DBNet神经网络来实现。
本发明实施例中,还提供了一种证件文本检测系统,包括:
预处理模块,用于对获取到的证件图像预处理,得到待检测图像;
特征图提取模块,用于对待检测图像进行特征提取,得到特征图F1;
融合模块,用于将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F;
相关图提取模块,用于对融合特征图F进行进一步提取特征,获取文本检测框相关图,所述文本检测框相关图包括概率图、阈值图及近似二值图;
分类特征图提取模块,用于对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图;
检测框分类模块,用于通过文本检测框相关图获取文本检测框的位置信息,然后根据检测框的对应位置以及图像的分类特征图得到文本检测框的类别信息。
本发明实施例中,所述预处理模块对获取到的证件图像预处理的过程包括:
对获取到的证件图像进行比例缩放、均值化、归一化处理。
本发明实施例中,所述特征提取模块采用轻量级网络MobileNetV3对待检测图像进行特征提取。
本发明实施例中,所述融合模块采用特征金字塔网络RSEFPN对特征图F1的处理过程包括:
先得到四个不同大小的特征图,然后将四个特征图分别上采样为F1的1/4大小,最后对上采样的四个特征图进行融合,得到此网络最终输出融合特征图F;
本发明实施例中,所述融合模块、所述相关图提取模块、所述分类特征图提取模块和所述检测框分类模块采用DBNet神经网络来实现。
与现有技术相比较,采用本发明的证件文本检测方法及系统,在检测证件文本的同时对文本检测框进行了分类,在后续进行识别等任务时,可根据需求提供不同的检测框,内容文本框提供给文字识别,而人脸框提供给人脸验证,给后续的识别任务提供了更可靠的检测框,减少了误差。
附图说明
图1是本发明实施例提供的证件文本检测方法的流程图。
图2是本发明实施例提供的证件文本检测系统的示意图。
具体实施方式
为了使本发明的目的、技术方案及优像素点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的实现进行详细描述。
图1是本发明实施例提供的证件文本检测方法的流程图,所述方法包括步骤S1-S6。下面分别进行说明。
步骤S1:对获取到的证件图像预处理,得到待检测图像。
需要说明的是,证件图像通常是通过拍摄的方式来获得,由于拍摄的距离、角度不同,得到的图像也不同,因此,需要对其进行预处理,将图像处理成相同的规格。具体地,本发明实施例中,对获取到的证件图像预处理,包括:对获取到的证件图像进行比例缩放、均值化、归一化处理。
步骤S2:对待检测图像进行特征提取,得到特征图F1。
需要说明的是,本发明实施例中,步骤S2中,采用轻量级网络MobileNetV3对待检测图像进行特征提取。
步骤S3:将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F。
本发明实施例中,步骤S3中,特征金字塔网络RSEFPN对特征图F1的处理过程包括:
先得到四个不同大小的特征图,然后将四个特征图分别上采样至特征图F1的1/4大小,最后对上采样的四个特征图进行融合,得到此网络最终输出融合特征图F。
通过上述对特征图F1的处理方式,通过采用可变卷积可以给模型提供可变化的感受野,对文本的检测有很好效果。
步骤S4:对融合特征图F进行进一步提取特征,获取文本检测框相关图,所述文本检测框相关图包括概率图(probabilitymap)、阈值图(thresholdmap)及近似二值图(approximatebinarymap)。
需要说明的是,概率图中表示了像素点是文本的概率,阈值图中表示了每个像素点的阈值,近似二值图通过对概率图和阈值图进行计算得到。文本检测框相关图反应了文本框的特征,用于检测图像中的文本框的位置,对于特定的证件来说,不同位置的检测框具有特定的类别。
步骤S5:对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图。
需要说明的是,整个图像的分类特征图中反应了图像中存在的检测框的类别,例如,内容文本框、栏目文本框、人脸框、手写签名或者条形码框。还需要说明的是,步骤S4和S5都是对步骤S3中得到的融合特征图F进行进一步的特征提取,两者之间并无先后顺序。
步骤S6:通过文本检测框相关图获取文本检测框的位置信息,然后根据文本检测框的位置信息以及图像的分类特征图得到文本检测框的类别信息。
对于特定的证件来说,不同位置的文本检测框具有特定的类别,因此可以通过文本检测框的位置及图像的分类信息特征图来获取文本检测框对应的类别。
需要说明的是,步骤S3、步骤S4、步骤S5和步骤S6采用DBNet神经网络来实现。DBNet神经网络具有网络结构较小,后处理速度较快的优点。并且,本发明实施例中,在DBNet神经网络中增加一个分类分支用于对文本框进行分类,可实现对护照文本检测框属于内容文本框、栏目文本框、人脸框、手写签名或者条形码框进行归类,在后续的检测中,可根据需求提供不同的检测框。
如图2所示,相应于上述证件文本检测方法,本发明实施例中,还提供了一种证件文本检测系统,其包括预处理模块1、特征图提取模块2、融合模块3、相关图提取模块4、分类特征图提取模块5和检测框分类模块6。下面分别进行说明。
所述预处理模块1,用于对获取到的证件图像预处理,得到待检测图像。本发明实施例中,所述预处理模块1对获取到的证件图像预处理的过程包括:对获取到的证件图像进行比例缩放、均值化、归一化处理。
所述特征图提取模块2,用于对待检测图像进行特征提取,得到特征图F1。本发明实施例中,所述特征提取模块2采用轻量级网络MobileNetV3对待检测图像进行特征提取。
所述融合模块3,用于将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F。本发明实施例中,所述融合模块3采用特征金字塔网络RSEFPN对特征图F1的处理过程包括:先得到四个不同大小的特征图,然后将四个特征图分别上采样为F1的1/4大小,最后对上采样的四个特征图进行融合,得到此网络最终输出融合特征图F。
所述相关图提取模块4,用于对融合特征图F进行进一步提取特征,获取文本检测框相关图,所述文本检测框相关图包括概率图、阈值图及近似二值图。
所述分类特征图提取模块5,用于对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图。
所述检测框分类模块6,用于通过文本检测框相关图获取文本检测框的位置信息,然后根据检测框的对应位置以及图像的分类特征图得到文本检测框的类别信息。
本发明实施例中,所述融合模块3、所述相关图提取模块4、所述分类特征图提取模块5和所述检测框分类模块6采用DBNet神经网络来实现。DBNet神经网络具有网络结构较小,后处理速度较快的优点。在DBNet神经网络中增加一个分类分支用于对文本框进行分类,可实现对护照文本检测框属于内容文本框、栏目文本框、人脸框、手写签名或者条形码框进行归类,在后续的检测中,可根据需求提供不同的检测框。
综上所述,采用本发明的证件文本检测方法及系统,在检测证件文本的同时对文本检测框进行了分类,在后续进行识别等任务时,可根据需求提供不同的检测框,内容文本框提供给文字识别,而人脸框提供给人脸验证,给后续的识别任务提供了更可靠的检测框,减少了误差。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种证件文本检测方法,其特征在于,包括:
步骤S1:对获取到的证件图像预处理,得到待检测图像;
步骤S2:对待检测图像进行特征提取,得到特征图F1;
步骤S3:将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F;
步骤S4:对融合特征图F进行进一步提取特征,获取文本检测框相关图,所述文本检测框相关图包括概率图、阈值图及近似二值图;
步骤S5:对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图;
步骤S6:通过文本检测框相关图获取文本检测框的位置信息,然后根据文本检测框的位置信息以及图像的分类特征图得到文本检测框的类别信息。
2.如权利要求1所述的证件文本检测方法,其特征在于,步骤S1中,对获取到的证件图像预处理,包括:
对获取到的证件图像进行比例缩放、均值化、归一化处理。
3.如权利要求1所述的证件文本检测方法,其特征在于,步骤S2中,采用轻量级网络MobileNetV3对待检测图像进行特征提取。
4.如权利要求1所述的证件文本检测方法,其特征在于,步骤S3中,特征金字塔网络RSEFPN对特征图的处理过程包括:
先得到四个不同大小的特征图,然后将四个特征图分别上采样至特征图F1的1/4大小,最后对上采样的四个特征图进行融合,得到此网络最终输出融合特征图F。
5.如权利要求3所述的证件文本检测方法,其特征在于,步骤S3、步骤S4、步骤S5和步骤S6采用DBNet神经网络来实现。
6.一种证件文本检测系统,其特征在于,包括:
预处理模块,用于对获取到的证件图像预处理,得到待检测图像;
特征图提取模块,用于对待检测图像进行特征提取,得到特征图F1;
融合模块,用于将特征图F1输入到特征金字塔网络RSEFPN,输出融合特征图F;
相关图提取模块,用于对融合特征图F进行进一步提取特征,获取文本检测框相关图,所述文本检测框相关图包括概率图、阈值图及近似二值图;
分类特征图提取模块,用于对融合特征图F进行进一步的特征提取,得到整个图像的分类信息特征图;
检测框分类模块,用于通过文本检测框相关图获取文本检测框的位置信息,然后根据检测框的对应位置以及图像的分类特征图得到文本检测框的类别信息。
7.如权利要求6所述的证件文本检测系统,其特征在于,所述预处理模块对获取到的证件图像预处理的过程包括:
对获取到的证件图像进行比例缩放、均值化、归一化处理。
8.如权利要求1所述的证件文本检测系统,其特征在于,所述特征提取模块采用轻量级网络MobileNetV3对待检测图像进行特征提取。
9.如权利要求6所述的证件文本检测系统,其特征在于,步骤S3中,所述融合模块采用特征金字塔网络RSEFPN对特征图F1的处理过程包括:
先得到四个不同大小的特征图,然后将四个特征图分别上采样为F1的1/4大小,最后对上采样的四个特征图进行融合,得到此网络最终输出融合特征图F。
10.如权利要求6所述的证件文本检测系统,其特征在于,所述融合模块、所述相关图提取模块、所述分类特征图提取模块和所述检测框分类模块采用DBNet神经网络来实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410397.0A CN117079301A (zh) | 2023-04-18 | 2023-04-18 | 一种证件文本检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410397.0A CN117079301A (zh) | 2023-04-18 | 2023-04-18 | 一种证件文本检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117079301A true CN117079301A (zh) | 2023-11-17 |
Family
ID=88704934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310410397.0A Pending CN117079301A (zh) | 2023-04-18 | 2023-04-18 | 一种证件文本检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079301A (zh) |
-
2023
- 2023-04-18 CN CN202310410397.0A patent/CN117079301A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN111931664A (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN110008909B (zh) | 一种基于ai的实名制业务实时稽核系统 | |
US11893765B2 (en) | Method and apparatus for recognizing imaged information-bearing medium, computer device and medium | |
Abdellatif et al. | A low cost IoT-based Arabic license plate recognition model for smart parking systems | |
CN116311214B (zh) | 车牌识别方法和装置 | |
CN115620312A (zh) | 跨模态字符笔迹验证方法、系统、设备及存储介质 | |
Bulatov et al. | Towards a unified framework for identity documents analysis and recognition | |
Natei et al. | Extracting text from image document and displaying its related information | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
Li et al. | Manchu word recognition based on convolutional neural network with spatial pyramid pooling | |
Arsenovic et al. | Deep learning driven plates recognition system | |
Chattopadhyay et al. | On the enhancement and binarization of mobile captured Vehicle Identification Number for an embedded solution | |
CN112396060A (zh) | 基于身份证分割模型的身份证识别方法及其相关设备 | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 | |
Saunshi et al. | License plate recognition using convolutional neural network | |
Siddique et al. | Development of an automatic vehicle license plate detection and recognition system for Bangladesh | |
Zaafouri et al. | A vehicle license plate detection and recognition method using log gabor features and Convolutional Neural Networks | |
Goud et al. | Text localization and recognition from natural scene images using ai | |
CN117079301A (zh) | 一种证件文本检测方法及系统 | |
CN111213157A (zh) | 一种基于智能终端的快递信息录入方法及录入系统 | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
Astawa et al. | Convolutional Neural Network Method Implementation for License Plate Recognition in Android | |
Girinath et al. | Automatic Number Plate Detection using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |