CN116844182A - 一种版式自动识别的卡证文字识别方法 - Google Patents
一种版式自动识别的卡证文字识别方法 Download PDFInfo
- Publication number
- CN116844182A CN116844182A CN202310762287.0A CN202310762287A CN116844182A CN 116844182 A CN116844182 A CN 116844182A CN 202310762287 A CN202310762287 A CN 202310762287A CN 116844182 A CN116844182 A CN 116844182A
- Authority
- CN
- China
- Prior art keywords
- information
- card
- recognition
- text
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005516 engineering process Methods 0.000 claims abstract description 18
- 238000013135 deep learning Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及计算机视觉和深度学习技术领域,具体为一种版式自动识别的卡证文字识别方法,包括如下步骤:对卡证的图像进行版式识别;对每一块区域进行文本检测;对区域内的每个文本区域进行文字识别;将文字识别信息与标签识别信息输入到识别器;有益效果为:本发明提出的版式自动识别的卡证文字识别方法,采用深度学习技术实现版式自动识别,避免了人工指定版式带来错误输出的问题;结合文字识别、语义关联等技术,自动建立字段与信息的关系,避免自定义字段需要大量人力成本和时间成本的问题。
Description
技术领域
本发明涉及计算机视觉和深度学习技术领域,具体为一种版式自动识别的卡证文字识别方法。
背景技术
文字识别技术在政务系统数字化建设中的应用非常广泛,可以提高行政效能和服务水平,尤其是在政府公文数字化处理、表格信息数字化录入、智慧城市建设、数据文本化和自动分类等应用场景,加快了政务处理速度,降低政务处理成本。
现有技术中,常用的文字识别技术包括传统方法和深度学习方法。传统的文字识别技术主要基于模式匹配和特征提取算法,如边缘检测、二值化、投影法等。但是,这些方法对于不同的文本样式和噪声都很敏感,因此准确率有限。
发明内容
本发明的目的在于提供一种版式自动识别的卡证文字识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种版式自动识别的卡证文字识别方法,所述卡证文字识别方法包括如下步骤:
对卡证的图像进行版式识别;
对每一块区域进行文本检测;
对区域内的每个文本区域进行文字识别;
将文字识别信息与标签识别信息输入到识别器。
优选的,对卡证的图像进行版式识别时,采用深度学习技术,经过多层卷积,识别出文本的版式。
优选的,对每一块区域进行文本检测时,逐行确定区域内文本的位置信息。
优选的,采用深度学习技术实现,训练一个用于文本检测的模型,文本位置信息采用矩形框的四个角点或者多边形的角点表示。
优选的,对区域内的每个文本区域进行文字识别时,进行标签识别,确定字段标签、信息标签或者隐式信息标签。
优选的,对区域内的每个文本区域进行文字识别时,采用自然语言处理技术对识别的文字进行标签定义,建立文字与标签信息的关联。
优选的,将文字识别信息与标签识别信息输入到识别器时,通过规则算法进行信息提取,确定卡证类型。
优选的,将文字识别信息与标签识别信息输入到识别器时,借助文字信息和标签信息内容,输出结构化卡证信息,实现卡证信息结构化输出。
与现有技术相比,本发明的有益效果是:
本发明提出的版式自动识别的卡证文字识别方法,采用深度学习技术实现版式自动识别,避免了人工指定版式带来错误输出的问题;结合文字识别、语义关联等技术,自动建立字段与信息的关系,避免自定义字段需要大量人力成本和时间成本的问题;面对多样且不确定的卡证识别场景,该方法在一定程度上实现了自动识别卡证文字并输出结构化信息,相比传统的逐一定制化开发,提高了开发效率;采用明确且统一的算法,减少甚至避免了人工干预造成不确定性增加的问题,保证了产品质量稳定,提升了产品体验;部署简单,一套系统可适用于政务系统中绝大多数的卡证识别场景,提高了政务系统服务商的开发效率。
附图说明
图1为本发明方法流程图;
图2为本发明识别器工作流程图;
图3为本发明卡证识别实例图。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本发明提供一种技术方案:一种版式自动识别的卡证文字识别方法,所述卡证文字识别方法包括如下步骤:
首先,对卡证的图像进行版式识别(layout recognition),采用深度学习技术,经过多层卷积,识别出文本的版式。当输入一张营业执照图像时,识别整体版式为竖版还是横版。以横版营业执照为例,可识别出营业执照名字区域、统一社会信用代码区域、左侧信息区域、右侧信息区域等,其他文字区域可不作识别,最后可得到一个版式信息的区域坐标集。
接着,对每一块区域进行文本检测,逐行确定该区域内文本的位置信息。
然后,对区域内的每个文本区域进行文字识别;
同时,进行标签识别,确定字段标签、信息标签或者隐式信息标签,可以采用自然语言处理技术对识别的文字进行标签定义,建立文字与标签信息的关联。
以上文提到的左侧信息区域为例,此区域包括(公司)名称、(公司)类型、法定代表人、经营范围等信息,分别识别“名称”、“类型”、“法定代表人”、“经营范围”为字段标签,其后面信息为信息标签,结合位置信息关联策略和语义关联策略,建立信息之间的关联关系。
最后,将文字识别信息与标签识别信息输入到识别器(recognizer),通过规则算法进行信息提取,确定卡证类型,同时借助文字信息和标签信息等内容,输出结构化卡证信息,实现卡证信息结构化输出。以上文提到的左侧信息区域为例,在该区域内,输出的结构化信息如下:
实施例二
如附图1所示,描述了该方法的整体流程图。首先,对卡证的图像进行版式识别(layout recognition),采用深度学习技术,经过多层卷积,识别出文本的版式;接着,对每一块区域进行文本检测,逐行确定该区域内文本的位置信息;然后,对区域内的每个文本区域进行文字识别;同时,进行标签识别,确定字段标签、信息标签或者隐式信息标签,可以采用自然语言处理技术对识别的文字进行标签定义,建立文字与标签信息的关联;最后,将文字识别信息与标签识别信息输入到识别器(recognizer),通过规则算法进行信息提取,确定卡证类型,同时借助文字信息和标签信息等内容,输出结构化卡证信息,实现卡证信息结构化输出。
实施例三
如附图2所示为识别器工作流程,描述了识别器在获取到卡证信息后生成卡证结构化信息的过程。首先,进行卡证识别,分别获取版式信息、文字信息以及标签信息;接着,对版式信息进行解析,依次对版式的每个区域进行K-V归纳,即根据区域信息、文字位置信息以及附带的标签信息归纳为“key-value”的字段信息;最后,将所有字段信息按照定义格式输出,最终生成卡证结构化信息。
实施例四
如附图3所示,介绍了一种卡证识别实例,其中虚线框内为基于该方法构建的系统。首先,读入卡证图像,进行卡证识别,将获取的信息输入到系统的处理机(processor),最终生成该卡证的结构化信息。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种版式自动识别的卡证文字识别方法,其特征在于:所述卡证文字识别方法包括如下步骤:
对卡证的图像进行版式识别;
对每一块区域进行文本检测;
对区域内的每个文本区域进行文字识别;
将文字识别信息与标签识别信息输入到识别器。
2.根据权利要求1所述的一种版式自动识别的卡证文字识别方法,其特征在于:对卡证的图像进行版式识别时,采用深度学习技术,经过多层卷积,识别出文本的版式。
3.根据权利要求1所述的一种版式自动识别的卡证文字识别方法,其特征在于:对每一块区域进行文本检测时,逐行确定区域内文本的位置信息。
4.根据权利要求3所述的一种版式自动识别的卡证文字识别方法,其特征在于:采用深度学习技术实现,训练一个用于文本检测的模型,文本位置信息采用矩形框的四个角点或者多边形的角点表示。
5.根据权利要求1所述的一种版式自动识别的卡证文字识别方法,其特征在于:对区域内的每个文本区域进行文字识别时,进行标签识别,确定字段标签、信息标签或者隐式信息标签。
6.根据权利要求1所述的一种版式自动识别的卡证文字识别方法,其特征在于:对区域内的每个文本区域进行文字识别时,采用自然语言处理技术对识别的文字进行标签定义,建立文字与标签信息的关联。
7.根据权利要求1所述的一种版式自动识别的卡证文字识别方法,其特征在于:将文字识别信息与标签识别信息输入到识别器时,通过规则算法进行信息提取,确定卡证类型。
8.根据权利要求1所述的一种版式自动识别的卡证文字识别方法,其特征在于:将文字识别信息与标签识别信息输入到识别器时,借助文字信息和标签信息内容,输出结构化卡证信息,实现卡证信息结构化输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762287.0A CN116844182A (zh) | 2023-06-27 | 2023-06-27 | 一种版式自动识别的卡证文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762287.0A CN116844182A (zh) | 2023-06-27 | 2023-06-27 | 一种版式自动识别的卡证文字识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844182A true CN116844182A (zh) | 2023-10-03 |
Family
ID=88173620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310762287.0A Pending CN116844182A (zh) | 2023-06-27 | 2023-06-27 | 一种版式自动识别的卡证文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844182A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975466A (zh) * | 2024-04-01 | 2024-05-03 | 山东浪潮科学研究院有限公司 | 一种基于版面分析的通用场景卡证识别系统 |
-
2023
- 2023-06-27 CN CN202310762287.0A patent/CN116844182A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975466A (zh) * | 2024-04-01 | 2024-05-03 | 山东浪潮科学研究院有限公司 | 一种基于版面分析的通用场景卡证识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101122854B1 (ko) | 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치 | |
US9384389B1 (en) | Detecting errors in recognized text | |
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
CN110889402A (zh) | 一种基于深度学习的营业执照内容识别方法及系统 | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
US20200184267A1 (en) | System to extract information from documents | |
CN112733639A (zh) | 文本信息结构化提取方法及装置 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
EP2671190A1 (en) | System for data extraction and processing | |
WO2020071558A1 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
CN111507214A (zh) | 文档识别方法、装置及设备 | |
CN116844182A (zh) | 一种版式自动识别的卡证文字识别方法 | |
CN114419646A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN114022891A (zh) | 扫描文本的关键信息提取方法、装置、设备及存储介质 | |
CN111881900B (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN116030469A (zh) | 一种处理方法、装置、设备和计算机可读存储介质 | |
US11335108B2 (en) | System and method to recognise characters from an image | |
CN113065559B (zh) | 图像比对方法、装置、电子设备及存储介质 | |
CN112149523B (zh) | 基于深度学习和并查集算法识别并抽取图片的方法及装置 | |
CN116324910A (zh) | 用于执行设备上图像到文本转换的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |