CN111914706A - 一种文字检测输出结果质量检测和控制的方法与装置 - Google Patents
一种文字检测输出结果质量检测和控制的方法与装置 Download PDFInfo
- Publication number
- CN111914706A CN111914706A CN202010713460.4A CN202010713460A CN111914706A CN 111914706 A CN111914706 A CN 111914706A CN 202010713460 A CN202010713460 A CN 202010713460A CN 111914706 A CN111914706 A CN 111914706A
- Authority
- CN
- China
- Prior art keywords
- character
- field
- deep learning
- learning model
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013136 deep learning model Methods 0.000 claims description 152
- 238000012549 training Methods 0.000 claims description 54
- 238000002372 labelling Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000002093 peripheral effect Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 description 16
- 238000010606 normalization Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 9
- 238000001994 activation Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种文字检测输出结果质量检测和控制的方法和装置,其中质量检测和控制的方法包括以下步骤:获取目标文档影像数据;对所述目标文档影像数据进行预处理,获取所述目标文档影像数据中各文字字段所处文本框的定位边界;根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度;预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
Description
技术领域
本发明涉及一种文字检测输出结果质量检测和控制的方法与装置,属于图像目标检测技术领域。
背景技术
文字检测是实现文档处理自动化系统(包括文字检测和识别、结构化、存储和检索、数据挖掘、智能决策等)的关键技术。文档是指由机器和/或人工填写其上记载有信息的实体,其实例包括发票、银行账单、车牌和医疗检验单、文档、收据、报文刊物、清单等。文字检测需要确定文档图像中全部文字字段或者部分关键字段在文档中所处位置(字段定位),以及将定位到的文字串分类(字段分类)。
近几年来图像处理技术,尤其是深度学习技术的发展迅猛,基于候选区域和基于分割这两大类目标检测方法进步迅速,文字检测的准确率得到很大提高,在文档OCR(包括文字检测和识别)等领域取得了很多落地的应用。但是很多非标准或者非大规模OCR应用需求的文档对于OCR识别准确率具有很高的要求,比如发票识别和报销影像化识别的应用,目前现有技术中基于深度学习的机器文档检测商业化的产品的识别方法还达不到诸如金融行业期望的性能(金融行业对于容错率要求比民用的OCR文档行业要求严格的多)。目前现有技术中基于机器学习的产品应用,需要能判断文本检测结果正确程度,并根据判断结果采取必要的干预措施(比如人工检测和/或纠错等)。本申请所指的文本检测结果正确程度,是指文本检测器正确输出期望的文本类别以及定位框,而正确的定位框是指文本检测器输出的定位框包含的文本能被文本识别器正确地识别。
现有技术中基于深度学习的文本检测方法,可以输出文本检测的分类结果的可信度,但是分类结果的可信度不能用来有效地衡量定位准确度。现有技术有尝试预测检测器输出的定位框与目标框的重叠度用来衡量定位的精确度,但是预测不够准确,而且目标框的标注有较大的波动性。另外定位准确度和定位正确度虽然有一定关系,但是并不能很好地表征定位正确度。以一串有100个数字的文字串为例,假设仅有第一个数字未被定位框框住,在此情况下定位的精确度很高,但是定位结果是不正确的,因为文本识别器将无法正确识别出期望的文字串的内容。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种文字检测输出结果质量检测和控制的方法与装置,通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理,能有效提高文档处理自动化程度,在保障文档检测和识别准确度的前提下,减少人工参与和系统成本。
本发明的技术方案如下:
技术方案一
一种文字检测输出结果质量检测和控制的方法,包括以下步骤:
获取目标文档影像数据;
对所述目标文档影像数据进行预处理,获取所述目标文档影像数据中各文字字段所处文本框的定位边界;
根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度;
预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
进一步的,在对所述目标文档影像数据进行预处理的步骤中,获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤:
建立用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,标注的信息包括:各关键文字字段在所述文档影像样本中的位置和字段的类别信息和类别置信度;其中所述关键文字字段在所述文档影像样本中的位置通过使用定位边界框进行标注;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
训练用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,使用定位边界框标注各关键文字字段在所述文档影像样本中的位置;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
将所述目标文档影像数据送入训练好的文字检测器深度学习模型进行识别,所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像。
进一步的,在所述根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤:
建立用于评估正确度的质量检查器深度学习模型;
利用训练好的文字检测器深度学习模型,检测出每个文档影像样本中的文字字段所在的位置,并输出检测到的各文字字段的定位边界框位置;
通过各文字字段的定位边界框位置,截取各文字字段定位边界框周边区域的影像作为质量检查器深度学习模型的训练样本;
对各所述质量检查器深度学习模型的训练样本进行正确度标注,根据文字字段定位边界框周边区域的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内,根据框选的正确程度标注所述质量检查器深度学习模型的训练样本中各文字字段的定位正确度;
将经标注完的供质量检查器深度学习模型训练使用的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练;
将所述目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查,所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果。
进一步的,在所述训练用于识别文字的文字检测器深度学习模型中,还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注;所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度;
在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中,结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度计算各文字字段的正确度。
技术方案二
一种文字检测输出结果质量检测和控制的装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
获取目标文档影像数据;
对所述目标文档影像数据进行预处理,获取所述目标文档影像数据中各文字字段所处文本框的定位边界;
根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度;
预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
进一步的,在对所述目标文档影像数据进行预处理的步骤中,获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤:
建立用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,标注的信息包括:各关键文字字段在所述文档影像样本中的位置和字段的类别信息和类别置信度;其中所述关键文字字段在所述文档影像样本中的位置通过使用定位边界框进行标注;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
训练用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,使用定位边界框标注各关键文字字段在所述文档影像样本中的位置;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
将所述目标文档影像数据送入训练好的文字检测器深度学习模型进行识别,所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像。
进一步的,在所述根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤:
建立用于评估正确度的质量检查器深度学习模型;
利用训练好的文字检测器深度学习模型,检测出每个文档影像样本中的文字字段所在的位置,并输出检测到的各文字字段的定位边界框位置;
通过各文字字段的定位边界框位置,截取各文字字段定位边界框周边区域的影像作为质量检查器深度学习模型的训练样本;
对各所述质量检查器深度学习模型的训练样本进行正确度标注,根据文字字段定位边界框周边区域的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内,根据框选的正确程度标注所述质量检查器深度学习模型的训练样本中各文字字段的定位正确度;
将经标注完的供质量检查器深度学习模型训练使用的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练;
将所述目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查,所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果。
进一步的,在所述训练用于识别文字的文字检测器深度学习模型中,还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注;所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度;
在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中,结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度计算各文字字段的正确度。
本发明具有如下有益效果:
1、本发明一种文字检测输出结果质量检测和控制的方法与装置,通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理,能有效提高文档处理自动化程度,在保障文档检测和识别准确度的前提下,减少人工参与和系统成本,大幅度提高文档处理的速度和性能,有利于增加文档检测和识别系统的规模、支持更多的用户。
2、本发明一种文字检测输出结果质量检测和控制的方法与装置,通过文字检测器深度学习模型检测到各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度,提高文字识别的速度和准确率。
3、本发明一种文字检测输出结果质量检测和控制的方法与装置,通过质量检查器深度学习模型进行判决文字字段的正确度,结合文字字段的定位框提取局部特征,能够根据文字字段周边的局部特征判断定位框是否准确框选文字字段,提高判决结果的准确度。
附图说明
图1为本发明实施例的流程图;
图2为对文档影像进行预处理的示例图;
图3为通过局部特征判决文档影像的示例图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1,一种文字检测输出结果质量检测和控制的方法,包括以下步骤:
获取目标文档影像数据;
对所述目标文档影像数据进行预处理(预处理主要采用一些常见的图像形态学操作,比如去噪、滤波等。同时可以利用深度学习分割模型将影像中非票据的背景部分去除),获取所述目标文档影像数据中各文字字段所处文本框的定位边界(本实施例中文字字段的定位边界可以采用基于目标检测的文字检测器深度学习模型来获取,比如Faster-RCNN、SSD和Yolo等)。
根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征(局部特征则是指局部的特征/信息,比如包含字段框左右/上下延长等的图像区域的信息或者经过神经网络模型处理得到的特征),根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度;文字字段的正确度指的是所定位的字段中的文字内容正确的概率。
预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
本实施例通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理,能有效提高文档处理自动化程度,在保障文档检测和识别准确度的前提下,减少人工参与和系统成本,大幅度提高文档处理的速度和性能,有利于增加文档检测和识别系统的规模、支持更多的用户。
实施例二
进一步的,参见图2,对所述目标文档影像数据进行预处理,识别所述文档影像中的各文字字段,诸如付款人名称、付款人行号、收款人名称、收款人行号、金额等,获取所述目标文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤:
建立用于识别文字的文字检测器深度学习模型,文字检测器深度学习模型可以采用目前已经比较成熟的用于目标检测的深度学习网络模型,比如Faster-RCNN、SSD和Yolo等,本实施实例采用Faster-RCNN网络模型,主要有四个部分组成:1)基础卷积网络,用于提取图片的特征图(feature maps);2)RPN网络(Region Proposal Network),用于预测候选区(proposals);3)感兴趣区域池化(RoI pooling),利用RPN网络生成候选区域和最后一层的特征图,得到固定大小的候选区特征图,进入到后面可利用全连接操作来进行目标识别和定位;4)分类和回归,输出候选区域所属的类,和修正候选区域在图像中的精确位置。
收集一定数量的训练文档影像样本(比如1000张),每个文档影像样本包括一定数目的文字字段,其中包括感兴趣的关键字段。工作人员对所述文档影像样本中的各关键文字字段进行标注,使用定位边界框标注各关键文字字段在所述文档影像样本中的位置,如图2所示,定位边界框可以为四个顶点组成的一个倾斜角度为0度的长方形;标注信息记载每个关键字段在文档图像中的位置(如坐标),图2所示为一份文档影像样本的样例,是一张银行发票,里面标注了十个关键字段(发票抬头,付款人名称,收款人名称等)的位置,用作训练的文档影像样本,可不断补充。将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练。
将所述文档影像送入训练好的文字检测器深度学习模型进行识别,所述文字检测器深度学习模型输出文档影像中检测到的各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度。
进一步的,参见图3,所述根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征(局部特征指字段框左右延长的图像区域,见图3中img_left,img_right。我们将该图像区域合并为img_merge,然后质量检查器模型提取出img_merge的图像特征,并对其进行分类推断。),结合文字字段的其它信息,判决各所述文字字段的正确度的具体方法包括以下步骤:
建立用于判决各所述文字字段的正确度的质量检查器深度学习模型,本实施例中质量检查器深度学习模型采用CNN网络模型,该网络模型共有5层,前4层为卷积层,最后1层为全连接层;前4层中,每层包含卷积、批归一化(batch normalizaiton)、激活和池化层。质量检查器深度学习模型也可以采用其它的分类模型。质量检查器深度学习模型的输入层是原始的RGB图像。第一层卷积层经32个5*5的卷积核作一次卷积,接着作批归一化、激活和池化操作。第二层卷积层经64个5*5的卷积核作一次卷积,接着作批归一化、激活和池化操作。第三层卷积层经128个3*3的卷积核作一次卷积,接着作批归一化、激活和池化操作。第四层卷积层经128个3*3的卷积核作一次卷积,接着作批归一化、激活和池化操作。最后经一层全连接层最后通过softmax输出2个值,分别对应二分类的预测概率。在网络模型训练/推理过程中,图片经过一定的预处理后输入到基于卷积神经网络的深度学习网络。图片在计算机里面可以作为一个3维矩阵来表示,比如Iw0,h0,c0,这里w0代表输入图片宽度(像素的个数),h0代表输入图片高度,c0代表输入图片颜色通道(彩色图片有红蓝绿三个颜色通道,灰度图片只有一个颜色通道)。卷积神经网络具有多个阶段(stage),每个阶段都包含一定数目的卷积模块(其作用是提取图象特征)和池化层(缩小特征图大小)等。卷积神经网络的输入是图片,输出是由神经网络提取出来的图片的特征,比如在最初的阶段,卷积模块提取出比较低级的特征(比如直线,弧线等),随着卷积层阶段的增加,卷积模块提取出来的特征变得更加抽象和高级(比如,由初级特征组合得到的物体的部件,比如文字的偏旁部首等),到最后的卷积模块,提取出来的特征对应到具体的文字,可以用来定位和识别。
利用训练好的文字检测器深度学习模型,检测每个文档影像样本中的文字字段,对各文档影像样本输出检测到的各文字字段的定位边界框位置;
参见图3,通过各文字字段的定位边界框位置,截取各文字字段定位边界框周边的影像作为质量检查器深度学习模型的训练样本;采用文字检测器深度学习模型获得字段的边界定位框(参见图例3-img_context列中方框)
在边界定位框左右两边界向外各延长一定宽度的小区域,将其切下来,得到边界定位框左边界向左边延长的小区域影像(记为img_left)和定位框向右延长的小区域影像(记为img_right);局部特权的提取主要是根据实际情况发现,深度学习模型的定位错误中左右边界不准确的比例占绝大部分。一般来说不同行字段上下之间会有比较明显的间距,定位模型不太会出错。需要指出的是,本发明提出的方案通用性很强,不仅可以利用左右延长区域的局部特征,也可以利用定位框的上下信息。在实例中仅仅是利用了左右边界截取的影像。本实施例中,延长的宽度限定设置为定位框高度的一半。
将img_left和img_right合并,得到合并的图像(记为img_merge)。本实施例中合并的操作如下:在img_left和img_right之间嵌入一个(不包含任何信息)黑图,其中黑图的宽度设为img_left宽度的两倍;通过这种方式可以避免img_left和img_right在卷积提取特征的过程中互相影响;也可以使用其他的合并方式。
工作人员对各所述质量检查器深度学习模型的训练样本进行正确度标注,根据文字字段定位边界框周围的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内,根据框选的正确程度标注所述质量检查器深度学习模型的训练样本的正确度,正确度的表达形式可以选择为二值输出(如用1和0表示正确或者不正确)或者线性数值输出(如1~100)。每个文字字段定位正确度的具体的值可以采用人工确定或者利用预训练的文字识别模型来确定。比如通过人工的方法,观测边界定位框是否仅将需要的文字字段对应的文本像素有效地框进到边界定位框里面,具体参加图3中Label栏,如果检测到的文字字段被正确地框在边界定位框内,可以标注该文字字段定位正确度为1,否则标注为0。也可以利用训练的文字识别模型代替人工进行上述标注方式。本实施例中,标注正确度的操作方式如下:
将img_merge的高度归一化到h(h=32)。
对img_merge进行标注,标注值(记为label)为1(如果该图片对应的边界定位框中的文字被给定的文字识别器正确识别出来)或者0(如果边界定位框的文字没有被正确识别出来)。
一个合并的图片(img_merge)和相应的标注形成一个训练样本。
重复上述操作,可以得到所需的一定数量的训练样本的集合。
将标注完的质量检查器深度学习模型的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练;
将文档影像中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查,所述质量检查器深度学习模型输出对文档影像中检测到的各文字字段的正确度的判决结果。
进一步的,在所述训练用于识别文字的文字检测器深度学习模型中,还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注,关键字段的类别信息如文字字段为金额字段、字符字段等;所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度;
在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中,结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度计算各文字字段的正确度,在计算正确度时,根据类别信息可以推断出相应字段内容的格式,比如得知某字段属于金额字段,则字段内容必须符合金额的格式。另外类别置信度也可以作为参考,如果类别置信度很低的话,最终正确度也会受到影响。
本实施例中对于一张输入文档进行文字检测输出结果质量检测和控制的流程如下:首先采用文字检测器深度学习模型定位出感兴趣的文本区域,输出文字字段的定位框的位置坐标以及文字字段的类别信息和类别置信度。对于任一检测出的文字字段,利用检测到的文字字段的定位框,生成相应的合并图片(img_merge)。使用训练好的质量检查器深度学习模型对合并图片进行处理,输出对合并图片对应的文本字段的定位正确度的预测。结合文字检测器对合并图片对应的文本字段的检测性能(文字字段的类别信息以及类别置信度)以及质量检查器输出的定位正确度,决定是否需要对检测结果添加额外的人工处理。其中文本类别可以预先推断识别内容的格式,类别置信度和定位正确度都可以作为判断是否需要人工处理的参考。比如得知某字段属于金额字段,则字段内容必须符合金额的格式;类别置信度和定位正确度可以分别设置不同的阈值。字段内容符合所属类型的格式,且类别置信度和定位正确度都高于阈值则认为不需要人工处理,否则需要人工处理。
本实施例不仅具备实施例一的有益效果,进一步的,提出了通过文字检测器深度学习模型检测到各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度,提高文字识别的速度和准确率;通过质量检查器深度学习模型进行判决文字字段的正确度,结合文字字段的定位框提取局部特征,再通过文字字段的其它信息判决文字正确度,通用性强。
实施例三
参加图1,一种文字检测输出结果质量检测和控制的装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
获取目标文档影像数据;
对所述目标文档影像数据进行预处理(预处理主要采用一些常见的图像形态学操作,比如去噪、滤波等。同时可以利用深度学习分割模型将影像中非票据的背景部分去除),获取所述目标文档影像数据中各文字字段所处文本框的定位边界(本实施例中文字字段的定位边界可以采用基于目标检测的文字检测器深度学习模型来获取,比如Faster-RCNN、SSD和Yolo等)。
根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征(局部特征则是指局部的特征/信息,比如包含字段框左右/上下延长等的图像区域的信息或者经过神经网络模型处理得到的特征),根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度;文字字段的正确度指的是所定位的字段中的文字内容正确的概率。
预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
本实施例通过评估定位边界定位的正确度判断文字字段是否需要进行人工处理,能有效提高文档处理自动化程度,在保障文档检测和识别准确度的前提下,减少人工参与和系统成本,大幅度提高文档处理的速度和性能,有利于增加文档检测和识别系统的规模、支持更多的用户。
实施例四
进一步的,参见图2,对所述目标文档影像数据进行预处理,识别所述文档影像中的各文字字段,诸如付款人名称、付款人行号、收款人名称、收款人行号、金额等,获取所述目标文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤:
建立用于识别文字的文字检测器深度学习模型,文字检测器深度学习模型可以采用目前已经比较成熟的用于目标检测的深度学习网络模型,比如Faster-RCNN、SSD和Yolo等,本实施实例采用Faster-RCNN网络模型,主要有四个部分组成:1)基础卷积网络,用于提取图片的特征图(feature maps);2)RPN网络(Region Proposal Network),用于预测候选区(proposals);3)感兴趣区域池化(RoI pooling),利用RPN网络生成候选区域和最后一层的特征图,得到固定大小的候选区特征图,进入到后面可利用全连接操作来进行目标识别和定位;4)分类和回归,输出候选区域所属的类,和修正候选区域在图像中的精确位置。
收集一定数量的训练文档影像样本(比如1000张),每个文档影像样本包括一定数目的文字字段,其中包括感兴趣的关键字段。工作人员对所述文档影像样本中的各关键文字字段进行标注,使用定位边界框标注各关键文字字段在所述文档影像样本中的位置,如图2所示,定位边界框可以为四个顶点组成的一个倾斜角度为0度的长方形;标注信息记载每个关键字段在文档图像中的位置(如坐标),图2所示为一份文档影像样本的样例,是一张银行发票,里面标注了十个关键字段(发票抬头,付款人名称,收款人名称等)的位置,用作训练的文档影像样本,可不断补充。将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练。
将所述文档影像送入训练好的文字检测器深度学习模型进行识别,所述文字检测器深度学习模型输出文档影像中检测到的各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度。
进一步的,参见图3,所述根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征(局部特征指字段框左右延长的图像区域,见图3中img_left,img_right。我们将该图像区域合并为img_merge,然后质量检查器模型提取出img_merge的图像特征,并对其进行分类推断。),结合文字字段的其它信息,判决各所述文字字段的正确度的具体方法包括以下步骤:
建立用于判决各所述文字字段的正确度的质量检查器深度学习模型,本实施例中质量检查器深度学习模型采用CNN网络模型,该网络模型共有5层,前4层为卷积层,最后1层为全连接层;前4层中,每层包含卷积、批归一化(batch normalizaiton)、激活和池化层。质量检查器深度学习模型也可以采用其它的分类模型。质量检查器深度学习模型的输入层是原始的RGB图像。第一层卷积层经32个5*5的卷积核作一次卷积,接着作批归一化、激活和池化操作。第二层卷积层经64个5*5的卷积核作一次卷积,接着作批归一化、激活和池化操作。第三层卷积层经128个3*3的卷积核作一次卷积,接着作批归一化、激活和池化操作。第四层卷积层经128个3*3的卷积核作一次卷积,接着作批归一化、激活和池化操作。最后经一层全连接层最后通过softmax输出2个值,分别对应二分类的预测概率。在网络模型训练/推理过程中,图片经过一定的预处理后输入到基于卷积神经网络的深度学习网络。图片在计算机里面可以作为一个3维矩阵来表示,比如Iw0,h0,c0,这里w0代表输入图片宽度(像素的个数),h0代表输入图片高度,c0代表输入图片颜色通道(彩色图片有红蓝绿三个颜色通道,灰度图片只有一个颜色通道)。卷积神经网络具有多个阶段(stage),每个阶段都包含一定数目的卷积模块(其作用是提取图象特征)和池化层(缩小特征图大小)等。卷积神经网络的输入是图片,输出是由神经网络提取出来的图片的特征,比如在最初的阶段,卷积模块提取出比较低级的特征(比如直线,弧线等),随着卷积层阶段的增加,卷积模块提取出来的特征变得更加抽象和高级(比如,由初级特征组合得到的物体的部件,比如文字的偏旁部首等),到最后的卷积模块,提取出来的特征对应到具体的文字,可以用来定位和识别。
利用训练好的文字检测器深度学习模型,检测每个文档影像样本中的文字字段,对各文档影像样本输出检测到的各文字字段的定位边界框位置;
参见图3,通过各文字字段的定位边界框位置,截取各文字字段定位边界框周边的影像作为质量检查器深度学习模型的训练样本;采用文字检测器深度学习模型获得字段的边界定位框(参见图例3-img_context列中方框)
在边界定位框左右两边界向外各延长一定宽度的小区域,将其切下来,得到边界定位框左边界向左边延长的小区域影像(记为img_left)和定位框向右延长的小区域影像(记为img_right);局部特权的提取主要是根据实际情况发现,深度学习模型的定位错误中左右边界不准确的比例占绝大部分。一般来说不同行字段上下之间会有比较明显的间距,定位模型不太会出错。需要指出的是,本发明提出的方案通用性很强,不仅可以利用左右延长区域的局部特征,也可以利用定位框的上下信息。在实例中仅仅是利用了左右边界截取的影像。本实施例中,延长的宽度限定设置为定位框高度的一半。
将img_left和img_right合并,得到合并的图像(记为img_merge)。本实施例中合并的操作如下:在img_left和img_right之间嵌入一个(不包含任何信息)黑图,其中黑图的宽度设为img_left宽度的两倍;通过这种方式可以避免img_left和img_right在卷积提取特征的过程中互相影响;也可以使用其他的合并方式。
工作人员对各所述质量检查器深度学习模型的训练样本进行正确度标注,根据文字字段定位边界框周围的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内,根据框选的正确程度标注所述质量检查器深度学习模型的训练样本的正确度,正确度的表达形式可以选择为二值输出(如用1和0表示正确或者不正确)或者线性数值输出(如1~100)。每个文字字段定位正确度的具体的值可以采用人工确定或者利用预训练的文字识别模型来确定。比如通过人工的方法,观测边界定位框是否仅将需要的文字字段对应的文本像素有效地框进到边界定位框里面,具体参加图3中Label栏,如果检测到的文字字段被正确地框在边界定位框内,可以标注该文字字段定位正确度为1,否则标注为0。也可以利用训练的文字识别模型代替人工进行上述标注方式。本实施例中,标注正确度的操作方式如下:
将img_merge的高度归一化到h(h=32)。
对img_merge进行标注,标注值(记为label)为1(如果该图片对应的边界定位框中的文字被给定的文字识别器正确识别出来)或者0(如果边界定位框的文字没有被正确识别出来)。
一个合并的图片(img_merge)和相应的标注形成一个训练样本。
重复上述操作,可以得到所需的一定数量的训练样本的集合。
将标注完的质量检查器深度学习模型的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练;
将文档影像中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查,所述质量检查器深度学习模型输出对文档影像中检测到的各文字字段的正确度的判决结果。
进一步的,在所述训练用于识别文字的文字检测器深度学习模型中,还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注,关键字段的类别信息如文字字段为金额字段、字符字段等;所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度;
在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中,结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度计算各文字字段的正确度,在计算正确度时,根据类别信息可以推断出相应字段内容的格式,比如得知某字段属于金额字段,则字段内容必须符合金额的格式。另外类别置信度也可以作为参考,如果类别置信度很低的话,最终正确度也会受到影响。
本实施例中对于一张输入文档进行文字检测输出结果质量检测和控制的流程如下:首先采用文字检测器深度学习模型定位出感兴趣的文本区域,输出文字字段的定位框的位置坐标以及文字字段的类别信息和类别置信度。对于任一检测出的文字字段,利用检测到的文字字段的定位框,生成相应的合并图片(img_merge)。使用训练好的质量检查器深度学习模型对合并图片进行处理,输出对合并图片对应的文本字段的定位正确度的预测。结合文字检测器对合并图片对应的文本字段的检测性能(文字字段的类别信息以及类别置信度)以及质量检查器输出的定位正确度,决定是否需要对检测结果添加额外的人工处理。其中文本类别可以预先推断识别内容的格式,类别置信度和定位正确度都可以作为判断是否需要人工处理的参考。比如得知某字段属于金额字段,则字段内容必须符合金额的格式;类别置信度和定位正确度可以分别设置不同的阈值。字段内容符合所属类型的格式,且类别置信度和定位正确度都高于阈值则认为不需要人工处理,否则需要人工处理。
本实施例不仅具备实施例三的有益效果,进一步的,提出了通过文字检测器深度学习模型检测到各文字字段的定位边界框位置、定位边界框内的影像以及字段的类别信息和类别置信度,提高文字识别的速度和准确率;通过质量检查器深度学习模型进行判决文字字段的正确度,结合文字字段的定位框提取局部特征,再通过文字字段的其它信息判决文字正确度,通用性强。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种文字检测输出结果质量检测和控制的方法,其特征在于,包括以下步骤:
获取目标文档影像数据;
对所述目标文档影像数据进行预处理,获取所述目标文档影像数据中各文字字段所处文本框的定位边界;
根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度;
预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
2.根据权利要求1所述的一种文字检测输出结果质量检测和控制的方法,其特征在于,在对所述目标文档影像数据进行预处理的步骤中,获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤:
建立用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,标注的信息包括:各关键文字字段在所述文档影像样本中的位置和字段的类别信息和类别置信度;其中所述关键文字字段在所述文档影像样本中的位置通过使用定位边界框进行标注;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
训练用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,使用定位边界框标注各关键文字字段在所述文档影像样本中的位置;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
将所述目标文档影像数据送入训练好的文字检测器深度学习模型进行识别,所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像。
3.根据权利要求2所述的一种文字检测输出结果质量检测和控制的方法,其特征在于,在所述根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤:
建立用于评估正确度的质量检查器深度学习模型;
利用训练好的文字检测器深度学习模型,检测出每个文档影像样本中的文字字段所在的位置,并输出检测到的各文字字段的定位边界框位置;
通过各文字字段的定位边界框位置,截取各文字字段定位边界框周边区域的影像作为质量检查器深度学习模型的训练样本;
对各所述质量检查器深度学习模型的训练样本进行正确度标注,根据文字字段定位边界框周边区域的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内,根据框选的正确程度标注所述质量检查器深度学习模型的训练样本中各文字字段的定位正确度;
将经标注完的供质量检查器深度学习模型训练使用的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练;
将所述目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查,所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果。
4.根据权利要求3所述的一种文字检测输出结果质量检测和控制的方法,其特征在于:
在所述训练用于识别文字的文字检测器深度学习模型中,还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注;所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度;
在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中,结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度评估各文字字段的正确度。
5.一种文字检测输出结果质量检测和控制的装置,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
获取目标文档影像数据;
对所述目标文档影像数据进行预处理,获取所述目标文档影像数据中各文字字段所处文本框的定位边界;
根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估所述目标文档影像数据中各所述文字字段的正确度;
预设用于判断是否需要人工干预的阈值,比对各所述文字字段的正确度和阈值;若文字字段的正确度小于阈值,则对该文字字段进行人工处理后再对该文字字段进行文字识别;若文字字段的正确度大于等于阈值,则直接对该文字字段进行文字识别。
6.根据权利要求5所述的一种文字检测输出结果质量检测和控制的装置,其特征在于,在对所述目标文档影像数据进行预处理的步骤中,获取所述文档影像数据中各文字字段所处文本框的定位边界的具体方法包括以下步骤:
建立用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,标注的信息包括:各关键文字字段在所述文档影像样本中的位置和字段的类别信息和类别置信度;其中所述关键文字字段在所述文档影像样本中的位置通过使用定位边界框进行标注;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
训练用于识别文字的文字检测器深度学习模型,收集用于训练的文档影像样本,对所述文档影像样本中的各关键文字字段进行标注,使用定位边界框标注各关键文字字段在所述文档影像样本中的位置;将标注完的文档影像样本送入所述文字检测器深度学习模型对所述文字检测器深度学习模型进行训练,经过更新迭代后,得到训练好的文字检测器深度学习模型;
将所述目标文档影像数据送入训练好的文字检测器深度学习模型进行识别,所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像。
7.根据权利要求6所述的一种文字检测输出结果质量检测和控制的装置,其特征在于,在所述根据各所述文字字段的定位边界,提取各所述文字字段对应的图像周边的局部特征,根据各所述文字字段对应的图像周边的局部特征评估文字识别技术识别到的各所述文字字段的正确度的步骤中具体包括以下步骤:
建立用于评估正确度的质量检查器深度学习模型;
利用训练好的文字检测器深度学习模型,检测出每个文档影像样本中的文字字段所在的位置,并输出检测到的各文字字段的定位边界框位置;
通过各文字字段的定位边界框位置,截取各文字字段定位边界框周边区域的影像作为质量检查器深度学习模型的训练样本;
对各所述质量检查器深度学习模型的训练样本进行正确度标注,根据文字字段定位边界框周边区域的影像判断文字字段对应的文本像素是否有效的被框选至所述定位边界框内,根据框选的正确程度标注所述质量检查器深度学习模型的训练样本中各文字字段的定位正确度;
将经标注完的供质量检查器深度学习模型训练使用的训练样本送入所述质量检查器深度学习模型对所述质量检查器深度学习模型进行训练;
将所述目标文档影像数据中检测到的各文字字段的定位边界框位置和定位边界框内的影像送入训练好的质量检查器深度学习模型进行检查,所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果。
8.根据权利要求7所述的一种文字检测输出结果质量检测和控制的装置,其特征在于:
在所述训练用于识别文字的文字检测器深度学习模型中,还对所述文档影像样本中的各关键文字字段的类别信息和类别置信度进行标注;所述文字检测器深度学习模型输出目标文档影像数据中检测到的各文字字段的定位边界框位置、定位边界框内的影像、类别信息和类别置信度;
在所述质量检查器深度学习模型输出对目标文档影像数据中检测到的各文字字段的定位正确度作为文字字段的正确度评估结果的步骤中,结合各所述文字字段的定位正确度、各所述文字字段的类别信息以及各文字字段的类别置信度评估各文字字段的正确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010713460.4A CN111914706B (zh) | 2020-07-22 | 2020-07-22 | 一种文字检测输出结果质量检测和控制的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010713460.4A CN111914706B (zh) | 2020-07-22 | 2020-07-22 | 一种文字检测输出结果质量检测和控制的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914706A true CN111914706A (zh) | 2020-11-10 |
CN111914706B CN111914706B (zh) | 2023-11-17 |
Family
ID=73281322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010713460.4A Active CN111914706B (zh) | 2020-07-22 | 2020-07-22 | 一种文字检测输出结果质量检测和控制的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914706B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287898A (zh) * | 2020-11-26 | 2021-01-29 | 深源恒际科技有限公司 | 一种图像的文本检测质量评价方法及系统 |
CN113743361A (zh) * | 2021-09-16 | 2021-12-03 | 上海深杳智能科技有限公司 | 基于图像目标检测的文档切割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075174A1 (en) * | 2012-11-19 | 2014-05-22 | Imds America Inc. | Method and system for the spotting of arbitrary words in handwritten documents |
CN105069452A (zh) * | 2015-08-07 | 2015-11-18 | 武汉理工大学 | 基于局部结构分析的直线移除方法 |
CN109800761A (zh) * | 2019-01-25 | 2019-05-24 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
-
2020
- 2020-07-22 CN CN202010713460.4A patent/CN111914706B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014075174A1 (en) * | 2012-11-19 | 2014-05-22 | Imds America Inc. | Method and system for the spotting of arbitrary words in handwritten documents |
CN105069452A (zh) * | 2015-08-07 | 2015-11-18 | 武汉理工大学 | 基于局部结构分析的直线移除方法 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109800761A (zh) * | 2019-01-25 | 2019-05-24 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
Non-Patent Citations (2)
Title |
---|
宁煜西;周铭;李广强;王宁;: "基于卷积神经网络的航班跟踪视频关键信息识别", 空军预警学院学报, no. 05 * |
王瑾;: "基于局部显著文字型区域的场景文本提取算法", 太原师范学院学报(自然科学版), no. 04 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287898A (zh) * | 2020-11-26 | 2021-01-29 | 深源恒际科技有限公司 | 一种图像的文本检测质量评价方法及系统 |
CN113743361A (zh) * | 2021-09-16 | 2021-12-03 | 上海深杳智能科技有限公司 | 基于图像目标检测的文档切割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111914706B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN109800761B (zh) | 基于深度学习模型创建纸质文档结构化数据的方法和终端 | |
CN109816118B (zh) | 一种基于深度学习模型的创建结构化文档的方法及终端 | |
CN108921163A (zh) | 一种基于深度学习的包装喷码检测方法 | |
CN109740515B (zh) | 一种评阅方法及装置 | |
CN112395996A (zh) | 财务票据ocr识别及影像处理方法、系统及可读存储介质 | |
CN110135225B (zh) | 样本标注方法及计算机存储介质 | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN111914706B (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN111652117B (zh) | 一种对多文档图像分割的方法及介质 | |
CN115147418B (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN111461133A (zh) | 快递面单品名识别方法、装置、设备及存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN110796145B (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN112784494B (zh) | 假阳性识别模型的训练方法、目标识别方法及装置 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN112215266A (zh) | 一种基于小样本学习的x光图像违禁物品检测方法 | |
CN116363655A (zh) | 一种财务票据识别方法及系统 | |
CN114663899A (zh) | 金融票据的处理方法、装置、设备及介质 | |
CN114495108A (zh) | 字符检测方法、装置、电子设备及可读介质 | |
CN112232288A (zh) | 一种基于深度学习的卫星图目标识别方法及系统 | |
CN111612045A (zh) | 一种获取目标检测数据集的通用方法 | |
Tao et al. | A hybrid approach to detection and recognition of dashboard information in real-time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |