CN112288039A - 一种用于ocr模型训练的样本标注方法及系统 - Google Patents
一种用于ocr模型训练的样本标注方法及系统 Download PDFInfo
- Publication number
- CN112288039A CN112288039A CN202011355381.7A CN202011355381A CN112288039A CN 112288039 A CN112288039 A CN 112288039A CN 202011355381 A CN202011355381 A CN 202011355381A CN 112288039 A CN112288039 A CN 112288039A
- Authority
- CN
- China
- Prior art keywords
- detection
- samples
- sample
- model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 45
- 238000002372 labelling Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 165
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 238000007689 inspection Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 15
- 239000003814 drug Substances 0.000 claims description 12
- 229940079593 drug Drugs 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012372 quality testing Methods 0.000 claims description 2
- 238000003908 quality control method Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种用于OCR模型训练的样本标注方法及系统,包括:获取原始样本;从原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;基于标题模型对原始样本进行预处理,得到不同标题的分类样本;从分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;基于初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;从初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;基于再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;利用识别模型对再版检测分类样本预处理出文本识别样本。
Description
技术领域
本发明涉及样本标注技术领域,具体涉及一种用于OCR模型训练的样本标注方法及系统。
背景技术
OCR模型是图片识别为文本的常用识别模型,OCR模型的识别精度取决于训练样本的数量以及每个样本的标注质量。
现有的OCR模型的训练需要人工对整张票据或其他图片样本的文本以“行”为单位进行“画框”及“打字”,如图1所示;同时,需进行大量样本的“画框”及“打字”。
现有的标注生产方法通常耗时较长、所需人力较多;标注员对票据等样本的标注存在非常多的重复性的工作,时间过长难免出现视觉上的疲劳从而导致产出样本质量的下降,质检周期较长,整体标注成本过高。
发明内容
针对现有技术中存在的上述问题,本发明提供一种用于OCR模型训练的样本标注方法及系统,其提高了标注的数据质量以及标注效率。
本发明公开了一种用于OCR模型训练的样本标注方法,包括:
获取原始样本;
从所述原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
基于所述标题模型对所述原始样本进行预处理,得到不同标题的分类样本;
从每个标题的分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;
基于所述初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;
从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
基于所述再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;
当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本预处理出文本识别样本。
作为本发明的进一步改进,在利用所述标题模型对所述原始数据进行预处理后,还包括:
对每个标题的分类数据进行清洗质检处理,得到模板统一的分类数据。
作为本发明的进一步改进,还包括:
判断所述再版检测分类样本的检测框是否在标准检测框的范围内;
若在范围内,则所述再版检测分类样本的检测框满足要求;
若不在范围内,则所述再版检测分类样本的检测框不满足要求。
作为本发明的进一步改进,当所述再版检测分类样本的检测框不满足要求,则增大从分类样本或初版检测分类样本中选出的部分样本的数量,并进行训练。
作为本发明的进一步改进,从原始样本、分类样本或初版检测分类样本中选出的部分样本的数量占样本总量的1%~5%。
作为本发明的进一步改进,还包括:
对满足要求的再版检测分类样本的检测框进行检测框质检调整;
调整后,利用识别模型对再版检测分类样本预处理出文本识别样本。
作为本发明的进一步改进,所述检测框质检调整的方法,包括:
调整一列文本的检测框;
与该列文本平齐的一列或多列文本,采用与调节后检测框对齐的方式调整检测框。
作为本发明的进一步改进,所述利用识别模型对再版检测分类样本预处理出文本识别样本,包括:
利用识别模型预处理再版检测分类样本;
从处理后的再版检测分类样本中选出部分样本进行“打字”标注,得到文本识别样本。
作为本发明的进一步改进,还包括:
整理药品名称存入医保库;
标注人员进行打字时,工具会自动从医保局中关联相似或类似药品名称。
本发明还公开了一种实现上述样本标注方法的系统,包括:
采集模块,用于获取原始样本;
第一训练模块,用于从所述原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
第一处理模块,用于基于所述标题模型对所述原始样本进行预处理,得到不同标题的分类样本;
第二训练模块,用于从每个标题的分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;
第二处理模块,用于基于所述初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;
第三训练模块,用于从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
第三处理模块,用于基于所述再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;
识别模块,用于当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本预处理出文本识别样本。
与现有技术相比,本发明的有益效果为:
本发明的标注方法及系统可节约标注人力成本,节省标注生产周期,提升标注数据质量,使数据生产流程清晰,实现数据与算法更大程度的融合。
附图说明
图1为现有对整张票据的标注的示意图;
图2为本发明一种实施例公开的样本标注方法的流程图;
图3为本发明一种实施例公开的样本标注系统的框架图;
图4~图6为不同省(市)的票据差异图;
图7~图9为实施例1的票据示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
本发明的目的为:一个OCR模型的检测及识别效果通常需要大量的样本作为基础,如何更好的保证标注后的数据质量以及提升标注过程中的效率,减少更多的人力成本,最终实现数据质量的统一和安全管理。
为此,如图1所示,本发明提供一种用于OCR模型训练的样本标注方法,包括:
步骤1、获取大量的原始样本;
其中,该样本可为票据等,获取的原始样本数量为可数万张;
步骤2、从原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
其中,本发明通过训练标题模型可方便对原始样本进行分类,选出的部分样本的数量优选为样本总数的1%~5%;
例如,不同省(市)的医院报销票据不同,但同省(市)的医院报销票据多为一致;因此,可按照地域将将大量的票据进行分类,方便后期针对同一省(市)医院报销票据的统一处理。
步骤3、基于标题模型对原始样本进行预处理,得到不同标题的分类样本;
其中,由于同一省(市)的医院报销票据也可能存在模板的不一致,因此,在利用标题模型对原始样本进行预处理,实现按标题的自动分类后;还包括通过人工对每个标题的分类数据进行清洗质检处理,得到同一省(市)的模板统一的票据。
步骤4、从每个标题的分类样本中选出部分样本,进行样本中所有文本的人工“画框”,并训练得到初版检测模型;
其中,本发明选出的部分样本的数量优选为样本总数的1%~5%,降低人工处理量;
步骤5、基于初版检测模型对该标题的所有分类样本进行预处理,得到带有检测框的初版检测分类样本;
其中,上述步骤4、5处理方法中通过选用少量的部分样本来训练出初版检测模型,基于初版检测模型自动处理出带有检测框的初版检测分类样本,降低人工处理量;
步骤6、从所有初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
其中,本发明选出的部分样本的数量优选为样本总数的1%~5%,降低人工处理量;
检测框质检调整的方法,包括:调整一列文本的检测框;与该列文本平齐的一列或多列文本,采用与调节后检测框对齐的方式调整检测框。
步骤7、基于再版检测模型对该标题的所有分类样本进行再处理,得到带有检测框的再版检测分类样本;
其中,上述步骤6、7处理方法中通过选用少量的部分样本进行人工调整检测框,并进一步来训练出再版检测模型,基于再版检测模型自动处理出带有检测框的再版检测分类样本,降低人工处理量;
步骤8、判断,再版检测分类样本的检测框是否在标准检测框的范围内;其中,上述判断可为人工判断或通过程序自动判断,可设定标准检测框,若再版检测分类样本的检测框在标准检测框的范围内内,则,再版检测分类样本的检测框满足要求;若不在范围内,则,再版检测分类样本的检测框不满足要求;
步骤9、当再版检测分类样本的检测框满足要求时,进行检测框质检调整,利用识别模型对再版检测分类样本预处理出文本识别样本;
当,再版检测分类样本的检测框不满足要求,则增大从分类样本或初版检测分类样本中选出的部分样本的数量,并进行训练。
进一步,,利用识别模型对再版检测分类样本预处理出文本识别样本,包括:利用识别模型预处理再版检测分类样本;从处理后的再版检测分类样本中选出部分样本进行“打字”标注,得到文本识别样本。
进一步,还包括:整理药品名称存入医保库;标注人员进行打字时,工具会自动从医保局中关联相似或类似药品名称。
如图3所示,本发明提供一种实现上述样本标注方法的系统,包括:
采集模块,用于实现上述步骤1;
第一训练模块,用于实现上述步骤2;
第一处理模块,用于实现上述步骤3;
第二训练模块,用于实现上述步骤4;
第二处理模块,用于实现上述步骤5;
第三训练模块,用于实现上述步骤6;
第三处理模块,用于实现上述步骤7;
判断模块,用于实现上述步骤8;
识别模块,用于实现上述步骤9。
实施例1:
S1、如图4~6所示的不同省市的票据,不难发现各省(市)票据之间的样式虽然存在较大的差异,但是单省的样式基本一致,发票“标题”带有各省(市)地域名称;因而为了达到样本数据分布的均匀性,可先通过训练标题识别模型,来筛选样本。
具体的:从大初始票据中任意选出一部分票据后只做“标题”区域的“画框”及“打字”,从而获得“标题模型”的训练数据,并训练得到标题模型,为下一步的样本“分类”做好准备。
S2、基于标题模型对全国各省(市)庞大的数据源做自动化的“分类”,按票据中的地域名称选择出备选样本。
S3、备选样本的选出后,进行人工清洗质检后完成“准确分类数据”;确保每个文件内的样本都来自同一个省(市),也确保各省(市)内的票据“模板”样式的统一(本环节可单独保存)。
S4、先指定一个整张票据检测所需要的数据总量,例如算法工程师现在需要总量为2万张样本的数据,因此可以先把备选数据随机分为两份,取其中500左右张(第一份)样本做人工的全字段检测标注,(此时可以先不打字),如图7所示。
S5、500张的检测样本完成后可以先交付算法,等待一个“初版”的检测模型;随后用“初版”检测模型对余下样本进行一个“预标注”处理,如图8所示;在图8中,“初版”预处理的检测票据通常检测框效果还不理想,会存在“漏框”、“重框”、“压框”等问题。
S6、“预处理”的样本不直接投入到人工标注环节中,本发明将样本先分为两份作为备选数据,再取其中500张(预标注)样本进行人工检测框的修正;
其中,通过对样本的观察,、发现标注样本中其实存在较多的“重复”及“相似”处,例如图8方框所示:第一框与第三框内的文本列在“距离”与“内容”上存在较多相似处,假如只是“调整”那只需要人工修正一列当中的一个“矩形框”采取“对齐”的方法即可完成本列中距离相同的文本框的调整,这个方法类似表格中的“对齐”功能,可以较大的节约人力不用重复“画框”,质量标准也得到较大统一。
S7、第二次人工参与标注的500张样本的检测框经过调整后,可继续交付给算法用作训练,等待新版本模型的再去预测剩余样本;这样迭代过程的同时可以清晰的观察出样本中哪类区域存在问题较多,可以根据每一次样本的预处理结果配合算法合理有效的添加标注数据,这样循环多次后最终完成2万张检测标注样本的产出。
S8、对已完成的检测样本中的文字做识别标注,这里主要为“打字”,检测框的精准通常会直接影响到后面模型“识别”的效果,这一环节可以预先准备一个初版“识别模型”作为打字标注的辅助,来处理已经已完成的检测样本。
S9、经过“识别模型”预处理后的样本同样不用马上进入打字环节,这里需把样本分成若干份来备用,只需要取出其中一部分做人工打字即可,打字环节通常在标注生产中非常容易出现问题,根据样本中的错误覆盖范围得到一些总结,如图9所示;
门诊票据票面结构通常可以分为两个区域:一个是“印刷体”、一个是“打印体”;相同两个区域内的门诊样本除打印体外的印刷体基本可以保证样板的统一,而打印体通常是人为所致,尤其是上图红框内的“细目”区域,由于增加了许多非常见“字符”、“字母”及“医学术语”所以内容较为复杂,标注生产中也较容易出现错误;在分析各家医院的打印体信息的时,发现虽然打印体内容较复杂,但是门诊票据中的“药品名称”基本可以做到各省(市)之间的统一;所以事先整理了大量的药品名称来作为医保库使用,当标注人员进行打字时,工具会自动关联相似或类似药品名称,从而减少录入的错误,提高标注的质量。
本发明的优点为:
本发明的标注方法及系统可节约标注人力成本,节省标注生产周期,提升标注数据质量,使数据生产流程清晰,实现数据与算法更大程度的融合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于OCR模型训练的样本标注方法,其特征在于,包括:
获取原始样本;
从所述原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
基于所述标题模型对所述原始样本进行预处理,得到不同标题的分类样本;
从每个标题的分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;
基于所述初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;
从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
基于所述再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;
当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本预处理出文本识别样本。
2.如权利要求1所述的样本标注方法,其特征在于,在利用所述标题模型对所述原始数据进行预处理后,还包括:
对每个标题的分类数据进行清洗质检处理,得到模板统一的分类数据。
3.如权利要求1所述的样本标注方法,其特征在于,还包括:
判断所述再版检测分类样本的检测框是否在标准检测框的范围内;
若在范围内,则所述再版检测分类样本的检测框满足要求;
若不在范围内,则所述再版检测分类样本的检测框不满足要求。
4.如权利要求1或3所述的样本标注方法,其特征在于,当所述再版检测分类样本的检测框不满足要求,则增大从分类样本或初版检测分类样本中选出的部分样本的数量,并进行训练。
5.如权利要求4所述的样本标注方法,其特征在于,从原始样本、分类样本或初版检测分类样本中选出的部分样本的数量占样本总量的1%~5%。
6.如权利要求1所述的样本标注方法,其特征在于,还包括:
对满足要求的再版检测分类样本的检测框进行检测框质检调整;
调整后,利用识别模型对再版检测分类样本预处理出文本识别样本。
7.如权利要求1或6所述的样本标注方法,其特征在于,所述检测框质检调整的方法,包括:
调整一列文本的检测框;
与该列文本平齐的一列或多列文本,采用与调节后检测框对齐的方式调整检测框。
8.如权利要求1或6所述的样本标注方法,其特征在于,所述利用识别模型对再版检测分类样本预处理出文本识别样本,包括:
利用识别模型预处理再版检测分类样本;
从处理后的再版检测分类样本中选出部分样本进行“打字”标注,得到文本识别样本。
9.如权利要求8所述的样本标注方法,其特征在于,还包括:
整理药品名称存入医保库;
标注人员进行打字时,工具会自动从医保局中关联相似或类似药品名称。
10.一种实现如权利要求1~9中任一项所述的样本标注方法的系统,其特征在于,包括:
采集模块,用于获取原始样本;
第一训练模块,用于从所述原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
第一处理模块,用于基于所述标题模型对所述原始样本进行预处理,得到不同标题的分类样本;
第二训练模块,用于从每个标题的分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;
第二处理模块,用于基于所述初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;
第三训练模块,用于从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
第三处理模块,用于基于所述再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;
识别模块,用于当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本预处理出文本识别样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355381.7A CN112288039B (zh) | 2020-11-26 | 2020-11-26 | 一种用于ocr模型训练的样本标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355381.7A CN112288039B (zh) | 2020-11-26 | 2020-11-26 | 一种用于ocr模型训练的样本标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112288039A true CN112288039A (zh) | 2021-01-29 |
CN112288039B CN112288039B (zh) | 2024-01-23 |
Family
ID=74425537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011355381.7A Active CN112288039B (zh) | 2020-11-26 | 2020-11-26 | 一种用于ocr模型训练的样本标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112288039B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9412361B1 (en) * | 2014-09-30 | 2016-08-09 | Amazon Technologies, Inc. | Configuring system operation using image data |
CN108573279A (zh) * | 2018-03-19 | 2018-09-25 | 精锐视觉智能科技(深圳)有限公司 | 图像标注方法及终端设备 |
CN108629319A (zh) * | 2018-05-09 | 2018-10-09 | 北京嘀嘀无限科技发展有限公司 | 图像检测方法及系统 |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN109545192A (zh) * | 2018-12-18 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110910427A (zh) * | 2019-12-04 | 2020-03-24 | 数据堂(北京)智能科技有限公司 | 一种交互式视频数据标注方法及装置 |
CN111177387A (zh) * | 2019-12-25 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用户名单信息处理方法、电子装置及计算机可读存储介质 |
CN111461133A (zh) * | 2020-04-20 | 2020-07-28 | 上海东普信息科技有限公司 | 快递面单品名识别方法、装置、设备及存储介质 |
-
2020
- 2020-11-26 CN CN202011355381.7A patent/CN112288039B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9412361B1 (en) * | 2014-09-30 | 2016-08-09 | Amazon Technologies, Inc. | Configuring system operation using image data |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108573279A (zh) * | 2018-03-19 | 2018-09-25 | 精锐视觉智能科技(深圳)有限公司 | 图像标注方法及终端设备 |
CN108629319A (zh) * | 2018-05-09 | 2018-10-09 | 北京嘀嘀无限科技发展有限公司 | 图像检测方法及系统 |
CN108985214A (zh) * | 2018-07-09 | 2018-12-11 | 上海斐讯数据通信技术有限公司 | 图像数据的标注方法和装置 |
CN109545192A (zh) * | 2018-12-18 | 2019-03-29 | 百度在线网络技术(北京)有限公司 | 用于生成模型的方法和装置 |
CN110910427A (zh) * | 2019-12-04 | 2020-03-24 | 数据堂(北京)智能科技有限公司 | 一种交互式视频数据标注方法及装置 |
CN111177387A (zh) * | 2019-12-25 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用户名单信息处理方法、电子装置及计算机可读存储介质 |
CN111461133A (zh) * | 2020-04-20 | 2020-07-28 | 上海东普信息科技有限公司 | 快递面单品名识别方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
ANDREW KAE等: "Improving state-of-the-art OCR through high-precision document-specific modeling", 《2010 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 1935 - 1942 * |
SEUNGHYUN PARK等: "CORD: a consolidated receipt dataset for post-OCR parsing", 《33RD CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2019)》, pages 1 - 4 * |
姚晓宇: "基于深度学习的室内目标检测的方法研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》, pages 138 - 242 * |
潘妍: "票据结构化识别方法研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》, pages 138 - 627 * |
黄伟国: "古籍文档图像智能标注系统的设计与实现", 《中国优秀硕士学位论文全文数据库_信息科技辑》, pages 138 - 2019 * |
Also Published As
Publication number | Publication date |
---|---|
CN112288039B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472524B (zh) | 基于深度学习的发票信息管理方法、系统和可读介质 | |
EP1665132B1 (de) | Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten | |
CN110322379A (zh) | 试卷处理方法和试卷处理系统 | |
CN110929580A (zh) | 一种基于ocr的财务报表信息快速提取方法及系统 | |
CN101334814A (zh) | 一种自动化的扫描阅卷系统及阅卷方法 | |
CN111797729A (zh) | 一种化验报告单自动识别方法 | |
CN109684957A (zh) | 一种自动按照纸质表单展现系统数据的方法及系统 | |
CN106845467B (zh) | 基于光学字符识别技术的航空维修工卡工作内容识别方法 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN109146740A (zh) | 一种基于智能阅卷的动态答题卷模板系统 | |
CN112102443A (zh) | 一种适用于变电站设备巡检图像的标注系统及标注方法 | |
CN103399848A (zh) | 发动机试验数据标准化特定格式导入处理方法 | |
CN115761772A (zh) | 一种医疗化验单的结构化识别方法、系统及存储介质 | |
CN110110622B (zh) | 一种基于图像处理的医疗文本检测方法、系统和存储介质 | |
CN110188856A (zh) | 一种环境质量监测采样标签的自动生成方法及系统 | |
CN112288039A (zh) | 一种用于ocr模型训练的样本标注方法及系统 | |
US20090106641A1 (en) | System and method for tracking the fulfillment status of requirements for completing an objective | |
CN100543726C (zh) | 一种校对的方法和系统 | |
CN116385027A (zh) | 一种机械手表数字化生产防伪溯源装置及方法 | |
CN114332903B (zh) | 一种基于端到端神经网络的琵琶乐谱识别方法及系统 | |
CN115587098A (zh) | 一种智能识别图表数据的方法及系统 | |
CN112732209B (zh) | 一种快速批量打印及辅助分拣系统 | |
CN114742026A (zh) | 一种基于模板技术生成富文本形式的pdf方法 | |
CN113935296A (zh) | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 | |
CN113191141A (zh) | 问诊正则表达式生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 204, 2nd Floor, Building 4, No. 44 North Third Ring Middle Road, Haidian District, Beijing, 100085 Patentee after: Beijing Shenzhi Hengji Technology Co.,Ltd. Country or region after: China Address before: 100085 Room 203, 2 / F, building 6, Xisanqi East Road, Qinghe, Haidian District, Beijing Patentee before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |