CN112288039B - 一种用于ocr模型训练的样本标注方法及系统 - Google Patents

一种用于ocr模型训练的样本标注方法及系统 Download PDF

Info

Publication number
CN112288039B
CN112288039B CN202011355381.7A CN202011355381A CN112288039B CN 112288039 B CN112288039 B CN 112288039B CN 202011355381 A CN202011355381 A CN 202011355381A CN 112288039 B CN112288039 B CN 112288039B
Authority
CN
China
Prior art keywords
samples
detection
sample
classification
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011355381.7A
Other languages
English (en)
Other versions
CN112288039A (zh
Inventor
宛侠
夏光子
黄贤俊
侯进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhi Hengji Technology Co ltd
Original Assignee
Shenyuan Hengji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyuan Hengji Technology Co ltd filed Critical Shenyuan Hengji Technology Co ltd
Priority to CN202011355381.7A priority Critical patent/CN112288039B/zh
Publication of CN112288039A publication Critical patent/CN112288039A/zh
Application granted granted Critical
Publication of CN112288039B publication Critical patent/CN112288039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Abstract

本发明公开了一种用于OCR模型训练的样本标注方法及系统,包括:获取原始样本;从原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;基于标题模型对原始样本进行预处理,得到不同标题的分类样本;从分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;基于初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;从初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;基于再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;利用识别模型对再版检测分类样本预处理出文本识别样本。

Description

一种用于OCR模型训练的样本标注方法及系统
技术领域
本发明涉及样本标注技术领域,具体涉及一种用于OCR模型训练的样本标注方法及系统。
背景技术
OCR模型是图片识别为文本的常用识别模型,OCR模型的识别精度取决于训练样本的数量以及每个样本的标注质量。
现有的OCR模型的训练需要人工对整张票据或其他图片样本的文本以“行”为单位进行“画框”及“打字”,如图1所示;同时,需进行大量样本的“画框”及“打字”。
现有的标注生产方法通常耗时较长、所需人力较多;标注员对票据等样本的标注存在非常多的重复性的工作,时间过长难免出现视觉上的疲劳从而导致产出样本质量的下降,质检周期较长,整体标注成本过高。
发明内容
针对现有技术中存在的上述问题,本发明提供一种用于OCR模型训练的样本标注方法及系统,其提高了标注的数据质量以及标注效率。
本发明公开了一种用于OCR模型训练的样本标注方法,包括:
获取原始样本;
从所述原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
基于所述标题模型对所述原始样本进行预处理,得到不同标题的分类样本;
从每个标题的分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;
基于所述初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;
从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
基于所述再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;
当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本预处理出文本识别样本。
作为本发明的进一步改进,在利用所述标题模型对所述原始数据进行预处理后,还包括:
对每个标题的分类数据进行清洗质检处理,得到模板统一的分类数据。
作为本发明的进一步改进,还包括:
判断所述再版检测分类样本的检测框是否在标准检测框的范围内;
若在范围内,则所述再版检测分类样本的检测框满足要求;
若不在范围内,则所述再版检测分类样本的检测框不满足要求。
作为本发明的进一步改进,当所述再版检测分类样本的检测框不满足要求,则增大从分类样本或初版检测分类样本中选出的部分样本的数量,并进行训练。
作为本发明的进一步改进,从原始样本、分类样本或初版检测分类样本中选出的部分样本的数量占样本总量的1%~5%。
作为本发明的进一步改进,还包括:
对满足要求的再版检测分类样本的检测框进行检测框质检调整;
调整后,利用识别模型对再版检测分类样本预处理出文本识别样本。
作为本发明的进一步改进,所述检测框质检调整的方法,包括:
调整一列文本的检测框;
与该列文本平齐的一列或多列文本,采用与调节后检测框对齐的方式调整检测框。
作为本发明的进一步改进,所述利用识别模型对再版检测分类样本预处理出文本识别样本,包括:
利用识别模型预处理再版检测分类样本;
从处理后的再版检测分类样本中选出部分样本进行“打字”标注,得到文本识别样本。
作为本发明的进一步改进,还包括:
整理药品名称存入医保库;
标注人员进行打字时,工具会自动从医保局中关联相似或类似药品名称。
本发明还公开了一种实现上述样本标注方法的系统,包括:
采集模块,用于获取原始样本;
第一训练模块,用于从所述原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
第一处理模块,用于基于所述标题模型对所述原始样本进行预处理,得到不同标题的分类样本;
第二训练模块,用于从每个标题的分类样本中选出部分样本,进行样本中所有文本的“画框”,并训练得到初版检测模型;
第二处理模块,用于基于所述初版检测模型对该标题的分类样本进行预处理,得到带有检测框的初版检测分类样本;
第三训练模块,用于从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
第三处理模块,用于基于所述再版检测模型对该标题的分类样本进行预处理,得到带有检测框的再版检测分类样本;
识别模块,用于当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本预处理出文本识别样本。
与现有技术相比,本发明的有益效果为:
本发明的标注方法及系统可节约标注人力成本,节省标注生产周期,提升标注数据质量,使数据生产流程清晰,实现数据与算法更大程度的融合。
附图说明
图1为现有对整张票据的标注的示意图;
图2为本发明一种实施例公开的样本标注方法的流程图;
图3为本发明一种实施例公开的样本标注系统的框架图;
图4~图6为不同省(市)的票据差异图;
图7~图9为实施例1的票据示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
本发明的目的为:一个OCR模型的检测及识别效果通常需要大量的样本作为基础,如何更好的保证标注后的数据质量以及提升标注过程中的效率,减少更多的人力成本,最终实现数据质量的统一和安全管理。
为此,如图1所示,本发明提供一种用于OCR模型训练的样本标注方法,包括:
步骤1、获取大量的原始样本;
其中,该样本可为票据等,获取的原始样本数量为可数万张;
步骤2、从原始样本中选出部分样本,进行标题区域的“画框”和“打字”,并训练得到标题模型;
其中,本发明通过训练标题模型可方便对原始样本进行分类,选出的部分样本的数量优选为样本总数的1%~5%;
例如,不同省(市)的医院报销票据不同,但同省(市)的医院报销票据多为一致;因此,可按照地域将将大量的票据进行分类,方便后期针对同一省(市)医院报销票据的统一处理。
步骤3、基于标题模型对原始样本进行预处理,得到不同标题的分类样本;
其中,由于同一省(市)的医院报销票据也可能存在模板的不一致,因此,在利用标题模型对原始样本进行预处理,实现按标题的自动分类后;还包括通过人工对每个标题的分类数据进行清洗质检处理,得到同一省(市)的模板统一的票据。
步骤4、从每个标题的分类样本中选出部分样本,进行样本中所有文本的人工“画框”,并训练得到初版检测模型;
其中,本发明选出的部分样本的数量优选为样本总数的1%~5%,降低人工处理量;
步骤5、基于初版检测模型对该标题的所有分类样本进行预处理,得到带有检测框的初版检测分类样本;
其中,上述步骤4、5处理方法中通过选用少量的部分样本来训练出初版检测模型,基于初版检测模型自动处理出带有检测框的初版检测分类样本,降低人工处理量;
步骤6、从所有初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
其中,本发明选出的部分样本的数量优选为样本总数的1%~5%,降低人工处理量;
检测框质检调整的方法,包括:调整一列文本的检测框;与该列文本平齐的一列或多列文本,采用与调节后检测框对齐的方式调整检测框。
步骤7、基于再版检测模型对该标题的所有分类样本进行再处理,得到带有检测框的再版检测分类样本;
其中,上述步骤6、7处理方法中通过选用少量的部分样本进行人工调整检测框,并进一步来训练出再版检测模型,基于再版检测模型自动处理出带有检测框的再版检测分类样本,降低人工处理量;
步骤8、判断,再版检测分类样本的检测框是否在标准检测框的范围内;其中,上述判断可为人工判断或通过程序自动判断,可设定标准检测框,若再版检测分类样本的检测框在标准检测框的范围内内,则,再版检测分类样本的检测框满足要求;若不在范围内,则,再版检测分类样本的检测框不满足要求;
步骤9、当再版检测分类样本的检测框满足要求时,进行检测框质检调整,利用识别模型对再版检测分类样本预处理出文本识别样本;
当,再版检测分类样本的检测框不满足要求,则增大从分类样本或初版检测分类样本中选出的部分样本的数量,并进行训练。
进一步,,利用识别模型对再版检测分类样本预处理出文本识别样本,包括:利用识别模型预处理再版检测分类样本;从处理后的再版检测分类样本中选出部分样本进行“打字”标注,得到文本识别样本。
进一步,还包括:整理药品名称存入医保库;标注人员进行打字时,工具会自动从医保局中关联相似或类似药品名称。
如图3所示,本发明提供一种实现上述样本标注方法的系统,包括:
采集模块,用于实现上述步骤1;
第一训练模块,用于实现上述步骤2;
第一处理模块,用于实现上述步骤3;
第二训练模块,用于实现上述步骤4;
第二处理模块,用于实现上述步骤5;
第三训练模块,用于实现上述步骤6;
第三处理模块,用于实现上述步骤7;
判断模块,用于实现上述步骤8;
识别模块,用于实现上述步骤9。
实施例1:
S1、如图4~6所示的不同省市的票据,不难发现各省(市)票据之间的样式虽然存在较大的差异,但是单省的样式基本一致,发票“标题”带有各省(市)地域名称;因而为了达到样本数据分布的均匀性,可先通过训练标题识别模型,来筛选样本。
具体的:从大初始票据中任意选出一部分票据后只做“标题”区域的“画框”及“打字”,从而获得“标题模型”的训练数据,并训练得到标题模型,为下一步的样本“分类”做好准备。
S2、基于标题模型对全国各省(市)庞大的数据源做自动化的“分类”,按票据中的地域名称选择出备选样本。
S3、备选样本的选出后,进行人工清洗质检后完成“准确分类数据”;确保每个文件内的样本都来自同一个省(市),也确保各省(市)内的票据“模板”样式的统一(本环节可单独保存)。
S4、先指定一个整张票据检测所需要的数据总量,例如算法工程师现在需要总量为2万张样本的数据,因此可以先把备选数据随机分为两份,取其中500左右张(第一份)样本做人工的全字段检测标注,(此时可以先不打字),如图7所示。
S5、500张的检测样本完成后可以先交付算法,等待一个“初版”的检测模型;随后用“初版”检测模型对余下样本进行一个“预标注”处理,如图8所示;在图8中,“初版”预处理的检测票据通常检测框效果还不理想,会存在“漏框”、“重框”、“压框”等问题。
S6、“预处理”的样本不直接投入到人工标注环节中,本发明将样本先分为两份作为备选数据,再取其中500张(预标注)样本进行人工检测框的修正;
其中,通过对样本的观察,、发现标注样本中其实存在较多的“重复”及“相似”处,例如图8方框所示:第一框与第三框内的文本列在“距离”与“内容”上存在较多相似处,假如只是“调整”那只需要人工修正一列当中的一个“矩形框”采取“对齐”的方法即可完成本列中距离相同的文本框的调整,这个方法类似表格中的“对齐”功能,可以较大的节约人力不用重复“画框”,质量标准也得到较大统一。
S7、第二次人工参与标注的500张样本的检测框经过调整后,可继续交付给算法用作训练,等待新版本模型的再去预测剩余样本;这样迭代过程的同时可以清晰的观察出样本中哪类区域存在问题较多,可以根据每一次样本的预处理结果配合算法合理有效的添加标注数据,这样循环多次后最终完成2万张检测标注样本的产出。
S8、对已完成的检测样本中的文字做识别标注,这里主要为“打字”,检测框的精准通常会直接影响到后面模型“识别”的效果,这一环节可以预先准备一个初版“识别模型”作为打字标注的辅助,来处理已经已完成的检测样本。
S9、经过“识别模型”预处理后的样本同样不用马上进入打字环节,这里需把样本分成若干份来备用,只需要取出其中一部分做人工打字即可,打字环节通常在标注生产中非常容易出现问题,根据样本中的错误覆盖范围得到一些总结,如图9所示;
门诊票据票面结构通常可以分为两个区域:一个是“印刷体”、一个是“打印体”;相同两个区域内的门诊样本除打印体外的印刷体基本可以保证样板的统一,而打印体通常是人为所致,尤其是上图红框内的“细目”区域,由于增加了许多非常见“字符”、“字母”及“医学术语”所以内容较为复杂,标注生产中也较容易出现错误;在分析各家医院的打印体信息的时,发现虽然打印体内容较复杂,但是门诊票据中的“药品名称”基本可以做到各省(市)之间的统一;所以事先整理了大量的药品名称来作为医保库使用,当标注人员进行打字时,工具会自动关联相似或类似药品名称,从而减少录入的错误,提高标注的质量。
本发明的优点为:
本发明的标注方法及系统可节约标注人力成本,节省标注生产周期,提升标注数据质量,使数据生产流程清晰,实现数据与算法更大程度的融合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于OCR模型训练的样本标注方法,其特征在于,包括:
获取原始样本;
从所述原始样本中选出部分样本,进行标题区域的画框和“打字”,并训练得到标题模型;
基于所述标题模型对所述原始样本进行分类处理,得到不同标题的分类样本;
从每个标题的分类样本中选出部分样本,进行样本中所有文本的画框,并训练得到初版检测模型;
基于所述初版检测模型对该标题的分类样本进行预标注处理,得到带有检测框的初版检测分类样本;
从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
基于所述再版检测模型对该标题的剩余分类样本进行再标注处理,得到带有检测框的再版检测分类样本;
当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本处理出文本识别样本。
2.如权利要求1所述的样本标注方法,其特征在于,在利用所述标题模型对所述原始样本进行分类处理后,还包括:
对每个标题的分类样本进行清洗质检处理,得到模板统一的分类数据。
3.如权利要求1所述的样本标注方法,其特征在于,还包括:
判断所述再版检测分类样本的检测框是否在标准检测框的范围内;
若在范围内,则所述再版检测分类样本的检测框满足要求;
若不在范围内,则所述再版检测分类样本的检测框不满足要求。
4.如权利要求1或3所述的样本标注方法,其特征在于,当所述再版检测分类样本的检测框不满足要求,则增大从分类样本或初版检测分类样本中选出的部分样本的数量,并进行训练。
5.如权利要求4所述的样本标注方法,其特征在于,从原始样本、分类样本或初版检测分类样本中选出的部分样本的数量占样本总量的1%~5%。
6.如权利要求1所述的样本标注方法,其特征在于,还包括:
对满足要求的再版检测分类样本的检测框进行检测框质检调整;
调整后,利用识别模型对再版检测分类样本处理出文本识别样本。
7.如权利要求1或6所述的样本标注方法,其特征在于,所述检测框质检调整的方法,包括:
调整一列文本的检测框;
与该列文本平齐的一列或多列文本,采用与调节后检测框对齐的方式调整检测框。
8.如权利要求1或6所述的样本标注方法,其特征在于,所述利用识别模型对再版检测分类样本处理出文本识别样本,包括:
利用识别模型处理再版检测分类样本;
从处理后的再版检测分类样本中选出部分样本进行“打字”标注,得到文本识别样本。
9.如权利要求8所述的样本标注方法,其特征在于,所述从处理后的再版检测分类样本中选出部分样本进行“打字”标注,包括:
整理药品名称存入医保库;
标注人员进行打字时,工具会自动从医保局中关联相似或类似药品名称。
10.一种实现如权利要求1~9中任一项所述的样本标注方法的系统,其特征在于,包括:
采集模块,用于获取原始样本;
第一训练模块,用于从所述原始样本中选出部分样本,进行标题区域的画框和“打字”,并训练得到标题模型;
第一处理模块,用于基于所述标题模型对所述原始样本进行分类处理,得到不同标题的分类样本;
第二训练模块,用于从每个标题的分类样本中选出部分样本,进行样本中所有文本的画框,并训练得到初版检测模型;
第二处理模块,用于基于所述初版检测模型对该标题的分类样本进行预标注处理,得到带有检测框的初版检测分类样本;
第三训练模块,用于从所述初版检测分类样本中选出部分样本,进行检测框质检调整,并训练得到再版检测模型;
第三处理模块,用于基于所述再版检测模型对该标题的剩余分类样本进行再标注处理,得到带有检测框的再版检测分类样本;
识别模块,用于当所述再版检测分类样本的检测框满足要求后,利用识别模型对再版检测分类样本处理出文本识别样本。
CN202011355381.7A 2020-11-26 2020-11-26 一种用于ocr模型训练的样本标注方法及系统 Active CN112288039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011355381.7A CN112288039B (zh) 2020-11-26 2020-11-26 一种用于ocr模型训练的样本标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011355381.7A CN112288039B (zh) 2020-11-26 2020-11-26 一种用于ocr模型训练的样本标注方法及系统

Publications (2)

Publication Number Publication Date
CN112288039A CN112288039A (zh) 2021-01-29
CN112288039B true CN112288039B (zh) 2024-01-23

Family

ID=74425537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011355381.7A Active CN112288039B (zh) 2020-11-26 2020-11-26 一种用于ocr模型训练的样本标注方法及系统

Country Status (1)

Country Link
CN (1) CN112288039B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9412361B1 (en) * 2014-09-30 2016-08-09 Amazon Technologies, Inc. Configuring system operation using image data
CN108573279A (zh) * 2018-03-19 2018-09-25 精锐视觉智能科技(深圳)有限公司 图像标注方法及终端设备
CN108629319A (zh) * 2018-05-09 2018-10-09 北京嘀嘀无限科技发展有限公司 图像检测方法及系统
CN108985214A (zh) * 2018-07-09 2018-12-11 上海斐讯数据通信技术有限公司 图像数据的标注方法和装置
CN109545192A (zh) * 2018-12-18 2019-03-29 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110910427A (zh) * 2019-12-04 2020-03-24 数据堂(北京)智能科技有限公司 一种交互式视频数据标注方法及装置
CN111177387A (zh) * 2019-12-25 2020-05-19 深圳壹账通智能科技有限公司 用户名单信息处理方法、电子装置及计算机可读存储介质
CN111461133A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9412361B1 (en) * 2014-09-30 2016-08-09 Amazon Technologies, Inc. Configuring system operation using image data
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108573279A (zh) * 2018-03-19 2018-09-25 精锐视觉智能科技(深圳)有限公司 图像标注方法及终端设备
CN108629319A (zh) * 2018-05-09 2018-10-09 北京嘀嘀无限科技发展有限公司 图像检测方法及系统
CN108985214A (zh) * 2018-07-09 2018-12-11 上海斐讯数据通信技术有限公司 图像数据的标注方法和装置
CN109545192A (zh) * 2018-12-18 2019-03-29 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN110910427A (zh) * 2019-12-04 2020-03-24 数据堂(北京)智能科技有限公司 一种交互式视频数据标注方法及装置
CN111177387A (zh) * 2019-12-25 2020-05-19 深圳壹账通智能科技有限公司 用户名单信息处理方法、电子装置及计算机可读存储介质
CN111461133A (zh) * 2020-04-20 2020-07-28 上海东普信息科技有限公司 快递面单品名识别方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CORD: a consolidated receipt dataset for post-OCR parsing;Seunghyun Park等;《33rd Conference on Neural Information Processing Systems (NeurIPS 2019)》;1-4 *
Improving state-of-the-art OCR through high-precision document-specific modeling;Andrew Kae等;《2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition》;1935-1942 *
古籍文档图像智能标注系统的设计与实现;黄伟国;《中国优秀硕士学位论文全文数据库_信息科技辑》;I138-2019 *
基于深度学习的室内目标检测的方法研究;姚晓宇;《中国优秀硕士学位论文全文数据库_信息科技辑》;I138-242 *
票据结构化识别方法研究;潘妍;《中国优秀硕士学位论文全文数据库_信息科技辑》;I138-627 *

Also Published As

Publication number Publication date
CN112288039A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN110807328B (zh) 面向法律文书多策略融合的命名实体识别方法及系统
WO2018000269A1 (zh) 一种基于数据挖掘和众包的数据标注方法及系统
CN110472524B (zh) 基于深度学习的发票信息管理方法、系统和可读介质
US8201085B2 (en) Method and system for validating references
CN106339806A (zh) 一种面向企业信息的行业全息画像构建方法及系统
CN104835098A (zh) 一种病历电子数据识别方法及系统
CN109933796A (zh) 一种公告文本关键信息提取方法及设备
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN112883692A (zh) 一种ppt数据报告的自动生成方法
CN110045981A (zh) 一种基于源码比对分析技术建立需求追踪关系的方法
CN111401007A (zh) 一种非结构化数据向结构化数据的转换方法
CN112288039B (zh) 一种用于ocr模型训练的样本标注方法及系统
CN110188856A (zh) 一种环境质量监测采样标签的自动生成方法及系统
CN112085357B (zh) 一种出让地块规划条件冲突要点识别与处理的系统与方法
CN110162684B (zh) 基于深度学习的机器阅读理解数据集构建以及评估方法
Sannier et al. Legal markup generation in the large: an experience report
CN112397170A (zh) 一种电子病历生成方法及装置
CN111709464A (zh) 基于数据字典配置和印章图像识别技术的系统及筛选方法
CN103020037A (zh) 一种公文标准化校验系统
CN112836494B (zh) 一种法律文书智能监督校验方法及系统
CN113935296A (zh) 一种使用滑动模板技术进行纸质银行流水信息提取的方法
CN103678353B (zh) 用于稿件中的职务信息的检查方法和装置
Fitsilis et al. Content Reconstruction of Parliamentary Questions: Combining Metadata with an OCR Process
CN112463728A (zh) 一种科技文献的题录数据提取方法
Christie Automated Essay Marking for Content~ does it work?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 204, 2nd Floor, Building 4, No. 44 North Third Ring Middle Road, Haidian District, Beijing, 100085

Patentee after: Beijing Shenzhi Hengji Technology Co.,Ltd.

Country or region after: China

Address before: 100085 Room 203, 2 / F, building 6, Xisanqi East Road, Qinghe, Haidian District, Beijing

Patentee before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD.

Country or region before: China