CN108052937B - 基于弱监督的字符检测器训练方法、装置、系统及介质 - Google Patents
基于弱监督的字符检测器训练方法、装置、系统及介质 Download PDFInfo
- Publication number
- CN108052937B CN108052937B CN201711460633.0A CN201711460633A CN108052937B CN 108052937 B CN108052937 B CN 108052937B CN 201711460633 A CN201711460633 A CN 201711460633A CN 108052937 B CN108052937 B CN 108052937B
- Authority
- CN
- China
- Prior art keywords
- bounding box
- character
- processed
- fine
- thick
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Graphics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明提出一种基于弱监督的字符检测器训练方法、装置、文字检测系统及计算机可读存储介质,其中基于弱监督的字符检测器训练方法包括:输入待处理对象的粗粒度标注信息,粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;对粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒;根据粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒;根据粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注。本发明提供的实施例能够使文字字符检测器利用更多的文字检测数据集进行训练,使模型在字符级别的检测精度显著提高。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于弱监督的字符检测器训练方法、装置、文字检测系统及计算机可读存储介质。
背景技术
在OCR(Optical Character Recognition,光学字符识别)文字检测和识别领域中,由于单个字符级别标注方式(如字符位置的标注)所需花费的人力和物力非常巨大,所以现有的开源的一些真实场景数据集合倾向于标注整个词或者文本条的整体外包围轮廓和整词、整条的文本信息。这样的标注方式,一定程度上缓解了标注的难度和成本,但是也带来了一些负面的影响,如使得一些经典的基于字符级别的文字检测方法没法有效地在这些基于词、文本条标注的真实场景数据上进行训练和调整。从视觉的角度出发,无论语种如何变化,字符是文字的最基准单元。基于字符单元出发的文字检测方法,更容易构建通用场景下(包含水平、多方向、扭曲和透射等)的文字检测引擎。因此根据现有的标注数据集中基于词、文本条或行标注信息自动生成字符标注信息是目前需要解决的问题。
发明内容
本发明实施例提供一种基于弱监督的字符检测器训练方法、装置、文字检测系统及计算机可读存储介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种基于弱监督的字符检测器训练方法,包括:输入待处理对象的粗粒度标注信息,所述粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;对所述粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒;根据所述粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒;根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注。
结合第一方面,本发明在第一方面的第一种实施方式中,所述基于词、文本条和/或行的标注信息为词、文本条和/或行的整体外包围轮廓,所述整体外包围轮廓包括多边形或矩形框。
结合第一方面,本发明在第一方面的第二种实施方式中,对所述粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒,包括:将所述粗粒度标注信息的多边形进行N等分,其中,与所述多边形的长轴垂直的方向为分割线的方向,N为所述粗粒度标注信息中的字符个数,或者N为所述多边形长轴长度除以最短边长度的商的四舍五入式取整数值。
结合第一方面,本发明在第一方面的第三种实施方式中,根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,包括:判断第一条件和第二条件是否同时满足,所述第一条件为所述预测包围盒的置信度大于预设的置信度阈值,所述第二条件为所述粗包围盒和所述预测包围盒的交叠比大于预设的交叠比阈值;若所述第一条件和所述第二条件同时满足,则根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒;若所述第一条件不满足或所述第二条件不满足,则将所述粗包围盒赋值给所述精细包围盒。
结合第一方面的第二种实施方式,本发明在第一方面的第四实施方式中,根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒,包括:判断所述粗粒度标注信息的多边形长轴与横轴的夹角是否小于等于45°;若是则将所述粗包围盒的上下边界作为所述精细包围盒的上下边界,将所述预测包围盒的左右边界作为所述精细包围盒的左右边界;若否则将所述粗包围盒的上下边界作为所述精细包围盒的左右边界,将所述预测包围盒的左右边界作为所述精细包围盒的上下边界。
结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式、第一方面的第三种实施方式或第一方面的第四种实施方式,在根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒之后,还包括:根据所述精细包围盒计算所述神经网络模型的损失函数,通过误差反向传播算法更新所述神经网络模型的参数值。
第二方面,本发明实施例提供了一种基于弱监督的字符检测器训练装置,包括:输入模块,用于输入待处理对象的粗粒度标注信息,所述粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;字符粗定位模块,用于对所述粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒;字符检测器,用于根据所述粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒;字符调整模块,用于根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注。
结合第二方面,本发明在第二方面的第一种实施方式中,所述基于词、文本条和/或行的标注信息为词、文本条和/或行的整体外包围轮廓,所述整体外包围轮廓包括多边形或矩形框。
结合第二方面,本发明在第二方面的第二种实施方式中,所述字符粗定位模块还用于:将所述粗粒度标注信息的多边形进行N等分,其中,与所述多边形的长轴垂直的方向为分割线的方向,N为所述粗粒度标注信息中的字符个数,或者N为所述多边形长轴长度除以最短边长度的商的四舍五入式取整数值。
结合第二方面,本发明在第二方面的第三种实施方式中,所述字符调整模块还包括:判断子模块,用于判断第一条件和第二条件是否同时满足,所述第一条件为所述预测包围盒的置信度大于预设的置信度阈值,所述第二条件为所述粗包围盒和所述预测包围盒的交叠比大于预设的交叠比阈值;调整子模块,用于若所述第一条件和所述第二条件同时满足,则根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒;赋值子模块,用于若所述第一条件不满足或所述第二条件不满足,则将所述粗包围盒赋值给所述精细包围盒。
结合第二方面的第二种实施方式,本发明在第二方面的第四实施方式中,所述调整子模块还用于:判断所述粗粒度标注信息的多边形长轴与横轴的夹角是否小于等于45°;若是则将所述粗包围盒的上下边界作为所述精细包围盒的上下边界,将所述预测包围盒的左右边界作为所述精细包围盒的左右边界;若否则将所述粗包围盒的上下边界作为所述精细包围盒的左右边界,将所述预测包围盒的左右边界作为所述精细包围盒的上下边界。
结合第二方面、第二方面的第一种实施方式、第二方面的第二种实施方式、第二方面的第三种实施方式或第二方面的第四种实施方式,还包括参数更新模块,用于:根据所述精细包围盒计算所述神经网络模型的损失函数,通过误差反向传播算法更新所述神经网络模型的参数值。
在一个可能的设计中,基于弱监督的字符检测器训练装置的结构中包括处理器和存储器,所述存储器用于存储支持基于弱监督的字符检测器训练装置执行上述第一方面中基于弱监督的字符检测器训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
第三方面,本发明实施例提供了一种文字检测系统,所述文字检测系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述第一方面中任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:能够使文字字符检测器利用更多的文字检测数据集进行训练(尤其是在只有词、文本条级别标注的数据集上),使得模型在字符级别的检测精度上有着显著提高,能够让现有的OCR技术中文字信息挖掘精度能够有显著性的提升。
上述技术方案中的另一个技术方案具有如下优点或有益效果:在一些更加通用的文字场景下如扭曲、投射变化等情形的文本标注形式是以多边形来标注的,上述技术方案在这些文字场景下有很高的成功率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的基于弱监督的字符检测器训练方法的整体框架图;
图2为本发明提供的基于弱监督的字符检测器训练方法的一种优选实施例的训练流程图;
图3为本发明提供的基于弱监督的字符检测器训练方法的一种优选实施例的步骤流程图;
图4为本发明提供的基于弱监督的字符检测器训练方法的另一优选实施例的步骤流程图;
图5为本发明实施例的基于弱监督的字符检测器训练装置的整体框架图;
图6为本发明提供的基于弱监督的字符检测器训练装置的一种优选实施例的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例提供了一种基于弱监督的字符检测器训练方法。图1为本发明实施例的基于弱监督的字符检测器训练方法的整体框架图。如图1所示,本发明实施例的基于弱监督的字符检测器训练方法包括:步骤S110,输入待处理对象的粗粒度标注信息,所述粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;步骤S120,对所述粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒;步骤S130,根据所述粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒;步骤S140,根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注。
在OCR文字检测和识别领域中,通常需要用带有标注信息的样本去训练学习,如词条级别的标注信息可包括图片中的词条的位置、词条的文本信息等,其中词条的位置可以用整个词或者文本条的整体外包围轮廓来标注,例如将词条框在内部的矩形框或多边形框,通过对大量有标注信息的样本训练例进行学习,从而建立模型用于预测未见示例的标注。现有的开源的一些真实场景数据集合如ICDAR15【7】、COCO-Text【8】、Total-Text【9】等倾向于标注整个词或者文本条的整体外包围轮廓和整词、整条的文本信息。本发明实施例能够根据已有的标注整个词或者文本条的整体外包围轮廓和整词、整条的文本信息,生成字符级别的标注信息。将粗粒度标注信息的多边形分割得到的字符的粗包围盒,与通过神经网络模型获得的字符的预测包围盒进行匹配,根据设定的调整规则和方案,确定字符的精细包围盒,从而生成字符级别的标注信息。尤其是在只有词、文本条级别标注的数据集的应用场合,能够使文字字符检测器利用更多的文字检测数据集进行训练,使得模型在字符级别的检测精度上有着显著提高。
根据本发明基于弱监督的字符检测器训练方法的一种实施方式,所述基于词、文本条和/或行的标注信息为词、文本条和/或行的整体外包围轮廓,所述整体外包围轮廓包括多边形或矩形框。本发明实施例能够根据词、文本条和/或行的整体外包围轮廓,生成词、文本条和/或行中的每个字符的外围轮廓,即由词条级别的标注信息得到字符级的标注信息。
根据本发明基于弱监督的字符检测器训练方法的一种实施方式,图1中的步骤S120,对所述粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒,包括:将所述粗粒度标注信息的多边形进行N等分,其中,与所述多边形的长轴垂直的方向为分割线的方向,N为所述粗粒度标注信息中的字符个数,或者N为所述多边形长轴长度除以最短边长度的商的四舍五入式取整数值。
图2为本发明提供的基于弱监督的字符检测器训练方法的一种优选实施例的训练流程图。图2所示的基于词、文本条标注的字符检测器的训练流程说明如下:在某一次字符检测器训练启动的时候,输入带有词/文本条标注的图片;字符粗定位模块会跟进标注的内容生成粗糙的字符包围盒信息,即图2中的粗 字符包围盒,也称字符的粗包围盒;与此同时字符检测器在当次前向传播的时候也会产生一些预测的候选字符包围盒,即图2中的预测的字符包围盒,也称字符的预测包围盒;接着字符在线调整模块会根据字符的预测包围盒进行调整字符的粗包围盒,输出更加准确的、精细的字符包围盒,即图2中的精细字符包围盒,也称字符的精细包围盒,来当作当前训练的标签信息;通过损失函数的计算,将当次的标签的监督信息反向传递给字符检测器,使得字符检测器完成新一轮的参数更新(即学习)。
参见图1及图2,步骤S110输入待处理对象的粗粒度标注信息,即在图2 中带词、条级别标注的输入图片输入步骤,传统的字符检测装置训练的输入数据要求是要有准确的单字位置标注信息,而本发明实施例仅要求有词、文本条或行的标注信息即可,而且标注形态可以是任意形态的多边形即可,如图2所示为扭曲的多边形标注。
在步骤S110输入待处理对象的粗粒度标注信息之后,执行步骤120。即在图2中带词、条级别标注的输入图片输入后,进行字符粗定位处理,得到字符的粗包围盒,即图中的粗字符包围盒。根据给定的词或条级别标注的多边形,跟进多边形的长轴将多边形均匀划分成N等分。如果标注包含了文本,则N取值为标注的字符个数;如果标注没有包含文本,N取值为多边形长轴长度除以最短边的倍数。通过以上方法对输入的粗粒度标注信息的多边形进行分割,输出字符的粗包围盒,即图2中所示的粗字符包围盒。
在图1的实施例中,在步骤S110之后可并行执行步骤S120和步骤S130,也可采用串行方式先执行步骤S120再执行步骤S130,或先执行步骤S130再执行步骤S120。参见图1及图2,步骤S130,对应于图2中的字符检测器,实现字符位置和包围盒的预测,得到预测的字符包围盒,即字符的预测包围盒。这一步骤中神经网络模型可选的替代方式有Faster RCNN【10】(Regions with Convolutional Neural Network,基于区域的卷积神经网络),SSD【11】(Single Shot MultiBox Detector),DenseBox【12】,R-FCN【13】(Region-based FullyConvolutional Network,基于区域的全卷积网络)等通用物体检测深度卷积网络框架。
图3为本发明提供的基于弱监督的字符检测器训练方法的一种优选实施例的步骤流程图。如图1-图3所示,根据本发明基于弱监督的字符检测器训练方法的一种实施方式,步骤S140根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,具体包括:步骤S210,判断第一条件和第二条件是否同时满足,所述第一条件为所述预测包围盒的置信度大于预设的置信度阈值,所述第二条件为所述粗包围盒和所述预测包围盒的交叠比大于预设的交叠比阈值;步骤S220,若所述第一条件和所述第二条件同时满足,则根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒;步骤S230,若所述第一条件不满足或所述第二条件不满足,则将所述粗包围盒赋值给所述精细包围盒。
再参见图2,得到粗字符包围盒和预测的字符包围盒后,进行字符在线调整,根据字符检测器当前的预测结果去调整粗字符包围盒标签,根据设定的调整规则和方案,能够输出较为精细的、准确的字符包围盒,即精细包围盒,用来当作检测器的学习标签。
图4为本发明提供的基于弱监督的字符检测器训练方法的另一优选实施例的步骤流程图。如图4所示,步骤S220根据本发明基于弱监督的字符检测器训练方法的一种实施方式,根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒,具体包括:步骤S310,判断所述粗粒度标注信息的多边形长轴与横轴的夹角是否小于等于45°;步骤S320,若是则将所述粗包围盒的上下边界作为所述精细包围盒的上下边界,将所述预测包围盒的左右边界作为所述精细包围盒的左右边界;步骤S330,若否则将所述粗包围盒的上下边界作为所述精细包围盒的左右边界,将所述预测包围盒的左右边界作为所述精细包围盒的上下边界。
参见图4及图2,字符在线调整步骤,即根据所述预测包围盒调整所述粗包围盒,是以粗字符包围盒为基准,辅助以预测的字符包围盒信息进行调整基准字符包围盒来生成最后的精细字符包围盒,粗字符包围盒用Bc表示,预测的字符包围盒用Bp表示,精细字符包围盒用Bf表示。调整规则和方案详细说明如下:
(1)通过字符粗定位得到若干粗字符包围盒,当前字符检测器的一次前向传播得到若干预测的字符包围盒;
(2)给定一个粗字符包围盒Bc,在预测的字符包围盒集合里找到相互匹配的预测的字符包围盒Bp,两者相互匹配需要满足如下两个条件:
S(Bp)>T1 (1)
IoU(Bc,Bp)>T2 (2)
其中S(Bp)表示预测的字符包围盒的置信度,IoU(Bc,Bp)表示预测的字符包围盒Bp和粗字符包围盒Bc的交叠比,T1和T2的值可根据实验中得出的经验值而确定;
(3)如果在步骤(2)中找到和粗字符包围盒Bc相互匹配的预测的字符包围盒 Bp,那么将根据预测的字符包围盒信息去调整Bc从而生成精细字符包围盒Bf, 调整规则如下:如果Bc所在的词、文本条标注主轴(即长轴)的倾向于水平方向,即主轴与横轴的夹角小于等于45°,那么Bf的上下边界等于Bc的上下边界, Bf的左右边界等于Bp的左右边界;反之,如果Bc所在的词、文本条标注主轴的倾向于竖直方向,那么Bf的左右边界等于Bc的上下边界,Bf的上下边界等于Bp的左右边界。词、文本条级别的标注的最短边,往往是比较紧凑贴合文本条的,所以这样的设计也能最大化标注信息的价值;且通常情况下字符粗定位得到的粗字符包围盒的上下边界定位的准确率比较高,而通过字符检测器得到的预测的字符包围盒的左右边界定位的准确率比较高,上述方法选取最优化的数据生成精细字符包围盒的边界,并且通过以上调整方法,使本发明实施例的应用场景不局限于条标注框呈直线分布的情形,在一些更加通用的文字场景下如扭曲、投射变化等情形,其文本标注形式是以多边形来标注的,本发明实施例在这种应用场合的成功率很高。
(4)如果在步骤(2)中没有找到和粗字符包围盒Bc相互匹配上的预测字符包围盒,那么我们直接将Bc赋值给Bf。
如上述,本发明实施例不仅适用于文本标注形式呈直线分布的情形,同样适用于本标注形式是以多边形来标注的情形。在现有技术中,OCR文字检测方法可以分为四大类:基于联通组件方法、基于字符的检测方法、基于词的检测方法、和基于文本条的检测方法。其中基于字符检测的方法有两大类,强监督字符检测器学习方法和弱监督字符检测器学习方法。强监督的方法除了在基于字符标注的数据的少量数据集合,还需配合大量的合成的有字符标注的虚拟数据集上进行充分训练。而基于弱监督的方法可以在基于词、条级别标注上训练字符检测器,但是他们的方法设计有着较强的前提假设是这些词、条标注框需要尽可能呈直线分布的。
相比于其他三类的文字检测方法,字符是有语义的基本单元,更有明确的结构定义能够提供丰富的位置、大小、阅读方向等信息,而其他三种方法是没法提供的。基于字符出发的文字检测引擎是视觉上最为直接的检测框架。但现有技术存在以下技术缺欠:基于强监督学习的字符检测器需要大量的字符级别标注信息所需的人力和物力成本较大,虽然辅助以大量合成的虚拟数据,但依旧不能有效的拟合真实的场景数据;现有的弱监督学习方式方法设计过分依赖于词、文本条是呈现接近直线的标注形态,而在一些更加通用的文字场景下如扭曲、投射变化等情形的文本标注形式是以多边形来标注的,如Total-Text数据集合,这些方法很大程度上会失败。本发明实施例克服了以上现有技术的缺陷,提高了字符识别的准确率。
根据本发明基于弱监督的字符检测器训练方法的一种实施方式,在根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒之后,还包括:根据所述精细包围盒计算所述神经网络模型的损失函数,通过误差反向传播算法更新所述神经网络模型的参数值。
误差反向传播算法也称为BP(Backpropagation algorithm)算法。误差反向传播算法主要由两个环节(激励传播、权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。每次迭代中的传播环节包含两步:1.(前向传播阶段)将训练输入送入网络以获得激励响应; 2.(反向传播阶段)将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
参见图2,在确定精细字符包围盒之后,用调整后得到的精细字符包围盒信息Bf去监督学习当前字符检测器的参数更新。具体地,利用在线调整后得到的精细字符包围盒当作检测器学习的标签,来指导模型学习的损失函数的计算,通过梯度反传机制来更新字符检测器的参数,以达到模型学习的目的。其中,损失函数(loss function)也叫代价函数(cost function),是神经网络优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数值小了,对应预测的结果和真实结果的值就越接近。
另一方面,本发明实施例又提供了一种基于弱监督的字符检测器训练装置。图5为本发明实施例的基于弱监督的字符检测器训练装置的整体框架图。如图 5所示,本发明实施例的基于弱监督的字符检测器训练装置包括:输入模块100,用于输入待处理对象的粗粒度标注信息,所述粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;字符粗定位模块200,用于对所述粗粒度标注信息的多边形进行分割,获得所述待处理对象的字符的粗包围盒;字符检测器300,用于根据所述粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒;字符调整模块400,用于根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注。
根据本发明基于弱监督的字符检测器训练装置的一种实施方式,所述基于词、文本条和/或行的标注信息为词、文本条和/或行的整体外包围轮廓,所述整体外包围轮廓包括多边形或矩形框。
参见图1-图5,输入模块100用于输入带有词/文本条标注的图片,字符粗定位模块200会跟进标注的内容生成粗糙的字符包围盒信息,获得所述待处理对象的字符的粗包围盒;与此同时字符检测器300在当次前向传播的时候也会产生一些预测的候选字符包围盒,即字符的预测包围盒,字符检测器可使用通用物体检测深度卷积网络框架实现字符位置和包围盒的预测;接着字符调整模块400会根据预测的字符包围盒进行调整粗字符包围盒,输出更加准确的、精细的字符包围盒,即字符的精细包围盒,来当作当前训练的标签信息。
根据本发明基于弱监督的字符检测器训练装置的一种实施方式,所述字符粗定位模块200还用于:将所述粗粒度标注信息的多边形进行N等分,其中,与所述多边形的长轴垂直的方向为分割线的方向,N为所述粗粒度标注信息中的字符个数,或者N为所述多边形长轴长度除以最短边长度的商的四舍五入式取整数值。
图6为本发明提供的基于弱监督的字符检测器训练装置的一种优选实施例的结构示意图。如图6所示,根据本发明基于弱监督的字符检测器训练装置的一种实施方式,所述字符调整模块400还包括:判断子模块410,用于判断第一条件和第二条件是否同时满足,所述第一条件为所述预测包围盒的置信度大于预设的置信度阈值,所述第二条件为所述粗包围盒和所述预测包围盒的交叠比大于预设的交叠比阈值;调整子模块420,用于若所述第一条件和所述第二条件同时满足,则根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒;赋值子模块430,用于若所述第一条件不满足或所述第二条件不满足,则将所述粗包围盒赋值给所述精细包围盒。其中,根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒,其调整规则和方案的详细说明可参考基于弱监督的字符检测器训练方法的实施例的描述。
根据本发明基于弱监督的字符检测器训练装置的一种实施方式,所述调整子模块420还用于:判断所述粗粒度标注信息的多边形长轴与横轴的夹角是否小于等于45°;若是则将所述粗包围盒的上下边界作为所述精细包围盒的上下边界,将所述预测包围盒的左右边界作为所述精细包围盒的左右边界;若否则将所述粗包围盒的上下边界作为所述精细包围盒的左右边界,将所述预测包围盒的左右边界作为所述精细包围盒的上下边界。
根据本发明基于弱监督的字符检测器训练装置的一种实施方式,还包括参数更新模块500,用于:根据所述精细包围盒计算所述神经网络模型的损失函数,通过误差反向传播算法更新所述神经网络模型的参数值。利用在线调整后得到的精细字符包围盒当作检测器学习的标签,来指导模型学习的损失函数的计算,通过梯度反传机制来更新字符检测器的参数,以达到模型学习的目的。
在一个可能的设计中,基于弱监督的字符检测器训练装置的结构中包括处理器和存储器,所述存储器用于存储支持基于弱监督的字符检测器训练装置执行上述基于弱监督的字符检测器训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明实施例还提供了一种文字检测系统,所述文字检测系统包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一所述的方法。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明提供的实施例能够使文字字符检测器利用更多的文字检测数据集进行训练(尤其是在只有词、文本条级别标注的数据集上),使得模型在字符级别的检测精度上有着显著提高,能够让现有的OCR技术中文字信息挖掘精度能够有显著性的提升。
上述技术方案中的另一个技术方案具有如下优点或有益效果:在一些更加通用的文字场景下如扭曲、投射变化等情形的文本标注形式是以多边形来标注的,上述技术方案在这些文字场景下有很高的成功率。
本发明的实施例,能够根据已有的基于词、文本条的整体标注,生成字符级别的标注信息,从而大大缓解了各文字相关联的业务场景下对于文字标注的人力和财力付出(从需要字符级别的精准标注转变只需要为基于词、文本条的整体标注),能够让现有的OCR技术在多个实际业务(包含自然街景、广告、票据、视频、菜单等场景下)的文字图片中文字信息挖掘精度能够有显著性的提升,有利于为计算机端和移动端带来更多的流量,为广大用户带来更好的产品体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统) 使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。其中装置实施方式与方法的实施方式相对应,因此装置的实施方式描述比较简略,相关描述可参照方法的实施方式的描述即可。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (14)
1.一种基于弱监督的字符检测器训练方法,其特征在于,包括:
输入待处理对象的粗粒度标注信息,所述粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;
对所述粗粒度标注信息的整体外包围轮廓沿所述待处理对象的字符的排列方向进行等分分割以获得所述待处理对象的字符的粗包围盒,其中,所述粗包围盒包括上下边界和左右边界;
根据所述粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒,其中,所述预测包围盒包括上下边界和左右边界;
根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注,其中,所述精细包围盒包括上下边界和左右边界。
2.根据权利要求1所述的方法,其特征在于,所述基于词、文本条和/或行的标注信息为词、文本条和/或行的整体外包围轮廓,所述整体外包围轮廓包括矩形框。
3.根据权利要求1所述的方法,其特征在于,对所述粗粒度标注信息的整体外包围轮廓沿所述待处理对象的字符的排列方向进行等分分割以获得所述待处理对象的字符的粗包围盒,包括:
将所述粗粒度标注信息的整体外包围轮廓进行N等分,其中,与文字方向垂直的方向为分割线的方向,所述文字方向是所述待处理对象的字符的排列方向,N为所述粗粒度标注信息中的字符个数,或者N为所述整体外包围轮廓最长边长度除以最短边长度的商的四舍五入式取整数值。
4.根据权利要求1所述的方法,其特征在于,根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,包括:
判断第一条件和第二条件是否同时满足,所述第一条件为所述预测包围盒的置信度大于预设的置信度阈值,所述第二条件为所述粗包围盒和所述预测包围盒的交叠比大于预设的交叠比阈值;
若所述第一条件和所述第二条件同时满足,则根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒;
若所述第一条件不满足或所述第二条件不满足,则将所述粗包围盒赋值给所述精细包围盒。
5.根据权利要求4所述的方法,其特征在于,根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒,包括:
判断所述粗粒度标注信息的文字方向所在直线与水平轴的夹角是否小于等于45°,所述文字方向是所述待处理对象的字符的排列方向;
若是则将所述粗包围盒的上下边界作为所述精细包围盒的上下边界,将所述预测包围盒的左右边界作为所述精细包围盒的左右边界;
若否则将所述粗包围盒的上下边界作为所述精细包围盒的左右边界,将所述预测包围盒的左右边界作为所述精细包围盒的上下边界。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒之后,还包括:
根据所述精细包围盒计算所述神经网络模型的损失函数,通过误差反向传播算法更新所述神经网络模型的参数值。
7.一种基于弱监督的字符检测器训练装置,其特征在于,包括:
输入模块,用于输入待处理对象的粗粒度标注信息,所述粗粒度标注信息包括待处理对象的基于词、文本条和/或行的标注信息;
字符粗定位模块,用于对所述粗粒度标注信息的整体外包围轮廓沿所述待处理对象的字符的排列方向进行等分分割以获得所述待处理对象的字符的粗包围盒,其中,所述粗包围盒包括上下边界和左右边界;
字符检测器,用于根据所述粗粒度标注信息,通过神经网络模型获得所述待处理对象的字符的预测包围盒,其中,所述预测包围盒包括上下边界和左右边界;
字符调整模块,用于根据所述粗包围盒和所述预测包围盒确定所述待处理对象的字符的精细包围盒,将所述精细包围盒的标注信息作为所述待处理对象的字符标注,其中,所述精细包围盒包括上下边界和左右边界。
8.根据权利要求7所述的装置,其特征在于,所述基于词、文本条和/或行的标注信息为词、文本条和/或行的整体外包围轮廓,所述整体外包围轮廓包括矩形框。
9.根据权利要求7所述的装置,其特征在于,所述字符粗定位模块还用于:
将所述粗粒度标注信息的整体外包围轮廓进行N等分,其中,与文字方向垂直的方向为分割线的方向,所述文字方向是所述待处理对象的字符的排列方向,N为所述粗粒度标注信息中的字符个数,或者N为所述整体外包围轮廓最长边长度除以最短边长度的商的四舍五入式取整数值。
10.根据权利要求7所述的装置,其特征在于,所述字符调整模块还包括:
判断子模块,用于判断第一条件和第二条件是否同时满足,所述第一条件为所述预测包围盒的置信度大于预设的置信度阈值,所述第二条件为所述粗包围盒和所述预测包围盒的交叠比大于预设的交叠比阈值;
调整子模块,用于若所述第一条件和所述第二条件同时满足,则根据所述预测包围盒调整所述粗包围盒,生成所述精细包围盒;
赋值子模块,用于若所述第一条件不满足或所述第二条件不满足,则将所述粗包围盒赋值给所述精细包围盒。
11.根据权利要求10所述的装置,其特征在于,所述调整子模块还用于:
判断所述粗粒度标注信息的文字方向所在直线与水平轴的夹角是否小于等于45°,所述文字方向是所述待处理对象的字符的排列方向;
若是则将所述粗包围盒的上下边界作为所述精细包围盒的上下边界,将所述预测包围盒的左右边界作为所述精细包围盒的左右边界;
若否则将所述粗包围盒的上下边界作为所述精细包围盒的左右边界,将所述预测包围盒的左右边界作为所述精细包围盒的上下边界。
12.根据权利要求7-11中任一项所述的装置,其特征在于,还包括参数更新模块,用于:根据所述精细包围盒计算所述神经网络模型的损失函数,通过误差反向传播算法更新所述神经网络模型的参数值。
13.一种文字检测系统,其特征在于,所述文字检测系统包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法,并根据该方法训练基于弱监督的字符检测器以进行文字检测。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711460633.0A CN108052937B (zh) | 2017-12-28 | 2017-12-28 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
US16/110,835 US10643066B2 (en) | 2017-12-28 | 2018-08-23 | Method and apparatus for training a character detector based on weak supervision, system and medium |
US16/853,818 US10963693B2 (en) | 2017-12-28 | 2020-04-21 | Method and apparatus for training a character detector based on weak supervision, system and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711460633.0A CN108052937B (zh) | 2017-12-28 | 2017-12-28 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108052937A CN108052937A (zh) | 2018-05-18 |
CN108052937B true CN108052937B (zh) | 2019-05-31 |
Family
ID=62128721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711460633.0A Active CN108052937B (zh) | 2017-12-28 | 2017-12-28 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
Country Status (2)
Country | Link |
---|---|
US (2) | US10643066B2 (zh) |
CN (1) | CN108052937B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555433B (zh) * | 2018-05-30 | 2024-04-26 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN109145918B (zh) * | 2018-08-17 | 2021-09-10 | 上海非夕机器人科技有限公司 | 图像分割标注方法及设备 |
CN109299274B (zh) * | 2018-11-07 | 2021-12-17 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN111325209B (zh) * | 2018-12-14 | 2024-06-07 | 顺丰科技有限公司 | 一种车牌识别方法和系统 |
US10803594B2 (en) * | 2018-12-31 | 2020-10-13 | Beijing Didi Infinity Technology And Development Co., Ltd. | Method and system of annotation densification for semantic segmentation |
CN111489283B (zh) * | 2019-01-25 | 2023-08-11 | 鸿富锦精密工业(武汉)有限公司 | 图片格式转换方法、装置及计算机存储介质 |
EP3690704B1 (en) * | 2019-01-29 | 2021-02-24 | Accenture Global Solutions Limited | Distributed and self-validating dense object detection in digital images |
US10616443B1 (en) * | 2019-02-11 | 2020-04-07 | Open Text Sa Ulc | On-device artificial intelligence systems and methods for document auto-rotation |
CN109934227A (zh) * | 2019-03-12 | 2019-06-25 | 上海兑观信息科技技术有限公司 | 图像文字识别系统和方法 |
US11087448B2 (en) * | 2019-05-30 | 2021-08-10 | Kyocera Document Solutions Inc. | Apparatus, method, and non-transitory recording medium for a document fold determination based on the change point block detection |
CN110674807A (zh) * | 2019-08-06 | 2020-01-10 | 中国科学院信息工程研究所 | 一种基于半监督与弱监督学习的曲形场景文字检测方法 |
CN110503105A (zh) * | 2019-09-02 | 2019-11-26 | 苏州美能华智能科技有限公司 | 字符识别方法、训练数据获取方法、装置和介质 |
US10990876B1 (en) | 2019-10-08 | 2021-04-27 | UiPath, Inc. | Detecting user interface elements in robotic process automation using convolutional neural networks |
CN110968695A (zh) * | 2019-11-18 | 2020-04-07 | 罗彤 | 基于弱监督技术主动学习的智能标注方法、装置及平台 |
US11157783B2 (en) | 2019-12-02 | 2021-10-26 | UiPath, Inc. | Training optical character detection and recognition models for robotic process automation |
CN110956147B (zh) * | 2019-12-05 | 2022-09-30 | 京东科技控股股份有限公司 | 生成训练数据的方法及装置 |
CN111488873B (zh) * | 2020-04-03 | 2023-10-24 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
US11170551B1 (en) | 2020-05-01 | 2021-11-09 | Adobe Inc. | Motion retargeting with kinematic constraints |
US11270438B2 (en) * | 2020-06-12 | 2022-03-08 | Samasource Impact Sourcing, Inc. | System and method for triggering machine learning (ML) annotation model retraining |
CN111932547B (zh) * | 2020-09-24 | 2021-06-11 | 平安科技(深圳)有限公司 | 图像中目标物的分割方法、装置、电子设备及存储介质 |
CN112418207B (zh) * | 2020-11-23 | 2024-03-19 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN113064679B (zh) * | 2020-12-06 | 2021-12-31 | 曲建波 | 用户设定字符尺寸自适应匹配系统 |
CN112861917B (zh) * | 2021-01-14 | 2021-12-28 | 西北工业大学 | 基于图像属性学习的弱监督目标检测方法 |
CN112560451B (zh) * | 2021-02-20 | 2021-05-14 | 京华信息科技股份有限公司 | 一种自动生成训练数据的错别字校对方法及装置 |
US20230316792A1 (en) * | 2022-03-11 | 2023-10-05 | Oracle International Corporation | Automated generation of training data comprising document images and associated label data |
CN114898375A (zh) * | 2022-05-20 | 2022-08-12 | 深信服科技股份有限公司 | 字符检测模型训练方法及组件,文本识别方法及组件 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8023741B2 (en) * | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting numerals in a digital image |
US8755595B1 (en) * | 2011-07-19 | 2014-06-17 | Google Inc. | Automatic extraction of character ground truth data from images |
US20150055866A1 (en) * | 2012-05-25 | 2015-02-26 | Mark Joseph Cummins | Optical character recognition by iterative re-segmentation of text images using high-level cues |
CN103679208A (zh) | 2013-11-27 | 2014-03-26 | 北京中科模识科技有限公司 | 基于广电字幕识别的训练数据自动生成和深度学习方法 |
US9378435B1 (en) * | 2014-06-10 | 2016-06-28 | David Prulhiere | Image segmentation in optical character recognition using neural networks |
CN105608456B (zh) * | 2015-12-22 | 2017-07-18 | 华中科技大学 | 一种基于全卷积网络的多方向文本检测方法 |
CN106407981B (zh) | 2016-11-24 | 2019-04-23 | 北京文安智能技术股份有限公司 | 一种车牌识别方法、装置及系统 |
CN106845530B (zh) * | 2016-12-30 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 字符检测方法和装置 |
-
2017
- 2017-12-28 CN CN201711460633.0A patent/CN108052937B/zh active Active
-
2018
- 2018-08-23 US US16/110,835 patent/US10643066B2/en active Active
-
2020
- 2020-04-21 US US16/853,818 patent/US10963693B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108052937A (zh) | 2018-05-18 |
US20200250416A1 (en) | 2020-08-06 |
US20190205638A1 (en) | 2019-07-04 |
US10963693B2 (en) | 2021-03-30 |
US10643066B2 (en) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052937B (zh) | 基于弱监督的字符检测器训练方法、装置、系统及介质 | |
AU2017204297B2 (en) | Visual similarity based font replacement for desktop and web applications | |
CN110728541B (zh) | 信息流媒体广告创意推荐方法及装置 | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN109446430A (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN112818159A (zh) | 一种基于生成对抗网络的图像描述文本生成方法 | |
CN107437100A (zh) | 一种基于跨模态关联学习的图像位置预测方法 | |
US11861925B2 (en) | Methods and systems of field detection in a document | |
CN111063410A (zh) | 一种医学影像文本报告的生成方法及装置 | |
US11347995B2 (en) | Neural architecture search with weight sharing | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN114610773A (zh) | 基于大数据的数据应用场景识别方法及云计算服务器 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN108595506A (zh) | 需求匹配方法及装置、存储介质、终端 | |
CN108763556A (zh) | 基于需求词的用户挖掘方法及装置 | |
CN112507209B (zh) | 一种基于陆地移动距离进行知识蒸馏的序列推荐方法 | |
WO2022142574A1 (zh) | 流量预测模型的训练方法、装置和电子设备 | |
CN116415170A (zh) | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 | |
CN103324641A (zh) | 信息记录推荐方法和装置 | |
Xu et al. | The research of a novel WOG-YOLO algorithm for autonomous driving object detection | |
CN112380861B (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
Nguyen et al. | Explaining how deep neural networks forget by deep visualization | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 | |
Wei et al. | Learning and exploiting interclass visual correlations for medical image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |