CN111882004A - 模型训练方法、判题方法及装置、设备、存储介质 - Google Patents
模型训练方法、判题方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN111882004A CN111882004A CN202011036869.3A CN202011036869A CN111882004A CN 111882004 A CN111882004 A CN 111882004A CN 202011036869 A CN202011036869 A CN 202011036869A CN 111882004 A CN111882004 A CN 111882004A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- image
- training
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/60—Rotation of a whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Abstract
本申请提出一种模型训练方法、判题方法及装置、设备、存储介质;其中,该方法包括:获取第一训练数据,第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;构建第一初始模型,第一初始模型中包括未训练的编码器和反卷积层;根据第一训练数据训练第一初始模型,得到第一图像旋转校正模型;构建第二初始模型,第二初始模型中包括第一图像旋转校正模型中的编码器;根据第一训练数据训练第二初始模型,得到文本行检测模型,文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。这样可以有效改善或解决判题过程中的拍照图像旋转问题,并可以提升模型训练效率,提高判题准确性。
Description
技术领域
本申请涉及一种数据处理技术,尤其涉及一种模型训练方法、判题方法及装置、设备、存储介质。
背景技术
拍照判题是人工智能技术在教育领域的一项重要应用。通常情况下拍照判题的流程可包括:用手机或平板电脑等终端设备对待判题图像拍照,然后将待判题图像上传至拍照判题的应用程序。应用程序对待判题图像进行多个环节的处理,然后将判题结果输出。
如果用户上传图片的时候不是正面拍摄,而是倾斜拍摄,如将答题图像旋转90度或者直接翻转拍摄,这种情况下,将影响判题结果,导致非常差的用户体验。
发明内容
本申请实施例提供一种模型训练方法、判题方法及装置、设备、存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种文本行检测模型的训练方法,包括:
获取第一训练数据,所述第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;
构建第一初始模型,所述第一初始模型中包括未训练的编码器和反卷积层;
根据所述第一训练数据训练所述第一初始模型,得到第一图像旋转校正模型;
构建第二初始模型,所述第二初始模型中包括所述第一图像旋转校正模型中的编码器;
根据所述第一训练数据训练所述第二初始模型,得到文本行检测模型,所述文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。
第二方面,本申请实施例提供一种文本行检测方法,包括:
获取第一待处理文本图像;
根据所述文本行检测模型检测出所述第一待处理文本图像中的文本行所在的位置,其中,所述文本行检测模型是上述训练方法所得到的。
第三方面,本申请实施例提供一种文本识别模型的训练方法,包括:
获取第二训练数据,所述第二训练数据包括第二初始文本图像及对应的第二旋转文本图像;
构建第三初始模型,所述第三初始模型中包括编码器和反卷积层;
根据所述第二训练数据训练所述第三初始模型,得到第二图像旋转校正模型;
构建第四初始模型,所述第四初始模型中包括所述第二图像旋转校正模型中的编码器;
根据所述第二训练数据训练所述第四初始模型,得到文本识别模型,所述文本识别模型用于从第二待处理文本图像中得到文本识别结果。
第四方面,本申请实施例提供一种文本识别方法,包括:
获取第二待处理文本图像;
基于文本识别模型从所述第二待处理文本图像中得到文本识别结果,其中,所述文本识别模型是根据上述的训练方法所得到的。
第五方面,本申请实施例提供一种判题方法,包括:
获取待判题图像;
基于文本行检测模型从所述待判题图像中检测出文本框,所述文本框用于表示所述待判题图像中的文本行所在的位置,其中,所述文本行检测模型是根据上述的训练方法所得到的;
从所述待判题图像中裁剪出包含所述文本框的待识别图像;
基于文本识别模型从所述待识别图像中得到文本识别结果,以根据所述文本识别结果进行判题,其中,所述文本识别模型是根据上述的训练方法所得到的。
第六方面,本申请实施例提供一种文本行检测模型的训练装置,包括:
第一训练数据获取模块,用于获取第一训练数据,所述第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;
第一初始模型构建模块,用于构建第一初始模型,所述第一初始模型中包括未训练的编码器和反卷积层;
第一图像旋转校正模型训练模块,用于根据所述第一训练数据训练所述第一初始模型,得到第一图像旋转校正模型;
第二初始图像构建模块,用于构建第二初始模型,所述第二初始模型中包括所述第一图像旋转校正模型中的编码器;
文本行检测模型训练模块,用于根据所述第一训练数据训练所述第二初始模型,得到文本行检测模型,所述文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。
第七方面,本申请实施例提供一种文本行检测装置,包括:
第一待处理文本图像获取模块,用于获取第一待处理文本图像;
文本行检测模块,用于根据所述文本行检测模型检测出所述第一待处理文本图像中的文本行所在的位置,其中,所述文本行检测模型是根据上述的训练装置所得到的。
第八方面,本申请实施例提供一种文本识别模型的训练装置,包括:
第二训练数据获取模块,用于获取第二训练数据,所述第二训练数据包括第二初始文本图像及对应的第二旋转文本图像;
第三初始模型构建模块,用于构建第三初始模型,所述第三初始模型中包括编码器和反卷积层;
第二图像旋转校正模型训练模块,用于根据所述第二训练数据训练所述第三初始模型,得到第二图像旋转校正模型;
第四初始模型构建模块,用于构建第四初始模型,所述第四初始模型中包括所述第二图像旋转校正模型中的编码器;
文本识别模型训练模块,用于根据所述第二训练数据训练所述第四初始模型,得到文本识别模型,所述文本识别模型用于从第二待处理文本图像中得到文本识别结果。
第九方面,本申请实施例提供一种文本识别装置,包括:
第二待处理文本图像获取模块,用于获取第二待处理文本图像;
文本识别模块,用于基于文本识别模型从所述第二待处理文本图像中得到文本识别结果,其中,所述文本识别模型是根据上述的训练装置所得到的。
第十方面,本申请实施例提供一种判题装置,包括:
待判题图像获取模块,用于获取待判题图像;
文本行检测模块,用于基于文本行检测模型从所述待判题图像中检测出文本框,所述文本框用于表示所述待判题图像中的文本行所在的位置,其中,所述文本行检测模型是根据上述的训练装置所得到的;
裁剪模块,用于从所述待判题图像中裁剪出包含所述文本框的待识别图像;
文本识别模块,用于基于文本识别模型从所述待识别图像中得到文本识别结果,以根据所述文本识别结果进行判题,其中,所述文本识别模型是上述的训练装置所得到的。
第十一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现以上的方法。
第十二方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:有效改善或解决判题过程中的拍照图像旋转问题,并可以提升模型训练效率,提高判题准确性。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1-1示出文本行检测结果和版面分析结果的示意图;
图1-2示出判题过程中拍照图像旋转的示意图;
图2示出根据本申请实施例的文本行检测模型的训练方法的流程图;
图3示出根据本申请实施例的文本行检测方法的流程图;
图4示出根据本申请实施例的文本识别模型的训练方法的流程图;
图5示出根据本申请实施例的文本识别方法的流程图;
图6示出根据本申请实施例的应用示例的流程图;
图7示出根据本申请实施例的判题装置的结果框图;
图8示出根据本申请实施例的文本行检测模型的训练装置的结果框图;
图9示出根据本申请实施例的文本行检测装置的结果框图;
图10示出根据本申请实施例的文本识别模型的训练装置的结果框图;
图11示出根据本申请实施例的文本识别装置的结果框图;
图12示出根据本申请实施例的判题装置的结果框图;
图13示出根据本申请实施例的电子设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
在判题过程中,判题应用程序将待判题图像送入题型判断模型,也称为版面分析模型或文本行检测模型(题型判断模型是一种文本检测模型,它会检测横式、竖式和脱式三种题型并将它们用文本框框起来,也就是拿到文本区域坐标),得到版面分析检测结果或文本行检测结果。如图1-1所示,深色粗线条的矩形文本框表示版面分析模型识别出的待判题图像中各个题的文本区域,也就是版面分析检测结果;浅色细线条的矩形文本框表示文本行检测模型识别出的待判题图像中各个文本行的文本区域,也就是文本行检测结果。其中,文本行检测模型只检测横向文本行。然后会根据版面分析模型和文本行检测模型的检测结果进行版面分析,对矩形文本框进行合并,同时根据每种题型的特点,分析得到每个题是由哪些文本框组成的,然后根据文本框的坐标在原图上进行裁剪,将裁剪得到的图像送入文本识别模型,得到每个题目的内容,然后根据题目内容进行判题,最后将判断结果进行输出。
相关技术中,在判题过程中,如果用户上传图片的时候不是正面拍摄,而是倾斜拍摄,如将答题图像旋转90度或者直接翻转拍摄,这种情况下,将影响文本行检测或内容识别结果,进而影响判题结果,导致非常差的用户体验。如图1-2所示,答题图像被旋转了90度,在判题过程中将识别到文本框A的内容,而非正常需要识别到的文本框B的内容,从而导致无法正常判题。
有鉴于此,本申请实施例提供一种模型训练方法、文本行检测方法、文本识别方法和判题方法。
图2示出根据本申请实施例的文本行检测模型的训练方法的流程图。如图2所示,该方法可以包括:
步骤S201:获取第一训练数据,第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;
步骤S202:构建第一初始模型,第一初始模型中包括未训练的编码器和反卷积层;
步骤S203:根据第一训练数据训练第一初始模型,得到第一图像旋转校正模型;
步骤S204:构建第二初始模型,第二初始模型中包括第一图像旋转校正模型中的编码器;
步骤S205:根据第一训练数据训练第二初始模型,得到文本行检测模型,文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。
而本申请实施例中,首先,训练一个即插即用的轻量级模型,即第一图像旋转校正模型,该模型包括编码器和反卷积层,由于层数较浅,因此训练效率较高,且可以即插即用。其次,利用该模型的编码器部分替换第二初始模型的骨干网络(backbone)的部分块(block),并训练得到文本行检测模型,以在判题过程中,检测待判题图像中的文本行所在的位置,可以有效改善或解决判题过程中的拍照图像旋转问题。
具体地,可以收集大量的第一初始文本图像,随机旋转预设的多个角度,得到对应的第一旋转文本图像,并记录对应的旋转度数,由此可以得到一个训练集,该训练集中包括大量的第一训练数据。在一个示例中,可以对所有第一初始文本图像依次旋转各种角度,例如以10度为一个操作,依次旋转10度、20度……,当然也可以以其他角度为一个操作,在此不作限定。进一步地,对于旋转度数在30度以内(正负30度)的图像全部保留,对于其他旋转度数的图像随机保留10%。
本申请实施例中,可以基于常用的神经网络的结构结合变分自编码器(Variational auto-encoder,VAE)的特点,构建第一初始模型,用作训练轻量级即插即用的第一图像旋转校正模型。其中,选取神经网络的部分结构作为编码器,用于提取特征,例如对输入的第一旋转文本图像进行特征提取,得到一组多通道特征映射。反卷积层对特征进行多次反卷积操作,得到输出图像。
示例性地,对第一初始模型输入对应的第一旋转文本图像,采用第一初始文本图像作为监督标签,进而训练第一初始模型(前置轻量级模型),得到第一图像旋转校正模型。
由于编码器部分的网络层数较浅,无法通过反卷积层完全还原原始图像(解码),但是这种故意的重构方式,可以让前面的编码器部分,学到一些用于还原未旋转图像(第一初始文本图像)的信息,这种信息可以认为包含一定的角度信息,同时能将这个信息转化为从正常未旋转图像提取到的信息。因此,这个训练好以后的第一图像旋转校正模型的编码器部分可以作为即插即用的轻量级模块。也就是说,虽然输入第一图像旋转校正模型的图像是极难处理的,但是经过编码器部分之后提取到的特征是一致的,这样训练得到的模型,能够有效对旋转的文本图像进行校正。
为了得到一个文本行检测模型,首先构建一个第二初始模型,第二初始模型中用到了第一图像旋转校正模型中的编码器。
示例性地,将预构建的第二初始模型的骨干网络的前N个块替换为第一图像旋转校正模块的编码器部分。其中,N为正整数,如N等于2。其中,第二初始模型可以为判题应用程序中已经应用的文本行检测模型,也可以是基于基础神经网络重新构建的。
在一种实施方式中,在步骤S203中可以包括:根据预构建的第二初始模型的骨干网络的网络类型,确定第一预选神经网络;从第一预选神经网络中选取前N个块,得到第一初始模型中的编码器。进一步地,在步骤S204中可以包括:将第一预选神经网络的骨干网络的前N个块替换为第一图像旋转校正模型中的编码器。
例如:预构建的第二初始模型的骨干网络为VGG(Visual Geometry Group)网络,那么第一初始模型中的编码器部分采用VGG网络的前N个块。对第一初始模型训练得到第一图像旋转校正模型后,将第二初始模型的骨干网络(即VGG网络)的前N个块替换为第一图像旋转校正模型的前N个块,即第一图像旋转校正模型的的编码器部分。
优选地,resnet18(一种残差网络)由于其兼顾效果效率,性价比较高,可以广泛应用于文本行检测和文本识别领域。因此,预构建的第二初始模型的骨干网络优选为resnet18。进而,在构建第一初始模型时,可以采用resnet18的前两个block块提取(resnet18有4个block块)作为编码器,进而提取特征。对第一初始模型训练得到第一图像旋转校正模型后,将第二初始模型的骨干网络(即resnet18)的前两个块替换为第一图像旋转校正模型的前两个块,即第一图像旋转校正模型的的编码器部分。
在一种实施方式中,在第一训练阶段,更新第二初始模型中除第一图像旋转校正模型的编码器以外的网络参数;在第二训练阶段,更新第二初始模型的网络参数。
其中,第一训练阶段可以为开始的几十轮训练,第二训练阶段可以为后续的几十轮微调训练。
示例性地,在开始的几十轮训练中,不更新即插即用模块(即第一图像旋转校正模型的编码器)的网络参数,后续几十轮微调训练中,更新全部参数,得到一个可用于处理旋转文本图像的文本行检测模型。
图3示出根据本申请实施例的文本行检测方法的流程图。如图3所示,该方法可以包括:
步骤S301:获取第一待处理文本图像;
步骤S302:根据文本行检测模型检测出第一待处理文本图像中的文本行所在的位置,其中,文本行检测模型是根据上述文本行检测模型的训练方法所得到的。
在判题过程中,利用本申请实施例的文本行检测模型来检测待判题图像(第一待处理文本图像)中的文本行所在的位置,可以有效改善或解决判题过程中的拍照图像旋转问题。进一步地,可以将文本行检测模型输出的图像按行裁剪后分别输入文本识别模型,进行后续的判题流程。
图4示出根据本申请实施例的文本识别模型的训练方法的流程图。如图4所示,该方法可以包括:
步骤S401:获取第二训练数据,第二训练数据包括第二初始文本图像及对应的第二旋转文本图像;
步骤S402:构建第三初始模型,第三初始模型中包括编码器和反卷积层;
步骤S403:根据第二训练数据训练第三初始模型,得到第二图像旋转校正模型;
步骤S404:构建第四初始模型,第四初始模型中包括第二图像旋转校正模型中的编码器;
步骤S405:根据第二训练数据训练第四初始模型,得到文本识别模型,文本识别模型用于从第二待处理文本图像中得到文本识别结果。
本申请实施例中,首先,训练一个即插即用的轻量级模型,即第二图像旋转校正模型,该模型包括编码器和反卷积层,由于层数较浅,因此训练效率较高,且可以即插即用。其次,利用该模型的编码器部分替换第四初始模型的骨干网络的部分块,并训练得到文本识别模型,以在判题过程中得到文本识别结果,可以有效改善或解决判题过程中的拍照图像旋转问题。
具体方式可参见步骤S201~步骤S205中的相关描述。需要说明的是,第一初始文本图像和第二初始文本图像有所区别,第一初始文本图像可以包括多行文本内容的图像,第二初始文本图像可以为对第一初始文本图像裁剪后的图像,如将各行文本内容的图像按行分别裁剪出来。
图5示出根据本申请实施例的文本识别方法的流程图。如图5所示,该方法可以包括:
步骤S501:获取第二待处理文本图像;
步骤S502:基于文本识别模型从第二待处理文本图像中得到文本识别结果,其中,文本识别模型是根据上述文本识别模型的训练方法所得到的。
在判题过程中,利用本申请实施例的文本识别模型来识别待判题图像(第二待处理文本图像)中的文本内容,可以有效改善或解决判题过程中的拍照图像旋转问题。其中,第二待处理文本图像可以为包括一行文本内容的图像,如将文本行检测模型输出的图像按行分别裁剪出来的图像。
在一个具体的应用示例中,如图6所示,该示例可以包括:
第一步,收集大量文本图像(第一初始文本图像或第二初始文本图像);
第二步,将第一步收集到的大量文本图像随机旋转指定的多个度数,并记录其旋转度数,对于旋转度数在30度以内的所有图像全部保留,对于其他旋转度数的图像随机保留10%,得到第一旋转文本图像或第二旋转文本图像;
第三步,用第二步得到的图像和其对应度数构建一个训练集,输入是旋转图像或未旋转图像,输出是没有旋转过的图像;
第四步,使用resnet18的前两个block和反卷积层,结合VAE的特点,设计一个轻量级的编解码结构的网络模型(第一初始模型或第三初始模型);
第五步,使用第三步得到的数据集训练第四步构建的模型,得到一个能将输入旋转图像编解码为正常图像的模型(第一图像旋校正模型或第二图像旋转校正模型);
第六步,在正常的训练文本行检测或者文本识别模型时,用第五步训练得到的解码器(即两个block块)代替其模型中的前两个block块,同时使用第五步得到的数据集对文本行检测或者文本识别模型进行训练,得到一个效果较好的模型;
第七步,在得到第六步的模型后,进行后续判题流程,能有效结果极端图像(旋转图像)输入问题。
图7示出根据本申请实施例的判题方法的流程图。如图7所示,该方法可以包括:
步骤S701:获取待判题图像;
步骤S701:基于文本行检测模型从待判题图像中检测出文本框,文本框用于表示待判题图像中的文本行所在的位置,其中,文本行检测模型是根据上述文本行检测模型的训练方法所得到的;
步骤S703:从待判题图像中裁剪出包含文本框的待识别图像;
步骤S704:基于文本识别模型从待识别图像中得到文本识别结果,以根据文本识别结果进行判题,其中,文本识别模型是根据上述文本识别模型的训练方法所得到的。
图8示出根据本申请实施例的文本行检测模型的训练装置的结构框图。如图8所示,该装置可以包括:
第一训练数据获取模块801,用于获取第一训练数据,第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;
第一初始模型构建模块802,用于构建第一初始模型,第一初始模型中包括未训练的编码器和反卷积层;
第一图像旋转校正模型训练模块803,用于根据第一训练数据训练第一初始模型,得到第一图像旋转校正模型;
第二初始图像构建模块804,用于构建第二初始模型,第二初始模型中包括第一图像旋转校正模型中的编码器;
文本行检测模型训练模块805,用于根据第一训练数据训练第二初始模型,得到文本行检测模型,文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。
在一种实施方式中,第一初始模型构建模块802还用于:
根据预构建的第二初始模型的骨干网络的网络类型,确定第一预选神经网络;
从第一预选神经网络中选取前N个块,得到第一初始模型中的编码器,其中,N为正整数。
在一种实施方式中,第二初始模型构建模块804还用于:
将第一预选神经网络的骨干网络的前N个块替换为第一图像旋转校正模型中的编码器。
在一种实施方式中,文本行检测模型训练模块805还用于:
在第一训练阶段,更新第二初始模型中除第一图像旋转校正模型的编码器以外的网络参数;
在第二训练阶段,更新第二初始模型的网络参数。
图9示出根据本申请实施例的文本行检测装置的结构框图。如图9所示,该装置可以包括:
第一待处理文本图像获取模块901,用于获取第一待处理文本图像;
文本行检测模块902,用于根据文本行检测模型检测出第一待处理文本图像中的文本行所在的位置,其中,文本行检测模型是根据上述的训练装置所得到的。
图10示出根据本申请实施例的文本识别模型的训练装置的结构框图。如图10所示,该装置可以包括:
第二训练数据获取模块1001,用于获取第二训练数据,第二训练数据包括第二初始文本图像及对应的第二旋转文本图像;
第三初始模型构建模块1002,用于构建第三初始模型,第三初始模型中包括编码器和反卷积层;
第二图像旋转校正模型训练模块1003,用于根据第二训练数据训练第三初始模型,得到第二图像旋转校正模型;
第四初始模型构建模块1004,用于构建第四初始模型,第四初始模型中包括第二图像旋转校正模型中的编码器;
文本识别模型训练模块1005,用于根据第二训练数据训练第四初始模型,得到文本识别模型,文本识别模型用于从第二待处理文本图像中得到文本识别结果。
在一种实施方式中,第三初始模型1001还用于:
根据预构建的第三初始模型的骨干网络的网络类型,确定第二预选神经网络;
从第二预选神经网络中选取前N个块,得到第三初始模型中的编码器,其中,N为正整数。
在一种实施方式中,第四初始模型构建模块1004还用于:
将第三初始模型的骨干网络的前N个块替换为第二图像旋转校正模型中的编码器。
在一种实施方式中,文本识别模型训练模块1005还用于:
在第一训练阶段,更新第四初始模型中除第二图像旋转校正模型的编码器以外的网络参数;
在第二训练阶段,更新第四初始模型的网络参数。
图11示出根据本申请实施例的文本识别装置的结构框图。如图11所示,该装置可以包括:
第二待处理文本图像获取模块1101,用于获取第二待处理文本图像;
文本识别模块1102,用于基于文本识别模型从第二待处理文本图像中得到文本识别结果,其中,文本识别模型是根据上述的训练装置所得到的。
图12示出根据本申请实施例的判题装置的结构框图。如图12所示,该装置可以包括:
待判题图像获取模块1201,用于获取待判题图像;
文本行检测模块1202,用于基于文本行检测模型从待判题图像中检测出文本框,文本框用于表示待判题图像中的文本行所在的位置,其中,文本行检测模型是根据上述的训练装置所得到的;
裁剪模块1203,用于从待判题图像中裁剪出包含文本框的待识别图像;
文本识别模块1204,用于基于文本识别模型从待识别图像中得到文本识别结果,以根据文本识别结果进行判题,其中,文本识别模型是上述的训练装置所得到的。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图13示出根据本申请实施例的电子设备的结构框图。具体地,如图13所示,该电子设备包括:存储器1310和处理器1320,存储器1310内存储有可在处理器1320上运行的计算机程序。处理器1320执行该计算机程序时实现上述实施例中的模型训练方法或者文本行检测方法或者文本识别方法或判题方法。这里,实际应用中,存储器1310和处理器1320的数量可以为一个或多个。
该电子设备还包括:
通信接口1330,用于与外界设备进行通信,进行数据交互传输。
如果存储器1310、处理器1320和通信接口1330独立实现,则存储器1310、处理器1320和通信接口1330可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1310、处理器1320及通信接口1330集成在一块芯片上,则存储器1310、处理器1320及通信接口1330可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的模型训练方法或者视频数据处理方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的模型训练方法或者视频数据处理方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的模型训练方法或者视频数据处理方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data dateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (18)
1.一种文本行检测模型的训练方法,其特征在于,包括:
获取第一训练数据,所述第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;
构建第一初始模型,所述第一初始模型中包括未训练的编码器和反卷积层;
根据所述第一训练数据训练所述第一初始模型,得到第一图像旋转校正模型;
构建第二初始模型,所述第二初始模型中包括所述第一图像旋转校正模型中的编码器;
根据所述第一训练数据训练所述第二初始模型,得到文本行检测模型,所述文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。
2.根据权利要求1所述的训练方法,其特征在于,构建第一初始模型,包括:
根据预构建的第二初始模型的骨干网络的网络类型,确定第一预选神经网络;
从所述第一预选神经网络中选取前N个块,得到所述第一初始模型中的编码器,其中,N为正整数。
3.根据权利要求2所述的训练方法,其特征在于,构建第二初始模型,包括:
将所述第一预选神经网络的骨干网络的前N个块替换为所述第一图像旋转校正模型中的编码器。
4.根据权利要求1所述的训练方法,其特征在于,根据所述第一训练数据训练所述第二初始模型,包括:
在第一训练阶段,更新所述第二初始模型中除所述第一图像旋转校正模型的编码器以外的网络参数;
在第二训练阶段,更新所述第二初始模型的网络参数。
5.一种文本行检测方法,其特征在于,包括:
获取第一待处理文本图像;
根据所述文本行检测模型检测出所述第一待处理文本图像中的文本行所在的位置,其中,所述文本行检测模型是权利要求1至4任一项方法所得到的。
6.一种文本识别模型的训练方法,其特征在于,包括:
获取第二训练数据,所述第二训练数据包括第二初始文本图像及对应的第二旋转文本图像;
构建第三初始模型,所述第三初始模型中包括编码器和反卷积层;
根据所述第二训练数据训练所述第三初始模型,得到第二图像旋转校正模型;
构建第四初始模型,所述第四初始模型中包括所述第二图像旋转校正模型中的编码器;
根据所述第二训练数据训练所述第四初始模型,得到文本识别模型,所述文本识别模型用于从第二待处理文本图像中得到文本识别结果。
7.根据权利要求6所述的训练方法,其特征在于,构建第三初始模型,包括:
根据预构建的第三初始模型的骨干网络的网络类型,确定第二预选神经网络;
从所述第二预选神经网络中选取前N个块,得到所述第三初始模型中的编码器,其中,N为正整数。
8.根据权利要求7所述的训练方法,其特征在于,构建第四初始模型,包括:
将所述第三初始模型的骨干网络的前N个块替换为所述第二图像旋转校正模型中的编码器。
9.根据权利要求6所述的训练方法,其特征在于,根据所述第二训练数据训练所述第四初始模型,包括:
在第一训练阶段,更新所述第四初始模型中除所述第二图像旋转校正模型的编码器以外的网络参数;
在第二训练阶段,更新所述第四初始模型的网络参数。
10.一种文本识别方法,其特征在于,包括:
获取第二待处理文本图像;
基于文本识别模型从所述第二待处理文本图像中得到文本识别结果,其中,所述文本识别模型是根据权利要求6至9任一项所述的训练方法所得到的。
11.一种判题方法,其特征在于,包括:
获取待判题图像;
基于文本行检测模型从所述待判题图像中检测出文本框,所述文本框用于表示所述待判题图像中的文本行所在的位置,其中,所述文本行检测模型是根据权利要求1至4任一项所述的训练方法所得到的;
从所述待判题图像中裁剪出包含所述文本框的待识别图像;
基于文本识别模型从所述待识别图像中得到文本识别结果,以根据所述文本识别结果进行判题,其中,所述文本识别模型是根据权利要求6至9任一项所述的训练方法所得到的。
12.一种文本行检测模型的训练装置,其特征在于,包括:
第一训练数据获取模块,用于获取第一训练数据,所述第一训练数据包括第一初始文本图像及对应的第一旋转文本图像;
第一初始模型构建模块,用于构建第一初始模型,所述第一初始模型中包括未训练的编码器和反卷积层;
第一图像旋转校正模型训练模块,用于根据所述第一训练数据训练所述第一初始模型,得到第一图像旋转校正模型;
第二初始图像构建模块,用于构建第二初始模型,所述第二初始模型中包括所述第一图像旋转校正模型中的编码器;
文本行检测模型训练模块,用于根据所述第一训练数据训练所述第二初始模型,得到文本行检测模型,所述文本行检测模型用于检测出第一待处理文本图像中的文本行所在的位置。
13.一种文本行检测装置,其特征在于,包括:
第一待处理文本图像获取模块,用于获取第一待处理文本图像;
文本行检测模块,用于根据所述文本行检测模型检测出所述第一待处理文本图像中的文本行所在的位置,其中,所述文本行检测模型是权利要求12的训练装置所得到的。
14.一种文本识别模型的训练装置,其特征在于,包括:
第二训练数据获取模块,用于获取第二训练数据,所述第二训练数据包括第二初始文本图像及对应的第二旋转文本图像;
第三初始模型构建模块,用于构建第三初始模型,所述第三初始模型中包括编码器和反卷积层;
第二图像旋转校正模型训练模块,用于根据所述第二训练数据训练所述第三初始模型,得到第二图像旋转校正模型;
第四初始模型构建模块,用于构建第四初始模型,所述第四初始模型中包括所述第二图像旋转校正模型中的编码器;
文本识别模型训练模块,用于根据所述第二训练数据训练所述第四初始模型,得到文本识别模型,所述文本识别模型用于从第二待处理文本图像中得到文本识别结果。
15.一种文本识别装置,其特征在于,包括:
第二待处理文本图像获取模块,用于获取第二待处理文本图像;
文本识别模块,用于基于文本识别模型从所述第二待处理文本图像中得到文本识别结果,其中,所述文本识别模型是根据权利要求14所述的训练装置所得到的。
16.一种判题装置,其特征在于,包括:
待判题图像获取模块,用于获取待判题图像;
文本行检测模块,用于基于文本行检测模型从所述待判题图像中检测出文本框,所述文本框用于表示所述待判题图像中的文本行所在的位置,其中,所述文本行检测模型是根据权利要求12所述的训练装置所得到的;
裁剪模块,用于从所述待判题图像中裁剪出包含所述文本框的待识别图像;
文本识别模块,用于基于文本识别模型从所述待识别图像中得到文本识别结果,以根据所述文本识别结果进行判题,其中,所述文本识别模型是根据权利要求14所述的训练装置所得到的。
17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至11任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036869.3A CN111882004B (zh) | 2020-09-28 | 2020-09-28 | 模型训练方法、判题方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036869.3A CN111882004B (zh) | 2020-09-28 | 2020-09-28 | 模型训练方法、判题方法及装置、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111882004A true CN111882004A (zh) | 2020-11-03 |
CN111882004B CN111882004B (zh) | 2021-01-05 |
Family
ID=73199580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036869.3A Active CN111882004B (zh) | 2020-09-28 | 2020-09-28 | 模型训练方法、判题方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111882004B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090189856A1 (en) * | 1999-05-25 | 2009-07-30 | Silverbrook Research Pty Ltd | System For Interaction With Computer System Using Printed Surface |
KR20140119536A (ko) * | 2013-04-01 | 2014-10-10 | 양승혜 | 전자 시험 및 학습 시스템 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
CN110046249A (zh) * | 2019-03-11 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 |
CN110598641A (zh) * | 2019-09-16 | 2019-12-20 | 杭州大拿科技股份有限公司 | 计算练习方法、系统、电子设备及计算机可读存储介质 |
CN110659574A (zh) * | 2019-08-22 | 2020-01-07 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110738225A (zh) * | 2018-07-19 | 2020-01-31 | 杭州海康威视数字技术股份有限公司 | 图像识别方法及装置 |
CN110929582A (zh) * | 2019-10-25 | 2020-03-27 | 广州视源电子科技股份有限公司 | 口算题自动批改方法及装置、存储介质、电子设备 |
CN111325203A (zh) * | 2020-01-21 | 2020-06-23 | 福州大学 | 一种基于图像校正的美式车牌识别方法及系统 |
CN111583130A (zh) * | 2020-04-14 | 2020-08-25 | 佛山市南海区广工大数控装备协同创新研究院 | 一种用于lpr的恢复车牌图像的方法 |
CN111597908A (zh) * | 2020-04-22 | 2020-08-28 | 深圳中兴网信科技有限公司 | 试卷批改方法和试卷批改装置 |
-
2020
- 2020-09-28 CN CN202011036869.3A patent/CN111882004B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090189856A1 (en) * | 1999-05-25 | 2009-07-30 | Silverbrook Research Pty Ltd | System For Interaction With Computer System Using Printed Surface |
KR20140119536A (ko) * | 2013-04-01 | 2014-10-10 | 양승혜 | 전자 시험 및 학습 시스템 |
CN110738225A (zh) * | 2018-07-19 | 2020-01-31 | 杭州海康威视数字技术股份有限公司 | 图像识别方法及装置 |
CN109325464A (zh) * | 2018-10-16 | 2019-02-12 | 上海翎腾智能科技有限公司 | 一种基于人工智能的手指点读文字识别方法及翻译方法 |
CN110046249A (zh) * | 2019-03-11 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 胶囊网络的训练方法、分类方法、系统、设备及存储介质 |
CN110659574A (zh) * | 2019-08-22 | 2020-01-07 | 北京易道博识科技有限公司 | 文档图像勾选框状态识别后输出文本行内容的方法及系统 |
CN110598641A (zh) * | 2019-09-16 | 2019-12-20 | 杭州大拿科技股份有限公司 | 计算练习方法、系统、电子设备及计算机可读存储介质 |
CN110929582A (zh) * | 2019-10-25 | 2020-03-27 | 广州视源电子科技股份有限公司 | 口算题自动批改方法及装置、存储介质、电子设备 |
CN111325203A (zh) * | 2020-01-21 | 2020-06-23 | 福州大学 | 一种基于图像校正的美式车牌识别方法及系统 |
CN111583130A (zh) * | 2020-04-14 | 2020-08-25 | 佛山市南海区广工大数控装备协同创新研究院 | 一种用于lpr的恢复车牌图像的方法 |
CN111597908A (zh) * | 2020-04-22 | 2020-08-28 | 深圳中兴网信科技有限公司 | 试卷批改方法和试卷批改装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111882004B (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100402B2 (en) | Image quality assessment using similar scenes as reference | |
CN108876792B (zh) | 语义分割方法、装置和系统及存储介质 | |
CN108805131B (zh) | 文本行检测方法、装置及系统 | |
WO2022142450A1 (zh) | 用于图像分割模型训练和图像分割的方法及装置 | |
CN111595850B (zh) | 切片缺陷检测方法、电子装置及可读存储介质 | |
CN111767228B (zh) | 基于人工智能的界面测试方法、装置、设备和介质 | |
CN110246160B (zh) | 视频目标的检测方法、装置、设备及介质 | |
CN111738249B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN110427852A (zh) | 文字识别方法、装置、计算机设备和存储介质 | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN113496208B (zh) | 视频的场景分类方法及装置、存储介质、终端 | |
CN113159143A (zh) | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 | |
CN111832561B (zh) | 基于计算机视觉的字符序列识别方法、装置、设备和介质 | |
CN113344826A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112329745A (zh) | 训练方法、人脸防伪检测方法、相关设备及存储介质 | |
CN113539304A (zh) | 视频拆条方法和装置 | |
CN111882004B (zh) | 模型训练方法、判题方法及装置、设备、存储介质 | |
CN111753729A (zh) | 一种假脸检测方法、装置、电子设备及存储介质 | |
CN116343007A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN115239590A (zh) | 样本图像的生成方法、装置、设备、介质及程序产品 | |
CN115601371A (zh) | 多器官分割方法、训练方法、介质及电子设备 | |
CN115187831A (zh) | 模型训练及烟雾检测方法、装置、电子设备及存储介质 | |
CN115147929A (zh) | 一种施工场景监控方法、装置、设备及存储介质 | |
CN111815631B (zh) | 模型生成方法、装置、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |