CN113705548B - 题目类型识别方法和装置 - Google Patents

题目类型识别方法和装置 Download PDF

Info

Publication number
CN113705548B
CN113705548B CN202111267035.8A CN202111267035A CN113705548B CN 113705548 B CN113705548 B CN 113705548B CN 202111267035 A CN202111267035 A CN 202111267035A CN 113705548 B CN113705548 B CN 113705548B
Authority
CN
China
Prior art keywords
topic
feature extraction
image
extraction module
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111267035.8A
Other languages
English (en)
Other versions
CN113705548A (zh
Inventor
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202111267035.8A priority Critical patent/CN113705548B/zh
Publication of CN113705548A publication Critical patent/CN113705548A/zh
Application granted granted Critical
Publication of CN113705548B publication Critical patent/CN113705548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种题目类型识别方法和装置,属于图像处理领域。所述方法包括:获取待识别的题目图像;调用训练后的题目分类模型,所述题目分类模型包括多个特征提取模块和一个分类模块,所述多个特征提取模块的连接关系为串联,最后一个特征提取模块与所述分类模块连接,每个特征提取模块包括多个分支,每个分支的卷积核大小不同,前向上的特征提取模块的分支数量呈递减的趋势;所述前向是指从模型输入到模型输出的方向;将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型。采用本公开,可以提高题目分类的处理效率。

Description

题目类型识别方法和装置
技术领域
本公开涉及图像处理领域,尤其涉及一种题目类型识别方法和装置。
背景技术
随机计算机技术的发展,可以将中小学题库录入计算机设备进行存储,方便管理和查询题目。
在实际应用中,可以按照题目类型对题目进行分类,并按照题目类型对题目进行归档或查询。例如,当需要对某个题目进行归档时,如果用户判断出该题目属于应用题,则可以将该题目录入应用题相对应的题库中。
但是,人工识别题目类型需要耗费的精力较大,且每人一次可能只识别一个题目,导致识别题目类型的效率较低。
发明内容
为了解决现有技术的问题,本公开实施例提供了一种题目类型识别方法和装置。技术方案如下:
根据本公开的一方面,提供了一种题目类型识别方法,所述方法包括:
获取待识别的题目图像;
调用训练后的题目分类模型,所述题目分类模型包括多个特征提取模块和一个分类模块,所述多个特征提取模块的连接关系为串联,最后一个特征提取模块与所述分类模块连接,每个特征提取模块包括多个分支,每个分支的卷积核大小不同,前向上的特征提取模块的分支数量呈递减的趋势;所述前向是指从模型输入到模型输出的方向;
将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型。
根据本公开的另一方面,提供了一种题目类型识别装置,所述装置包括:
获取模块,用于获取待识别的题目图像;
调用模块,用于调用训练后的题目分类模型,所述题目分类模型包括多个特征提取模块和一个分类模块,所述多个特征提取模块的连接关系为串联,最后一个特征提取模块与所述分类模块连接,每个特征提取模块包括多个分支,每个分支的卷积核大小不同,前向上的特征提取模块的分支数量呈递减的趋势;所述前向是指从模型输入到模型输出的方向;
处理模块,用于将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述题目类型识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行上述题目类型识别。
本公开实施例中,可以采用训练后的题目分类模型对题目进行分类,相比于人工识别的方法,提高了题目分类的处理效率。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的题目类型识别方法的流程图;
图2示出了根据本公开示例性实施例的题目分类模型示意图;
图3示出了根据本公开示例性实施例的题目类型识别方法的流程图;
图4示出了根据本公开示例性实施例的题目分类模型示意图;
图5示出了根据本公开示例性实施例的题目类型识别装置的示意性框图;
图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了清楚描述本公开实施例提供的方法,下面对本公开涉及的技术进行介绍:
1、ResNet(残差网络)
ResNet是一类非常知名的自然场景图像分类网络,它有效的解决了当网络模型层数加深以后出现模型性能退化的问题,从而使得网络可以增加层数(加深)进行更加复杂的特征模式提取;它的主要核心是被称为残差块的结构,残差结构主要的特点是跨层跳跃连接,即一个残差块包括多个卷积层,其输入经过残差块之后的输出会与输入进行一次逐通道逐点相加操作,相当于输入有两个分支,一个经过残差块,一个直接快速绕过残差块,最后两个分支合并;ResNet根据卷积层数量有18、34、50、101和152等多个知名结构,除此之外,还有ResNet等多种变体结构,都能在自然场景图像分类上取得良好效果。
2、GoogLeNet(谷歌网络)
GoogLeNet也是一类非常知名的自然场景图像分类网络,它是通过增加特征提取模块的分支数量(加宽)来进行更加有效的特征提取,它的核心是被称为Inception的模块,它由多个Inception模块堆叠而成,Inception模块有多个不同版本,但核心思想都是使用不同的卷积核对输入进行卷积操作,而后按通道维度进行串联操作,虽然经过长期发展,逐渐发现更深的网络比更宽的网络具有更好的性能,但是更宽的网络在特征交互等方面依然具有非常大的优势。
本公开结合上述两种分类网络的优势思想,提出了一种题目分类模型,应用于一种题目类型识别方法。需要说明的是,本公开中的题目分类模型并不等同于ResNet和GoogLeNet的简单结合。
上述题目类型识别方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成,也可以由多个设备共同完成,例如,终端在获取待识别的题目图像后上传至服务器,服务器对题目图像进行识别并返回对应的题目类型给终端,本公开对此不作限定。
下面将以终端为例,参照图1所示的题目类型识别方法的流程图,对题目类型识别方法进行介绍。
步骤101,终端获取待识别的题目图像。
在一种可能的实施方式中,用户可以通过终端拍摄或获取题目图像,例如,可以是通过终端拍摄习题册中的题目,或者,还可以是接收其他终端发送的题目图像,本实施例对此不作限定。然后,用户可以点击确认识别选项,触发对题目图像的识别任务。此时终端可以获取对应的题目图像,并将该题目图像作为待识别的题目图像,进行后续处理。
步骤102,终端调用训练后的题目分类模型。
在一种可能的实施方式中,终端可以预先对题目分类模型进行训练,并存储训练后的题目分类模型。题目分类模型的训练方法可以如下:
获取训练样本,训练样本可以包括题目图像样本和对应的题目类型标签;
构建初始的题目分类模型;
基于训练样本,对初始的题目分类模型进行训练,得到训练后的题目分类模型,其中,题目分类模型的输入为题目图像样本,输出为对题目图像样本预测的题目类型,训练标签为题目图像样本对应的题目类型标签,损失函数为多分类交叉熵损失函数。
在一种可能的训练方式中,首先可以收集每种题目类型对应的大量图像,同时保证样本数量尽可能均衡,在本实施例中,题目类型主要可以设置为算术题、填空题、应用题、连线题、选择题、判断题和作图题,当然还可以包括其他的题目类型,后续识别出的题目类型可以为设置的题目类型中的任意一种。接着对每一个题目图像进行人工标注,按照指定方式标注其类别,示例性的,该指定方式可以是指按照序号标注题目类别,一个序号与一个题目类型相对应,例如,算术题的题目类型可以标注为“1”;或者,该指定方式还可以是按照题目类别的字符序列标注题目类别,例如,填空题的题目类型可以标注为“填空题”的字符序列。本实施例对具体的标注方式不作限定。
终端可以存储上述收集的题目图像以及对应的题目类型,作为题目图像样本和对应的题目类型标签。当触发对题目分类模型的训练任务时,获取题目图像样本和对应的题目类型标签作为训练样本。
技术人员可以对初始的题目分类模型进行设置,当终端触发对题目分类模型的训练任务时,可以根据设置对初始的题目分类模型进行构建。此时,初始的题目分类模型中的模型参数可以为初始值。
训练过程中,终端可以将题目图像样本输入题目分类模型进行处理,输出对题目图像样本预测的题目类型。当题目分类模型未训练好时,预测的题目类型可能与实际的题目类型(即对应的题目类型标签)差别较大。
进而,终端可以通过损失函数计算预测的题目类型与对应的题目类型标签之间的损失值,通过损失值确定调整参数,然后根据调整参数对题目分类模型的模型参数进行调整,使得预测的题目类型越来越接近对应的题目类型标签。上述损失函数可以采用多分类交叉熵损失函数,本实施例对具体的损失函数不作限定。
当达到训练结束条件时,终端可以获取当前的题目分类模型,作为训练后的题目分类模型进行存储。其中,训练结束条件可以是训练次数达到第一阈值,和/或模型正确率达到第二阈值,和/或损失函数低于第三阈值。上述第一阈值、第二阈值和第三阈值可以根据经验设置。本实施例对具体的训练结束条件不作限定。
当终端执行识别任务时,可以调用存储的题目分类模型。
步骤103,终端将题目图像输入题目分类模型,通过题目分类模型进行处理,输出得到题目图像的题目类型。
可选的,题目类型可以为算术题、填空题、应用题、连线题、选择题、判断题、作图题中的任意一种。
如图2所示的题目分类模型示意图,题目分类模型可以包括多个特征提取模块和一个分类模块,多个特征提取模块的连接关系为串联,最后一个特征提取模块与分类模块连接,每个特征提取模块可以包括多个分支,前向上的特征提取模块的分支数量呈递减的趋势。每个分支可以包括多个卷积层,一个分支可以将一种卷积核作为基础,每个分支的卷积核大小可以不同。
其中,前向是指从模型输入到模型输出的方向,一般会在对题目图像识别题目类型的过程有所体现;相对应的,后向是指从模型输出到模型输入的方向,一般会在训练过程中基于模型输出反馈调整模型参数的过程有所体现。
在一种可能的实施方式中,终端可以将题目图像输入题目分类模型,在特征提取模块中通过其中的多个分支进行卷积操作,提取题目图像的图像特征信息,输出对应的特征映射。在模型宽度上,当特征提取模块中设置有多个卷积核大小不同的分支时,可以通过多个分支对不同精度的图像特征进行提取,也即是通过增加特征提取模块的分支数量(加宽)来进行更加有效的特征提取,增加特征映射包含的信息量。
在模型深度上,终端可以通过串联的多个特征提取模块进一步提取题目图像的图像特征信息,也即是增加网络层数(加深)进行更加复杂的特征提取,提高特征映射的代表性,进而提高题目分类的准确性。
而前向上的特征提取模块的分支数量逐渐较少,相对应的参数也会减少,可以避免信息冗余和过拟合等问题,可以增强模型的稳定性,提高题目分类的效率。
可选的,每个特征提取模块可以至少包括用于提取纵向特征的分支和用于提取横向特征的分支,用于提取纵向特征的分支可以基于1*n的卷积核构成,用于提取横向特征的分支可以基于m*1的卷积核构成,m、n为大于1的整数。例如,1*n的卷积核可以为1*3的卷积核或1*5的卷积核等,m*1的卷积核可以为3*1的卷积核等,本实施例对m、n的具体取值不作限定。
在一种可能的实施方式中,特征提取模块可以至少设置有上述两种分支,分别用于提取纵向特征和横向特征,增加特征的信息量。当然,特征提取模块还可以设置有基于其他卷积核构成的分支,例如,n*n的卷积核,或者,n1*n2的卷积核,n1不等于n2。
可选的,可以至少存在一个模块的输入基于前一模块的输入和输出得到,上述模块可以是指特征提取模块或分类模块。
也即是说,除前向上第一个特征提取模块之外,其余模块的输入均可采用跳跃连接的方式,将前一模块的输入和输出进行融合,保证输入当前模块的信息量,从而提高处理的准确性。跳跃连接的处理可以设置在任意除第一个特征提取模块之外的模块上,本实施例对采用跳跃连接的具体模块和模块的数量不作限定,也即是,可以在一个模块上设置,也可以在全部可设置的模块上设置,当然还可以在一个以上的部分可设置的模块上设置。
可选的,令前向上的第一个特征提取模块的分支数为k,k为大于1的整数,则在第一个特征提取模块中的处理可以如下:
将题目图像分别通过k个分支进行卷积操作,得到k组特征映射;
对k组特征映射进行池化操作,得到k组大小相同的特征映射;
将k组大小相同的特征映射逐通道串联叠加,得到题目图像的第一特征映射。
在一种可能的实施方式中,上述待识别的题目图像可以是任意大小,例如,判断题的图像可能是一个细长条,作图题的图像可能是一个正方形。一般在通过模型进行图像处理时,需要将输入模型的图像缩放至设定大小,便于模型处理。但是在对题目分类的具体应用领域中,如果缩放,题目必然会发生形变,例如可能导致判断题看起来像应用题,那么将引入的误差。因此,本实施例中对第一个特征提取模块的处理进行了改进,不需要输入相同大小的图像,可以提高题目分类的准确性。
具体的,终端可以将任意大小的题目图像输入第一个特征提取模块,在经过第一个特征提取模块的k个分支之后,会得到通道数量相同,但大小不同的特征映射,接着通过金字塔池化对每个分支的输出进行池化操作,其中,对于较大的特征映射使用较大的池化窗口、对于较小的特征映射使用较小池化窗口,得到相同大小的特征映射,并将k组特征映射逐通道串联叠加,得到题目图像的第一特征映射,进而基于第一特征映射进行后续处理。
当然,还可以采用其他方式保证特征映射的大小相同,例如上下采样的方式,本实施例对具体的池化操作不作限定。
下面将以一个具体的题目分类模型为例,参照图3所示的题目类型识别方法的流程图,对题目类型识别方法进行介绍。
如图4所示的题目分类模型示意图,该题目分类模型包括4个特征提取模块和1个分类模块。
可选的,在前向上,第一个特征提取模块包括5个分支,每个分支包括5个卷积层,示例性的,第一个分支使用3*3的卷积核,第二个分支使用1*3的卷积核,第三个分支使用1*5的卷积核,第四个分支使用1*7的卷积核,第五个分支使用3*1的卷积核。
第二个特征提取模块包括4个分支,每个分支包括3个卷积层,示例性的,第一个分支使用1*3的卷积核、第二个分支使用3*1的卷积核、第三个分支使用1*5的卷积核,第四个分支使用3*3的卷积核。
第三个特征提取模块包括3个分支,每个分支包括1个池化层和2个卷积层,示例性的,第一个分支使用1*1的卷积核,第二个分支使用1*3的卷积核,第三个分支使用3*1的卷积核。
第四个特征提取模块包括2个分支,每个分支包括1个池化层和2个卷积层,示例性的,第一个分支使用1*3的卷积核,第二个分支使用3*1的卷积核。
分类模块包括1个卷积层和2个全连接层,示例性的,卷积层使用3*3的卷积核。最后一个全连接层的节点数量等于题目类型的设定数量,例如,当题目类型设置为算术题、填空题、应用题、连线题、选择题、判断题、作图题时,设定数量即为7,最后一个全连接层的节点数量相应的设置为7。
每个分支提取的图像特征信息与卷积核的大小有关,卷积核越大,一个卷积步长中可以参考的图像特征越多越全面,因此提取的图像特征信息的细节相对变少,卷积核越小则反之。因此,上面提供的由上述卷积核以及分支构成的组合的题目分类模型可以是一种针对中小学题目的分类问题的模型设计方式,从应用来看,上述设计方案对于中小学题目的分类问题相对较优,可以取得针对本领域较优的技术效果。当然,特征提取模块的数量、每个模块的分支数量、每个分支所使用的卷积核以及是否在分支中设置池化层都可以调整,在调整时,需要进行权衡,避免信息冗余、过拟合、计算量过大等问题,参数量也要适当控制。在设计模型时,可以参考上面提供的题目分类模型的每个分支进行组合,本公开对具体的组合不作限定。
参照图3所示的题目类型识别方法的流程图,题目类型识别方法可以包括如下步骤:
步骤301,终端获取待识别的题目图像。
步骤302,终端调用训练后的题目分类模型。
步骤301、302的具体处理与上述步骤101、102同理,此处不再赘述。
步骤303,终端将题目图像作为第一个特征提取模块的输入,通过第一个特征提取模块进行处理,输出题目图像的第一特征映射。
在一种可能的实施方式中,终端可以将任意大小的题目图像输入第一个特征提取模块,在经过第一个特征提取模块的上述5个分支之后,会得到通道数量相同,但大小不同的特征映射,接着通过金字塔池化对每个分支的输出进行池化操作,其中,对于较大的特征映射使用较大的池化窗口、对于较小的特征映射使用较小池化窗口,得到相同大小的特征映射,并将5组特征映射逐通道串联叠加,得到题目图像的第一特征映射,作为下一个特征提取模块的输入。
步骤304,终端将第一特征映射作为第二个特征提取模块的输入,通过第二个特征提取模块进行处理,输出题目图像的第二特征映射。
在一种可能的实施方式中,终端可以将上述第一特征映射作为第二个特征提取模块的输入,通过等宽卷积的方式对第一特征映射进行卷积操作,保证每个分支的输出与输入大小相同。得到输出后,逐通道串联叠加,得到题目图像的第二特征映射。
当然,除了等宽卷积,还可以采用其他的卷积方式进行处理,例如窄卷积或宽卷积,当分支的输出与输入大小不相同时,可以采用上下采样的方式统一输出与输入的大小,本实施例对此不作限定,下文同理。
步骤305,终端将第一特征映射和第二特征映射进行逐通道逐点融合,作为第三个特征提取模块的输入,通过第三个特征提取模块进行处理,输出题目图像的第三特征映射。
在一种可能的实施方式中,终端可以将第一个特征提取模块输出的串联后的特征映射(即第一特征映射)与第二个特征提取模块输出的串联后的特征映射(即第二特征映射)进行逐通道逐点的融合处理,作为第三个特征提取模块的输入。上述融合处理可以是指相加,也即是逐通道逐点相加,也可以是相乘,本实施例对具体的融合处理不作限定,下文同理。
与步骤304同理,在第三个特征提取模块的处理中,也可以通过等宽卷积的方式对输入进行卷积操作,保证3个分支输出大小相同,然后串联叠加,得到题目图像的第三特征映射。
步骤306,终端将第二特征映射和第三特征映射进行逐通道逐点融合,作为第四个特征提取模块的输入,通过第四个特征提取模块进行处理,输出题目图像的第四特征映射。
与步骤305同理,终端可以将第二个特征提取模块输出的串联后的特征映射(即第二特征映射)与第三个特征提取模块输出的串联后的特征映射(即第三特征映射)进行逐通道逐点的融合处理,作为第四个特征提取模块的输入。然后,在第四个特征提取模块的处理中,也可以通过等宽卷积的方式对输入进行卷积操作,保证2个分支输出大小相同,然后串联叠加,得到题目图像的第四特征映射。
步骤307,终端将第四特征映射作为分类模块的输入,通过分类模块进行处理,输出题目图像的题目类型。
在一种可能的实施方式中,终端可以将第四个特征提取模块输出的串联后的特征映射(即第四特征映射)作为分类模块的输入,通过分类模块中的卷积层和全连接层进行处理,计算每个题目类型对应的预测概率,该预测概率是指题目图像属于该题目类型的概率。进而,终端可以将预测概率最大的题目类型,确定为题目图像所属的题目类型并输出。在此之后,终端可以基于输出的题目类型进行展示或者对该题目图像进行归档,又或者可以基于该题目类型对题目图像中的题目文本进行识别,本实施例对后续处理不作限定。
本公开实施例中,从深度和宽度两个角度设计了题目分类模型,根据题目图像的特点,使用针对性的卷积核以及跳跃连接,可以很好地将局部特征和全局特征融合起来,提高了题目分类的精度。
本公开实施例提供了一种题目类型识别装置,该装置用于实现上述题目类型识别方法。如图5所示的题目类型识别装置的示意性框图,题目类型识别装置500包括:获取模块501,调用模块502,处理模块503。
获取模块501,用于获取待识别的题目图像;
调用模块502,用于调用训练后的题目分类模型,所述题目分类模型包括多个特征提取模块和一个分类模块,所述多个特征提取模块的连接关系为串联,最后一个特征提取模块与所述分类模块连接,每个特征提取模块包括多个分支,每个分支的卷积核大小不同,前向上的特征提取模块的分支数量呈递减的趋势;所述前向是指从模型输入到模型输出的方向;
处理模块503,用于将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型。
可选的,所述每个特征提取模块至少包括用于提取纵向特征的分支和用于提取横向特征的分支,所述用于提取纵向特征的分支基于1*n的卷积核构成,所述用于提取横向特征的分支基于m*1的卷积核构成,m、n为大于1的整数。
可选的,至少存在一个模块的输入基于前一模块的输入和输出得到,所述模块是指所述特征提取模块或所述分类模块。
可选的,所述题目分类模型包括4个特征提取模块和1个分类模块。
可选的,所述处理模块503用于:
将所述题目图像作为所述第一个特征提取模块的输入,通过所述第一个特征提取模块进行处理,输出所述题目图像的第一特征映射;
将所述第一特征映射作为所述第二个特征提取模块的输入,通过所述第二个特征提取模块进行处理,输出所述题目图像的第二特征映射;
将所述第一特征映射和所述第二特征映射进行逐通道逐点融合,作为所述第三个特征提取模块的输入,通过所述第三个特征提取模块进行处理,输出所述题目图像的第三特征映射;
将所述第二特征映射和所述第三特征映射进行逐通道逐点融合,作为所述第四个特征提取模块的输入,通过所述第四个特征提取模块进行处理,输出所述题目图像的第四特征映射;
将所述第四特征映射作为所述分类模块的输入,通过所述分类模块进行处理,输出所述题目图像的题目类型。
可选的,第一个特征提取模块包括5个分支,第二个特征提取模块包括4个分支,第三个特征提取模块包括3个分支,第四个特征提取模块包括2个分支,每个分支至少包括卷积层;
所述分类模块包括卷积层和全连接层,最后一个全连接层的节点数量等于所述题目类型的设定数量。
可选的,所述第三个特征提取模块和/或所述第四个特征提取模块还包括池化层。
可选的,令前向上的第一个特征提取模块的分支数为k,k为大于1的整数,在所述第一个特征提取模块中的处理包括:
将所述题目图像分别通过k个分支进行卷积操作,得到k组特征映射;
对所述k组特征映射进行池化操作,得到k组大小相同的特征映射;
将所述k组大小相同的特征映射逐通道串联叠加,得到所述题目图像的第一特征映射。
可选的,所述题目类型为算术题、填空题、应用题、连线题、选择题、判断题、作图题中的任意一种。
可选的,所述装置还包括训练模块,所述训练模块用于:
获取训练样本,所述训练样本包括题目图像样本和对应的题目类型标签;
构建初始的题目分类模型;
基于所述训练样本,对所述初始的题目分类模型进行训练,得到训练后的题目分类模型,其中,所述题目分类模型的输入为所述题目图像样本,输出为对所述题目图像样本预测的题目类型,训练标签为所述题目图像样本对应的题目类型标签,损失函数为多分类交叉熵损失函数。
本公开实施例中,可以采用训练后的题目分类模型对题目进行分类,相比于人工识别的方法,提高了题目分类的处理效率。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,题目类型识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行题目类型识别方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (12)

1.一种题目类型识别方法,其特征在于,所述方法包括:
获取待识别的题目图像;
调用训练后的题目分类模型,所述题目分类模型包括多个特征提取模块和一个分类模块,所述多个特征提取模块的连接关系为串联,最后一个特征提取模块与所述分类模块连接,每个特征提取模块包括多个分支,每个分支的卷积核大小不同,前向上的特征提取模块的分支数量呈递减的趋势;所述前向是指从模型输入到模型输出的方向;
将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型;
其中,所述每个特征提取模块至少包括用于提取纵向特征的分支和用于提取横向特征的分支,所述用于提取纵向特征的分支基于1*n的卷积核构成,所述用于提取横向特征的分支基于m*1的卷积核构成,m、n为大于1的整数。
2.根据权利要求1所述的题目类型识别方法,其特征在于,至少存在一个模块的输入基于前一模块的输入和输出得到,所述模块是指所述特征提取模块或所述分类模块。
3.根据权利要求1所述的题目类型识别方法,其特征在于,所述题目分类模型包括4个特征提取模块和1个分类模块。
4.根据权利要求3所述的题目类型识别方法,其特征在于,所述将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型,包括:
将所述题目图像作为第一个特征提取模块的输入,通过所述第一个特征提取模块进行处理,输出所述题目图像的第一特征映射;
将所述第一特征映射作为所述第二个特征提取模块的输入,通过所述第二个特征提取模块进行处理,输出所述题目图像的第二特征映射;
将所述第一特征映射和所述第二特征映射进行逐通道逐点融合,作为所述第三个特征提取模块的输入,通过所述第三个特征提取模块进行处理,输出所述题目图像的第三特征映射;
将所述第二特征映射和所述第三特征映射进行逐通道逐点融合,作为所述第四个特征提取模块的输入,通过所述第四个特征提取模块进行处理,输出所述题目图像的第四特征映射;
将所述第四特征映射作为所述分类模块的输入,通过所述分类模块进行处理,输出所述题目图像的题目类型。
5.根据权利要求3所述的题目类型识别方法,其特征在于,第一个特征提取模块包括5个分支,第二个特征提取模块包括4个分支,第三个特征提取模块包括3个分支,第四个特征提取模块包括2个分支,每个分支至少包括卷积层;
所述分类模块包括卷积层和全连接层,最后一个全连接层的节点数量等于所述题目类型的设定数量。
6.根据权利要求5所述的题目类型识别方法,其特征在于,所述第三个特征提取模块和/或所述第四个特征提取模块还包括池化层。
7.根据权利要求1-6任一所述的题目类型识别方法,其特征在于,令前向上的第一个特征提取模块的分支数为k,k为大于1的整数,在所述第一个特征提取模块中的处理包括:
将所述题目图像分别通过k个分支进行卷积操作,得到k组特征映射;
对所述k组特征映射进行池化操作,得到k组大小相同的特征映射;
将所述k组大小相同的特征映射逐通道串联叠加,得到所述题目图像的第一特征映射。
8.根据权利要求1所述的题目类型识别方法,其特征在于,所述题目类型为算术题、填空题、应用题、连线题、选择题、判断题、作图题中的任意一种。
9.根据权利要求1所述的题目类型识别方法,其特征在于,所述题目分类模型的训练方法包括:
获取训练样本,所述训练样本包括题目图像样本和对应的题目类型标签;
构建初始的题目分类模型;
基于所述训练样本,对所述初始的题目分类模型进行训练,得到训练后的题目分类模型,其中,所述题目分类模型的输入为所述题目图像样本,输出为对所述题目图像样本预测的题目类型,训练标签为所述题目图像样本对应的题目类型标签,损失函数为多分类交叉熵损失函数。
10.一种题目类型识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的题目图像;
调用模块,用于调用训练后的题目分类模型,所述题目分类模型包括多个特征提取模块和一个分类模块,所述多个特征提取模块的连接关系为串联,最后一个特征提取模块与所述分类模块连接,每个特征提取模块包括多个分支,每个分支的卷积核大小不同,前向上的特征提取模块的分支数量呈递减的趋势;所述前向是指从模型输入到模型输出的方向;其中,所述每个特征提取模块至少包括用于提取纵向特征的分支和用于提取横向特征的分支,所述用于提取纵向特征的分支基于1*n的卷积核构成,所述用于提取横向特征的分支基于m*1的卷积核构成,m、n为大于1的整数;
处理模块,用于将所述题目图像输入所述题目分类模型,通过所述题目分类模型进行处理,输出得到所述题目图像的题目类型。
11.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。
CN202111267035.8A 2021-10-29 2021-10-29 题目类型识别方法和装置 Active CN113705548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111267035.8A CN113705548B (zh) 2021-10-29 2021-10-29 题目类型识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111267035.8A CN113705548B (zh) 2021-10-29 2021-10-29 题目类型识别方法和装置

Publications (2)

Publication Number Publication Date
CN113705548A CN113705548A (zh) 2021-11-26
CN113705548B true CN113705548B (zh) 2022-02-08

Family

ID=78647447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111267035.8A Active CN113705548B (zh) 2021-10-29 2021-10-29 题目类型识别方法和装置

Country Status (1)

Country Link
CN (1) CN113705548B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597999A (zh) * 2021-03-03 2021-04-02 北京易真学思教育科技有限公司 一种题目识别方法、装置、电子设备及计算机存储介质
CN112598000A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 题目识别方法、装置、电子设备及计算机存储介质
CN113223025A (zh) * 2021-06-03 2021-08-06 新东方教育科技集团有限公司 图像处理方法及装置、神经网络的训练方法及装置
WO2021164429A1 (zh) * 2020-02-21 2021-08-26 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164429A1 (zh) * 2020-02-21 2021-08-26 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN112597999A (zh) * 2021-03-03 2021-04-02 北京易真学思教育科技有限公司 一种题目识别方法、装置、电子设备及计算机存储介质
CN112598000A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 题目识别方法、装置、电子设备及计算机存储介质
CN113223025A (zh) * 2021-06-03 2021-08-06 新东方教育科技集团有限公司 图像处理方法及装置、神经网络的训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Inception-v4, inception-ResNet and the impact of residual connections on learning;Christian Szegedy 等;《Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence》;20171231;第4280-4282页 *

Also Published As

Publication number Publication date
CN113705548A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN108830235B (zh) 用于生成信息的方法和装置
CN113301430B (zh) 视频剪辑方法、装置、电子设备以及存储介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN109766422A (zh) 信息处理方法、装置及系统、存储介质、终端
CN113591864B (zh) 文本识别模型框架的训练方法、装置及系统
CN111695517A (zh) 图像的表格提取方法、装置、电子设备及存储介质
CN112784734A (zh) 一种视频识别方法、装置、电子设备和存储介质
CN113344014B (zh) 文本识别方法和装置
CN113837965A (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
CN113705548B (zh) 题目类型识别方法和装置
CN116935287A (zh) 视频理解方法和装置
CN113361462B (zh) 视频处理和字幕检测模型的方法及装置
CN115937039A (zh) 数据扩充方法、装置、电子设备及可读存储介质
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN114359811A (zh) 数据鉴伪方法、装置、电子设备以及存储介质
CN115331048A (zh) 图像分类方法、装置、设备以及存储介质
CN112651449A (zh) 确定视频的内容特征的方法、装置、电子设备及存储介质
CN113033373A (zh) 用于训练人脸识别模型及识别人脸的方法及相关装置
CN113360712B (zh) 视频表示的生成方法、装置和电子设备
CN113656642B (zh) 封面图像生成方法、装置、设备、存储介质和程序产品
CN116486195B (zh) 视频推荐模型的训练方法、视频推荐方法和装置
CN115204132B (zh) 图表描述信息生成方法、装置、设备、介质和程序产品
CN115049895B (zh) 一种图像属性识别方法、属性识别模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant