CN112308053B - 检测模型训练、判题方法、装置、电子设备及存储介质 - Google Patents

检测模型训练、判题方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112308053B
CN112308053B CN202011585373.1A CN202011585373A CN112308053B CN 112308053 B CN112308053 B CN 112308053B CN 202011585373 A CN202011585373 A CN 202011585373A CN 112308053 B CN112308053 B CN 112308053B
Authority
CN
China
Prior art keywords
target
text
text box
detection result
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011585373.1A
Other languages
English (en)
Other versions
CN112308053A (zh
Inventor
李兵
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202011585373.1A priority Critical patent/CN112308053B/zh
Publication of CN112308053A publication Critical patent/CN112308053A/zh
Application granted granted Critical
Publication of CN112308053B publication Critical patent/CN112308053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本申请提出一种检测模型训练、判题方法、装置、电子设备及存储介质。其中,所述检测模型训练方法包括:将待批改样本图像输入检测模型,得到待批改样本图像的版面分析检测结果和目标文本检测结果;基于待批改样本图像的版面分析检测结果,确定第一损失函数;基于待批改样本图像的目标文本检测结果,确定第二损失函数;基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,其中,预设调整系数是根据检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的;基于总损失函数,对检测模型进行训练。检测模型的准确性和效率得到了提升。

Description

检测模型训练、判题方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种检测模型训练、判题方法、装置、电子设备及存储介质。
背景技术
拍照判题是人工智能技术在教育领域的一项重要应用,主要流程包括:通过手机或平板电脑等终端设备进行拍照,然后将拍照得到的图像上传至拍照判题的应用程序进行判题。判题时,基于版面分析模型、文本行检测模型和识别模型实现判题,具体的,版面分析模型对题型进行判断得到题型和文本区域坐标(用文本框装起来),文本行检测模型只检测横向文本行(用文本框框起来),然后,根据版面分析模型和文本行检测模型的检测结果进行版面分析,对两个检测结果的框进行合并,同时根据每种题型的特点,分析得到每个题是由哪些框组成的,然后根据框的坐标在原图上进行裁剪,将裁剪得到的图像输入识别模型,得到每个题目的内容,然后根据题目内容进行判题,最后将判断结果进行输出。
然而,上述拍照判题方案,如果在理想情况下,版面分析模型、文本行检测模型和识别模型的结果都非常准确,那么最后通过判题策略得到的判题结果也会相当准确。但是,实际情况是,上述的拍照判题流程的前三个环节,每个环节的结果都不是非常准确,这导致最终的判题结果会出现错判对或者对判错的问题,也就是判题准确率比较低。
发明内容
本申请实施例提供检测模型训练、判题方法、装置、电子设备及存储介质,以解决相关技术存在的问题。
根据本申请的第一方面,提供了一种检测模型训练方法,包括:
将待批改样本图像输入检测模型,得到待批改样本图像的版面分析检测结果和目标文本检测结果;
基于待批改样本图像的版面分析检测结果,确定第一损失函数;
基于待批改样本图像的目标文本检测结果,确定第二损失函数;
基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,其中,预设调整系数是根据检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的;以及
基于总损失函数,对检测模型进行训练。
在一种实施方式中,还包括:
基于第二文本框的类别数量与第一文本框的类别数量的比较结果,得到预设调整系数。
在一种实施方式中,基于第二文本框的类别数量与第一文本框的类别数量的比较结果,得到预设调整系数,包括:
将第二文本框的类别数量与第一文本框的类别数量的比值,作为预设调整系数。
在一种实施方式中,还包括:
获取预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系;
基于对应关系,确定与第一文本框的类别数量、第二文本框的类别数量对应的预设调整系数。
在一种实施方式中,基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,包括:
基于预设调整系数和第一损失函数,得到第三损失函数;
基于第二损失函数和第三损失函数,确定检测模型的总损失函数。
在一种实施方式中,基于预设调整系数和第一损失函数,得到第三损失函数,包括:
将预设调整系数与第一损失函数的乘积,作为第三损失函数。
在一种实施方式中,基于第二损失函数和第三损失函数,确定检测模型的总损失函数,包括:
将第二损失函数与第三损失函数之和,作为总损失函数。
根据本申请的第二方面,提供一种判题方法,包括:
将待批改图像输入通过根据第一方面任一的检测模型训练方法得到的检测模型,得到待批改图像的版面分析检测结果和目标文本检测结果;
将待批改图像的目标文本检测结果输入识别模型,得到待批改图像的目标文本检测结果所对应的识别结果;
基于待批改图像的版面分析检测结果和目标文本检测结果,以及待批改图像的目标文本检测结果所对应的识别结果,得到判题结果。
在一种实施方式中,待批改图像的目标文本检测结果包括针对题干文本的目标文本检测结果和针对作答文本的目标文本检测结果;基于待批改图像的版面分析检测结果和目标文本检测结果,以及待批改图像的目标文本检测结果所对应的识别结果,得到判题结果,包括:
确定待批改图像的版面分析检测结果中每个第一文本框,与待批改图像的目标文本检测结果中每个第二文本框的对应关系;
基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题;
基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;
基于针对作答文本的目标文本检测结果所对应的识别结果和参考答案,得到判题结果。
在一种实施方式中,基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题,包括:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为珠心算题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照y坐标大小竖向排列,以完成珠心算题型的构题。
在一种实施方式中,基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题,包括:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为运算变式题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;
若宽高比位于预设第一区间,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成运算变式题型的构题;
若宽高比位于预设第二区间,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定与坐标原点距离最近的目标第二文本框,作为第一参照文本框,分别确定出与第一参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第一参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第一列,以第一参照文本框同一行的目标第二文本框为第二参照文本框,确定出与第二参照文本框位于同一列的目标第二文本框,对第二参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第二列,剩下的目标第二文本框位于第一列的一侧或者第二列的一侧,按照x坐标大小横向排列,以完成运算变式题型的构题;
预设第二区间的宽高比大于预设第一区间的宽高比。
在一种实施方式中,基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题,包括:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为按规律填数题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成按规律填数题型的构题。
在一种实施方式中,基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题,包括:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为填表题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定出一个目标第二文本框,作为第三参照文本框;
分别确定出与第三参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第三参照文本框同一行的目标第二文本框按照x坐标大小横向排列,对第三参照文本框同一列的目标第二文本框按照y坐标大小竖向排列;
依次以第三参照文本框同一行的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一列的目标第二文本框,对第四参照文本框同一列的目标第二文本框按照y坐标大小竖向排列,以完成填表题型的构题;或者,依次以第三参照文本框同一列的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一行的目标第二文本框,对第四参照文本框同一行的目标第二文本框按照x坐标大小横向排列,以完成填表题型的构题。
在一种实施方式中,基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案,包括:
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;
若宽高比位于预设第三区间,确定填表题型的表头为第一列目标第二文本框,从第二列目标第二文本框开始,每列目标第二文本框形成一个式子;
若宽高比位于预设第四区间,确定填表题型的表头为第一行目标第二文本框,从第二行目标第二文本框开始,每行目标第二文本框形成一个式子;预设第四区间的宽高比小于预设第三区间的宽高比;
基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,以及式子包含的针对作答文本的目标第二文本框所对应的识别结果,确定参考答案。
在一种实施方式中,基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,以及式子包含的针对作答文本的目标第二文本框所对应的识别结果,确定参考答案,包括:
基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,采用多种预设运算规则分别得到式子对应的初始答案;
对每种预设运算规则,基于式子包含的针对作答文本的目标第二文本框所对应的识别结果和初始答案,得到式子的初始判题结果,统计填表题型中每个式子对应的初始判题结果,得到预设运算规则对应的正确率;
将正确率最高的预设运算规则得到的式子对应的初始答案,作为式子的参考答案。
根据本申请的第三方面,提供一种检测模型训练装置,包括:
第一检测模块,用于将待批改样本图像输入检测模型,得到待批改样本图像的版面分析检测结果和目标文本检测结果;
第一确定模块,用于基于待批改样本图像的版面分析检测结果,确定第一损失函数;
第二确定模块,用于基于待批改样本图像的目标文本检测结果,确定第二损失函数;
第三确定模块,用于基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,其中,预设调整系数是根据检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的;以及
训练模块,用于基于总损失函数,对检测模型进行训练。
在一种实施方式中,还包括第一系数模块,用于:
基于第二文本框的类别数量与第一文本框的类别数量的比较结果,得到预设调整系数。
在一种实施方式中,第一系数模块,具体用于:
将第二文本框的类别数量与第一文本框的类别数量的比值,作为预设调整系数。
在一种实施方式中,还包括第二系数模块,用于:
获取预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系;
基于对应关系,确定与第一文本框的类别数量、第二文本框的类别数量对应的预设调整系数。
在一种实施方式中,第三确定模块,具体用于:
基于预设调整系数和第一损失函数,得到第三损失函数;
基于第二损失函数和第三损失函数,确定检测模型的总损失函数。
在一种实施方式中,第三确定模块,具体用于:
将预设调整系数与第一损失函数的乘积,作为第三损失函数。
在一种实施方式中,第三确定模块,具体用于:
将第二损失函数与第三损失函数之和,作为总损失函数。
根据本申请的第四方面,提供一种判题装置,包括:
第二检测模块,用于将待批改图像输入通过根据第一方面任一的检测模型训练方法得到的检测模型,得到待批改图像的版面分析检测结果和目标文本检测结果;
识别模块,用于将待批改图像的目标文本检测结果输入识别模型,得到待批改图像的目标文本检测结果所对应的识别结果;
判题模块,用于基于待批改图像的版面分析检测结果和目标文本检测结果,以及待批改图像的目标文本检测结果所对应的识别结果,得到判题结果。
在一种实施方式中,待批改图像的目标文本检测结果包括针对题干文本的目标文本检测结果和针对作答文本的目标文本检测结果;判题模块,具体用于:
确定待批改图像的版面分析检测结果中每个第一文本框,与待批改图像的目标文本检测结果中每个第二文本框的对应关系;
基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题;
基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;
基于针对作答文本的目标文本检测结果所对应的识别结果和参考答案,得到判题结果。
在一种实施方式中,判题模块,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为珠心算题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照y坐标大小竖向排列,以完成珠心算题型的构题。
在一种实施方式中,判题模块,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为运算变式题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;
若宽高比位于预设第一区间,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成运算变式题型的构题;
若宽高比位于预设第二区间,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定与坐标原点距离最近的目标第二文本框,作为第一参照文本框,分别确定出与第一参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第一参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第一列,以第一参照文本框同一行的目标第二文本框为第二参照文本框,确定出与第二参照文本框位于同一列的目标第二文本框,对第二参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第二列,剩下的目标第二文本框位于第一列的一侧或者第二列的一侧,按照x坐标大小横向排列,以完成运算变式题型的构题;
预设第二区间的宽高比大于预设第一区间的宽高比。
在一种实施方式中,判题模块,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为按规律填数题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成按规律填数题型的构题。
在一种实施方式中,判题模块,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为填表题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定出一个目标第二文本框,作为第三参照文本框;
分别确定出与第三参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第三参照文本框同一行的目标第二文本框按照x坐标大小横向排列,对第三参照文本框同一列的目标第二文本框按照y坐标大小竖向排列;
依次以第三参照文本框同一行的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一列的目标第二文本框,对第四参照文本框同一列的目标第二文本框按照y坐标大小竖向排列,以完成填表题型的构题;或者,依次以第三参照文本框同一列的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一行的目标第二文本框,对第四参照文本框同一行的目标第二文本框按照x坐标大小横向排列,以完成填表题型的构题。
在一种实施方式中,判题模块,具体用于:
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;
若宽高比位于预设第三区间,确定填表题型的表头为第一列目标第二文本框,从第二列目标第二文本框开始,每列目标第二文本框形成一个式子;
若宽高比位于预设第四区间,确定填表题型的表头为第一行目标第二文本框,从第二行目标第二文本框开始,每行目标第二文本框形成一个式子;预设第四区间的宽高比小于预设第三区间的宽高比;
基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,以及式子包含的针对作答文本的目标第二文本框所对应的识别结果,确定参考答案。
在一种实施方式中,判题模块,具体用于:
基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,采用多种预设运算规则分别得到式子对应的初始答案;
对每种预设运算规则,基于式子包含的针对作答文本的目标第二文本框所对应的识别结果和初始答案,得到式子的初始判题结果,统计填表题型中每个式子对应的初始判题结果,得到预设运算规则对应的正确率;
将正确率最高的预设运算规则得到的式子对应的初始答案,作为式子的参考答案。
根据本申请的第五方面,提供一种电子设备,包括存储器和处理器,该存储器内存储有可在处理器上运行的计算机程序,处理器执行该计算机程序时实现如第一方面或者第二方面任一的方法。
根据本申请的第六方面,提供一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或者第二方面任一的方法。
上述技术方案中的优点或有益效果至少包括:检测模型的准确性和效率得到了提升,为提高判题时的准确性和效率奠定了基础。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为相关技术中判题方法的版面分析示意图;
图2为根据本申请一实施例的检测模型训练方法的流程图;
图3为根据本申请另一实施例的判题方法的流程图;
图4为根据本申请另一实施例的判题方法的流程图;
图5A为根据本申请另一实施例的珠心算题型示意图;
图5B为根据本申请另一实施例的珠心算题型处理示意图;
图6A为根据本申请另一实施例的运算变式题型示意图;
图6B为根据本申请另一实施例的运算变式题型处理示意图;
图7A为根据本申请另一实施例的运算变式题型示意图;
图7B为根据本申请另一实施例的运算变式题型处理示意图;
图8A为根据本申请另一实施例的按规律填数题型示意图;
图8B为根据本申请另一实施例的按规律填数题型处理示意图;
图9A为根据本申请另一实施例的填表题题型示意图;
图9B为根据本申请另一实施例的填表题题型处理示意图;
图10为根据本申请另一实施例的检测模型训练装置的结构示意图;
图11为根据本申请另一实施例的检测模型训练装置的结构示意图;
图12为根据本申请另一实施例的检测模型训练装置的结构示意图;
图13为根据本申请另一实施例的判题装置的结构示意图;以及
图14为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
拍照判题是人工智能技术在教育领域的一项重要应用,主要流程包括:通过手机或平板电脑等终端设备进行拍照,然后将拍照得到的图像上传至拍照判题的应用程序进行判题。判题时,基于版面分析模型、文本行检测模型和识别模型实现判题,具体的,如图1所示,版面分析模型对题目进行判断得到题型和文本区域坐标(用深色文本框框起来),文本行检测模型只检测横向文本行(用浅色文本框框起来),然后,根据版面分析模型和文本行检测模型的检测结果进行版面分析,对两个检测结果的框进行合并,同时根据每种题型的特点,分析得到每个题是由哪些框组成的,然后根据框的坐标在原图上进行裁剪,将裁剪得到的图像输入识别模型,得到每个题目的内容,然后根据题目内容进行判题,最后将判题结果进行输出。
然而,上述拍照判题方案,如果在理想情况下,版面分析模型、文本行检测模型和识别模型的结果都非常准确,那么最后通过判题策略得到的判题结果也会相当准确。但是,实际情况是,上述的拍照判题流程的前三个环节,每个环节的结果都不是非常准确,这导致最终的判题结果会出现错判对或者对判错的问题,也就是判题准确率比较低。
为解决以上技术问题,本申请实施例提供了一种新的检测模型训练方案及判题方案,下面进行详细说明。
图2为根据本申请实施例的检测模型训练方法的流程图。如图2所示,该检测模型训练方法可以包括:
步骤S201:将待批改样本图像输入检测模型,得到待批改样本图像的版面分析检测结果和目标文本检测结果。
步骤S202:基于待批改样本图像的版面分析检测结果,确定第一损失函数。
步骤S203:基于待批改样本图像的目标文本检测结果,确定第二损失函数。
步骤S204:基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,其中,预设调整系数是根据检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的。
步骤S205:基于总损失函数,对检测模型进行训练。
其中,检测模型是既用于版面分析又用于目标检测的同一个模型。
第一文本框是可以框住题目的大文本框。第二文本框是可以框住目标文本的小文本框。这里目标文本可以包括题干文本和作答文本。一般情况下,题干文本为打印体,作答文本为手写体。
本方案中,通过采用同一个模型来执行版面分析与目标检测,无需使用单独的版面分析模型与单独的目标检测模型,实现了功能与模型的集成,减少了模型误差,也简化了处理过程,提高了处理准确性和效率。并且,由于使用同一个模型既进行版面分析,又进行文本检测,所以存在版面分析的第一文本框与目标检测的第二文本框之间的类别数量不均衡(例如,大文本框可能有1000个,而小文本框可能有4000个)导致的分类精度不高的问题,本方案中,基于第二文本框的类别数量与第一文本框的类别数量得到的预设调整系数,调整检测模型的总损失函数,以训练检测模型的参数,从而提高了分类精度,进一步提高了处理准确性。
实施中,得到预设调整系数的方式有多种。下面举例说明。
方式一
在一种实施方式中,检测模型训练方法的还可以包括:基于第二文本框的类别数量与第一文本框的类别数量的比较结果,得到预设调整系数。基于第二文本框的类别数量与第一文本框的类别数量的比较结果,可以更准确的得到预设调整系数,进而准确调整总损失函数,提高分类精度。
具体的,基于第二文本框的类别数量与第一文本框的类别数量的比较结果,得到预设调整系数,可以包括:将第二文本框的类别数量与第一文本框的类别数量的比值,作为预设调整系数。即,预设调整系数λ=第二文本框的类别数量/第一文本框的类别数量。通过第二文本框的类别数量与第一文本框的类别数量的比值对总损失函数进行调整,可以更加准确地减小二者的不平衡,从而实现分类精度的提高。
方式二
在一种实施方式中,检测模型训练方法的还可以包括:获取预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系;基于对应关系,确定与第一文本框的类别数量、第二文本框的类别数量对应的预设调整系数。实际应用中,可以根据经验统计,得到预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系。如此,可以根据实际需要基于该对应关系灵活选择预设调整系数。
在一种实施方式中,基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,具体实现方式可以包括:基于预设调整系数和第一损失函数,得到第三损失函数;基于第二损失函数和第三损失函数,确定检测模型的总损失函数。
L=λ*Lbig+ Lsmall(1)
其中,L 表示总损失函数,Lbig表示第一损失函数,Lsmall表示第二损失函数,λ*Lbig表示第三损失函数。
如此,通过预设调整系数对版面分析检测结果对应的第一损失函数进行调整,进而实现对总损失函数的准确调整,从而提高分类精度。
在一种实施方式中,基于预设调整系数和第一损失函数,得到第三损失函数,具体实现方式可以包括:将预设调整系数与第一损失函数的乘积,作为第三损失函数。如此,通过预设调整系数与第一损失函数的乘积实现对第一损失函数的调整,更能减少上述类别数量的不平衡对分类精度的影响。
在一种实施方式中,基于第二损失函数和第三损失函数,确定检测模型的总损失函数,具体实现方式可以包括:将第二损失函数与第三损失函数之和,作为总损失函数。综合调整过的第一损失函数和第二损失函数,得到的总损失函数,训练出的检测模型更准确。
实际应用中,检测模型具体的可以采用CenterNet模型或者单镜头多盒检测器(Single Shot MultiBox Detector,SSD)模型。
需要说明的是,由于目标文本包括题干文本和作答文本,在实际使用的过程中检测模型需要有2个检测头(即包含两个检测分支),一个检测分支可以检测到针对题干文本的第二文本框,另一个检测分支可以检测到针对作答文本的第二文本框。检测模型再有一个检测分支,可以进行版面分析,得到第一文本框及针对的题目的题型。
本申请实施例还提供一种判题方法,如图3所示,该判题方法包括:
步骤S301:将待批改图像输入通过根据以上任一实施例的检测模型训练方法得到的检测模型,得到待批改图像的版面分析检测结果和目标文本检测结果。
步骤S302:将待批改图像的目标文本检测结果输入识别模型,得到待批改图像的目标文本检测结果所对应的识别结果。
步骤S303:基于待批改图像的版面分析检测结果和目标文本检测结果,以及待批改图像的目标文本检测结果所对应的识别结果,得到判题结果。
本方案中,通过采用分类精度高的同一个模型来执行版面分析与目标检测,无需使用单独的版面分析模型与单独的目标检测模型,实现了功能与模型的集成,模型误差小,简化了处理过程,提高了处理准确性和效率。
在一种实施方式中,待批改图像的目标文本检测结果包括针对题干文本的目标文本检测结果和针对作答文本的目标文本检测结果;那么,基于待批改图像的版面分析检测结果和目标文本检测结果,以及待批改图像的目标文本检测结果所对应的识别结果,得到判题结果,具体实现方式可以包括:确定待批改图像的版面分析检测结果中每个第一文本框,与待批改图像的目标文本检测结果中每个第二文本框的对应关系;基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题;基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;基于针对作答文本的目标文本检测结果所对应的识别结果和参考答案,得到判题结果。
其中,针对作答文本的目标文本检测结果所对应的识别结果,即作答者填写的答案。
构题之后,可以基于所构题目的特点,以及针对题干文本的目标文本检测结果所对应的识别结果,自动确定参考答案,再将参考答案与作答者填写的答案进行比较,如果二者一致,判题结果为作答正确,如果二者不一致,判题结果为作答错误。如此,可以适应各种题目,进行自动准确的判题。
图4为根据本申请一实施例的判题方法的流程图。如图4所示,该判题方法的具体实现方式可以包括:
第一步:输入待批改图像。
具体的,将拍照得到的待批改图像输入拍照批改应用程序。
第二步:获取目标检测模型(也即检测模型),该目标检测模型包括三个检测分支。目标检测模型三个检测分支,对题目进行检测。
这里的题目的题型可以为常规的横式、竖式和脱式,也可以为珠心算、按规律填数、运算变式、填表题等特殊题型。相关技术中的判题方法只能处理横式、竖式和脱式这些常规的题型,但是无法处理一些低年级常见的珠心算、按规律填数、运算变式、填表题等特殊题型。为此,本申请实施例提供了相应的解决方案。下面对几种特殊题型进行简单介绍。
珠心算,是指竖排的一列数相加,这些数可能带符号也可能不带符号,参见图5A所示的珠心算的题型。
运算变式,一般有两种情况,一种接近正方形,另一种是横排长条状,参见图6A和图7A所示的两种不同的运算变式的题型。
按规律填数,一般是先给出数,然后通过寻找规律填数,参见图8A所示的按规律填数的题型。以小学数学举例,按规律填数,要么是等差数列,要么是固定加几减几,模式比较简单单一,通过简单推断便能找到规律,解决问题。
填表题,一般来讲有两种情况,一种是横着排列(表头竖着),然后每列进行运算,另一种是竖着排列(表头横着),每行进行运算,同时运算规则也相对复杂,可能有加减乘除取余5种情况,且每个数都不带运算符,具体运算由表头决定,参见图9A所示填表题的题型。
以上虽为特殊题型,但是总体来说版式单一且数量少,图片背景较为简单。
第一个检测分支检测第一文本框,即针对题目整体版面的大文本框,参见图5B、图6B、图7B、图8B和图9B中线条最粗的文本框,主要作用是将题目整个框起来,并得到第一文本框针对的题目的题型。
第二个检测分支检测针对题干文本的第二文本框,即针对打印体的小文本框(也称打印体小框),参见图5B、图6B、图7B、图8B和图9B中线条粗细居中的文本框,主要作用是将带打印体的用小文本框框起来。
第三个检测分支检测针对作答文本的第二文本框,即针对手写体的小文本框(也称手写体小框),参见图5B、图6B、图7B、图8B和图9B中线条最细的文本框,主要作用是将手写体用小文本框框起来。
第三步:利用识别模型对第二个检测分支和第三个检测分支的第二文本框进行识别,得到识别结果,即得到每个第二文本框和识别结果之间的对应关系。
第四步:根据第二步和第三步结果,确定待批改图像的版面分析检测结果中每个第一文本框,与待批改图像的目标文本检测结果中每个第二文本框的对应关系,基于该对应关系和识别结果得到第一文本框、第二文本框和第二文本框对应的识别结果之间的映射关系。
具体的,可以通过计算第二个检测分支和第三个检测分支得到的第二文本框与第一个检测分支得到的第一文本框的交并比进行题目整合。其中,交并比用于计算两个文本框交集和并集之比,如果两个文本框的交并比大于或者等于预设交并比,则确定两个文本框属于同一道题目。最终,可以判断出哪些第二文本框是属于同一个第一文本框,至此可以得到每道题目的第一文本框对应的第二文本框以及每个第二文本框对应的识别结果之间的映射关系。
之后,基于第二和四步,分题型进行处理。
第五步:基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题,也即,基于第二和四步的结果,进行构题。
对于珠心算:
从图5B可以看出,这里,珠心算的目标第一文本框指的是一个竖列,即一道题目,而不是图5B所示的整个表格。当然也可以设置成其它的第一文本框能够框住的范围。基于此,珠心算的构题过程如下:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为珠心算题型,基于上述对应关系,确定目标第一文本框对应的目标第二文本框;基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照y坐标大小竖向排列,以完成珠心算题型的构题。
对于运算变式:
从图6B和图7B可以看出,运算变式包括图7B所示的竖着排的运算变式1和图6B所示的横着排的运算变式2两种。基于此,运算变式的构题过程如下:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为运算变式题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;若宽高比位于预设第一区间,认为运算变式横着排,参见图6B所示的运算变式,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成运算变式题型的构题;若宽高比位于预设第二区间,认为运算变式竖着排,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定与坐标原点距离最近的目标第二文本框,参见图7B中左上角的目标第二文本框(即左上框),作为第一参照文本框,分别确定出与第一参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第一参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第一列,参见图7B中左侧一列,以第一参照文本框同一行的目标第二文本框为第二参照文本框,参见图7B中右上角的目标第二文本框(即右上框),一般只有一个,确定出与第二参照文本框位于同一列的目标第二文本框,对第二参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第二列,参见图7B中右侧一列,剩下的目标第二文本框位于第一列的一侧或者第二列的一侧,按照x坐标大小横向排列,参见图7B中间的目标第二文本框,以完成运算变式题型的构题;预设第二区间的宽高比大于预设第一区间的宽高比。其中,预设第一区间和第二预设区间的临界值第一预设宽高比可以根据实际情况设置。
确定与坐标原点距离最近的目标第二文本框时,可以计算每个目标第二文本框的中心点坐标与坐标原点的距离,对计算的每个目标第二文本框对应的距离进行比较,基于比较结果,确定与坐标原点距离最近的目标第二文本框。计算距离时,可以计算曼哈顿距离等等。
对于参照文本框来说,如果其余文本框的中心点x坐标在这个参照文本框的最小x值和最大x值之间,那么认为这些文本框跟这个参照文本框在同一列,如果其余文本框的中心点y坐标在这个参照文本框的最小y值和最大y值之间,那么认为这些文本框跟这个参照框在同一行。
另外,本实施例中,横向排列时,可以按照各目标第二文本框的中心点的x坐标大小横向排列。同样,竖向排序时,可以按照各目标第二文本框的中心点的y坐标大小横向排列。
对于按规律填数:
参见图8B所示的按规律填数题型,一般,按规律填数题型都是横着排的情况。基于此,按规律填数题型的构题过程如下:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为按规律填数题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成按规律填数题型的构题。
对于填表题:
填表题包括表头竖着和表头横着两种情况,两种情况可以基于相同的构题过程实现。基于此,填表题的构题过程如下:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为填表题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定出一个目标第二文本框,作为第三参照文本框;分别确定出与第三参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第三参照文本框同一行的目标第二文本框按照x坐标大小横向排列,对第三参照文本框同一列的目标第二文本框按照y坐标大小竖向排列;依次以第三参照文本框同一行的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一列的目标第二文本框,对第四参照文本框同一列的目标第二文本框按照y坐标大小竖向排列,以完成填表题型的构题;或者,依次以第三参照文本框同一列的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一行的目标第二文本框,对第四参照文本框同一行的目标第二文本框按照x坐标大小横向排列,以完成填表题型的构题。
其中,确定出一个目标第二文本框作为第三参照文本框时,具体可以确定出与坐标原点距离最近的目标第二文本框,确定方式可以参考运算变式中的方案,参见图9B中左上角的目标第二文本框。
第六步:基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;基于针对作答文本的目标文本检测结果所对应的识别结果和参考答案,得到判题结果。
对于以上珠心算、按规律填数、运算变式这些特殊题型来说,题目中不包含汉字,基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,根据所构题目的特点和识别结果本身的内容,即可以直接得到运算规则,进而计算参考答案。例如,图7B所示的变式运算,直接就可以将第一列的第一行的目标第二文本框的识别结果“110”与中间的目标第二文本框的识别结果“×6”组合得到乘法运算式110×6,基于此计算出参考答案“660”。
而图9B所示的填表题中的表头包含汉字“被除数”“除数”“商”,识别相对麻烦,本申请对此提供了特殊的处理方案。对于填表题,基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案,具体实现方式可以包括:
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;若宽高比位于预设第三区间,认为表头竖着,确定填表题型的表头为第一列目标第二文本框,从第二列目标第二文本框开始,每列目标第二文本框形成一个式子,参见图9B所示的填表题,表头右侧的一列形成一个式子;若宽高比位于预设第四区间,认为表头横着,确定填表题型的表头为第一行目标第二文本框,从第二行目标第二文本框开始,每行目标第二文本框形成一个式子;预设第四区间的宽高比小于预设第三区间的宽高比;基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,以及式子包含的针对作答文本的目标第二文本框所对应的识别结果,确定参考答案。
其中,预设第三区间和预设第四区间的临界值为第二预设宽高比。可以设置第二预设宽高比为1,若目标第一文本框的宽高比大于1,认为表头竖着,目标第一文本框的宽高比小于或者等于1,认为表头横着。
其中,基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,以及式子包含的针对作答文本的目标第二文本框所对应的识别结果,确定参考答案,具体实现方式可以包括:基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,采用多种预设运算规则分别得到式子对应的初始答案;对每种预设运算规则,基于式子包含的针对作答文本的目标第二文本框所对应的识别结果和初始答案,得到式子的初始判题结果,统计填表题型中每个式子对应的初始判题结果,得到预设运算规则对应的正确率;将正确率最高的预设运算规则得到的式子对应的初始答案,作为式子的参考答案。
其中,多种预设运算规则可以包括加、减、乘、除和取余5种基础运算。
举例来说,图9B中,表头右侧的第一个式子包含的针对题干文本的目标第二文本框对应的识别结果为“0.45”和“5”,分别计算“0.45+5”、“0.45-5”、“0.45×5”、“0.45÷5”、“0.45%5”的结果,得到式子对应的初始答案。其它式子依此处理。
对于加法,表头右侧第一个式子对应的初始答案“5.45”与该式子包含的针对作答文本的目标第二文本框所对应的识别结果“0.09”进行比较,得到作答错误的初始判题结果。其它式子依次处理。然后统计每个式子对应的初始判题结果,得到加法对应的正确率。
同样的,得到减、乘、除和取余对应的正确率。
以上加、减、乘、除和取余哪个正确率高,对应的初始答案就作为参考答案。
通过以上方案得到参考答案,不再依赖于表头,无需对表头的汉字表达的运算语义进行识别。
图9B中的一个式子包括3个目标第二文本框,也存在包括4个目标第二文本框的情况,同样适用本方案,比如,表头包括的汉字为第一个数、第二个数、和、差,这里,“和”就表示需要对两个数求和,“差”表示对两个数求差,需要确定两个参考答案。
至此,可以处理完上述的特殊题型。
本申请实施例还提供一种检测模型训练装置,如图10所示,包括:
第一检测模块1001,用于将待批改样本图像输入检测模型,得到待批改样本图像的版面分析检测结果和目标文本检测结果;
第一确定模块1002,用于基于待批改样本图像的版面分析检测结果,确定第一损失函数;
第二确定模块1003,用于基于待批改样本图像的目标文本检测结果,确定第二损失函数;
第三确定模块1004,用于基于第一损失函数、第二损失函数以及预设调整系数,确定检测模型的总损失函数,其中,预设调整系数是根据检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的;以及
训练模块1005,用于基于总损失函数,对检测模型进行训练。
在一种实施方式中,如图11所示,还包括第一系数模块1006,用于:
基于第二文本框的类别数量与第一文本框的类别数量的比较结果,得到预设调整系数。
在一种实施方式中,第一系数模块1006,具体用于:
将第二文本框的类别数量与第一文本框的类别数量的比值,作为预设调整系数。
在一种实施方式中,如图12所示,还包括第二系数模块1007,用于:
获取预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系;
基于对应关系,确定与第一文本框的类别数量、第二文本框的类别数量对应的预设调整系数。
在一种实施方式中,第三确定模块1004,具体用于:
基于预设调整系数和第一损失函数,得到第三损失函数;
基于第二损失函数和第三损失函数,确定检测模型的总损失函数。
在一种实施方式中,第三确定模块1004,具体用于:
将预设调整系数与第一损失函数的乘积,作为第三损失函数。
在一种实施方式中,第三确定模块1004,具体用于:
将第二损失函数与第三损失函数之和,作为总损失函数。
本申请实施例各装置中的各模块的功能可以参见上述检测模型训练方法中的对应描述,在此不再赘述。
本申请实施例还提供一种判题装置,如图13所示,包括:
第二检测模块1301,用于将待批改图像输入通过根据以上任一实施例的检测模型训练方法得到的检测模型,得到待批改图像的版面分析检测结果和目标文本检测结果;
识别模块1302,用于将待批改图像的目标文本检测结果输入识别模型,得到待批改图像的目标文本检测结果所对应的识别结果;
判题模块1303,用于基于待批改图像的版面分析检测结果和目标文本检测结果,以及待批改图像的目标文本检测结果所对应的识别结果,得到判题结果。
在一种实施方式中,待批改图像的目标文本检测结果包括针对题干文本的目标文本检测结果和针对作答文本的目标文本检测结果;判题模块1303,具体用于:
确定待批改图像的版面分析检测结果中每个第一文本框,与待批改图像的目标文本检测结果中每个第二文本框的对应关系;
基于待批改图像的版面分析检测结果和目标文本检测结果,以及对应关系,进行构题;
基于构题结果和针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;
基于针对作答文本的目标文本检测结果所对应的识别结果和参考答案,得到判题结果。
在一种实施方式中,判题模块1303,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为珠心算题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照y坐标大小竖向排列,以完成珠心算题型的构题。
在一种实施方式中,判题模块1303,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为运算变式题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;
若宽高比位于预设第一区间,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成运算变式题型的构题;
若宽高比位于预设第二区间,基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定与坐标原点距离最近的目标第二文本框,作为第一参照文本框,分别确定出与第一参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第一参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第一列,以第一参照文本框同一行的目标第二文本框为第二参照文本框,确定出与第二参照文本框位于同一列的目标第二文本框,对第二参照文本框同一列的目标第二文本框按照y坐标大小竖向排列以形成第二列,剩下的目标第二文本框位于第一列的一侧或者第二列的一侧,按照x坐标大小横向排列,以完成运算变式题型的构题;
预设第二区间的宽高比大于预设第一区间的宽高比。
在一种实施方式中,判题模块1303,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为按规律填数题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,将确定的目标第二文本框按照x坐标大小横向排列,以完成按规律填数题型的构题。
在一种实施方式中,判题模块1303,具体用于:
若待批改图像的版面分析检测结果中目标第一文本框针对的题目为填表题型,基于对应关系,确定目标第一文本框对应的目标第二文本框;
基于待批改图像的目标文本检测结果中目标第二文本框的坐标信息,确定出一个目标第二文本框,作为第三参照文本框;
分别确定出与第三参照文本框位于同一列的目标第二文本框和位于同一行的目标第二文本框,对第三参照文本框同一行的目标第二文本框按照x坐标大小横向排列,对第三参照文本框同一列的目标第二文本框按照y坐标大小竖向排列;
依次以第三参照文本框同一行的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一列的目标第二文本框,对第四参照文本框同一列的目标第二文本框按照y坐标大小竖向排列,以完成填表题型的构题;或者,依次以第三参照文本框同一列的每个目标第二文本框为第四参照文本框,确定出与第四参照文本框位于同一行的目标第二文本框,对第四参照文本框同一行的目标第二文本框按照x坐标大小横向排列,以完成填表题型的构题。
在一种实施方式中,判题模块1303,具体用于:
基于待批改图像的版面分析检测结果中目标第一文本框的坐标信息,确定目标第一文本框的宽高比;
若宽高比位于预设第三区间,确定填表题型的表头为第一列目标第二文本框,从第二列目标第二文本框开始,每列目标第二文本框形成一个式子;
若宽高比位于预设第四区间,确定填表题型的表头为第一行目标第二文本框,从第二行目标第二文本框开始,每行目标第二文本框形成一个式子;预设第四区间的宽高比小于预设第三区间的宽高比;
基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,以及式子包含的针对作答文本的目标第二文本框所对应的识别结果,确定参考答案。
在一种实施方式中,判题模块1303,具体用于:
基于式子包含的针对题干文本的目标第二文本框所对应的识别结果,采用多种预设运算规则分别得到式子对应的初始答案;
对每种预设运算规则,基于式子包含的针对作答文本的目标第二文本框所对应的识别结果和初始答案,得到式子的初始判题结果,统计填表题型中每个式子对应的初始判题结果,得到预设运算规则对应的正确率;
将正确率最高的预设运算规则得到的式子对应的初始答案,作为式子的参考答案。
本申请实施例各装置中的各模块的功能可以参见上述判题方法中的对应描述,在此不再赘述。
图14为用来实现本申请实施例的电子设备的框图。如图14所示,该电子设备包括:存储器1410和处理器1420,存储器1410内存储有可在处理器1420上运行的计算机程序。处理器1420执行该计算机程序时实现上述实施例中的检测模型训练方法或者判题方法。存储器1410和处理器1420的数量可以为一个或多个。
该电子设备还包括:
通信接口1430,用于与外界设备进行通信,进行数据交互传输。
如果存储器1410、处理器1420和通信接口1430独立实现,则存储器1410、处理器1420和通信接口1430可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponent Interconnect ,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture ,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1410、处理器1420及通信接口1430集成在一块芯片上,则存储器1410、处理器1420及通信接口1430可以通过内部接口完成相互间的通信。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现如以上任一实施例的检测模型训练方法或者判题方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (32)

1.一种检测模型训练方法,包括:
将待批改样本图像输入检测模型,得到所述待批改样本图像的版面分析检测结果和目标文本检测结果;
基于所述待批改样本图像的版面分析检测结果,确定第一损失函数;
基于所述待批改样本图像的目标文本检测结果,确定第二损失函数;
基于所述第一损失函数、所述第二损失函数以及预设调整系数,确定所述检测模型的总损失函数,其中,所述预设调整系数是根据所述检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的;以及
基于所述总损失函数,对所述检测模型进行训练。
2.根据权利要求1所述的方法,还包括:
基于所述第二文本框的类别数量与所述第一文本框的类别数量的比较结果,得到所述预设调整系数。
3.根据权利要求2所述的方法,其中,所述基于所述第二文本框的类别数量与所述第一文本框的类别数量的比较结果,得到所述预设调整系数,包括:
将所述第二文本框的类别数量与所述第一文本框的类别数量的比值,作为所述预设调整系数。
4.根据权利要求1所述的方法,还包括:
获取预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系;
基于所述对应关系,确定与所述第一文本框的类别数量、所述第二文本框的类别数量对应的所述预设调整系数。
5.根据权利要求1所述的方法,其中,所述基于所述第一损失函数、所述第二损失函数以及预设调整系数,确定所述检测模型的总损失函数,包括:
基于所述预设调整系数和所述第一损失函数,得到第三损失函数;
基于所述第二损失函数和所述第三损失函数,确定所述检测模型的总损失函数。
6.根据权利要求5所述的方法,其中,所述基于所述预设调整系数和所述第一损失函数,得到第三损失函数,包括:
将所述预设调整系数与所述第一损失函数的乘积,作为所述第三损失函数。
7.根据权利要求5或6所述的方法,其中,所述基于所述第二损失函数和所述第三损失函数,确定所述检测模型的总损失函数,包括:
将所述第二损失函数与所述第三损失函数之和,作为所述总损失函数。
8.一种判题方法,包括:
将待批改图像输入通过根据权利要求1~7中任一项所述的检测模型训练方法得到的检测模型,得到所述待批改图像的版面分析检测结果和目标文本检测结果;
将所述待批改图像的目标文本检测结果输入识别模型,得到所述待批改图像的目标文本检测结果所对应的识别结果;
基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述待批改图像的目标文本检测结果所对应的识别结果,得到判题结果。
9.根据权利要求8所述的方法,其中,所述待批改图像的目标文本检测结果包括针对题干文本的目标文本检测结果和针对作答文本的目标文本检测结果;所述基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述待批改图像的目标文本检测结果所对应的识别结果,得到判题结果,包括:
确定所述待批改图像的版面分析检测结果中每个第一文本框,与所述待批改图像的目标文本检测结果中每个第二文本框的对应关系;
基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述对应关系,进行构题;
基于构题结果和所述针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;
基于所述针对作答文本的目标文本检测结果所对应的识别结果和所述参考答案,得到判题结果。
10.根据权利要求9所述的方法,其中,所述基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述对应关系,进行构题,包括:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为珠心算题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,将确定的所述目标第二文本框按照y坐标大小竖向排列,以完成所述珠心算题型的构题。
11.根据权利要求9所述的方法,其中,所述基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述对应关系,进行构题,包括:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为运算变式题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的版面分析检测结果中所述目标第一文本框的坐标信息,确定所述目标第一文本框的宽高比;
若所述宽高比位于预设第一区间,基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,将确定的所述目标第二文本框按照x坐标大小横向排列,以完成所述运算变式题型的构题;
若所述宽高比位于预设第二区间,基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,确定与坐标原点距离最近的所述目标第二文本框,作为第一参照文本框,分别确定出与所述第一参照文本框位于同一列的所述目标第二文本框和位于同一行的所述目标第二文本框,对所述第一参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列以形成第一列,以所述第一参照文本框同一行的所述目标第二文本框为第二参照文本框,确定出与所述第二参照文本框位于同一列的所述目标第二文本框,对所述第二参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列以形成第二列,剩下的所述目标第二文本框位于所述第一列的一侧或者所述第二列的一侧,按照x坐标大小横向排列,以完成所述运算变式题型的构题;
所述预设第二区间的宽高比大于所述预设第一区间的宽高比。
12.根据权利要求9所述的方法,其中,所述基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述对应关系,进行构题,包括:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为按规律填数题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,将确定的所述目标第二文本框按照x坐标大小横向排列,以完成所述按规律填数题型的构题。
13.根据权利要求9所述的方法,其中,所述基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述对应关系,进行构题,包括:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为填表题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,确定出一个所述目标第二文本框,作为第三参照文本框;
分别确定出与所述第三参照文本框位于同一列的所述目标第二文本框和位于同一行的所述目标第二文本框,对所述第三参照文本框同一行的所述目标第二文本框按照x坐标大小横向排列,对所述第三参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列;
依次以所述第三参照文本框同一行的每个所述目标第二文本框为第四参照文本框,确定出与所述第四参照文本框位于同一列的所述目标第二文本框,对所述第四参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列,以完成所述填表题型的构题;或者,依次以所述第三参照文本框同一列的每个所述目标第二文本框为第四参照文本框,确定出与所述第四参照文本框位于同一行的所述目标第二文本框,对所述第四参照文本框同一行的所述目标第二文本框按照x坐标大小横向排列,以完成所述填表题型的构题。
14.根据权利要求13所述的方法,其中,所述基于构题结果和所述针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案,包括:
基于所述待批改图像的版面分析检测结果中所述目标第一文本框的坐标信息,确定所述目标第一文本框的宽高比;
若所述宽高比位于预设第三区间,确定所述填表题型的表头为第一列所述目标第二文本框,从第二列所述目标第二文本框开始,每列所述目标第二文本框形成一个式子;
若所述宽高比位于预设第四区间,确定所述填表题型的表头为第一行所述目标第二文本框,从第二行所述目标第二文本框开始,每行所述目标第二文本框形成一个式子;所述预设第四区间的宽高比小于所述预设第三区间的宽高比;
基于所述式子包含的针对题干文本的所述目标第二文本框所对应的识别结果,以及所述式子包含的针对作答文本的所述目标第二文本框所对应的识别结果,确定参考答案。
15.根据权利要求14所述的方法,其中,所述基于所述式子包含的针对题干文本的所述目标第二文本框所对应的识别结果,以及所述式子包含的针对作答文本的所述目标第二文本框所对应的识别结果,确定参考答案,包括:
基于所述式子包含的针对题干文本的所述目标第二文本框所对应的识别结果,采用多种预设运算规则分别得到所述式子对应的初始答案;
对每种所述预设运算规则,基于所述式子包含的针对作答文本的所述目标第二文本框所对应的识别结果和初始答案,得到所述式子的初始判题结果,统计所述填表题型中每个所述式子对应的所述初始判题结果,得到所述预设运算规则对应的正确率;
将正确率最高的所述预设运算规则得到的所述式子对应的初始答案,作为所述式子的参考答案。
16.一种检测模型训练装置,包括:
第一检测模块,用于将待批改样本图像输入检测模型,得到所述待批改样本图像的版面分析检测结果和目标文本检测结果;
第一确定模块,用于基于所述待批改样本图像的版面分析检测结果,确定第一损失函数;
第二确定模块,用于基于所述待批改样本图像的目标文本检测结果,确定第二损失函数;
第三确定模块,用于基于所述第一损失函数、所述第二损失函数以及预设调整系数,确定所述检测模型的总损失函数,其中,所述预设调整系数是根据所述检测模型中用于对题目进行版面分析的第一文本框的类别数量和用于对题目中目标文本进行检测的第二文本框的类别数量得到的;以及
训练模块,用于基于所述总损失函数,对所述检测模型进行训练。
17.根据权利要求16所述的装置,还包括第一系数模块,用于:
基于所述第二文本框的类别数量与所述第一文本框的类别数量的比较结果,得到所述预设调整系数。
18.根据权利要求17所述的装置,其中,所述第一系数模块,具体用于:
将所述第二文本框的类别数量与所述第一文本框的类别数量的比值,作为所述预设调整系数。
19.根据权利要求16所述的装置,还包括第二系数模块,用于:
获取预设的第一文本框的类别数量、第二文本框的类别数量与预设调整系数的对应关系;
基于所述对应关系,确定与所述第一文本框的类别数量、所述第二文本框的类别数量对应的所述预设调整系数。
20.根据权利要求16所述的装置,其中,所述第三确定模块,具体用于:
基于所述预设调整系数和所述第一损失函数,得到第三损失函数;
基于所述第二损失函数和所述第三损失函数,确定所述检测模型的总损失函数。
21.根据权利要求20所述的装置,其中,所述第三确定模块,具体用于:
将所述预设调整系数与所述第一损失函数的乘积,作为所述第三损失函数。
22.根据权利要求20或21所述的装置,其中,所述第三确定模块,具体用于:
将所述第二损失函数与所述第三损失函数之和,作为所述总损失函数。
23.一种判题装置,包括:
第二检测模块,用于将待批改图像输入通过根据权利要求1~7任一项所述的检测模型训练方法得到的检测模型,得到所述待批改图像的版面分析检测结果和目标文本检测结果;
识别模块,用于将所述待批改图像的目标文本检测结果输入识别模型,得到所述待批改图像的目标文本检测结果所对应的识别结果;
判题模块,用于基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述待批改图像的目标文本检测结果所对应的识别结果,得到判题结果。
24.根据权利要求23所述的装置,其中,所述待批改图像的目标文本检测结果包括针对题干文本的目标文本检测结果和针对作答文本的目标文本检测结果;所述判题模块,具体用于:
确定所述待批改图像的版面分析检测结果中每个第一文本框,与所述待批改图像的目标文本检测结果中每个第二文本框的对应关系;
基于所述待批改图像的版面分析检测结果和目标文本检测结果,以及所述对应关系,进行构题;
基于构题结果和所述针对题干文本的目标文本检测结果所对应的识别结果,确定参考答案;
基于所述针对作答文本的目标文本检测结果所对应的识别结果和所述参考答案,得到判题结果。
25.根据权利要求24所述的装置,其中,所述判题模块,具体用于:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为珠心算题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,将确定的所述目标第二文本框按照y坐标大小竖向排列,以完成所述珠心算题型的构题。
26.根据权利要求24所述的装置,其中,所述判题模块,具体用于:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为运算变式题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的版面分析检测结果中所述目标第一文本框的坐标信息,确定所述目标第一文本框的宽高比;
若所述宽高比位于预设第一区间,基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,将确定的所述目标第二文本框按照x坐标大小横向排列,以完成所述运算变式题型的构题;
若所述宽高比位于预设第二区间,基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,确定与坐标原点距离最近的所述目标第二文本框,作为第一参照文本框,分别确定出与所述第一参照文本框位于同一列的所述目标第二文本框和位于同一行的所述目标第二文本框,对所述第一参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列以形成第一列,以所述第一参照文本框同一行的所述目标第二文本框为第二参照文本框,确定出与所述第二参照文本框位于同一列的所述目标第二文本框,对所述第二参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列以形成第二列,剩下的所述目标第二文本框位于所述第一列的一侧或者所述第二列的一侧,按照x坐标大小横向排列,以完成所述运算变式题型的构题;
所述预设第二区间的宽高比大于所述预设第一区间的宽高比。
27.根据权利要求24所述的装置,其中,所述判题模块,具体用于:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为按规律填数题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,将确定的所述目标第二文本框按照x坐标大小横向排列,以完成所述按规律填数题型的构题。
28.根据权利要求24所述的装置,其中,所述判题模块,具体用于:
若所述待批改图像的版面分析检测结果中目标第一文本框针对的题目为填表题型,基于所述对应关系,确定所述目标第一文本框对应的目标第二文本框;
基于所述待批改图像的目标文本检测结果中所述目标第二文本框的坐标信息,确定出一个所述目标第二文本框,作为第三参照文本框;
分别确定出与所述第三参照文本框位于同一列的所述目标第二文本框和位于同一行的所述目标第二文本框,对所述第三参照文本框同一行的所述目标第二文本框按照x坐标大小横向排列,对所述第三参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列;
依次以所述第三参照文本框同一行的每个所述目标第二文本框为第四参照文本框,确定出与所述第四参照文本框位于同一列的所述目标第二文本框,对所述第四参照文本框同一列的所述目标第二文本框按照y坐标大小竖向排列,以完成所述填表题型的构题;或者,依次以所述第三参照文本框同一列的每个所述目标第二文本框为第四参照文本框,确定出与所述第四参照文本框位于同一行的所述目标第二文本框,对所述第四参照文本框同一行的所述目标第二文本框按照x坐标大小横向排列,以完成所述填表题型的构题。
29.根据权利要求28所述的装置,其中,所述判题模块,具体用于:
基于所述待批改图像的版面分析检测结果中所述目标第一文本框的坐标信息,确定所述目标第一文本框的宽高比;
若所述宽高比位于预设第三区间,确定所述填表题型的表头为第一列所述目标第二文本框,从第二列所述目标第二文本框开始,每列所述目标第二文本框形成一个式子;
若所述宽高比位于预设第四区间,确定所述填表题型的表头为第一行所述目标第二文本框,从第二行所述目标第二文本框开始,每行所述目标第二文本框形成一个式子;所述预设第四区间的宽高比小于所述预设第三区间的宽高比;
基于所述式子包含的针对题干文本的所述目标第二文本框所对应的识别结果,以及所述式子包含的针对作答文本的所述目标第二文本框所对应的识别结果,确定参考答案。
30.根据权利要求29所述的装置,其中,所述判题模块,具体用于:
基于所述式子包含的针对题干文本的所述目标第二文本框所对应的识别结果,采用多种预设运算规则分别得到所述式子对应的初始答案;
对每种所述预设运算规则,基于所述式子包含的针对作答文本的所述目标第二文本框所对应的识别结果和初始答案,得到所述式子的初始判题结果,统计所述填表题型中每个所述式子对应的所述初始判题结果,得到所述预设运算规则对应的正确率;
将正确率最高的所述预设运算规则得到的所述式子对应的初始答案,作为所述式子的参考答案。
31.一种电子设备,包括存储器和处理器,所述存储器内存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-15中任一项所述的方法。
32.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-15中任一项所述的方法。
CN202011585373.1A 2020-12-29 2020-12-29 检测模型训练、判题方法、装置、电子设备及存储介质 Active CN112308053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011585373.1A CN112308053B (zh) 2020-12-29 2020-12-29 检测模型训练、判题方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011585373.1A CN112308053B (zh) 2020-12-29 2020-12-29 检测模型训练、判题方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112308053A CN112308053A (zh) 2021-02-02
CN112308053B true CN112308053B (zh) 2021-04-09

Family

ID=74487622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011585373.1A Active CN112308053B (zh) 2020-12-29 2020-12-29 检测模型训练、判题方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112308053B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850235B (zh) * 2021-11-26 2022-03-04 北京世纪好未来教育科技有限公司 一种文本处理方法、装置、设备及介质
CN114067321B (zh) * 2022-01-14 2022-04-08 腾讯科技(深圳)有限公司 一种文本检测模型训练方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977942A (zh) * 2019-02-02 2019-07-05 浙江工业大学 一种基于场景分类和超分辨率的场景文字识别方法
EP3627392A1 (en) * 2018-04-16 2020-03-25 Turing AI Institute (Nanjing) Co., Ltd. Object identification method, system and device, and storage medium
CN111310746A (zh) * 2020-01-15 2020-06-19 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111738249A (zh) * 2020-08-26 2020-10-02 北京易真学思教育科技有限公司 图像检测方法、装置、电子设备及存储介质
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统
CN112132143A (zh) * 2020-11-23 2020-12-25 北京易真学思教育科技有限公司 数据处理方法、电子设备及计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3627392A1 (en) * 2018-04-16 2020-03-25 Turing AI Institute (Nanjing) Co., Ltd. Object identification method, system and device, and storage medium
CN109977942A (zh) * 2019-02-02 2019-07-05 浙江工业大学 一种基于场景分类和超分辨率的场景文字识别方法
CN111310746A (zh) * 2020-01-15 2020-06-19 支付宝实验室(新加坡)有限公司 文本行检测方法、模型训练方法、装置、服务器及介质
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统
CN111738249A (zh) * 2020-08-26 2020-10-02 北京易真学思教育科技有限公司 图像检测方法、装置、电子设备及存储介质
CN112132143A (zh) * 2020-11-23 2020-12-25 北京易真学思教育科技有限公司 数据处理方法、电子设备及计算机可读介质

Also Published As

Publication number Publication date
CN112308053A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN111931731B (zh) 判题方法、装置、电子设备及存储介质
CN111931730B (zh) 判题方法、装置、电子设备及存储介质
CN112308053B (zh) 检测模型训练、判题方法、装置、电子设备及存储介质
CN109389030B (zh) 人脸特征点检测方法、装置、计算机设备及存储介质
GB2596751A (en) Learning of detection model using loss function
CN108960062A (zh) 校正发票图像的方法、装置、计算机设备和存储介质
CN110490181B (zh) 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质
US20070256004A1 (en) Method for validating dynamically a spreadsheet formula
CN109710237A (zh) 一种基于自定义二维报表的在线修改校验方法及设备
CN111429482A (zh) 目标跟踪方法、装置、计算机设备和存储介质
CN110458168A (zh) 车辆检测报告的处理方法、装置、计算机设备和存储介质
US20190236336A1 (en) Facial recognition method, facial recognition system, and non-transitory recording medium
KR20200049373A (ko) 시뮬레이션 모델 보정 시스템 및 방법
US20210192965A1 (en) Question correction method, device, electronic equipment and storage medium for oral calculation questions
CN115203167A (zh) 数据检测方法、装置、计算机设备和存储介质
CN107832227A (zh) 业务系统的接口参数测试方法、装置、设备和存储介质
EP3637282A1 (en) Method and apparatus for displaying function parameter in spreadsheet, and electronic device
CN107067276A (zh) 确定对象影响力的方法及装置
KR950004454B1 (ko) 근사 추론 장치
US20210201086A1 (en) Training method and system of objects detection model based on adaptive annotation design
JP2023030085A5 (zh)
CN112528500B (zh) 一种场景图构造模型的评估方法及评估设备
CN115452101A (zh) 一种仪表检定方法、装置、设备及介质
CN111191578A (zh) 一种自动评分方法、装置、设备及存储介质
CN114973815A (zh) 一种用于在线教学对学生进行测试的系统、方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant