CN118038474B - 一种基于目标检测的作业定位方法、设备及介质 - Google Patents
一种基于目标检测的作业定位方法、设备及介质 Download PDFInfo
- Publication number
- CN118038474B CN118038474B CN202311359983.3A CN202311359983A CN118038474B CN 118038474 B CN118038474 B CN 118038474B CN 202311359983 A CN202311359983 A CN 202311359983A CN 118038474 B CN118038474 B CN 118038474B
- Authority
- CN
- China
- Prior art keywords
- original
- question type
- prediction
- coordinate
- topic profile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000009826 distribution Methods 0.000 claims abstract description 200
- 238000010586 diagram Methods 0.000 claims abstract description 86
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 76
- 230000009466 transformation Effects 0.000 claims abstract description 73
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000003860 storage Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 8
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/1607—Correcting image deformation, e.g. trapezoidal deformation caused by perspective
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本申请公开了一种基于目标检测的作业定位方法、设备及介质,涉及数字识别技术领域。方法包括:确定作业图片中各题型的原始分布特征,得到对应的原始题型分布图;确定作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;确定原始题型分布图中各标志点对应的第一坐标和预测题型分布图中各标志点对应的第二坐标,并根据第一坐标和第二坐标,生成原始题型分布图和预测题型分布图之间的仿射变换矩阵;通过仿射变换矩阵对原始位置坐标进行仿射变换,并将仿射变换后的原始位置坐标,映射到预测题型分布图中,以对预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
Description
技术领域
本申请涉及数字识别技术领域,具体涉及一种基于目标检测的作业定位方法、设备及介质。
背景技术
在作业定位识别中,比如对试卷答题框进行定位,通常采用定位点的方式对试卷进行定位识别,但是,试卷在扫描时受人为操作不当、扫描仪状异常态等诸多因素的干扰,扫描后的试卷会出现倾斜、褶皱、脏污、噪点、模糊、定位点缺失等情况,导致定位错误和识别错误的情况。
为解决上述识别错误缺陷,目前大多采用目标检测的方式对作业图片进行扫描,将扫描前的图片特征与目标检测后得到的图片特征进行匹配,进而对作业中各题型所在位置进行定位。目标检测虽然能够预测扫描图片中各个题型的位置,但是如果出现了重复预测、漏检、错检等情况,则会导致目标检测结果与原作业信息不匹配,作业识别失败。即便会有文件记录该图片的题型结构和位置,也存在因为扫描前后两者的基础坐标系不一样、扫描后图片存在缩放平移的情况等因素,造成作业定位的失败。
发明内容
为了解决上述问题,本申请提出了一种基于目标检测的作业定位方法,包括:
获取上传至扫描仪的作业图片,并确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,所述原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对所述作业图片进行识别,以确定所述作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,所述预测分布特征表示各题型对应答题框的预测位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标,并根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵;
通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,并将仿射变换后的所述原始位置坐标,映射到所述预测题型分布图中,以对所述预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
在本申请的一种实现方式中,根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵,具体包括:
根据各标志点对应的所述第一坐标和所述第二坐标之间的映射关系,构建与标志点数量相匹配的数量的线性方程组;
确定所述原始题型分布图和所述预测题型分布图分别对应的原点坐标,根据所述原点坐标和所述线性方程组,计算所述线性方程组中的目标参数;
根据所述目标参数,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵。
在本申请的一种实现方式中,所述线性方程组表示为:
x=a11*u+a12*v+b1
y=a21*u+a22*v+b2
其中,x和y分别表示第一坐标和第二坐标中的横坐标和纵坐标,u和v表示原点坐标,a11、a12、b1、a21、a22、b2表示目标参数。
在本申请的一种实现方式中,根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵之前,所述方法还包括:
通过预设的canny边缘检测算法,识别得到所述作业图片中各题型对应的实际题型边缘;
生成确定所述实际题型边缘对应的至少一个外接矩形,从所述外接矩形中筛选出所述实际题型边缘的最小外接矩形,根据所述最小外接矩形,确定所述实际题型边缘对应题型的顶点坐标;
根据所述顶点坐标,对所述预测题型分布图中各题型对应的预测分布特征进行修正,得到修正后的所述预测题型分布图。
在本申请的一种实现方式中,通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,具体包括:
对所述原始位置坐标的维度进行调整,以将所述原始位置坐标的行秩调整至与所述仿射变换矩阵的列秩相同;
将调整维度后得到的所述原始位置坐标与所述仿射变换矩阵进行乘法运算,得到仿射变换后的所述原始位置坐标。
在本申请的一种实现方式中,确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标之前,所述方法还包括:
确定所述原始题型分布图中的原始分布特征数量以及所述预测题型分布图中的预测分布特征数量;
将所述原始分布特征数量和所述预测分布特征数量进行对比,以确定所述原始分布特征数量和所述预测分布特征数量是否一致;
若是,则根据所述原始题型分布图和所述预测题型分布图,确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标;
若否,则通过预设的目标检测模型对所述作业图片进行重新识别。
在本申请的一种实现方式中,确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图,具体包括:
获取所述作业图片对应的题型格式文件,根据所述题型格式文件,确定所述作业图片中各题型的原始分布特征;其中,所述题型格式文件至少包括题型、所述题型对应的原始位置坐标;
根据所述原始位置坐标,得到对应的原始题型分布图。
在本申请的一种实现方式中,所述标志点为所述原始题型分布图和所述预测题型分布图中的左上点、左下点和右下点。
本申请实施例提供了一种基于目标检测的作业定位设备,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取上传至扫描仪的作业图片,并确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,所述原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对所述作业图片进行识别,以确定所述作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,所述预测分布特征表示各题型对应答题框的预测位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标,并根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵;
通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,并将仿射变换后的所述原始位置坐标,映射到所述预测题型分布图中,以对所述预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
本申请实施例提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
获取上传至扫描仪的作业图片,并确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,所述原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对所述作业图片进行识别,以确定所述作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,所述预测分布特征表示各题型对应答题框的预测位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标,并根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵;
通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,并将仿射变换后的所述原始位置坐标,映射到所述预测题型分布图中,以对所述预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
通过本申请提出的一种基于目标检测的作业定位方法能够带来如下有益效果:
根据原始题型分布图和预测题型分布图中各标志点的对应关系,计算原始题型分布图和预测题型分布图的仿射变换矩阵,通过仿射变换矩阵确定原始分布特征在预测题型分布图的映射坐标,即仿射变换后的原始位置坐标,这样,能够将原始位置坐标转换为预测题型分布图所在的向量空间中,通过仿射变化后的原始位置坐标对预测分布特征进行优化,便能够将原始的作业图片与目标检测结果相关联,进而对通过目标检测得到的预测分布特征进行过滤和补充,以达到作业结构化的目的,无需依次进行特征匹配,消除了基础坐标系不同、图片存在缩放平移等干扰因素对定位结果造成的不良影响。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于目标检测的作业定位方法的流程示意图;
图2为本申请实施例提供的一种作业示意图;
图3(a)-图3(b)为本申请实施例提供的一种标志点的位置示意图;
图4为本申请实施例提供的一种基于目标检测的作业定位设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本申请实施例提供的一种基于目标检测的作业定位方法,包括:
101:获取上传至扫描仪的作业图片,并确定作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,原始分布特征表示各题型对应答题框的原始位置坐标。
作业指的是完成学习方面的既定任务而进行的活动,比如试卷、日常作业、线下实践等,以试卷为例,一般需要通过扫描仪对试卷进行扫描,以此获取不同题型对应答题框中的内容,实现对试卷的批改。如图2所示的一种作业示意图所示,题型对应的答题框普遍以规则矩形的形式存在,由于答题框在试卷中的位置是固定的,不同题型便可形成具有固定分布特征的题型分布图。在对作业进行扫描之前,服务器需获取作业图片对应的题型格式文件,题型格式文件以json形式存在,根据题型格式文件,确定作业图片中各题型的原始分布特征。题型格式文件至少包括题型、题型对应的原始位置坐标,原始分布特征用于表征扫描前的作业中不同题型对应答题框的原始位置坐标,在得到各题型的原始分布特征后,便可根据原始位置坐标,得到对应的原始题型分布图。
102:通过预设的目标检测模型对作业图片进行识别,以确定作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,预测分布特征表示各题型对应答题框的预测位置坐标。
通过扫描仪对试卷进行扫描时,需通过预设的目标检测模型对作业图片进行识别,以确定作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图。预测分布特征用于表征扫描后的作业中不同题型对应答题框的预测位置坐标。在本申请实施例中,目标检测算法采用YOLOX,相较于其他算法来说,该种算法更为高效准确,在速度和准确性上有较好的表现,适用于要求实时和高精度检测的场景。而受限于服务器的性能,需要以YOLO算法为基础对模型的网络结构、权重参数、数据增强方式、激活函数等进行修改。
主干网络上的选择,为满足模型的轻量化,通过对比MobileNet、ShuffleNet、EfficietNet系列的网络结构,在准确度、推理速度、模型参数量的对比选择MobileNet V3作为主干网络结构。
MobileNetV3采用了一种倒残差结构,其中包括轻量级的深度可分离卷积和线性瓶颈结构。这种结构有效地减少了模型的参数数量,降低了计算量,同时保持了较高的准确性。在网络设计上引入了一种自适应宽度网络设计,根据输入图像的分辨率和任务的复杂性自动调整网络的宽度。这种设计可以根据具体应用的需求,平衡计算资源和模型性能。激活函数上引入了一种新的非线性激活函数Swish,它在保持计算效率的同时提供了更好的表示能力。Swish激活函数通过引入一个可学习的参数,将线性和非线性特征的融合优化到一起。
算法的主干部分采用Focus网络结构,实现方式是在输入图片上以每隔一个像素的间隔提取特征,这样就得到了四个独立的特征层。然后,将这四个特征层堆叠在一起,将宽度和高度的信息集中到通道维度上,从而扩增了输入通道的数量,使其增加了四倍,这样可以在更细粒度的层面上获取图像特征,这有助于提高目标检测的准确性。通过堆叠特征层,可以更好地捕捉目标的多尺度信息,并且在通道维度上增加了信息的表达能力。这种设计使得该算法能够更好地处理不同尺度和形状的目标,提高目标检测的性能和鲁棒性。模型的分类回归层采用Decoupled Head(解耦检测头)的设计,相较于之前的算法分类和位置回归在一个1*1的卷积中同时实现的,即共享部分网络结构和参数,这种设计在后续的实验中发现会影响模型的收敛和准确度,通过实验对比采用解耦的方式,分别处理分类和回归任务,在预测阶段再结合在一起检测。这种设计使得分类和回归任务可以分别进行优化,充分发挥各自的特点,并在最后整合时保持高效和准确。
在数据增强上,面对训练数据较少,类别数量分布不均的情况,采用Mosaic的数据增强方式,对原始数据进行一系列变换和扩充,生成更多的训练样本,从而提高模型的泛化能力和鲁棒性。它通过将四张随机选择的图像按照一定的比例拼接在一起,形成一张新的合成图像。在这个过程中,需要注意保持目标物体的位置和比例关系不发生失真,以确保模型能够正确地学习到物体的位置和形状信息,便于获取更多的特征。
通过以上对算法的修改结合实际需求,根据试卷的题型和内容分为22个类别,训练数据78570张图片,以Tensorflow为框架进行训练,训练后的目标检测模型大小在34M,将H5模型转换为Recognise_shijuan_V3.pb模型(pb模型)结构,加速模型原始化,使得模型在2秒内完成原始化,且预测速度较H5模型也得到提升。
103:确定原始题型分布图中各标志点对应的第一坐标和预测题型分布图中各标志点对应的第二坐标,并根据第一坐标和第二坐标,生成原始题型分布图和预测题型分布图之间的仿射变换矩阵。
在对作业图片进行特征识别后,需确保目标检测过程中没有出现漏检、重复检测的情况出现,此时,服务器需确定原始题型分布图中的原始分布特征数量以及预测题型分布图中的预测分布特征数量,将分布特征数量和预测分布特征数量进行对比,以确定原始分布特征数量和预测分布特征数量是否一致。
若是,则说明目标检测过程中并未发生漏检、重复检测等情况,后续便根据原始题型分布图和预测题型分布图,确定原始题型分布图中各标志点对应的第一坐标和预测题型分布图中各标志点对应的第二坐标即可。若否,则说明目标检测得到的结果与实际作业图片中的原始分布特征数量并不相同,此时需通过预设的目标检测模型对作业图片进行重新识别。
若目标检测过程中未出现漏检等情况,通过目标检测得到预测题题型型分布图后,由于会存在预测的题型分布特征与实际答题框不重合的情况,还需要对预测分布特征进行二次纠偏。
具体地,通过预设的canny边缘检测算法,识别得到作业图片中各题型对应的实际题型边缘。生成实际题型边缘对应的至少一个外接矩形,然后从外接矩形中筛选出实际题型边缘的最小外接矩形,根据最小外接矩形,能够确定实际题型边缘对应题型的顶点坐标。这样,根据顶点坐标,对预测题型分布图中各题型对应的预测分布特征进行修正,便可得到修正后的预测题型分布图,提高了识别结果的准确性。
在对预测题型分布图进行修正后,通过扫描前后得到的标志点坐标,生成原始题型分布图和预测题型分布图之间的仿射变换矩阵。仿射变换矩阵能够对原始题型分布图中的坐标点进行线性变换和平移,从而将坐标点变换为预测题型分布所在向量空间中的坐标点。在本申请实施例中,标志点为原始题型分布图和预测题型分布图中的左上点、左下点和右下点,图3(a)和图3(b)分别表示原始题型分布图和预测题型分布图,二者比例不同,如图3(a)和图3(b)所示,图3(a)中的A1、B1、C1为原始题型分布图中的标志点,图3(b)中的A2、B2、C2为预测题型分布图中的标志点。
考虑到图像在扫描前后的平移、缩放和旋转,仿射变换矩阵为两行三列的二维矩阵。根据各标志点对应的第一坐标和第二坐标之间的映射关系,即原始题型分布图和预测题型分布图中的左上点、左下点和右下点之间的映射关系,构建与标志点数量相匹配的数量的线性方程组。线性方程组表示为:
x=a11*u+a12*v+b1
y=a21*u+a22*v+b2
其中,x和y分别表示第一坐标和第二坐标中的横坐标和纵坐标,u和v表示原点坐标,a11、a12、b1、a21、a22、b2表示目标参数。
在得到线性方程组后,确定原始题型分布图和预测题型分布图分别对应的原点坐标,根据原点坐标和由三组不同的第一坐标和第二坐标所构成的线性方程组,能够计算线程方程组中的目标参数。根据目标参数,生成原始题型分布图和预测题型分布图之间的仿射变换矩阵,仿射变换矩阵可表示为:
104:通过仿射变换矩阵对原始位置坐标进行仿射变换,并将仿射变换后的原始位置坐标,映射到预测题型分布图中,以对预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
在得到仿射变换矩阵后,可通过仿射变换矩阵对原始位置坐标进行仿射变换。具体地,对原始位置坐标的维度进行调整,以将原始位置坐标的行秩调整至与仿射变换矩阵的列秩相同。然后,将调整维度后得到的原始坐标与仿射变换矩阵进行乘法运算,得到仿射变换后的原始位置坐标。
例如,仿射变换矩阵的维度为(2,3),原始位置坐标的维度为(1,2),对原始位置坐标维度进行调整拼接后所得到的维度为(3,1),此时将调整维度后的原始位置坐标和维度为(2,3)的仿射变换矩阵进行乘法运算,便可得到最终维度为(2,1)的原始位置坐标。
仿射变换后的原始位置坐标表示各题型在预测题型分布图所在向量空间中的位置坐标,将仿射变换后的原始位置坐标,映射到预测题型分布图中,然后将预测分布特征和仿射变换后的原始位置坐标进行对比,便可以对预测题型分布特征进行补充和过滤,实现对预测分布特征的优化,从而得到优化后的各题型对应的目标位置坐标。优化后的位置坐标是根据原始题型分布图和预测题型分布图之间的映射关系所得到的,将原始位置坐标转换为预测题型分布图所在的向量空间中,相较于特征匹配来说,无需考虑分布图的比例关系、坐标系存在不同等因素,便可以实现对目标检测结果的优化,得到更为准确的作业定位结果。
以上为本申请提出的方法实施例。基于同样的思路,本申请的一些实施例还提供了上述方法对应的设备和非易失性计算机存储介质。
图4为本申请实施例提供的一种基于目标检测的作业定位设备的结构示意图。如图4所示,包括:
至少一个处理器;以及,
至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取上传至扫描仪的作业图片,并确定作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对作业图片进行识别,以确定作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,预测分布特征表示各题型对应答题框的预测位置坐标;
确定原始题型分布图中各标志点对应的第一坐标和预测题型分布图中各标志点对应的第二坐标,并根据第一坐标和第二坐标,生成原始题型分布图和预测题型分布图之间的仿射变换矩阵;
通过仿射变换矩阵对原始位置坐标进行仿射变换,并将仿射变换后的原始位置坐标,映射到预测题型分布图中,以对预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
本申请实施例提供了一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
获取上传至扫描仪的作业图片,并确定作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对作业图片进行识别,以确定作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,预测分布特征表示各题型对应答题框的预测位置坐标;
确定原始题型分布图中各标志点对应的第一坐标和预测题型分布图中各标志点对应的第二坐标,并根据第一坐标和第二坐标,生成原始题型分布图和预测题型分布图之间的仿射变换矩阵;
通过仿射变换矩阵对原始位置坐标进行仿射变换,并将仿射变换后的原始位置坐标,映射到预测题型分布图中,以对预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种基于目标检测的作业定位方法,其特征在于,所述方法包括:
获取上传至扫描仪的作业图片,并确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,所述原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对所述作业图片进行识别,以确定所述作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,所述预测分布特征表示各题型对应答题框的预测位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标,并根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵;
通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,并将仿射变换后的所述原始位置坐标,映射到所述预测题型分布图中,以对所述预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标之前,所述方法还包括:
确定所述原始题型分布图中的原始分布特征数量以及所述预测题型分布图中的预测分布特征数量;
将所述原始分布特征数量和所述预测分布特征数量进行对比,以确定所述原始分布特征数量和所述预测分布特征数量是否一致;
若是,则根据所述原始题型分布图和所述预测题型分布图,确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标;
若否,则通过预设的目标检测模型对所述作业图片进行重新识别。
2.根据权利要求1所述的一种基于目标检测的作业定位方法,其特征在于,根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵,具体包括:
根据各标志点对应的所述第一坐标和所述第二坐标之间的映射关系,构建与标志点数量相匹配的数量的线性方程组;
确定所述原始题型分布图和所述预测题型分布图分别对应的原点坐标,根据所述原点坐标和所述线性方程组,计算所述线性方程组中的目标参数;
根据所述目标参数,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵。
3.根据权利要求2所述的一种基于目标检测的作业定位方法,其特征在于,所述线性方程组表示为:
x=a11*u+a12*v+b1
y=a21*u+a22*v+b2
其中,x和y分别表示第一坐标和第二坐标中的横坐标和纵坐标,u和v表示原点坐标,a11、a12、b1、a21、a22、b2表示目标参数。
4.根据权利要求1所述的一种基于目标检测的作业定位方法,其特征在于,根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵之前,所述方法还包括:
通过预设的canny边缘检测算法,识别得到所述作业图片中各题型对应的实际题型边缘;
生成确定所述实际题型边缘对应的至少一个外接矩形,从所述外接矩形中筛选出所述实际题型边缘的最小外接矩形,根据所述最小外接矩形,确定所述实际题型边缘对应题型的顶点坐标;
根据所述顶点坐标,对所述预测题型分布图中各题型对应的预测分布特征进行修正,得到修正后的所述预测题型分布图。
5.根据权利要求1所述的一种基于目标检测的作业定位方法,其特征在于,通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,具体包括:
对所述原始位置坐标的维度进行调整,以将所述原始位置坐标的行秩调整至与所述仿射变换矩阵的列秩相同;
将调整维度后得到的所述原始位置坐标与所述仿射变换矩阵进行乘法运算,得到仿射变换后的所述原始位置坐标。
6.根据权利要求1所述的一种基于目标检测的作业定位方法,其特征在于,确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图,具体包括:
获取所述作业图片对应的题型格式文件,根据所述题型格式文件,确定所述作业图片中各题型的原始分布特征;其中,所述题型格式文件至少包括题型、所述题型对应的原始位置坐标;
根据所述原始位置坐标,得到对应的原始题型分布图。
7.根据权利要求1所述的一种基于目标检测的作业定位方法,其特征在于,所述标志点为所述原始题型分布图和所述预测题型分布图中的左上点、左下点和右下点。
8.一种基于目标检测的作业定位设备,其特征在于,设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取上传至扫描仪的作业图片,并确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,所述原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对所述作业图片进行识别,以确定所述作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,所述预测分布特征表示各题型对应答题框的预测位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标,并根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵;
通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,并将仿射变换后的所述原始位置坐标,映射到所述预测题型分布图中,以对所述预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标之前,还包括:
确定所述原始题型分布图中的原始分布特征数量以及所述预测题型分布图中的预测分布特征数量;
将所述原始分布特征数量和所述预测分布特征数量进行对比,以确定所述原始分布特征数量和所述预测分布特征数量是否一致;
若是,则根据所述原始题型分布图和所述预测题型分布图,确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标;
若否,则通过预设的目标检测模型对所述作业图片进行重新识别。
9.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取上传至扫描仪的作业图片,并确定所述作业图片中各题型的原始分布特征,得到对应的原始题型分布图;其中,所述原始分布特征表示各题型对应答题框的原始位置坐标;
通过预设的目标检测模型对所述作业图片进行识别,以确定所述作业图片中各题型对应的预测分布特征,得到对应的预测题型分布图;其中,所述预测分布特征表示各题型对应答题框的预测位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标,并根据所述第一坐标和所述第二坐标,生成所述原始题型分布图和所述预测题型分布图之间的仿射变换矩阵;
通过所述仿射变换矩阵对所述原始位置坐标进行仿射变换,并将仿射变换后的所述原始位置坐标,映射到所述预测题型分布图中,以对所述预测题型分布图中各题型对应的预测分布特征进行优化,得到优化后的各题型分别对应的目标位置坐标;
确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标之前,还包括:
确定所述原始题型分布图中的原始分布特征数量以及所述预测题型分布图中的预测分布特征数量;
将所述原始分布特征数量和所述预测分布特征数量进行对比,以确定所述原始分布特征数量和所述预测分布特征数量是否一致;
若是,则根据所述原始题型分布图和所述预测题型分布图,确定所述原始题型分布图中各标志点对应的第一坐标和所述预测题型分布图中各标志点对应的第二坐标;
若否,则通过预设的目标检测模型对所述作业图片进行重新识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311359983.3A CN118038474B (zh) | 2023-10-19 | 2023-10-19 | 一种基于目标检测的作业定位方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311359983.3A CN118038474B (zh) | 2023-10-19 | 2023-10-19 | 一种基于目标检测的作业定位方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118038474A CN118038474A (zh) | 2024-05-14 |
CN118038474B true CN118038474B (zh) | 2024-08-16 |
Family
ID=90984508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311359983.3A Active CN118038474B (zh) | 2023-10-19 | 2023-10-19 | 一种基于目标检测的作业定位方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038474B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348019A (zh) * | 2020-11-17 | 2021-02-09 | 武汉璞睿互联技术有限公司 | 一种答题卡矫正方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948397A (zh) * | 2017-12-20 | 2019-06-28 | Tcl集团股份有限公司 | 一种人脸图像校正方法、系统及终端设备 |
CN114863456A (zh) * | 2021-01-19 | 2022-08-05 | 广州视源电子科技股份有限公司 | 题目识别方法、装置、设备及存储介质 |
CN113657354B (zh) * | 2021-10-19 | 2022-01-25 | 深圳市菁优智慧教育股份有限公司 | 基于深度学习的答题卡识别方法及系统 |
CN115456883A (zh) * | 2022-08-31 | 2022-12-09 | 中国银行股份有限公司 | 一种图像矫正方法、系统、存储介质及电子设备 |
CN115620332B (zh) * | 2022-11-17 | 2023-03-21 | 北京十六进制科技有限公司 | 一种基于纸质作业的自动批阅方法及设备 |
-
2023
- 2023-10-19 CN CN202311359983.3A patent/CN118038474B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348019A (zh) * | 2020-11-17 | 2021-02-09 | 武汉璞睿互联技术有限公司 | 一种答题卡矫正方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118038474A (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4641244A (en) | Method and apparatus for registering color separation film | |
CN110210400B (zh) | 一种表格文件检测方法及设备 | |
CN105740876B (zh) | 一种图像预处理方法及装置 | |
CN111161349A (zh) | 物体姿态估计方法、装置与设备 | |
WO2017050083A1 (zh) | 一种元件识别方法及装置 | |
CN111814905A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN111985469B (zh) | 一种图像中文字的识别方法、装置及电子设备 | |
CN111291752A (zh) | 一种发票识别方法及设备、介质 | |
CN112511767A (zh) | 一种视频拼接方法及设备、存储介质 | |
CN111860197A (zh) | 基于多光谱多模的低慢小目标感知方法及系统 | |
CN111144270B (zh) | 基于神经网络的手写文本工整度的评测方法与评测装置 | |
CN115937003A (zh) | 图像处理方法、装置、终端设备和可读存储介质 | |
CN111783763A (zh) | 基于卷积神经网络的文本定位框校正方法及其系统 | |
CN113807185B (zh) | 一种数据处理方法和装置 | |
CN118038474B (zh) | 一种基于目标检测的作业定位方法、设备及介质 | |
CN112580578B (zh) | 双目活体摄像头人脸测距方法及系统 | |
CN117689943A (zh) | 螺丝检测模型的训练方法、螺丝检测方法及装置 | |
WO2021117363A1 (ja) | オブジェクト検出方法及びオブジェクト検出装置 | |
CN112149656A (zh) | 箱体透气罩区域确定方法、装置、计算机设备和存储介质 | |
CN117095417A (zh) | 一种屏摄表单图像文本识别方法、装置、设备及存储介质 | |
CN117593264A (zh) | 一种改进的联合YOLOv5和知识蒸馏的汽车发动机缸孔内壁检测方法 | |
CN110031471B (zh) | 大口径光学元件表面缺陷增长分析方法、系统、装置 | |
CN116934734A (zh) | 基于图像的零件缺陷多路并行检测方法、装置及相关介质 | |
CN116091784A (zh) | 一种目标跟踪方法、设备及存储介质 | |
CN115457559A (zh) | 一种将文本及证照类图片智能摆正的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |