CN115063661A

CN115063661A - 一种智慧教学空间下的多源图像融合方法

Info

Publication number: CN115063661A
Application number: CN202210971868.0A
Authority: CN
Inventors: 陈泽生; 谢建国; 廖信海; 钟金顺; 李�昊
Original assignee: Guangzhou Think Height Information Technology Co ltd
Current assignee: Guangzhou Think Height Information Technology Co ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-16
Anticipated expiration: 2042-08-15
Also published as: CN115063661B

Abstract

本发明公开一种智慧教学空间下的多源图像融合方法，包括以下步骤：S1：获取教学空间的多源图像，所述多源图像能交叉完整的拍摄到教学空间的学生座位区域；S2：对获得的多源图像进行预处理，去除多源图像中不包含座位且没有相同位置点的位置；S3：对步骤S2处理后的多源图像进行图像特征点提取；S4：根据提取到的图像特征点对多源图像进行图像配准；S5：对图像配准后的多源图像进行图像拼接融合，得到融合后的图像。本发明可以有效减少非同源图像之间识别后的重复数据干扰，大幅降低人工智能计算资源的需要，从而使得课堂教学质量分析更容易成功落地。

Description

一种智慧教学空间下的多源图像融合方法

技术领域

本发明涉及智能教育技术领域，更具体地，涉及一种智慧教学空间下的多源图像融合方法。

背景技术

对课堂教学过程的智能分析，是推动教育现代化发展的重要手段之一。智慧教学空间，在部署多源视频采集环境时，需要进行图像融合，为后续人工智能计算提供数据。

图像融合（Image Fusion）是指将多源信道所采集到的关于同一目标的图像数据经过图像处理和计算机技术等，最大限度的提取各自信道中的有利信息，最后综合成高质量的图像，以提高图像信息的利用率、改善计算机解译精度和可靠性、提升原始图像的空间分辨率和光谱分辨率，利于监测。

一般情况下，图像融合由低到高分为三个层次：数据级融合、特征级融合、决策级融合。

数据级融合也称像素级融合，是指直接对传感器采集来得数据进行处理而获得融合图像的过程，它是高层次图像融合的基础，也是目前图像融合研究的重点之一。这种融合的优点是保持尽可能多得现场原始数据，提供其它融合层次所不能提供的细微信息。

数据级融合中有空间域算法和变换域算法，空间域算法中又有多种融合规则方法，如逻辑滤波法，灰度加权平均法，对比调制法等；变换域中又有金字塔分解融合法，小波变换法。其中的小波变换是当前最重要，最常用的方法。

在特征级融合中，保证不同图像包含信息的特征，如红外光对于对象热量的表征，可见光对于对象亮度的表征等等。

决策级融合主要在于主观的要求，同样也有一些规则，如贝叶斯法，D-S证据法和表决法等。

融合算法常结合图像的平均值、熵值、标准偏差、平均梯度；平均梯度反映了图像中的微小细节反差与纹理变化特征，同时也反映了图像的清晰度。目前对图像融合存在两个问题：最佳小波基函数的选取和最佳小波分解层数的选取。

现有技术中公开一种多源图像处理方法，包括：采用自动聚类获取多幅相关图像的第一聚类类标；其中，所述多幅相关图像包括采用多个传感器获取的多幅与地点或者目标相关的图像；至少基于所述第一聚类类标提取所述多幅相关图像的不变性特征和差异性特征；以及根据所述不变性特征以及所述差异性特征进行图像后处理，其中，所述图像后处理包括目标识别或图像融合。本发明综合利用多源遥感图像，在无先验的情况下从数据本身出发提取、解译不同传感器图像的不同层次、不同尺度上的不变性特征和差异性特征。该方案存在大量的重复数据干扰，对于后续进行人工智能计算资源有很高的要求，不利于落地。

发明内容

本发明提供一种智慧教学空间下的多源图像融合方法，减少非同源图像之间识别后的重复数据干扰。

为解决上述技术问题，本发明的技术方案如下：

一种智慧教学空间下的多源图像融合方法，包括以下步骤：

S1：获取教学空间的多源图像，所述多源图像能交叉完整的拍摄到教学空间的学生座位区域；

S2：对获得的多源图像进行预处理，去除多源图像中不包含座位且没有相同位置点的位置；

S3：对步骤S2处理后的多源图像进行图像特征点提取；

S4：根据提取到的图像特征点对多源图像进行图像配准；

S5：对图像配准后的多源图像进行图像拼接融合，得到融合后的图像。

优选地，所述多源图像与学校的基础数据信息关联，包括学院、班级和课程内容。

优选地，所述步骤S1具体为：

教学空间分为前部和后部，其中，学生座位区域位于教学空间的后部，在教学空间的前部对称设置有两台摄像机，对称设置的两台摄像机能交叉完整的拍摄到教学空间的学生座位区域。

优选地，所述步骤S2中对获得的多源图像进行预处理，具体为：

令教学空间前部左方摄像机获取的教学空间区域边界为AB，教学空间前部右方摄像机获取的教学空间区域边界为CD，AB与CD的交点为E，得到E点的像素坐标；

根据E点，求得左方摄像机获取的图像在E点的水平线上最左边的G点像素坐标和右方摄像机获取的图像在E点的水平线上最右边的H点像素坐标，保存E、G、H的像素坐标位置，且E点的水平线将教学空间分为前部和后部；

确定F点，线段EF将教学空间后部划分为左右对称的两部分；

对于左方摄像头获取的图像，按照水平线GE裁剪掉位于教学空间前部的区域；

对于右方摄像头获取的图像，按照水平线EH裁剪掉位于教学空间前部的区域。

优选地，对于左方摄像头裁剪后的图像，再把线段EF+N像素以右的区域裁剪去除；对右方摄像头裁剪后的图像，再把线段EF-N像素以左的区域裁剪去除。

优选地，所述步骤S3中使用SIFT算法对步骤S2处理后的多源图像进行图像特征点提取，具体为：

a)构建尺度空间，把二维图像的尺度空间定义为：

式中，I(x,y) 表示输入的图片，

是尺度可变高斯函数：

（x，y）是空间坐标也是尺度坐标，σ大小决定图像的平滑程度；

b) 图像金字塔的建立：对于一幅图像I，建立其在不同尺度的图像，也成为子八度，第一个子八度的尺寸为原图大小，后面每个子八度为上一个子八度降采样的结果，即原图的1/4，长宽分别减半，构成下一个子八度；

c) 找到特征点：检测尺度空间极值点，使中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，如果在尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该中间的检测点是图像在该尺度下的一个特征点，在极值比较的过程中，在每一组图像的顶层继续用高斯模糊生成了 3 幅图像，高斯金字塔有每组S+3层图像；

d) 除去不好的特征点：去掉DoG局部曲率不对称的像素，使用近似Harris Corner检测器，空间尺度函数泰勒展开式如

式中，D(X)表示高斯差分尺度空间，

，对上式求导，并令其为0，得到精确的位置：

把x代入空间尺度函数泰勒展开式，取前两项：

如果D(x)>0.03则留下，否则丢弃；

e) 给特征点赋方向参数：为d）确认的每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个特征点指定方向参数：

式中，

为(x,y)处梯度的模值，

为(x,y)处梯度的方向，L所用的尺度为每个特征点各自所在的尺度；

f）每个特征点有三个信息：位置、所处尺度和方向，由此可以确定一个SIFT特征区域，在以关键点为中心取8×8的窗口，每个小格代表关键点邻域所在尺度空间的一个像素，求得每个像素的梯度幅值与梯度方向，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值，然后用高斯窗口对其进行加权运算。然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，每个种子点有8个方向向量信息，对每个特征就形成一个4*4*8=128维的描述子，每一维都可以表示4*4个格子中一个的尺度或者方向；

优选地，所述步骤S4具体为：

步骤S3中生成了两个摄像头获取的图像的描述子，将两个图像中各个尺度的描述子进行匹配，匹配上128维即可表示两个特征点匹配上了，取其中一个图像中的某个关键点，并找出其与另一个图像中欧式距离最近的前两个关键点，在这两个关键点中，如果最近的距离除以次近的距离少于比例阈值，则接受这一对匹配点。

优选地，所述步骤S5具体为：

根据步骤S4匹配好两个图像的特征点后，计算一个图像到另一个图像的投影映射矩阵：

记一个图像为 img1，另一个图像为img2；

记img1的特征点为：pts1=[pt1_1,pt1_2,…pt1_m]；

记img2的特征点为：pts2=[pt2_1,pt2_2,…pt2_m]；

通过上面计算，知道pst1/pst2是一一对应的，为了把img1和img2融合，需要继续求出img1到img2的映射矩阵,具体步骤如下：

a)随机从pts1和pts2选择4组特征点；

b)根据标准齐次方程方法解析出映射矩阵；

c)把其他点代入映射矩阵，计算内点数量；

d)循环迭代，计算出内点最大的一组，作为最优映射矩阵；

有了映射矩阵后，直接进行图片拷贝后把图片拼接起来，步骤如下：

A）创建一个图片对象；

B）循环img1数据，拷贝到A）创建的对象中；

C）根据映射矩阵，对img2进行缩放和旋转，拷贝到A）创建的图像中，完成图像拼接。

优选地，步骤S5还包括：

拼接图像时，将img1和img2的重叠区域的像素值按设定的权值相加合成新的图像。

优选地，还包括步骤S6：将融合后的图像经ai算法处理后，得到对应的课堂教学过程性数据，将过程性数据与基础数据关联，即可得出整体性的课堂教学分析数据。

与现有技术相比，本发明技术方案的有益效果是：

本发明可以有效减少非同源图像之间识别后的重复数据干扰，大幅降低人工智能计算资源的需要，从而使得课堂教学质量分析更容易成功落地。

附图说明

图1为本发明的方法流程示意图。

图2为实施例提供的两个摄像头拍摄示意图。

图3为实施例提供的多源图像示意图。

图4为实施例提供的多源图像融合图像示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种智慧教学空间下的多源图像融合方法，如图1所示，包括以下步骤：

S3：对步骤S2处理后的多源图像进行图像特征点提取；

S4：根据提取到的图像特征点对多源图像进行图像配准；

实施例2

本实施例在实施例1的基础上，继续公开以下内容：

所述多源图像与学校的基础数据信息关联，包括学院、班级和课程内容。

所述步骤S1具体为：

教学空间分为前部和后部，其中，学生座位区域位于教学空间的后部，在教学空间的前部对称设置有两台摄像机，对称设置的两台摄像机能交叉完整的拍摄到教学空间的学生座位区域，摄像机还能与服务器网络连接。

所述步骤S2中对获得的多源图像进行预处理，具体为：

如图2所示，令教学空间前部左方摄像机获取的教学空间区域边界为AB，教学空间前部右方摄像机获取的教学空间区域边界为CD，AB与CD的交点为E，得到E点的像素坐标；

根据E点，求得左方摄像机获取的图像在E点的水平线上最左边的G点像素坐标和右方摄像机获取的图像在E点的水平线上最右边的H点像素坐标，保存E、G、H的像素坐标位置，且E点的水平线将教学空间分为前部和后部，三角形DEB包含的区域为两个摄像头拍摄图像的相同区域；

确定F点，线段EF将教学空间后部划分为左右对称的两部分；

对于左方摄像头裁剪后的图像，再把线段EF+N像素以右的区域裁剪去除；对右方摄像头裁剪后的图像，再把线段EF-N像素以左的区域裁剪去除。

这样处理后，两张图片都去除了不包含座位，而且没有相同位置点的位置，保留了EF左右各30像数的相同区域，这样降低了图像融合出错的边界，也提高了图像融合的效率。

实施例3

本实施例在实施例1和实施例2的基础上，继续公开以下内容：

所述步骤S3中使用SIFT算法（Scale-invariant feature transform尺度不变特征变换）对步骤S2处理后的多源图像进行图像特征点提取，SIFT不只具有尺度不变性，即使改变旋转角度，图像亮度或拍摄视角，仍然能够得到好的检测效果，具体为：

a)构建尺度空间，目的是模拟图像数据的多尺度特征，把二维图像的尺度空间定义为：

式中，I(x,y) 表示输入的图片，

是尺度可变高斯函数：

（x，y）是空间坐标也是尺度坐标，σ大小决定图像的平滑程度，大尺度（x，y）对应图像的概貌特征，小尺度（x，y）对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率)，小的σ对应精细尺度(高分辨率)；

b) 图像金字塔的建立：对于一幅图像I，建立其在不同尺度(scale)的图像，也成为子八度（octave），这是为了scale-invariant，也就是在任何尺度都能够有对应的特征点，第一个子八度的尺寸为原图大小，后面每个子八度为上一个子八度降采样的结果，即原图的1/4，长宽分别减半，构成下一个子八度（高一层金字塔）；

c) 找到特征点：检测尺度空间极值点，为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。使中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点，如果在尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点，在极值比较的过程中，每一组图像的首末两层是无法进行极值比较的，为了满足尺度变化的连续性，在每一组图像的顶层继续用高斯模糊生成了 3 幅图像，高斯金字塔有每组S+3层图像；

d) 除去不好的特征点：去掉DoG局部曲率不对称的像素，本方法通过拟和三维二次函数以精确确定关键点的位置和尺度（达到亚像素精度），同时去除低对比度的关键点和不稳定的边缘响应点，以增强匹配稳定性、提高抗噪声能力，使用近似Harris Corner检测器，空间尺度函数泰勒展开式如

式中，D(X)表示高斯差分尺度空间，

，对上式求导，并令其为0，得到精确的位置：

把x代入空间尺度函数泰勒展开式，取前两项：

如果D(x)>0.03则留下，否则丢弃，这样就去掉低对比度的特征点和不稳定的边缘响应点；

式中，

为(x,y)处梯度的模值，

f）每个特征点有三个信息：位置、所处尺度和方向，由此可以确定一个SIFT特征区域，在以关键点为中心取8×8的窗口，每个小格代表关键点邻域所在尺度空间的一个像素，求得每个像素的梯度幅值与梯度方向，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值，然后用高斯窗口对其进行加权运算。然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，每个种子点有8个方向向量信息，这种邻域方向性信息联合的思想增强了算法抗噪声的能力，同时对于含有定位误差的特征匹配也提供了较好的容错性。对每个特征就形成一个4*4*8=128维的描述子，每一维都可以表示4*4个格子中一个的尺度或者方向。将这个向量归一化之后，就进一步去除了光照的影响。

所述步骤S4具体为：

所述步骤S5具体为：

记一个图像为 img1，另一个图像为img2；

记img1的特征点为：pts1=[pt1_1,pt1_2,…pt1_m]；

记img2的特征点为：pts2=[pt2_1,pt2_2,…pt2_m]；

a)随机从pts1和pts2选择4组特征点；

b)根据标准齐次方程方法解析出映射矩阵；

c)把其他点代入映射矩阵，计算内点数量；

d)循环迭代，计算出内点最大的一组，作为最优映射矩阵；

A）创建一个图片对象；

B）循环img1数据，拷贝到A）创建的对象中；

两图的拼接后，如果不做处理，在拼接图的交界处，因为光照色泽的原因使得两图交界处的过渡看起来不够自然，所以需要特定的处理解决这种不自然。这里的处理思路是加权融合，在重叠部分由前一幅图像慢慢过渡到第二幅图像，步骤S5还包括：

还包括步骤S6：将融合后的图像经ai算法处理后，例如人脸识别、动作识别、目标识别等，得到对应的课堂教学过程性数据，将过程性数据与基础数据关联，即可得出整体性的课堂教学分析数据。

对于特大教室，可以根据相同方法，设置更多摄像头，交叉覆盖整个教学空间。

具体的多源图像如图3所示，融合后的图像如图4所示。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。