CN115100666B

CN115100666B - 基于显著性检测和超分辨率重建的ar会议系统及构建方法

Info

Publication number: CN115100666B
Application number: CN202210539121.8A
Authority: CN
Inventors: 郭楠; 赵雨康; 江宛婷; 高天寒
Original assignee: 东北大学
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2024-06-18
Anticipated expiration: 2042-05-18
Also published as: CN115100666A

Abstract

本发明提供一种基于显著性检测和超分辨率重建的AR会议系统及构建方法，所述系统包括投影区域识别模块、文字处理模块、增强展示模块；在骨干网络ResNet18中添加注意力模块，通过通道和空间两个维度，推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化,从而提高检测效果；使用灰度图进行训练，减少颜色对检测的影响；并且提出了一种基于元上采样的超分辨率重建模型，该模型选取性能优秀的RDN模块进行特征提取，利用元上采样能够以任意比例进行放缩图片。在HoloLens端实现AR会议系统，该系统能在不同角度完成对投影区域识别和重建，并且能够以AR的方式叠加三维模型展示给与会者。

Description

基于显著性检测和超分辨率重建的AR会议系统及构建方法

技术领域

本发明属于计算机视觉中的显著性检测和超分辨率重建技术领域，具体涉及一种基于显著性检测和超分辨率重建的AR会议系统及构建方法。

背景技术

随着当代科学技术的发展以及经济全球化的不断推进，国际会议交流日渐频繁，较多的国际会议要求参与者必须达到一定的规模以及来自不同的国家。从而演变出了视角不良和背景差异问题。在实际情况中，需要在对会议环境中的复杂背景下的投影区域进行实时的可靠性检测。人类视觉系统的出现适当的解决了这个困难，视觉系统是人类认识自然界的主要工具，该系统有着很强的数据筛查能力，能迅速准确地从复杂的视觉场景中定位自己感兴趣的目标，并快速检测与识别。而且能够准确快速的从复杂场景中定位感兴趣的目标并对该目标区域进行信息处理。这些功能主要是基于解决人类视觉处理问题的一种信息处理机制—注意力机制，我们将该处理机制归类为显著性目标检测方法。

图像的显著区域检测一直是计算机视觉领域的热点，显著性检测的目的在于通过使用不同的算法，让计算机可以正确的从图像中提取出显著性特征作为图像的属性，并通过计算和输出图像的显著性数值来体现其重要性。显著性检测算法可以对未知的重要场景中进行信息提取，最后信息提取的输出结果为显著性图。若实现显著性区域的准确检测技术，可以直接对图像的显著区域进行操作，从而起到节省计算资源，加快数据处理速度，提高图像处理效率的好处。因此，显著性目标检测模型在计算机视觉、计算机图形学、机器人学等领域都有着重要的意义以及研究价值。此外，显著性检测方法可以分为传统的显著性检测和基于深度学习的显著性检测。经典分类方法一般从两个角度出发，分为基于块与基于区域的显著性检测或者基于内战在线索与外在线索的显著性检测。由于本文采集的图片不包含外在线索，根据所利用的操作类型和属性，将传统的显著性检测可以分为基于块的显著性检测方法、具有内在线索的基于块的显著性检测方法、具有外在线索的基于区域的显著性检测方法；根据所采取的主要网络结构，将基于深度学习的显著性检测方法分为基于多层感知器(MLP)的模型和基于全卷积网络(FCN)的模型。随着计算机技术、移动互联网技术的快速发展，显著的目标检测模型已经被广泛应用。例如：目标检测和识别、图像压缩、人机交互以及图像分割等等方面。近年来，使用深度学习技术的图像超分辨率重建算法主要分为有监督学习的图像超分辨率，弱监督学习以及无监督学习的图像超分辨率三种重建方法。有监督学习的超分辨率重建算法可以分为基于卷积神经网络的超分辨率重建以及基于对抗神经网络的超分辨率重建。图像的分辨率作为衡量图像质量的重要指标，拥有更高分辨率的图像能够展示更多的细节，减少目标图像的数据丢失。因此，对图像的投影区域进行超分辨率重建这项工作是不可或缺的。

中国专利“CN113676690A一种视频会议的实现方法、设备及存储介质”提供了一种视频会议的实现方法、设备及存储介质。在此专利中，可以获取当前用户所处环境的真是环境图像以及参加视频会议成员的视频图像，然后将此视频图像设置在真实环境图像中，生成AR视频会议图像。并且可以将视频图像设置在真实环境图像中，增强视频图像的视频效果。

中国专利“CN114401350A一种音频处理方法及会议系统”提供了一种公开的音频处理方法和会议系统。使用与会议相连的电子设备进行声音数据处理，并由会议设备再对关联的电子设备的收音装置拾取的声音进行处理后输出，实现通过会议过程中相关的会议设备的电子设备进行收音装置拾取声音。

随着经济全球化程度不断加深，国际会议举办给出了包括时长、参与者及举办周期等统一标准。参与者必须包含不同国家，并且要求达到一定规模，在这种情形下，难免会存在视角不良的与会人员，并且由于来自不同地域语言文化上存在一定的差异，出现了客观存在的视角问题和与会人员背景差异问题。中国专利“CN113676690A一种视频会议的实现方法、设备及存储介质”提供了一种获取当前用户所处环境的真实环境图像以及参加视频会议成员的视频图像的方法，该方法存在视频图像不清晰或者画面劣质等问题，并不能有效的解决当前国际会议中出现的问题，给予与会者更加清晰真实的体验。

目前大型国际会议只配备同声传译，中国专利“CN114401350A一种音频处理方法及会议系统”提供了一种公开的音频处理方法和会议系统，通过收集会议的声音数据进行处理之后输出，但是缺少考虑到会议人员背景差异问题。

发明内容

基于上述问题，本发明提供一种基于显著性检测和超分辨率重建的AR会议系统，利用深度学习分割投影区域并提升分辨率，能够解决会议场景中与会者存在视角不佳和观看距离较远的问题，并且能够以AR方式扩展讲演者投影内容，实现会议AR增强显示应用。参会人员可以通过佩戴AR眼镜等可穿戴设备参与国际会议，通过显著性检测模型检测出投影区域，然后根据清晰程度来进行超分辨率重建，解决视角问题，之后使用AR眼镜通过增强现实技术，实现会议内容的扩展的理解与扩展，为参会者推送与投影区域相关的更为立体、丰富的信息，从而提高参会者获取信息的效率，提供更加高、便捷、多元的国际交流方式。

为实现上述技术效果，本发明提供的一种基于显著性检测和超分辨率重建的AR会议系统，包括：投影区域识别模块、文字处理模块、增强展示模块；

所述投影区域识别模块用于对采集到的投影区域图像进行分割、矫正、重建处理；

所述文字处理模块用于对采集到的投影区域图像中的高亮文字进行识别和文字翻译；

所述增强展示模块用于对投影区域内容、百科Web展示和三维模型进行增强展示。

所述投影区域识别模块包括投影区域检测模块、投影区域矫正模块以及投影区域重建模块；

所述投影区域检测模块用于识别与会者所拍摄图片当中投影区域；

所述投影区域矫正模块用于在与会者在视角不佳情况下，对所拍摄投影区域为平行四边形或四边形的图片进行矫正，使投影区域在分割后变为矩形，以达到正面观看效果；

所述投影区域重建模块用于在进行投影区域矫正操作之后，根据其尺寸大小自动进行超分辨率重建，当投影区域面积小于所拍摄面积四分之一时，则进行重建，将低分辨率投影区域变得清晰。

所述文字处理模块包括高亮文字识别模块以及翻译模块；

所述文字处理模块用于完成投影区域的处理后，将预置好的高亮词语以列表形式呈现给与会者，为增强展示模块提供基础；

所述翻译模块用于将投影区域文字部分按照用户需求进行翻译，翻译部分能够将投影区域文字部分翻译为与会者母语，目前支持中英文转换；

所述增强展示模块包括投影区域展示模块、百科Web展示模块以及三维模型展示模块；

所述投影区域展示模块用于对经过投影区域模块处理之后的图形进行展示；

所述百科Web展示模块用于对将所识别的高亮词语进行百科解释，进而扩展投影内容，与会者可以根据自身的需求来选取观看，可以解决部分与会者知识背景不同的问题；

所述三维模型展示模块用于进行模型平移、模型缩放以及模型旋转操作，能够让与会者更加直观理解抽象模型，可以选择模型摆放位置以及放大观看模型细节。

一种基于显著性检测和超分辨率重建的AR会议系统构建方法，包括：

对采集到的投影区域图像进行分割、矫正、重建处理；

对采集到的投影区域图像中的高亮文字进行识别和文字翻译；

对投影区域内容、百科Web展示和三维模型进行增强展示。

所述对采集到的投影区域图像进行分割、矫正、重建处理，包括：

步骤1：构建基于边缘信息的投影区域检测模型，对投影区域进行分割操作；包括：

步骤1.1：采集投影区域图像制作样本数据集，并划分为训练集和测试集；

步骤1.2：对样本数据集中的图像数据进行预处理；包括：

步骤1.2.1：采用水平镜像翻转操作和中心旋转操作进行数据增强处理，使得数据量增加一倍；

步骤1.2.2：采用平均值法进行灰度处理操作，将彩色图像中的三分量亮度进行平均计算得到一个灰度值，灰度值Graty(i,j)计算公式如下：

式中，R(i,j)、G(i,j)、B(i,j)分别表示；彩色图像中R(Red)分量、G(Green)分量以及B(Blue)分量的亮度值；

步骤1.3：采用BASNet作为基础模型，该模型分为预测模块和精细化模块，骨干网络采用resnet34，考虑到检测投影区域所需特征较少，使用resnet18作为骨干网络，并在预测模块中引入注意力机制，构建基于边缘信息的投影区域检测模型。包括：

步骤1.3.1：构建基于边缘信息的投影区域检测模型的预测模块，输入为数据集图片，输出为显著性检测精度最高的预测图；包括：

步骤1.3.1.1：使用resnet18作为预测层的骨干网络，并在预测网络第一层与最后一层添加注意力模块；

步骤1.3.1.2：将输入层滤波器的尺寸修改为3*3，步长修改为1；

步骤1.3.1.3：在输入层中保留编码器的最后一层，并且由深度学习边缘检测网络HED(Holistically-nested edge detection，简称HED)边缘检测来监督；

步骤1.3.1.4：删除编码器-解码器网络结构中的桥接阶段，减少深层特征对浅层特征的抑制；

步骤1.3.2：构建投影区域检测模型的注意力机制模块CBAM，利用空间注意力提高了对图片上投影区域的提取，利用通道注意力将包含投影区域信息多的通道赋予更大的权重，提高了检测投影区域的性能；包括：

步骤1.3.2.1：在预测模块中引入注意力机制，在第一个卷积层和预测模块最后一层后分别增加通道注意力模块和空间注意力模块；

步骤1.3.2.2：将输入的特征图分别经过基于宽度和深度的全局最大池化globalmax pooling和全局平均池化global average pooling，然后分别再经过多层感知机MLP；

步骤1.3.2.3：将MLP输出的特征进行像素级的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征；

步骤1.3.2.4：将该通道注意力特征和输入特征做像素级乘法操作，生成空间注意力Spatial attention模块需要的输入特征；

步骤1.3.2.5：对步骤1.3.2.4中所得特征图进行基于通道的全局最大池化和全局平均池化操作，并基于通道进行融合合并操作；

步骤1.3.2.6：将步骤1.3.3.5中的输出经过一个卷积操作，降维为1个通道；

步骤1.3.2.7：将步骤1.3.3.6中的输出经过sigmoid激活操作生成空间注意力特征；

步骤1.3.2.8：将空间注意力特征和空间注意力模块的输入特征做乘法，得到最终生成的特征。

步骤1.3.3：构建投影区域检测模型的精细化模块RM，对预测模块的输出进行精细化处理得到特征图，所述精细化模块包括输入层、编码器、桥阶层、解码器和输出层；在精细化模块中，每个阶段只有一个卷积层，每层有64个3×3大小的过滤器，随后是一个批处理标准化和一个ReLU激活函数；桥接层还有一个卷积层，拥有64个尺寸为3×3的滤波器，然后进行批量标准化和ReLU激活；编码器采用非重叠最大池进行下采样，解码器采用双线性插值进行上采样；这个精细化模块的输出是模型的最终结果显著性图；

步骤2：利用透射变换实验对特征图进行矫正操作；包括：

步骤2.1：进行透射变换实验，将投影区域检测模型所得二值图片作为输入；

步骤2.2：对步骤2.1中的二值化图片进行膨胀操作，将细小的黑色区域消除掉以减少噪声的干扰，得到进行膨胀操作后的图片；

步骤2.3：对进行步骤2.2操作后的图片进行腐蚀操作，从而减少由膨胀操作引起的误差；

步骤2.4：查找经腐蚀操作后得到图片的最大轮廓；

步骤2.5：拟合投影区域轮廓，通过拟合的投影区域轮廓确定投影区域四个顶点坐标；

步骤3：构建基于元上采样的超分辨率重建模型对投影区域进行重建操作；划分为两部分构建，第一部分是特征提取模块，第二部分是元上采样模块；通过对第一部分的简化，牺牲一定精度来换取重建速度的提升；包括：

步骤3.1：特征提取模块包括两层卷积和RDN网络(Residual Dense Network，简称RDN网络)组成，首先构建简化残差密集网络模型RDN对投影区域的特征进行提取，其次使用基于边缘的卷积模块(ECB)替换前两层卷积层，弥补由于简化带来的性能下降；简化后的RDN是由8个残差密集块(RDB)通过密集连接的方式组成；RDB是由8个卷积层构成，RDB能够从之前的RDB直接连接到当前RDB的所有层，从而形成连续内存(CM)机制，能够充分有效地提取投影区域的特征，包含大量文字图片等细节的局部特征；

利用RDB中的局部特征融合，局部特征融合自适应地融合前一个RDB模块和当前RDB模块中所有卷积层状态，第d-1个RDB特征图以串联方式直接与第d个RDB相连，可以减少网络特征总数量，从而降低冗余特征以提高检测速度；之后引入了1×1卷积层来自适应控制输出信息，获取局部特征后，使用全局特征融合，以整体的方式自适应地学习全局层次特征；进行消融实验分析，使用PPTSR数据集进行基础模型训练；

使用ECB模块，替换特征提取模块前两层卷积层，该模块可以在不增加开销的前提下，增强对边缘信息的提取；ECB模块四个分支：

第一个分支中卷积表达式为

F_n＝K_n*X+B_n (2)

式中，F_n输出特征，K_n输入特征和X输出特征的权重；B_n偏差；

第二个分支为扩展和压缩卷积，表达式为：

F_es＝K_s*(K_e*X+B_e)+B_s (3)

式中，{K_e，B_e}和{K_s,B_s}分别为1*1扩展卷积和3*3压缩卷积的权重和偏执。

第三个分支为具有缩放Sobel滤波器的顺序卷积，利用SR任务提取水平和垂直边缘信息，水平边缘信息垂直边缘信息/>分别表示为：

式中，(K_x,B_x)和(K_y,B_y)分别是在水平和垂直分支上1*1卷积的权重和偏执，和/>是1*1缩放参数和偏执，/>和*代表深度卷积和正常卷积，·是频道广播乘法；

通过缩放Sobel滤波器提取的组合边缘信息，具体表示为：

第四个分支为能够缩放的拉普拉斯滤波器的序列卷积，利用公式(6)计算缩放的二阶边缘信息F_lap

式中，(K_l，B_l)是1*1卷积的权重和偏执，(S_lap·D_lap)分别是深度卷积的比例因子和偏差。ECB输出在四个组成部分的组合中表示为：

F＝F_n+F_es+F_soh+F_lap (7)

步骤3.2：构建元上采样模块，用于对投影区域进行任意比例放大；所述元上采样模块包括位置投影、权重预测与特征映射；元上采样定义表达式如下；

I_SR(i，j)＝Φ(F_LR(i′，j′)，W(i，j)) (8)

式中，ISR(i，j)表示投影区域SR图像上(i,j)处的像素值。FLR(i'，j')表示投影区域LR图像上像素(i′,j′)的特征。W(i,j)是像素(i,j)的滤波器权重。Φ(·)是计算像素值的特征映射函数；

步骤3.2.1：进行投影区域的位置投影，将低分辨率投影区域图像当中的像素(i′,j′)，找到重建后SR图像上对应的每个像素(i,j)；

步骤3.2.2：进行投影区域的权重预测，使用权重预测网络来预测滤波器的权重，预先定义了每个比例因子的滤波器数量，并从训练数据集中学习W；

步骤3.2.3：进行投影区域的特征映射，从步骤3.2中的F_LR中提取LR图像上(i′,j′)的特征，使用权值预测网络预测滤波器的权值，再将特征映射到SR图像上对应的像素值。

所述的对采集到的投影区域图像中的高亮文字进行识别和文字翻译，包括：

步骤S1：使用微软AR眼镜的摄像机获取到画面图片；

步骤S2：将步骤S1中获取到的图片进行处理得到投影区域图片，并作为文字处理模块的输入；

步骤S3：对输入的投影区域图片进行图像处理获取文字高亮区域，对预置的高亮词语进行识别；

步骤S3.1：根据步骤S3中获取的文字高亮区域进行初始掩膜mask的制作；

步骤S3.2：对掩膜进行降噪处理；

步骤S3.3：使用处理后的掩膜截取高亮区域；

步骤S3.4：使用文字接口OCR对高亮区域的文字进行识别；

步骤S3.4.1：将文字识别获取的目标图像中的高亮词组个数和高亮词组数组返回到高亮文字列表中；

步骤S3.4.2：调用增强展示模块进行高亮词语列表的展示；

所述对投影区域内容、百科Web展示和三维模型进行增强展示，包括：

步骤C1：从服务器中获取到高亮词语列表；

步骤C2：获取与会者在高亮词语列表中选择的内容；

步骤C2.1：查看步骤C2中获取的高亮词语的百科解释；

步骤C2.1.1：访问百科web服务，并且调用百度百科API，获取到高亮词语的百科解释；

步骤C2.1.2：将步骤C2.1.1中获得百科解释内容，在微软AR眼镜窗口中展示在与会者视野中；

步骤C3：进行AR模型的叠加，增强展示高亮词组对应的3D模型，通过在3D模型绑定应用栏与边界控制组件实现用户对模型的平移、旋转以及缩放；

步骤C4：对投影区域和3D模型进行展示。

本发明的有益效果是：

本发明提出了一种基于显著性检测和超分辨率重建的AR会议系统及构建方法，首先，在骨干网络ResNet18中添加注意力模块，通过通道和空间两个维度，推断注意力图，然后将注意力图与输入特征图相乘以进行自适应特征优化,从而提高检测效果；其次使用灰度图进行训练，减少颜色对检测的影响；并且提出了一种基于元上采样的超分辨率重建模型，该模型选取性能优秀的RDN模块进行特征提取，利用元上采样能够以任意比例进行放缩图片。在HoloLens端实现AR会议系统，该系统能在不同角度完成对投影区域识别和重建，并且能够以AR的方式叠加三维模型展示给与会者。

附图说明

图1为本发明中基于显著性检测和超分辨率重建的AR会议系统构建原理图；

图2为本发明中投影区域PPT-SOD数据集部分标签，其中(a)表示原始图像数据；(b)表示简单标签；(c)分别表示精确标签；

图3为本发明中基于边缘信息的投影区域检测模型的框架图；

图4为本发明中透射变换示意图，其中(a)表示原始图像数据；(b)表示进行二值分割之后显著性检测的结果；(c)表示图像矫正的结果；

图5为本发明中基于元上采样的超分辨率重建模型的框架图；

图6为本发明中AR会议系统中投影区域识别模块构建流程图；

图7为本发明中AR会议系统中文字处理模块构建流程图；

图8为本发明中AR会议系统中增强展示模块构建流程图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。

如图1所示，一种基于显著性检测和超分辨率重建的AR会议系统，开发基于unity的AR会议系统，该系统包括投影区域识别模块、文字处理模块以及增强展示模块三大模块。在投影区域识别重建模块中，提出针对投影区域显著性检测的深度学习模型：采取以BASNet模型为基础，结合深度学习方法中边缘检测，利用投影区域低级图像特征，增加了该模型检测投影区域的针对性，采用常用的PR曲线、平均绝对误差(MAE)和F-measure值来评价修改后的模型。基于以上基础，以Meta-SR模型为基础，提出基于元上采样的超分辨率重建模型，保证能够以任意比例重建图像。最后，将系统部署到微软AR眼镜上，各个模型处理过后的投影区域作为客户端的输入，客户端为微软AR眼镜HoloLens，服务器端为电脑。本发明的实施不仅可以为投影区域内容中的文本进行视觉上的实时翻译，还将进一步为演讲者投影区域内容提供实时的、立体的、丰富的增强现实效果。

所述增强展示模块用于对投影区域内容、百科Web展示和三维模型模块进行增强展示。

所述投影区域矫正模块用于在与会者在视角不佳情况下，所拍摄投影区域为平行四边形或四边形的图片进行矫正，使投影区域在分割后变为矩形，以达到正面观看效果；

所述投影区域重建模块用于在进行投影区域矫正操作之后，根据其尺寸大小自动进行超分辨率重建，当投影区域面积小于所拍摄面积四分之一时，则进行重建，将低分辨率投影区域变得清晰；

所述文字处理模块包括高亮文字识别模块以及翻译模块；

所述的翻译模块用于：将投影区域文字部分按照用户需求进行翻译，翻译部分能够将投影区域文字部分翻译为与会者母语，目前支持中英文转换；

所述的增强展示模块包括投影区域展示模块、百科Web展示模块以及三维模型展示模块；

所述的投影区域展示模块用于对经过投影区域模块处理之后的图形进行展示；

所述的百科Web展示模块用于对将所识别的高亮词语进行百科解释，进而扩展投影内容，与会者可以根据自身的需求来选取观看，可以解决部分与会者知识背景不同的问题；

所述的三维模型展示模块用于进行模型平移、模型缩放以及模型旋转操作，能够让与会者更加直观理解抽象模型，可以选择模型摆放位置以及放大观看模型细节。

对采集到的投影区域图像进行分割、矫正、重建处理，构建基于unity的AR会议系统中的投影区域识别模块，其流程图如图6所示；包括：

步骤1：投影区域分割操作；

步骤1.1：投影区域数据收集；从公开数据集SUN、课堂拍摄、网络图片以及会议演讲四种渠道获取投影区域图片，自制包含2547张的数据集(PPT-SOD)，其中2347张图片作为训练集，200张图片作为测试集；根据任务的实际，对投影区域数据集进行标签制作。将标签值作为四边形，并且将PPT-SOD数据集标签细化，只将其投影区域标出。PPT-SOD数据集部分标签如图2所示；

步骤1.2：投影区域数据预处理；包括：

步骤1.2.1：数据集的数据增强操作，根据实际使用的数据形式，使用水平镜像翻转操作和中心旋转操作进行数据增强处理，使得数据量增加了一倍；

步骤1.2.2：数据集的灰度处理操作，根据实际任务情况，在图像灰度化处理中，选取平均值法进行处理。平均值法将彩色图像中的三分量亮度进行平均计算得到一个灰度值，灰度值计算公式如下；

Gray(i,j)＝(R(i,j)+G(i,j)+B(i,j))/3

数据分析，在完成步骤1.2中对数据集进行数据增强以及扩充数据集的数量之后，对数据集中图片进行视觉分布分析。将投影视角分为左视角、中间视角以及右视角，保证数据集视角分布情况均匀和识别角度相对倾斜的投影区域数据；

步骤1.3：构建基于边缘信息的投影区域检测模型，本模型的框架图如图3所示。在模型训练过程中，通过加强对图片中边缘信息的检测提高了基础模型的针对能力。基于边缘信息投影区域检测模型的骨干网络为resnet18，通过在resnet18中引入注意力机制，提高对投影区域的检测。图3所示中：basic resblock表示残差网络层；Basic resbkock withdownsapmping表示带有下采样的残差网络层；Attention表示注意力层；Conv表示卷积层；BN表示归一化函数；ReLU表示激活函数；Bilinear表示双线性函数；Upsamping表示上采样操作；downsapmping表示下采样操作；MaxPool表示最大池化操作；Concatenation表示串联操作。

步骤1.3.1：构建投影区域检测模型的预测模块；Basnet模型分为预测模块和精细化模块，Basnet骨干网络采用resnet34；考虑到检测投影区域所需特征较少，投影区域检测模型使用resnet18作为骨干网络，并在预测模块中引入注意力机制，构建基于边缘信息的投影区域检测模型；具体表述为：

步骤1.3.1.1：在BASNet模型(Boundary-Aware Salient Object Detection Net，简称BASNet)的基础上，对预测模块中的编码器-解码器网络结构进行了修改，将注意力模块添加到resnet18骨干网络中；

步骤1.3.1.2：保留对输入层滤波器的改变，使用尺寸为3*3，步长为1，从而保持第二个阶段前的特征图与输入图像分辨率相同；

步骤1.3.1.3：在输入层中保留编码器的最后一层，并且由HED边缘检测来监督；

步骤1.3.1.4：为了提高物体边缘检测效果以及产生高的显著性值，降低全局信息的影响，删除了桥接阶段；

预测模块中解码器的每个阶段的输入都是前一个阶段和编码器中对应的阶段上采用输出连接的特征映射。预测模块的最终输出是最后一张预测图的结果，因为其显著性检测的精度是最高的。

步骤1.3.2：构建投影区域检测模型的注意力机制模块CBAM，利用空间注意力提高了对图片上投影区域的提取，利用通道注意力将包含投影区域信息多的通道赋予更大的权重，提高了检测投影区域的性能；

步骤1.3.2.4：将该通道注意力特征和输入特征做像素级乘法操作，生成Spatialattention模块需要的输入特征；

步骤1.3.3：构建投影区域检测模型的精细化模块RM，对预测模块的输出进行精细化处理得到特征图，保留原有的细化模块用来学习预测图和标签之间的残差，采用残差编解码器架构，它包括输入层、编码器、桥阶层、解码器和输出层。

在精细化模块中，每个阶段只有一个卷积层，每层有64个3×3大小的过滤器，随后是一个批处理标准化和一个ReLU激活函数；

桥接层还有一个卷积层，拥有64个尺寸为3×3的滤波器，然后进行批量标准化和ReLU激活；

编码器采用非重叠最大池进行下采样，解码器采用双线性插值进行上采样。这个RM模块的输出是模型的最终结果显著性图。

步骤2：利用透射变换实验对特征图进行矫正操作；

步骤2.1：进行透射变换实验，将投影区域检测模型所得二值图片作为输入；该透射变换示意图如图4所示；

步骤2.4：使用Opencv当中的cv2.findContours寻找步骤2.3中得到的图片中的最大轮廓；

步骤2.5：使用多边形逼近函数cv2.approxPolyDP，拟合投影区域轮廓，通过拟合的投影区域轮廓确定投影区域四个顶点坐标；

步骤3：投影区域重建操作，构建基于元上采样的超分辨率重建模型，如图5所示。在Meta-SR的基础上，提出一种基于元上采样的超分辨率重建模型，对投影区域进行重建操作；包括两部分，第一部分是特征提取模块的构建，第二部分是元上采样模块的构建；首先，在模型训练过程中，使用简化后特征提取模块提取图片特征，通过使用ECB模块替换前两层卷积层，以加强对图片中边缘特征的提取，之后通过使用元上采样进行任意比例的重建；包括：

步骤3.1：特征提取模块包括两层卷积和RDN网络组成，首先构建简化残差密集网络模型RDN对投影区域的特征进行提取，其次使用基于边缘的卷积模块ECB替换前两层卷积层，弥补由于简化带来的性能下降；包括：

步骤3.1.1：简化后的RDN是由8个残差密集块(RDB)通过密集连接的方式组成；RDB是由8个卷积层构成，RDB能够从之前的RDB直接连接到当前RDB的所有层，从而形成连续内存(CM)机制，能够充分有效地提取投影区域的特征，包含大量文字图片等细节的局部特征。

步骤3.1.2：利用RDB中的局部特征融合，局部特征融合自适应地融合前一个RDB模块和当前RDB模块中所有卷积层状态，第d-1个RDB特征图以串联方式直接与第d个RDB相连，可以减少网络特征总数量，从而降低冗余特征以提高检测速度。

步骤3.1.3：之后引入了1×1卷积层来自适应控制输出信息，获取局部特征后，使用全局特征融合，以整体的方式自适应地学习全局层次特征；

步骤3.1.4：进行消融实验分析，使用PPTSR数据集进行基础模型训练，设置一系列实验，Mbxfy中x代表使用RDB模块的数量，y代表使用滤波器的数量；

依次根据RDB模块数量的不同和滤波器数量的不同分别设置了Mb12f64、Mb10f64、Mb8f64、Mb8f32以及Mb4f64五组消融实验；根据实验结果，考虑性能与检测速度的选取Mb8f64作为RDN部分结构；

使用ECB模块，替换特征提取模块前两层卷积层，该模块可以在不增加开销的前提下，增强对边缘信息的提取；ECB包括四个分支：

ECB第一个分支是常规的3×3卷积，以此来确保和修改Meta-SR模型之前浅网络层的性能。第一分支中的卷积表达式为：

F_n＝K_n*X+B_n (2)

第二个分支是扩展和压缩卷积，首先使用1*1卷积去扩展通道的维度，将维度提升之后可以获取更广泛的投影区域特征，之后使用3*3卷积将提取特征进行压缩。第二分支表示为：

F_es＝K_s*(K_e*X+B_e)+B_s (3)

第三个分支则是具有缩放Sobel滤波器的顺序卷积，通过该分支能够加强对边缘信息的提取。本发明中，重建内容包括大量文字和图案。利用SR任务提取水平和垂直边缘信息，水平边缘信息垂直边缘信息/>分别表示为：

式中，(K_x,B_x)和(K_y,B_y)分别是在水平和垂直分支上1*1卷积的权重和偏执，和/>是1*1缩放参数和偏执，/>和*代表深度卷积和正常卷积，·是频道广播乘法。

通过缩放Sobel滤波器提取的组合边缘信息，具体表示为：

最后一个分支是能够缩放的拉普拉斯滤波器的序列卷积，ECB模块使用拉普拉斯滤波器提取二阶空间导数，该滤波器对于边缘信息提取更稳定且对噪声更鲁棒，通过公式(6)提取缩放的二阶边缘信息。

式中，(K_l,B_l)是1*1卷积的权重和偏执，(S_lap·D_lap)分别是深度卷积的比例因子和偏差。

ECB输出在在四个组成部分的组合中表示为：

F＝F_n+F_es+F_sob+F_lap

步骤3.2：构建元上采样模块，用于对投影区域进行任意比例放大；元上采样模块通过将LR图像上的每个像素投影到HR特征图上的对应坐标，根据投影偏移和缩放因子预测卷积权重，完成不同放大比例因子的重建。并且由于训练多个倍率，导致训练量增大，该模块相比其他固定倍数模型，也可以表现出与之相当的性能。在AR会议系统当中因为显示窗口尺寸固定，需要对投影区域进行任意比例放大，采用元上采样模块进行任意比例放大；所述元上采样模块包括位置投影、权重预测与特征映射；选取Meta-SR模型中元上采样作为本发明中的上采样模块，对步骤3.1中获取的图片使用元上采样进行任意比例的重建。元上采样定义表达式如下；

I_SR(i，j)＝Φ(F_LR(i'，j')，W(i，j))

式中，I_SR(i，j)表示投影区域SR图像上(i,j)处的像素值。F_LR(i′,j′)表示投影区域LR图像上像素(i′,j′)的特征。W(i,j)是像素(i,j)的滤波器权重。Φ(·)是计算像素值的特征映射函数；

所述对采集到的投影区域图像中的高亮文字进行识别和文字翻译，构建基于unity的AR会议系统中的文字处理模块，其流程图如图7所示；包括：

步骤S1：使用微软AR眼镜的摄像机获取到画面图片；

步骤S3：对输入的投影区域图片进行图像处理获取文字高亮区域，对预置的高亮词语进行识别；包括：

步骤S3.2：对掩膜进行降噪处理，使其与原图中高亮区域尽可能的吻合；

步骤S3.3：使用处理后的掩膜截取高亮区域；

步骤S3.4：使用文字API(OCR)对高亮区域的文字进行识别；首先将文字识别获取的目标图像中的高亮词组个数和高亮词组数组返回到高亮文字列表中；然后调用增强展示模块进行高亮词语列表的展示；

步骤S4：调用百度文字识别提供的接口API，对投影区域图片中的文字部分进行识别；首先调用百度提供的翻译接口API对步骤S3获取的文字部分进行翻译；然后展示文字部分的翻译内容；

所述对投影区域内容、百科Web展示和三维模型进行增强展示，构建基于unity的AR会议系统中的增强展示模块，其流程图如图8所示；包括：

步骤C1：从服务器中获取高亮词语列表；

步骤C2：获取与会者在高亮词语列表中选择的内容；

步骤C2.1：查看步骤C2中获取的高亮词语的百科解释；包括：

步骤C3：进行AR模型的叠加，增强展示高亮词组对应的3D模型，通过在3D模型绑定应用栏与边界控制组件实现用户对模型的平移、旋转以及缩放；需要添加Bounds Control脚本作为边界控件，定义其中的平移、旋转、缩放句柄；添加应用栏预制件，并将该预制件绑定到需要增强展示的3D模型对象上，实现用户对模型的平移、旋转以及缩放。

步骤C4：对投影区域和3D模型进行展示。

本发明提供的基于显著性检测和超分辨率重建的AR会议系统，使用了计算机视觉当中的显著性目标检测技术与超分辨率重建技术去解决了会议场景中与会者存在视角不佳和观看距离较远的问题，并且能够以AR方式扩展讲演者投影内容。引入CBAM注意力模块通过利用边缘检测来提升对投影区域的检测，提出了一种端到端的模型CS-BASNet，所改进模型能够捕获大尺度和精细边界，所提模型在投影区域检测具有较好的性能，能够有效检测出投影区域。利用Meta-SR模型能够以任意比例放大的特性进行投影区域重建，提升模型重建速度。对特征提取模块中引入计算开销极低的ECB模块，使得模型能够有效重建投影区域。

AR会议系统的开发：将系统部署到HoloLens眼镜端，用户佩戴微软AR眼镜就能进行3D交互，本系统操作简单、方便快捷，可以作为当前会议办公场景下的一种高效的交流方式。

Claims

1.一种基于显著性检测和超分辨率重建的AR会议系统，包括投影区域识别模块、文字处理模块、增强展示模块；

所述增强展示模块用于对投影区域内容、百科Web展示和三维模型进行增强展示；

所述投影区域重建模块用于在进行投影区域矫正操作之后，根据其尺寸大小自动进行超分辨率重建；

所述文字处理模块包括高亮文字识别模块以及翻译模块；

所述翻译模块用于将投影区域文字部分按照用户需求进行翻译，翻译部分能够将投影区域文字部分翻译为与会者母语；

所述百科Web展示模块用于对将所识别的高亮词语进行百科解释；

所述三维模型展示模块用于进行模型平移、模型缩放以及模型旋转操作；

所述一种基于显著性检测和超分辨率重建的AR会议系统的构建方法，包括：

对采集到的投影区域图像进行分割、矫正、重建处理；

对投影区域内容、百科Web展示和三维模型进行增强展示；

步骤1：构建基于边缘信息的投影区域检测模型，对投影区域进行分割操作；

步骤2：利用透射变换实验对特征图进行矫正操作；

步骤3：构建基于元上采样的超分辨率重建模型对投影区域进行重建操作；

所述步骤1包括：

步骤1.2：对样本数据集中的图像数据进行预处理；

步骤1.3：构建基于边缘信息的投影区域检测模型；

所述步骤1.2包括：

步骤1.2.1：采用水平镜像翻转操作和中心旋转操作进行数据增强处理；

步骤1.2.2：采用平均值法进行灰度处理操作；

所述步骤1.3包括：

步骤1.3.1：构建基于边缘信息的投影区域检测模型的预测模块，输入为数据集图片，输出为显著性检测精度最高的预测图；具体表述为：

步骤1.3.1.2：在输入层中保留编码器的最后一层，并且由深度学习边缘检测网络HED边缘检测来监督；

步骤1.3.1.3：删除编码器-解码器网络结构中的桥接阶段，减少深层特征对浅层特征的抑制；

步骤1.3.2：构建投影区域检测模型的注意力机制模块CBAM；具体表述为：

步骤1.3.2.2：将输入的特征图分别经过基于宽度和深度的全局最大池化和全局平均池化操作，然后分别再经过多层感知机MLP；

步骤1.3.2.4：将该通道注意力特征和输入特征做像素级乘法操作；

步骤1.3.2.6：将步骤1.3.2.5中的输出经过一个卷积操作，降维为1个通道；

步骤1.3.2.7：将步骤1.3.2.6中的输出经过sigmoid激活操作生成空间注意力特征；

步骤1.3.2.8：将空间注意力特征和空间注意力模块的输入特征做乘法，得到最终生成的特征；

步骤1.3.3：构建投影区域检测模型的精细化模块，对预测模块的输出进行精细化处理得到特征图，所述精细化模块包括输入层、编码器、桥阶层、解码器和输出层；

所述步骤2包括：

步骤2.1：将投影区域检测模型所得二值图片作为输入，进行透射变换实验；

步骤2.4：查找经腐蚀操作后得到图片的最大轮廓；

所述步骤3包括：

步骤3.1：构建残差密集网络模型RDN对投影区域的特征进行提取，使用基于边缘的卷积模块替换前两层卷积层；

步骤3.2：构建元上采样模块，用于对投影区域进行任意比例放大；所述元上采样模块包括位置投影、权重预测与特征映射；

所述对采集到的投影区域图像中的高亮文字进行识别和文字翻译，包括：

步骤S1：使用AR眼镜的摄像机获取到画面图片；

步骤S3.2：对掩膜进行降噪处理；

步骤S3.3：使用处理后的掩膜截取高亮区域；

步骤S3.4：使用文字接口OCR对高亮区域的文字进行识别；

步骤C1：从服务器中获取到高亮词语列表；

步骤C2：获取与会者在高亮词语列表中选择的内容；

步骤C2.1：查看步骤C2中获取的高亮词语的百科解释；

步骤C4：对投影区域和3D模型进行展示。