CN117135304B

CN117135304B - 一种面向双向通话的视频叠加方法、装置、设备及介质

Info

Publication number: CN117135304B
Application number: CN202311184328.9A
Authority: CN
Inventors: 邓宇翔; 罗志亮; 弋翔; 邹西山; 范娴君; 谢舒安
Original assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2024-05-17
Anticipated expiration: 2043-09-13
Also published as: CN117135304A

Abstract

本申请涉及视频处理的领域，尤其是涉及一种面向双向通话的视频叠加方法、装置、设备及介质。方法包括：获取音视频数据，分别判断音视频数据的画面数据以及声音数据是否存在异常，若存在异常，则创建音频模拟房间，并将音视频数据输入至音频模拟房间内进行视频叠加拆分处理，输出得到拆分音视频数据，对拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据，将优化音视频数据输入至音频模拟房间内进行视频叠加处理，输出得到更新音视频数据，基于对应关系，将更新音视频数据发送至对应人员的目标设备进行双向通话，本申请具有提高视频通讯质量的效果。

Description

一种面向双向通话的视频叠加方法、装置、设备及介质

技术领域

本申请涉及视频处理的领域，尤其是涉及一种面向双向通话的视频叠加方法、装置、设备及介质。

背景技术

随着计算机技术的发展，视频图像处理技术的应用越来越广泛，其中，视频叠加技术是图像视频处理中的一个重要研发方向，通过视频叠加技术可以在视频信号中叠加字符或图像信号，在屏幕的特定位置上与视频信号同时显示，以使人们同时获取多个有效信息。

视频叠加技术的发展为线上多人会议提供了支持，可以让参见会议的人员通过智能终端设备与多人进行视频通信，但当会议人员在进行视频通讯的过程中，由于智能终端设备的位置或用户头部的位置具有不固定性，当用户头部以及智能终端设备所处位置环境存在电磁、高温等信号干扰因素，导致呈现于智能终端设备屏幕的画面存在波动性，降低视频通讯的可视性，同时若智能终端设备相对于用户头部的位置较远，此时环境声音嘈杂或者对端说话声音较小传递过来的信号太弱，则会降低视频通讯的通讯质量。

发明内容

为了解决以上至少一项技术问题，本申请提供了一种面向双向通话的视频叠加方法、装置、设备及介质。

第一方面，本申请提供一种面向双向通话的视频叠加方法，采用如下的技术方案：

一种面向双向通话的视频叠加方法，包括：

获取音视频数据，所述音视频数据为视频会议中每个人在不同会议时刻所接收到音视频数据；

分别判断所述音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，则创建音频模拟房间，并将所述音视频数据输入至所述音频模拟房间内进行视频叠加拆分处理，输出得到所述视频会议中每个人接收会议其余人员的拆分音视频数据；

基于人员与所述拆分音视频数据的对应关系，对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据；

基于所述对应关系，将所述优化音视频数据输入至所述音频模拟房间内进行视频叠加处理，输出得到更新音视频数据；

基于所述对应关系，将所述更新音视频数据发送至对应人员的目标设备进行双向通话。

在另一种可能实现的方式中，所述对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据，包括：

根据所述画面数据确定画面接收参数以及画面完整度；

根据所述声音数据确定人员声音和环境噪声；

对所述画面接收参数以及通讯信道信息进行关联数据调取，得到画面接收率以及与所述画面接收率相对应的实时通讯信道，所述通信信道信息用于表示可与所述目标设备连通的不同频段的通讯信道；

基于所述通讯信道信息以及所述实时通讯信道进行信道通信模拟组合，得到组合通讯信道；

基于所述组合通讯信道对所述实时通讯信息到进行更新优化；

对所述环境噪声进行降噪优化处理，得到优化后的声音数据；

将组合通信信道所对应的画面数据以及声音数据进行重组，得到优化音视频数据。

在另一种可能实现的方式中，所述基于所述通讯信道信息以及所述实时通讯信道进行信道通信模拟组合，得到组合通讯信道，包括：

基于所述通讯信道信息以及所述实时通讯信道确定通讯信道组，所述通讯信道组为在所述通讯信道信息中除所述实时通讯信道的信道所组成的信道组；

分别对所述通讯信道组中的信道进行画面数据传输测试，得到每个所述信道分别对应的数据接收率；

对所述数据接收率进行筛选组合分析，得到接收组信息；

根据接收组信息中的每个数据接收率所对应的接收顺序以及通讯信道进行信道重组，得到组合通讯信道。

在另一种可能实现的方式中，对所述数据接收率进行筛选组合分析，得到接收组信息，包括：

将每个所述信道的数据接收率与所述画面接收标准的接收率进行比对，确定所述每个所述信道的满足所述接收率的接收区间；

获取信号节点信息，所述信号节点信息为所述目标设备接收信号过程中的不同节点信息；

根据所述信号节点信息以及所述接收区间确定列队信道信息以及执行信道信息；

对所述列队信道信息以及执行信道信息进行组合，得到接收组信息。

在另一种可能实现的方式中，所述方法还包括：

获取遥感图像信息，所述遥感图像信息用于表征以所述目标设备位置中心的预设范围内的卫星遥感图像信息；

对所述遥感图像信息进行预处理，得到光谱图像信息；

将所述光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息，所述建筑类别图像信息用于表征在所述目标设备处的不同类别的建筑图像信息，所述标注矢量信息用于表示所述建筑类别图像信息所对应的三维地理坐标信息；

判断所述建筑类型图像信息中的建筑类别是否存在预设信号干扰类型，若存在，则基于所述标注矢量信息对所述建筑类别进行标注。

在另一种可能实现的方式中，所述对所述遥感图像信息进行预处理，得到光谱图像信息，包括：

对所述遥感图像信息进行几何校正处理，得到校正图像信息；

将所述校正图像信息与多光谱图像进行图像融合处理，得到融合图像信息；

对所述融合图像信息进行图像镶嵌处理，得到光谱图像信息。

在另一种可能实现的方式中，将所述光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息，包括：

对所述光谱图像信息进行重叠切片处理，得到切割图像信息；

基于所述切割图像信息构建DSM模型，并调取所述DSM模型中的DSM数据；

将所述切割图像信息以及所述DSM数据输入至所述分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息。

第二方面，本申请提供一种面向双向通话的视频叠加装置，采用如下的技术方案：

一种面向双向通话的视频叠加装置，包括：

音频获取模块，用于获取音视频数据，所述音视频数据为视频会议中每个人在不同会议时刻所接收到音视频数据；

音频判断模块，用于分别判断所述音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，则创建音频模拟房间，并将所述音视频数据输入至所述音频模拟房间内进行视频叠加拆分处理，输出得到所述视频会议中每个人接收会议其余人员的拆分音视频数据；

音频优化模块，用于基于人员与所述拆分音视频数据的对应关系，对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据；

视频叠加模块，用于基于所述对应关系，将所述优化音视频数据输入至所述音频模拟房间内进行视频叠加处理，输出得到更新音视频数据；

双向通话模块，用于基于所述对应关系，将所述更新音视频数据发送至对应人员的目标设备进行双向通话。

在一种可能的实现方式中，所述音频优化模块在对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据时，具体用于：

根据所述画面数据确定画面接收参数以及画面完整度；

根据所述声音数据确定人员声音和环境噪声；

在另一种可能的实现方式中，所述音频优化模块在基于所述通讯信道信息以及所述实时通讯信道进行信道通信模拟组合，得到组合通讯信道时，具体用于：

对所述数据接收率进行筛选组合分析，得到接收组信息；

在另一种可能的实现方式中，所述音频优化模块在对所述数据接收率进行筛选组合分析，得到接收组信息时，具体用于：

在另一种可能的实现方式中，所述装置还包括：图像获取模块、图像处理模块、图像识别模块以及图像标记模块，其中，

所述图像获取模块，用于获取遥感图像信息，所述遥感图像信息用于表征以所述目标设备位置中心的预设范围内的卫星遥感图像信息；

所述图像处理模块，用于对所述遥感图像信息进行预处理，得到光谱图像信息；

所述图像识别模块，用于将所述光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息，所述建筑类别图像信息用于表征在所述目标设备处的不同类别的建筑图像信息，所述标注矢量信息用于表示所述建筑类别图像信息所对应的三维地理坐标信息；

所述图像标记模块，用于判断所述建筑类型图像信息中的建筑类别是否存在预设信号干扰类型，若存在，则基于所述标注矢量信息对所述建筑类别进行标注。

在另一种可能的实现方式中，所述图像处理模块在对所述遥感图像信息进行预处理，得到光谱图像信息时，具体用于：

在另一种可能的实现方式中，所述图像识别模块在将所述光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息时，具体用于：

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述面向双向通话的视频叠加方法。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的面向双向通话的视频叠加方法。

综上所述，本申请包括以下至少一种有益技术效果：

本申请提供了一种面向双向通话的视频叠加方法、装置、设备及介质，与相关技术相比，在本申请中，在进行线上视频通讯会议时，获取视频会议中每个人在不同会议时刻所接收到的所有音视频数据，然后分别判断音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，即表示当前存在信号波动或声音嘈杂异常，此时创建音频模拟房间，并将音视频数据输入至音频模拟房间内进行视频叠加拆分处理，输出得到视频会议中每个人接收会议其余人员的拆分音视频数据，然后基于人员与拆分音视频数据的对应关系，对拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据，再基于对应关系，将优化音视频数据输入至音频模拟房间内进行视频叠加处理，输出得到更新音视频数据，然后再基于对应关系，将更新音视频数据发送至对应人员的目标设备进行双向通话，从而达到了提高视频通讯质量的效果。

附图说明

图1是本申请实施例一种面向双向通话的视频叠加方法的流程示意图；

图2是本申请实施例一种面向双向通话的视频叠加装置的方框示意图；

图3是本申请实施例电子设备的示意图。

具体实施方式

以下结合附图1-3对本申请作进一步详细说明。

领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，一种面向双向通话的视频叠加方法、装置、设备及介质和/或B，可以表示：单独存在一种面向双向通话的视频叠加方法、装置、设备及介质，同时存在一种面向双向通话的视频叠加方法、装置、设备及介质和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供了一种面向双向通话的视频叠加方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括：

步骤S10，获取音视频数据。

其中，音视频数据为视频会议中每个人在不同会议时刻所接收到音视频数据。

在本申请实施例中，通过每个参会人员的目标设备中的视频会议应用所包含的视频录制功能对视频通讯会议进行实时录制，并将实时录制视频传输至电子设备，从而获得音视频数据。视频录制功能包括：Zoom、Microsoft Teams等。

具体地，目标设备可以为参会人员所使用的智能手机、平板以及笔记本等通讯设备，具体不做限制。

步骤S11，分别判断音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，则创建音频模拟房间，并将音视频数据输入至音频模拟房间内进行视频叠加拆分处理，输出得到视频会议中每个人接收会议其余人员的拆分音视频数据。

对于本申请实施例来说，音频模拟房间为视频处理引擎，它可以对视频进行拆分以及叠加处理。

步骤S12，基于人员与拆分音视频数据的对应关系，对拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据。

具体地，拆分音视频数据是与人员存在对应关系的，例如：会议参与人员包括张三、李四、赵六，对于张三来说，拆分音视频数据即为李四和赵六的音视频数据，对于李四来说，拆分音视频数据即为张三和赵六的音视频数据，对于赵六来说，拆分音视频数据即为张三和李四的音视频数据。

具体地，根据画面数据确定画面接收参数以及画面完整度，根据声音数据确定人员声音和环境噪声，对画面接收参数以及通讯信道信息进行关联数据调取，得到画面接收率以及与画面接收率相对应的实时通讯信道。其中，通信信道信息用于表示可与目标设备连通的不同频段的通讯信道。基于通讯信道信息以及实时通讯信道进行信道通信模拟组合，得到组合通讯信道，基于组合通讯信道对实时通讯信息到进行更新优化，对环境噪声进行降噪优化处理，得到优化后的声音数据，将组合通信信道所对应的画面数据以及声音数据进行重组，得到优化音视频数据

具体地，音视频数据中的画面数据即为每个参会人员所持目标设备的视频会议画面，在视频会议画面中包含所有参会人员的画面场景，逐一对每个参数人员所持目标设备的视频会议画面的每个人员画面场景进行信号接收分析，验证视频会议画面的画面接收参数以及画面完整度，当画面完整度不满足于预设完整度条件时，即表示画面数据存在异常。

对于本申请实施例来说，画面完整度即表示当前屏幕画面信息中放大画面图像是否存在卡顿，即画面的同步率，例如：通过用户点击指令确定的放大画面为视频会议中某一参会人员的画面图像，此时，虽然画面整体上完整，但画面显示却存在延迟，即表示当前画面图像发生卡顿，同步率无法满足100%。画面接收参数用于表征与当前目标设备所连通信道的画面接收率（ms），即网络信道延迟。

具体地，预设完整度条件为同步率100%。

对于本申请实施例来说，画面接收标准包括：优、良，优对应的画面接收率为1-30ms，良对应的画面接收率为31-50ms，若当前画面接收率不满足于优、良两种画面接收标准，即表示当前画面接收率不符合画面接收标准。

具体地，本申请实施例采用音频频谱分析法，由于环境噪声通常表现为频谱上存在的能量分布不均匀或高频分量较高等特性，因此通过使用音频编辑软件或频谱分析工具对声音数据中的频谱进行分析，即可得知当前声音数据中是否包含环境噪声，若包含，则表示当前声音数据存在异常。

音频编辑软件或频谱分析工具包括：Audacity、Adobe Audition等。

步骤S13，基于对应关系，将优化音视频数据输入至音频模拟房间内进行视频叠加处理，输出得到更新音视频数据。

在本申请实施例中，视频处理引擎逐一将优化音视频数据进行接收，然后关联创建云渲染实例以及视频处理引擎自带的转码、混屏以及叠加等功能，对优化音视频数据进行视频叠加处理，然后输出实时音频流到电子设备。其中，转码为视频转码，对接入的视频流或者输出的流进行视频转码处理，实现音视频流协议的按最优效果互通互转。包括视频分辨率缩放、旋转、码率调整；音频格式的转换，如:AAC->AMR-WB等；混屏为视频混屏，多路实时视频流混屏后再输出1路混屏流功能，混屏的分辨率、帧率、码率可设置。叠加为视频叠加，基本过程是：加载出全媒体内容后，再叠加上DTMF菜单样式，通过云端渲染模块，将叠加后的画面转变成视频实时流。

在本申请实施例中，还可以通过视频叠加引擎对音频模拟房间中的音视频数据进行叠加处理。视频叠加引擎，由硬件ARM服务器和软件平台两部分组成。硬件ARM服务器是云手机运行所需的硬件载体，软件平台是视频叠加的技术底座平台，包括视频叠加、混屏、转码、多方实时音视频、IT/CT网融合通信等能力。通过云手机渲染技术，实现全媒体内容，转换成实时视频流，并发送至终端原生VoLTE端上呈现。视频叠加引擎的引擎结构包括：业务应用层、视频引擎层以及网络设施层。另外，还包括，依赖于网络设施层的IT互联网以及5G通信网，视频引擎层可实现视频叠加、视频混屏、视频转码、多方实时音视频、IT/CT网融合通信、视频接入、CDN存储以及云端渲染。

与视频引擎层存在视频对接的平台包括联通平台，视频引擎层对接联通平台的视频号、彩铃平台以及VoLTE视频能力平台等功能，以支撑业务应用层的功能实现，如：EPG门户、可视化菜单、企业名片以及视频彩铃等。

其中，视频接入支持多种视频流接入视频引擎中，包括实时视频流、直点播流，支持的协议包括rtmp、rtsp、flv、m3u8、gb28181协议等，视频转码支持对接入的视频流或者输出的流进行视频转码处理，实现音视频流协议的按最优效果互通互转。包括视频分辨率缩放、旋转、码率调整；音频格式的转换，如:AAC->AMR-WB等，视频混屏支持多路实时视频流混屏后再输出1路混屏流功能，在调看多个家庭摄像头时比较方便，混屏的分辨率、帧率、码率可设置，视频叠加基本过程是加载出全媒体内容后，再叠加上DTMF菜单样式，通过云端渲染模块，将叠加后的画面转变成视频实时流，，同时视频叠加引擎还提供开放接口，方便第三方集成对接调用，如：创建云渲染实例，设置云渲染参数，传入DTMF按钮消息，传入DTMF布局参数等。CDN存储支持视频叠加过程中视频存储与下载，多方实时音视频是视频叠加引擎底层技术能力，支撑全媒体内容转换成实时视频流，可确保整个叠加渲染过程，从内容输入到内容输出的低延时，IT/CT网融合通信是视频引擎与5G核心网互通的网关服务，通过低延时通信方式，传输数据到5G核心网，也支持接收原生终端VoLTE发过来的音视频数据，实现双向音视频功能。

步骤S14，基于对应关系，将更新音视频数据发送至对应人员的目标设备进行双向通话。

本申请实施例提供了一种面向双向通话的视频叠加方法，在进行线上视频通讯会议时，获取视频会议中每个人在不同会议时刻所接收到的所有音视频数据，然后分别判断音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，即表示当前存在信号波动或声音嘈杂异常，此时创建音频模拟房间，并将音视频数据输入至音频模拟房间内进行视频叠加拆分处理，输出得到视频会议中每个人接收会议其余人员的拆分音视频数据，然后基于人员与拆分音视频数据的对应关系，对拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据，再基于对应关系，将优化音视频数据输入至音频模拟房间内进行视频叠加处理，输出得到更新音视频数据，然后再基于对应关系，将更新音视频数据发送至对应人员的目标设备进行双向通话，从而达到了提高视频通讯质量的效果。

本申请实施例的一种可能的实现方式，基于通讯信道信息以及实时通讯信道进行信道通信模拟组合，得到组合通讯信道，包括：

基于通讯信道信息以及实时通讯信道确定通讯信道组。其中，通讯信道组为在通讯信道信息中除实时通讯信道的信道所组成的信道组，分别对通讯信道组中的信道进行画面数据传输测试，得到每个信道分别对应的数据接收率，然后对数据接收率进行筛选组合分析，得到接收组信息，根据接收组信息中的每个数据接收率所对应的接收顺序以及通讯信道进行信道重组，得到组合通讯信道。

在本申请实施例中，数据接收率是描述目标设备的数据接收系统的重要技术指标，数据接收率在数值上等于每秒钟传输构成数据代码的二进制比特数，单位为比特/秒（bit/second），记作bps。对于二进制数据，数据接收速率为S=1/T（bps），其中，T为发生每一比特所需的时间。例如：如果在通讯信道上接收一比特0、1信号所需要的时间为0.001ms，那么信道的数据接收率为1000000bps。

本申请实施例的一种可能的实现方式，对数据接收率进行筛选组合分析，得到接收组信息，包括：

将每个信道的数据接收率与画面接收标准的接收率进行比对，确定每个信道的满足接收率的接收区间，获取信号节点信息。其中，信号节点信息为目标设备接收信号过程中的不同节点信息，根据信号节点信息以及接收区间确定列队信道信息以及执行信道信息，对列队信道信息以及执行信道信息进行组合，得到接收组信息。

具体地，根据画面接收标准的阐述可知，优对应的画面接收率为1-30ms，良对应的画面接收率为31-50ms，将信道的数据接收率中T与两种不同级别的画面接收率进行比对，即可得知该信道所对应接收区间。

在本申请实施例中，信号节点信息用于表征在单一信道与目标设备进行通讯的过程中，若接收区间发生改变，则将改变处的位置成为节点信息，例如：在对信道A在进行数据接收率测试时，信道A的通讯信号在传输至a地区位置后，接收率由优转换为良，直至到b地区位置时，接收率才由良转换为优，那么信道A的信号节点信息就为a地区位置-b地区位置。

具体地，根据信号节点信息得到每个信道所对应的信号传递顺序以及接收率为优的节点，根据接收区间得到每个信道多对应的优、良接收区间，然后将接收率为优的节点进行筛出，确定接收率优所对应的接收区间，然后根据信道传递顺序，确定列队信道信息以及执行信道信息。例如：分别有A、B、C三个不同频段的通讯信道，三个通讯信道的起始端以及终止端均是位于同一位置，A通讯信道的通讯信号由起始段至a地区位置，接收率为优，但从a地区位置直至终止端之间，信号接收率为良或差，B通讯信道的通讯信号由起始端至a地区位置的信号接收率为良，但由a地区位置直至b地区位置，信号接收率为优，由b地区位置至终止端的信号接收率为良或差，C通讯信道的通讯信号由起始端至a地区位置的信号接收率为良，但由a地区位置直至b地区位置，信号接收率为良或，由b地区位置至终止端的信号接收率为优，那么A、B、C三个通讯信道的列队信道则为B、C通讯信道，执行信道信息则为A通讯信道。

在本申请实施例中，通过采用信道转换技术将上述中A、B、C三种不同频段的通讯信道进行转换，信道转换（handover or hand-off）又称信道切换。移动台在通信过程中，为保证通信质量，从一个无线信道转换到另一个无线信道上而不中断通信的功能。

具体地，由信号起始端至a地区位置是采用A通讯信道进行通讯，当到达a地区位置节点处时进行信道转换，将原始通讯的A信道转换为B信道继续通讯，直至达到b地区位置节点处时进行二次信道转换，将B信道转换为C信道继续通讯。

本申请实施例的一种可能的实现方式，方法还包括：

获取遥感图像信息。其中，遥感图像信息用于表征以目标设备位置中心的预设范围内的卫星遥感图像信息，对遥感图像信息进行预处理，得到光谱图像信息，将光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与建筑类别图像信息相对应的标注矢量信息，其中，建筑类别图像信息用于表征在目标设备处的不同类别的建筑图像信息，标注矢量信息用于表示建筑类别图像信息所对应的三维地理坐标信息，判断建筑类型图像信息中的建筑类别是否存在预设信号干扰类型，若存在，则基于标注矢量信息对建筑类别进行标注。

具体地，卫星遥感图像又叫做卫星图像，所谓遥感，即表示遥远的感知，卫星遥感通过卫星在太空中探测地球地表物体对电磁波的反射和其发射的电磁波，来提取地面的信息，从而完成远距离识别地面物体，这些电波信息转换、识别得到的图像，即为卫星遥感图像。

具体地，遥感图像信息以及实时图像信息均是由像素点组成，像素点越丰富，照相辨认的细节的尺寸越小。影像照片上像素点的密度常用每毫米多少条线来表示，线越多表示影像质量越高。例如，卫星影像每平方毫米的纵横线数各250条，也就是每平方毫米内排列：62500个像素点，其相邻两像素点间的距离只有4微米，这与照相机的焦距和卫星的飞行高度有关。如果焦距为2米，飞行高度150公里，那么，根据几何学关系就可求得地面距离为0.3米。这个长度就时图像的地面分辨率。

在本申请实施例中，预处理包括：几何校正、图像融合以及图像镶嵌，由于受到各种成像因素的影响，遥感图像信息中地物的位置、形状、尺寸和方位等特征与其对应的真实地物的特征会出现偏差，因此需要对图像进行几何校正。然后将使用全色和多光谱图像对校正后的遥感图像信息进行融合，使得融合后的遥感图像信息具有新的空间及光谱分辨率。

本申请实施例的一种可能的实现方式，对遥感图像信息进行预处理，得到光谱图像信息，包括：

对遥感图像信息进行几何校正处理，得到校正图像信息，将校正图像信息与多光谱图像进行图像融合处理，得到融合图像信息，对融合图像信息进行图像镶嵌处理，得到光谱图像信息。

具体地，对遥感图像的几何畸变进行几何校正的过程。几何畸变有两类:(1)由于遥感探测仪器自身性能引起的畸变,包括比例尺畸变、歪斜畸变、中心移动畸变、扫描非线性畸变、辐射状畸变和正交畸变等。(2)由于运载工具(飞机或卫星)的飞行姿态和目标物所引起的畸变,前者包括运载工具飞行姿态倾斜而引起的投影畸变和由于高度变化而引起的比例尺误差;后者包括地形起伏和地球曲率引起的畸变。通常利用电子计算机和光学仪器进行几何校正。其原理是把一幅畸变图像的元素从原有位置经过一定的坐标变换,转变到另一幅正确的图像中去。图像几何校正还包括加绘坐标网格、对多谱段图像的配准和把某种投影所得的遥感图像变换成地图投影。

具体地，多光谱图像是指包含很多带的图像，有时只有3个带(彩色图像就是一个例子)但有时要多得多，甚至上百个。每个带是一幅灰度图像，它表示根据用来产生该带的传感器的敏感度得到的场景亮度。在这样一幅图像中，每个像素都与一个由像素在不同带的数值串，即一个矢量相关。这个数串就被称为像素的光谱标记。

在本申请实施例中，对融合图像信息进行图像镶嵌处理的方式包括：从众多待融合图像信息中，选出一幅亮度和色彩都比较均匀图像作为镶嵌的基准像幅，其他图像以它为基准依此由近到远进行镶嵌。

本申请实施例的一种可能的实现方式，将光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与建筑类别图像信息相对应的标注矢量信息，包括：

对光谱图像信息进行重叠切片处理，得到切割图像信息，基于切割图像信息构建DSM模型，并调取DSM模型中的DSM数据，将切割图像信息以及DSM数据输入至分类模型中进行识别，得到建筑类别图像信息以及与建筑类别图像信息相对应的标注矢量信息。

在本申请实施例中，DSM模型为ASPP-Aug-HED-DSM模型，其是将将整体边缘检测网络（Holistically-Nested Edge Detection，HED）作为地物边界特征检测子网络引入ASPP-Aug多尺度扩张卷积分类网络中对图像进行分类，在充分发挥HED整体边缘特征检测子网络在地物边界检测中的高准确率优势的同时，引入DSM（Digital Surface Model，中文数字地表模型）高程数据作为网络训练辅助数据得到模型。

具体地，由于高分辨率遥感数据中包含内容丰富的地物信息以及具有较大的图像尺寸，但是对于高分辨率遥感图像，即使对图像对进行重叠切片处理，也会导致同一个分类的目标地物分布在不同的切片中，不利于卷积网络对于该目标地物整体特征的学习。此外，由于CNN需要大量训练数据以获得高精度的分类结果，如果训练数据量不足，将导致网络参数高度偏向于训练它的数据。通常可以对于图像进行增强处理，包括对图像随机裁剪、翻转和亮度、饱和度、色调以及对比度的随机扰动。但是上述增强方法无法有针对性地对某些地物进行增强。而使用似物性采样（Object Proposal）方法可以在图像中查找包含潜在地物的区域，例如选择性搜索Selective Search以及EdgeBoxes等。

在本申请实施例中，采用图论的分割方法将高分辨率遥感图像分割成若干小区域。然后基于上述的分割结果，使用Selective Search方法来生成潜在目标的边框作为样本数据的增强，从而可以使用非监督图像分割的方法获得了比使用简单图像增强更有价值的训练数据。根据上述方法我们从图像数据中提取潜在的地物及其标签，作为训练数据的补充，以提高分类的准确率和模型的泛化能力，由此形成ASPP-Aug多尺度扩张卷积分类网络。

上述实施例从方法流程的角度介绍一种面向双向通话的视频叠加方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种面向双向通话的视频叠加装置，具体详见下述实施例。

本申请实施例提供一种面向双向通话的视频叠加装置，如图2所示，该面向双向通话的视频叠加装置20具体可以包括：音频获取模块21、音频判断模块22、音频优化模块23、视频叠加模块24以及双向通话模块25，其中，

音频获取模块21，用于获取音视频数据，所述音视频数据为视频会议中每个人在不同会议时刻所接收到音视频数据；

音频判断模块22，用于分别判断所述音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，则创建音频模拟房间，并将所述音视频数据输入至所述音频模拟房间内进行视频叠加拆分处理，输出得到所述视频会议中每个人接收会议其余人员的拆分音视频数据；

音频优化模块23，用于基于人员与所述拆分音视频数据的对应关系，对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据；

视频叠加模块24，用于基于所述对应关系，将所述优化音视频数据输入至所述音频模拟房间内进行视频叠加处理，输出得到更新音视频数据；

双向通话模块25，用于基于所述对应关系，将所述更新音视频数据发送至对应人员的目标设备进行双向通话。

本申请实施例的一种可能的实现方式，所述音频优化模块23在对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据时，具体用于：

根据所述画面数据确定画面接收参数以及画面完整度；

根据所述声音数据确定人员声音和环境噪声；

本申请实施例的另一种可能的实现方式，所述音频优化模块23在基于所述通讯信道信息以及所述实时通讯信道进行信道通信模拟组合，得到组合通讯信道时，具体用于：

对所述数据接收率进行筛选组合分析，得到接收组信息；

本申请实施例的另一种可能的实现方式，所述音频优化模块23在对所述数据接收率进行筛选组合分析，得到接收组信息时，具体用于：

本申请实施例的另一种可能的实现方式，所述装置20还包括：图像获取模块、图像处理模块、图像识别模块以及图像标记模块，其中，

本申请实施例的另一种可能的实现方式，所述图像处理模块在对所述遥感图像信息进行预处理，得到光谱图像信息时，具体用于：

本申请实施例的另一种可能的实现方式，所述图像识别模块在将所述光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息时，具体用于：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还从实体装置的角度介绍了一种电子设备，如图3所示，图3所示的电子设备300除常规配置装置外包括：处理器301和存储器303。其中，处理器301和存储器303相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例中，在进行线上视频通讯会议时，获取视频会议中每个人在不同会议时刻所接收到的所有音视频数据，然后分别判断音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，即表示当前存在信号波动或声音嘈杂异常，此时创建音频模拟房间，并将音视频数据输入至音频模拟房间内进行视频叠加拆分处理，输出得到视频会议中每个人接收会议其余人员的拆分音视频数据，然后基于人员与拆分音视频数据的对应关系，对拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据，再基于对应关系，将优化音视频数据输入至音频模拟房间内进行视频叠加处理，输出得到更新音视频数据，然后再基于对应关系，将更新音视频数据发送至对应人员的目标设备进行双向通话，从而达到了提高视频通讯质量的效果。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种面向双向通话的视频叠加方法，其特征在于，包括：

分别判断所述音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，则创建音频模拟房间，并将所述音视频数据输入至所述音频模拟房间内进行视频叠加拆分处理，输出得到所述视频会议中每个人接收会议其余人员的拆分音视频数据，其中，所述音频模拟房间为视频处理引擎，用于对视频进行拆分以及叠加处理；

基于所述对应关系，将所述更新音视频数据发送至对应人员的目标设备进行双向通话；

所述对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据，包括：

根据所述画面数据确定画面接收参数以及画面完整度，其中，画面完整度即表示当前屏幕画面信息中放大画面图像存在卡顿的情况，即画面的同步率，画面接收参数用于表征与当前目标设备所连通信道的画面接收率，即网络信道延迟；

根据所述声音数据确定人员声音和环境噪声；

根据所述画面接收参数以及通讯信道信息进行关联数据调取，得到画面接收参数相对应的实时通讯信道，所述通讯信道信息用于表示可与所述目标设备连通的不同频段的通讯信道；

基于所述组合通讯信道对所述实时通讯信道进行更新优化；

将组合通讯信道所对应的画面数据以及声音数据进行重组，得到优化音视频数据；

所述基于所述通讯信道信息以及所述实时通讯信道进行信道通信模拟组合，得到组合通讯信道，包括：

分别对所述通讯信道组中的信道进行画面数据传输测试，得到每个所述信道分别对应的数据接收率，数据接收率在数值上等于每秒钟传输构成数据代码的二进制比特数；

对所述数据接收率进行筛选组合分析，得到接收组信息；

根据接收组信息中的每个数据接收率所对应的接收顺序以及通讯信道进行信道重组，得到组合通讯信道；

对所述数据接收率进行筛选组合分析，得到接收组信息，包括：

将每个所述信道的数据接收率与画面接收标准的接收区间进行比对，确定所述每个所述信道的数据接收率满足的接收区间，其中，画面接收标准包括多个等级，每个等级对应有相应的画面接收率对应的接收区间，所述多个等级至少包括优等级、良等级；

根据所述信号节点信息以及所述接收区间确定列队信道信息以及执行信道信息，列队信道信息为除首个信道信息之外的其他的可组合的信道信息，执行信道信息为首个信道信息，且，列队信道信息和执行信道信息对应的信道的数据接收率均是属于画面接收标准中的优等级或良等级；

对所述列队信道信息以及执行信道信息进行组合，得到接收组信息，其中，接收组信息包括列队信道信息和执行信道信息。

2.根据权利要求1所述的一种面向双向通话的视频叠加方法，其特征在于，所述方法还包括：

对所述遥感图像信息进行预处理，得到光谱图像信息；

判断所述建筑类别图像信息中的建筑类别是否存在预设信号干扰类型，若存在，则基于所述标注矢量信息对所述建筑类别进行标注。

3.根据权利要求2所述的一种面向双向通话的视频叠加方法，其特征在于，所述对所述遥感图像信息进行预处理，得到光谱图像信息，包括：

4.根据权利要求3所述的一种面向双向通话的视频叠加方法，其特征在于，将所述光谱图像信息输入至训练后的分类模型中进行识别，得到建筑类别图像信息以及与所述建筑类别图像信息相对应的标注矢量信息，包括：

5.一种面向双向通话的视频叠加装置，其特征在于，包括：

音频判断模块，用于分别判断所述音视频数据的画面数据以及声音数据是否存在异常，若画面数据和/或声音数据存在异常，则创建音频模拟房间，并将所述音视频数据输入至所述音频模拟房间内进行视频叠加拆分处理，输出得到所述视频会议中每个人接收会议其余人员的拆分音视频数据，其中，所述音频模拟房间为视频处理引擎，用于对视频进行拆分以及叠加处理；

双向通话模块，用于基于所述对应关系，将所述更新音视频数据发送至对应人员的目标设备进行双向通话；

所述音频优化模块在对所述拆分音视频数据中存在画面数据和/或声音数据异常的音频优化处理，得到优化音视频数据时，具体用于：

根据所述声音数据确定人员声音和环境噪声；

基于所述组合通讯信道对所述实时通讯信道进行更新优化；

所述音频优化模块在基于所述通讯信道信息以及所述实时通讯信道进行信道通信模拟组合，得到组合通讯信道时，具体用于：

对所述数据接收率进行筛选组合分析，得到接收组信息；

所述音频优化模块在对所述数据接收率进行筛选组合分析，得到接收组信息时，具体用于：

6.一种电子设备，其特征在于，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1～4任一项所述的一种面向双向通话的视频叠加方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1～4任一项所述的一种面向双向通话的视频叠加方法。