CN109831638A

CN109831638A - 视频图像传输方法、装置、交互智能平板和存储介质

Info

Publication number: CN109831638A
Application number: CN201910063004.7A
Authority: CN
Inventors: 杨铭
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shizhen Information Technology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shizhen Information Technology Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-31
Anticipated expiration: 2039-01-23
Also published as: AU2019424397B2; CN109831638B; KR20210100707A; WO2020151443A1; EP3902247A4; JP7250937B2; US20220051024A1; AU2019424397A9; AU2019424397A1; EP3902247A1; JP2022517841A; KR102594030B1

Abstract

本发明涉及视频图像传输方法、装置、交互智能平板和存储介质，应用于图像传输技术领域。所述方法包括：获取第一视频通信端拍摄的视频图像；获取所述视频图像中的语义信息；向第二视频通信端发送所述语义信息；所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。本发明实施例的视频图像传输，使得视频图像中的重要信息能够得到高度还原，兼顾视频通信中对图像分辨率、保真度和传输实时性的要求。

Description

视频图像传输方法、装置、交互智能平板和存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及视频通信的视频图像传输方法、装置、系统、交互智能平板和存储介质。

背景技术

随着网络技术的发展和需求的增长，用户对视频通信的画面质量提出了更高的要求，包括分辨率要求，保真度要求以及实时传输。例如在视频会议中，实时交互是良好体验的前提，同时要求视频图像达到高分辨率，以及要求尽可能保留重要的图像信息(例如人脸细节、肢体动作细节等信息)。

在实现本发明的过程中，发明人发现现有技术中存在如下问题：为了保证视频图像达到高分辨率和高保真都，则需要降低发送端的视频图像压缩率，因此需要通过网络传输大量的图像数据，数据传输效率低，无法保证实时传输；若保证实时传输，一般需要通过有损压缩技术对提高视频图像压缩率，然而却导致视频图像信息丢失严重，无法满足视频通信中对图像高分辨率和高保真度的要求。

可见，目前针对视频通信中的视频图像的传输方案，无法兼顾高分辨率、高保真度以及实时传输的要求。

发明内容

基于此，有必要针对现有方式视频图像的传输技术无法兼顾高分辨率、高保真度以及实时传输的问题，提供一种视频图像传输方法、装置、系统、交互智能平板和存储介质。

根据本发明的第一方面，提供视频图像传输方法，包括：

获取第一视频通信端拍摄的视频图像；提取所述视频图像的语义信息；向第二视频通信端发送所述语义信息；所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。

在其中一个实施例中，所述获取所述视频图像中的语义信息的步骤，包括：通过经过训练的编码器提取所述视频图像的语义信息；所述编码器用于识别图像语义信息。

在其中一个实施例中，所述编码器的输入为图像，输出为输入图像对应的低维向量，作为输入图像的语义信息。

在其中一个实施例中，所述编码器为卷积神经网络。

在其中一个实施例中，所述视频图像中的语义信息包括以下任意一种：所述视频图像中设定对象的语义信息；所述视频图像的全局语义信息。

在其中一个实施例中，提取所述视频图像中设定对象的语义信息的步骤，包括：识别所述视频图像中的设定对象，得到所述设定对象的子图像；将所述设定对象的子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中所述设定对象的语义信息。

在其中一个实施例中，所述设定对象包括人脸或者人体。

在其中一个实施例中，如果所述设定对象为人脸，所述提取所述视频图像中设定对象的语义信息的步骤，包括：识别所述视频图像中的人脸区域，得到人脸子图像；将所述人脸子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的人脸语义信息。

在其中一个实施例中，如果所述设定对象为人体，所述提取所述视频图像中设定对象的语义信息的步骤，包括：识别所述视频图像中的人体区域，得到人体子图像；将所述人体子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的人体语义信息。

在其中一个实施例中，提取所述视频图像中的全局语义信息的步骤，包括：

将所述视频图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的全局语义信息。

在其中一个实施例中，还包括：每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像；在设定的图像传输模式下传输的所述第一参考图像的数据量，大于所述语义信息的数据量；N大于1；

所述第一参考图像属于所述第一视频通信端拍摄的视频图像；所述第一参考图像，用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像，重构出所述视频图像的重构图像。

在其中一个实施例中，若所述语义信息为设定对象的语义信息，所述第一参考图像，用于使所述第二视频通信端根据接收到的语义信息得到所述设定对象的重构子图像，将所述重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其中一个实施例中，若所述语义信息为全局语义信息，所述第一参考图像，用于使所述第二视频通信端根据接收到的语义信息得到初始重构图像，将所述初始重构图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其中一个实施例中，若所述语义信息为设定对象的语义信息，所述方法还包括：获取所述视频图像中设定对象的位置信息；向所述第二视频通信端发送所述位置信息；所述位置信息用于使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其中一个实施例中，所述方法还包括：采用设定的图像传输模式向所述第二视频通信端发送第二参考图像；在所述设定的图像传输模式下传输的所述第二参考图像的数据量，大于所述语义信息的数据量；

所述第二参考图像为所述设定对象的图像、所述第一视频通信端的环境图像中至少一个；所述第二参考图像，用于使所述第二视频通信端根据所述语义信息以及所述第二参考图像，重构出所述视频图像的重构图像。

根据本发明的第二方面，提供一种视频图像传输方法，包括：

接收视频图像的语义信息；所述视频图像为所述第一视频通信端拍摄的视频图像；根据所述语义信息重构图像，得到所述视频图像的重构图像；通过第二视频通信端的显示屏显示所述重构图像。

在其中一个实施例中，所述根据所述语义信息重构图像，得到所述视频图像的重构图像的步骤，包括：根据所述语义信息以及预先训练的解码器重构图像，得到所述视频图像的重构图像。

在其中一个实施例中，所述解码器的输入为图像语义信息，输出为基于输入语义信息重构的图像。

在其中一个实施例中，所述解码器为卷积神经网络。

在其中一个实施例中，所述视频图像的语义信息包括以下任意一种：

所述视频图像中的设定对象的语义信息；所述视频图像的全局语义信息。在其中一个实施例中，所述设定对象包括人脸或者人体。

在其中一个实施例中，根据所述语义信息重构图像，得到所述视频图像的重构图像的步骤包括：获取最近时间通过设定的图像传输模式接收的第一参考图像；所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像；通过设定的图像传输模式接收到的所述第一参考图像的数据量，大于所述语义信息的数据量；根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像。

在其中一个实施例中，所述方法还包括：每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像；N大于1。

在其中一个实施例中，如果所述语义信息为设定对象的语义信息，根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像的步骤，包括：将所述语义信息输入经过训练的解码器；获取所述解码器的输出，得到所述设定对象的重构子图像；将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其中一个实施例中，如果所述语义信息为图像的全局语义信息，根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像的步骤，包括：将所述语义信息输入经过训练的解码器；获取所述解码器的输出，得到初始重构图像；将所述初始重构图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其中一个实施例中，包括：若所述语义信息为人脸语义信息，获取所述解码器的输出，得到人脸的重构子图像；若所述语义信息为人体语义信息，获取所述解码器的输出，得到人体的重构子图像。

在其中一个实施例中，还包括：接收所述第一视频通信端发送的位置信息；所述位置信息为所述视频图像中所述设定对象的位置信息；

所述将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像的步骤，包括：根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其中一个实施例中，所述接收所述第一视频通信端发送的位置信息的步骤，包括：接收所述第一视频通信端发送的第一位置信息；所述第一位置信息为所述视频图像中人脸区域的位置信息；接收所述第一视频通信端发送的第二位置信息；所述第二位置信息为所述视频图像中人体区域的位置信息。

在其中一个实施例中，根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合的步骤之前，还包括：对所述设定对象的重构子图像进行边缘羽化处理。

在其中一个实施例中，根据所述语义信息重构图像，得到所述视频图像的重构图像的步骤，包括：获取通过设定的图像传输模式接收到的第二参考图像；所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种；通过设定的图像传输模式接收到的所述第二参考图像的数据量，大于所述语义信息的数据量；根据所述语义信息和所述第二参考图像重构图像，得到所述视频图像的重构图像。

根据本发明的第三方面，提供视频图像传输方法，包括：

第一视频通信端获取拍摄到的视频图像，获取所述视频图像的语义信息，向第二视频通信端发送所述语义信息；所述第二视频通信端接收所述语义信息，根据所述语义信息重构图像，得到所述视频图像的重构图像，通过第二视频通信端的显示屏显示所述重构图像。

根据本发明的第四方面，提供一种视频图像传输装置，包括：

图像获取模块，用于获取第一视频通信端拍摄的视频图像；

信息提取模块，用于提取所述视频图像的语义信息；

发送模块，用于向第二视频通信端发送所述语义信息；所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。

在其中一个实施例中，所述信息提取模块，具体用于通过经过训练的编码器提取所述视频图像的语义信息；所述编码器用于识别图像语义信息。

在其中一个实施例中，所述视频图像中的语义信息包括以下任意一种：

所述视频图像中设定对象的语义信息；所述视频图像的全局语义信息。

在其中一个实施例中，还包括：

第一参考图像发送模块，用于每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像；在设定的图像传输模式下传输的所述第一参考图像的数据量，大于所述语义信息的数据量；N大于1；

在其中一个实施例中，还包括：

第二参考图像发送模块，用于采用设定的图像传输模式向所述第二视频通信端发送第二参考图像；在所述设定的图像传输模式下传输的所述第二参考图像的数据量，大于所述语义信息的数据量；

根据本发明的第五方面，提供视频图像传输装置，包括：

信息接收模块，用于接收视频图像的语义信息；所述视频图像为所述第一视频通信端拍摄的视频图像；

图像重构模块，用于根据所述语义信息重构图像，得到所述视频图像的重构图像；

图像显示模块，用于通过第二视频通信端的显示屏显示所述重构图像。

在其中一个实施例中，所述图像重构模块，具体用于根据所述语义信息以及预先训练的解码器重构图像，得到所述视频图像的重构图像。

在其中一个实施例中，所述视频图像的语义信息包括以下任意一种：所述视频图像中的设定对象的语义信息；所述视频图像的全局语义信息。

在其中一个实施例中，所述图像重构模块，包括：

第一参考图像获取子模块，用于获取最近时间通过设定的图像传输模式接收的第一参考图像；所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像；通过设定的图像传输模式接收到的所述第一参考图像的数据量，大于所述语义信息的数据量；

第一图像重构子模块，用于根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像。

在其中一个实施例中，还包括：第一参考图像接收子模块，用于每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像；N大于1。

在其中一个实施例中，所述图像重构模块，包括：

第二参考图像获取子模块，用于获取通过设定的图像传输模式接收到的第二参考图像；所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种；通过设定的图像传输模式接收到的所述第二参考图像的数据量，大于所述语义信息的数据量；

第二图像重构子模块，用于根据所述语义信息和所述第二参考图像重构图像，得到所述视频图像的重构图像。

根据本发明的第六方面，提供一种视频图像传输的系统，包括第一视频通信端和第二视频通信端；所述第一视频通信端之间第二视频通信端视频通信连接；

所述第一视频通信端，用于获取拍摄到的视频图像，获取所述视频图像的语义信息，向第二视频通信端发送所述语义信息；

所述第二视频通信端，用于接收所述语义信息，根据所述语义信息重构图像，得到所述视频图像的重构图像，通过第二视频通信端的显示屏显示所述重构图像。

根据本发明的第七方面，提供一种交互智能平板，包括摄像装置、显示屏、存储器和处理器，所述存储器存储有计算机程序，所述交互智能平板通过所述摄像装置拍摄视频图像；

所述处理器执行所述程序时，用于提取所述摄像装置拍摄的视频图像的语义信息，向其他交互智能平板发送所述语义信息；

所述处理器执行所述程序时，还用于接收其他交互智能平板发送的视频图像的语义信息，根据所述语义信息重构图像，得到其他交互智能平板发送的视频图像的重构图像，通过所述显示屏显示所述重构图像。

根据本发明的第八方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例的视频图像传输方法的步骤。

实施本发明提供的实施例，在视频通信中，发送端需要传输视频图像时，获取所述视频图像的语义信息，向接收端发送所述语义信息；接收端接收所述语义信息之后，可根据所述语义信息重构发送端的视频图像，由此得到重构图像，并通过接收端的显示屏显示所述重构图像。一方面，在视频通信则，传输一个视频图像仅需要传输极少的数据量，对网络带宽要求非常低，能满足实时传输的要求；另一方面，通过对视频图像基于语义信息进行压缩和还原，使得视频图像的接收端能够重构出较高质量的图像，兼顾视频通信中对图像高分辨率与高保真度的要求。

附图说明

图1为一个实施例中视频图像传输方法适用的系统环境图；

图2为一实施例的视频图像传输方法的示意性流程图；

图3为另一实施例的视频图像传输方法的示意性流程图；

图4为一实施例的构建编码器和解码器的模型示意图；

图5为一实施例的基于图像发送端的视频图像传输方法的示意性流程图；

图6为一实施例的基于图像接收端的视频图像传输方法的示意性流程图；

图7为一实施例的视频图像传输装置的示意性结构图；

图8为另一实施例的视频图像传输装置的示意性结构图；

图9为一个实施例中交互智能平板的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的视频图像传输方法，可以适用于如图1所示的系统环境中，其中至少两个计算机设备100通过网络通信连接。计算机设备100可以是膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、导航设备、交互智能平板、可穿戴设备、智能机车、其他智能家居设备或者这些设备中的任意几种设备的组合。

在本发明实施例中，计算机设备100中安装有用于实现视频通信的应用软件，例如视频会议软件、即时通信软件等，通过这样的应用软件可以在至少两个计算机设备100之间建立视频通信。在视频通信中，任一计算机设备100既作为视频图像的发送端，将本端采集到的视频的帧图像发送给其他计算机设备100，同时也可以作为视频图像的接收端，以接收其他计算机设备100发送的视频的帧图像并显示。

此外，计算机设备100中还可以安装有其他应用程序，如文本编辑类应用程序、文稿演示类应用程序、即时通讯类应用程序、图像编辑类应用程序、社交类应用程序、电商类应用程序、搜索类应用程序、浏览器类应用程序等等。其中，文本编辑类应用程序如电子白板应用、电子黑板应用，文稿演示类应用程序如无线投屏应用。

在一些实施例中，可以交互智能平板作为计算机设备的一个实例。交互智能平板可以是通过触控技术对显示在显示平板上的内容进行操控和实现人机交互操作的一体化设备，其集成了投影机、电子白板、幕布、音响、电视机以及视频会议终端等一种或多种功能。交互智能平板显示屏为触摸屏，该触摸屏可以包括电容屏，电磁屏或红外屏等；该触摸屏可以接收用户通过手指或者输入设备输入的触摸操作；其中，输入设备包括但不限定于电容笔、电磁笔和/或红外笔等。

在一个实施例中，提供了一种视频图像传输方法，参考图2所，该方法包括以下步骤：

S110，第一视频通信端获取视频图像，所述视频图像为所述第一视频通信端拍摄的视频中的帧图像。

视频通信例如视频会议、视频通话等，一般是按照帧进行视频图像传输，其中，第一视频通信端为视频通信中有视频图像需要传输的终端，可以理解为视频图像的发送端。第一视频通信端获取的视频图像，即是第一视频通信端的摄像设备拍摄的视频会议或者视频通话场景下视频图像。

在视频通信中，每个视频通信端既需要向其他视频通信端传输视频图像，又需要接收其他视频通信端的视频图像，因此，在视频通信中，第一视频通信端可为参与视频通信的任一终端。

S120，第一视频通信端提取所述视频图像中的语义信息。

图像是由许多像素组成，语义就是图像中像素信息。获取图像中的语义信息，可以理解为提取图像像素的深层特征信息，这些信息能够表征视频图像中的重要细节。比如在视频会议中的视频图像，其中的语义信息可以包括参与会议的人物的面部神态特征信息、肢体行为特征信息等，或者是会议的环境信息，例如会议室的桌子、椅子等信息。

本发明一些实施例中，从视频图像中获取到的语义信息，既可以是图像中设定对象(人脸、人体、桌子、椅子等)的语义信息，也可以是图像的全局语义信息，例如图像的关键像素特征信息等。

S130，第一视频通信端向第二视频通信端发送所述语义信息。

相对于视频图像中包含全部信息，从视频图像中获取到的语义信息的数据量较小，因此能够有利于实现视频图像的实时传输。

S210，第二视频通信端接收第一视频通信端发送的语义信息，根据所述语义信息进行图像重构，得到所述视频图像的重构图像。

其中，基于图像的语义信息进行图像压缩和图像重构，相对于传统的基于图像的浅层信息进行编码压缩和重构，能够保留更多的图像细节，使得视频通信中的图像能够兼顾高保真度和实时性的要求。

S220第二视频通信端显示重构图像。

通过上述实施例的视频图像传输方法，在视频通信中，发送端需要传输视频图像时，获取所述视频图像的语义信息，向接收端发送所述语义信息；接收端接收所述语义信息之后，可根据所述语义信息重构发送端的视频图像，由此得到重构图像，并通过接收端的显示屏显示所述重构图像。一方面，在视频通信则，传输一个视频图像仅需要传输极少的数据量，对网络带宽要求非常低，能满足实时传输的要求；另一方面，通过对视频图像基于语义信息进行压缩和还原，使得视频图像的接收端能够重构出较高质量的图像，兼顾视频通信中对图像高分辨率与高保真度的要求。

进一步地，以视频会议为例，本地用户和远端用户分别通过第一视频通信端和第二视频通信端参与视频会议，第一视频通信端拍摄本地用户在会议中的视频图像，作为待传输的视频图像，参考图3所示，第一视频通信端向第二视频通信端传输该视频图像的实现过程如下：

步骤S302，在第一视频通信端，提取视频图像的语义信息。

在第一视频通信端，可通过预先训练好的编码器提取视频图像的语义信息，在一些实施例中，编码器可采用卷积神经网络，该编码器的输入为待传输的视频图像，输出为视频图像对应的低维向量。

也可将编码器可以看作是一个转换函数f，该转换函数f可将待传输的视频图像I转换为低维向量y，即y＝f(I)。y即视频图像I的语义信息，y可以是64维或者128维的向量，足以抓取视频会议中的视频图像中最重要的信息，实现高质量的图像重构，同时也能减小需要传输的数据量。

需要说明的是，本发明实施例中的低维向量和语义信息，是对视频会议场景下的视频图像进行学习，提取到的能够表征视频图像中重要细节的信息，这些信息有别于其他场景下的语义信息；换言之，本发明实施例中的低维向量和语义信息，并非人类思维理解的特征信息，而是人类思维无法理解的图像深层信息。

步骤S303，第一视频通信端向第二视频通信端传输提取到的语义信息。

由于视频图像I的语义信息y只需要极少的数据量表示，例如：语义信息y可以是一个64维的浮点数向量，那么每帧视频图像仅仅需要传输64*4＝256byte的数据，如果视频帧率为30Hz，则所需的带宽是256*30＝7680Bps＝7.68KBps。可见，该图像传输模式对网络环境的带宽需求较低。

步骤S402，第二视频通信端接收语义信息，基于语义信息进行图像重构，得到第一视频通信端的视频图像的重构图像。

当第二视频通信端接收到语义信息y后，第二视频通信端可将语义信息y作为通过一个预先训练好的解码器的输入，通过解码器进行图像重构。其中解码器可看作是一个转换函数g，该转换函数g可将低维度的语义信息y转换为重构图像I′，即I′＝g(y)。

进一步地，上述实施例的编码器和解码器的应满足以下条件：适用于视频会议场景；编码器f能够对视频图像进行紧凑编码，输出低维度的语义信息；解码器g能够还原视频图像中最重要的信息(比如人脸神态细节、肢体动作细节等)，以得到高质量的重构图像。

在一些实施例中，参考图4所示，可基于Encoder-decoder网络设计编码器f和解码器g，其中，左侧(即网络低层)由一系列的卷积操作层构成(图中仅示例了两层，实际情况下可设置其他数量的卷积操作层)，中间层输出一个低维向量，这部分相当于编码器；传输低维向量到远端(即接收端)。右侧(即网络高层)根据这个低维向量通过一系列的反卷积得到重构图像y，该过程相当于解码器；可见编码器f和解码器g均可采用卷积神经网络。

按照上述Encoder-decoder网络来设置编码器f和解码器g，对视频会议中的图像数据训练，足以达到较好的压缩率；然而重构图像的分辨率可能较低，毕竟低维向量只包含图像的深层语义信息。为了克服该问题，在一实施例中，在传统Encoder-decoder网络基础上，还采用U-Net思想对Encoder-decoder网络进行优化，即把网络中低层(例如图4中的卷积层)输出的特征向量也提取一部分拼到中间层输出的低维向量上，这样向远端传输的数据量增加，但即便增加了这部分信息，需向远端传输的数据量仍然远小于传统压缩方法。

通过U-Net对网络的优化，可根据网络状况动态调节对视频图像的压缩率和接收端重构的画面质量，当网络状况较好时，从网络低层输出的特征向量中提取较多信息拼到中间层输出的低维向量上，使得接收端重构的画面质量较高；当网络状况较差时，从网络低层输出的特征向量中提取较少信息拼到中间层输出的低维向量上，或者不从网络低层输出的特征向量中提取信息进行拼接，使得视频图像发送端的图像压缩率较高，有利于视频图像的实时传输。

步骤S404，第二视频通信端显示视频图像的重构图像。

根据本发明一实施例，结合图4以及上述实施例可知，编码器f可以由一系列卷积操作构成，解码器g可以由一系列反卷积操作构成。

具体地，可按以下优化目标训练出符合要求的编码器f和解码器g：

f,g＝arg_f,gmin||I-g(f(I))||²

其中，g(f(I))表示视频图像I经过编码器f后得到的语义信息通过解码器g解码还原后得到的重构图像，arg_f,gmin||I-g(f(I))||²表示当视频图像I与重构图像的残差最小时的编码器f和解码器g。

可以理解的，除上述示例的Encoder-decoder之外，也可以采用其他生成模型构建满足条件的编码器和解码器。

对于视频会议场景下的视频图像，其中最重要的图像信息是人物表情、口型等细节。在一些实施例中，以人脸作为设定对象为例，第一视频通信端提取视频图像中的人脸语义信息，第二视频通信端通过相应的解码器基于人脸语义信息进行图像重构，以还原视频图像中的人物面部细节。

为了获得视频会议中更多的视频图像细节，还可以将人体作为设定对象，第一视频通信端从视频图像中提取出人体语义信息，人体语义信息包括脸部神态信息和肢体动作信息等与人本身有关的信息；第二视频通信端通过相应的解码器基于人体语义信息进行图像重构，以还原视频图像中的人物整体细节。

基于上述实施例，能够保证视频会议中图像传输的实时性，以及接收端还原图像细节，但是由于传输的语义信息数据量较小，难以保证接收端的高分辨率。针对该问题，在一实施例中，第一视频通信端每间隔N帧(N大于1，N取值可以根据实际情况调整)采用设定图像传输模式向所述第二视频通信端传输第一参考图像；在所述设定图像传输模式下传输的所述第一参考图像的数据量，大于所述语义信息的数据量。其中，第一参考图像为所述第一视频通信端拍摄的视频图像；所述第一参考图像用于使所述第二视频通信端根据所述视频图像的语义信息以及所述第一参考图像，重构所述视频图像的重构图像。

例如：第一视频通信端每隔100帧向第二视频通信端传输完整的一帧视频图像，在接下来的99帧视频图像中，第二视频通信端接收到视频图像的低维的语义信息时，可结合这一帧完整的视频图像的信息共同重构图像，得到更高分辨率的重构图像。

下面以人脸的语义信息和人体的语义信息为例，分别进行说明。继续参考图3所示，上述的第一视频通信端与第二视频通信端之间的视频图像传输还包括以下步骤：

步骤S300，第一视频通信端按照设定的帧间隔，通过设定图像传输模式向所述第二视频通信端发送参考图像(本实施例中即第一参考图像)。

其中，参考图像也是第一视频通信端拍摄的视频图像。第一视频通信端可以采用基于块的图像压缩方式得到参考图像的图像编码信息，即在第一视频通信端与第二视频通信端之间，除了基于语义信息的图像传输之外，还包括其他图像传输模式，其中其他图像传输模式是间隔执行，且对图像的压缩率更低，传输的数据量更大。

步骤S401，第二视频通信端接收参考图像。

在视频会议中，第一视频通信端以间隔帧的方式向第二视频通信端发送参考图像，第二视频通信端在得到参考图像之后，由于在视频会议中，相邻帧的视频图像的像素变化一般较小，例如只有人物的表情或者肢体对应的像素发生变化，其他会议室的环境信息并没有变化；因此第二视频通信端接收到的语义信息，可能就是发生变化的像素信息，因此第二视频通信端可基于少量的语义信息和数据量更大的参考图像，高度还原视频图像，提高了第二视频通信端重构图像的分辨率。由于参考图像是间隔发送的，因此对传输带宽和实时性的影响较小。

在一些实施例中，第二视频通信端实时收到的语义信息，若为视频图像中设定对象的语义信息，则可重构出设定对象的重构子图像，将该设定对象的重构子图像与所述参考图像的重构图像融合，由此得到第一视频通信端的视频图像的重构图像。

在其他一些实施例中，第一视频通信端与第二视频通信端之间的视频图像传输还包括以下步骤：

步骤S301，第一视频通信端对视频图像进行前处理。

第一视频通信端对视频图像进行的前处理，包括识别所述视频图像中的设定对象，得到所述视频图像中所述设定对象的子图像；然后将所述设定对象的子图像输入经过训练的编码器，获取所述编码器的输出，得到所述视频图像中所述设定对象的语义信息；所述编码器用于识别输入图像中所述设定对象的语义信息并输出。以人脸作为设定对象为例，第一视频通信端从视频图像识别出人脸区域，得到所述视频图像对应的人脸子图像；然后将人脸子图像输入经过训练的编码器，获取所述编码器的输出，由此得到所述视频图像中的人脸语义信息。

步骤S403，第二视频通信端接收所述设定对象的语义信息，在基于接收到的所述设定对象的语义信息得到所述设定对象的重构子图像之后，可以对重构出的人脸图像或者人体图像的进行后处理。后处理包括：将所述设定对象的重构子图像与所述参考图像融合，得到所述视频图像的重构图像。

以人脸作为设定对象为例，第二视频通信端基于人脸语义信息得到人脸的重构图像之后，对人脸的重构图像进行后处理。第二视频通信端对人脸的重构图像进行后处理包括：将人脸的重构图像叠加到所述参考图像的重构图像中，由此得到第一视频通信端的视频图像的重构图像。

进一步地，根据本发明一实施例，第一视频通信端还需获取所述视频图像中设定对象的位置信息，向所述第二视频通信端发送所述位置信息；所述位置信息用于使得所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述参考图像进行叠加，得到所述视频图像的重构图像。

具体地，以人脸作为设定对象为例，第一视频通信端获取视频图像中人脸区域的位置信息；向第二视频通信端发送所述位置信息；当第二视频通信端接收第一视频通信端发送的人脸的位置信息之后，可以根据人脸的位置信息将人脸的重构图像与参考图像的重构图像进行叠加，得到第一视频通信端的视频图像的重构图像。

进一步地，为了提高视频图像的重构图像的质量，根据本发明一实施例，上述视频图像传输方法还包括：第二视频通信端在根据所述位置信息将所述设定对象的重构子图像与所述参考图像融合之前，还可以对所述设定对象的重构子图像进行边缘羽化处理，然后将边缘羽化处理之后的设定对象的重构子图像与参考图像的重构图像进行叠加，由此得到第一视频通信端的视频图像的重构图像。

具体地，以人脸作为设定对象为例，第二视频通信端在进行图像叠加之前，先对人脸重构图像进行边缘羽化处理，然后将边缘羽化处理之后的人脸重构图像与参考图像的重构图像进行叠加，由此得到第一视频通信端的视频图像的重构图像。通过本实施例，以获得更佳的叠加融和效果，提高第二视频通信端显示的重构图像的图像质量。

在其他一些实施例中，为了获得视频会议的全面细节，第一视频通信端从视频图像中提取出的语义信息还可以是图像全局语义信息，可以通过相应的编码器实现；第二视频通信端基于全局语义信息进行图像重构，以还原视频图像中的全局细节信息。当基于全局语义信息进行图像传输和重构时，第一视频通信端不必须执行上述的视频图像的前处理，第二视频通信端也无需执行重构图像的后处理。

可以理解的，根据实际场景需要，可以基于人脸语义、人体语义或者图像全局语义预先进行编码器和解码器的训练。例如，将人脸图像作为训练数据，训练出符合要求的编码器和解码器；或者，将人体图像作为训练数据，训练出符合要求的编码器和解码器；或者，将视频图像整体作为训练数据，训练出符合要求的编码器和解码器。

在其他实施例中，第一视频通信端还可以采用设定的图像传输模式向所述第二视频通信端发送其他类型的参考图像(即第二参考图像)；在所述设定的图像传输模式下传输的第二参考图像的数据量，大于所述语义信息的数据量；这里的第二参考图像可以为设定对象的图像、第一视频通信端的环境图像中至少一个；通过传输第二参考图像，使得第二视频通信端结合所述语义信息和所述第二参考图像，重构出所述视频图像的重构图像。

具体例如：第一视频通信端预先设置视频会议场景中与会人员的高清照片和/或会议室的高清照片作为第二参考图像，采用设定的图像传输模向第二视频通信端传输完整的第二参考图像；第二视频通信端接收第二参考图像并保存，在接收到各帧视频图像的语义信息后，可结合第二参考图像的详细信息重构图像。因此即便在语义信息较少的情况下，第二视频通信端也可根据第二参考图像重构出高分辨率的重构图像。

进一步地，如果一帧一帧独立地视频图像的编解码，可能会出现帧间不一致的问题，表现为在接收端显示的视频内容可能会有不同程度的跳变。针对该问题，在一实施例中，在视频会议场景下的视频图像传输，实际会有多个网络分支，编码器的输入并不只是当前帧的视频图像，还包括当前帧之前的M帧的视频图像，所以编码后的低维向量不仅包含当前帧的语义信息，还包括前序若干帧的语义信息；对应地，在接收端解码器也会结合当前帧的语义信息和前序若干帧的语义信息，重构出帧间一致的视频图像。通过本实施例，可有效解决接收端视频内容的跳变问题。

相比传统方案的视频图像传输方案，通过上述实施例，在视频会议中，各视频通信端得到的高分辨率的重构图像；并且由于大部分视频图像需要传输的语义信息的数据量很少，即便在较差网络环境下，也能够快速完成传输，保证实时性；在基于语义信息和参考图像进行图像重构时，能保留视频图像中重要的信息(尤其是人脸细节、肢体动作细节等)；因此能够获得良好的视频会议体验。

基于上述视频图像传输方法的相同的思想，本文还提供了一种视频图像传输方法的实施例，本实施例中，第一视频通信端为视频图像的发送端。参见图5所示，在第一视频通信端的角度，视频图像传输方法包括以下步骤：

S510，获取第一视频通信端拍摄的视频图像；

S520，获取所述视频图像中的语义信息；

S530，向第二视频通信端发送所述语义信息；所述语义信息用于使得所述第二视频通信端在收到所述语义信息之后，通过所述第二视频通信端的显示屏显示所述视频图像的重构图像；所述重构图像为所述第二视频通信端基于所述语义信息重构出的图像。

进一步地，根据本发明一些实施例，作为发送端的第一视频通信端，其获取视频图像中的语义信息的具体方式可以是，通过经过训练的编码器提取所述视频图像的语义信息；所述编码器用于识别图像语义信息。所述编码器的输入为图像，输出为输入图像对应的低维向量，即输入图像的语义信息。具体例如：由于所述视频图像的语义信息可以是设定对象的语义信息或者视频图像的全局语义信息。因此提取视频图像的语义信息的具体方式包括：

方式一，识别所述视频图像中的设定对象，得到所述设定对象的子图像；将所述设定对象的子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中所述设定对象的语义信息；

方式二，将所述视频图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的全局语义信息。

其中设定对应可基于实际情况设定，例如当需要关注的信息是视频通信中的人的脸部信息，则以人脸作为设定对象；当需要关注的信息是视频通信中的人的脸部神态以及肢体动作信息，以人体作为设定对象，则可以人体语作为设定对象；当需要关注的信息是视频通信中的整体场景信息时，则提取视频图像的全局语义信息。由此可满足不同要求的视频通信。

根据本发明一实施例，第一视频通信端提取视频图像中设定对象的语义信息的步骤，包括：识别所述视频图像中的人脸区域，得到人脸子图像；将所述人脸子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的人脸语义信息；或者是，识别所述视频图像中的人体区域，得到人体子图像；将所述人体子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的人体语义信息。由此可进一步提高视频图像中的设定对象的语义信息的提取效率和准确度。

其中，第一视频通信端提取所述视频图像中的全局语义信息的步骤，无需对视频图像中的设定对象进行识别，简化了图像传输流程，并且得到的语义信息更为全面，在接收端能够得到保真度更高的重构图像。

进一步地，当所述语义信息为人脸的语义信息或者人体的语义信息等设定对象的语义信息时，第一视频通信端还每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像；在设定的图像传输模式下传输的所述第一参考图像的数据量，大于所述语义信息的数据量；N大于1。所述第一参考图像属于所述第一视频通信端拍摄的视频图像；通过传输所述第一参考图像，用于使所述第二视频通信端根据所述语义信息以及所述第一参考图像，重构出所述视频图像的重构图像。

通过向第二视频通信端发送第一参考图像，第二视频通信端在收到的设定对象的语义信息之后，基于该语义信息得到设定对象的重构子图像，然后将所述设定对象的重构子图像与所述第一参考图像的重构图像进行叠加，由此得到所述视频图像的重构图像。

进一步地，当语义信息为视频图像中设定对象的语义信息时，为了使得第二视频通信端得到质量更好的重构图像，第一视频通信端还需向第二视频通信端发送上述的设定对象在所述视频图像中的位置信息，通过发送所述位置信息，使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，由此得到更精确的视频图像的重构图像。

通过向第二视频通信端发送第二位置信息，使得所述第二视频通信端根据所述第二位置信息将重构出的人体的重构图像与所述参考图像的重构图像进行叠加，得到更精确的视频图像的重构图像。

上述视频图像传输方法，发送端对于大部分视频图像，只需提取视频图像中重要的语义信息进行传输，通过参考图像能够兼顾重构图像的分辨率与保真度的要求，同时能够保证视频图像传输的实时性。

基于上述视频图像传输方法的相同的思想，本文还提供了一种视频图像传输方法的实施例，本实施例中第二视频图像端为视频图像的接收端，参见图6所示，在第二视频图像端的角度，视频图像传输方法包括以下步骤：

S610，接收第一视频通信端发送的视频图像的语义信息；所述视频图像为所述第一视频通信端拍摄的视频图像。

S620，根据所述语义信息重构图像，得到所述视频图像的重构图像。

S630，通过第二视频通信端的显示屏显示所述重构图像。

在一些施例中，所述视频图像的语义信息包括以下任意一种：所述视频图像中的设定对象的语义信息，所述视频图像中的全局语义信息。其中，所述设定对象包括但不限于人脸或者人体，还可以根据实际场景设定。

进一步地，当传输的语义信息为视频图像中设定对象的语义信息时，为了接收端更好进行图像重构，第一视频通信端还每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像；所述第一参考图像属于所述第一视频通信端拍摄的视频图像，且在设定的图像传输模式下传输的所述第一参考图像的数据量，大于所述语义信息的数据量；N大于1；第二视频通信端基于第一参考图像和当前收到的设定对象的语义信息进行图像重构。

对应地，第二视频通信端还需每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像；N大于1。

下面以人脸的语义信息和人体的语义信息为例，分别进行说明。

当基于人脸的语义信息进行视频图像的传输和重构时，第二视频通信端还需要预先接收来自第一视频通信端的第一参考图像的图像编码信息；所述参考图像为第一视频通信端拍摄的视频图像，并且所述第一参考图像的图像编码信息的数据量大于上述实施例的视频图像中人脸语义信息/人体语义信息的数据量。

第二视频通信端基于所述图像编码信息得到所述第一参考图像。在接收到其他视频图像的人人脸语义信息/人体语义信息时，可以基于人脸语义信息/人体语义信息重构出的人脸重构子图像/人体重构子图像，将人脸重构子图像/人体重构子图像和所述第一参考图像进行融合，得到其他视频图像的重构图像。其中，基于人脸语义信息/人体语义信息重构出的人脸重构子图像/人体重构子图像的具体实施过程可如下：

第二视频通信端在收到第一视频通信端发送的人脸语义信息/人体语义信息之后，将所述人脸语义信息/人体语义信息输入经过训练的解码器，获取所述解码器的输出，得到人脸重构子图像/人体重构子图像。其中，所述解码器的输入为图像语义信息，输出为基于输入语义信息重构的图像；如上述实施例所述，所述解码器可以为卷积神经网络。

进一步地，当基于设定对象的语义信息进行图像重构时，为了得到更高质量的重构图像，第二视频通信端还需接收来自所述第一视频通信端的位置信息；所述位置信息为所述视频图像中所述设定对象的位置信息；然后根据所述位置信息将所述设定对象的重构子图像与所述第一的参考图像进行叠加，得到所述视频图像的重构图像。

具体地，以基于人脸语义信息进行视频图像的传输和重构为例，第二视频通信端接收来自所述第一视频通信端的第一位置信息，所述第一位置信息为第一视频通信端的视频图像中人脸区域的位置信息。对应地，第二视频通信端根据所述第一位置信息将所述人脸的重构图像与所述第一参考图像进行叠加，得到所述视频图像的重构图像。

以基于人脸语义信息进行视频图像的传输和重构为例，第二视频通信端需要接收来自所述第一视频通信端的第二位置信息；所述第二位置信息为所述视频图像中人体区域的位置信息。对应地，第二视频通信端根据所述第二位置信息将所述人体的重构图像与所述第一参考图像进行叠加，得到所述视频图像的重构图像。

在其他实施例中，第二视频通信端还需获取通过设定的图像传输模式接收到的第二参考图像；所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种；通过设定的图像传输模式接收到的所述第二参考图像的数据量，大于所述语义信息的数据量；根据所述语义信息和所述第二参考图像重构图像，得到所述视频图像的重构图像。具体实现过程可参见上述实施例所述。

通过上述视频图像传输方法，对于视频图像接收端而言，通过图像中重要的语义信息和更为完整的参考图像进行图像重构，能够兼顾图像传输实时性、分辨率与保真度的要求。

应该理解的是，对于前述的各方法实施例，虽然流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，方法实施例的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于与上述实施例中的视频图像传输方法相同的思想，本文还提供视频图像传输装置的实施例。

如图7所示，在一个实施例中，视频图像传输装置包括：

图像获取模块601，用于获取第一视频通信端拍摄的视频图像；

信息提取模块602，用于提取所述视频图像的语义信息；

发送模块603，用于向第二视频通信端发送所述语义信息；所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。

进一步地，根据本发明一个实施例，所述信息提取模块601，具体用于通过经过训练的编码器提取所述视频图像的语义信息；所述编码器用于识别图像语义信息。

进一步地，根据本发明一个实施例，所述编码器的输入为图像，输出为输入图像对应的低维向量，作为输入图像的语义信息。例如，所述编码器可以是卷积神经网络。

在其中一个实施例，所述视频图像中的语义信息包括以下任意一种：所述视频图像中设定对象的语义信息；所述视频图像的全局语义信息。

如果提取的语义信息为设定对象的语义信息，对应地，信息提取模块602可具体包括：对象信息提取子模块，用于识别所述视频图像中的设定对象，得到所述设定对象的子图像；将所述设定对象的子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中所述设定对象的语义信息。

其中，设定对象可以是人脸或者人体。如果为人脸，上述对象信息提取子模块进一步包括：人脸信息提取单元，用于识别所述视频图像中的人脸区域，得到人脸子图像；将所述人脸子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的人脸语义信息。如果为人体，上述对象信息提取子模块进一步包括：人体信息提取单元，用于识别所述视频图像中的人体区域，得到人体子图像；将所述人体子图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的人体语义信息。

如果提取的语义信息为视频图像全局语义信息，对应地，信息提取模块602可具体包括：全局信息提取子模块，用于将所述视频图像输入经过训练的编码器；获取所述编码器的输出，得到所述视频图像中的全局语义信息。

进一步地，根据本发明一个实施例，上述视频图像传输装置还包括：

若所述语义信息为设定对象的语义信息，所述第一参考图像可以具体用于：使所述第二视频通信端根据接收到的语义信息得到所述设定对象的重构子图像，将所述重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

若发送的语义信息为全局语义信息，所述第一参考图像可以具体用于：使所述第二视频通信端根据接收到的语义信息得到初始重构图像，将所述初始重构图像与所述第一参考图像融合，得到所述视频图像的重构图像。

在其他实施例中，若所述语义信息为设定对象的语义信息，上述的视频图像传输装置还包括：

对象位置获取模块，用于获取所述视频图像中设定对象的位置信息；

以及，位置信息发送模块，用于向所述第二视频通信端发送所述位置信息；所述位置信息用于使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

基于上述实施例的视频图像传输装置，在视频通信中，发送端需要传输视频图像时，获取所述视频图像的语义信息，向接收端发送所述语义信息；接收端接收所述语义信息之后，可根据所述语义信息重构发送端的视频图像，由此得到重构图像，并通过接收端的显示屏显示所述重构图像。一方面，在视频通信则，传输一个视频图像仅需要传输极少的数据量，对网络带宽要求非常低，能满足实时传输的要求；另一方面，通过对视频图像基于语义信息进行压缩和还原，使得视频图像的接收端能够重构出较高质量的图像，兼顾视频通信中对图像高分辨率与高保真度的要求。

根据本发明另一个实施例，如图8所示，视频图像传输装置包括：

信息接收模块701，用于接收视频图像的语义信息；所述视频图像为所述第一视频通信端拍摄的视频图像；

图像重构模块702，用于根据所述语义信息重构图像，得到所述视频图像的重构图像；

图像显示模块703，用于通过第二视频通信端的显示屏显示所述重构图像。

进一步地，根据本发明一个实施例，所述图像重构模块702，具体用于根据所述语义信息以及预先训练的解码器重构图像，得到所述视频图像的重构图像。

进一步地，根据本发明一个实施例，所述视频图像的语义信息包括以下任意一种：视频图像中的设定对象的语义信息；视频图像的全局语义信息。

其中，解码器的输入为图像语义信息，输出为基于输入语义信息重构的图像。在一些场景中，所述解码器为卷积神经网络。

根据本发明一个实施例，所述视频图像的语义信息包括以下任意一种：所述视频图像中的设定对象的语义信息；所述视频图像的全局语义信息。所述设定对象例如人脸或者人体等。

进一步地，根据本发明一个实施例，图像重构模块702具体包括：

进一步地，根据本发明一个实施例，上述视频图像传输装置还包括：第一参考图像接收子模块，用于每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像；N大于1。

具体地，如果接收到的语义信息为设定对象的语义信息，上述图像重构模块702可以具体包括：第一重构子模块，用于将所述语义信息输入经过训练的解码器；获取所述解码器的输出，得到所述设定对象的重构子图像；将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

进一步地，在一个实施例中，上述视频图像传输装置还包括：位置信息接收模块，用于接收所述第一视频通信端发送的位置信息；所述位置信息为所述视频图像中所述设定对象的位置信息；上述的第一图像重构子模块，具体用于根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

具体地，如果接收到的语义信息为图像全局语义信息，上述图像重构模块702可以具体包括：第二图像重构子模块，用于将所述语义信息输入经过训练的解码器；获取所述解码器的输出，得到初始重构图像；将所述初始重构图像与所述第一参考图像融合，得到所述视频图像的重构图像。

进一步地，根据本发明一个实施例，所述图像重构模块702包括：

根据本发明一个实施例，参考图1所示，视频图像传输的系统包括第一视频通信端和第二视频通信端；所述第一视频通信端之间第二视频通信端视频通信连接；所述第一视频通信端，用于获取拍摄到的视频图像，获取所述视频图像的语义信息，向第二视频通信端发送所述语义信息；所述第二视频通信端，用于接收所述语义信息，根据所述语义信息重构图像，得到所述视频图像的重构图像，通过第二视频通信端的显示屏显示所述重构图像。

关于视频图像传输装置及系统实施例的具体实现方式可以参见上文中对于视频图像传输方法的限定，在此不再赘述。上述视频图像传输装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于交互智能平板中的处理器中，也可以以软件形式存储于交互智能平板中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

此外，上述示例的视频图像传输装置的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述视频图像传输装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

在一个实施例中，提供了一种交互智能平板，其内部结构图可以如图9所示。该交互智能平板包括通过系统总线连接的处理器、存储器、网络接口、显示屏、拍摄装置和输入装置。其中，处理器用于提供计算和控制能力；存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境；网络接口用于与外部的终端通过网络连接通信；该计算机程序被处理器执行时以实现一种视频图像传输方法；显示屏可以是液晶显示屏或者电子墨水显示屏；拍摄装置可以拍摄交互智能平板前面的环境或者人物的视频图像；输入装置可以是显示屏上覆盖的触摸层，也可以是交互智能平板外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的交互智能平板的限定，具体的交互智能平板可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

根据本发明一个实施例，提供了一种交互智能平板，包括摄像装置、显示屏、存储器和处理器，存储器存储有计算机程序；所述交互智能平板通过所述摄像装置拍摄视频图像；所述处理器执行所述程序时，用于提取所述摄像装置拍摄的视频图像的语义信息；向其他交互智能平板发送所述语义信息；所述处理器执行所述程序时，还用于接收其他交互智能平板发送的视频图像的语义信息；根据所述语义信息重构图像，得到其他交互智能平板发送的视频图像的重构图像，通过所述显示屏显示所述重构图像。

在其他实施例中，所述处理器执行所述程序时，还用于执行上述视频图像传输方法的其他实施例中的相应步骤。

根据本发明一个实施例，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取第一视频通信端拍摄的视频图像；提取所述视频图像的语义信息；向第二视频通信端发送所述语义信息；所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。

在其他实施例中，上述计算机程序被处理器执行时，还用于执行上述视频图像传输方法的其他实施例中在视频图像发送端执行的相应步骤。

根据本发明另一个实施例，提供了另一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：接收视频图像的语义信息；所述视频图像为所述第一视频通信端拍摄的视频图像；根据所述语义信息重构图像，得到所述视频图像的重构图像；通过第二视频通信端的显示屏显示所述重构图像。

在其他实施例中，上述计算机程序被处理器执行时，还用于执行上述视频图像传输方法的其他实施例中在视频图像接收端执行的相应步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。上述各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

实施例中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以上实施例仅表达了本发明的几种实施方式，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频图像传输方法，其特征在于，包括：

获取第一视频通信端拍摄的视频图像；

提取所述视频图像的语义信息；

向第二视频通信端发送所述语义信息；所述语义信息用于在所述第二视频通信端重构出所述视频图像的重构图像。

2.根据权利要求1所述的方法，其特征在于，所述获取所述视频图像中的语义信息的步骤，包括：

通过经过训练的编码器提取所述视频图像的语义信息；所述编码器用于识别图像语义信息。

3.根据权利要求2所述的方法，其特征在于，所述编码器的输入为图像，输出为输入图像对应的低维向量，作为输入图像的语义信息。

4.根据权利要求3所述的方法，其特征在于，所述编码器为卷积神经网络。

5.根据权利要求2所述的方法，其特征在于，所述视频图像中的语义信息包括以下任意一种：

所述视频图像中设定对象的语义信息；

所述视频图像的全局语义信息。

6.根据权利要求5所述的方法，其特征在于，提取所述视频图像中设定对象的语义信息的步骤，包括：

识别所述视频图像中的设定对象，得到所述设定对象的子图像；

将所述设定对象的子图像输入经过训练的编码器；

获取所述编码器的输出，得到所述视频图像中所述设定对象的语义信息。

7.根据权利要求6所述的方法，其特征在于，所述设定对象包括人脸或者人体。

8.根据权利要求7所述的方法，其特征在于，如果所述设定对象为人脸，所述提取所述视频图像中设定对象的语义信息的步骤，包括：

识别所述视频图像中的人脸区域，得到人脸子图像；

将所述人脸子图像输入经过训练的编码器；

获取所述编码器的输出，得到所述视频图像中的人脸语义信息。

9.根据权利要求7所述的方法，其特征在于，如果所述设定对象为人体，所述提取所述视频图像中设定对象的语义信息的步骤，包括：

识别所述视频图像中的人体区域，得到人体子图像；

将所述人体子图像输入经过训练的编码器；

获取所述编码器的输出，得到所述视频图像中的人体语义信息。

10.根据权利要求5所述的方法，其特征在于，提取所述视频图像中的全局语义信息的步骤，包括：

将所述视频图像输入经过训练的编码器；

获取所述编码器的输出，得到所述视频图像中的全局语义信息。

11.根据权利要求5至10任一所述的方法，其特征在于，还包括：

每间隔N帧采用设定的图像传输模式向第二视频通信端发送第一参考图像；在设定的图像传输模式下传输的所述第一参考图像的数据量，大于所述语义信息的数据量；N大于1；

12.根据权利要求11所述的方法，其特征在于，若所述语义信息为设定对象的语义信息，所述第一参考图像，用于使所述第二视频通信端根据接收到的语义信息得到所述设定对象的重构子图像，将所述重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

13.根据权利要求11所述的方法，其特征在于，若所述语义信息为全局语义信息，所述第一参考图像，用于使所述第二视频通信端根据接收到的语义信息得到初始重构图像，将所述初始重构图像与所述第一参考图像融合，得到所述视频图像的重构图像。

14.根据权利要求12所述的方法，其特征在于，若所述语义信息为设定对象的语义信息，所述方法还包括：

获取所述视频图像中设定对象的位置信息；

向所述第二视频通信端发送所述位置信息；所述位置信息用于使所述第二视频通信端根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

15.根据权利要求5至14任一所述的方法，其特征在于，所述方法还包括：

采用设定的图像传输模式向所述第二视频通信端发送第二参考图像；在所述设定的图像传输模式下传输的所述第二参考图像的数据量，大于所述语义信息的数据量；

16.一种视频图像传输方法，其特征在于，包括：

接收视频图像的语义信息；所述视频图像为所述第一视频通信端拍摄的视频图像；

根据所述语义信息重构图像，得到所述视频图像的重构图像；

通过第二视频通信端的显示屏显示所述重构图像。

17.根据权利要求16所述的方法，其特征在于，所述根据所述语义信息重构图像，得到所述视频图像的重构图像的步骤，包括：

根据所述语义信息以及预先训练的解码器重构图像，得到所述视频图像的重构图像。

18.根据权利要求17所述的方法，其特征在于，所述解码器的输入为图像语义信息，输出为基于输入语义信息重构的图像。

19.根据权利要求18所述的方法，其特征在于，所述解码器为卷积神经网络。

20.根据权利要求17所述的方法，其特征在于，所述视频图像的语义信息包括以下任意一种：

所述视频图像中的设定对象的语义信息；

所述视频图像的全局语义信息。

21.根据权利要求20所述的方法，其特征在于，

所述设定对象包括人脸或者人体。

22.根据权利要求21所述的方法，其特征在于，根据所述语义信息重构图像，得到所述视频图像的重构图像的步骤包括：

获取最近时间通过设定的图像传输模式接收的第一参考图像；所述第一参考图像为所述第一视频通信端发送的其拍摄的视频图像；通过设定的图像传输模式接收到的所述第一参考图像的数据量，大于所述语义信息的数据量；

根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像。

23.根据权利要求22所述的方法，其特征在于，所述方法还包括：

每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像；N大于1。

24.根据权利要求23所述的方法，其特征在于，如果所述语义信息为设定对象的语义信息，根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像的步骤，包括：

将所述语义信息输入经过训练的解码器；

获取所述解码器的输出，得到所述设定对象的重构子图像；

将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

25.根据权利要求23所述的方法，其特征在于，如果所述语义信息为图像的全局语义信息，根据所述语义信息和所述第一参考图像重构图像，得到所述视频图像的重构图像的步骤，包括：

将所述语义信息输入经过训练的解码器；

获取所述解码器的输出，得到初始重构图像；

将所述初始重构图像与所述第一参考图像融合，得到所述视频图像的重构图像。

26.根据权利要求24所述的方法，其特征在于，包括：

若所述语义信息为人脸语义信息，获取所述解码器的输出，得到人脸的重构子图像；

若所述语义信息为人体语义信息，获取所述解码器的输出，得到人体的重构子图像。

27.根据权利要求24所述的方法，其特征在于，还包括：

接收所述第一视频通信端发送的位置信息；所述位置信息为所述视频图像中所述设定对象的位置信息；

所述将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像的步骤，包括：

根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合，得到所述视频图像的重构图像。

28.根据权利要求27所述的方法，其特征在于，所述接收所述第一视频通信端发送的位置信息的步骤，包括：

接收所述第一视频通信端发送的第一位置信息；所述第一位置信息为所述视频图像中人脸区域的位置信息；

接收所述第一视频通信端发送的第二位置信息；所述第二位置信息为所述视频图像中人体区域的位置信息。

29.根据权利要求27所述的方法，其特征在于，根据所述位置信息将所述设定对象的重构子图像与所述第一参考图像融合的步骤之前，还包括：

对所述设定对象的重构子图像进行边缘羽化处理。

30.根据权利要求21至29任一所述的方法，其特征在于，根据所述语义信息重构图像，得到所述视频图像的重构图像的步骤，包括：

获取通过设定的图像传输模式接收到的第二参考图像；所述第二参考图像为设定对象的图像、所述第一视频通信端的环境图像中至少一种；通过设定的图像传输模式接收到的所述第二参考图像的数据量，大于所述语义信息的数据量；

根据所述语义信息和所述第二参考图像重构图像，得到所述视频图像的重构图像。

31.一种视频图像传输方法，其特征在于，包括：

第一视频通信端获取拍摄到的视频图像，获取所述视频图像的语义信息，向第二视频通信端发送所述语义信息；

所述第二视频通信端接收所述语义信息，根据所述语义信息重构图像，得到所述视频图像的重构图像，通过第二视频通信端的显示屏显示所述重构图像。

32.一种视频图像传输装置，其特征在于，包括：

图像获取模块，用于获取第一视频通信端拍摄的视频图像；

信息提取模块，用于提取所述视频图像的语义信息；

33.根据权利要求32所述的装置，其特征在于，所述信息提取模块，具体用于通过经过训练的编码器提取所述视频图像的语义信息；所述编码器用于识别图像语义信息。

34.根据权利要求33所述的装置，其特征在于，所述编码器的输入为图像，输出为输入图像对应的低维向量，作为输入图像的语义信息。

35.根据权利要求33所述的装置，其特征在于，所述视频图像中的语义信息包括以下任意一种：

36.根据权利要求35所述的装置，其特征在于，还包括：

37.根据权利要求35所述的装置，其特征在于，还包括：

38.一种视频图像传输装置，其特征在于，包括：

39.根据权利要求38所述的装置，其特征在于，所述图像重构模块，具体用于根据所述语义信息以及预先训练的解码器重构图像，得到所述视频图像的重构图像。

40.根据权利要求39所述的装置，其特征在于，所述视频图像的语义信息包括以下任意一种：

所述视频图像中的设定对象的语义信息；

所述视频图像的全局语义信息。

41.根据权利要求40所述的装置，其特征在于，所述图像重构模块，包括：

42.根据权利要求41所述的装置，其特征在于，还包括：

第一参考图像接收子模块，用于每间隔N帧通过设定的图像传输模式接收来自所述第一视频通信端的第一参考图像；N大于1。

43.根据权利要求40所述的装置，其特征在于，所述图像重构模块，包括：

44.一种视频图像传输的系统，其特征在于，包括第一视频通信端和第二视频通信端；所述第一视频通信端之间第二视频通信端视频通信连接；

45.一种交互智能平板，包括摄像装置、显示屏、存储器和处理器，所述存储器存储有计算机程序，其特征在于，

所述交互智能平板通过所述摄像装置拍摄视频图像；

46.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至30任一项所述方法的步骤。