CN116132693A

CN116132693A - 一种视频会议图像传输编码方法、系统及应用

Info

Publication number: CN116132693A
Application number: CN202310146516.6A
Authority: CN
Inventors: 马军; 庄祖江; 杨捍; 汪淼; 郭先会
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-16

Abstract

本发明属于图像识别技术领域，公开了一种视频会议图像传输编码方法、系统及应用。发送端和接收端模型初始化；发送端接收传输的图片流，进行特征提取，将图像信息转为低维的特征向量，并进行传输；接收端接收到对应的特征后进行图像的重建，并输出重建成功的图像流。本发明设计了多个不同作用的神经网络可以在输入到对图像进行高效的压缩编码，同时在接收端采用生成网络对图像进行了还原，在压缩率和传输图像质量之间取得了较好的平衡。本发明针对于目前传统图像编码传输方案，在低带宽场景下图像质量模糊的问题。采用多个特征提取模块对图像进行降维编码，降低传输成本，同时特定的生成网络将传输的特征进行复原获得较好的图像质量。

Description

一种视频会议图像传输编码方法、系统及应用

技术领域

本发明属于图像识别技术领域，尤其涉及一种视频会议图像传输编码方法、系统及应用。

背景技术

现有流媒体传输中的图像压缩编码技术，采用H264，H265，MPEG-1等，现有技术存在的缺点在于：在压缩率和传输图像质量之间较难取得很好的平衡。

通过上述分析，现有技术存在的问题及缺陷为：现有技术在低码率下图片质量差，现有技术由于传输图片特征没有利用网络编码，信息的安全性低。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种视频会议图像传输编码方法、系统及应用，具体涉及一种应用于单人像场景下视频会议图像传输编码方法。本发明的创新点在于可以对图像流极低码率的压缩，同时保证了接收图像的质量。解决了现有技术的无法在压缩率和图像质量之间取得平衡的问题。

所述技术方案如下：一种应用于单人像场景下视频会议图像传输编码方法，可以在低网络带宽下，进行视频的图像传输，且传输图像质量高，平均PSNR大于23；包括以下步骤：

S1，发送端和接收端模型初始化；

S2，发送端接收传输的图片流，进行特征提取，将图像信息转为低维的特征向量，并进行传输；

S3，接收端接收到对应的特征后进行图像的重建，并输出重建成功的图像流。

在本发明一实施例中，在步骤S1中，初始化包括：在发送端机器上进行姿态特征提取器、动作特征提取器以及身份证特征提取器的初始化，等待图像流传输第一帧，进行参考帧特征提取并传输到接收端，再进行其他帧传输；

在接收端上进行MIAOSHU XIA相关模型(智能交通模型，包括姿态特征提取器，身份证特征提取器)初始化，等待参考帧特征传输，然后等待发送端发送其他帧特征。

在步骤S2中，特征提取模块在发送端上用于提取参考帧特征和其它帧特征并传输给接收端机器。

在步骤S2中，发送端接收传输的图片流，进行特征提取具体包括：

在一次图像流数据传输中，当接收到传输参考帧的指令后，先执行提取参考帧特征，并传输给接收端，然后执行提取后续帧特征，并将后续帧特征传输到接收端。

在本发明一实施例中，在步骤S3中，接收端接收到对应的特征后进行图像的重建包括：

输入参考帧为X_r，其它帧为X_o，姿态特征提取模型表示为H，身份特征提取模型表示为P，动作特征模型表示S，图像重建模型表示为G，在参考帧传输过程中发送的数据为：

其中P(X_r)的大小为16×16×3维的特征，H(X_r)×S(X_r)为45维的特征向量；

在后续帧传输过程中发送的数据为：

其传输的特征维度为45维。

图像重建编码时公式为：

在本发明一实施例中，在后续帧传输过程中需传输后续帧特征，传输一帧图像需传输数据量为45×2bit，45为后续帧特征维度，2为字节数；

视频传输码率计算公式为：

转换为视频传输码率为2.25kbit/s；

参考帧的传输在一段时间的视频传输中平均传输码率为：

本发明的另一目的在于提供一种应用于单人像场景下视频会议图像传输编码系统，包括：

初始化模块，用于进行初始化操作；

发送端，用于后接收传输的图片流，发送到特征提取模块中进行特征提取；特征提取为降维的过程，将图像信息转为低维的特征向量；

接收端，用于接收发送端传输的特征，进行图像的重建；

图像流输出模块，用于输出重建成功的图像流。

所述接收端为多个，通过并联方式接收发送端发送的低维的特征向量。

本发明的另一目的在于提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述应用于单人像场景下视频会议图像传输编码方法。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述应用于单人像场景下视频会议图像传输编码方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果，具体描述如下：本发明设计了多个不同作用的神经网络可以在输入到对图像进行高效的压缩编码，同时在接收端采用生成网络对图像进行了还原，在压缩率和传输图像质量之间取得了较好的平衡。本发明针对于目前传统图像编码传输方案，在低带宽场景下图像质量模糊的问题。采用多个特征提取模块对图像进行降维编码，降低传输成本，同时特定的生成网络将传输的特征进行复原获得较好的图像质量。解决了在低码率下图片质量差的问题，同时由于传输图片特征由网络编码得到，没有实际语义信息，保证了信息的安全性。

第二、把技术方案看作一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：本发明应用于在单人视频会议通信场景下，采用神经网络技术对图像进行编码和解码。本发明对比与传统的图像压缩技术的优势还在于图像的压缩和重建可以分机器部署，可以用于视频会议场景下，压缩模型和重建模型进行分开部署，而且支持多发，一台发送端可以向多个接收端机器进行图像的传输。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理；

图1是本发明实施例提供的应用于单人像场景下视频会议图像传输编码方法流程图；

图2是本发明实施例提供的初始化操作的流程图；

图3是本发明实施例提供的传输过程中发送端程序工作流程图；

图4是本发明实施例提供的应用于单人像场景下视频会议图像传输编码系统示意图；

图5是本发明实施例提供的采用H264压缩码率为38kbit/S和28kbit/s对同一段视频进行压缩的结果效果图；

图中：1、初始化模块；2、发送端；3、接收端；4、图像流输出模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

一、解释说明实施例：

本发明实施例提供的应用于单人像场景下视频会议图像传输编码方法用于视频会议图像的传输，方案需要在发送端和接收端分开执行，其中发送端程序主要功能是对接收图像流并对其进行编码压缩并传输到接收端，而接收端的功能是接收特征信息并对其编码重建为高质量图片输出。对本方案传输图片分类为参考帧和其他帧，参考帧的作用在于提取其中身份特征以及动作特征，其他帧的定义为除参考帧以外的其它图像，在一次视频流传输中通常选首张图片作为参考帧，同时也支持随时更新参考帧信息，以获得更好的重建效果。

实施例1

如图1所示，本发明实施例提供的应用于单人像场景下视频会议图像传输编码方法包括以下步骤：

首先需要进行初始化操作；

然后接收传输的图片流，发送到特征提取模块中进行特征提取；特征提取就是降维的过程，将图像信息转为低维的特征向量；

之后将特征传输到接收端。接收端在接收到对应的特征后开始进行图像的重建，最后输出重建成功的图像流。

实施例2

基于实施例1提供的应用于单人像场景下视频会议图像传输编码方法，进一步地，初始化操作的流程如图2所示，在发送端机器上首先进行MIAOSHU XIA相关模型(智能交通模型，包括姿态特征提取器，身份证特征提取器)的初始化，等待图像流传输第一帧，进行参考帧特征提取并传输到接收端，之后就是进行其他帧传输；接收端机器上初始化第一步是模型初始化，等待参考帧特征传输，然后就是等待发送端发送其他帧特征。

实施例3

本发明实施例中，特征提取模块工作在发送端机器上主要用于提取参考帧特征和其它帧特征并传输给接收端机器。其工作流程如图3所示。

本发明传输过程中发送端程序工作流程如图3所示：

在一次图像流数据传输中，当接收到传输参考帧的指令后，先执行提取参考帧特征操作流程，数据流向如图3中实线所示，并传输给接收端，然后执行提取后续帧特征提取流程，数据流向如图3中虚线所示，并将特征传输到接收端。

接收端工程流程相对简单，在接收到参考帧特征后等待接收后续帧特征，在接收到后续帧特征后，结合两个特征输出重建的图像。

以下用公式表示图像的压缩和重建工程：

其中P(X_r)的大小为16×16×3维的特征，H(X_r)×S(X_r)为45维的特征向量。

在其他帧传输过程中发送的数据为：

其传输的特征维度为45维。

图像重建编码时公式为：

由以上公式可以看出本方案的模型可以在发送端和接收端完全解耦，中途的信息传输量最低一帧只需要45维的特征向量既可实现图像的重建。

实施例4

在本发明实施例中，传输的数据量计算如下：

对于输入视频分辨率为256×256，帧率为25的视频为例；

在后续帧传输阶段只需要传输后续帧特征，传输1帧图像需要传输数据量为45×2bit(45为后续帧特征维度，2为字节数)；

视频传输码率计算公式为：

转换为视频传输码率为2.25kbit/s。

若考虑到参考帧的传输在一段10分钟的视频传输中平均传输码率为：

经计算可得为2.29kbit/s，其重建的图像质量可以满足通话需求无模糊感，而采用h264技术压缩通常码率都需要100以上。

实施例5

如图4所示，本发明实施例提供的应用于单人像场景下视频会议图像传输编码系统包括：

初始化模块1，用于进行初始化操作；

发送端2，用于后接收传输的图片流，发送到特征提取模块中进行特征提取；特征提取就是降维的过程，将图像信息转为低维的特征向量；

接收端3，用于接收发送端2传输的特征，进行图像的重建；

图像流输出模块4，用于输出重建成功的图像流。

实施例6

接收端3为多个，通过并联方式接收发送端2发送的低维的特征向量。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

上述装置/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程。

二、应用实施例：

应用例1

本发明可以用在低通信质量下(传输率小于5kb/s)双方进行视频通话，双方机器上均部署发送端和接收端模型，可以同时进行实时的是视频通话。

应用例2

本发明实施例提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本发明实施例还提供了一种信息数据处理终端，所述信息数据处理终端用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤，所述信息数据处理终端不限于手机、电脑、交换机。

本发明实施例还提供了一种服务器，所述服务器用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤。

本发明实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

三、实施例相关效果的证据：

在低码率下场景可以进行流程的单人视频图像流传输。

为了对比本文的图像重建效果，与FOMM模型和FS-vid2vid模型进行重建精度的对比，采用PSNR和结构相似性(structural similarity，SSIM)作为图像清晰度指标，采用平均关键点距离(averary keypoints distance，AKD)作为重建动作准确度指标。结果如表1所示。

表1重建清晰度和精度对比实验

从表1可以看出本方案的重建清晰度和重建精度均达到了较高水平，能够应用于单人视频会议中的图像重建任务。且本发明相对于已有的图像重建算法的优势在于模型可完全分离，不是耦合在一起，具备了可以分开部署的优势.

采用H264压缩码率为38kbit/S和28kbit/s对同一段视频进行压缩的结果效果图如图5所示，图5中序号1图，序号2图分别表示压缩码率为38kbit/s和28kbit/s的效果图；5中序号3图为本发明重建结果，图5中序号4图为原始为压缩图片。由局部细节可以看出本发明对脸部的轮廓的重建清晰度更高。而采用本发明的方案的压缩码率在上一流程中计算得出只需要2.29kbit/s远低于H264的码率。

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种应用于单人像场景下视频会议图像传输编码方法，其特征在于，该方法包括以下步骤：

S1，发送端和接收端模型初始化；

2.根据权利要求1所述的应用于单人像场景下视频会议图像传输编码方法，其特征在于，在步骤S1中，初始化包括：在发送端机器上进行姿态特征提取器、动作特征提取器以及身份证特征提取器的初始化，等待图像流传输第一帧，进行参考帧特征提取并传输到接收端，再进行其他帧传输；

在接收端上进行初始化，等待参考帧特征传输，然后等待发送端发送其他帧特征。

3.根据权利要求1所述的应用于单人像场景下视频会议图像传输编码方法，其特征在于，在步骤S2中，进行特征提取是在发送端上用于提取参考帧特征和其它帧特征并传输给接收端机器。

4.根据权利要求1所述的应用于单人像场景下视频会议图像传输编码方法，其特征在于，在步骤S2中，发送端接收传输的图片流具体包括：

5.根据权利要求1所述的应用于单人像场景下视频会议图像传输编码方法，其特征在于，在步骤S3中，接收端接收到对应的特征后进行图像的重建包括：

其中P(X_r)的大小为16×16×3维的特征，H(X_r)×S(X_r)为45维的特征向量；在后续帧传输过程中发送的数据为：

其传输的特征维度为45维，图像重建编码时公式为：

6.根据权利要求5所述的应用于单人像场景下视频会议图像传输编码方法，其特征在于，在后续帧传输过程中需传输后续帧特征，传输一帧图像需传输数据量为45×2bit，45为后续帧特征维度，2为字节数；视频传输码率计算公式为：

转换为视频传输码率为2.25kbit/s，参考帧的传输在一段时间的视频传输中平均传输码率为：

7.一种实现如权利要求1-6任意一项所述应用于单人像场景下视频会议图像传输编码方法的应用于单人像场景下视频会议图像传输编码系统，其特征在于，所述应用于单人像场景下视频会议图像传输编码系统包括：

初始化模块(1)，用于进行初始化操作；

发送端(2)，用于后接收传输的图片流，发送到特征提取模块中进行特征提取；特征提取为降维的过程，将图像信息转为低维的特征向量；

接收端(3)，用于接收发送端(2)传输的特征，进行图像的重建；

图像流输出模块(4)，用于输出重建成功的图像流。

8.根据权利要求7所述的应用于单人像场景下视频会议图像传输编码系统，其特征在于，所述接收端(3)为多个，通过并联方式接收发送端(2)发送的低维的特征向量。

9.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求1-6任意一项所述应用于单人像场景下视频会议图像传输编码方法。

10.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-6任意一项所述应用于单人像场景下视频会议图像传输编码方法。