CN103841358A

CN103841358A - 低码流的视频会议系统及方法、发送端设备、接收端设备

Info

Publication number: CN103841358A
Application number: CN201210480773.5A
Authority: CN
Inventors: 李霞; 付贤会; 张凯; 修岩
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-11-23
Filing date: 2012-11-23
Publication date: 2014-06-04
Anticipated expiration: 2032-11-23
Also published as: EP2924985A1; EP2924985A4; US20150341565A1; CN103841358B; WO2014079302A1

Abstract

本发明公开了一种低码流的视频会议系统，根据从提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。本发明还公开了一种低码流的视频会议数据传输方法，根据从提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。本发明还公开了一种低码流的视频会议系统的发送端设备，用于形成音频特征映射和视频特征映射，获取局部动态图像后传输。本发明还公开了一种低码流的视频会议系统的接收端设备，用于根据提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。采用本发明，能节约带宽，以满足日益增长的视频会议业务需求。

Description

低码流的视频会议系统及方法、发送端设备、接收端设备

技术领域

本发明涉及多媒体通信领域，尤其涉及一种低码流的视频会议系统及低码流的视频会议数据传输方法、发送端设备、接收端设备。

背景技术

视频会议系统用于召开远程、多点及实时的会议，实现多点之间视频和声音的传输和交互。视频会议系统主要由终端和微控制单元(MCU，MicroControllerUnit)组成。在一个小型的视频会议系统中，通常由多个终端集中连接至一个MCU上，组成星型拓扑结构网络。终端是用户端设备，配有显示器、摄像机、扬声器、麦克风等多媒体部件；MCU是系统端设备，集中对各终端的多媒体信息进行交换和处理。

视频会议系统，可以说是集网络、视频和音频为一体的系统，对网络要求非常高。网络带宽实际上是整个视频会议的基础，其在视频会议中的使用也比较复杂，因为不同的需求产生不同的带宽要求。比如，参会人的多少，发言人的多少，图像的大小，很多用户希望尽可能采用大分辨率的图像，640×480的分辨率和320×240的分辨率比，数据量要增大4倍，20个会场和10个会场比数据量也大一倍。很多会议需要使用屏幕共享来给分公司，尽管这个功能非常的有价值，不过一个1024×768的屏幕是一个很大的图像，产生的流量也很大。因此如果没有足够的带宽，我们看到的视频会出现抖动，听到的声音会有杂音，使整个视频会议不能正常进行。目前很多企业都采用了专线网络，基本上能够保证视频会议系统需要的网络带宽，但专线成本很高。

综上所述，视频数据的传输会占用大量带宽，而且想要得到最佳的显示效果，传输的视频数据的分辨率就越高，从而导致更多的带宽被占用。针对传输视频数据时带宽被大量占用的问题，现有技术中没有有效的解决方案。

发明内容

有鉴于此，本发明的主要目的在于低码流的视频会议系统及方法、发送端设备、接收端设备，节约带宽，从而使IP网络的带宽能满足日益增长的视频会议业务需求。

为达到上述目的，本发明的技术方案是这样实现的：

一种低码流的视频会议系统，该系统，用于在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；发送端传输音频数据和局部动态图像到接收端，接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

其中，该系统包括：采集单元、识别单元、特征映射单元、发送单元、接收单元、特征提取比对单元、数据合成输出单元；其中，

所述采集单元，用于采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元；

所述识别单元，用于识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元；

所述特征映射单元，用于查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射；

所述发送单元，用于发送音频数据和局部动态图像，音频数据的编码中携带所述发言者身份；

所述接收单元，用于接收音频数据和局部动态图像；

所述特征提取比对单元，用于从音频数据的编码中提取出所述发言者身份，查询已经存在的音频特征映射和视频特征映射，根据所述发言者身份从音频特征映射中提取出音频特征，从视频特征映射中提取出视频特征；

所述数据合成输出单元，用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

其中，所述识别单元，进一步用于识别出发言者身份和发言者当前参与会议的会议号，由所述发言者身份和所述会议号形成身份识别码，由所述身份识别码标识与采集的音频数据和视频数据对应的身份特征；或者，仅由所述发言者身份标识所述身份特征。

其中，所述特征映射单元，进一步用于在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地生成音频特征映射和视频特征映射。

其中，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成；或者，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成，所述身份识别码由发言者身份和会议号形成。

其中，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成；或者，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成，所述身份识别码由发言者身份和会议号形成。

其中，所述局部动态图像具体包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

一种低码流的视频会议数据传输方法，该方法包括：

发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像，传输音频数据和局部动态图像到接收端；

接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

其中，形成所述音频特征映射具体包括：

识别出发言者身份后，以发言者身份为索引关键字形成音频特征映射，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成；或者，

识别出发言者身份和会议号后，以发言者身份和会议号为组合索引关键字形成音频特征映射，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成；所述身份识别码由所述发言者身份和所述会议号形成。

其中，形成所述视频特征映射具体包括：

识别出发言者身份后，以发言者身份为索引关键字形成视频特征映射，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成；或者，

识别出发言者身份和会议号后，以发言者身份和会议号为组合索引关键字形成视频特征映射，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成；所述身份识别码由所述发言者身份和所述会议号形成。

其中，形成音频特征映射和视频特征映射之前，该方法还包括：在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地形成音频特征映射和视频特征映射。

一种低码流的视频会议系统的发送端设备，所述设备，用于获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；传输音频数据和局部动态图像到接收端。

其中，所述设备包括：采集单元、识别单元、特征映射单元、发送单元；其中，

所述发送单元，用于发送音频数据和局部动态图像，音频数据的编码中携带所述发言者身份。

一种低码流的视频会议系统的接收端设备，所述设备，用于接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及从发送端接收的局部动态图像整理合成出原始视频数据并播放音频数据。

其中，所述设备包括：接收单元、特征提取比对单元、数据合成输出单元；其中，

所述接收单元，用于接收音频数据和局部动态图像；

本发明的系统是在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；发送端传输音频数据和局部动态图像到接收端，接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。

由于并不是传输完整的视频数据，仅传输局部动态图像，通过在接收端根据提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据，因此，在传输数据量上得到了控制，降低了传输数据量，从而节约了带宽，满足视频业务会议的需求。

附图说明

图1为本发明系统的组成原理结构示意图；

图2为本发明方法原理的实现流程示意图；

图3为本发明身份建立应用实例的示意图；

图4为本发明音频映射建立应用实例的示意图；

图5为本发明视频映射建立应用实例的示意图；

图6为本发明动态图像获取应用实例的示意图；

图7为本发明发送端音频处理流程应用实例的示意图；

图8为本发明发送端视频处理流程应用实例的示意图；

图9为本发明接收端视频整合处理流程应用实例的示意图。

具体实施方式

本发明的基本思想是：在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；发送端传输音频数据和局部动态图像到接收端，接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。

考虑到视频会议需要的带宽中视频数据占据绝大部分，对一个企业或机关，视频会议是具有特点的，如与会的人员基本固定，开会时焦点在发言者身上，尤其是发言者的眼神，口型和手势，从而分析得出：为了改进对带宽的占用，在视频会议中不直接传输视频数据，而是在发送端拆分视频数据，到接收端再对视频数据进行整合处理还原出原始视频数据就行，这样，由于在传输时不是直接传输视频数据，相比现有技术来说降低了传输的数据量，从而减少了视频数据传输时对带宽的占用，也不用顾忌高分辨率视频数据的传输会占用更多带宽，而牺牲视频数据的质量，即用低分辨率的视频数据来代替高分辨率视频数据，由于本发明不直接传输视频数据，而是拆分，因此，无需担心这个带宽大量占用问题，带宽在可控范围内，而且带宽在可控范围内还可以得到最佳显示效果的高分辨率的视频数据。

下面结合附图对技术方案的实施作进一步的详细描述。

如图1所示，一种低码流的视频会议系统，该系统包括：采集单元、识别单元、特征映射单元、发送单元。其中，

采集单元，用于采集音频数据和视频数据，将采集的音频数据和视频数据发送给识别单元。

识别单元，用于识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像，将音频特征、视频特征和局部动态图像发送给特征映射单元。

这里，除了识别出发言者身份，还可以识别出发言者所参与的会议号，根据发言者身份和会议号生成身份识别码。

这里，该视频特征包括：会议的背景图像特征和发言者的图像特征。该局部动态图像包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

这里，识别单元还可以分成语音识别子单元和图像识别子单元，语音识别子单元用于对采集的音频数据进行语音识别并获取音频特征；图像识别子单元用于对采集的视频数据进行图像识别并获取视频特征和局部动态图像。

特征映射单元，用于在本地或网络数据库查询是否已经存在音频特征映射和视频特征映射，如果查询不到，则根据该发言者身份和接收的音频特征生成音频特征映射，根据该发言者身份和接收的视频特征生成视频特征映射，并在本地存储音频特征映射和视频特征映射，或者将音频特征映射和视频特征映射上传到网络数据库进行存储，以便后续查询使用。

这里，音频特征映射和视频特征映射都可以用发言者身份作为映射索引关键字，映射中还可以进一步包括会议号，用发言者身份和会议号作为组合映射索引关键字。

这里，特征映射单元，还可以分成音频特征映射子单元和视频特征映射子单元。音频特征映射子单元用于在本地或网络数据库查询是否已经存在音频特征映射，如果查询不到，则根据该发言者身份和接收的音频特征生成音频特征映射，本地存储音频特征映射，或者将音频特征映射上传到网络数据库进行存储，以便后续查询使用；视频特征映射子单元用于在本地或网络数据库查询是否已经存在视频特征映射，如果查询不到，则根据该发言者身份和接收的视频特征生成视频特征映射，本地存储视频特征映射，或者将视频特征映射上传到网络数据库进行存储，以便后续查询使用。

发送单元，用于发送音频数据和局部动态图像，音频数据的编码中携带发言者身份或身份识别码。

如果发送音频数据就无需提取了，只需要根据发言者身份从视频特征映射中提取出视频特征，以便于整理合并时使用。当然也可以仅发送局部动态图像时，需要接收端根据发言者身份从音频特征映射中提取出音频特征，以便于整理合并时使用。发送单元发送身份识别码时，身份识别码由发言者身份和会议号构成。在接收端通过身份识别码对应到音频特征、视频特征和局部动态图形，以便整理合并以还原出原始视频数据，并播放音频数据，从而经过发送端和接收端的相互作用处理，在接收端能生动还原出当前会议与会发言者的表情/嘴型/手势/弯曲度等，而且由于在传输时只需要发送局部动态图形，无需发送完整的视频数据，而是将之前采集过的音/视频数据的音/视频特征在发送端和接收端都存储一份，在网络数据库上也有备份，这样，执行所述整理合并以还原出原始视频数据，并播放音频数据时，只需要从接收端本地或网络数据库中的音/视频特征映射中，根据发言者身份提取出对应的音/视频数据，再与接收的局部动态图形进行合成就行，简单易操作，减低了传输的数据量，节约了带宽。也不用担心无法传输和显示高分辨率的视频数据了。

以上所述实际上为该系统发送端设备所包含的各个功能单元，以下对该系统接收端设备所包含的各个功能单元进行描述。

该系统还包括：接收单元、特征提取比对单元、数据合成输出单元。其中，

接收单元，用于接收音频数据和局部动态图像。

特征提取比对单元，用于从音频数据中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射和视频特征映射，根据该发言者身份从音频特征映射中提取出音频特征，根据该发言者身份从视频特征映射中提取出视频特征。

这里，当音频数据携带的是该发言者身份时，以该发言者身份为索引关键字到音频特征映射和视频特征映射中进行查询。如果音频数据不是携带该发言者身份，而是携带由发言者身份和会议号构成的身份识别码，则由身份识别码作为组合索引关键字到音频特征映射和视频特征映射中进行查询。

这里，特征提取比对单元还可以分为音频特征提取比对子单元和视频特征提取比对子单元。音频特征提取比对子单元用于从音频数据中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射，根据该发言者身份从音频特征映射中提取出音频特征；视频特征提取比对子单元用于根据该发言者身份从视频特征映射中提取出视频特征。

数据合成输出单元，用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

如图2所示，一种低码流的视频会议数据传输方法，包括以下步骤：

步骤101、采集音频数据和视频数据，识别出发言者身份，对采集的音频数据进行语音识别并获取音频特征，对采集的视频数据进行图像识别并获取视频特征和局部动态图像。

步骤102、发送音频数据和局部动态图像，音频数据的编码中携带发言者身份。

步骤103、接收音频数据和局部动态图像，从音频数据的编码中提取出该发言者身份，在本地或网络数据库查询已经存在的音频特征映射和视频特征映射，根据该发言者身份从音频特征映射中提取出音频特征，根据该发言者身份从视频特征映射中提取出视频特征。

步骤104、采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据，并结合音频特征输出音频数据和原始视频数据。

一种低码流的视频会议系统的发送端设备，该发送端设备包括：采集单元、识别单元、特征映射单元、发送单元。其中，

一种低码流的视频会议系统的接收端设备，该接收端设备包括：接收单元、特征提取比对单元、数据合成输出单元。其中，

接收单元，用于接收音频数据和局部动态图像。

如图3所示为本发明身份建立应用实例的示意图，身份建立过程包括：获取发言者身份和会场号，根据发言者身份和会议号生成身份识别码，决定唯一的身份。

如图4所示为本发明音频映射建立应用实例的示意图，音频映射建立过程包括：发送端对音频数据进行语音识别后，识别出发言者身份和音频特性，存储发言者身份和音频特征；发言者身份、和该发言者身份对应的音频特征以映射关系形成音频特征映射；音频特征映射可以采用音频特征模板的形式存储。这里，在音频特征模板中的音频特征映射关系可以采用发言者身份为键值索引到对应发言者身份的音频特征。

如图5所示为本发明视频映射建立应用实例的示意图，视频映射建立过程包括：发送端对视频数据进行图像识别后，识别出发言者身份和视频特性，存储发言者身份和视频特征；发言者身份、和该发言者身份对应的视频特征以映射关系形成视频特征映射；视频特征映射可以采用视频特征模板的形式存储。这里，在视频特征模板中的视频特征映射关系可以采用发言者身份为键值索引到对应发言者身份的视频特征。

如图6所示为本发明动态图像获取应用实例的示意图，动态图像获取过程包括：通过采集发言者的头部运动、眼球运动、手势、弯腰等轮廓运动来获取局部动态图像。该局部动态图像包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

本发明发送端处理流程包括：音频/视频采集；对采集后的音频数据进行语音识别；建立音频/视频特征模板；发送音频，采集动态特征图像并发送。具体的，对发送端音频/视频处理分别描述如下：

如图7所示为本发明发送端音频处理流程应用实例的示意图，该流程包括：在发送端，终端通过麦克风采集音频输入源信号，进行音频编码和语音识别；提取音频特征，在本地查询是否已经存在音频特征映射模板，如果本地存在，则输出音频并向接收端传输；如果本地不存在，则查询网络数据库是否存在音频特征映射模板，存在则直接下载音频特征映射模板到本地后，输出音频并向接收端传输；如果网络数据库也不存在，则在本地和网络数据库建立音频特征映射模板，存储。

如图8所示为本发明发送端视频处理流程应用实例的示意图，该流程包括：在发送端，终端采集视频输入源信号，进行视频编码；提取视频特征，根据背景图像特征，发言者图像特征形成视频特征；在本地查询是否已经存在视频特征映射模板，如果本地存在，则采集发言者头部动作，发言者眼球运动及手势等局部动态图像，输出局部动态图像并向接收端传输；如果本地不存在，则查询网络数据库是否存在视频特征映射模板，存在则直接下载视频特征映射模板到本地后，采集发言者头部动作，发言者眼球运动及手势等局部动态图像，输出局部动态图像并向接收端传输；如果网络数据库也不存在，则在本地和网络数据库建立视频特征映射模板，存储。

本发明接收端处理流程包括：接收音频，提取音频特征模板；提取视频特征模板，视频特征与局部动态图像合成还原出原始视频数据；音频/视频输出。具体的，对本发明的视频整合处理描述如下：

如图9所示为本发明接收端视频整合处理流程应用实例的示意图，该流程包括：接收音频信号，音频编码，身份识别(通过由发言者身份和会议号构成的身份识别码进行识别)；判断本地视频特征映射模板是否存在，如果不存在，则从网络数据库下载视频特征映射模板；如果存在，则从本地的视频特征映射模板中提取视频特征；接收局部动态图像；根据本地或网络数据库中音/视频特征映射模板中提取的音频特征和视频特征，及接收到的局部动态图像还原出原始视频数据，即：会场环境及发言者图像，尤其是唇型及手势等；输出音频信号，输出合成后的视频信号。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种低码流的视频会议系统，其特征在于，该系统，用于在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；发送端传输音频数据和局部动态图像到接收端，接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。

2.根据权利要求1所述的系统，其特征在于，该系统包括：采集单元、识别单元、特征映射单元、发送单元、接收单元、特征提取比对单元、数据合成输出单元；其中，

所述接收单元，用于接收音频数据和局部动态图像；

3.根据权利要求2所述的系统，其特征在于，所述识别单元，进一步用于识别出发言者身份和发言者当前参与会议的会议号，由所述发言者身份和所述会议号形成身份识别码，由所述身份识别码标识与采集的音频数据和视频数据对应的身份特征；或者，仅由所述发言者身份标识所述身份特征。

4.根据权利要求2所述的系统，其特征在于，所述特征映射单元，进一步用于在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地生成音频特征映射和视频特征映射。

5.根据权利要求2所述的系统，其特征在于，所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成；或者，所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成，所述身份识别码由发言者身份和会议号形成。

6.根据权利要求2所述的系统，其特征在于，所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成；或者，所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成，所述身份识别码由发言者身份和会议号形成。

7.根据权利要求1至6中任一项所述的系统，其特征在于，所述局部动态图像具体包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

8.一种低码流的视频会议数据传输方法，其特征在于，该方法包括：

9.根据权利要求8所述的方法，其特征在于，形成所述音频特征映射具体包括：

10.根据权利要求8所述的方法，其特征在于，形成所述视频特征映射具体包括：

11.根据权利要求8所述的方法，其特征在于，形成音频特征映射和视频特征映射之前，该方法还包括：在发送端本地和网络数据库进行所述查询，在本地查询到的情况，采用本地的音频特征映射和视频特征映射；在网络数据库查询到的情况，从网络数据库下载音频特征映射和视频特征映射到本地；在本地和网络数据库都查询不到的情况，在本地形成音频特征映射和视频特征映射。

12.根据权利要求8至11中任一项所述的方法，其特征在于，所述局部动态图像具体包括：发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。

13.一种低码流的视频会议系统的发送端设备，其特征在于，所述设备，用于获取音频数据和视频数据并分别形成音频特征映射和视频特征映射，获取局部动态图像；传输音频数据和局部动态图像到接收端。

14.根据权利要求13所述的设备，其特征在于，所述设备包括：采集单元、识别单元、特征映射单元、发送单元；其中，

15.一种低码流的视频会议系统的接收端设备，其特征在于，所述设备，用于接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及从发送端接收的局部动态图像整理合成出原始视频数据并播放音频数据。

16.根据权利要求15所述的设备，其特征在于，所述设备包括：接收单元、特征提取比对单元、数据合成输出单元；其中，

所述接收单元，用于接收音频数据和局部动态图像；