CN103841358A - 低码流的视频会议系统及方法、发送端设备、接收端设备 - Google Patents
低码流的视频会议系统及方法、发送端设备、接收端设备 Download PDFInfo
- Publication number
- CN103841358A CN103841358A CN201210480773.5A CN201210480773A CN103841358A CN 103841358 A CN103841358 A CN 103841358A CN 201210480773 A CN201210480773 A CN 201210480773A CN 103841358 A CN103841358 A CN 103841358A
- Authority
- CN
- China
- Prior art keywords
- mapping
- frequency characteristics
- audio frequency
- identity
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种低码流的视频会议系统,根据从提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。本发明还公开了一种低码流的视频会议数据传输方法,根据从提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。本发明还公开了一种低码流的视频会议系统的发送端设备,用于形成音频特征映射和视频特征映射,获取局部动态图像后传输。本发明还公开了一种低码流的视频会议系统的接收端设备,用于根据提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。采用本发明,能节约带宽,以满足日益增长的视频会议业务需求。
Description
技术领域
本发明涉及多媒体通信领域,尤其涉及一种低码流的视频会议系统及低码流的视频会议数据传输方法、发送端设备、接收端设备。
背景技术
视频会议系统用于召开远程、多点及实时的会议,实现多点之间视频和声音的传输和交互。视频会议系统主要由终端和微控制单元(MCU,MicroControllerUnit)组成。在一个小型的视频会议系统中,通常由多个终端集中连接至一个MCU上,组成星型拓扑结构网络。终端是用户端设备,配有显示器、摄像机、扬声器、麦克风等多媒体部件;MCU是系统端设备,集中对各终端的多媒体信息进行交换和处理。
视频会议系统,可以说是集网络、视频和音频为一体的系统,对网络要求非常高。网络带宽实际上是整个视频会议的基础,其在视频会议中的使用也比较复杂,因为不同的需求产生不同的带宽要求。比如,参会人的多少,发言人的多少,图像的大小,很多用户希望尽可能采用大分辨率的图像,640×480的分辨率和320×240的分辨率比,数据量要增大4倍,20个会场和10个会场比数据量也大一倍。很多会议需要使用屏幕共享来给分公司,尽管这个功能非常的有价值,不过一个1024×768的屏幕是一个很大的图像,产生的流量也很大。因此如果没有足够的带宽,我们看到的视频会出现抖动,听到的声音会有杂音,使整个视频会议不能正常进行。目前很多企业都采用了专线网络,基本上能够保证视频会议系统需要的网络带宽,但专线成本很高。
综上所述,视频数据的传输会占用大量带宽,而且想要得到最佳的显示效果,传输的视频数据的分辨率就越高,从而导致更多的带宽被占用。针对传输视频数据时带宽被大量占用的问题,现有技术中没有有效的解决方案。
发明内容
有鉴于此,本发明的主要目的在于低码流的视频会议系统及方法、发送端设备、接收端设备,节约带宽,从而使IP网络的带宽能满足日益增长的视频会议业务需求。
为达到上述目的,本发明的技术方案是这样实现的:
一种低码流的视频会议系统,该系统,用于在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像;发送端传输音频数据和局部动态图像到接收端,接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。
其中,该系统包括:采集单元、识别单元、特征映射单元、发送单元、接收单元、特征提取比对单元、数据合成输出单元;其中,
所述采集单元,用于采集音频数据和视频数据,将采集的音频数据和视频数据发送给识别单元;
所述识别单元,用于识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像,将音频特征、视频特征和局部动态图像发送给特征映射单元;
所述特征映射单元,用于查询是否已经存在音频特征映射和视频特征映射,如果查询不到,则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射;
所述发送单元,用于发送音频数据和局部动态图像,音频数据的编码中携带所述发言者身份;
所述接收单元,用于接收音频数据和局部动态图像;
所述特征提取比对单元,用于从音频数据的编码中提取出所述发言者身份,查询已经存在的音频特征映射和视频特征映射,根据所述发言者身份从音频特征映射中提取出音频特征,从视频特征映射中提取出视频特征;
所述数据合成输出单元,用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
其中,所述识别单元,进一步用于识别出发言者身份和发言者当前参与会议的会议号,由所述发言者身份和所述会议号形成身份识别码,由所述身份识别码标识与采集的音频数据和视频数据对应的身份特征;或者,仅由所述发言者身份标识所述身份特征。
其中,所述特征映射单元,进一步用于在发送端本地和网络数据库进行所述查询,在本地查询到的情况,采用本地的音频特征映射和视频特征映射;在网络数据库查询到的情况,从网络数据库下载音频特征映射和视频特征映射到本地;在本地和网络数据库都查询不到的情况,在本地生成音频特征映射和视频特征映射。
其中,所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成;或者,所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成,所述身份识别码由发言者身份和会议号形成。
其中,所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成;或者,所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成,所述身份识别码由发言者身份和会议号形成。
其中,所述局部动态图像具体包括:发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。
一种低码流的视频会议数据传输方法,该方法包括:
发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像,传输音频数据和局部动态图像到接收端;
接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。
其中,形成所述音频特征映射具体包括:
识别出发言者身份后,以发言者身份为索引关键字形成音频特征映射,所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成;或者,
识别出发言者身份和会议号后,以发言者身份和会议号为组合索引关键字形成音频特征映射,所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成;所述身份识别码由所述发言者身份和所述会议号形成。
其中,形成所述视频特征映射具体包括:
识别出发言者身份后,以发言者身份为索引关键字形成视频特征映射,所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成;或者,
识别出发言者身份和会议号后,以发言者身份和会议号为组合索引关键字形成视频特征映射,所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成;所述身份识别码由所述发言者身份和所述会议号形成。
其中,形成音频特征映射和视频特征映射之前,该方法还包括:在发送端本地和网络数据库进行所述查询,在本地查询到的情况,采用本地的音频特征映射和视频特征映射;在网络数据库查询到的情况,从网络数据库下载音频特征映射和视频特征映射到本地;在本地和网络数据库都查询不到的情况,在本地形成音频特征映射和视频特征映射。
其中,所述局部动态图像具体包括:发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。
一种低码流的视频会议系统的发送端设备,所述设备,用于获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像;传输音频数据和局部动态图像到接收端。
其中,所述设备包括:采集单元、识别单元、特征映射单元、发送单元;其中,
所述采集单元,用于采集音频数据和视频数据,将采集的音频数据和视频数据发送给识别单元;
所述识别单元,用于识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像,将音频特征、视频特征和局部动态图像发送给特征映射单元;
所述特征映射单元,用于查询是否已经存在音频特征映射和视频特征映射,如果查询不到,则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射;
所述发送单元,用于发送音频数据和局部动态图像,音频数据的编码中携带所述发言者身份。
一种低码流的视频会议系统的接收端设备,所述设备,用于接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及从发送端接收的局部动态图像整理合成出原始视频数据并播放音频数据。
其中,所述设备包括:接收单元、特征提取比对单元、数据合成输出单元;其中,
所述接收单元,用于接收音频数据和局部动态图像;
所述特征提取比对单元,用于从音频数据的编码中提取出所述发言者身份,查询已经存在的音频特征映射和视频特征映射,根据所述发言者身份从音频特征映射中提取出音频特征,从视频特征映射中提取出视频特征;
所述数据合成输出单元,用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
本发明的系统是在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像;发送端传输音频数据和局部动态图像到接收端,接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。
由于并不是传输完整的视频数据,仅传输局部动态图像,通过在接收端根据提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据,因此,在传输数据量上得到了控制,降低了传输数据量,从而节约了带宽,满足视频业务会议的需求。
附图说明
图1为本发明系统的组成原理结构示意图;
图2为本发明方法原理的实现流程示意图;
图3为本发明身份建立应用实例的示意图;
图4为本发明音频映射建立应用实例的示意图;
图5为本发明视频映射建立应用实例的示意图;
图6为本发明动态图像获取应用实例的示意图;
图7为本发明发送端音频处理流程应用实例的示意图;
图8为本发明发送端视频处理流程应用实例的示意图;
图9为本发明接收端视频整合处理流程应用实例的示意图。
具体实施方式
本发明的基本思想是:在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像;发送端传输音频数据和局部动态图像到接收端,接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的局部动态图像整理合成出原始视频数据并播放音频数据。
考虑到视频会议需要的带宽中视频数据占据绝大部分,对一个企业或机关,视频会议是具有特点的,如与会的人员基本固定,开会时焦点在发言者身上,尤其是发言者的眼神,口型和手势,从而分析得出:为了改进对带宽的占用,在视频会议中不直接传输视频数据,而是在发送端拆分视频数据,到接收端再对视频数据进行整合处理还原出原始视频数据就行,这样,由于在传输时不是直接传输视频数据,相比现有技术来说降低了传输的数据量,从而减少了视频数据传输时对带宽的占用,也不用顾忌高分辨率视频数据的传输会占用更多带宽,而牺牲视频数据的质量,即用低分辨率的视频数据来代替高分辨率视频数据,由于本发明不直接传输视频数据,而是拆分,因此,无需担心这个带宽大量占用问题,带宽在可控范围内,而且带宽在可控范围内还可以得到最佳显示效果的高分辨率的视频数据。
下面结合附图对技术方案的实施作进一步的详细描述。
如图1所示,一种低码流的视频会议系统,该系统包括:采集单元、识别单元、特征映射单元、发送单元。其中,
采集单元,用于采集音频数据和视频数据,将采集的音频数据和视频数据发送给识别单元。
识别单元,用于识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像,将音频特征、视频特征和局部动态图像发送给特征映射单元。
这里,除了识别出发言者身份,还可以识别出发言者所参与的会议号,根据发言者身份和会议号生成身份识别码。
这里,该视频特征包括:会议的背景图像特征和发言者的图像特征。该局部动态图像包括:发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。
这里,识别单元还可以分成语音识别子单元和图像识别子单元,语音识别子单元用于对采集的音频数据进行语音识别并获取音频特征;图像识别子单元用于对采集的视频数据进行图像识别并获取视频特征和局部动态图像。
特征映射单元,用于在本地或网络数据库查询是否已经存在音频特征映射和视频特征映射,如果查询不到,则根据该发言者身份和接收的音频特征生成音频特征映射,根据该发言者身份和接收的视频特征生成视频特征映射,并在本地存储音频特征映射和视频特征映射,或者将音频特征映射和视频特征映射上传到网络数据库进行存储,以便后续查询使用。
这里,音频特征映射和视频特征映射都可以用发言者身份作为映射索引关键字,映射中还可以进一步包括会议号,用发言者身份和会议号作为组合映射索引关键字。
这里,特征映射单元,还可以分成音频特征映射子单元和视频特征映射子单元。音频特征映射子单元用于在本地或网络数据库查询是否已经存在音频特征映射,如果查询不到,则根据该发言者身份和接收的音频特征生成音频特征映射,本地存储音频特征映射,或者将音频特征映射上传到网络数据库进行存储,以便后续查询使用;视频特征映射子单元用于在本地或网络数据库查询是否已经存在视频特征映射,如果查询不到,则根据该发言者身份和接收的视频特征生成视频特征映射,本地存储视频特征映射,或者将视频特征映射上传到网络数据库进行存储,以便后续查询使用。
发送单元,用于发送音频数据和局部动态图像,音频数据的编码中携带发言者身份或身份识别码。
如果发送音频数据就无需提取了,只需要根据发言者身份从视频特征映射中提取出视频特征,以便于整理合并时使用。当然也可以仅发送局部动态图像时,需要接收端根据发言者身份从音频特征映射中提取出音频特征,以便于整理合并时使用。发送单元发送身份识别码时,身份识别码由发言者身份和会议号构成。在接收端通过身份识别码对应到音频特征、视频特征和局部动态图形,以便整理合并以还原出原始视频数据,并播放音频数据,从而经过发送端和接收端的相互作用处理,在接收端能生动还原出当前会议与会发言者的表情/嘴型/手势/弯曲度等,而且由于在传输时只需要发送局部动态图形,无需发送完整的视频数据,而是将之前采集过的音/视频数据的音/视频特征在发送端和接收端都存储一份,在网络数据库上也有备份,这样,执行所述整理合并以还原出原始视频数据,并播放音频数据时,只需要从接收端本地或网络数据库中的音/视频特征映射中,根据发言者身份提取出对应的音/视频数据,再与接收的局部动态图形进行合成就行,简单易操作,减低了传输的数据量,节约了带宽。也不用担心无法传输和显示高分辨率的视频数据了。
以上所述实际上为该系统发送端设备所包含的各个功能单元,以下对该系统接收端设备所包含的各个功能单元进行描述。
该系统还包括:接收单元、特征提取比对单元、数据合成输出单元。其中,
接收单元,用于接收音频数据和局部动态图像。
特征提取比对单元,用于从音频数据中提取出该发言者身份,在本地或网络数据库查询已经存在的音频特征映射和视频特征映射,根据该发言者身份从音频特征映射中提取出音频特征,根据该发言者身份从视频特征映射中提取出视频特征。
这里,当音频数据携带的是该发言者身份时,以该发言者身份为索引关键字到音频特征映射和视频特征映射中进行查询。如果音频数据不是携带该发言者身份,而是携带由发言者身份和会议号构成的身份识别码,则由身份识别码作为组合索引关键字到音频特征映射和视频特征映射中进行查询。
这里,特征提取比对单元还可以分为音频特征提取比对子单元和视频特征提取比对子单元。音频特征提取比对子单元用于从音频数据中提取出该发言者身份,在本地或网络数据库查询已经存在的音频特征映射,根据该发言者身份从音频特征映射中提取出音频特征;视频特征提取比对子单元用于根据该发言者身份从视频特征映射中提取出视频特征。
数据合成输出单元,用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
如图2所示,一种低码流的视频会议数据传输方法,包括以下步骤:
步骤101、采集音频数据和视频数据,识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像。
步骤102、发送音频数据和局部动态图像,音频数据的编码中携带发言者身份。
步骤103、接收音频数据和局部动态图像,从音频数据的编码中提取出该发言者身份,在本地或网络数据库查询已经存在的音频特征映射和视频特征映射,根据该发言者身份从音频特征映射中提取出音频特征,根据该发言者身份从视频特征映射中提取出视频特征。
步骤104、采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
一种低码流的视频会议系统的发送端设备,该发送端设备包括:采集单元、识别单元、特征映射单元、发送单元。其中,
采集单元,用于采集音频数据和视频数据,将采集的音频数据和视频数据发送给识别单元。
识别单元,用于识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像,将音频特征、视频特征和局部动态图像发送给特征映射单元。
特征映射单元,用于在本地或网络数据库查询是否已经存在音频特征映射和视频特征映射,如果查询不到,则根据该发言者身份和接收的音频特征生成音频特征映射,根据该发言者身份和接收的视频特征生成视频特征映射,并在本地存储音频特征映射和视频特征映射,或者将音频特征映射和视频特征映射上传到网络数据库进行存储,以便后续查询使用。
发送单元,用于发送音频数据和局部动态图像,音频数据的编码中携带发言者身份或身份识别码。
如果发送音频数据就无需提取了,只需要根据发言者身份从视频特征映射中提取出视频特征,以便于整理合并时使用。当然也可以仅发送局部动态图像时,需要接收端根据发言者身份从音频特征映射中提取出音频特征,以便于整理合并时使用。发送单元发送身份识别码时,身份识别码由发言者身份和会议号构成。在接收端通过身份识别码对应到音频特征、视频特征和局部动态图形,以便整理合并以还原出原始视频数据,并播放音频数据,从而经过发送端和接收端的相互作用处理,在接收端能生动还原出当前会议与会发言者的表情/嘴型/手势/弯曲度等,而且由于在传输时只需要发送局部动态图形,无需发送完整的视频数据,而是将之前采集过的音/视频数据的音/视频特征在发送端和接收端都存储一份,在网络数据库上也有备份,这样,执行所述整理合并以还原出原始视频数据,并播放音频数据时,只需要从接收端本地或网络数据库中的音/视频特征映射中,根据发言者身份提取出对应的音/视频数据,再与接收的局部动态图形进行合成就行,简单易操作,减低了传输的数据量,节约了带宽。也不用担心无法传输和显示高分辨率的视频数据了。
一种低码流的视频会议系统的接收端设备,该接收端设备包括:接收单元、特征提取比对单元、数据合成输出单元。其中,
接收单元,用于接收音频数据和局部动态图像。
特征提取比对单元,用于从音频数据中提取出该发言者身份,在本地或网络数据库查询已经存在的音频特征映射和视频特征映射,根据该发言者身份从音频特征映射中提取出音频特征,根据该发言者身份从视频特征映射中提取出视频特征。
数据合成输出单元,用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
如图3所示为本发明身份建立应用实例的示意图,身份建立过程包括:获取发言者身份和会场号,根据发言者身份和会议号生成身份识别码,决定唯一的身份。
如图4所示为本发明音频映射建立应用实例的示意图,音频映射建立过程包括:发送端对音频数据进行语音识别后,识别出发言者身份和音频特性,存储发言者身份和音频特征;发言者身份、和该发言者身份对应的音频特征以映射关系形成音频特征映射;音频特征映射可以采用音频特征模板的形式存储。这里,在音频特征模板中的音频特征映射关系可以采用发言者身份为键值索引到对应发言者身份的音频特征。
如图5所示为本发明视频映射建立应用实例的示意图,视频映射建立过程包括:发送端对视频数据进行图像识别后,识别出发言者身份和视频特性,存储发言者身份和视频特征;发言者身份、和该发言者身份对应的视频特征以映射关系形成视频特征映射;视频特征映射可以采用视频特征模板的形式存储。这里,在视频特征模板中的视频特征映射关系可以采用发言者身份为键值索引到对应发言者身份的视频特征。
如图6所示为本发明动态图像获取应用实例的示意图,动态图像获取过程包括:通过采集发言者的头部运动、眼球运动、手势、弯腰等轮廓运动来获取局部动态图像。该局部动态图像包括:发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。
本发明发送端处理流程包括:音频/视频采集;对采集后的音频数据进行语音识别;建立音频/视频特征模板;发送音频,采集动态特征图像并发送。具体的,对发送端音频/视频处理分别描述如下:
如图7所示为本发明发送端音频处理流程应用实例的示意图,该流程包括:在发送端,终端通过麦克风采集音频输入源信号,进行音频编码和语音识别;提取音频特征,在本地查询是否已经存在音频特征映射模板,如果本地存在,则输出音频并向接收端传输;如果本地不存在,则查询网络数据库是否存在音频特征映射模板,存在则直接下载音频特征映射模板到本地后,输出音频并向接收端传输;如果网络数据库也不存在,则在本地和网络数据库建立音频特征映射模板,存储。
如图8所示为本发明发送端视频处理流程应用实例的示意图,该流程包括:在发送端,终端采集视频输入源信号,进行视频编码;提取视频特征,根据背景图像特征,发言者图像特征形成视频特征;在本地查询是否已经存在视频特征映射模板,如果本地存在,则采集发言者头部动作,发言者眼球运动及手势等局部动态图像,输出局部动态图像并向接收端传输;如果本地不存在,则查询网络数据库是否存在视频特征映射模板,存在则直接下载视频特征映射模板到本地后,采集发言者头部动作,发言者眼球运动及手势等局部动态图像,输出局部动态图像并向接收端传输;如果网络数据库也不存在,则在本地和网络数据库建立视频特征映射模板,存储。
本发明接收端处理流程包括:接收音频,提取音频特征模板;提取视频特征模板,视频特征与局部动态图像合成还原出原始视频数据;音频/视频输出。具体的,对本发明的视频整合处理描述如下:
如图9所示为本发明接收端视频整合处理流程应用实例的示意图,该流程包括:接收音频信号,音频编码,身份识别(通过由发言者身份和会议号构成的身份识别码进行识别);判断本地视频特征映射模板是否存在,如果不存在,则从网络数据库下载视频特征映射模板;如果存在,则从本地的视频特征映射模板中提取视频特征;接收局部动态图像;根据本地或网络数据库中音/视频特征映射模板中提取的音频特征和视频特征,及接收到的局部动态图像还原出原始视频数据,即:会场环境及发言者图像,尤其是唇型及手势等;输出音频信号,输出合成后的视频信号。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (16)
1.一种低码流的视频会议系统,其特征在于,该系统,用于在发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像;发送端传输音频数据和局部动态图像到接收端,接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。
2.根据权利要求1所述的系统,其特征在于,该系统包括:采集单元、识别单元、特征映射单元、发送单元、接收单元、特征提取比对单元、数据合成输出单元;其中,
所述采集单元,用于采集音频数据和视频数据,将采集的音频数据和视频数据发送给识别单元;
所述识别单元,用于识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像,将音频特征、视频特征和局部动态图像发送给特征映射单元;
所述特征映射单元,用于查询是否已经存在音频特征映射和视频特征映射,如果查询不到,则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射;
所述发送单元,用于发送音频数据和局部动态图像,音频数据的编码中携带所述发言者身份;
所述接收单元,用于接收音频数据和局部动态图像;
所述特征提取比对单元,用于从音频数据的编码中提取出所述发言者身份,查询已经存在的音频特征映射和视频特征映射,根据所述发言者身份从音频特征映射中提取出音频特征,从视频特征映射中提取出视频特征;
所述数据合成输出单元,用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
3.根据权利要求2所述的系统,其特征在于,所述识别单元,进一步用于识别出发言者身份和发言者当前参与会议的会议号,由所述发言者身份和所述会议号形成身份识别码,由所述身份识别码标识与采集的音频数据和视频数据对应的身份特征;或者,仅由所述发言者身份标识所述身份特征。
4.根据权利要求2所述的系统,其特征在于,所述特征映射单元,进一步用于在发送端本地和网络数据库进行所述查询,在本地查询到的情况,采用本地的音频特征映射和视频特征映射;在网络数据库查询到的情况,从网络数据库下载音频特征映射和视频特征映射到本地;在本地和网络数据库都查询不到的情况,在本地生成音频特征映射和视频特征映射。
5.根据权利要求2所述的系统,其特征在于,所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成;或者,所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成,所述身份识别码由发言者身份和会议号形成。
6.根据权利要求2所述的系统,其特征在于,所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成;或者,所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成,所述身份识别码由发言者身份和会议号形成。
7.根据权利要求1至6中任一项所述的系统,其特征在于,所述局部动态图像具体包括:发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。
8.一种低码流的视频会议数据传输方法,其特征在于,该方法包括:
发送端获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像,传输音频数据和局部动态图像到接收端;
接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及接收的所述局部动态图像整理合成出原始视频数据并播放音频数据。
9.根据权利要求8所述的方法,其特征在于,形成所述音频特征映射具体包括:
识别出发言者身份后,以发言者身份为索引关键字形成音频特征映射,所述音频特征映射由发言者身份和与所述发言者身份对应的音频特征组成;或者,
识别出发言者身份和会议号后,以发言者身份和会议号为组合索引关键字形成音频特征映射,所述音频特征映射由身份识别码和与所述身份识别码对应的音频特征组成;所述身份识别码由所述发言者身份和所述会议号形成。
10.根据权利要求8所述的方法,其特征在于,形成所述视频特征映射具体包括:
识别出发言者身份后,以发言者身份为索引关键字形成视频特征映射,所述视频特征映射由发言者身份和与所述发言者身份对应的视频特征组成;或者,
识别出发言者身份和会议号后,以发言者身份和会议号为组合索引关键字形成视频特征映射,所述视频特征映射由身份识别码和与所述身份识别码对应的视频特征组成;所述身份识别码由所述发言者身份和所述会议号形成。
11.根据权利要求8所述的方法,其特征在于,形成音频特征映射和视频特征映射之前,该方法还包括:在发送端本地和网络数据库进行所述查询,在本地查询到的情况,采用本地的音频特征映射和视频特征映射;在网络数据库查询到的情况,从网络数据库下载音频特征映射和视频特征映射到本地;在本地和网络数据库都查询不到的情况,在本地形成音频特征映射和视频特征映射。
12.根据权利要求8至11中任一项所述的方法,其特征在于,所述局部动态图像具体包括:发言者的头部运动、眼球运动、手势、轮廓运动中的至少一种轨迹图像信息。
13.一种低码流的视频会议系统的发送端设备,其特征在于,所述设备,用于获取音频数据和视频数据并分别形成音频特征映射和视频特征映射,获取局部动态图像;传输音频数据和局部动态图像到接收端。
14.根据权利要求13所述的设备,其特征在于,所述设备包括:采集单元、识别单元、特征映射单元、发送单元;其中,
所述采集单元,用于采集音频数据和视频数据,将采集的音频数据和视频数据发送给识别单元;
所述识别单元,用于识别出发言者身份,对采集的音频数据进行语音识别并获取音频特征,对采集的视频数据进行图像识别并获取视频特征和局部动态图像,将音频特征、视频特征和局部动态图像发送给特征映射单元;
所述特征映射单元,用于查询是否已经存在音频特征映射和视频特征映射,如果查询不到,则根据所述音频特征和所述视频特征分别生成音频特征映射和视频特征映射;
所述发送单元,用于发送音频数据和局部动态图像,音频数据的编码中携带所述发言者身份。
15.一种低码流的视频会议系统的接收端设备,其特征在于,所述设备,用于接收端根据从本端的音频特征映射和视频特征映射中提取的音频特征、视频特征及从发送端接收的局部动态图像整理合成出原始视频数据并播放音频数据。
16.根据权利要求15所述的设备,其特征在于,所述设备包括:接收单元、特征提取比对单元、数据合成输出单元;其中,
所述接收单元,用于接收音频数据和局部动态图像;
所述特征提取比对单元,用于从音频数据的编码中提取出所述发言者身份,查询已经存在的音频特征映射和视频特征映射,根据所述发言者身份从音频特征映射中提取出音频特征,从视频特征映射中提取出视频特征;
所述数据合成输出单元,用于采用提取出的视频特征和接收的局部动态图像合成还原出原始视频数据,并结合音频特征输出音频数据和原始视频数据。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210480773.5A CN103841358B (zh) | 2012-11-23 | 2012-11-23 | 低码流的视频会议系统及方法、发送端设备、接收端设备 |
PCT/CN2013/086009 WO2014079302A1 (zh) | 2012-11-23 | 2013-10-25 | 低码流的视频会议系统及方法、发送端设备、接收端设备 |
EP13856801.9A EP2924985A4 (en) | 2012-11-23 | 2013-10-25 | SYSTEM AND METHOD FOR LOW BINARY RATE VIDEO CONFERENCE, SENDING END DEVICE, AND RECEIVING END DEVICE |
US14/647,259 US20150341565A1 (en) | 2012-11-23 | 2013-10-25 | Low data-rate video conference system and method, sender equipment and receiver equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210480773.5A CN103841358B (zh) | 2012-11-23 | 2012-11-23 | 低码流的视频会议系统及方法、发送端设备、接收端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103841358A true CN103841358A (zh) | 2014-06-04 |
CN103841358B CN103841358B (zh) | 2017-12-26 |
Family
ID=50775511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210480773.5A Active CN103841358B (zh) | 2012-11-23 | 2012-11-23 | 低码流的视频会议系统及方法、发送端设备、接收端设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150341565A1 (zh) |
EP (1) | EP2924985A4 (zh) |
CN (1) | CN103841358B (zh) |
WO (1) | WO2014079302A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017050067A1 (zh) * | 2015-09-25 | 2017-03-30 | 中兴通讯股份有限公司 | 一种视频通信方法、装置及系统 |
CN108537508A (zh) * | 2018-03-30 | 2018-09-14 | 上海爱优威软件开发有限公司 | 会议记录方法及系统 |
CN109076251A (zh) * | 2016-07-26 | 2018-12-21 | 惠普发展公司,有限责任合伙企业 | 远程会议传输 |
CN112702556A (zh) * | 2020-12-18 | 2021-04-23 | 厦门亿联网络技术股份有限公司 | 一种辅流数据传输方法、系统、存储介质及终端设备 |
CN114866192A (zh) * | 2022-05-31 | 2022-08-05 | 电子科技大学 | 一种基于特征及相关信息的信号传输方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704421B (zh) * | 2016-03-16 | 2019-01-01 | 国网山东省电力公司信息通信公司 | 一种视频会议主分会场组网系统及方法 |
US11527265B2 (en) * | 2018-11-02 | 2022-12-13 | BriefCam Ltd. | Method and system for automatic object-aware video or audio redaction |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5995518A (en) * | 1997-05-01 | 1999-11-30 | Hughes Electronics Corporation | System and method for communication of information using channels of different latency |
US6072494A (en) * | 1997-10-15 | 2000-06-06 | Electric Planet, Inc. | Method and apparatus for real-time gesture recognition |
CA2676023C (en) * | 2007-01-23 | 2015-11-17 | Euclid Discoveries, Llc | Systems and methods for providing personal video services |
CN101677389A (zh) * | 2008-09-17 | 2010-03-24 | 深圳富泰宏精密工业有限公司 | 图片传输系统及方法 |
US8386255B2 (en) * | 2009-03-17 | 2013-02-26 | Avaya Inc. | Providing descriptions of visually presented information to video teleconference participants who are not video-enabled |
US8279263B2 (en) * | 2009-09-24 | 2012-10-02 | Microsoft Corporation | Mapping psycho-visual characteristics in measuring sharpness feature and blurring artifacts in video streams |
CN101951494B (zh) * | 2010-10-14 | 2012-07-25 | 上海紫南信息技术有限公司 | 传统电话与视频会议显示图像融合的方法 |
CN102271241A (zh) * | 2011-09-02 | 2011-12-07 | 北京邮电大学 | 一种基于面部表情/动作识别的图像通信方法及系统 |
CN102427533B (zh) * | 2011-11-22 | 2013-11-06 | 苏州科雷芯电子科技有限公司 | 视频传输装置及方法 |
CN102572356B (zh) * | 2012-01-16 | 2014-09-03 | 华为技术有限公司 | 记录会议的方法和会议系统 |
-
2012
- 2012-11-23 CN CN201210480773.5A patent/CN103841358B/zh active Active
-
2013
- 2013-10-25 US US14/647,259 patent/US20150341565A1/en not_active Abandoned
- 2013-10-25 EP EP13856801.9A patent/EP2924985A4/en not_active Withdrawn
- 2013-10-25 WO PCT/CN2013/086009 patent/WO2014079302A1/zh active Application Filing
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017050067A1 (zh) * | 2015-09-25 | 2017-03-30 | 中兴通讯股份有限公司 | 一种视频通信方法、装置及系统 |
CN106559636A (zh) * | 2015-09-25 | 2017-04-05 | 中兴通讯股份有限公司 | 一种视频通信方法、装置及系统 |
CN109076251A (zh) * | 2016-07-26 | 2018-12-21 | 惠普发展公司,有限责任合伙企业 | 远程会议传输 |
US11095695B2 (en) | 2016-07-26 | 2021-08-17 | Hewlett-Packard Development Company, L.P. | Teleconference transmission |
CN109076251B (zh) * | 2016-07-26 | 2022-03-08 | 惠普发展公司,有限责任合伙企业 | 远程会议传输 |
CN108537508A (zh) * | 2018-03-30 | 2018-09-14 | 上海爱优威软件开发有限公司 | 会议记录方法及系统 |
CN112702556A (zh) * | 2020-12-18 | 2021-04-23 | 厦门亿联网络技术股份有限公司 | 一种辅流数据传输方法、系统、存储介质及终端设备 |
CN114866192A (zh) * | 2022-05-31 | 2022-08-05 | 电子科技大学 | 一种基于特征及相关信息的信号传输方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2924985A1 (en) | 2015-09-30 |
EP2924985A4 (en) | 2015-11-25 |
US20150341565A1 (en) | 2015-11-26 |
CN103841358B (zh) | 2017-12-26 |
WO2014079302A1 (zh) | 2014-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103841358A (zh) | 低码流的视频会议系统及方法、发送端设备、接收端设备 | |
CN102325246B (zh) | 一种视频会议系统、视频会议服务器及移动通信终端 | |
CN106303565B (zh) | 视频直播的画质优化方法和装置 | |
CN103369289A (zh) | 一种视频模拟形象的通信方法和装置 | |
CN110234081A (zh) | 视频短信的发送、接收方法及其装置和手持电子设备 | |
CN202957917U (zh) | 多功能网络会议系统 | |
CN105959613A (zh) | 数字会议设备和系统 | |
CN101299690A (zh) | 一种多媒体内容的监测方法、系统及装置 | |
WO2012109956A1 (zh) | 视讯会议中会议信息的处理方法及设备 | |
CN105245355A (zh) | 智能语音速记会议系统 | |
US20150208036A1 (en) | Video conference display method and device | |
CN105959614A (zh) | 一种视频会议的处理方法及系统 | |
CN103051864A (zh) | 移动视频会议方法及其系统 | |
CN105247854A (zh) | 用于将外部设备关联到视频会议会话的方法和系统 | |
CN101582951A (zh) | 一种运用语音识别技术的会议记录的实现方法和设备 | |
CN114071059A (zh) | 一种智能化建筑施工管理用无线视频会议系统 | |
CN102143347B (zh) | 一种多方远程互动系统 | |
CN108320331B (zh) | 一种生成用户场景的增强现实视频信息的方法与设备 | |
CN109348164A (zh) | 一种电视电话会议自助保障控制系统 | |
CN209419734U (zh) | 一种视频会议系统的音视频外设扩展装置 | |
CN207266190U (zh) | 一种数字化庭审系统 | |
CN201365313Y (zh) | 一种网上即时直播和点播系统 | |
CN105592327A (zh) | 一种基于iptv系统的股票信息的处理方法及装置 | |
KR20190029999A (ko) | 멀티 커넥션을 통한 회의록 생성 시스템 및 그 방법 | |
CN203340203U (zh) | 多点视频会议系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |