CN105376515B

CN105376515B - 用于视频通讯的通讯信息的呈现方法、装置及系统

Info

Publication number: CN105376515B
Application number: CN201410445414.5A
Authority: CN
Inventors: 陈子冲; 赵寅; 吕培; 周炯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-09-02
Filing date: 2014-09-02
Publication date: 2019-03-19
Anticipated expiration: 2034-09-02
Also published as: US9641801B2; US20160065895A1; EP2993860B1; EP3611897B1; EP3611897A1; CN105376515A; EP2993860A1

Abstract

本发明实施例提供一种视频通讯中用于呈现通讯信息的方法，其特征在于，包括：控制采集视频通讯现场的音频信息与视频信息；根据音频信息判断视频通讯现场中的发言人的位置，发言人为视频通讯现场参加者中发言的人；根据发言人的位置从视频信息中获取发言视频信息，其中，发言视频信息为发言人在发言时段的视频信息；控制发言视频信息呈现。

Description

用于视频通讯的通讯信息的呈现方法、装置及系统

技术领域

本发明涉及通迅领域，尤其涉及用于视频通讯的音视频信息的呈现方法、装置及系统。

背景技术

现有用于视频会议的通讯技术中，一方会场的显示设备通常会显示另一方会场的所有参会人员，如另一方会场中的参会人员过多，会导致显示设备显示过多人员而不能重点突出正在发言的人。

因此，需要研究开发出一种通讯方法及系统克服上述缺陷。

发明内容

第一方面，本发明实施例提供了一种视频通讯中用于呈现通讯信息的方法，包括：控制采集所述视频通讯现场的音频信息与视频信息；根据所述音频信息判断所述视频通讯现场中的发言人的位置，所述发言人为为所述视频通讯现场参加者中发言的人，所述多个参加者为多个参加所述视频通讯的人；根据所述发言人的位置从所述视频信息中获取发言视频信息，其中，所述发言视频信息为所述发言人在所述发言时段的视频信息；控制所述发言视频信息呈现。

在第一方面的第一种可能的实现方式中，所述控制采集所述视频通讯现场的音频信息与视频信息包括：控制数个采集设备采集所述音频信息与所述视频信息，所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块，所述视频采集模块相对于所述音频采集模块的位置为预设的，所述音频采集模块采集所述多个参加者中一个或数个参加者的音频信息，所述视频采集模块采集所述一个或数个参加者的视频信息，所述音频采集模块采集的所述多个参加者中一个或数个参加者的音频信息构成所述音频信息中的一路音频信息，所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息；所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括：将所述音频信息中音量最大，音量超过音量阈值，且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息；及根据所述发言人的声音信息，判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置；所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括：根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置，判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置；识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像，并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置；根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置，确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像；及从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。

在第一方面的第二种可能的实现方式中，所述控制采集所述视频通讯现场的音频信息与视频信息包括：控制一个采集设备采集设备采集所述音频信息与所述视频信息，所述采集设备包括一个音频采集模块及一个视频采集模块，所述音频采集模块相对于所述视频采集模块的位置为预设的，所述音频采集模块采集所述音频信息，所述音频信息为所述多个参加者的音频信息，所述视频采集模块采集所述视频信息，所述视频信息为所述多个参加者的视频信息；所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括：根据所述音频信息，判断所述发言人相对于所述音频采集模块的位置；所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括：根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置，判断所述发言人相对于所述视频采集模块的位置；识别出所述视频信息中的所述多个参加者的影像，并记录所述多个参加者的影像相对于所述视频采集模块的位置；根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置，确定所述视频信息中所述发言人的影像；及从所述视频信息中，提取所述发言时段中所述发言人的影像。

结合第一方面第一种可能的实现方式以及第二种可能的实现方式中的任意一种可能的实现方式，在第三种可能的实现方式中，其中，所述音频采集模块为麦克风阵列，其中，所述麦克风阵列包括至少两个麦克风。

结合第一方面，或者第一方面第一至第二种任意一种可能的实现方式，在第四种可能的实现方式中，所述控制所述发言视频信息呈现包括：控制所述发言视频信息实时呈现。

结合第一方面，或者第一方面第一至第二种任意一种可能的实现方式，在第五种可能的实现方式中，所述控制所述发言视频信息呈现包括：控制记录所述发言视频信息；及控制记录的所述发言视频信息在所述发言时段结束后呈现。

结合第一方面第五种可能的实现方式，在第六种可能的实现方式中，还包括：若所述发言人的音量低于音量最低阈值，且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值，则判断所述发言时段结束；或若收到发言结束信号，则判断所述发言时段结束。

结合第一方面第五种可能的实现方式以及第六种可能的实现方式中的任意一种可能的实现方式，在第七种可能的实现方式中，所述控制所述发言视频信息呈现还包括生成与所述发言视频信息对应的记录图标，所述控制记录的所述发言视频信息在所述发言时段结束后呈现包括根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放所述发言视频信息。

结合第一方面第七种可能的实现方式，在第八种可能的实现方式中，所述方法还包括根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：发言音频信息及与所述发言音频信息对应的文本信息，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

结合第一方面第五种可能的实现方式、第一方面第六种可能的实现方式及第一方面第七种可能的实现方式中任意一种可能的实现方式，在第九种可能的实现方式中，还包括：在所述发言时段中，禁止发言音频信息及所述发言视频信息实时呈现，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

结合第一方面、第一方面第一种可能的实现方式、第一方面第二种可能的实现方式、第一方面第三种可能的实现方式及第一方面第四种可能的实现方式中任意一种可能的实现方式，在第十种可能的实现方式中，所述控制所述发言视频信息呈现包括：控制记录所述发言视频信息；接收指示信息，所述指示信息用于指示待播放的发言视频信息的时间范围；及控制呈现所述时间范围内的所述发言视频信息。

第二方面，本发明实施例提供了一种视频通讯中用于呈现通讯信息的装置，包括：控制采集模块，用于控制一个或多个采集设备采集所述视频通讯现场的音频信息与视频信息；判断模块，用于根据所述音频信息判断所述视频通讯现场中的发言人的位置，所述发言人为多个参加者中在发言时段发言的参加者，所述多个参加者为多个参加所述视频通讯的人；获取模块，用于根据所述发言人的位置从所述视频信息中获取发言视频信息，其中，所述发言视频信息为所述发言人在所述发言时段的视频信息；及控制呈现模块，用于控制所述发言视频信息呈现。

在第二方面的第一种可能的实现方式中，所述采集设备为数个，所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块，所述视频采集模块相对于所述音频采集模块的位置为预设的，所述音频采集模块采集所述多个参加者中一个或数个参加者的音频信息，所述视频采集模块采集所述一个或数个参加者的视频信息，所述音频采集模块采集的所述一个或数个参加者的音频信息构成所述音频信息中的一路音频信息，所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息；所述判断模块包括：选择模块，用于将所述音频信息中音量最大，音量超过音量阈值，且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息；及音频判位模块，用于根据所述发言人的声音信息，判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置；所述获取模块包括：视频判位模块，用于根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置，判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置；影像识别模块，用于识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像，并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置；影像确定模块，用于根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置，确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像；及影像提取模块，用于从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。

在第二方面的第二种可能的实现方式中，所述一个采集设备包括一个音频采集模块及一个视频采集模块，所述音频采集模块相对于所述视频采集模块的位置为预设的，所述音频采集模块采集所述音频信息，所述音频信息包括所述多个参加者的音频信息，所述视频采集模块采集所述视频信息，所述视频信息包括所述多个参加者的视频信息；所述判断模块用于根据所述音频信息，判断所述发言人相对于所述音频采集模块的位置；所述获取模块包括：视频判位模块，用于根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置，判断所述发言人相对于所述视频采集模块的位置；影像识别模块，用于识别出所述视频信息中的所述多个参加者的影像，并记录所述多个参加者的影像相对于所述视频采集模块的位置；影像确定模块，用于根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置，确定所述视频信息中所述发言人的影像；及影像提取模块，用于从所述视频信息中，提取所述发言时段中所述发言人的影像。

在第二方面的第二种可能的实现方式，所述一个采集设备包括一个音频采集模块及一个视频采集模块，所述音频采集模块相对于所述视频采集模块的位置为预设的，所述音频采集模块采集所述音频信息，所述音频信息包括所述多个参加者的音频信息，所述视频采集模块采集所述视频信息，所述视频信息包括所述多个参加者的视频信息；所述判断模块用于根据所述音频信息，判断所述发言人相对于所述音频采集模块的位置；所述获取模块包括：视频判位模块，用于根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置，判断所述发言人相对于所述视频采集模块的位置；影像识别模块，用于识别出所述视频信息中的所述多个参加者的影像，并记录所述多个参加者的影像相对于所述视频采集模块的位置；影像确定模块，用于根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置，确定所述视频信息中所述发言人的影像；及影像提取模块，用于从所述视频信息中，提取所述发言时段中所述发言人的影像。

结合第二方面第一种可能的实现方式以及第二种可能的实现方式，在第三种可能的实现方式中，所述音频采集模块为麦克风阵列，其中，所述麦克风阵列包括至少两个麦克风。

结合第二方面，或者第二方面第一至第三种任意一种可能的实现方式，在第四种可能的实现方式中，所述控制呈现模块用于控制所述发言视频信息实时呈现。

结合第二方面，或者第二方面第一至第三种任意一种可能的实现方式，在第五种可能的实现方式中，所述控制呈现模块包括：记录模块，用于记录所述发言视频信息；及控制记录呈现模块，用于控制记录的所述发言视频信息在所述发言时段结束后呈现。

结合第二方面第五种可能的实现方式，在第六种可能的实现方式中，所述控制呈现模块还包括：发言结束判断模块，用于在所述发言人的音量低于音量最低阈值，且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值的情况下，判断所述发言时段结束；或用于在收到发言结束信号的情况下，判断所述发言时段结束。

结合第二方面第五到第六种中任意一种可能的实现方式，在第七种可能的实现方式中，所述记录模块还用于生成与所述发言视频信息对应的记录图标，所述控制记录呈现模块用于根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放所述发言视频信息。

结合第二方面第七种可能的实现方式中，在第八种可能的实现方式中，所述控制记录呈现模块还用于根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：发言音频信息及与所述发言音频信息对应的文本信息，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

结合第二方面第五到第七种中任意一种可能的实现方式，在第九种可能的实现方式中，所述控制呈现模块还包括禁止实时呈现模块，用于禁止所述发言音频信息及所述发言视频信息实时呈现，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

结合第二方面第五种可能的实现方式，在第十种可能的实现方式中，所述控制记录呈现模块包括：时间接收模块，用于指示信息，所述指示信息用于指示；及信息呈现控制模块，用于控制呈现所述时间范围内的下列信息中的至少一种：所述发言视频信息、所述发言音频信息及与所述发言音频信息对应的文本信息，其中，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

第三方面，本发明实施例提供了一种视频通讯中用于呈现通讯信息的系统，包括：如第二方面、结合第二方面的第一种到第十种可能的实现方式中任一中的装置；采集设备，用于在所述装置的控制下采集所述音频信息与所述视频信息；及所述终端设备，用于在所述装置的控制下呈现所述发言视频信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例的视频通讯应用场景示意图；

图2是本发明第二实施例的视频通讯中用于呈现通讯信息的方法流程示意图；

图3是本发明第三实施例的视频通讯中用于呈现通讯信息的方法流程示意图；

图4是本发明第三实施例的视频通讯中用于呈现通讯信息的另一方法流程示意图；

图5是本发明第四实施例的视频通讯中用于呈现通讯信息的方法流程示意图；

图6是本发明第五实施例的视频通讯中用于呈现通讯信息的装置的结构示意图；

图7是本发明第五实施例中的控制呈现模块的结构示意图；

图8是本发明第五实施例中的控制呈现模块中的控制记录呈现模块的结构示意图；

图9是本发明第六实施例的视频通讯中用于呈现通讯信息的装置的结构示意图；

图10是本发明第六实施例中的判断模块的结构示意图；

图11是本发明第六实施例中的获取模块的结构示意图；

图12是本发明第七实施例的视频通讯中用于呈现通讯信息的装置的结构示意图；

图13是本发明第七实施例中的获取模块的结构示意图；

图14是本发明第八实施例的视频通讯中用于呈现通讯信息的系统的结构示意图；及

图15是本发明第九实施例的视频通讯中用于呈现通讯信息的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明第一实施例的视频通讯应用场景示意图。

该视频通讯应用场景为视频会议。该视频会议召开于主会场104、分会场106及分会场108间。视频会议系统包括控制中心102。控制中心102控制主会场104、分会场106及分会场108间的音频信息、视频信息以及会议材料等信息的传递与共享。主会场104中有主讲人E与参会人A-D，并包括终端设备(如屏幕、喇叭与键盘)110(喇叭与键盘未在图中示出)以及采集设备112、114、及120。分会场106中有参会人E-F，并包括终端设备(如笔记本电脑)140及采集设备142。分会场108中有参会人G，并包括终端/采集设备(如移动电话)160。在一个实施例中，主讲人与参会人都是参加者。在另一个实施例中，主讲人是与会者，参会人是参加者。采集设备112、114、120、142及160采集主讲人与各参会人的视频信息与音频信息。每一个采集设备均包括视频采集模块与音频采集模块，如摄像头与麦克风阵列。视频采集模块用于采集视频信息。音频采集模块用于采集音频信息。终端设备110、140及160呈现视频信息与音频信息，并接收主讲人或各参会人输入的信号。

控制中心102控制主会场104中的采集设备120采集主会场104中主讲人E的视频信息与音频信息。控制中心102控制主会场104中的采集设备112采集主会场104中参会人A及B的视频信息与音频信息，控制主会场104中的采集设备114采集主会场104中参会人C及D的视频信息与音频信息，控制分会场106中的采集设备142采集分会场106中参会人F及H的视频信息与音频信息，并控制分会场108中的采集设备160采集分会场108中参会人G的视频信息与音频信息。控控制中心102控制各采集设备将其采集到的视频信息与音频信息上传到控制中心102。

控制中心102可根据上述采集到的视频信息与音频信息，识别出发言人，并从上述视频信息中提取出仅包含发言人的视频信息，将其在主会场或各分会场的终端呈现。例如，若主会场104中的参会人C发言，则控制中心102控制仅包含发言的参会人C的视频信息分别在主会场104的终端设备110、分会场106的终端设备140及分会场108的终端设备160上呈现。若分会场106中的参会人F发言，则控制中心102控制仅包含发言的参会人F的视频信息分别在主会场104的终端设备110、分会场106的终端设备140及分会场108的终端设备160上呈现。若分会场108中的参会人G发言，控制中心102以类似方式呈现相应的视频信息。

由于仅呈现参会人中的发言人的视频信息，而非呈现所有参会人的视频信息，观看视频信息的参会人较容易将注意力集中在发言人而非其他参会人上。

控制中心102也控制主会场104的采集设备120将其采集到的主讲人的视频信息上传到控制中心102。在一个实施例中，无论主会场104中的主讲人是否发言，控制中心102还控制采集到的主讲人的视频信息分别在终端设备110、终端设备140及终端设备160上呈现。在另一个实施例中，只有当主会场104中的主讲人发言时，控制中心102才会控制采集到的主讲人的视频信息分别在终端设备110、终端设备140及终端设备160上呈现。

控制中心102对主会场104中的采集设备112、114及120、分会场106中的采集设备142以及分会场108中的采集设备160采集到的音频信息呈现于终端设备110、140及/或160。在一个实施例中，控制中心102先对各会场的各采集设备采集到的音频信息作混音处理，再将经过混音处理的音频信息呈现于终端设备110、140及/或160。

实施例二

图2是本发明第二实施例的视频通讯中用于呈现通讯信息的方法流程示意图。该方法包括：

在步骤S202中，控制中心102控制采集视频通讯现场(如主会场104、分会场106及/或108)中的音频信息与视频信息。

在步骤S204中，控制中心102根据采集到的音频信息判断视频通讯现场中的发言人的位置。发言人为为所述视频通讯现场参加者中发言的人。

在步骤S206中，控制中心102根据发言人的位置从采集到的视频信息中获取发言视频信息，其中，发言视频信息为发言人在发言时段的视频信息；

在步骤S208中，控制中心102控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。

在一个实施例中，控制中心102控制发言视频信息在终端设备110、140及/或160上实时呈现。例如，主会场104中参会人C为发言人时，控制中心102控制包含参会人C的影像部分的发言视频信息在终端设备110、140及/或160上实时呈现。

在另一个实施例中，控制中心102控制记录发言视频信息，并控制记录的发言视频信息在发言时段结束后在终端设备110、140及/或160上呈现。具体而言，控制中心102记录发言视频信息，并生成与发言视频信息对应的记录图标，发言时段结束后，根据接收到的指示记录图标是否得到触碰的信号，控制开启播放或停止播放与记录图标对应的发言视频信息。更进一步地，在一个实施例中，控制中心102还根据接收到的指示记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：与记录图标对应的发言视频信息、发言音频信息及与发言音频信息对应的文本信息。发言音频信息是采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。文本信息例如是对发言音频信息的文字记录。由此，参会人可回溯视频通讯的内容。

在一个实施例中，判断发言时段结束的方式为：若发言人的音量低于音量最低阈值，且发言人的音量低于音量最低阈值的持续时间长于最长时间阈值，则判断发言时段结束；或若收到发言结束信号，例如是来自终端设备110、140或160的发言结束信号，则判断发言时段结束。

在一个实施例中，在另一参会人发言的过程当中，发言人可通过在终端设备110、140或160上进行操作启动静默发言模式。在静默发言模式中，在发言人发言的上述发言时段中，控制中心102禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现。发言音频信息为采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。具体地，在一个实施例中，发言人在终端设备上进行操作启动静默发言模式并开始发言。接受发言人的启动静默发言模式的操作后，该终端设备向控制中心102发送静默发言模式启动信号。控制中心102根据接收到的该静默发言模式启动信号，禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现，并同时控制采集该发言人的声音信息的采集设备记录该发言人的发言。发言人结束发言后，在终端设备110、140或160上进行操作以关闭静默发言模式。接受发言人的关闭静默发言模式的操作后，该终端设备向控制中心102发送静默发言模式关闭信号。控制中心102根据接收到的静默发言模式关闭信号，生成记录图标，使参会人可通过对该记录图标的触碰，控制播放该发言人在该静默发言模式中的发言的记录。

在一个实施例中，在采集设备112、114、120、142及160之中的各个采集设备与控制中心102之间的信息传输通道上，设置开关，使得开关导通时，该信息传输通道导通，在控制中心102的控制下，采集设备采集的视频信息与音频信息可上传到控制中心102，开关断开时，该信息传输通道断开，采集设备采集的视频信息与音频信息不能上传到控制中心102。该开关受静默发言模式信号控制。静默发言模式开启时，在静默发言模式信号控制下，在发言人发言的发言时段中，该开关断开，采集设备采集的视频信息与音频信息无法上传到控制中心102，本地采集设备记录下采集到的视频信息与音频信息。静默发言模式关闭后，该开关导通时，将记录下的视频信息与音频信息上传到控制中心102，且采集设备采集的视频信息与音频信息可上传到控制中心102。由此，发言人可在不打断另一在发言的参会人的发言的情况下，记录自己的发言，且在自己的发言结束后，各参会人可通过对相应记录图标的操作回溯自己的发言。

在一个实施例中，参会人可通过终端设备110、140或160输入一段时间范围，并输入相应的命令从而获得该段时间范围内的视频通讯中的信息。具体地，控制中心102记录发言视频信息，接收发自终端设备110、140或160的时间范围，并控制呈现接收的时间范围内的下列信息中的至少一种：发言视频信息、发言音频信息及与发言音频信息对应的文本信息。

在一个实施例中，参会人可通过终端设备110、140或160输入指定信号从而获得指定信号所指示的参会人在视频通讯中的信息。具体地，上述发言时段结束后，控制中心102接收发自终端设备110、140或160的指定信号。指定信号指示一个或数个参会人。控制中心102根据接收的指定信号，控制呈现指定信号所指示的一个或数个参会人作为发言人时的下列信息中的至少一种：发言视频信息、发言音频信息及与发言音频信息对应的文本信息。

在一个实施例中，参会人可通过终端设备110、140或160输入关键字，从而得到包含该关键字的与发言音频信息对应的文本信息。具体地，控制中心102接收发自终端设备110、140或160的关键字，并控制呈现包含该关键字的与各段发言音频信息对应的文本信息。

在一个实施例中，控制中心102通过建立如下数据库存储相关信息以实现如上三个实施例中的功能：

记录标志	开始时刻	结束时刻	发言人标志	文本信息
					1	5:12	6:21	2	#行云流水#
2	11:22	11:58	1	######
					3	12:36	13:25	2	##行云流水

实施例三

图3是本发明第三实施例的视频通讯中用于呈现通讯信息的方法流程示意图。该方法可用于第一实施例的主会场104中。该方法包括：

在步骤S302中，控制采集设备112及114采集音频信息与视频信息，采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A及B的音频信息。采集设备112中的音频采集模块所采集的参会人A及B的音频信息构成音频信息中的一路音频信息。采集设备114中的音频采集模块采集参会人C及D的音频信息。采集设备114中的音频采集模块所采集的参会人C及D的音频信息构成音频信息中的另一路音频信息。采集设备112中的视频采集模块采集参会人A及B的视频信息。采集设备112中的视频采集模块所采集的参会人A及B的视频信息构成视频信息中的一路视频信息。采集设备114中的视频采集模块采集参会人C及D的视频信息，采集设备114中的视频采集模块所采集的参会人C及D的视频信息构成视频信息中的另一路视频信息。在一个实施例中，每个音频采集模块为一个麦克风阵列。每个麦克风阵列至少包含两个麦克风。

步骤S302相当于实施例二中的步骤S202。

在步骤S304中，将音频信息中音量最大，音量超过音量阈值，且音量超过音量阈值的持续时间超过时间阈值的一路音频信息作为发言人的声音信息。

在步骤S306中，根据发言人的声音信息，判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中，利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中，麦克风阵列定位算法可参考R.O.Schmit,“Multiple emitter location and signal parameter estimation,”IEEE Transactions on Antennas Propag.,vol.34 no.3,pp.276-280,Mar.1986。

步骤S304及步骤S306相当于实施例二中的步骤S204。

在步骤S308中，根据发言人相对于采集发言人的声音信息的音频采集模块的位置及采集发言人的视频信息的视频采集模块相对于采集发言人的声音信息的音频采集模块的位置，判断发言人相对于采集发言人的视频信息的视频采集模块的位置。

在步骤S310中，识别出采集发言人的视频信息的视频采集模块采集的一路视频信息中的参会人的影像，并记录参会人的影像相对于采集发言人的视频信息的视频采集模块的位置。

在步骤S312中，根据发言人相对于采集发言人的视频信息的视频采集模块的位置及参会人的影像相对于采集发言人的视频信息的视频采集模块的位置，确定采集发言人的视频信息的视频采集模块采集的一路视频信息中发言人的影像。

在步骤S314中，从采集发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。在一个实施例中，控制中心102可调用Bai,Xue,et al."Video snapcut:robust video object cutout using localizedclassifiers."ACM Transactions on Graphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像，抠除在发言时段中除发言人的影像以外的部分。

步骤S308、S310、S312及S314相当于实施例二中的步骤S206。

在步骤316中，控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。

步骤S316相当于实施例二中的步骤S208。

如图4所示，在一个实施例中，每个采集设备中的音频采集模块及视频采集模块只采集一个参会人的音频信息及视频信息，如仅有参会人A及C参加视频通讯，没有参会人B及D参加视频通讯，则采集设备112仅采集参会人A的音频信息与视频信息，采集设备114仅采集参会人C的音频信息与视频信息。在此实施例中，每个音频采集模块可为一个麦克风。相应的呈现视频通讯中通讯信息的方法为：

在步骤S302’中，控制采集设备112及114采集音频信息与所述视频信息，采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A的音频信息。采集设备114中的音频采集模块采集参会人C的音频信息。采集设备112中的视频采集模块采集参会人A的视频信息。采集设备114中的视频采集模块采集参会人C的视频信息。

步骤S302’相当于实施例二中的步骤S202。

在步骤S304’中，将采集设备112及114采集到的音频信息中音量最大，音量超过音量阈值，且音量超过音量阈值的持续时间超过时间阈值的音频信息作为发言人的声音信息。

在步骤S306’中，判断发言人的声音信息来自采集设备112或114。

步骤S304’及步骤S306’相当于实施例二中的步骤S204。

在步骤S308’中，若发言人的声音信息来自采集设备112，则将采集设备112采集的视频信息作为发言视频信息。相似地，若发言人的声音信息来自采集设备114，则将采集设备114采集的视频信息作为发言视频信息。

步骤S308’相当于实施例二中的步骤S206。

在步骤310’中，控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。

步骤S310’相当于实施例二中的步骤S208。

实施例四

图5是本发明第四实施例的视频通讯中用于呈现通讯信息的方法流程示意图。该方法可用于第一实施例的分会场106中。该方法包括：

在步骤S402中，控制一个采集设备142采集音频信息与视频信息。采集设备142包括一个音频采集模块及一个视频采集模块。音频采集模块相对于视频采集模块的位置为预设的。音频采集模块采集音频信息，音频信息包括参会人F及H的音频信息。在一个实施例中，音频采集模块为麦克风阵列。视频采集模块采集视频信息。视频信息包括参会人F及H的视频信息。

步骤S402相当于实施例二中的步骤S202。

在步骤S404中，根据音频信息，判断发言人相对于音频采集模块的位置。

步骤S404相当于实施例二中的步骤S204。

在步骤S406中，根据发言人相对于音频采集模块的位置及视频采集模块相对于音频采集模块的位置，判断发言人相对于视频采集模块的位置。在一个实施例中，利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中，麦克风阵列定位算法可参考R.O.Schmit,“Multiple emitter location andsignal parameter estimation,”IEEE Transactions on Antennas Propag.,vol.34no.3,pp.276-280,Mar.1986。

在步骤S408中，识别出视频信息中的参会人F及H的影像，并记录参会人F及H的影像相对于视频采集模块的位置；

在步骤S410中，根据发言人相对于视频采集模块的位置及多个参加者的影像相对于视频采集模块的位置，确定视频信息中发言人的影像。

在步骤S412中，从视频信息中，提取所述发言时段中所述发言人的影像。在一个实施例中，控制中心102可调用Bai,Xue,et al."Video snapcut:robust video objectcutout using localized classifiers."ACM Transactions on Graphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像，抠除在发言时段中除发言人的影像以外的部分。

步骤S406、S408、S410及S412相当于实施例二中步骤S206。

在步骤S414中，控制中心102控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。

步骤S414相当于实施例二中的步骤S208。

实施例五

图6是本发明第五实施例的视频通讯中用于呈现通讯信息的装置的结构示意图500。

该装置包括控制采集模块502、判断模块504、获取模块506及控制呈现模块508。控制采集模块502用于控制一个或多个采集设备采集视频通讯现场的音频信息与视频信息。判断模块504用于根据音频信息判断视频通讯现场中的发言人的位置。发言人为所述视频通讯现场中参加者中发言的人。获取模块506用于根据发言人的位置从视频信息中获取发言视频信息。其中，发言视频信息为发言人在发言时段的视频信息。控制呈现模块508用于控制发言视频信息呈现。

在一个实施例中，控制呈现模块508控制发言视频信息实时呈现。

在另一个实施例中，如图7所示，控制呈现模块508包括记录模块508A及控制记录呈现模块508B。记录模块508A记录发言视频信息。控制记录呈现模块508B控制记录的发言视频信息在发言时段结束后呈现。在一个实施例中，控制呈现模块508还包括发言结束判断模块508C。发言结束判断模块508C在发言人的音量低于音量最低阈值，且发言人的音量低于音量最低阈值的持续时间长于最长时间阈值的情况下，判断发言时段结束；或在收到发言结束信号的情况下，判断发言时段结束。

在一个实施例中，记录模块508A还生成与发言视频信息对应的记录图标，控制记录呈现模块508B还根据接收到的指示记录图标是否得到触碰的信号，控制开启播放或停止播放发言视频信息。在一个实施例中，控制记录呈现模块508B还根据接收到的指示记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：发言音频信息及与发言音频信息对应的文本信息。发言音频信息为音频信息中在发言时段中的音频信息。在另一个实施例中，如图8所示，控制记录呈现模块508B包括：时间接收模块508BA及信息呈现控制模块508BB。时间接收模块508BA接收指示信息。指示信息用于指示时间范围。信息呈现控制模块508BB控制呈现接收的时间范围内的下列信息中的至少一种：发言视频信息、发言音频信息及与发言音频信息对应的文本信息。发言音频信息为音频信息中在发言时段中的音频信息。

在一个实施例中，控制呈现模块508还包括禁止实时呈现模块508D。禁止实时呈现模块508D禁止发言音频信息及发言视频信息实时呈现。发言音频信息为音频信息中在发言时段中的音频信息。

实施例六

图9是本发明第六实施例的视频通讯中用于呈现通讯信息的装置的结构示意图600。

该装置包括控制采集模块602、判断模块604、获取模块606及控制呈现模块608。控制采集模块602用于控制采集视频通讯现场的音频信息与视频信息。具体地，控制采集模块602用于控制采集模块用于控制数个采集设备采集音频信息与视频信息。数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块。在一个实施例中，音频采集模块为麦克风阵列。麦克风阵列包括至少两个麦克风。视频采集模块相对于所述音频采集模块的位置为预设的。音频采集模块采集多个参加者中一个或数个参加者的音频信息。视频采集模块采集一个或数个参加者的视频信息。音频采集模块采集的一个或数个参加者的音频信息构成音频信息中的一路音频信息。视频采集模块采集的一个或数个参加者的视频信息构成所述视频信息中的一路视频信息。

判断模块604用于根据音频信息判断视频通讯现场中的发言人的位置。具体地，如图10所示，判断模块604包括选择模块604A及音频判位模块604B。选择模块604A用于将音频信息中音量最大，音量超过音量阈值，且音量超过音量阈值的持续时间超过时间阈值的一路音频信息作为发言人的声音信息。音频判位模块604B用于根据发言人的声音信息，判断发言人相对于采集发言人的声音信息的音频采集模块的位置。

获取模块606用于根据发言人的位置从视频信息中获取发言视频信息。具体地，如图11所示，获取模块606包括视频判位模块606A、影像识别模块606B、影像确定模块606C及影像提取模块606D。视频判位模块606A用于根据发言人相对于采集发言人的声音信息的音频采集模块的位置及采集发言人的视频信息的视频采集模块相对于采集发言人的声音信息的音频采集模块的位置，判断发言人相对于采集发言人的视频信息的视频采集模块的位置。影像识别模块606B用于识别出采集发言人的视频信息的视频采集模块采集的一路视频信息中的一个或数个参加者的影像，并记录一个或数个参加者的影像相对于采集发言人的视频信息的视频采集模块的位置。影像确定模块606C用于根据发言人相对于采集发言人的视频信息的视频采集模块的位置及一个或数个参加者的影像相对于采集发言人的视频信息的视频采集模块的位置，确定采集发言人的视频信息的视频采集模块采集的一路视频信息中发言人的影像。影像提取模块606D用于从采集发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。

控制呈现模块608用于控制发言视频信息呈现。

实施例七

图12是本发明第七实施例的视频通讯中用于呈现通讯信息的装置的结构示意图700。

该装置包括控制采集模块702、判断模块704、获取模块706及控制呈现模块708。具体地，控制采集模块702控制一个采集设备采集音频信息与视频信息。一个采集设备包括一个用于采集视频通讯现场的音频信息的音频采集模块及一个用于采集视频通讯现场参加者的影像的视频采集模块。音频采集模块相对于所述视频采集模块的位置为预设的。在一个实施例中，音频采集模块为麦克风阵列。麦克风阵列包括至少两个麦克风。

判断模块704根据音频信息，判断发言人相对于音频采集模块的位置。

如图13所示，获取模块706包括：视频判位模块706A、影像识别模块706B、影像确定模块706C及影像提取模块706D。视频判位模块706A根据发言人相对于音频采集模块的位置及视频采集模块相对于音频采集模块的位置，判断发言人相对于视频采集模块的位置。影像识别模块706B识别出视频信息中的参加者的影像，并记录参加者的影像相对于视频采集模块的位置。影像确定模块706C根据发言人相对于视频采集模块的位置及多个参加者的影像相对于视频采集模块的位置，确定视频信息中所述发言人的影像。影像提取模块706D从视频信息中，提取所述发言时段中所述发言人的影像。

实施例八

图14是本发明第八实施例的视频通讯中用于呈现通讯信息的系统的结构示意图800。该系统包括第五至第八实施例中任一实施例中的装置802、采集设备804及终端设备806。其中，采集设备804在装置802的控制下采集音频信息与视频信息。终端设备806在装置802的控制下呈现发言视频信息。

实施例九

图15是本发明第九实施例的视频通讯中用于呈现通讯信息的装置的结构示意图900。本实施例将结合实施例一至八进行描述。

在本实施例中，装置包括CPU(Central Process Unit，中央处理单元)902、存储器904及收发器906。存储器904用于存储指令。收发器906用于接收输入的信号。CPU902用于控制采集视频通讯现场(如主会场104、分会场106及/或108)中的音频信息与视频信息，并根据采集到的音频信息判断视频通讯现场中的发言人的位置，发言人为为所述视频通讯现场参加者中发言的人，再根据发言人的位置从采集到的视频信息中获取发言视频信息，其中，发言视频信息为发言人在发言时段的视频信息；最后控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。

在一个实施例中，CPU902控制发言视频信息在终端设备110、140及/或160上实时呈现。例如，主会场104中参会人C为发言人时，控制中心102控制包含参会人C的影像部分的发言视频信息在终端设备110、140及/或160上实时呈现。

在另一个实施例中，CPU902控制记录发言视频信息，并控制记录的发言视频信息在发言时段结束后在终端设备110、140及/或160上呈现。具体而言，CPU902记录发言视频信息，并生成与发言视频信息对应的记录图标，发言时段结束后，根据收发器906接收到的指示记录图标是否得到触碰的信号，控制开启播放或停止播放与记录图标对应的发言视频信息。更进一步地，在一个实施例中，CPU902还根据收发器906接收到的指示记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：与记录图标对应的发言视频信息、发言音频信息及与发言音频信息对应的文本信息。发言音频信息是采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。文本信息例如是对发言音频信息的文字记录。由此，参会人可回溯视频通讯的内容。

在一个实施例中，判断发言时段结束的方式为：若发言人的音量低于音量最低阈值，且发言人的音量低于音量最低阈值的持续时间长于最长时间阈值，则判断发言时段结束；或若收到发言结束信号，例如是来自收发器906的发言结束信号，则判断发言时段结束。

在一个实施例中，在另一参会人发言的过程当中，发言人可通过在终端设备110、140或160上进行操作启动静默发言模式。在静默发言模式中，在发言人发言的上述发言时段中，收发器906禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现。发言音频信息为采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。具体地，在一个实施例中，发言人在终端设备上进行操作启动静默发言模式并开始发言。接受发言人的启动静默发言模式的操作后，该终端设备向收发器906发送静默发言模式启动信号。CPU902根据收发器906接收到的该静默发言模式启动信号，禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现，并同时控制采集该发言人的声音信息的采集设备记录该发言人的发言。发言人结束发言后，在终端设备110、140或160上进行操作以关闭静默发言模式。接受发言人的关闭静默发言模式的操作后，该终端设备向收发器906发送静默发言模式关闭信号。CPU902根据收发器906接收到的静默发言模式关闭信号，生成记录图标，使参会人可通过对该记录图标的触碰，控制播放该发言人在该静默发言模式中的发言的记录。

在一个实施例中，在采集设备112、114、120、142及160之中的各个采集设备与装置之间的信息传输通道上，设置开关，使得开关导通时，该信息传输通道导通，在CPU902的控制下，采集设备采集的视频信息与音频信息可上传到收发器906，开关断开时，该信息传输通道断开，采集设备采集的视频信息与音频信息不能上传到收发器906。该开关受静默发言模式信号控制。静默发言模式开启时，在静默发言模式信号控制下，在发言人发言的发言时段中，该开关断开，采集设备采集的视频信息与音频信息无法上传到收发器906，本地采集设备记录下采集到的视频信息与音频信息。静默发言模式关闭后，该开关导通时，将记录下的视频信息与音频信息上传到收发器906，且采集设备采集的视频信息与音频信息可上传到收发器906。由此，发言人可在不打断另一在发言的参会人的发言的情况下，记录自己的发言，且在自己的发言结束后，各参会人可通过对相应记录图标的操作回溯自己的发言。

在一个实施例中，参会人可通过终端设备110、140或160输入一段时间范围，并输入相应的命令从而获得该段时间范围内的视频通讯中的信息。具体地，CPU902记录发言视频信息。收发器906接收发自终端设备110、140或160的时间范围。CPU902控制呈现接收的时间范围内的下列信息中的至少一种：发言视频信息、发言音频信息及与发言音频信息对应的文本信息。

在一个实施例中，参会人可通过终端设备110、140或160输入指定信号从而获得指定信号所指示的参会人在视频通讯中的信息。具体地，上述发言时段结束后，收发器906接收发自终端设备110、140或160的指定信号。指定信号指示一个或数个参会人。CPU902根据收发器906接收的指定信号，控制呈现指定信号所指示的一个或数个参会人作为发言人时的下列信息中的至少一种：发言视频信息、发言音频信息及与发言音频信息对应的文本信息。

在一个实施例中，参会人可通过终端设备110、140或160输入关键字，从而得到包含该关键字的与发言音频信息对应的文本信息。具体地，收发器906接收发自终端设备110、140或160的关键字，CPU902控制呈现包含该关键字的与各段发言音频信息对应的文本信息。

在一个实施例中，CPU902通过在存储器904中建立如下数据库存储相关信息以实现如上三个实施例中的功能：

记录标志	开始时刻	结束时刻	发言人标志	文本信息
					1	5:12	6:21	2	#行云流水#
2	11:22	11:58	1	######

3

12:36

13:25

2

##行云流水

在一个实施例中，CPU902控制采集设备112及114采集音频信息与视频信息，采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A及B的音频信息。采集设备112中的音频采集模块所采集的参会人A及B的音频信息构成音频信息中的一路音频信息。采集设备114中的音频采集模块采集参会人C及D的音频信息。采集设备114中的音频采集模块所采集的参会人C及D的音频信息构成音频信息中的另一路音频信息。采集设备112中的视频采集模块采集参会人A及B的视频信息。采集设备112中的视频采集模块所采集的参会人A及B的视频信息构成视频信息中的一路视频信息。采集设备114中的视频采集模块采集参会人C及D的视频信息，采集设备114中的视频采集模块所采集的参会人C及D的视频信息构成视频信息中的另一路视频信息。在一个实施例中，每个音频采集模块为一个麦克风阵列。每个麦克风阵列至少包含两个麦克风。

CPU902音频信息中音量最大，音量超过音量阈值，且音量超过音量阈值的持续时间超过时间阈值的一路音频信息作为发言人的声音信息。

CPU902根据发言人的声音信息，判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中，利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中，麦克风阵列定位算法可参考R.O.Schmit,“Multiple emitter location and signal parameter estimation,”IEEETransactions on Antennas Propag.,vol.34 no.3,pp.276-280,Mar.1986。

CPU902根据发言人相对于采集发言人的声音信息的音频采集模块的位置及采集发言人的视频信息的视频采集模块相对于采集发言人的声音信息的音频采集模块的位置，判断发言人相对于采集发言人的视频信息的视频采集模块的位置。

CPU902识别出采集发言人的视频信息的视频采集模块采集的一路视频信息中的参会人的影像，并记录参会人的影像相对于采集发言人的视频信息的视频采集模块的位置。

CPU902根据发言人相对于采集发言人的视频信息的视频采集模块的位置及参会人的影像相对于采集发言人的视频信息的视频采集模块的位置，确定采集发言人的视频信息的视频采集模块采集的一路视频信息中发言人的影像。

CPU902从采集发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。在一个实施例中，控制中心102可调用Bai,Xue,et al."Video snapcut:robust video object cutout using localized classifiers."ACMTransactions on Graphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像，抠除在发言时段中除发言人的影像以外的部分。

CPU902控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。

在另一个实施例中，每个采集设备中的音频采集模块及视频采集模块只采集一个参会人的音频信息及视频信息，如仅有参会人A及C参加视频通讯，没有参会人B及D参加视频通讯，则采集设备112仅采集参会人A的音频信息与视频信息，采集设备114仅采集参会人C的音频信息与视频信息。在此实施例中，每个音频采集模块可为一个麦克风。

CPU902控制采集设备112及114采集音频信息与所述视频信息，采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A的音频信息。采集设备114中的音频采集模块采集参会人C的音频信息。采集设备112中的视频采集模块采集参会人A的视频信息。采集设备114中的视频采集模块采集参会人C的视频信息。

CPU902将采集设备112及114采集到的音频信息中音量最大，音量超过音量阈值，且音量超过音量阈值的持续时间超过时间阈值的音频信息作为发言人的声音信息。

CPU902判断发言人的声音信息来自采集设备112或114。

CPU902若发言人的声音信息来自采集设备112，则将采集设备112采集的视频信息作为发言视频信息。相似地，若发言人的声音信息来自采集设备114，则将采集设备114采集的视频信息作为发言视频信息。

在一个实施例中，CPU902控制一个采集设备142采集音频信息与视频信息。采集设备142包括一个音频采集模块及一个视频采集模块。音频采集模块相对于视频采集模块的位置为预设的。音频采集模块采集音频信息，音频信息包括参会人F及H的音频信息。在一个实施例中，音频采集模块为麦克风阵列。视频采集模块采集视频信息。视频信息包括参会人F及H的视频信息。

CPU902根据音频信息，判断发言人相对于音频采集模块的位置。

CPU902根据发言人相对于音频采集模块的位置及视频采集模块相对于音频采集模块的位置，判断发言人相对于视频采集模块的位置。在一个实施例中，利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中，麦克风阵列定位算法可参考R.O.Schmit,“Multiple emitter location and signalparameter estimation,”IEEE Transactions on Antennas Propag.,vol.34 no.3,pp.276-280,Mar.1986。

CPU902识别出视频信息中的参会人F及H的影像，并记录参会人F及H的影像相对于视频采集模块的位置；

CPU902根据发言人相对于视频采集模块的位置及多个参加者的影像相对于视频采集模块的位置，确定视频信息中发言人的影像。

CPU902从视频信息中，提取所述发言时段中所述发言人的影像。在一个实施例中，控制中心102可调用Bai,Xue,et al."Video snapcut:robust video object cutoutusing localized classifiers."ACM Transactions on Graphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像，抠除在发言时段中除发言人的影像以外的部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频通讯中用于呈现通讯信息的方法，其特征在于，包括：

控制采集所述视频通讯现场的音频信息与视频信息；

根据所述音频信息判断所述视频通讯现场中的发言人的位置，所述发言人为所述视频通讯现场参加者中发言的人；

根据所述发言人的位置从所述视频信息中获取发言视频信息，其中，所述发言视频信息为所述发言人在发言时段的视频信息；

控制所述发言视频信息呈现；

所述控制所述发言视频信息呈现包括：

在所述发言时段中，禁止发言音频信息及所述发言视频信息实时呈现，控制记录所述发言视频信息；及控制记录的所述发言视频信息在所述发言时段结束后呈现；

其中，所述发言音频信息为所述音频信息中在所述发言时段中的信息。

2.如权利要求1所述的方法，其特征在于，所述控制采集所述视频通讯现场的音频信息与视频信息包括：

控制数个采集设备采集所述音频信息与所述视频信息，所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块，所述视频采集模块相对于所述音频采集模块的位置为预设的，所述音频采集模块采集多个参加者中一个或数个参加者的音频信息，所述视频采集模块采集所述一个或数个参加者的视频信息，所述音频采集模块采集的所述多个参加者中一个或数个参加者的音频信息构成所述音频信息中的一路音频信息，所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息；

所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括：

将所述音频信息中音量最大，音量超过音量阈值，且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息；及

根据所述发言人的声音信息，判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置；

所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括：

根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置，判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置；

识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像，并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置；

根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置，确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像；及

从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。

3.如权利要求1所述的方法，其特征在于，所述控制采集所述视频通讯现场的音频信息与视频信息包括：

控制一个采集设备采集设备采集所述音频信息与所述视频信息，所述采集设备包括一个音频采集模块及一个视频采集模块，所述音频采集模块相对于所述视频采集模块的位置为预设的，所述音频采集模块采集所述音频信息，所述音频信息为所述多个参加者的音频信息，所述视频采集模块采集所述视频信息，所述视频信息为所述多个参加者的视频信息；

根据所述音频信息，判断所述发言人相对于所述音频采集模块的位置；

根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置，判断所述发言人相对于所述视频采集模块的位置；

识别出所述视频信息中的所述多个参加者的影像，并记录所述多个参加者的影像相对于所述视频采集模块的位置；

根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置，确定所述视频信息中所述发言人的影像；及

从所述视频信息中，提取所述发言时段中所述发言人的影像。

4.如权利要求2或3所述的方法，其特征在于，其中，所述音频采集模块为麦克风阵列，其中，所述麦克风阵列包括至少两个麦克风。

5.如权利要求1-3中任一所述的方法，其特征在于，所述控制所述发言视频信息呈现包括：控制所述发言视频信息实时呈现。

6.如权利要求1所述的方法，其特征在于，还包括：

若所述发言人的音量低于音量最低阈值，且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值，则判断所述发言时段结束；或

若收到发言结束信号，则判断所述发言时段结束。

7.如权利要求6所述的方法，其特征在于，所述控制所述发言视频信息呈现还包括:生成与所述发言视频信息对应的记录图标，所述控制记录的所述发言视频信息在所述发言时段结束后呈现包括:根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放所述发言视频信息。

8.如权利要求7所述的方法，其特征在于，所述方法还包括:根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：发言音频信息及与所述发言音频信息对应的文本信息，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

9.如权利要求1-3中任一所述的方法，其特征在于，所述控制所述发言视频信息呈现包括：

控制记录所述发言视频信息；

接收指示信息，所述指示信息用于指示待播放的发言视频信息的时间范围；及

控制呈现所述时间范围内的所述发言视频信息。

10.一种视频通讯中用于呈现通讯信息的装置，其特征在于，包括：

控制采集模块，用于控制一个或多个采集设备采集所述视频通讯现场的音频信息与视频信息；

判断模块，用于根据所述音频信息或利用所述采集设备根据所述音频信息判断所述视频通讯现场中的发言人的位置，所述发言人为所述视频通讯现场中参加者中发言的人；

获取模块，用于根据所述发言人的位置从所述视频信息中获取发言视频信息，其中，所述发言视频信息为所述发言人在发言时段的视频信息；及

控制呈现模块，用于控制所述发言视频信息呈现；

所述控制呈现模块还包括：

禁止实时呈现模块，用于禁止所述发言音频信息及所述发言视频信息实时呈现；其中，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息；

记录模块，用于记录所述发言视频信息；及

控制记录呈现模块，用于控制记录的所述发言视频信息在所述发言时段结束后呈现。

11.如权利要求10所述的装置，其特征在于，所述采集设备为数个，所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块，所述视频采集模块相对于所述音频采集模块的位置为预设的，所述音频采集模块采集多个参加者中一个或数个参加者的音频信息，所述视频采集模块采集所述一个或数个参加者的视频信息，所述音频采集模块采集的所述一个或数个参加者的音频信息构成所述音频信息中的一路音频信息，所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息；

所述判断模块包括：

选择模块，用于将所述音频信息中音量最大，音量超过音量阈值，且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息；及

音频判位模块，用于根据所述发言人的声音信息，判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置；

所述获取模块包括：

视频判位模块，用于根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置，判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置；

影像识别模块，用于识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像，并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置；

影像确定模块，用于根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置，确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像；及

影像提取模块，用于从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中，提取所述发言时段中所述发言人的影像。

12.如权利要求10所述的装置，其特征在于，所述一个采集设备包括一个用于采集视频通讯现场的音频信息的音频采集模块及一个用于采集视频通讯现场参加者的影像的视频采集模块，所述音频采集模块相对于所述视频采集模块的位置为预设的；

所述判断模块用于根据所述音频信息，判断所述发言人相对于所述音频采集模块的位置；

所述获取模块包括：

视频判位模块，用于根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置，判断所述发言人相对于所述视频采集模块的位置；

影像识别模块，用于识别出所述视频信息中的参加者的影像，并记录所述参加者的影像相对于所述视频采集模块的位置；

影像确定模块，用于根据所述发言人相对于所述视频采集模块的位置及所述参加者的影像相对于所述视频采集模块的位置，确定所述视频信息中所述发言人的影像；及

影像提取模块，用于从所述视频信息中，提取所述发言人在所述发言时段的影像。

13.如权利要求11或12所述的装置，其特征在于，所述音频采集模块为麦克风阵列，其中，所述麦克风阵列包括至少两个麦克风。

14.如权利要求10-12中任一所述的装置，其特征在于，所述控制呈现模块用于控制所述发言视频信息实时呈现。

15.如权利要求10所述的装置，其特征在于，所述控制呈现模块还包括：

发言结束判断模块，用于在所述发言人的音量低于音量最低阈值，且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值的情况下，判断所述发言时段结束；或用于在收到发言结束信号的情况下，判断所述发言时段结束。

16.如权利要求15中任一所述的装置，其特征在于，所述记录模块还用于生成与所述发言视频信息对应的记录图标，所述控制记录呈现模块用于根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放所述发言视频信息。

17.如权利要求16所述的装置，其特征在于，所述控制记录呈现模块还用于根据接收到的指示所述记录图标是否得到触碰的信号，控制开启播放或停止播放下列信息中的至少一种信息：发言音频信息及与所述发言音频信息对应的文本信息，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

18.如权利要求10所述的装置，其特征在于，所述控制记录呈现模块包括：

时间接收模块，用于接收指示信息，所述指示信息用于指示时间范围；及

信息呈现控制模块，用于控制呈现所述时间范围内的下列信息中的至少一种：所述发言视频信息、所述发言音频信息及与所述发言音频信息对应的文本信息，其中，所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。

19.一种视频通讯中用于呈现通讯信息的系统，其特征在于，包括：

如权利要求10-18中任一所述的装置；

采集设备，用于在所述装置的控制下采集所述音频信息与所述视频信息；及

终端设备，用于在所述装置的控制下呈现所述发言视频信息。