CN104937926A

CN104937926A - 用于活跃的说话者探测的视频和音频标记

Info

Publication number: CN104937926A
Application number: CN201380066894.8A
Authority: CN
Inventors: W.G.韦泰因; S.莱奥林
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-12-19
Filing date: 2013-12-19
Publication date: 2015-09-23
Anticipated expiration: 2033-12-19
Also published as: BR112015011758B1; WO2014100466A2; EP2912841B1; KR20150096419A; KR102110632B1; AU2013361258A1; JP6321033B2; MX352445B; CA2889706C; US9065971B2; BR112015011758A2; CA2889706A1; WO2014100466A3; US20140168352A1; EP2912841A2; RU2015123696A; MX2015008119A; RU2632469C2; CN104937926B; JP2016506670A

Abstract

描述了一种视频会议系统，其被配置成选择活跃的说话者而避免错误地选择正在拾取来自于连接的远程信号的音频或视频的话筒或相机。做出音频信号是否在阈值水平之上的确定。如果是，则做出关于该音频信号中是否存在标记的确定。如果是，则忽略该信号。如果不是，相机被导向由音频信号所识别的声音源。做出来自该相机的视频信号中是否存在标记的确定。如果是，重定向相机。如果不是，（多个）本地标记被插入音频信号和/或视频信号中。发射（多个）加标记的信号。因此，系统将忽略具有来自另一视频会议系统的嵌入的标记的声音或视频。

Description

用于活跃的说话者探测的视频和音频标记

背景技术

视频会议已经变得普遍，并且许多办公室具有特别配置用于视频会议会话的房间。这样的房间通常包含视频会议设备，诸如一个或多个可移动相机和一个或多个话筒，话筒通常放置在房间中用于参与者的桌子周围的位置处。活跃的（active）说话者探测（ASD）经常用于选择相机，或者移动（摇摄和/或倾斜）相机以示出房间中正在说话的人员和/或选择将活跃的话筒。当远程人员在说话时，他们的图像和/或声音从房间中诸如电视机（TV）、监控器或其他类型显示器的音频-视频显示器发出。这可能引起ASD错误地选择关于TV上的正在讲话的远程人员的图像，而不是选择最后的正在讲话的本地人员。

而且，在多地点视频会议会话中，其中三个或更多个分离的地点处于单个视频会议会话中，则通常将显示数个面板，一个面板比其他面板更大并且示出正在说话的人员，以及其他面板示出来自其他地点处相机的图片。当发生错误的ASD时，如上所提到的，其中人员正在说话的房间中的装备将发送信号至其他地点处的装备，告知在其地点处的人员正在说话，并且因此主显示应当来自其相机。当发生该情形时，较大的面板可能从示出实际上正在说话的人员切换至示出TV屏幕或空座椅的图片。因此，关于ASD的问题在于，如果来自远程视频会议系统的声音被反射或如此响亮以致使其触发了ASD，则远程声音可能被转发回至远程系统和/或使得本地相机聚焦在空座椅或者示出远程视频会议地点的显示屏上。

已经用于消除这样的错误ASD选择的一种技术是认出在TV上追踪的图像扫描线以确定声音是来自TV而不是本地人员。然而，高清晰度TV（HDTV）具有高（240Hz或更佳）逐行扫描速率和与相机相等的图像分辨率，因此当牵涉HDTV时图像扫描线追踪的使用受限。额外地，ASD可能常具有房间周围的回声方面的麻烦。诸如窗户或玻璃覆盖的图片的声音反射性表面可以以声音看似源自桌子处的本地人员的方式而反射来自于TV的声音，即便并不实际存在坐在桌子的该位置处的人员。进一步地，如果对视频会议做记录，则其依赖于人记住至少用例如视频会议的日期来对记录进行准确地标注。这常被忘记并且之后完成，有时带有错误或不完整的标注。正是关于这些和其他考虑而呈现本文做出的公开。

发明内容

本文描述用于视频会议系统的技术，其选择活跃的说话者同时避免错误地选择拾取来自于连接的远程信号的音频或视频的话筒或相机。在一个实施方式中，标记被添加至流出的音频和/或视频信号。如果话筒拾取了包含来自远程系统的标记的声音，则忽略该声音并且不实施ASD。如果声音不包含远程标记，则检查来自本地相机的视频。如果其包含远程标记，则不实施ASD。如果任一信号中不存在远程标记，则实施ASD。

根据本文呈现的一个实施例，用于视频会议系统的发射器系统具有用于产生音频标记或视频标记中的至少一个的标记产生器；用于以下二者中的至少一个的信号组合器：（i）将接收到的音频信号与音频标记组合以产出加标记的音频信号或（ii）将接收到的视频信号与视频标记组合以产出加标记的视频信号；以及发射器，用于发射（i）加标记的音频信号和接收到的视频信号、（ii）接收到的音频信号和加标记的视频信号、或者（iii）加标记的音频信号和加标记的视频信号。然后远程视频会议系统可以使用嵌入的标记来区分本地的声音和图片与远程的声音和图片。

一种用于操作视频会议系统的发射器的方法包括：接收音频信号，接收视频信号，

产生音频标记或视频标记中的至少一个，以下二者中的至少一个：（i）将音频信号与音频标记组合以产出加标记的音频信号或者（ii）将视频信号与视频标记组合以产出加标记的视频信号，以及发射（i）加标记的音频信号和视频信号、（ii）音频信号和加标记的视频信号、或者（iii）加标记的音频信号和加标记的视频信号。

计算机存储介质具有存储在其上的计算机可执行指令。那些指令使得计算机：产生音频标记或视频标记中的至少一个，以下二者中的至少一个：（i）将接收到的音频信号与音频标记组合以产出加标记的音频信号或（ii）将接收到的视频信号与视频标记组合以产出加标记的视频信号，以及发射（i）加标记的音频信号和接收到的视频信号、（ii）接收到的音频信号和加标记的视频信号或（iii）加标记的音频信号和加标记的视频信号。

应该领会的是，以上描述的主题也可以被实施为计算机控制的设备、计算机进程、计算系统、或者作为诸如计算机可读介质的制品。从阅读以下的具体实施方式并且查看相关附图，这些以及各种其它的特征将是显然的。

提供该发明内容部分以简化的形式引入下面在具体实施方式中进一步被描述的概念的选择。该发明内容部分并非意在识别所请求保护主题的关键特征或必要特征，也并非意在该发明内容部分被用来限制所请求保护主题的范围。此外，请求保护的主题并不限于解决在本公开内容的任何部分中所述的任何或所有缺点的实施方式。

附图说明

图1是视频会议系统的发射器系统的示例性配置。

图2是示例性视频会议系统环境的图示。

图3是示出示例性标记探测以及相机和话筒控制技术的流程图。

图4是示例性信息记录技术的流程图。

图5是示出用于能够实施本文所呈现的实施例的方面的计算系统的例证性计算机硬件和软件架构的计算机架构图。

具体实施方式

以下详细的描述是针对用于视频会议的技术，其可以正确地选择活跃的说话者而避免错误地选择正在拾取来自于连接的远程信号的音频或视频的话筒或相机。在以下详细的描述中，对附图作出参考，附图形成描述的一部分并且通过图示具体的实施例或者示例的方式被示出。现在参照附图，其中遍及数个附图，相同附图标记表示相同元件，将描述视频会议的计算系统和方法论的方面。

图1是视频会议系统100的发射器系统105的示例性配置。发射器系统105具有相机和话筒选择及控制系统120、视频标记产生器125、提供视频输出信号135的视频信号组合器130、音频标记产生器140、以及提供音频输出信号150的音频信号组合器145。音频和视频输出信号可以由发射器155广播或发射。控制系统120也可以发送意在用于远程系统的信号，告知其具有应该被给予较大面板的活跃的说话者（如果多个面板用于显示多个地点）。发射器155可以使用任何方便的构件来发送视频和音频输出信号以及任何控制信号至远程地点处的一个或多个接收器系统160。将领会的是，在每个地点处存在发射器系统105和接收器系统160，以及在地点处的发射器系统105和接收器系统160可以组合为单个装置。

一个或多个相机110（110A-110N）和一个或多个话筒115（115A-115N）分别提供视频信号和音频信号至发射器系统105，以及更特别地提供至具有用于接收这些信号的输入端的控制系统120。相机和话筒选择及控制系统120可以选择哪个相机110和哪个话筒115将被用于产生本地图片和声音（如果使用多于一个的任一装置的话），可以控制所选择的相机110的摇摄、缩放和/或倾斜（如果相机可以这样被控制的话），并且可以产生用于发射至远程系统的控制或其他信号。

视频标记产生器125和音频标记产生器140分别产生视频和音频标记。视频信号组合器130操纵或修改视频流中的视频像素以添加视频标记并产出加标记的视频信号135。音频信号组合器145操纵或修改音频流中的位以产出加标记的音频信号150。这可以被认为是“标记”信号或者向信号添加标记。标记产生器125和140可以体现在单个装置中，信号组合器130、145可以体现在单个装置中，并且这些部件中的一个至全部可以被体现为控制系统120的一部分。

优选地，使用多种方式修改视频和/或音频流，或者视频和/或音频流仅被修改至对于人类而言微妙和/或不可探测、但是可以通过对视频或音频流的算法分析而探测的水平。低于预定水平的失真水平对于通常的人类观测者可能是察觉不到的。例如，即便标记是在每个字中，修改数据字中最低有效位一般也将不是引人注目的或者引起反对的。作为另一示例，在消隐间隔或回扫周期期间在视频帧中放置视频标记，或者在显示器底部的角落处放置视频标记可以不是引人注目的或者引起反对的。即便将视频标记放置作为最高有效位也可能不是引人注目或者引起反对的，只要是在帧期间的单个像素上。

可以例如通过使用一个或多个最低有效位来传送除了初始的音频或视频信号之外的信息而修改视频和/或音频流。可以对每个数据字、每隔一个数据字、每N个数据字、每N毫秒、在同步字或位之前或之后等等完成这样的修改。例如，（多个）合适的数据字的（多个）最后的位可以总是具有相同的值，例如0、1、2、3等等，可以在数值之间交替，可以在这些数值中步进等等。其他技术也可以用于识别数据字或其一部分作为标记，或者作为与标记或视频会议相关联的识别信息。作为另一示例，整个数据字可以用于该目的。例如，如果以4000样本/秒的速率取样音频，则使用有限数目的这些字来传送标记信息将不会引人注目地降低音频的质量。视频信号提供了在不引人注目地降低视频的质量的情况下发送甚至更多的信息的机会。

图2是示例性视频会议系统环境200的图示。若干个人员205（205A-205C）聚集在桌子210周围，在其上具有多个话筒115（115A-115E）。存在显示器215，其可以是示出远程人员220的TV。也示出了扬声器225。存在连接至相机和话筒的发射器系统105，以及连接至显示器和扬声器的接收器系统160。如所提到的，发射器系统105和接收器系统160可以并且通常体现在单个装置中，并且由方便的传输介质连接至一个或多个远程视频会议系统。

当本地人员（诸如人员205B）说话时，控制系统120探测来自话筒115B的信号，切换至话筒115B，切换至之前指向人员115B的区域的相机110B，或者使相机110B指向人员115B的区域，并且之后将来自话筒115B的音频信号和来自相机115B的视频信号（可能连同指示应当被显著地显示在远程屏幕上的人员205B的信号一起）发送至远程地点。如在本文使用的，指向或引导相机是对相机进行摇摄、倾斜和/或缩放以取得期望的地点的期望的图片。

现在考虑其中存在诸如镜子、图片或窗户的声音反射性对象或表面230的情形。远程说话者220正在讲话，并且远程说话者220的语音由扬声器225广播到房间中。远程说话者220的声音235反弹离开反射性表面230并且到达话筒115D。控制系统120探测话筒115D处的被反射的语音235，并且错误地确定在话筒115D处存在正在说话的本地人员。控制系统120随后切换至话筒115D并且使相机110指向话筒115D附近的空的空间。因此，反射的声音和回声可能在视频会议会话期间引发问题。这可能反复地发生，直至远程人员220停止说话或者某人调低扬声器225的音量。

为了消除或者至少减少这样的错误的ASD动作，发射器系统105将（多个）标记注入音频信号和/或视频信号中。显示器215和扬声器225然后将在它们的输出中再现那些（多个）标记。现在，再次考虑其中远程说话者220正在讲话并且远程说话者220的语音由扬声器225广播到房间中的情形。远程说话者220的声音235反弹离开反射性表面230并且到达话筒115D。控制系统120探测话筒115D处的反射的语音235，但是也探测反射的语音235中的标记。控制系统120然后确定声音是来自远程说话者，而不是本地说话者，并且因此不采取关于反射的语音的动作。

作为另一方式，当在话筒115D处存在反射的语音235时，控制系统120可以替代地或额外地检查相机的输出。如果存在视频标记，则控制系统120确定声音是反射的声音，并且因此不采取关于反射的语音的动作。

然而，当本地人员205B说话时，话筒115B探测本地人员205B的语音，但是不存在音频标记。控制系统120然后正确地切换至话筒115B并且使相机110导向本地人员205B，并且将不存在视频标记。因此，控制系统120正确地确定人员205B正在说话并且采取合适的动作。将领会的是，一些反射的声音235也可能出现在话筒115B处。然而，反射的声音235的音量将显著地小于本地说话者205B的语音音量，因此反射的标记将低至控制系统120不能探测的水平。也即，当将来自话筒的声音被数字化时，标记音量将在（多个）最低有效位的水平之下。反射的声音235也可能由其他话筒115拾取，但是控制系统120也将拒绝这些话筒，因为它们的音量小于话筒115B处的音量或者因为标记将是易于可探测的。

在一些情形中，可能的是，除了相机110之外或者替代相机110，在房间后部将存在相机240。现在假设远程人员220正在说话，并且由话筒115A或115E接收由扬声器225发出的声音。常规的系统可能错误地将接收到的声音探测作为本地说话者，并且切换至该话筒以及使相机240导向该地点。替代地，利用本文使用的标记，控制系统120将探测由话筒115A或115E拾取到的音频信号中的标记，确定语音不是本地说话者的语音，并且不切换至话筒115A或115E。而且，控制系统120可以将相机240指向显示器215，探测正由显示器215发出的视频标记，并且之后使相机240指回至其最初的方向或指向默认方向。因此，音频和视频标记通过减小或消除由远程说话者的语音引起的相机和/或话筒的错误切换而提升视频会议体验。

如果期望的话，标记也可以用于视频会议的识别，如果需要的话。例如，标记可以包含关于公司名称、时间、日期、房间地点的信息、所使用的发射装备的信息，诸如但不限于型号、制造商、序列号、软件版本、商标信息、版权信息、机密信息、所有权信息、所使用的协议或标准等。无需发射所有的这些信息，也无需一次性地、重复地或连续地发射所有的期望的信息。相反，仅需要足够频繁地发射识别标记本身的位使得控制系统120可以识别标记本身。因此，例如，如上面所提到的，可以仅每N个数据字发射识别标记自身的位，其他的数据字用于上面提到的信息的传输。

此外，无需从由显示器215呈现的图片或从由扬声器225呈现的声音来获得包含在（多个）标记中的信息。相反地并且优选地，从由接收器系统160所接收的视频和/或音频信号来直接获得该信息。

数据速率可以相当慢，但是优选地，标记的可识别部分优选地以小于ASD延迟的滞后的一半而被重复输送。甚至更优选地，更频繁地输送标记的可识别部分以便适应由于在传输期间的干扰或房间噪音导致的丢失数据。附加的信息的输送速度是不太时间敏感的，并且因此可以在较长的时间段之上发射。

图3是示例性的标记探测以及相机和话筒控制技术300的流程图。在开始305之后，做出关于是否有任何音频信号在阈值水平之上的确定310。如果不是，返回至310。如果是，则做出关于在该音频信号中是否存在标记的确定315。如果是，则317忽略该音频信号，并且返回至310。如果不是，则320使相机导向或指向由音频信号所识别的声音源。例如，如果音频信号是来自话筒115A，则相机110将指向由话筒115A所服务的区域，或者将选择之前已指向该区域的相机。

然后做出关于在来自该相机的视频信号中是否存在标记的确定325。如果是，则330将相机重定向至其之前的位置，或者选择之前的相机。如果不是，则335将（多个）本地标记插入音频信号和/或视频信号中。然后发射（多个）加标记的信号。然后返回至310。

因此，如果话筒正在拾取声音并且存在嵌入该声音的音频标记，或者如果相机被导向正在拾取嵌入在视频信号中的视频标记的声音源，则系统将忽略该声音并且保持话筒和相机设置原状。然而，如果没有在任一信号中探测到嵌入的标记，则将选择用于在将本地标记插入那些信号中的至少一个中之后将该声音和图片传输至远程视频会议的话筒和/或相机。因此，正确地选择了活跃的说话者同时忽略了远程、反射的声音。

图4是示例性的信息记录技术400的流程图。在开始405之后，410做出是否将要记录会话的确定。如果不是，则415结束程序。如果是，则420做出关于是否存在标记的确定。如果不存在标记，则430记录会话。如果存在至少一个标记，则425做出（多个）标记中是否存在信息的确定。如果不是，则430记录会话。如果是，则435记录具有至少一些信息的会话。将与会话一起被记录的信息可以是标记中所包括的所有信息，或者可以仅是预先选择的一部分，诸如日期和时间。

应该领会的是，本文描述的逻辑操作被实施作为（1）运行在计算系统上的计算机实施的动作或程序模块的序列和/或（2）在计算系统内互联的机器逻辑电路或电路模块。实施方式是取决于计算系统的性能和其他要求的选择的问题。相应地，本文描述的逻辑操作指的是各种状态操作、结构装置、动作或模块。这些操作、结构装置、动作和模块可以在软件中、在固件中、在专用数字逻辑中以及其任意组合中实施。还应该领会的是，可以实行比图中所示和本文所描述的更多或更少的操作。这些操作也可以以与本文所描述的那些不同的次序而被实行。

图5示出能够以如上所呈现的方式执行本文描述的用于视频会议系统的软件部件的计算机500的例证性计算机架构。所示的计算机架构图示常规的桌上型、膝上型或服务器计算机，并且可以用来执行如所描述的在客户端计算机104、前端服务器计算机106A-106N或者后端服务器计算机108A-108N上执行的在本文描述的软件部件的任何方面。所示的计算机架构包括中央处理单元502（“CPU”）、包括随机访问存储器514（“RAM”）和只读存储器516（“ROM”）的系统存储器508、以及将存储器耦合至CPU 502的系统总线504。在ROM 516中存储了基本输入/输出系统，其包含诸如在启动期间有助于在计算机500内的元件之间传输信息的基本例程。计算机500进一步包括大容量存储装置510，用于存储在本文中更详细地被描述的操作系统518、应用程序和其他程序模块。

大容量存储装置510通过连接至总线504的大容量存储控制器（未示出）而连接至CPU 502。大容量存储装置510及其相关联的计算机可读介质提供用于计算机500的非易失性存储。尽管对本文包含的计算机可读介质的描述涉及大容量存储装置，诸如硬盘或CD-ROM驱动，但是本领域技术人员应该领会，计算机可读介质可以是可以由计算机架构500访问的任何可用的计算机存储介质或通信介质。

借由示例并且并非限定的方式，计算机存储介质可以包括实施在用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术中的易失性和非易失性、可移除和非可移除介质。例如，计算机存储介质包括但不限于RAM、ROM、EPROM、EEPROM、闪存或其他固态存储器技术、CD-ROM、数字通用盘（“DVD”）、HD-DVD、蓝光或其他光学存储，磁带盒、磁带、磁盘存储或其他磁性存储装置，或者可以用于存储期望的信息并且可以由计算机500访问的任何其他介质。为了权利要求的目的，短语“计算机存储介质”及其变型不包括波或信号自身和/或通信介质。

通信介质包括计算机可读指令、数据结构、程序模块、或在诸如载波或者其它的输运机制的调制的数据信号中的其它数据，并且包括任何输送介质。术语“调制的数据信号”意味着已经以使得对信号中的信息进行编码的方式改变或者设置其一个或多个特性的信号。借由示例并非限定的方式，通信介质包括诸如有线网络或直接的有线连接的有线介质，以及诸如声学、RF、红外和其他无线介质的无线介质。以上中的任何的组合也应该包括在计算机可读介质的范围内。

根据各种实施例，计算机500可以在使用通过诸如网络520的网络到远程计算机的逻辑连接的联网环境中操作。计算机500可以通过连接至总线504的网络接口单元506而连接至网络520。应该领会的是，网络接口单元506也可以被用来连接至其他类型的网络和远程计算机系统。计算机500也可以包括用于从包括键盘、鼠标或电子笔的许多其他装置接收并处理输入的输入/输出控制器512。类似的，输入/输出控制器可以向显示屏幕、打印机或其他类型输出装置提供输出。

如上简要所述，许多程序模块和数据文件可以存储在计算机500的大容量存储装置510和RAM 514中，包括适用于控制联网的桌上型、膝上型或服务器计算机的操作的操作系统518。大容量存储装置510和RAM 514也可以存储实施如上所述的各种操作的一个或多个程序模块。大容量存储装置510和RAM 514也可以存储其他类型程序模块。

尽管在与在计算机系统上执行操作系统和应用程序相结合执行的一个或多个程序模块的一般上下文中呈现了本文描述的主题，但是本领域技术人员将认识到，其他实施方式可以与其他类型程序模块组合而被实行。一般地，程序模块包括例程、程序、部件、数据结构，以及实行特定的任务或实施特定的抽象数据类型的其他类型的结构。此外，本领域技术人员将领会，如果期望的话，本文描述的主题可以采用其他计算机系统配置来实践，包括手持装置、多处理器系统、基于微处理器的或可编程消费电子装置、微型计算机、大型计算机等等。

基于以上，应该领会的是，本文提供了用于视频会议的技术。尽管已经以专用于计算机结构特征、方法学和变形动作、具体计算机器和计算机可读介质的语言描述了本文呈现的主题，但是应该理解的是在所附权利要求中定义的发明不必限于本文描述的具体特征、动作或介质。相反，具体的特征、动作和介质被公开作为实施权利要求的示例性形式。

以上描述的主题仅通过例证的方式被提供，并且不应被解析为限制性。可以对本文描述的主题做出各种修改和改变，而并未遵循所图示和所描述的示例性实施例和应用，并且并未脱离在以下权利要求中所阐明的本发明的真实精神和范围。

Claims

1.一种用于视频会议系统的发射器系统，包括：

产生音频标记或视频标记中的至少一个的标记产生器；

用于以下二者中的至少一个的组合器：（i）将接收到的音频信号与所述音频标记组合以产出加标记的音频信号或（ii）将接收到的视频信号与所述视频标记组合以产出加标记的视频信号；以及

发射器，用于发射（i）所述加标记的音频信号和所述接收到的视频信号、（ii）所述接收到的音频信号和所述加标记的视频信号、或者（iii）所述加标记的音频信号和所述加标记的视频信号。

2.根据权利要求1所述的发射器系统，并且进一步包括控制系统，其中所述控制系统将附加信息嵌入所述视频标记或所述音频标记中的至少一个中。

3.一种用于操作视频会议系统的方法，所述方法包括：

接收音频信号；

接收视频信号；

产生音频标记或视频标记中的至少一个；

以下二者中的至少一个：（i）将所述音频信号与所述音频标记组合以产出加标记的音频信号或者（ii）将所述视频信号与所述视频标记组合以产出加标记的视频信号；以及

发射（i）所述加标记的音频信号和所述视频信号、（ii）所述音频信号和所述加标记的视频信号、或者（iii）所述加标记的音频信号和所述加标记的视频信号。

4.根据权利要求3所述的方法，其中存在多个音频信号，并且进一步包括选择不包含来自另一视频会议系统的音频标记的音频信号以用于传输。

5.根据权利要求3所述的方法，其中存在多个视频信号，并且进一步包括选择不包含来自另一视频会议系统的视频标记的视频信号以用于传输。

6.一种计算机存储介质，具有存储在其上的计算机可执行指令，当所述计算机可执行指令由计算机执行时，使得所述计算机：

产生音频标记或视频标记中的至少一个；

以下二者中的至少一个：（i）将接收到的音频信号与所述音频标记组合以产出加标记的音频信号或者（ii）将接收到的视频信号与所述视频标记组合以产出加标记的视频信号；以及

发射（i）所述加标记的音频信号和所述接收到的视频信号、（ii）所述接收到的音频信号和所述加标记的视频信号、或者（iii）所述加标记的音频信号和所述加标记的视频信号。

7.根据权利要求6所述的计算机存储介质，其中，所述计算机存储介质进一步包括存储在其上、当由计算机执行时使得所述计算机在多个接收到的音频信号中探测来自远程视频会议系统的音频标记、并且选择不包含音频标记的音频信号用以与所产生的音频标记组合的计算机可执行指令。

8.根据权利要求6所述的计算机存储介质，其中，所述计算机存储介质进一步包括存储在其上、当由计算机执行时使得所述计算机在多个接收到的视频信号中探测来自远程视频会议系统的视频标记、并且选择不包含视频标记的视频信号用以与所产生的音频标记组合的计算机可执行指令。

9.根据权利要求6所述的计算机存储介质，其中，所述计算机存储介质进一步包括存储在其上、当由计算机执行时使得所述计算机将附加信息嵌入所产生的视频标记或所产生的音频标记中的至少一个中的计算机可执行指令。

10.根据权利要求6所述的计算机存储介质，其中，所述计算机存储进一步包括存储在其上、当由计算机执行时使得所述计算机将所述接收到的音频信号与音频标记组合以其中加标记的音频信号中的失真小于预定水平的方式产出所述加标记的音频信号、或者将所述接收到的视频信号与所述视频标记组合以其中加标记的视频信号中的失真小于预定水平的方式产出所述加标记的视频信号的计算机可执行指令。