CN104704813A

CN104704813A - 实现编排模型的视频会议系统

Info

Publication number: CN104704813A
Application number: CN201380044731.XA
Authority: CN
Inventors: E·马里利; A·米豪布; A·奥塔加茨
Original assignee: Alcatel Optical Networks Israel Ltd
Current assignee: Alcatel Optical Networks Israel Ltd
Priority date: 2012-08-29
Filing date: 2013-06-05
Publication date: 2015-06-10
Also published as: JP5959748B2; US20150264306A1; WO2014032823A1; KR20150040981A; US9369666B2; JP2015532807A; EP2704429B1; IN2015DN01262A; EP2704429A1

Abstract

一种用于在视频会议中生成输出视频流的方法，包括：接收视频会议的多个输入视频流；接收系列观测事件(52、53、54)；该观测与视频会议的参与方做出的动作相对应；提供多个编排模型；针对编排模型中的每一个确定所接收的系列观测事件的概率；选择与最高概率相对应的编排模型；使用所选择的编排模型来执行下述步骤：选择显示状态(51、40、41、42)作为候选显示状态，确定用于所接收的系列观测事件的候选显示状态的条件概率，将提供最高条件概率的候选显示状态确定为更新的显示状态，生成包括当前显示状态和更新显示状态的视频流。

Description

实现编排模型的视频会议系统

技术领域

本发明涉及用于具体地在多参与方视频会议系统中从多个人的多个源生成沉浸式视频的方法。

背景技术

随着通信系统中的带宽能力的增加，视频通信系统已经在商业和住宅应用中越来越流行。实际上，在地理上分布的团队协作的情况下，这些系统避免了团队协作者的旅行并且增加灵活性。

视频通信系统使用音频和视频通信以使不同地点的人集合在一起。这可以如在私人办公室中的人之间的对话那么简单，或者涉及在多个位置处的大房间中的若干多点地点。该系统能够管理点对点和多点通信。

在已知系统中，用户用遥控器来选择要观看的源(视频流或摄像机)。一些系统改善该静态行为，并且在活动扬声器上自动地切换。该动态行为基于每个参与者的音频信息。通过Inview解决方案，InterCall引入了新的能力，用于向用户提供从最适合其需要的很多格式中的一个选择模板。其模板是静态的，并且不提供使得能够在视频会议期间提高用户的沉浸感/注意的编制中的任何动态性。没有用于以下用户或智能机制的视频编制的可编程性，该用户或智能机制使得能够自动地选择哪个模板良好地适合用户需要。在思科(Cisco)解决方案(Webex和Telepresence TX9000)中，在主窗口中显示活动的用户。固定数目的模板可用于视频编制。用户选择其中之一。视频切换行为通过音频事件检测来管理。如研究提出的，70％左右的有用信息会从音频事件中丢失。

为了促进沉浸式通信，新技术包括基于规则引擎和规则模板的编排器。在第一步骤中，规则模板集合由专家创建，并且无法被单个用户修改或加强。

发明内容

在实施例中，本发明提供了一种用于在视频会议中生成输出视频流的方法，该方法包括：

-接收视频会议的多个输入视频流

-接收系列观测事件，该观测事件属于与视频会议的参与方做出的动作相对应的多个可观测的动作，

-提供多个编排模型，每个模型包括：

°显示状态的集合，每一个与预定义的屏幕模板相关联，每个屏幕模板包括该输入视频流的选择的子集，

°显示状态之间的转移概率，

°观测概率，其将可观测动作的条件概率表示为显示状态的函数，

-针对该编排模型中的每一个确定所接收的系列观测事件的概率，

-选择与最高概率相对应的编排模型

-使用所选择的编排模型来执行下述步骤：

°对于编排模型中的每个显示状态，选择该显示状态作为候选显示状态，

°将包括过去显示状态和当前显示状态的显示状态序列纳入考虑来确定针对所接收的系列观测事件的候选显示状态的条件概率，

°将提供最高条件概率的候选显示状态确定为更新的显示状态，

°生成视频流，该视频流接连地包括表示与当前显示状态相关联的屏幕模板的第一图像序列以及表示与更新的显示状态相关联的屏幕模板的第二图像序列。

根据实施例，这样的方法可以包括以下特征中的一个或多个。

在该方法实施例中，在包括下述各项的动作类别的组中选择可观测的动作：手势、头部运动、面部表情、音频动作、关键字的阐释、与演示幻灯片相关的动作。

在该方法实施例中，在包括以下各项的组中选择可观测的动作：

-举起手指，举起手，

-进行头部上下运动，进行头部左右运动，

-做出对应于说话或睡觉的面部表情，

-制造噪音，使沉默，由导师发言，由参与者发言，

-阐释字幕或旁听者的名称，

-切换幻灯片，移动指示器，

-开始问题，结束问题。

在该方法实施例中，在包括下述各项的组中选择输入视频流：各个参与方的视图、发言人的视图、会议室的视图和演示幻灯片的视图。

在该方法实施例中，屏幕模板包括属于相应子集的输入视频流的预定义的布置。

在该方法实施例中，转移概率被布置为转移矩阵。

在该方法实施例中，观测概率被布置为发出(emission)矩阵。

在一个实施例中，本发明还提供了一种用于在视频会议中生成输出视频流的视频会议控制设备，该设备包括：

-用于接收视频会议的多个输入视频流的装置，

-用于接收系列观测事件的装置，观测事件属于与视频会议的参

与方做出的动作相对应的多个可观测的动作，

-存储多个编排模型的数据存储库，每个模型包括：

°显示状态的集合，每一个显示状态与预定的屏幕模板相关联，每个屏幕模板包括输入视频流的被选择的子集，

°显示状态之间的转移概率，

°观测概率，该观测概率将可观测的动作的条件概率表示为显示状态的函数，

-用于针对编排模型中的每一个确定所接收的系列观测事件的概率的装置，

-用于选择与最高概率相对应的编排模型的装置，

-用于使用所选择的编排模型来执行下述步骤的装置：

根据实施例，这样的视频会议控制设备可以包括以下特征中的一个或多个。

在视频会议控制设备的实施例中，在包括下述各项的动作类别的组中选择可观测的动作：手势、头部运动、面部表情、音频动作、关键字的阐释、与演示幻灯片相关的动作。

在视频会议控制设备的实施例中，在包括以下各项的组中选择可观测的动作：

-举起手指，举起手，

-进行头部上下运动，进行头部左右运动，

-做出对应于说话或睡觉的面部表情，

-制造噪音，使静音，由导师发言，由参与者发言，

-阐释字幕或旁听者的名称，

-切换幻灯片，移动指示器，

-开始问题，结束问题。

在视频会议控制设备的实施例中，在包括下述各项的组中选择输入视频流：各个参与方的视图、发言人的视图、会议室的视图和演示幻灯片的视图。

在视频会议控制设备的实施例中，屏幕模板包括属于相应子集的输入视频流的预定义的布置。

在视频会议控制设备的实施例中，转移概率被布置为转移矩阵。

在视频会议控制设备的实施例中，观测概率被布置为发出矩阵。

在实施例中，本发明还提供一种视频会议系统，其包括视频会议控制设备，该视频会议控制设备被通过通信网络连接到多个终端，其中每个终端包括用于生成输入视频流的装置，并且其中该通信网络被适配为将视频流从终端传送到该控制设备，并且将由该控制设备生成的输出视频流传送到终端。

在一个实施例中，本发明还提供了一种用于在包括多个输入视频流和系列输入观测事件的视频会议中生成视频流的编排模型的方法，所述观测事件属于多个可观测的动作，该编排模型包括：

°显示状态的集合，每一个显示状态与预定的屏幕模板相关联，每个屏幕模板包括输入视频流的选择的子集，

°显示状态之间的转移概率，

°观测概率，该观测概率将可观测动作的条件概率表示为显示状态的函数

该方法包括：

-提供用户输入接口，该用户输入接口包括：

°屏幕模板显示装置，用于显示根据与模型的显示状态相关联的屏幕模板布置的所述视频流，

°观测事件显示装置，用于显示当前观测事件，

°用户选择装置，用于使得用户能够在所显示的预定屏幕模板当中选择屏幕模板，

-通过屏幕模板显示装置以同步的方式显示根据预定义的屏幕模板布置的输入视频流，

-通过观测事件显示装置来以与输入视频流同步的方式显示当前观测事件，

-在输入视频流的显示期间，根据用户在连续的时刻选择的当前屏幕模板，以与输入视频流同步的方式记录在所述连续的时刻的当前显示状态的序列，

-确定每个在两个连续显示状态之间发生的转移的转移发生次数，该连续显示状态是不同或相同的，

-根据转移发生次数确定在所有显示状态之间的转移概率，

-在输入视频流的显示期间确定针对可观测的动作中的每一个发生的观测事件的数目，不同的事件计数器被用于每个可观测的动作和每个显示状态，在观测事件发生时，根据所选择的当前显示状态的函数而在每次观测事件发生时选择和递增发生计数器，

-根据观测事件的数目来确定观测概率，

-将编排模型存储在数据存储库中。

在方法的实施例中，通过计算以下公式来确定在状态i和状态j之间的转移概率a_ij

a_{ij} = \frac{{occ}_{ij}}{Σ_{h = 1}^{N} {occ}_{ih}}

其中，a_ij是从显示状态i到显示状态j的转移的概率，occ_ij是从显示状态i到显示状态j的转移发生的数目，并且occ_ih是从状态i到状态h的转移发生的数目，并且N是显示状态的总数。

在该方法实施例中，通过计算以下公式来确定观测概率b_ik

b_{ik} = \frac{{occObs}_{ik}}{Σ_{h = 1}^{M} {occObs}_{ih}}

其中b_ik是给定显示状态i的情况下的可观测动作k的概率，occObs_ik是属于在显示状态i中发生的可观测动作k的观测事件的数目，occObs_ih是属于在显示状态i中发生的可观测动作h的观测事件的数目，并且M是可观测动作的总数。

在方法的实施例中，该方法进一步包括：

-测量在所生成的编排模型和存储在数据存储库中的预定义的编排模型之间的距离，

-将该距离与阈值作比较，

-其中所产生的编排模型的存储仅在该距离比阈值高时进行。

在方法的实施例中，在包括下述项的动作类别的组中选择可观测的动作：手势、头部运动、面部表情、音频动作、关键字的阐释、与演示幻灯片相关的动作。

在方法的实施例中，在包括以下项的组中选择可观测的动作：

-举起手指，举起手，

-进行头部上下运动，进行头部左右运动，

-做出对应于说话或睡觉的面部表情，

-制造噪音，使沉默，由导师发言，由参与者发言，

-阐释字幕或旁听者的名称，

-切换幻灯片，移动指示器，

-开始问题，结束问题。

在方法的实施例中，在包括下述项的组中选择输入视频流：各个参与方的视图、发言人的视图、会议室的视图和演示幻灯片的视图。

在该方法实施例中，转移概率被布置为转移矩阵。

在该方法实施例中，观测概率被布置为发出矩阵。

在一个实施例中，本发明还提供了一种视频会议学习模块，用于在包括多个输入视频流和系列输入观测事件的视频会议中生成视频流的编排模型，所述观测事件属于多个可观测动作，该编排模型包括：

°显示状态集合，每一个显示状态与预定的屏幕模板相关联，每个屏幕模板包括输入视频流的选择的子集，

°显示状态之间的转移概率，

°观测概率，该观测概率将可观测的动作的条件概率表示为显示状态的函数

该视频会议学习模块包括：

-用户输入接口，该用户输入接口包括：

°屏幕模板显示装置，用于以同步的方式显示根据与显示状态相关联的屏幕模板布置的所述视频流，

°观测事件显示装置，用于以与输入视频流同步的方式显示当前观测事件，

°用户选择装置，用于使得用户能够在所显示的预定屏幕模板

当中选择屏幕模板，

-用于在输入视频流的显示期间根据用户在连续的时刻通过用户选择装置选择的当前屏幕模板来以与输入视频流同步的方式记录在所述连续的时刻的当前显示状态的序列的装置，

-用于确定每个在两个连续显示状态之间发生的转移的转移发生的数目的装置，该连续的显示状态是不同或相同的，

-用于根据转移发生的数目确定在所有显示状态之间的转移概率的装置，

-用于在输入视频流的显示期间确定针对可观测动作中的每一个发生的观测事件的数目的装置，不同的事件计数器被用于每个可观测动作和每个显示状态，在观测事件发生时，根据所选择的当前显示状态的函数而在每次观测事件发生时选择和递增发生计数器，

-用于根据观测事件的数目来确定观测概率的装置，

-用于存储编排模型的数据存储库。

根据实施例，这样的视频会议学习模块可以包括以下特征中的一个或多个。

在视频会议学习模块实施例中，通过计算以下公式来确定在状态i和状态j之间的转移概率a_ij

a_{ij} = \frac{{occ}_{ij}}{Σ_{h = 1}^{N} {occ}_{ih}}

在视频会议学习模块的实施例中，通过计算以下公式来确定观测概率b_ik

b_{ik} = \frac{{occObs}_{ik}}{Σ_{h = 1}^{N} {occObd}_{ih}}

其中b_ik是给定显示状态i的情况下的可观测动作k的概率，occObs_ik是属于在显示状态i中发生的可观测的动作k的观测事件的数目，occObs_ih是属于在显示状态i中发生的可观测动作h的观测事件的数目，并且M是可观测动作的总数。

在视频会议学习模块的实施例中，该模块进一步包括：

-用于测量在所生成的编排模型和存储在数据存储库中的预定义的编排模型之间的距离的装置，

-用于将该距离与阈值作比较的装置，

-其中数据存储库(37)仅在该距离比所述阈值高时存储所生成的编排模型。

在视频会议学习模块的实施例中，用户输入接口进一步包括确认按钮，用于响应于该确认按钮的促动而触发转移概率和观测概率的确定。

在视频会议学习模块的实施例中，在包括下述项的动作类别的组中选择可观测的动作：手势、头部运动、面部表情、音频动作、关键字的阐释、与演示幻灯片相关的动作。

附图说明

参考以下参照附图、通过示例的方式描述的实施例，本发明的这些和其他方面将变得显而易见，并且利用以下描述的实施例来阐述。

图1是视频会议系统的示意性功能表示。

图2是可以在图1的系统中使用的用户终端的示意性表示。

图3是可以在图1的系统中使用的HMM编制器的示意性功能表示。

图4是在HMM模型的实施例中的状态转移和状态的示意性表示。

图5是还示出可观测的动作的图4的HMM模型的另一视图。

图6是HMM编制器的另一实施例的示意图。

图7是用户学习接口的功能表示。

图8是HMM编制器的另一实施例的示意图。

图9是HMM编制器的另一实施例的示意图。

具体实施方式

下述视频会议系统能够处理多个源以提供增强的沉浸式通信体验。

视频会议系统是能够在至少两个位置之间共享音频和视频通信的电信系统。在分离的地点中的人之间的现场连接增加了社会互动。参考图1，视频会议系统的一个实施例包括在本说明书中称为编制器的视频控制器1和多个终端2。这些终端通过通信网络10被连接到该编制器。通信网络被适配为传送音频和视频流。在该上下文中，编制器能够管理由终端2发送的不同现场输入视频流11。为了创建输出视频，存在不同的混合方法。本公开提出了由编制器实现的动态混合方法。该解决方案接收来自参与视频会议的人的不同相机的多媒体流和来自不同视频分析器32和元数据聚合器的视频事件元数据作为输入。编制器根据编排模型和屏幕模板44来混合输入视频流11，并且生成其向终端2发送的一个或多个输出视频流12。

在视频会议系统中，终端2位于同一建筑物或世界各地的不同地方。为了能够产生沉浸式视频会议，每个终端2包括一些捕获装置。参考图2，终端2包括音频和视频捕获装置，如相机21和麦克风22。这些装置被用于生成每个输入视频流11。终端2还包括用于观看由编制器1生成的输出视频流12的显示器23。

参考图3，编制器1基于隐马尔可夫模型(HMM)执行特定功能(例如学习机制、场景识别...)。

编制器1将下述项作为输入：

-例如来自相机/摄像头的视频流11，以及

-例如来自视频和音频分析器32s输出或元数据聚合器的视频和音频事件元数据。

输入视频流11还被传送到分析器32。视频分析器32检测视频事件，诸如手势、姿势、面部。音频分析器32检测音频事件，诸如谁在发言、关键字、静默和噪音水平。

由编制器生成的输出视频信息流12由视频混合器34来混合。视频混合器34根据预定义的屏幕模板，使用HMM引擎35的结果来在接收到的输入视频流11中进行混合，如以下将进一步解释的。屏幕模板44被存储在屏幕模板存储库38中。现在将参考图4和图5来描述由HMM引擎35执行的过程。

参考图4，屏幕模板44是屏幕上的至少一个输入视频流的预定义的位置。该模板44被用于组织并且有时分割在不同的信息源之间的屏幕。在图4的示例中，视频会议的背景是虚拟教室。有三种：屏幕模板44、示出导师的单个视图的导师屏幕模板701、具有参与方的马赛克视图的虚拟课程屏幕模板702以及示出例如想要提出问题的参与方的学习者屏幕模板703。在HMM中，每个屏幕模板44与显示状态相关联。在图4的该HMM示例中，存在三个显示状态(导师屏幕状态40、课程屏幕状态41和学习者屏幕状态42)。HMM模型的转移矩阵A定义在这些状态之间的转移43。

为了提供该模型的其他细节，图5还表示初始屏幕状态57和上述状态40、41、42。该图还示出了多个可观测的行为：

-导师在发言53

-举手54。

这些是可以由分析器32检测的可观测的动作的示例。

在一个实施例中，HMM引擎35处理16个可观测的动作。这些可观测的动作表示2个手势(举起手指，举起手)、两个运动(进行头部上下运动，进行头部右向运动)、两个面部表情(进行对应于发言(面部+语音/嘴唇在动)或睡眠(无眼睛/闭着眼睛/面部不在屏幕后)的面部表情)、两个关键字动作(阐述了字幕(subtitle)或旁听者的名称)、四个音频动作(由导师发言、由学习者发言、发出噪音、使静默)，两个幻灯片动作(切换幻灯片、移动指示器)以及两个子事件(开始问题、结束问题)。

图5还示出了在确定的显示状态中要发生的观测事件的概率55。每对[观测事件，显示状态]有1个概率。图5还示出了与两个状态之间的每次转移43相关联的概率58和初始化概率56。

隐马尔可夫模型(HMM)通过初始化矩阵50、转移矩阵51和发出矩阵52来表示。该离散HMM方法提供动态混合行为的基础。为了描述该HMM方法，定义以下符号：

Q＝{q₁，q₂，…，q_N}：显示状态的集合；每个状态代表屏幕模板。

N＝显示状态的数目

V＝{v₁，v₂，…，v_M}：可观测的动作的集合。

M＝可观测的动作的数目

T＝观测序列的长度

O＝{o₁，o₂，…，o_T}：观测到的观测事件的序列

S＝{s_t}，其中s_t是t时间处的显示状态

该模型完全由下式定义：λ＝(A，B，π)并且还被称为编排模型。A是转移矩阵，B发出矩阵，π是初始化矩阵。在我们的模型中，A包含显示状态之间的转移概率，即不同的相机视图；B包含已知当前显示状态的情况下每个可观测的动作的发出概率；π包含一个显示状态将首先被示出的概率。这三个矩阵在数学上被描述如下：

A＝{a_ij|a_ij＝Pr(s_t+1＝q_i|s_t＝q_j))} (1)

B＝{b_jk|b_jk＝Pr(o_t＝v_k|s_t＝q_j)} (2)

π＝{πi|π_i＝Pr(s_i＝q_i)} (3)

由参考图3描述的编制器1的HMM引擎35来使用上述编排模型。HMM引擎35的目标是使用编排模型λ和观测序列O来预测最合适的屏幕模板。观测序列O由分析器32来提供。HMM引擎35的功能是解码功能。该功能包括在给定观测序列和HMM模型的情况下获得最可能的显示状态的序列。为了找到最佳的显示状态序列Q_optimal，求解以下公式：

Q_optimal＝arg max_Q Pr(Q|λ，O) (4)

为了求解等式(4)，HMM引擎35使用维特比(Viterbi)算法。在时间过程中，解码由HMM引擎35以给定时钟速率进行。在时间过程中，解码产生状态的序列。HMM引擎35通过视频混合器34编排视频。

在上述解码处理中，采用在图4和图5中图示的单个HMM模型。在另一实施例中，编制器1具有多个编排模型。

为了增加更多的灵活性，为此编排器1包括HMM模型存储库37。该存储库37存储多个预定编排模型。在一个实施例中，在当前视频会议会话中，能够使用户选择由HMM引擎35使用的编排模型λ。

为了提高沉浸式感知，编制器1的另一实施例还提出了由HMM引擎35使用的编排模型的动态选择。编制器1能够识别最好地适合视频会议上下文或场景和用户简档的视频编排模型。分类器36的目标是动态地识别HMM存储库37中可用的哪个编排模型最适合于当前使用情况。

初始地，基于首先接收到的视频和音频观测事件，分类器36选择最适合观测事件的时间序列的HMM编排模式。在视频会议会话期间，如果另一HMM编排模式更适合观测事件的时间序列，则分类器36能够改变HMM模型。

选择合适模型的该功能是识别功能：给定观测序列和不同的HMM模型，分类器36选择最好地匹配这些观测的HMM编排模型。对于n个模型(λ_{i，i＝1，...n})，分类器36选择最优模式λ_optimal，其中：

optimal＝arg max_i Pr(O λ_i)(5)

分类器36通过前向算法或后向算法来实现该功能。

在该实施例中，编制器1能够提供智能的视频编排能力。该系统更加灵活并且更动态。

在另一实施例中，还能够通过生成新的编排模式来以充实编排能力。为了使得用户能够创建新的编排模型，图6上示出的编制器1的另一实施例包括学习功能。

学习过程使得非专业用户能够在没有任何技术技能的情况下基于其使用来创建其自己的编排模型。这通过3个模块来实现：用户学习者接口700、用户活动记录器602和HMM生成器603。

在现场并且根据观测事件，用户选择哪个主视频流必须由编制器1来显示。学习模块601记录用户在时间过程中选择的显示状态和观测事件，并且生成新的HMM模型，或者基于该用户的选择来利用相关联的概率更新现有模型。

参考图7，图形用户学习者接口700的示例显示示出不同输入视频流的11的不同屏幕模板。该示例提出了三种显示状态：导师屏幕701、课程的一般视图的屏幕702，以及特定学习者的屏幕703。观测事件窗口704随时间显示当前观测事件。

用户学习接口700还包括一些输入装置，如按钮705，以允许用户在不同的屏幕之间进行选择。按钮706用于开始新的记录序列。按钮707用于终止和确认记录序列。按钮707的促动使得学习模块601记录由用户做出的选择，并且然后生成相应的编排模型。

在训练过程中，针对发生的每个观测事件，用户被邀请来选择屏幕模板，即实际上选择要生成的HMM模型的相应显示状态。

当用户开始记录序列时，视频流被显示。当观测事件发生时，用户被邀请来用屏幕按钮705选择屏幕，并且最后，用户用按钮707确认其选择。用户输入被记录并且转移成可以被存储在HMM存储库37中的HMM编排模型λ。学习模块601还能够更新现有模型。

模型创建特征对于改善沉浸式通信质量结果非常有趣。然而，对于存储一个非常类似于已经存在的模型的模型可能并不有用。在一个实施例中，学习模块601能够测量在新模型和已经存储在HMM存储库37中的模型之间的距离。学习模块601测量在不同HMM模型与Kullback Leibner距离的差异性。综上，用户可以个性化现有编排模型。但是其也可以创建新的编制模型；该模块记录由用户进行的选择，并且根据这些观测创建新的HMM模型。然后，该KullbackLeibner距离被用于决定是否该模板足够不同于现有的那些，以便于被保存和确认。

如上所述，有必要初始化模型参数λ＝(Α,Β,π)以创建它。由学习模块601实施的过程包括以下步骤：

1.初始化矩阵训练

初始化矩阵π的训练利用初始化概率进行：由用户选择的第一状态被设置为1，并且其它被设置为0。

2.转移矩阵训练

在训练过程中，针对每个观测，用户将被邀请在屏幕模板之间进行选择。结果，显示状态的序列将被记录。

转移矩阵A的训练的算法包括4个步骤：

步骤1：获得用于输入的HMM的显示状态的数目。

步骤2：生成包含显示状态之间的所有的可能转移的比较矩阵。

步骤3：浏览发生矩阵中的状态序列和增量计数器。发生矩阵

是包含针对两个状态i和j之间的每次转移的发生的矩阵。比较

矩阵、发生矩阵和转移矩阵A具有相同维度N×N。

步骤4：发生矩阵、转移矩阵被计算如下；针对每个行，我们

使每个值除以该行的和。

这由以下公式来总结：

a_{ij} = \frac{{occ}_{ij}}{Σ_{h = 1}^{N} {occ}_{ih}} - - - (6)

Occ是发生矩阵系数。

3.发出矩阵训练

对于每个状态，模块对每个可观测的动作的观测事件单独地进行计数。然后，该数被除以在同一显示状态中发生的观测事件的总数。它被概括为下式：

b_{ik} = \frac{{occObs}_{ik}}{Σ_{h = 1}^{M} {occObs}_{ih}} - - - (7)

其中occObs表示维度为N×M的、针对每个可观测的动作和每个显示状态的发生矩阵。

参考图6，现在我们描述包括学习模块601、用户学习接口700、用户活动记录器602和HMM生成器603的实施例。学习模块601通过用户学习接口700接收用户输入，通过用户活动记录器602记录该用户的决定，并且通过HMM生成器603计算HMM模型。该结果被存储在HMM模型存储库37中。图6上所示的编制器1的其他模块类似于图3的那些。

参考图8，编制器1的另一实施例集成学习模块601，并且具有支持若干实例80的集中式视频混合器34。与图6的实施例相反，视频混合器34模块支持以集中式方式显示的视频的不同实例80。每个用户能够创建和个性化他自己的视频编排并且能够接收个性化编排的视频流。视频编排在若干视频混合器实例80中进行。用户只看到他们(即，用户设备上没有视频编排)。“用户存储库”81模块被用于管理不同的用户(id、简档、编排模型等…)

参考图9，编制器1的一个实施例包括学习模块601，而视频混合器34和HMM引擎35分布在远程终端2中。该实现使得能够更接近用户来实现该编排，以避免服务器上的过多处理。由编排器1选择的HMM编排模型被上传在用户终端2上。本地视频编排器902使用该编排模型来编制来自服务器的视频流。本地视频编制器902包括本地视频混合器934和HMM引擎935。图2上还示出了本地视频编制器902。中央视频混合器34仅发送本地视频编排器所需要的视频流。用户可以本地个性化或定义其自己的模型，并且在中央服务器上对其进行存储或共享。在该情况下，本地编排器与中央HMM管理器、引擎、混合器、模板和学习者进行交互。

诸如控制单元的元件可以是例如硬件装置像例如ASIC，或硬件和软件装置例如ASIC和FPGA的组合，或者至少一个微处理器和具有位于其中的软件模块的至少一个存储器。

本发明不限于所描述的实施例。所附权利要求将被解释为涵盖落在这里阐述的基本教导之内的、本领域技术人员可能想到的所有修改和替代构造。

动词“包括”或者“包含”及其变形的使用不排除除了权利要求中所陈述的那些元件或步骤之外的其他元件或步骤的存在。此外，元件或步骤之前的冠词“一”或者“一个”的使用不排除多个这样的元件或步骤的存在。

在权利要求中，置于括号之间的任何附图标记不应被解释为限制权利要求的范围。

Claims

1.一种用于在视频会议中生成输出视频(12)流的方法，包括：

-接收所述视频会议的多个输入视频流(11)

-接收系列观测事件(33)，所述观测事件属于与所述视频会议的参与方做出的动作相对应的多个可观测的动作，

-提供多个编排模型，每个模型包括：

°显示状态的集合(51)，每一个显示状态与预定义的屏幕模板相关联，每个屏幕模板包括所述输入视频流的被选择的子集，

°所述显示状态之间的转移概率(43)，

°观测概率(55)，所述观测概率将所述可观测的动作的条件概率表示为所述显示状态的函数，

-针对所述编排模型中的每一个，确定所接收的所述系列观测事件的概率，

-选择与最高概率相对应的编排模型

-使用所选择的编排模型来执行下述步骤：

°对于所述编排模型的每个显示状态(51)，选择所述显示状态作为候选显示状态，

°将包括过去显示状态和当前显示状态的显示状态序列纳入考虑来确定针对所接收的系列观测事件的所述候选显示状态的条件概率，

°将提供最高条件概率的所述候选显示状态确定为更新的显示状态，

°生成视频流(12)，所述视频流接连地包括表示与所述当前显示状态相关联的所述屏幕模板的第一图像序列以及表示与所述更新的显示状态相关联的所述屏幕模板的第二图像序列。

2.根据权利要求1所述的方法，其中在包括下述各项的动作类别的组中选择所述可观测的动作：手势、头部运动、面部表情、音频动作、关键字的阐释、与演示幻灯片相关的动作。

3.根据权利要求1所述的方法，其中在包括以下各项的组中选择所述可观测的动作：

-举起手指，举起手，

-进行头部上下运动，进行头部左右运动，

-做出对应于说话或睡觉的面部表情，

-制造噪音，进行沉默，由导师发言，由参与者发言，

-阐释字幕或旁听者的名称，

-切换幻灯片，移动指示器，

-开始问题，结束问题。

4.根据权利要求1所述的方法，其中在包括下述各项的组中选择所述输入视频流：各个参与方的视图(703)、发言人的视图(701)、会议室的视图(702)和演示幻灯片的视图。

5.根据权利要求1所述的方法，其中屏幕模板(44)包括属于相应子集的所述输入视频流的预定义的布置。

6.根据权利要求1所述的方法，其中所述转移概率被布置为转移矩阵。

7.根据权利要求1所述的方法，其中观测概率被布置为发出矩阵。

8.一种用于在视频会议中生成输出视频流的视频会议控制设备，所述设备包括：

-用于接收所述视频会议的多个输入视频流(11)的装置，

-用于接收系列观测事件(33)的装置，所述观测事件属于与所述视频会议的参与方做出的动作相对应的多个可观测的动作(52)，

-存储多个编排模型的数据存储库(37)，每个模型包括：

°所述显示状态之间的转移概率(43)，

-用于针对所述编排模型中的每一个确定所接收的所述系列观测事件的概率的装置，

-用于选择与最高概率相对应的编排模型的装置，

-用于使用所选择的编排模型来执行下述步骤的装置：

°将包括过去显示状态和当前显示状态的显示状态序列纳入考虑来确定针对所接收系列观测事件的所述候选显示状态的条件概率，

9.根据权利要求8所述的视频会议控制设备，其中在包括下述各项的动作类别的组中选择所述可观测的动作：手势、头部运动、面部表情、音频动作、关键字的阐释、与演示幻灯片相关的动作。

10.根据权利要求8中的任何一项所述的视频会议控制设备，其中在包括以下各项的组中选择所述可观测的动作：

-举起手指，举起手，

-进行头部上下运动，进行头部左右运动，

-做出对应于说话或睡觉的面部表情，

-制造噪音，进行沉默，由导师发言，由参与者发言，

-阐释字幕或旁听者的名称，

-切换幻灯片，移动指示器，

-开始问题，结束问题。

11.根据权利要求8所述的视频会议控制设备，其中在包括下述各项的组中选择所述输入视频流：各个参与方的视图(703)、发言人的视图(701)、会议室的视图(702)和演示幻灯片的视图。

12.根据权利要求8所述的视频会议控制设备，其中屏幕模板(44)包括属于相应子集的所述输入视频流的预定义的布置。

13.根据权利要求8所述的视频会议控制设备，其中所述转移概率被布置为转移矩阵。

14.根据权利要求8所述的方法，其中所述观测概率被布置为发出矩阵。

15.一种视频会议系统，包括根据权利要求8至14中的任何一项所述的视频会议控制设备(1)，所述视频会议控制设备通过通信网络(10)被连接到多个终端(2)，其中每个终端(2)包括用于生成输入视频流(11)的装置，并且其中所述通信网络被适配为将视频流从所述终端传送到所述控制设备，并且将由所述控制设备生成的所述输出视频流(12)传送到终端。