CN113302915A

CN113302915A - 在视频会议中共享物理书写表面

Info

Publication number: CN113302915A
Application number: CN202080009003.5A
Authority: CN
Inventors: T·A·波特; R·J·卡特赖特
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-01-14
Filing date: 2020-01-14
Publication date: 2021-08-24
Also published as: EP3912338A1; WO2020150267A1; US20220124128A1; US11695812B2; EP3912338B1

Abstract

一种涉及在视频会议或演示期间物理书写表面(132)的使用的设备及方法。通过将差异量度应用于视频数据(例如，作为比较在不同时间的帧的方式)来识别白板(132)的快照。可处理由麦克风捕获的音频以生成文本数据，其中所述文本数据的一部分与每一快照相关联。可使用手势来识别(加入)所述书写表面。可使用图像处理技术来变换书写表面的视图。

Description

在视频会议中共享物理书写表面

相关申请案的交叉参考

本申请案主张2019年1月14日申请的第62/792,219号美国临时申请案及2020年1月7日申请的第62/958,124号美国临时申请案的权益，所述申请案以引用的方式并入本文中。

技术领域

本公开涉及用于视频会议或演示的视频传输或记录，且特定来说，涉及在所述视频会议或演示期间白板或其它书写表面的使用。

背景技术

除非本文中另有指示，否则本节中所描述的方法不是本申请案中的权利要求书的现有技术且不因包含在本节中而被承认为现有技术。

视频会议是一种允许在不同地点的人通过传达允许视频会议的参与者能够看到及听到彼此的音频及视频数据来进行虚拟会议的电信技术。典型的视频会议系统包括可经由数据通信网络彼此进行通信的数个端点。每一端点具有用于记录在所述端点处的参与者的视频的一或多个摄像机。每一端点将其视频传输到其它端点。所述端点还具有用于显示从其它端点接收的视频的显示器。每一端点还配备有至少一个麦克风以记录音频，所述音频经传输到其它端点，且配备有至少一个扬声器以播放从其它端点接收的音频。

视频捕获在其它情况下也是有益的，例如会议、演示及演讲。与视频会议类似，端点捕获演示的视频。经记录视频可经存储用于存档目的，如同视频会议一样传输，或稍后以其它方式播放。

发明内容

本文中描述与在视频会议期间物理书写表面的使用的改进相关的技术。描述三个一般特征。

根据第一特征，本文中所描述的实施例涉及生成在视频上捕获的白板的快照。

根据实施例，一种方法生成出现在物理表面上且在视频上捕获的内容的记录。所述方法包含通过摄像机，生成包含所述物理表面的图像数据的视频数据。所述方法进一步包含通过将差异量度应用于所述视频数据，在所述视频数据中识别至少一个受关注时段。所述方法进一步包含针对所述至少一个受关注时段中的每一受关注时段，选择所述物理表面的所述图像数据的静态图像。所述方法进一步包含生成一组图像，所述一组图像包含所述视频数据中的所述至少一个受关注时段的每一静态图像，其中所述一组图像提供出现在所述物理表面上的所述内容的快照。

所述差异量度可对应于应用于所述视频数据的第一滤波操作与第二滤波操作之间的差异。所述差异量度可对应于超过阈值的所述视频数据的速率。

所述视频数据可包含多个内帧，且所述方法可进一步包含：调整生成所述多个内帧的速率，其中将所述速率从第一速率调整为第二速率，其中所述第一速率对应于满足用于使用第一数目个所述多个内帧来传输所述视频数据的带宽约束，且其中所述第二速率对应于使用第二数目个所述多个内帧来传输所述视频数据，其中所述第二数目大于所述第一数目。

选择所述静态图像可根据应用于所述视频数据的双态隐马尔可夫模型来执行。

根据另一实施例，一种设备生成出现在物理表面上且在视频上捕获的内容的记录。所述设备包含处理器及存储器。所述处理器经配置以控制所述设备以处理视频数据，其中所述视频数据包含所述物理表面的图像数据。所述处理器经配置以控制所述设备以通过将差异量度应用于所述视频数据来在所述视频数据中识别至少一个受关注时段。所述处理器经配置以控制所述设备以针对所述至少一个受关注时段中的每一受关注时段选择所述物理表面的所述图像数据的静态图像。所述处理器经配置以控制所述设备以生成一组图像，所述一组图像包含所述视频数据中的所述至少一个受关注时段的每一静态图像，其中所述一组图像提供出现在所述物理表面上的所述内容的快照。所述设备可另外包含与本文中所描述的一或多种方法的所述细节类似的细节。

根据第二特征，本文中所描述的实施例涉及一种加入(enrolling)在视频上捕获的书写表面的方法。所述方法包含接收视频数据，其中所述视频数据捕获物理书写表面。所述方法进一步包含在所述视频数据中识别用户的加入手势，其中所述加入手势与所述物理书写表面的面积相关联。所述方法进一步包含在所述视频数据中确定对应于所述加入手势的一组坐标，其中所述一组坐标与由所述加入手势识别的所述物理书写表面的所述面积相关联。所述方法进一步包含使用所述一组坐标来对所述视频数据执行几何变换以生成对应于由所述加入手势识别的所述面积的经变换视频数据。

根据另一实施例，一种设备加入在视频上捕获的书写表面。所述设备包含处理器及存储器。所述处理器经配置以控制所述设备以接收视频数据，其中所述视频数据捕获物理书写表面。所述处理器经配置以控制所述设备以在所述视频数据中识别用户的加入手势，其中所述加入手势与所述物理书写表面的面积相关联。所述处理器经配置以控制所述设备以在所述视频数据中确定对应于所述加入手势的一组坐标，其中所述一组坐标与由所述加入手势识别的所述物理书写表面的所述面积相关联。所述处理器经配置以控制所述设备以使用所述一组坐标来对所述视频数据执行几何变换以生成对应于由所述加入手势识别的所述面积的经变换视频数据。所述设备可另外包含与本文中所描述的一或多种方法的所述细节类似的细节。

根据第三特征，本文中所描述的实施例涉及一种共享在视频上捕获的书写表面的方法。所述方法包含接收视频数据，其中所述视频数据捕获物理书写表面及所述物理书写表面外的区。所述方法进一步包含在所述视频数据中识别所述物理书写表面的多个边角。所述方法进一步包含使用所述多个边角来对所述视频数据执行几何变换以生成对应于所述物理书写表面(不含所述物理书写表面外的所述区)的第二视频数据。

根据另一实施例，一种设备共享在视频上捕获的书写表面。所述设备包含处理器及存储器。所述处理器经配置以控制所述设备以接收视频数据，其中所述视频数据捕获物理书写表面及所述物理书写表面外的区。所述处理器经配置以控制所述设备以在所述视频数据中识别所述物理书写表面的多个边角。所述处理器经配置以控制所述设备以使用所述多个边角来对所述视频数据执行几何变换以生成对应于所述物理书写表面(不含所述物理书写表面外的所述区)的第二视频数据。所述设备可另外包含与本文中所描述的一或多种方法的所述细节类似的细节。

根据另一实施例，一种非暂时性计算机可读媒体存储计算机程序，所述计算机程序在由处理器执行时控制设备以执行包含上文所论述的一或多种方法的处理。

以下详细描述及附图提供对各种实施方案的性质及优点的进一步理解。

附图说明

图1展示视频会议系统100的框图。

图2展示视频会议系统200的框图。

图3展示系统300的框图。

图4展示快照系统400的框图。

图5展示展示快照系统400(参见图4)的进一步细节的框图。

图6展示识别器组件600的框图。

图7展示识别器组件700的框图。

图8展示说明识别器组件502(参见图5)的实施方案选项的图表800。

图9展示说明选择器组件504(参见图5)的实施方案选项的图表900。

图10展示方法1000的流程图。

图11展示加入系统1100的框图。

图12A展示展示视频数据的实例帧的透视图。

图12B展示经变换视频数据的实例帧。

图13展示手势加入系统1300的框图。

图14是加入在视频上捕获的书写表面的方法1400的流程图。

图15是用于共享在视频上捕获的书写表面的系统1500的框图。

图16是用于共享在视频上捕获的书写表面的系统1600的框图。

图17是输入变换组件1700的框图。

图18是掩码创建组件1800的框图。

图19是掩码创建组件1900的框图。

图20是掩码创建组件2000的框图。

图21A说明输入视频数据1520的帧。

图21B说明由裁剪输入视频数据1520产生的经裁剪帧。

图21C说明由翻转经变换视频数据1524(参见图15)产生的经翻转帧。

图21D说明由将几何变换应用于经变换视频数据1524(参见图15)产生的输出帧。

图22是透视变换组件2200的框图。

图23是仿射变换组件2300的框图。

图24是几何变换组件2400的框图。

图25是加法器组件2500的框图。

图26是边角计算组件2600的框图。

图27是预处理组件2700的框图。

图28是阈值化组件2800的框图。

图29是滤波器2900的框图。

图30是可由轮廓识别组件2604(参见图26)执行的方法3000的流程图。

图31是点计算器组件3100的框图。

图32是边角校验器组件3200的框图。

图33是预处理组件3300的框图。

图34是可由轮廓识别组件2604(参见图26)执行的方法3400的流程图。

图35是边角校验器组件3500的框图。

图36是共享在视频上捕获的书写表面的方法3600的流程图。

具体实施方式

本文中描述与在视频会议或演示期间白板或其它书写表面的使用相关的技术。在以下描述中，出于解释目的，阐述众多实例及具体细节以提供对本公开的透彻理解。然而，对于所属领域的技术人员来说将显而易见的是，如由权利要求书所界定的本公开可单独或与下文所描述的其它特征组合而包含这些实例中的一些或所有特征，且可进一步包含本文中所描述的特征及概念的修改及等效物。

在以下描述中，详述各种方法、过程及程序。尽管可按某一顺序描述特定步骤，但是此顺序主要是为了方便及清楚。特定步骤可被重复超过一次，可在其它步骤之前或之后发生(即使所述步骤另外按另一顺序描述)，且可与其它步骤并行发生。仅当第一步骤必须在第二步骤开始之前完成时，才需要第二步骤在第一步骤之后。此情况将在上下文中不清晰时具体指出。

在本文献中，使用术语“及”、“或”及“及/或”。此类术语应被理解为具有包含性含义。例如，“A及B”可意指至少以下内容：“A及B两者”、“至少A及B两者”。作为另一实例，“A或B”可意指至少以下内容：“至少A”、“至少B”、“A及B两者”、“至少A及B两者”。作为另一实例，“A及/或B”可意指至少以下内容：“A及B”、“A或B”。当意在排他性或时，此将被具体注明(例如，“A或B”、“A及B中的至多一者”)。

白板及其它类型的物理书写表面是会议中用于演示信息的常用工具。白板上的书写可在视频会议期间进行传达。

作为这些常规物理书写表面的替换方案，可使用允许参与者在电子表面上书写及绘图的专门硬件，例如触敏显示器。这种类型的装置有时被称为“数字黑板”或“虚拟白板”。书写在电子表面上的输入作为数字信号被传输到视频会议的其它端点。这些装置的缺点是其在购买及维护两者方面相对昂贵。此外，与常规的低技术书写表面相比，这些装置的操作不太直观。

实施例涉及在视频会议期间物理书写表面的使用的改进。这些改进通常被分类为以下内容：I.白板快照，II.手势加入及III.共享书写表面。

I.白板快照

视频会议环境中的常规物理书写表面的缺点是不存在方便方式来在白板上生成书写的记录(记录视频会议本身除外)。

实施例涉及执行视频会议的快照以在白板上生成书写的记录的系统及方法。

图1展示视频会议系统100的框图。视频会议系统100包括视频会议端点102。例如，端点102可为视频会议客户端。端点102具有用于与其它视频会议端点进行通信，例如用于与其它视频会议客户端或管理连接到其的两个或更多个视频会议客户端之间的通信的视频会议服务器进行直接通信的网络接口104。网络接口104经由数据通信网络106进行通信。数据通信网络106例如是分组网络，例如IP网络。例如，数据通信网络是局域网(LAN)或广域网(WAN)。在所展示实例中，网络106是因特网。

端点102进一步包括视频输入/输出(I/O)组件108，所述I/O组件108包括用于视频信号的输入及输出的多个视频接口。I/O组件108具有用于连接计算机用于接收输入视频信号的显示输入连接器110。在所展示实例中，输入连接器110是HDMI输入连接器。

I/O组件108进一步包括用于接收摄像机信号的输入连接器112，及显示输出连接器114。输入连接器112经连接到视频会议系统100的摄像机116，以捕获视频会议的参与者的视频。在所展示实例中，摄像机116经由电缆连接到输入连接器112。由摄像机116捕获的视频经传输到端点102，所述端点102使用网络接口104经由网络106将视频传输到视频会议的其它端点。

I/O组件108的输出连接器114经连接到视频会议系统的显示器118。在所展示实例中，输出连接器114是使用HDMI电缆连接到显示器118的HDMI输入的HDMI输出连接器。端点102经配置以使用网络接口104来接收由其它参与者通过网络106传输的一或多个视频，且将对应视频信号输出到显示器118。

系统100进一步包括计算设备120。计算设备120包括用于生成输出视频信号以在显示器上输出的显示控制器122，及处理器123。在所展示实例中，计算设备的显示控制器122及处理器123被体现为两个或更多个单独组件，所述组件彼此连接用于交换数据。例如，显示控制器122可被实施为图形处理单元(GPU)的部分，而处理器123包括中央处理单元(CPU)。替代地，显示控制器122及处理器123可被体现为经配置以执行显示控制器122及处理器123两者的功能性的单个处理组件。

计算设备120还包括I/O组件124，所述I/O组件124具有用于接收摄像机信号的输入连接器126及用于输出由显示控制器122生成的视频信号的显示输出连接器128。输入连接器126经连接到经配置以捕获物理书写表面132的视频的摄像机130。在所展示实例中，物理书写表面132是白板，然而系统100也可用于捕获其它书写表面的视频，例如活动挂图或黑板。在所展示实例中，摄像机130使用电缆连接到输入连接器126。例如，输入连接器126是用于经由USB电缆连接摄像机130的USB连接器。

I/O组件124经连接到显示控制器122及处理器123用于将经由输入连接器126接收的视频数据传达到处理器123且用于经由输出连接器128输出由显示控制器122生成的输出视频信号。处理器122接收如由摄像机130捕获的白板132的视频帧序列。处理器122可经配置以通过将视频增强过程应用于视频帧序列来生成经处理视频数据。视频增强过程增强物理书写表面上的笔划的易读性，例如文字及图画。

计算设备120的输出连接器128经连接到视频会议端点102的视频输入连接器110。在所展示实例中，输入连接器110及输出连接器128两者均是HDMI连接器，且所述连接器110及128经由HDMI电缆连接。计算设备120经配置以输出对应于如由处理器123生成的经处理视频数据的经增强视频信号。经增强视频信号经由连接连接器110及128的电缆从计算设备输出到视频会议端点102。

在图1的实例中，HDMI视频接口用于连接器110、114及128。然而，本公开不限于HDMI视频接口，且可另外或替代地使用其它类型的视频接口，例如S-video、DVI、复合视频、分量视频、DisplayPort、FireWire、VGA或SCART。

视频会议端点102的显示输入连接器110意在用于连接计算机，以共享计算机的屏幕。例如，在典型的视频会议场景中，显示输入连接器110经连接到运行例如MicrosoftPowerPoint的演示软件的计算机，以与视频会议的其它参与者共享演示的幻灯片。在这种场景下，视频会议使其它参与者能够观看幻灯片连同如由摄像机116记录的演示人员的图像。然而，在本文中更详细地描述的实施例中，显示输入连接器110是以与其预期使用不同的方式使用，即通过连接计算设备120且由此将对应于由额外摄像机130捕获的视频的经处理版本的视频信号提供到端点102。因此，第一室中的参与者可使用常规白板132，而其书写在白板上的内容以清晰易读的方式与其它参与者共享。此外，其它参与者仍然可观看第一室，因为端点102的摄像机116仍然可用于共享第一室的视频。

与用于捕获参与者的摄像机116相比，摄像机130可任选地为相对低质量的摄像机，因为可处理书写在白板132上的内容的图像以在传输给其它参与者之前增加易读性。例如，摄像机130的分辨率可低于摄像机116的分辨率。

在实例中，计算设备120是便携式装置。例如，所述设备120可为膝上型计算机、平板计算机或智能电话。摄像机130也可为便携式装置。在实例中，摄像机130是计算设备120的集成部分，例如膝上型计算机的集成网络摄像头。在另一实例中，摄像机130及计算设备120是单独组件，例如计算设备是连接到USB网络摄像头的膝上型计算机。

通过提供计算设备及连接到其的摄像机作为便携式系统，其可跨多个视频会议室共享。相比之下，用于共享书面内容的常规装置(例如数字黑板及虚拟白板)通常是大且重的壁装式装置，使得在多个室之间移动这种类型的设备是不切实际的。

在实例中，计算设备120是无屏幕装置。换句话说，计算设备没有显示器。这具有所述设备可具有小形状因子的优点。具有小形状因子的无屏幕计算装置的实例包含

Compute Stick、InFocus Kangaroo及Raspberry Pi。计算设备120例如可为单板计算机。

在实例中，计算设备120是加密狗。加密狗是一种具有小形状因子及用于将加密狗连接到另一装置的至少一个连接器的装置。在本实例中，加密狗包括视频接口输出连接器128。视频接口输出连接器128可连接到视频会议端点102的输入连接器110。加密狗可例如通过经由电源适配器连接到主电源来供电或通过USB电力供电，其中加密狗可经连接到视频会议端点102的USB端口(如果可用的话)。

作为替代方案，计算设备120可为端点102的组件。

端点102可实施快照过程，如下文进一步描述。

替代地，计算设备120可实施快照过程。

图2展示视频会议系统200的框图。视频会议系统200包括视频会议端点202。所述端点202可包含端点102的所有或少于所有特征。端点202连接到捕获白板232的视频数据的摄像机230，如上文有关摄像机130及白板132(参见图1)所论述。端点202连接到网络106，如上文有关图1所论述。作为进一步实例，摄像机230可包含端点202的一或多个组件(例如，快照组件，如下文进一步描述)。

替代地，端点202对应于实施屏幕共享功能的计算机系统。在此实施例中，视频数据对应于屏幕共享数据，且可省略摄像机230。作为另一替代方案，端点202对应于演示捕获系统，例如用户记录演讲。在此实施例中，视频数据可能不一定与演示同时被传输(如同视频会议可能的情况)。

端点202可实施快照过程，如下文进一步描述。

图3展示系统300的框图。系统300可更具体地被称为视频会议系统或记录系统，这取决于下文进一步论述的实施方案选项。视频会议系统可在视频会议环境中使用。记录系统可在可能不一定涉及视频的实时传输的另一环境中使用，例如演讲环境、演示环境、会议环境等。

作为一种替代方案，系统300实施包含数个端点202(参见图2)的视频会议系统；展示两个端点202：202a及202b。端点202a被称为传输端点且端点202b被称为接收端点。(应注意，提供术语传输及接收是为了便于描述；端点202a也可接收，且端点202b也可传输。)系统300还可包含服务器302。当存在时，服务器302将数据从传输端点202a传输到其它端点202。当服务器302不存在时，传输端点202a将数据传输到其它端点202。网络106(参见图1)连接端点202及(当存在时)服务器302。

系统300的一或多个组件可实施快照过程，如下文进一步描述。例如，传输端点202a可其正传输视频数据时执行快照。(传输端点202a可使用摄像机320的原始分辨率来执行快照，所述原始分辨率可为高于所传输分辨率的分辨率。)作为另一实例，接收端点202b可执行从传输端点202a接收的视频数据的快照。作为另一实例，服务器302(当存在时)可执行从传输端点202a接收的视频数据的快照。

作为另一替代方案，系统300实施记录系统。记录系统具有一或多个端点202及服务器302，但是端点202不一定需要传输其捕获的视频数据；服务器302对经捕获视频数据(在生成视频数据的同时，之后对经存储视频数据等)执行快照过程。例如，端点202可位于各种演讲厅位置，服务器302托管快照服务，且所述端点经由网络服务存取服务器302以使用快照服务。

图4展示快照系统400的框图。快照系统400可被实施为视频会议系统或记录系统(参见图3)的元件中的一者的组件，例如传输端点202a、接收端端点202b、服务器302等。快照系统400可通过由处理器执行的一或多个计算机程序来实施。

快照系统400接收视频数据402且从所述视频数据生成一或多个快照404。一般来说，视频数据402对应于由传输端点202a传输的视频会议数据。作为一个实例，视频数据402对应于由摄像机230(参见图2)捕获的白板232的视频。作为另一实例，视频数据402对应于与显示在显示屏上的信息相对应的屏幕共享数据(例如，当传输端点202a对应于计算机系统时)。快照404对应于在选定时间的视频数据402的静态图像。

快照系统400将快照404提供到其它装置。根据一个选项，快照系统400在生成每一快照时提供快照404。根据另一选项，快照系统400稍后提供快照404，例如通过在视频会议完成时处理视频数据402。快照系统400可将快照404提供到其它装置(例如，记录系统环境中的图3的端点202)、视频会议中涉及的装置(例如，视频会议环境中的图3的端点202)、视频会议中未涉及的装置等。

快照系统400可经由除用于传输视频数据402的通信信道外的通信信道提供快照404。例如，快照系统400可经由电子邮件提供快照404。替代地，快照系统400可经由与用于传输视频数据402的通信信道相同的通信信道提供快照404。例如，快照404可被提供为叠加在视频数据402的边角或边缘上的缩略图像。

图5展示展示快照系统400(参见图4)的进一步细节的框图。快照系统400包含识别器组件502及图像选择器组件504。识别器组件502通常识别视频数据402中的受关注时段。下文进一步论述受关注时段及识别其的方式。图像选择器组件504通常从视频数据402选择对应于由识别器组件502识别的受关注时段的静态图像(例如，帧)。由图像选择器组件504选择的静态图像的集合对应于快照404。

图6展示识别器组件600的框图。识别器组件600是识别器组件502(参见图5)的实例实施方案。识别器组件600包含滤波器组件602、滤波器组件604、减法组件606、滤波器组件608、加法组件610及阈值化组件612。

滤波器组件602及滤波器组件604接收视频数据402(参见图5)且各自执行视频数据402的滤波以生成第一经滤波图像622及第二经滤波图像624。作为一个实例，滤波器组件602及滤波器组件604可实施无限脉冲响应(IIR)滤波器以生成第一经滤波图像622及第二经滤波图像624。

作为另一实例，滤波器组件602及滤波器组件604可在被称为时窗的时间段内执行滤波。在这个实例中，滤波器组件602在视频数据402中的第一给定时间应用的第一时窗内操作以生成第一经滤波图像622，且滤波器组件604在视频数据402中的第二给定时间应用的第二时窗内操作以生成第二经滤波图像624。一般来说，第一时窗大小及第一给定时间的组合(针对滤波器组件602)与第二时窗大小及第二给定时间的组合(针对滤波器组件604)不同。作为一个实例，第一时窗及第二时窗可具有不同大小，且第一给定时间及第二给定时间可相同。作为另一实例，第一时窗及第二时窗可具有相同大小，且第一给定时间及第二给定时间可不同。作为另一实例，第一时窗及第二时窗可具有不同大小，且第一给定时间及第二给定时间可不同。因此，滤波器组件602及滤波器组件604的输出可能随着视频数据402随时间改变而不同。时窗大小可依据视频数据402中的选定帧数来定义。

作为实例，考虑其中帧速率可在每秒10帧与60帧之间的范围内；第一时窗大小被选择为在30秒到300秒的范围内(例如，60秒)；且第二时窗大小被选择为在5秒到30秒的范围内(例如，15秒)的实施例。

滤波器组件602及滤波器组件604可实施数个滤波过程以计算第一经滤波图像622及第二经滤波图像624。作为实例，所述滤波器组件可存储帧的历史且计算时间平均值(例如，有限脉冲响应平均值或移动平均值)。作为另一实例，所述滤波器组件可实施计算自回归或无限脉冲响应平均值的累加器。(无限脉冲响应实施例可使用时间常数来代替时窗大小。)

滤波器组件602及滤波器组件604可对已被裁剪为仅包含白板的视频数据402的经裁剪部分进行操作。可如在第PCT/US2018/053097号国际申请案中所描述那样实施生成经裁剪视频数据。

减法组件606生成对应于第一经滤波图像622(自滤波器组件602输出)与第二经滤波图像624(自滤波器组件604输出)之间的差异(如果有的话)的差异图像626。例如，当滤波器组件602及滤波器组件604对视频数据402的帧执行滤波时，其输出分别是第一经滤波帧及第二经滤波帧；减法组件606输出差异帧，其中每一像素是第一经滤波帧与第二经滤波帧中的对应两个像素之间的差异。

像素值可在从0到255的范围内，且识别器组件600可对两个图像622与624之间的像素值的差异的绝对值进行操作。另外，识别器组件600可执行进一步阈值化，以将减法组件606与滤波器组件608之间的差异图像626的像素值归一化为0(当127或更小时)或255(当大于127时)。

滤波器组件608对从减法组件606输出的差异图像626执行滤波以生成经滤波差异图像628。所述滤波移除差异图像626中可能由摄像机噪声产生的小差异。滤波组件608可使用空间滤波器(例如，腐蚀)来执行滤波。例如，滤波组件608可使用空间滤波器的2x2矩阵来对差异图像626执行腐蚀。一般来说，应用于白色背景上的深色书写的腐蚀操作增加所述书写的线粗度。

加法组件610将经滤波差异图像628中的像素值相加以生成总和630。一般来说，总和630将与第一经滤波图像622与第二经滤波图像624之间的(经滤波)差异成比例。

加法组件610可对像素的强度值进行操作，所述像素可呈黑色/白色、灰度或彩色(例如RGB，即红色、绿色及蓝色)。针对RGB像素，摄像机230(参见图2)可执行白平衡(其调整R及B像素强度)，因此加法组件610可使用G像素强度进行操作。

阈值化组件612比较总和630与阈值且将比较的结果提供到图像选择器组件504(参见图5)。当总和630超过阈值时，所述结果指示识别器组件600已在视频数据402中找到受关注时段。作为实例，阈值可为20、30等。作为另一实例，阈值可被定义为考虑视频数据402的不同大小或分辨率的平均值。(因此组合所述两个实例，针对1920x1080分辨率的视频，20的阈值对应于平均值1/103680。)阈值可根据期望进行调整；增加阈值将导致较少受关注时段被识别。

图7展示识别器组件700的框图。识别器组件700是识别器组件502(参见图5)的实例实施方案。识别器组件700包含编码器组件702及解码器组件704。识别器组件700是分布式的，其中编码器组件702位于客户端侧上(例如，作为图3的传输端点202a的组件)，且解码器组件704位于另一侧上(例如，作为图3的视频会议服务器302的组件，作为图3的接收端点202b的组件等)。

编码器组件702接收未压缩视频流712且对未压缩视频流712执行编码以生成压缩视频流714。例如，未压缩视频流712可对应于由摄像机230(参见图2)捕获的原始视频，且编码器组件702可根据选定视频标准执行编码，例如ITU-TH.264标准或ITU-TH.265标准。接着在视频会议的进程中，例如从传输端点202a经由网络106(参见图3)传输压缩视频流714。

解码器组件704接收压缩视频流714且对压缩视频流714执行解码以生成视频数据716。视频数据716可包含内帧。

接着可由识别器组件600(参见图6)处理视频数据716作为视频数据402以识别受关注时段。当视频数据716包含内帧时，受关注时段中的内帧可用作快照404(参见图5)。

作为选项，编码器组件702可接收内帧阈值720且可根据内帧阈值720调整压缩视频流714中的内帧的速率。在缺少内帧阈值720的情况下，编码器组件702可以第一速率生成内帧以便满足带宽约束。(内帧比预测帧或双向预测帧使用更多数据，因此满足带宽约束会导致给定数目个内帧及给定数目个其它帧。)内帧阈值720可将内帧速率从第一速率调整为第二速率。一般来说，第二速率将大于第一速率，因此其它帧的数目可能减少；或替代地，可能超过带宽约束。

作为根据内帧阈值720调整内帧速率的结果，编码器组件702可生成压缩视频流714以满足用于生成快照404的标准(例如，以调整编码，使得产生期望数目个内帧)，代替仅仅满足带宽标准。替代地，编码器组件702可直接识别内帧，且选择每一经识别内帧作为快照(其可经由电子邮件等发送)。

图8展示说明识别器组件502(参见图5)的实施方案选项的图表800。图表800的x轴是时间，且y轴是位率。曲线802对应于视频数据402(参见图5)随时间的位率。在大多数时间，曲线802低于阈值804。一般来说，当曲线802低于阈值804时，这对应于视频数据402中没有太大改变。当曲线802超过阈值804时，识别器组件502识别对应于超过阈值804的区的受关注时段。一般来说，当曲线802超过阈值804时，视频数据402中捕获的图像在改变。例如，白板上的书写可能存在改变，幻灯片可能从一张幻灯片转变到下一张幻灯片等，且这些改变与视频数据402改变相关联。

区806及808对应于由识别器组件502识别的受关注时段。

识别器组件502可实施阈值804的数个选项。一个选项是识别器组件502针对视频数据402的编码方案及分辨率的每一组合存储对应阈值。另一选项是识别器组件502在视频的持续时间内调整阈值，例如以如果在给定时间段内未生成快照，那么降低阈值，或如果在给定时间段内已生成多于给定数目个快照，那么增加阈值。另一选项是，针对经记录视频数据，分析整个视频数据且设置阈值使得对于给定视频长度生成目标数目个快照。

如与识别器组件502(例如识别器组件700)的其它选项相比，在分析视频数据402的位率时不需要解码。因此，实施图8的位率识别的识别器组件可省略解码器组件。

图9展示说明选择器组件504(参见图5)的实施方案选项的图表900。图表900的x轴是时间，且y轴是位率。曲线902对应于视频数据402(参见图5)随时间的位率。如同曲线802(参见图8)，当曲线902超过阈值904时，识别器组件502识别受关注时段906。当识别器组件502已识别受关注时段时，选择器组件504从视频数据402选择图像。选择器组件504可在给定受关注时段的各种时间进行这个选择。一个选项是在时段906内的某个时间从视频数据402选择图像。例如，可在时段906的中间、在时段906的末尾等选择图像。另一选项是在时段906之后的所界定时段(例如，100ms)内从视频数据402选择图像；在此情况下，时段906及随后界定的时段两者可被称为受关注时段。

另一选项是在曲线902已转变到低于阈值904且在所界定时段内(例如，在300ms到1500ms的范围内)保持低于阈值904的时间(被展示为时段908)从视频数据402选择图像。在此情况下，可从时段906内、从时段908内、在时段908的末尾等选择图像；且906及908的整体可被称为受关注时段。

另一选项是在曲线902已转变到低于阈值904且在超过阈值904之前已返回到位率(在所界定时段内，例如100ms)的时间(被展示为时段910)从视频数据402选择图像。在此情况下，可从自906的开端到910的末尾的任何时间选择图像；在此情况下，从906的开端到910的末尾的整个时段可被称为受关注时段。如果在视频数据402低于阈值904时选择图像，那么图像比在当视频数据402高于阈值时选择图像的情况下更可能对应于静态图像(其可能与视频数据中捕获的图像402的变化相对应)。

选择器组件504可实施双态隐马尔可夫模型以识别位率是处于高位率状态(例如，高于阈值)还是低位率状态(例如，低于阈值)。所述模型可在每一状态下使用位率的高斯发射分布。

当根据其它过程，例如通过识别器组件600(参见图6)识别受关注时段时，可进行图像的类似选择。例如，一旦阈值返回到低于阈值，由识别器组件600识别的受关注时段可包含所界定时段(例如，100ms)，且可从所述所界定时段内选择图像。

图10展示方法1000的流程图。方法1000生成出现在物理表面(例如，白板)上且在视频上捕获(例如，作为视频会议的部分，当记录演示时等)的内容(例如，快照)的记录。方法1000可由系统300(参见图3)的一或多个组件来执行。

在1002处，摄像机生成包含物理表面的图像数据的视频数据。例如，摄像机230(参见图2)可生成包含白板232的图像数据的视频数据。在视频会议环境中，端点(例如，图3的端点202a)可将视频数据传输到其它装置。在记录环境中，端点(例如，图2的端点202)可能不一定传输视频数据。

在1004处，通过将差异量度应用于视频数据来识别视频数据中的至少一个受关注时段。例如，差异量度可由识别器组件生成，例如识别器组件502(参见图5)、识别器组件600(参见图6)、识别器组件700(参见图7)等。差异量度可对应于像素的差异(如关于识别器组件600所论述)。作为实例，差异量度可对应于应用于视频数据的第一滤波操作与第二滤波操作之间的差异。作为进一步实例，差异量度可对应于应用于视频数据的第一时间窗与第二时间窗之间的差异。差异量度可对应于位率的差异(如关于识别器组件700所论述)等。例如，差异量度可对应于超过阈值的视频数据的速率。

各种组件可执行受关注时段的识别。作为一个实例，端点202(参见图2)可执行识别；针对具有一个以上端点的系统，传输端点202a(参见图3)可执行识别，接收端点202b可执行识别等。作为另一实例，服务器302可执行识别。

如果所述系统还在传输视频数据，那么所述系统具有用于识别受关注时段的数个选项。根据一个选项，所述系统在传输视频数据的同时识别受关注时段。根据另一选项，所述系统不一定在传输视频数据的同时识别受关注时段。例如，所述系统可在传输已完成之后或在视频数据的末尾识别受关注时段。

在1006处，针对每一受关注时段选择物理表面的图像数据的静态图像(在1004处识别)。例如，选择器组件504(参见图5)可针对每一受关注时段选择图像。如上文参考图9所论述，可从对应于受关注时段的时段(例如，906、908、910等)内选择图像。取决于图像数据的编码，静态图像可对应于帧(例如，内帧)。

在1008处，生成一组图像，所述一组图像包含受关注时段(在1004处识别)内的每一静态图像(在1006处选择)。一般来说，所述一组图像提供出现在物理表面上的内容的快照。

快照系统(例如，图4的快照系统400)可传输包含静态图像的电子消息。作为实例，当端点202(参见图2)是传输端点时，端点202可经由第一通信信道(例如，经由例如传输控制协议(TCP)的连接协议)传输视频数据，且可经由第二通信信道(例如，经由电子邮件使用例如用户数据报协议(UDP)的无连接协议)传输静态图像。作为另一实例，当端点202是记录系统300(参见图3)的部分时，服务器302可发送快照(例如，经由电子邮件、即时消息传递等)。作为另一实例，当端点202是接收端点时，端点202可发送快照(例如，经由电子邮件、即时消息传递等)。

快照系统(例如，图4的快照系统400)可在快照被选择时传输快照，或可发送快照的群组(例如，在视频会议或记录演示结束时)。例如，当每一快照在其被选择时发送时，所述一组图像(参见1008)包含一个选定图像。作为另一实例，当快照的群组被发送时，所述一组图像(参见1008)包含快照的群组。

额外细节

以下几节提供有关快照过程的额外细节及选项。

视频分类器

快照系统(例如，图4的快照系统400等)可实施视频分类器作为其快照处理的部分。例如，视频分类器可将帧分类成仅仅展示白板的帧及包含白板前方的用户的帧。快照系统接着可仅使用仅仅展示白板的所述帧，因为用户的存在可能阻挡白板的部分。在第9,762,855号美国专利中描述识别用户的存在的实例。

反馈系统

快照系统(例如，图4的快照系统400等)可响应于反馈而调整其操作。例如，考虑其中图3的系统300实施视频会议系统的实施方案。与第一位置相关联的传输端点202a可将快照404发送到第二位置(例如，与接收端点202b相关联)。第二位置处的用户可评估快照404，例如作为观看视频数据的部分。如果快照404太频繁，那么用户可提供减小快照404的频率的反馈。如果快照404太不频繁，那么用户可提供增加快照404的频率的反馈。传输端点202a接收反馈且相应地调整快照系统400。

一般来说，反馈用于调整计算差异量度中所使用的一或多个阈值。例如，针对识别器组件600(参见图6)，反馈调整由阈值化组件612所使用的阈值。作为另一实例，针对识别器组件700(参见图7)，反馈调整内帧阈值720。作为另一实例，针对根据如图8中所展示的位率阈值操作的识别器组件502，反馈调整阈值804。

作为上述实例的延伸，多个第二位置处(或与多个接收端点202b等相关联)的用户可提供关于快照404的反馈。传输端点202a接收反馈，汇总反馈(来自多个第二位置等)，且相应地调整快照系统400。作为进一步延伸，快照系统400可根据其反馈指示最高频率调整的多个位置中的一者调整其阈值；所有快照404经发送到所述位置，且一组按比例快照404基于其个别反馈被发送到其它位置。例如，如果来自位置X、Y及Z的反馈分别指示每分钟应发送4、3及2个快照，那么快照系统400可生成4个快照；所有4个经发送到位置X，4个中的3个被选择并发送到位置Y，且4个中的2个被选择并发送到位置Z。

以类似方式，当服务器302代替传输端点202a执行快照时，服务器302可接收反馈(或汇总来自多个接收端点202b的反馈)且据此调整其快照系统400的参数。

语音转文本处理

快照系统(例如，图4的快照系统400等)可执行语音转文本处理作为生成快照的部分。例如，端点202(参见图2)可包含麦克风，且可传输音频数据(其中由图3的系统300按照视频会议系统传输视频数据)或可记录音频数据(其中由图3的系统300按照记录系统记录视频数据)。

快照系统400对由麦克风捕获的音频数据执行语音转文本处理以生成文本数据。快照系统400接着将文本数据的一部分与每一静态图像相关联(参见图10中的1006)。例如，当选择第一快照时，从(视频会议、演讲等)开始到第一快照时间的文本数据与第一快照相关联。接着当选择第二快照时，从第一快照之后到第二快照时间的文本数据与第二快照相关联等。

端点202接着可将快照与相关联文本数据一起分发，例如作为经由电子邮件发送的一或多张简报幻灯片。例如，当每简报幻灯片存在一个快照时，所述简报幻灯片还含有与所述快照相关联的文本数据。

当服务器302实施快照系统400时，可由服务器302(参见图3)执行类似功能。

作为语音转文本处理的部分，快照系统400可实施如第2018/0279063号美国申请公开案中所描述的分段调度器。例如，一旦快照系统400将音频片断与每一视频快照相关联，分段调度器就可将所有音频片断布置为一个流。

组合的语音及图像处理

快照系统(例如，图4的快照系统400等)可组合语音处理及图像处理两者以生成文本作为生成快照的部分。快照系统400可对音频数据执行语音转文本处理，可执行视频数据的光学字符辨识处理，且可执行结果的概率组合以生成最终文本数据。语音转文本处理可为语音转词图(lattice)处理、语音转N最佳文本处理等，以便提供有关语音的多个假设。概率组合可包含从先前处理结果确定的语境。

II.手势加入

术语“加入”可用于指代指定经捕获视频的特定部分的过程，例如作为视频会议的部分。例如，作为显示含有白板的整个图像帧的替代方案，白板的加入允许显示器聚焦在白板上以改进观看者体验。典型的加入方法包含手动方法(例如，使用触摸屏界面)、自动方法(例如，使用计算机视觉的白板检测)等。

以下论述描述另一加入方法，即手势加入。手势加入可提供胜过其它加入方法的数个改进。如与触摸屏加入相比，手势加入不需要触摸屏硬件。如与白板检测相比，手势加入使能够在视频会议期间动态地选择或调整受关注区。此外，手势加入提供在多种照明条件、多种壁色彩对比白板色彩场景等下对受关注区的稳健检测。

图11展示加入系统1100的框图。加入系统1100可由例如视频会议系统100(参见图1)、视频会议系统200(参见图2)等的视频会议系统来实施。例如，视频会议端点102(参见图1)或视频会议端点202(参见图2)可实施加入系统1100。加入系统1100包含手势加入系统1102及变换系统1104。

手势加入系统1102接收视频数据1110，检测视频数据1110中的加入手势，且生成一组坐标1112。视频数据1110通常对应于例如由摄像机116、摄像机130(参见图1)、摄像机230(参见图2)等针对视频会议捕获的视频。加入手势通常对应于用户的手势，所述手势界定视频数据1110中捕获的内容的一部分。例如，加入手势可为用户的两只手用拇指及食指形成“L”形，从而界定白板面积的两个边角。这个所指示面积可被称为受关注区。所述一组坐标1112接着对应于视频数据1110的帧中的受关注区的两个边角的位置。所述一组坐标可对应于平行四边形或其它规则形状。

变换系统1104接收视频数据1110及坐标1112，使用坐标1112来对视频数据1110执行几何变换，且生成经变换视频数据1114。白板可相对于摄像机成角度，因此变换系统1104可执行去偏斜过程，从而导致经变换视频数据1114看起来好像视频数据1110更正面地被捕获。受关注区通常小于整个(输入)图像帧，因此变换系统1104可执行缩放过程，从而导致经变换视频数据1114填充更多(输出)图像帧。

几何变换可为透视变换。一般来说，透视变换改变经捕获图像帧以使其看起来好像是在另一摄像机位置处被捕获。例如，透视变换可实施将一个平面映射到另一平面的单应性矩阵(例如，使用针孔摄像机模型)。几何变换可为仿射变换。一般来说，仿射变换保留从经捕获图像帧到经变换图像帧的平行线。

手势加入系统1102可响应于命令而起始加入过程。例如，视频会议系统可包含语音辨识器；当用户说，“加入这个！”同时做出加入手势时，语音辨识器辨识命令且指示手势加入系统1102执行加入过程。作为另一实例，视频会议系统可包含起始加入过程的按钮或遥控器。替代地，手势加入系统1102可连续地操作。

图12A展示展示例如与由摄像机或其它视频会议系统(未展示)在室1200中捕获的视频数据(例如，图11中的1110)的实例帧的透视图。室1200包含白板1202。用户1204做出加入手势以在白板1202上界定受关注区。(应注意，界定受关注区的虚线仅在图12A中被展示作为描述性帮助且实际上并不存在于经捕获视频数据中。)在这个实例中，加入手势是用户的两只手呈“L”形，从而界定受关注区的两个边角(左下角及右上角)。应注意，摄像机偏移到视图的左侧，因此帧看起来偏斜(例如，白板1202的左侧更靠近摄像机且因此看起来大于右侧；且受关注区中的文本的左侧看起来大于右侧)。加入系统(例如，图11中的1100)接收视频数据且生成经变换视频数据(例如，图11中的1114)。

图12B展示监视器1210上显示的经变换视频数据(例如，图11中的1114)的实例帧。这个实例帧由加入系统(例如，图11中的1100)根据所界定受关注区对视频数据(例如，图11中的1110)执行透视变换而产生。如与图12A中所展示的帧相比，图12B中所展示的帧已经去偏斜(例如，帧的左侧看起来与帧的右侧大小相同)及经缩放(例如，受关注区大体上填充帧)。

用户1204可控制视频会议系统以在视图之间进行切换。例如，一个视图可对应于视频会议系统传输与图12A的视图相对应的视频数据1110，图12A大体上展示包含用户1204及白板1202的宽视图。另一视图可对应于视频会议系统传输与图12B的视图相对应的经变换视频数据1114，图12B大体上展示受关注区(经缩放及去偏斜)。(而且，应注意，界定受关注区的虚线仅在图12B中被展示作为描述性帮助且实际上并不存在于经显示视频数据中)。用户可使用视频会议系统上的按钮、遥控器、语音命令等来在视图之间进行切换。除用户1204外的用户(例如，在视频会议的另一端的用户)也可切换视图。每一视图的设置(例如，多个先前加入面积等)可经存储在视频会议系统的存储器中且由用户来选择。

图13展示手势加入系统1300的框图。手势加入系统1300可用作手势加入系统1102(参见图11)。手势加入系统1300可由例如视频会议系统100(参见图1)、视频会议系统200(参见图2)等的视频会议系统来实施。例如，视频会议端点102(参见图1)或视频会议端点202(参见图2)可实施手势加入系统1300。手势加入系统1300包含分类器1302、定向验证器1304及坐标生成器1306。手势加入系统1300与模型1317交互。

模型1317可经存储在实施手势加入系统1300的计算机系统的存储器中。手势加入系统1300使用模型1317作为分类过程的部分，如下文更详细地描述。训练组件1318可用于使用图像集1310来生成模型1317。训练组件1318可由实施手势加入系统1300的计算机系统来实施。

图像集1310通常对应于多个图像，每一图像包含做出所界定加入手势的用户、做出加入手势的手的数个图像等。图像集1310可包含做出加入手势的单只手的图像(例如，“L”形是通过左手展示手掌，右手展示手掌，左手展示手背，右手展示手背等来做出)。图像集1310可包含做出加入手势的两只手的图像(例如，“L”形是通过左及右两只手展示手掌，左及右两只手展示手背，左及右两只手一只展示手掌且另一只展示手背等来做出)。

图像集1310可包含不同手的数个图像(例如，1000、2000、3000、4000张照片等)。所述图像可包含多种手大小(例如，大、小、中)、指甲配置(例如，短指甲、长指甲、涂指甲油、未涂指甲油)、毛发覆盖(例如，多毛的手、光滑的手)、肤色(例如，浅色、深色、各种其它色度)、服装风格(例如，长袖、短袖)、手指饰品(例如，戒指、未戴戒指)、手腕饰品((例如，手表、未戴手表)等。所述图像可具有多种大小，其中最小大小是约16x16像素。所述图像可为灰度图像、彩色图像等。

图像集1310可包含具有可识别项目的图像。例如，当执行手势加入时可使用特定样式的戒指，且图像集1310可包含也包含所述特定样式的戒指的图像。作为另一实例，视频会议系统可与智能手表交互以显示特定图像，且图像集1310可包含还包含佩戴显示所述特定图像或仅仅以多种角度显示所述特定图像的智能手表的手腕的图像。

图像集1310可包含覆盖多种范围的视场及照明条件的图像，所述范围表示将由系统的使用产生的视场及照明条件。实例照明条件包含自然照明(例如，靠近窗户，有或没有阳光照进来，有或没有阴影)、人工照明(例如，荧光办公室照明)等。一种收集图像的数据集的方式是配置具有不同白板的数个室(例如，10个到20个室)及拍摄佩戴多种道具的多种人(例如，100人)。例如，所述一组人可包含多种性别、多种肤色、多种身高等。所述道具可包含戒指、手镯、手表、假指甲、夹克、短袖等。所述光照条件可能在每一室中变动，且每一人可佩戴众多道具组合执行加入手势且可使用各种视场进行拍照。

图像集1310中的图像可将其对比度归一化。(视频数据1110也可将其对比度归一化。)对比度归一化可与由下文所论述的均衡组件3304(参见图33)执行的对比度归一化类似。通过创建不同的亮度分布且将所述分布应用于原始图像集，可以编程方式创建训练集的图像。

分类器1302接收视频数据1110(参见图11)，使用模型1317来对视频数据1110执行分类，且生成一组坐标1312。所述一组坐标1312通常对应于经识别加入手势在视频数据1110中的位置。

分类器1302可使用多种分类过程中的一或多者(包含启发式分类、机器学习分类等)以对视频数据1110进行分类来执行分类。例如，分类器1302可实施适应自举过程、类哈尔特征分类器、卷积神经网络、深度学习网络、循环神经网络等。例如，分类器1302可实施卷积神经网络，例如AlexNet卷积神经网络。分类器1302的特定配置可经调整以考虑图像集1310或特定模型1317中的图像的类型。

当用于生成模型1317的图像集1310包含单只手的图像时，分类器1302识别做出加入手势的左手并确定左手的一组坐标，且识别做出加入手势的右手并确定右手的一组坐标。例如，所述一组坐标1312可对应于其中针对做出加入手势的每只经识别手的拇指及食指相交的坐标。

当用于生成模型1317的图像集1310包含两只手的图像时，分类器1302识别做出加入手势的两只手，确定一只手的一组坐标，且确定另一只手的一组坐标。所述一组坐标1312接着对应于视频数据1110的帧中的两个点，所述两个点对应于用户做出加入手势的手的两个位置。

定向验证器1304通常验证所述一组坐标1312对应于两只手的位置与每只手的食指及拇指的定向。一般来说，如果两个以下条件为真，那么定向验证器1304验证加入过程。第一条件是所述一组坐标1312对应于呈“L”形的手的两个例子，例如来自同一人的一只右手及一只左手。第二条件是手的相应食指及拇指描述平行四边形。(这避免当两只手指向同一方向时加入。)

为了执行验证，定向验证器1304确定由每只手的食指及拇指描述的向量是否界定合理的平行四边形。例如，确定平行四边形是否合理可能需要检查以下条件中的一或多者。一个条件是两个拇指指向相反(或垂直)方向(例如，如由两个拇指向量的点积为负所指示)。另一条件是两个食指指向相反(或垂直)方向(例如，如由两个食指向量的点积为负所指示)。另一条件是两个手位置周围的轴对准定界框的宽高比在某一范围内(例如，在范围0.5到2.0内)。

如果定向验证器1304成功地验证坐标，那么将其(作为所述一组坐标1314)提供到坐标生成器1306；否则加入过程终止。

坐标生成器1306生成对应于包含所述一组坐标1314的四边形(例如，四个点)的一组坐标1316。(四边形可为不规则四边形或梯形，这取决于表面上的平面对比摄像机或变换的平面。)坐标生成器1306识别视频数据1110中的水平或垂直线且使用所述线来将坐标1314(两个点)延伸到坐标1316(四个点)。(应注意，由于摄像机角度，视频数据1110中的水平及垂直线可能看起来不是严格水平及垂直的。)坐标生成器1306可通过识别白板的边、两个壁的相交点等来识别垂直线；或通过识别白板的顶部或底部、壁及天花板的相交点等来识别水平线。例如，当已将白板的边识别为垂直线时，坐标生成器1306可从坐标1314中的一者延伸平行垂直线，且可从所述平行垂直线延伸垂直线以与坐标1314中的另一者相交；所述两条线的相交点则是坐标1316中的一者。

一种由坐标生成器1306识别水平或垂直线的方式如下。第一，坐标生成器1306对图像(例如，视频数据1110的帧)执行阈值化。第二，坐标生成器1306识别经阈值化图像中的轮廓(例如，经连接的一组点的界线)。第三，坐标生成器1306识别轮廓上的具有帧内的相同(在一定范围内)x或y坐标的点；对应轮廓是(分别)水平或垂直线。如果轮廓既不是垂直的也不是水平的，那么坐标生成器1306可计算最小定界框且接着将轮廓拟合到形状，因为最小定界框中的两个点将位于定界框本身上。替代地，当轮廓呈简单形状时，坐标生成器1306可使用轮廓近似方法。

坐标生成器1306可实施镜头校正变换作为生成坐标1316的部分。可对视频数据1110、图像集1310等执行镜头校正变换。镜头校正变换在摄像机的镜头是广角镜头，例如鱼眼镜头等时有用。在此情况下，在缺少镜头校正的情况下，仿射变换将扭曲图像中的文本或书写，因此镜头校正结合仿射变换保留文本。

手势加入系统1300接着可将坐标1316提供到变换系统1104作为坐标1112(参见图11)。

图14是加入在视频上捕获的书写表面的方法1400的流程图。书写表面可为白板，例如白板1202(参见图12)。方法1400可由例如视频会议系统100(参见图1)、视频会议系统200(参见图2)等的视频会议系统来执行。例如，视频会议端点102(参见图1)或视频会议端点202(参见图2)可实施控制端点以执行方法1400的计算机程序。作为另一实例，视频会议端点102可实施执行方法1400的手势加入系统1100(参见图11)。

在1402处，接收视频数据。视频数据捕获物理书写表面。例如，摄像机230(参见图2)可捕获白板232(参见图2)的视频数据1110(参见图11)，所述视频数据1110是由手势加入系统1100(参见图11)接收。

在1404处，识别视频数据中的用户的加入手势。加入手势与物理书写表面的面积相关联。例如，加入手势可为用户的手呈两个“L”形，其界定白板的受关注区的两个边角。手势加入系统1102(参见图11)或手势加入系统1300(参见图13)可例如使用机器学习来识别加入手势。

在1406处，在视频数据中确定对应于加入手势的一组坐标。所述一组坐标与由加入手势识别的物理书写表面的面积相关联。例如，坐标1112(参见图11)或坐标1316(参见图13)可对应于与加入手势(参见1404)相关联的受关注区。手势加入系统1102(参见图11)或手势加入系统1300(参见图13)可确定所述坐标。

在1408处，使用所述一组坐标来对视频数据执行几何变换以生成对应于由加入手势识别的面积的经变换视频数据。几何变换可能导致视频数据的去偏斜、缩放等。几何变换可包含透视变换、仿射变换等。变换系统1104可使用坐标1112来对视频数据1110执行几何变换以生成经变换视频数据1114(参见图11)。

在1410处，传输经变换视频数据。例如，视频会议系统100(参见图1)或视频会议系统200(参见图2)可传输经变换视频数据1114(参见图11)作为视频会议的部分。接着可由参与视频会议的其它装置接收及显示经变换视频数据。

可再次执行方法1400以识别另一受关注区。例如，可执行步骤1404到1408以确定第一受关注区的坐标；接着用户可第二次执行手势加入，且可执行步骤1404到1408以确定第二受关注区的坐标。

III.共享书写表面

在其中用户正使用其膝上型摄像机或网络摄像头参与视频会议的情况下，此类装置通常非常适合于捕获用户的头部特写或上半身特写。然而，此类装置通常不太适合于捕获相关内容，例如用户的同时手写体。本文中描述用于使用用户的膝上型摄像机或网络摄像头来共享书写表面(例如一张纸)的技术。所述技术在使用对位于摄像机取景范围内的会议室中的任何位置处的一张纸执行捕获的高分辨率摄像机(例如，会议室中的视频会议系统的摄像机)时也适用。

实例用例如下。用户正使用其膝上型计算机在家参与视频会议。用户希望分享其标记(例如，书写、绘图、草图等)，因此其验证一张纸在摄像机取景范围中且在所述纸上进行书写。所述系统在书写的同时识别所述纸且处理经捕获图像以进行传输。与在书桌上的一张纸上书写、暂停将所述一张纸举高到摄像机且在每次连续书写时重复这个过程相比，这提供改进的交互体验。

图15是用于共享在视频上捕获的书写表面的系统1500的框图。系统1500可由还实施视频会议系统(例如，图1中的100、图2中的200等)的其它组件的膝上型计算机来实施。例如，膝上型计算机可实施视频会议端点102或202、计算设备120、摄像机116或130或230等中的一或多者。膝上型计算机可通过执行一或多个计算机程序，例如作为控制膝上型计算机以执行视频会议功能的更通用计算机程序的部分来实施系统1500。可以与膝上型计算机类似的方式使用移动电话或其它计算装置。系统1500包含输入变换组件1502及几何变换组件1504。

输入变换组件1502接收输入视频数据1520及边角信息1522，使用边角信息1522来对输入视频数据1520执行变换操作，且生成经变换视频数据1524。输入视频数据1520通常对应于由膝上型计算机的摄像机捕获的视频(例如，图4的视频数据402、图11的视频数据1110等)。输入变换组件1502可执行例如镜头校正、帧大小调整、调整大小、去扭曲、放大等的变换。输入变换组件1502可使用边角信息1522来执行输入视频数据1520的分辨率调整大小或放大，使得经变换视频数据1524更接近地对应于所述纸(如由其边角界定)。

几何变换组件1504接收经变换视频数据1524及边角信息1522，使用边角信息1522来对经变换视频数据1524执行几何变换，且生成经变换视频数据1526。一般来说，几何变换组件1504可执行变换以翻转经捕获图像(使得其对观看者看起来是正面朝上)，去偏斜经捕获图像(因为经捕获页面可能看起来是不规则四边形或梯形)等。几何变换过程的结果的实例请参见图21。

(应注意，术语“不规则四边形”及“梯形”是指具有至少一对平行边的凸四边形，其中“不规则四边形”在美式英语中常用且“梯形”在英式英语中常用。本文献互换地使用所述术语。)

在由几何变换组件1504进行几何变换之前由输入变换组件1502执行输入变换(例如，放大)使系统1500能够维持书写的近似宽高比，这有助于可读性。作为这个过程的部分，建议几何变换组件1504对定界框执行几何变换。(这个建议不是必需的。)另外，因为几何变换本质上是线性的，所以如果执行线性内插作为几何变换的部分，那么其可能导致锯齿状边缘。为了避免这种情况，在由几何变换组件1504进行几何变换之前执行由输入变换组件1502进行的输入变换。

作为进一步选项，几何变换组件1504可不保留宽高比，而是可代替地使用不同宽高比。(在某些情况下，使用不同宽高比可能是有益的，例如当经捕获手写体写得很差时。)一个实例宽高比是黄金比例

(例如，近似1.62)。

系统1500可实施面部检测过程以便在正常模式(例如，视频会议模式)与纸共享模式(例如，共享纸或其它书写表面)之间自动地切换。当系统1500在视频帧中检测到面部时，系统1500控制膝上型计算机以按照正常视频会议过程(例如，绕过输入变换组件1502及几何变换组件1504)处理输入视频数据1520。当系统1500在视频帧中检测到面部时，系统1500使用如上文所描述的输入变换组件1502及几何变换组件1504来处理输入视频数据1520。

系统1500可实施哈尔级联以执行面部检测过程。系统1500可与膝上型计算机的铰链传感器进一步交互作为面部检测过程的部分。当铰链传感器报告膝上型计算机屏幕指向水平或向上时，这增加系统1500进入正常模式的可能性，而当铰链传感器报告膝上型计算机屏幕向下时，这增加系统1500进入纸共享模式的可能性。例如，当膝上型计算机屏幕向上时，系统1500可降低面部检测器的检测阈值。替代地，系统1500可使用铰链传感器输出来取代哈尔级联(或其它面部检测过程)。

图16是用于共享在视频上捕获的书写表面的系统1600的框图。系统1600与系统1500(参见图15)类似，其中添加掩码创建组件1630及加法器1632。

掩码创建组件1630接收经变换视频数据1524且基于经变换视频数据1524生成掩码1634。掩码1634通常对应于识别浅色背景上的深色书写，例如将在一张纸上书写时出现。掩码创建组件1630可执行自适应阈值化、滤波等以生成掩码1634。掩码创建组件1630可对灰度图像进行操作。替代地，掩码创建组件1630可对绿色像素数据进行操作，因为由于摄像机中的电荷耦合装置(CCD)的几何结构，绿色可作为灰度的替代。

加法器1632接收经变换视频数据1524及掩码1634，将掩码1634应用于经变换视频数据1524，且生成经组合视频数据1636。如与经变换视频数据1524相比，经组合视频数据1636中捕获的页面上的书写得到增强。

几何变换组件1504另外如参考图15所描述那样操作，除了其对经组合视频数据1636执行几何变换以生成经变换视频数据1526之外。

图17是输入变换组件1700的框图。输入变换组件1700可用作输入变换组件1502(参见图15、图16等)。输入变换组件1700包含校正组件1702及调整大小组件1704。

校正组件1702接收输入视频数据1520(参见图15)，对输入视频数据1520执行畸变校正变换，且生成经校正视频数据1710。例如，膝上型计算机上的摄像机可具有鱼眼镜头，从而导致具有鱼眼畸变(例如，镜头使直线扭曲且其看起来是弯曲的)的输入视频数据1520；畸变校正组件1702应用变换以校正鱼眼畸变。

校正组件1702还可实施其它校正以校正其它类型的畸变，例如由其它类型的广角镜头造成的那些畸变。校正组件1702还可实施对反射镜(曲面镜及平面镜两者)的校正。镜头系统可包含镜头及镜两者，校正组件1702对所述镜头及镜进行校正。镜可为常规镜或单面镜(也称为分束器)。镜头系统可包含可附接镜头系统，例如夹在现有膝上型计算机摄像机上以提供更宽视场的广角镜头。

校正组件1702可实施将输入图像分成两个部分的校正阶段。下部分将包含页面，且上部分将包含用户的面部。两个图像(一个是页面，另一个是面部)接着可在视频会议系统输出中被单独地显示为两个不同馈源(其中两个馈源经校正)。

当纸图像及用户的面部图像出现在同一图像中时，校正组件1702可实施所述纸图像及用户的面部图像的分解。为了实施分解，校正组件1702可使用频率相依的滤色器。例如，所述系统可包含可能频率相依的硬件单面镜。这个单面镜可例如使用夹子从镜头系统可附接地移除。作为这个单面镜的结果，两个单独图像在其到达摄像机镜头之前被合并，且接着校正组件1702对经合并图像进行滤波以将面部及页面恢复为两个单独图像。

调整大小组件1704接收经校正视频数据1710及边角信息1522，使用边角信息1522来对经校正视频数据1710执行调整大小，且生成经变换视频数据1524(也参见图15)。调整大小组件1704可执行分辨率调整大小、放大等。调整大小组件1704可使用定界四边形来执行双线性内插或双三次内插以在生成经变换视频数据1524时保留经校正视频数据1710的宽高比。例如，代替包含经校正视频数据1710的整个帧(例如，包含纸的边角外的面积)的经变换视频数据1524的是，经变换视频数据1524经调整大小使得其帧对应于纸。调整大小组件1704可实施的双线性内插过程的实例是取得一个轴上的两个邻近点之间的平均值且接着取得沿着另一轴的两个内插点的平均值。替代地，调整大小组件1704可实施最近相邻内插。

作为定界四边形(或其它定界框)的替代方案，调整大小组件1704可调整宽高比(代替保留宽高比)。例如，调整大小组件1704可调整宽高比以符合黄金比例，或符合另一期望宽高比。

图18是掩码创建组件1800的框图。掩码创建组件1800可用作掩码创建组件1630(参见图16)。掩码创建组件1800包含阈值化组件1802及滤波组件1804。

阈值化组件1802接收经变换视频数据1524(也参见图16)，对经变换视频数据1524执行阈值化，且生成经阈值化视频数据1810。一般来说，阈值化识别白色背景上的深色书写的掩码，如将在一张纸上书写时出现。阈值化组件1802可实施自适应阈值化，其中每一像素位置处的阈值取决于相邻像素强度。以这种方式，自适应阈值化考虑照射的空间变动。自适应阈值化通常采用灰度或彩色图像作为输入且在最简单实施方案中，输出表示分段的二进制图像。针对图像中的每一像素，计算阈值。如果像素值低于阈值，那么将其设置为背景值，否则其采用前景值。阈值化组件1802可使用平均阈值化的5x5区来执行自适应阈值化；随着图像的分辨率增加，可使用更大区。

滤波组件1804接收经阈值化视频数据1810，对经阈值化视频数据1810执行滤波，且生成掩码1634(也参见图16)。一般来说，阈值化过程可能引入噪声，因此滤波进行操作以从掩码1624移除噪声。滤波组件1804可例如通过平均化经阈值化视频数据1810的连续帧来执行时间滤波。例如，滤波组件1804可实施有限脉冲响应滤波器。滤波组件1804可实施具有图像帧(例如，5个帧)的相等加权平均值的boxcar滤波器。

图19是掩码创建组件1900的框图。掩码创建组件1900可用作掩码创建组件1630(参见图16)。掩码创建组件1900接收经变换视频数据1524(也参见图16)，对经变换视频数据1524执行阈值化，且生成掩码1624。掩码创建组件1900可实施具有经滤波阈值的适应阈值化。可在时间上计算经滤波阈值。例如，用以确定给定块的自适应阈值的均值或加权总和计算可考虑先前给定块。

图20是掩码创建组件2000的框图。掩码创建组件2000可用作掩码创建组件1630(参见图16)。掩码创建组件2000包含阈值化组件2002及滤波组件2004。

阈值化组件2002接收经变换视频数据1524(也参见图16)，对经变换视频数据1524执行阈值化，且生成经阈值化视频数据2010。阈值化组件2002可另外与阈值化组件1802(参见图18)类似。

滤波组件2004接收经阈值化视频数据2010，对经阈值化视频数据2010执行滤波，且生成掩码1624(也参见图16)。滤波组件2004可执行空间滤波，所述空间滤波根据相邻像素的强度调整给定像素的强度。滤波组件2004可例如通过对经阈值化二进制图像执行连续腐蚀及膨胀阶段以便移除噪声来执行数学形态学。

图21A到21D说明由系统1500(参见图15)、系统1600(参见图16)等执行的各种变换的结果。图21A说明输入视频数据1520的帧，其展示桌面上的一页纸；在桌子的左边及远处边缘可看到地板。想象一下图21A中所展示的帧是由桌子上的膝上型计算机捕获，其中膝上型计算机的屏幕及摄像机向下成角度以捕获页面(代替向上以捕获用户进行视频会议)。应注意页面如何看起来经翻转，纸的近处边缘(“顶部”，从经翻转视角来看)如何看起来大于远处边缘(“底部”)，及纸上的“垂直”线如何看起来与纸的边平行(且鉴于近处边缘看起来大于远处边缘，因此实际上看起来并非垂直的)。

图21B说明由根据边角信息1522(参见图15)裁剪输入视频数据1520且进行缩放以填充帧产生的经裁剪帧。图21B中所展示的帧可对应于由输入变换组件1502通过应用放大变换生成的经变换视频数据1524的帧。裁剪保留宽高比，因此帧包含桌子的部分，其中页面在远处边缘(“底部”)处看起来较小。

图21C说明由翻转经变换视频数据1524(参见图15)产生的经翻转帧。图21C中所展示的帧可对应于由几何变换组件1504通过应用垂直翻转变换生成的经变换视频数据1526的帧。

图21D说明由对经变换视频数据1524(参见图15)应用几何变换产生的输出帧。图21D中所展示的帧可对应于由几何变换组件1504通过应用透视变换生成的经变换视频数据1526的帧。应注意页面如何看起来是矩形(代替图21A的不规则四边形)及“垂直”线现在如何实际上看起来是垂直的。

图22是透视变换组件2200的框图。透视变换组件2200可用作几何变换组件1504(参见图15、图16等)。透视变换组件2200接收视频数据2210及边角信息1522(参见图15、图16等)，使用边角信息1522来对视频数据2210执行透视变换，且生成经变换视频数据1526。视频数据2210可对应于经变换视频数据1524(参见图15)、经组合视频数据1636(参见图16)等。透视变换通常将视频数据2210映射到经变换视频数据1526，使得视频数据2210的帧的边角(如由边角信息1522提供)映射到经变换视频数据1526的帧的边角。例如，摄像机可依从页面偏移的视角(例如，更靠近页面的一个边缘而非另一边缘)捕获视频数据2210；在此情况下，页面的近部分在视频数据2210中看起来大于远部分，且透视变换组件2200应用透视变换以校正这一点。

透视变换组件2200可实施单应性矩阵以生成经变换视频数据2210。一般来说，单应性矩阵M是当应用于视频数据2210时将每一像素映射到经变换视频数据2210中的对应像素的3x3矩阵。可通过输入组成原始平面的4个点(被称为X)及期望的4个输出点(被称为Y)且将M计算为X^-1Y来计算单应性矩阵M的9个参数。

图23是仿射变换组件2300的框图。仿射变换组件2300可用作几何变换组件1504(参见图15、图16等)。仿射变换组件2300接收视频数据2310及边角信息1522(参见图15、图16等)，使用边角信息1522来对视频数据2310执行仿射变换，且生成经变换视频数据1526。视频数据2310可对应于经变换视频数据1524(参见图15)、经组合视频数据1636(参见图16)等。仿射变换通常将视频数据2310映射到经变换视频数据1526，使得视频数据2310的帧的边角(如由边角信息1522提供)映射到经变换视频数据1526的帧的边角，且视频数据2310中的平行线在经变换视频数据1526中保持平行。

仿射变换组件2300可实施仿射单应性矩阵以生成经变换视频数据1526。一般来说，仿射单应性矩阵A是具有底行0,0,1的3x3矩阵。当将仿射单应性矩阵A应用于视频数据2310时，其将每一像素映射到经变换视频数据1526中的对应像素。可通过输入组成原始平面的3个点(被称为X)及期望的3个输出点(被称为Y)且将M计算为X^-1Y来计算仿射单应性矩阵A的6个参数。

图24是几何变换组件2400的框图。几何变换组件2400可用作几何变换组件1504(参见图15、图16等)。几何变换组件2400包含定界组件2402、裁剪组件2404及变换组件2406。

定界组件2402接收边角信息1522(参见图15)且计算定界框信息2408。定界框信息2408对应于页面的边角周围的定界框，所述定界框保留宽高比以将视频数据变换至输出帧上。(定界框是定界矩形且因此具有四个直角，而边角信息1522不需要点之间的角度为直角。)

裁剪组件2404接收定界框信息2408及视频数据2410，根据定界框信息2408裁剪视频数据2410，且生成经裁剪视频数据2412。视频数据2410可对应于经变换视频数据1524(参见图15)、经组合视频数据1636(参见图16)等。

变换组件2406接收经裁剪视频数据2412，对视频数据2412执行几何变换，且生成经变换视频数据1526(参见图15、图16等)。使用定界框信息2408及经裁剪视频数据2412(代替使用边角信息1522)来执行几何变换可能导致改进的结果，因为几何变换缩放在使用边角信息时可能导致锯齿状边缘。例如，当由于透视变换而发生的内插在其两个维度上不均匀时，可能产生锯齿状边缘。通过使用定界框信息2408来维持宽高比，这种情况被减少。作为另一替代方案，所述系统可使用非线性内插来减少锯齿状边缘的出现。

图25是加法器组件2500的框图。加法器组件2500可用作加法器1632(参见图16)。加法器组件2500包含增益组件2502、增益组件2504及加法器2506。

增益组件2502接收掩码1634(参见图16)，将增益应用于掩码1634的像素，且生成掩码2512。提供合理结果的合适增益可在0.30与0.40之间(例如，0.35)。

增益组件2504接收经变换视频数据1524(参见图16)，将增益应用于经变换视频数据1524的像素，且生成经变换视频数据2514。提供合理结果的合适增益可在0.70与0.80之间(例如，0.75)。

在组合掩码1634及经变换视频数据1524之前应用增益起作用以依与混合音频类似的方式“混合”图像，其中混合量取决于选定的增益值。针对上文所论述的0.75及0.35的实例增益，这使色彩能够被维持，因为混合平均掩码可能导致色偏或饱和。(由增益组件2502及2504应用的增益也可为负的。)

加法器2506接收掩码2512及经变换视频数据2514，执行与掩码2512及经变换视频数据2514的饱和加法，且生成经组合视频数据1636(参见图16)。饱和加法将经组合视频数据1636的像素强度约束于相关范围(例如，0到255)。例如，饱和加法可能在色彩域中执行，且不仅仅由所述强度(其是灰度的)组成。经变换视频数据2514接着可呈对应于红色、绿色及蓝色值的形式(r,g,b)，且掩码2512可呈对应于强度值的形式(gray_val,gray_val,gray_val)。

图26是边角计算组件2600的框图。边角计算组件2600可用于生成边角信息1522(参见图15、图16等)。边角计算组件2600可由实施视频会议系统的其它组件的装置来实施，例如举例来说如由一或多个计算机程序控制的膝上型计算机或视频会议端点。边角计算组件2600包含预处理组件2602、轮廓识别组件2604、点计算器组件2606及精度检查组件2608。

预处理组件2602接收输入视频数据1520(参见图15、图16等)，对输入视频数据1520执行阈值化，且生成经阈值化视频数据2620。一般来说，阈值化生成双色调(例如，黑色及白色)图像(例如，掩码)，其中高于阈值的像素强度被分配一个值(例如，1)且低于阈值的像素强度被分配另一值(例如，0)。

预处理组件2602可实施用于阈值化的数个过程中的一或多者，其中每一特定过程适用于特定页面识别环境。例如，预处理组件2602可实施一个过程以识别非白色桌子上的白色页面。作为另一实例，预处理组件2602可实施另一过程以识别具有边界的白色页面。针对具有边界的页面，用户可绘制边界，或页面可能已经预先打印有边界。边界可为黑色，或可为被选择为与帧中的其它色彩不同的另一色彩(例如，黄色高亮、绿色高亮、橙色高亮、蓝色高亮等)。

替代地，预处理组件2602可实施n层方法。在n层方法中，预处理组件2602识别输入视频数据1520中的模式，接着组合经识别模式以生成经阈值化视频数据2620。一般来说，n层方法实施可与权重一起用于识别边角的一连串弱启发式度量。

预处理组件2602可对灰度图像数据进行操作。灰度的使用使图像更加独立于所使用的特定摄像机(包含CCD几何结构，因为在一些CCD上绿色像素多于红色及蓝色像素)及照明类型(例如，阳光具有与白炽灯泡不同的光谱)。

轮廓识别组件2604接收经阈值化视频数据2620，对经阈值化视频数据2620执行轮廓识别，且生成一组轮廓2622。一般来说，轮廓对应于经连接的点的集合的界线，且轮廓识别是指检测对象或分段之间的界线。轮廓识别组件2604可实施用于识别轮廓的一或多个过程。一种方法是执行边界跟踪，例如如铃木智等人在《计算机视觉、图形及图像处理》，第30卷，第1期，1985年4月，第32到46页中的“通过边界跟踪对数字化二进制图像进行的拓扑结构分析(Topological Structural Analysis of Digitized Binary Images by BorderFollowing)”中所描述。

任选地，轮廓识别组件2604可识别对应于经阈值化视频数据2620的图像帧中的“页面”的最可能轮廓。在此情况下，轮廓识别组件2604将所述经识别轮廓作为一组轮廓2622提供到点计算器组件2606。一种方法是选择具有最大面积的轮廓，如由包围在轮廓中的像素的数目所确定(例如，如根据用于面积计算的格林定理所确定)。另一方法是选择具有最大定界框的轮廓。

点计算器组件2606接收所述一组轮廓2622，计算最小定界梯形(或不规则四边形)，识别其边角，且生成对应于最小定界梯形的经识别边角的边角信息2624。一般来说，两个维度上的点集(例如，所述一组轮廓2622)的最小定界梯形是具有大多数点位于其内的最小面积的梯形。一种计算最小定界梯形的方法是确定最小定界框。定界框的两个点将在梯形上。为了确定另两个点，所述系统计算不在梯形上的最小定界框的点之间的线方程式，接着找到靠近最小定界框的线的最近点；这两个点将是梯形的另两个点。

精度检查组件2608接收边角信息2624，对边角信息2624执行精度检查，且生成边角信息1522(参见图15、图16等)。精度检查组件2608通常评估边角信息2624是否落入所界定的最大值内或不过度地偏离边角信息的先前结果。例如，精度检查组件2608可检查梯形的面积(例如，其小于视频数据的帧大小)，梯形是否为等腰梯形，梯形的周长(例如，其小于帧大小)，边角信息2624自先前计算的边角信息改变多少，梯形内的像素是否总共有50％以上是白色的等。

如果精度检查组件2608确定边角信息2624未通过精度检查，那么精度检查组件2608可使用边角信息的先前计算值(代替使用未通过所述检查的当前计算的边角信息2624)来生成边角信息1522。

任选地，精度检查组件2608可生成其提供到轮廓识别组件2604及点计算器组件2606的精度结果2626。轮廓识别组件2604及点计算器组件2606接着以降序(基于定界框面积或轮廓面积)遍历所述一组轮廓中的其它轮廓直到精度检查组件2608通过对特定轮廓计算的精度检查；否则精度检查组件2608使用边角信息的先前计算值。

迭代过程的实例如下。第一，精度检查组件2608通过评估轮廓的所有(或大多数)点是否在描述轮廓的四个线方程式上(或附近)来执行精度检查。第二，如果所得精度检查未通过，那么丢弃所述轮廓且选择下一轮廓。接着针对所述下一轮廓(及根据需要针对后续轮廓)重复所述过程直到找到合适轮廓；在其中未找到合适轮廓的情况下，使用边角信息的先前计算值。

精度检查组件2608还可接收轮廓2622且可对轮廓2622执行精度检查。以与上文有关边角信息2624所描述的方式类似的方式，精度检查组件2608可通过评估轮廓2622是否落入所界定的最大值内或不过度地偏离轮廓的先前结果来对轮廓2622执行精度检查。如果轮廓2622通过所有精度检查，那么精度检查组件2608使用边角信息2624作为边角信息1522；如果未通过，那么所述精度检查组件使用边角信息的先前计算值作为边角信息1522。

边角计算组件2600可相对于视频会议系统的其它组件异步地操作。例如，如果用户移动纸且边角计算组件2600在确定经更新边角信息1522的过程中，那么所述系统的其它组件可使用先前计算的边角信息1522。

图27是预处理组件2700的框图。预处理组件2700可用作预处理组件2602(参见图26)。预处理组件2700可用于识别具有例如使用彩笔(黄色、粉红色、蓝色、绿色等)绘制在页面上的彩色边界的页面。预处理组件2700包含转换组件2702、阈值化组件2704及滤波器2706。

转换组件2702接收输入视频数据1520(参见图15、图16等)，将输入视频数据1520转换到色调域，且生成色调数据2720。例如，输入视频1520可为RGB(红、绿、蓝)色彩数据，且转换组件2702可执行转换成HSL(色调、饱和度、亮度)色彩数据或HSV(色调、饱和度、值)色彩数据。转换组件2702可在每帧基础上进行操作，其中输入视频数据1520的每一帧经转换成色调数据2720的对应帧。

阈值化组件2704接收色调数据2720，对色调数据2720执行阈值化及平均化，且生成经阈值化数据2722。一般来说，平均化用于滤除摄像机馈源中的噪声。阈值化组件2704的参数可根据边界上的高亮色彩进行调整。例如，为了识别黄色高亮边界，可使用25与35之间的色调值。经阈值化数据2722接着对应于展示所述高亮边界的图像帧。

滤波器2706接收经阈值化数据2722，对经阈值化数据2722执行滤波，且生成经阈值化视频数据2620(参见图26)。滤波器2706通常进行操作以移除经阈值化数据2722中的噪声(例如，已通过阈值化过程变得更糟的噪声)。滤波器2706可实施空间滤波器。滤波器2706可执行腐蚀及膨胀操作作为滤波过程的部分。

图28是阈值化组件2800的框图。阈值化组件2800可用作阈值化组件2704(参见图27)。阈值化组件2800可在每帧基础上例如对输入视频数据的每一帧进行操作。阈值化组件2800包含阈值化组件2802、平均化组件2804及阈值化组件2806。

阈值化组件2802接收色调数据2720(参见图27)，对色调数据2720执行阈值化，且生成经阈值化数据2820。阈值化组件2802通常使用对应于高亮的指定色彩的范围来执行阈值化(例如，用于黄色高亮等的在25与35之间的色调值)。

平均化组件2804接收经阈值化数据2820，对经阈值化数据2820执行平均化，且生成经平均化数据2822。平均化组件2804通常进行操作以移除经阈值化数据2820中的噪声(例如，其可能已在阈值化过程期间引入)。

阈值化组件2806接收经平均化数据2822，对经平均化数据2822执行阈值化，且生成经阈值化数据2722(参见图27)。一般来说，阈值化组件2806移除经平均化数据2822的仅存在于少数帧(例如，3个帧中的1个)中的部分。阈值化用于在不良照明条件下清除摄像机图像中的噪声。

图29是滤波器2900的框图。滤波器2900可用作滤波器2706(参见图27)。滤波器2900通常操作为空间滤波器以从图像数据的每一帧移除噪声。滤波器2900包含腐蚀组件2902、腐蚀组件2904及膨胀组件2906。

腐蚀组件2902接收经阈值化数据2722，对经阈值化数据2722执行腐蚀操作，且生成经腐蚀数据2920。腐蚀组件2902可对经阈值化数据2722执行3x3腐蚀操作。

腐蚀组件2904接收经腐蚀数据2920，对经腐蚀数据2920执行腐蚀操作，且生成经腐蚀数据2922。腐蚀组件2904可对经腐蚀数据2920执行2x2腐蚀操作。

其它配置可用于腐蚀组件2902及2904。例如，单个腐蚀组件可例如使用5x5腐蚀操作来实施腐蚀。

膨胀组件2906接收经腐蚀数据2922，对经腐蚀数据2922执行膨胀操作，且生成经阈值化视频数据2620(参见图27)。膨胀组件2906可对经腐蚀数据2922执行9x9膨胀操作。

通过执行腐蚀操作接着进行膨胀操作，滤波器2900实施形态学打开函数。一般来说，形态学打开函数导致从图像帧移除小对象(例如，噪声像素)，同时保留图像中的较大对象的形状及大小(例如，边界)。

图30是可由例如如根据一或多个计算机程序控制的轮廓识别组件2604(参见图26)执行的方法3000的流程图。

在3002处，从经阈值化视频数据2620(参见图26)确定一组轮廓3020。可通过使用一或多种方法处理经阈值化视频数据2620来确定所述一组轮廓3020。一种方法是计算经阈值化视频数据2620中的局部亮度的梯度。

在3004处(任选)，从所述一组轮廓3020选择具有最大面积的一组轮廓3022。最大面积可基于每一轮廓内的像素的最大数目来确定。所述一组轮廓3022中的轮廓的数目通常小于所述一组轮廓3020中的轮廓的数目。所述一组轮廓3022中的轮廓的数目例如可为三个最大轮廓；这个数目可根据期望进行调整。这个步骤是任选的且可被包含作为速度增强以减少在后续步骤中处理的轮廓的数目。(这个步骤是启发式的且是用于确定最大定界框的代理，其是计算上更加昂贵的计算。)

在3006处，分析所述一组轮廓3022(或当不执行3004时的所述一组轮廓3020)以确定所述轮廓是呈纵向定向还是横向定向。呈纵向定向的一组轮廓是所述一组轮廓3024，且呈横向定向的一组轮廓是所述一组轮廓3026。所述方法接着继续到3008(针对纵向)或3010(针对横向)。

在3008处，从所述一组轮廓3024确定最高轮廓3028。

在3010处，从所述一组轮廓3026确定最宽轮廓3030。

在3012处(任选)，简化所述一组轮廓3024(在纵向情况下)或所述一组轮廓3026(在横向情况下)以生成所述一组轮廓2622(参见图26)。每一轮廓可通过按距离对所述轮廓内的点的数目进行下采样来简化；如果轮廓内的两个点彼此太靠近，那么丢弃一个点。例如，考虑到轮廓是点的有序列表。计算从一个点到下一点的距离，且如果下一点比最小距离更近，那么丢弃下一点，直到找到比最小距离更远的点。实例下采样距离是15个像素。(替代地，可在计算轮廓之前对整个图像进行下采样，且使用经下采样图像来计算轮廓。)

步骤3012是任选的以便降低方法3000或使用轮廓2622的其它方法的计算复杂度。(当不执行3012时，最高轮廓3028或最宽轮廓3030被提供为所述一组轮廓2622，这取决于来自3006的纵向对比横向确定。)

作为3004、3006、3008及3010的替代方案，可通过找到具有最大面积的定界框而从所述一组轮廓3020确定所述一组轮廓2622。找到的定界框的数目通常小于所述一组轮廓3020的数目，且可根据期望进行调整。找到具有最大面积的定界框的实例过程是由G.T.图森特的Proc.MELECON‘83，Athens(1983)，“使用旋转卡尺解决几何问题(SolvingGeometric Problems with the Rotating Calipers)”所描述的旋转卡尺方法。另一实例过程是如由弗里曼及沙皮拉的ACM通信，第18卷，第7期，1975年7月，第409到413页，“确定任意闭合曲线的最小面积包围矩形(Determining the Minimum-Area Encasing Rectanglefor an Arbitrary Closed Curve)”所描述那样。

图31是点计算器组件3100的框图。点计算器组件3100可用于实施点计算器组件2606(参见图26)。点计算器组件3100包含框计算器组件3102、顶点计算器组件3104及顶点计算器组件3106。

框计算器组件3102接收所述一组轮廓2622(参见图26)，计算所述一组轮廓2622中的每一者的定界框，且生成定界框信息3120。给定轮廓的定界框是含有给定轮廓内的所有点的框。定界框信息3120可对应于界定定界框的一组点。所述一组轮廓2622可为单个轮廓，其最可能是对应于页面的轮廓，在所述情况下，定界框信息3120对应于单个定界框。

顶点计算器组件3104接收所述一组轮廓2622及定界框信息3120，计算给定轮廓上与所述一组轮廓2622中的每一者的对应定界框相交的点，且生成点信息3122。给定轮廓上的与对应定界框相交的点通常将是两个点(例如，邻近边角)，所述两个点对应于最小定界梯形的两个顶点(参照边角信息2624)。点信息3122接着对应于这些点。

顶点计算器组件3106接收所述一组轮廓2622、定界框信息3120及点信息3122；计算梯形的另两个边角；且生成边角信息2624。边角信息2624接着对应于点信息3122及另两个边角。顶点计算器组件3106可通过在其上没有梯形点的定界框的两个边角之间绘制一条直线来计算另两个边角(例如，使用定界框信息3120及点信息3122)，接着识别轮廓上的位于(或最靠近)来自每一点的所述直线上的两个最近点(使用所述一组轮廓2622)。

图32是边角校验器组件3200的框图。边角校验器组件3200可用于实施精度检查组件2608(参见图26)。一般来说，边角校验器组件3200实施点滤波以减少抖动。边角校验器组件3200还可任选地包含执行各种检查以确定所提议的定界梯形(例如，根据边角信息2624)是否有效的精度检查组件。边角校验器组件3200包含面积检查组件3202(任选)、周长检查组件3204(任选)、点重新排序组件3206、采样及保持组件3208与包滤波器组件3210(任选)。

点重新排序组件3206接收边角信息2624(参见图26)，对边角信息2624中的点进行重新排序，使得其按相同顺序出现在帧之间，且生成经重新排序边角信息3226。

面积检查组件3202(任选)接收经重新排序边角信息3226且按照经重新排序边角信息3226检查梯形的面积。(面积检查组件3202还可接收轮廓2622且以与上文有关图26的精度检查组件2608所描述的方式类似的方式检查选定轮廓的面积。)如果所述面积有效(例如，在对应于纸的最小及最大预期面积值的所界定范围内)，那么面积检查组件3202向采样及保持组件3208通知检查有效(通过)。如果所述面积无效(例如，在所界定范围外)，那么面积检查组件3202向采样及保持组件3208通知检查无效(未通过)。

周长检查组件3204(任选)接收经重新排序边角信息3226且按照经重新排序边角信息3226检查梯形的周长。(周长检查组件3204还可接收轮廓2622且以与上文有关图26的精度检查组件2608所描述的方式类似的方式检查选定轮廓的周长。)如果周长有效(例如，在对应于纸的最小及最大预期周长值的所界定范围内)，那么周长检查组件3204向采样及保持组件3208通知检查有效。如果周长无效(例如，在所界定范围外)，那么周长检查组件3204向采样及保持组件3208通知未通过检查。

包滤波器组件3210(任选)接收经重新排序边角信息3226且确定包围由经重新排序边角信息3226界定的点的包的面积与经重新排序边角信息3226的先前值相比是否在所界定范围内。这个包对应于选定轮廓的凸包(与由面积检查组件3202使用的四个点的面积相比)。如果是，那么包滤波器组件3210向采样及保持组件3208通知检查有效。如果否，那么包滤波器组件3210向采样及保持组件3208通知未通过检查。一般来说，包滤波器组件3210确保包的面积在所界定大小内或与先前识别的值类似。包滤波器组件3210在比较中使用的先前识别的值的数目可使用到期时间来定义。到期时间可根据期望进行调整。

采样及保持组件3208接收经重新排序边角信息3226及检查的结果。如果所有检查均有效，那么采样及保持组件3208存储经重新排序边角信息3226的四个值且返回经重新排序边角信息3226的所述四个当前值作为边角信息1522。如果任何检查均未通过，那么采样及保持组件3208返回经重新排序边角信息3226的四个先前存储值作为边角信息1522。

一般来说，采样及保持组件3208减少显示纸时的抖动量。抖动分散观众的注意力，因为几何变换可能略微改变每个帧。边角信息2624的点作为一组无序点从最小化的不规则四边形进入到点重新排序组件3206。采样及保持组件3208通过测量旧点与新点之间的距离来停止坐标的抖动以确保其未不断改变。(如果其按不同顺序处于帧之间，那么采样及保持组件3208将不对点进行“滤波”。)在这个背景下，术语“滤波器”仅是广义描述性的，因为采样及保持组件3208仅仅允许点基于差异阈值而改变。

另外，点的顺序对于几何变换很重要，因为点需要按与帧顺序相同的顺序。排序由帧边角与页面边角之间的最小总距离确定，其中与帧边角及页面边角相交的直线不与不规则四边形交叉。

总之，边角校验器组件3200检查边角信息2624的新点是否有效且如果新点与先前点足够不同，那么返回新点作为边角信息1522。否则，先前点作为边角信息1522返回。新点需要与先前点不同(在阈值内)以抑制帧之间的点的抖动。

如果如此期望，那么边角校验器组件3200可包含执行额外检查的额外组件。这些额外检查可能适合于某些用例。一个额外检查是梯形是否为等腰梯形，其适用于若干张水平纸。另一额外检查是图像的统计是否在定界梯形内主要是白色的(例如，根据平均像素强度)。

作为执行精度检查的结果，边角校验器组件3200实施手掌误触且使所述系统能够记住当视图被遮挡时页面的位置。例如，当用户的手掌遮住页面时，面积可能与先前值(其由面积检查组件3202检测)不同，周长可能与先前值(其由周长检查组件3204检测)不同等。

实施手掌误触的更简单方法是边角校验器组件检查改变的边角的数目。如果仅一个边角改变，那么不更新点。如果多个边角改变，那么更新点。因此，如果用户的手遮住一个边角，那么不更新点。

实施手掌误触的另一替代方式是在其它组件(例如，图26的轮廓识别组件2604)中移除轮廓本身的一侧，因此轮廓有效地一分为二且因此由于面积检查而被忽略。考虑到，代替在页面周围绘制框的是，可取而代之绘制“U”形。这意味着当“U”的底部部分被打断时，轮廓本身被破坏且代替作为一个连续轮廓(其仍将以矩形发生)将分成两个轮廓，因为从摄像机的视角来看“U”的视图将被遮挡。

图33是预处理组件3300的框图。预处理组件3300可用作预处理组件2602(参见图26)。如与预处理组件2700(参见图27)相比，预处理组件3300在灰度域中操作。预处理组件3300包含灰度转换器3302、均衡组件3304及阈值化组件3306。

灰度转换器3302接收输入视频数据1520(参见图15、图16等)，将输入视频数据1520转换为灰度，且生成灰度数据3320。灰度数据3320接着对应于灰度中的输入视频数据。灰度转换器3302可取决于输入视频数据1520的格式而执行一或多个不同转换过程。例如，当输入视频数据1520呈YUV格式(亮度、蓝色色度、红色色度)时，灰度转换器3302直接使用Y分量作为灰度分量。

均衡组件3304接收灰度数据3320，对灰度数据3320执行均衡，且生成经均衡数据3322。经均衡数据3322接着对应于呈灰度且经均衡的输入视频数据。均衡组件3304可执行自适应直方图均衡。一般来说，自适应直方图均衡改进图像数据的对比度，这使所述系统能够更加独立于照明以便使用固定阈值而无需调谐。自适应直方图均衡与普通直方图均衡的不同之处在于自适应方法计算若干直方图，每一直方图对应于图像的不同区段，且使用其来重新分配图像的亮度值。因此，其适合于改进局部对比度及增强图像的每一区中的边缘的清晰度。自适应直方图均衡还与由摄像机实施的白平衡算法一起工作。

均衡组件3304可执行对比度受限的自适应直方图均衡。一般来说，对比度受限的自适应直方图均衡限制图像的接近恒定区中的对比度放大，因为此类区中的直方图高度集中。因此，自适应直方图均衡(没有对比度限制)可能导致图像的相对均匀区中的噪声放大；这通过对比度限制来克服。

用于自适应直方图均衡或对比度受限的自适应直方图均衡的参数可根据分辨率进行调整。5x5网格可用于任一均衡。

阈值化组件3306接收经均衡数据3322，对经均衡数据3322执行阈值化，且生成经阈值化视频数据2620(参见图26)。阈值化组件3306可根据阈值来执行阈值化。例如，针对使用50％阈值的256个强度值(0到255)，阈值是127；强度值127或更小被阈值化为0，且大于127的强度值被阈值化为1。阈值可根据期望进行调整。

图34是可由例如如根据一或多个计算机程序控制的轮廓识别组件2604(参见图26)执行的方法3400的流程图。如与方法3000(参见图30)相比，方法3400考虑桌子的色彩，且确定所述系统是已捕获具有黑色边界的页面还是仅仅捕获没有边界的页面。

在3402处，从经阈值化视频数据2620(参见图26)确定一组轮廓3420。可通过使用一或多种方法处理经阈值化视频数据2620来确定所述一组轮廓3420。一种方法是计算经阈值化视频数据2620中的局部亮度的梯度。(步骤3402可与图30的步骤3002类似。)

在3404处，从所述一组轮廓3420确定一组定界框3422。所述一组定界框3422中的每一定界框与所述一组轮廓3420中的对应一者相关联。所述一组定界框3422可通过使用一或多种方法(例如，如上文有关图13的坐标生成器1306所描述)处理所述一组轮廓3420来确定。

在3406处，从经阈值化视频数据2620识别桌子的色彩，从而产生桌子色彩数据3424。例如，当经阈值化帧的像素的数量高于阈值时，可识别出“白色”桌子，否则桌子被识别为“深色”；阈值可能是65％白色。由于经阈值化视频数据2620是双色调的，因此桌子色彩数据3424指示桌子是浅色的(例如，在色彩上与页面类似)还是深色的(例如，在色彩上与页面显著不同)。

在3408处，使用桌子色彩数据3424来选择所述一组定界框3422的定界框3426。当桌子色彩数据3424指示深色桌子时，选定的定界框3426是所述一组定界框3422的最大定界框(因为白色页面将展示为最大)。当桌子色彩数据3424指示浅色桌子时，选定的定界框3426是所述一组定界框3422的第二大定界框(因为浅色桌子本身将展示为最大)。最大定界框可通过其面积(例如定界框的底乘以高)来识别。

在3410处(任选)，简化定界框3426的轮廓以生成所述一组轮廓2622(参见图26)，在这种情况下是单个轮廓。所述轮廓可通过按距离对所述轮廓内的点的数目进行下采样来简化。例如，如果轮廓内的两个点彼此太靠近，那么丢弃一个点(例如，以与上文有关图30中的3012所描述的方式类似的方式)。步骤3410是任选的以便降低方法3400的计算复杂度。

(当不执行3410时，提供定界框3426作为所述一组轮廓2622。)

图35是边角校验器组件3500的框图。边角校验器组件3500可用于实施精度检查组件2608(参见图26)。如同边角校验器组件3200(参见图32)，边角校验器组件3500可执行各种检查以确定所提议的定界四边形(例如，根据边角信息2624)是否有效。边角校验器组件3500包含边角检查组件3502(任选)、线检查组件3504、点检查组件3506、点重新排序组件3510与采样及保持组件3512。

点重新排序组件3510接收边角信息2624(参见图26)，对边角信息2624中的点进行重新排序，使得其按相同顺序出现在帧之间，且生成经重新排序边角信息3526。点重新排序组件3510可另外与点重新排序组件3206(参见图32)类似。

边角检查组件3502(任选)接收经重新排序边角信息3526且根据固定阈值检查四个角是否相距足够远。所述阈值可根据所述系统的其它组件的配置进行设置，且可根据期望进行调整。如果距离足够远，那么边角检查组件3502向采样及保持组件3512通知检查有效(通过)。如果距离不够远，那么边角检查组件3502向采样及保持组件3512通知检查无效(未通过)。

线检查组件3504接收经重新排序边角信息3526及所述一组轮廓2622(参见图26)，且检查选定轮廓的一组点(例如，按照所述一组轮廓2622)是否位于定界梯形的四条线中的任一者的所界定阈值距离内(例如，根据经重新排序边角信息3526)。例如，线检查组件3504可计算定界梯形的四条线的线方程式，可计算轮廓上的每一点与线方程式之间的距离，且接着可比较经计算距离与阈值距离。阈值距离可根据期望进行调整。如果点在阈值距离内，那么线检查组件3504向采样及保持组件3512通知检查有效(通过)。如果点不在所界定距离内，那么线检查组件3504向采样及保持组件3512通知检查无效(未通过)。以这种方式，线检查组件3504评估轮廓是否并非规则的四边形而是许多边的一些其它非规则形状。

点检查组件3506接收经重新排序边角信息3526且检查经重新排序边角信息3526的所有点是否在先前边角信息的点的所界定距离内。例如，针对1920x1080帧，所界定距离可为40个像素；这可根据期望进行调整，例如针对不同帧大小。如果当前点不在所界定距离内，那么点检查组件3506向采样及保持组件3512通知检查有效(通过)。如果当前点在先前点的所界定距离内，那么点检查组件3506向采样及保持组件3512通知检查无效(未通过)。以这种方式，点检查组件3506确定是否至少两个点已改变。所界定距离用于检测点已改变超过某一量以在页面尚未移动时停止几何变换以免抖动及移动。通过确定是否至少两个点已改变，点检查组件3506忽略其中手已遮挡页面的一个边角的情况。

采样及保持组件3512接收经重新排序边角信息3526及检查的结果。如果所有检查均有效，那么采样及保持组件3512存储经重新排序边角信息3526的四个值且返回经重新排序边角信息3526的所述四个当前值作为边角信息1522。如果任何检查均未通过，那么采样及保持组件3512返回经重新排序边角信息3526的四个先前存储值作为边角信息1522。采样及保持组件3512可另外与采样及保持组件3208(参见图32)类似。

如果如此期望，那么边角校验器组件3500可包含执行额外检查的额外组件。这些额外检查可能适合于某些用例。一个额外检查是梯形是否为等腰梯形，其适用于若干张水平纸。另一额外检查是图像的统计是否在定界梯形内主要是白色的(例如，根据平均像素强度)。

如同边角校验器组件3200(参见图32)，边角校验器组件3500实施手掌误触且使所述系统能够记住当视图被遮挡时页面的位置。

图36是共享在视频上捕获的书写表面的方法3600的流程图。书写表面可为一张纸。方法3600可由例如视频会议系统100(参见图1)、视频会议系统200(参见图2)等的视频会议系统来执行。例如，视频会议端点102(参见图1)或视频会议端点202(参见图2)可实施控制端点以执行方法3600的计算机程序。作为另一实例，视频会议端点102可实施执行方法3600的系统1500(参见图15)

在3602处，接收视频数据。视频数据捕获物理书写表面及物理书写表面外的区。例如，实施视频会议端点的膝上型计算机可包含捕获输入视频数据1520的摄像机230(参见图2)；输入视频数据1520捕获桌面上的一张纸(参见图21A)。

在3604处，在视频数据中识别物理书写表面的多个边角。例如，视频会议端点102(参见图1)可实施通过处理经捕获纸的图像数据来生成边角信息1522(参见图15、图16等)的边角计算组件2600(参见图26)。

在3606处，使用多个边角来对视频数据执行几何变换以生成对应于物理书写表面(不含物理书写表面外的区)的第二视频数据。例如，视频会议端点102(参见图1)可实施使用边角信息1522来对经变换视频数据1524执行几何变换以生成经变换视频数据1526的几何变换组件1504(参见图15、图16等)。经变换视频数据1526接着对应于页面(经翻转、经去偏斜及经缩放，如图21D中所展示)。作为选项，可在几何变换之前执行增强过程(例如，使用图16的掩码创建组件1630)，例如以改进页面上的经捕获书写的对比度。

在3608处，传输经变换视频数据。例如，视频会议系统100(参见图1)或视频会议系统200(参见图2)可传输经变换视频数据1526(参见图15、图16等)作为视频会议的部分。接着可由参与视频会议的其它装置接收及显示经变换视频数据。因此，如与显示其它视频会议用户的头部特写相比，其它装置可显示对应于页面(经翻转、经去偏斜及经缩放)的视频数据。

白板快照、手势加入与共享书写表面之间的交互

本文中所描述的所有三个特征通常可被归类为加入特征。手势加入提供与起始加入过程相关的改进。例如，如与其它现有加入方法相比，使用手势加入来加入白板的特定面积可改进用户体验。

共享书写表面提供与扩展可加入的对象相关的改进。例如，与共享书写表面相关的特征使用户能够加入一张普通纸以在视频会议期间使用，而非限于使用白板。作为另一实例，手势加入可与共享书写表面组合以便加入(使用手势)所述经识别的一张纸的特定面积。

白板快照提供与加入之后执行的动作相关的改进。例如，一旦已使用手势加入来加入白板的特定面积，或一旦已加入一张纸，就可对所述特定面积或对所述经加入的一张纸执行快照。特定来说，所述系统在加入过程结束时拍摄快照(例如，以记录新加入面积中的书写)通常是有用的。

实施方案细节

实施例可在硬件、存储在计算机可读媒体上的可执行模块或两者的组合(例如，可编程逻辑阵列)中实施。除非另有指明，否则由实施例执行的步骤不需要固有地与任何特定计算机或其它设备相关，尽管其可能在某些实施例中。特定来说，各种通用机器可与根据本文中的教示编写的程序一起使用，或构造更专门设备(例如，集成电路)来执行所需方法步骤可能更方便。因此，实施例可在一或多个可编程计算机系统上执行的一或多个计算机程序中实施，每一可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包含易失性及非易失性存储器及/或存储元件)、至少一个输入装置或端口及至少一个输出装置或端口。将程序代码应用于输入数据以执行本文中所描述的功能且生成输出信息。以已知方式将输出信息应用于一或多个输出装置。

每一此计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储媒体或装置(例如，固态存储器或媒体，或磁性或光学媒体)，以在由计算机系统读取存储媒体或装置以执行本文中所描述的程序时配置及操作计算机。本发明系统也可被认为是被实施为配置有计算机程序的计算机可读存储媒体，其中如此配置的存储媒体引起计算机系统以特定及预定义的方式操作以执行本文中所描述的功能。(软件本身及无形或暂时性信号在其非专利标的物的程度上被排除。)

在实例中，配备有网络摄像头的计算机(例如膝上型计算机)经配置为视频会议端点，例如所述计算机经配置以运行视频会议软件以与远程视频会议客户端及远程视频会议服务器中的至少一者进行通信。所述计算机进一步经配置以执行用于生成快照的本公开的任何方法，且将所得快照传达到其它装置。

将从以下列举的实例实施例(“EEE”)明白各种特征及方面：

EEE 21.一种加入在视频上捕获的书写表面的方法，所述方法包括：

接收视频数据，其中所述视频数据捕获物理书写表面；

在所述视频数据中识别用户的加入手势，其中所述加入手势与所述物理书写表面的面积相关联；

在所述视频数据中确定对应于所述加入手势的一组坐标，其中所述一组坐标与由所述加入手势识别的所述物理书写表面的所述面积相关联；及

使用所述一组坐标来对所述视频数据执行几何变换以生成对应于由所述加入手势识别的所述面积的经变换视频数据。

EEE 22.根据EEE 21所述的方法，其中识别所述加入手势包括：

使用使用多个手势训练的机器学习模型来处理所述视频数据。

EEE 23.根据EEE 22所述的方法，其中所述机器学习模型包含适应自举机器学习模型、类哈尔特征分类器、卷积神经网络、深度学习网络及循环神经网络中的至少一者。

EEE 24.根据EEE 21到23中任一EEE所述的方法，其中确定所述一组坐标包括：

确定对应于所述加入手势的第一位置的第一坐标及对应于所述加入手势的第二位置的第二坐标；

在所述视频数据中确定至少一条线，其中所述至少一条线包含水平线及垂直线中的一或多者；

根据所述第一坐标、所述第二坐标及所述至少一条直线确定对应于第三位置的第三坐标；及

根据所述第一坐标、所述第二坐标及所述至少一条直线确定对应于第四位置的第四坐标。

EEE 25.根据EEE 21到24中任一EEE所述的方法，其中执行所述几何变换以生成所述经变换视频数据包括：

使用所述一组坐标来对所述视频数据执行仿射变换以生成所述经变换视频数据。

EEE 26.根据EEE 21到25中任一EEE所述的方法，其进一步包括：

传输所述经变换视频数据。

EEE 27.根据EEE 21到26中任一EEE所述的方法，其进一步包括：

识别第二加入手势，其中所述第二加入手势与所述物理书写表面的第二面积相关联；

确定对应于所述第二加入手势的第二组坐标，其中所述第二组坐标与所述一组坐标不同；及

使用所述第二组坐标代替所述第一组坐标来对所述视频数据执行所述几何变换，以生成对应于由所述第二加入手势识别的所述第二面积的第二经变换视频数据。

EEE 28.一种存储计算机程序的非暂时性计算机可读媒体，所述计算机程序在由处理器执行时控制设备以执行包含根据EEE 21到27中任一EEE所述的方法的处理。

EEE 29.一种用于加入在视频上捕获的书写表面的设备，所述设备包括：

处理器；及

存储器，

其中所述处理器经配置以控制所述设备以接收视频数据，其中所述视频数据捕获物理书写表面；

其中所述处理器经配置以控制所述设备以在所述视频数据中识别用户的加入手势，其中所述加入手势与所述物理书写表面的面积相关联；

其中所述处理器经配置以控制所述设备以在所述视频数据中确定对应于所述加入手势的一组坐标，其中所述一组坐标与由所述加入手势识别的所述物理书写表面的所述面积相关联；且

其中所述处理器经配置以控制所述设备以使用所述一组坐标来对所述视频数据执行几何变换以生成对应于由所述加入手势识别的所述面积的经变换视频数据。

EEE 30.根据EEE 29所述的设备，其中识别所述加入手势包括：

EEE 31.根据EEE 30所述的设备，其中所述机器学习模型包含适应自举机器学习模型、类哈尔特征分类器、卷积神经网络、深度学习网络及循环神经网络中的至少一者。

EEE 32.根据EEE 29到31中任一EEE所述的设备，其中确定所述一组坐标包括：

EEE 33.根据EEE 29到32中任一EEE所述的设备，其中执行所述几何变换以生成所述经变换视频数据包括：

EEE 34.根据EEE 29到33中任一EEE所述的设备，其中所述处理器经配置以控制所述设备以传输所述经变换视频数据。

EEE 35.根据EEE 29到34中任一EEE所述的设备，其中所述处理器经配置以控制所述设备以识别第二加入手势，其中所述第二加入手势与所述物理书写表面的第二面积相关联；

其中所述处理器经配置以控制所述设备以确定对应于所述第二加入手势的第二组坐标，其中所述第二组坐标与所述一组坐标不同；且

其中所述处理器经配置以控制所述设备以使用所述第二组坐标代替所述第一组坐标来对所述视频数据执行所述几何变换，以生成对应于由所述第二加入手势识别的所述第二面积的第二经变换视频数据。

EEE 36.一种共享在视频上捕获的书写表面的方法，所述方法包括：

接收视频数据，其中所述视频数据捕获物理书写表面及所述物理书写表面外的区；在所述视频数据中识别所述物理书写表面的多个边角；及

使用所述多个边角来对所述视频数据执行几何变换以生成对应于所述物理书写表面(不含所述物理书写表面外的所述区)的第二视频数据。

EEE 37.根据EEE 36所述的方法，其进一步包括：

通过将自适应阈值应用于所述视频数据来生成掩码；及

组合所述视频数据及所述掩码以生成经组合视频数据，

其中执行所述几何变换包括使用所述多个边角来对所述经组合视频数据执行所述几何变换以生成对应于所述物理书写表面(不含所述物理书写表面外的所述区)的所述第二视频数据。

EEE 38.根据EEE 36到37中任一EEE所述的方法，其进一步包括：

接收第一视频数据，其中所述第一视频数据使用广角镜头来捕获所述物理书写表面及所述物理书写表面外的所述区；

对所述第一视频数据执行第一变换以生成第一经变换视频数据，其中所述第一变换校正所述广角镜头的畸变；及

使用所述多个边角来放大所述第一经变换视频数据以生成所述视频数据。

EEE 39.根据EEE 36到38中任一EEE所述的方法，其中执行所述几何变换包括：

使用所述多个边角来对所述经组合视频数据执行透视变换以生成第二视频数据。

EEE 40.根据EEE 36到38中任一EEE所述的方法，其中执行所述几何变换包括：

使用所述多个边角来对所述经组合视频数据执行仿射变换以生成第二视频数据。

EEE 41.根据EEE 36到40中任一EEE的方法，其进一步包括：

使用所述多个边角来在所述经组合视频数据中生成定界框。

EEE 42.根据EEE 36到41中任一EEE所述的方法，其中识别所述多个边角包含：

在所述经组合视频数据中识别多个轮廓；

使用所述多个轮廓来确定定界四边形，其中所述定界四边形对应于所述物理书写表面；及

识别所述定界四边形的所述多个边角。

EEE 43.一种存储计算机程序的非暂时性计算机可读媒体，所述计算机程序在由处理器执行时控制设备以执行包含根据EEE 36到42中任一EEE所述的方法的处理。

EEE 44.一种用于共享在视频上捕获的书写表面的设备，所述设备包括：

处理器；及

存储器，

其中所述处理器经配置以控制所述设备以接收视频数据，其中所述视频数据捕获物理书写表面及所述物理书写表面外的区；

其中所述处理器经配置以控制所述设备以在所述视频数据中识别所述物理书写表面的多个边角；且

其中所述处理器经配置以控制所述设备以使用所述多个边角来对所述视频数据执行几何变换以生成对应于所述物理书写表面(不含所述物理书写表面外的所述区)的第二视频数据。

EEE 45.根据EEE 44所述的设备，其中所述处理器经配置以通过将自适应阈值应用于所述视频数据来控制所述设备以生成掩码；

其中所述处理器经配置以控制所述设备以组合所述视频数据及所述掩码以生成经组合视频数据；且

EEE 46.根据EEE 44到45中任一EEE所述的设备，其中所述处理器经配置以控制所述设备以接收第一视频数据，其中所述第一视频数据使用广角镜头来捕获所述物理书写表面及所述物理书写表面外的所述区；

其中所述处理器经配置以控制所述设备以对所述第一视频数据执行第一变换以生成第一经变换视频数据，其中所述第一变换校正所述广角镜头的畸变；且

其中所述处理器经配置以控制所述设备以使用所述多个边角来放大所述第一经变换视频数据以生成所述视频数据。

EEE 47.根据EEE 44到46中任一EEE所述的设备，其中执行所述几何变换包括：

EEE 48.根据EEE 44到46中任一EEE所述的设备，其中执行所述几何变换包括：

EEE 49.根据EEE 44到48中任一EEE所述的设备，其中所述处理器经配置以控制所述设备以使用所述多个边角来在所述经组合视频数据中生成定界框。

EEE 50.根据EEE 44到49中任一EEE所述的设备，其中识别所述多个边角包含：

在所述经组合视频数据中识别多个轮廓；

识别所述定界四边形的所述多个边角。

以上描述说明本公开的各种实施例连同可如何实施本公开的方面的实例。以上实例及实施例不应被认为是唯一实施例，且经呈现以说明如由所附权利要求书界定的本公开的灵活性及优点。基于以上公开及所附权利要求书，在不脱离如由权利要求书界定的本公开的精神及范围的情况下，其它布置、实施例、实施方案及等效物对于所属领域的技术人员将是显而易见的且可被采用。

参考

第WO2019067704A1号国际申请公开案。

第2015/0127340号美国申请公开案。

第2018/0279063号美国申请公开案。

第8,914,452号美国专利。

第9,300,912号美国专利。

第9,762,855号美国专利。

第2012/0016960号美国申请公开案。

第2015/0169069号美国申请公开案。

第2017/0115855号美国申请公开案。

第2015/0009278号美国申请公开案。

第2015/0067536号美国申请公开案。

第2011/0197147号美国申请公开案。

第2005/0104901号美国申请公开案。

第2002/0180726号美国申请公开案。

第2004/0165786号美国申请公开案。

第2007/0156816号美国申请公开案。

第2012/0001999号美国申请公开案。

第2018/0232192号美国申请公开案。

铃木智等人在《计算机视觉、图形及图像处理》，第30卷，第1期，1985年4月，第32到46页中的“通过边界跟踪对数字化二进制图像进行的拓扑结构分析(TopologicalStructural Analysis of Digitized Binary Images by Border Following)”。

G.T.图森特的Proc.MELECON’83，Athens(1983)，“使用旋转卡尺解决几何问题(Solving Geometric Problems with the Rotating Calipers)”。

弗里曼及沙皮拉的ACM通信，第18卷，第7期，1975年7月，第409到413页，“确定任意闭合曲线的最小面积包围矩形(Determining the Minimum-Area Encasing Rectanglefor an Arbitrary Closed Curve)”。

Claims

1.一种生成出现在物理表面上且在视频上捕获的内容的记录的方法，所述方法包括：

通过摄像机，生成包含所述物理表面的图像数据的视频数据；

通过将差异量度应用于所述视频数据，在所述视频数据中识别至少一个受关注时段；

针对所述至少一个受关注时段中的每一受关注时段，选择所述物理表面的所述图像数据的静态图像；及

生成一组图像，所述一组图像包含所述视频数据中的所述至少一个受关注时段的每一静态图像，其中所述一组图像提供出现在所述物理表面上的所述内容的快照。

2.根据权利要求1所述的方法，其进一步包括：

将所述视频数据从第一位置传输到至少一个第二位置。

3.根据权利要求2所述的方法，其中在传输所述视频数据的同时在所述视频数据中识别所述至少一个受关注时段。

4.根据权利要求2所述的方法，其中在传输所述视频数据结束之后在所述视频数据中识别所述至少一个受关注时段。

5.根据权利要求2到4中任一权利要求所述的方法，其中所述第一位置处的传输端点识别所述至少一个受关注时段且选择所述静态图像。

6.根据权利要求2到4中任一权利要求所述的方法，其中所述至少一个第二位置处的接收端点识别所述至少一个受关注时段且选择所述静态图像。

7.根据权利要求2到4中任一权利要求所述的方法，其中端点生成所述视频数据，且其中服务器识别所述至少一个受关注时段且选择所述静态图像。

8.根据权利要求1到7中任一权利要求所述的方法，其进一步包括：

传输包含所述静态图像的电子消息。

9.根据权利要求1到8中任一权利要求所述的方法，其中所述差异量度对应于应用于所述视频数据的第一滤波操作与第二滤波操作之间的差异。

10.根据权利要求1到8中任一权利要求所述的方法，其中所述差异量度对应于超过阈值的所述视频数据的速率。

11.根据权利要求1到10中任一权利要求所述的方法，其中所述视频数据包含多个内帧，其进一步包括：

调整生成所述多个内帧的速率，其中将所述速率从第一速率调整为第二速率，其中所述第一速率对应于满足用于使用第一数目个所述多个内帧来传输所述视频数据的带宽约束，且其中所述第二速率对应于使用第二数目个所述多个内帧来传输所述视频数据，其中所述第二数目大于所述第一数目。

12.根据权利要求1到11中任一权利要求所述的方法，其进一步包括：

接收有关所述一组图像的反馈；及

响应于所述反馈而调整所述差异量度。

13.根据权利要求1到12中任一权利要求所述的方法，其进一步包括：

通过麦克风，生成与所述视频数据相关的音频数据；

对所述音频数据执行音频转文本处理以生成文本数据；及

将所述文本数据的一部分与每一静态图像相关联，

其中所述一组图像包含与每一静态图像相关联的所述文本数据。

14.根据权利要求1到12中任一权利要求所述的方法，其进一步包括：

通过麦克风，生成与所述视频数据相关的音频数据；

通过执行所述音频数据的语音处理及所述视频数据的字符辨识处理的概率组合来生成文本数据；及

将所述文本数据的一部分与每一静态图像相关联，

15.根据权利要求1到13中任一权利要求所述的方法，其中选择所述静态图像是根据应用于所述视频数据的双态隐马尔可夫模型来执行。

16.一种存储计算机程序的非暂时性计算机可读媒体，所述计算机程序在由处理器执行时控制设备以执行包含权利要求1到15中任一权利要求所述的方法的处理。

17.一种用于生成出现在物理表面上且在视频上捕获的内容的记录的设备，所述设备包括：

处理器；及

存储器，

其中所述处理器经配置以控制所述设备以处理视频数据，其中所述视频数据包含所述物理表面的图像数据；

其中所述处理器经配置以控制所述设备以通过将差异量度应用于所述视频数据来在所述视频数据中识别至少一个受关注时段；

其中所述处理器经配置以控制所述设备以针对所述至少一个受关注时段中的每一受关注时段选择所述物理表面的所述图像数据的静态图像；且

其中所述处理器经配置以控制所述设备以生成一组图像，所述一组图像包含所述视频数据中的所述至少一个受关注时段的每一静态图像，其中所述一组图像提供出现在所述物理表面上的所述内容的快照。

18.根据权利要求17所述的设备，其进一步包括：

摄像机，其经配置以生成所述视频数据。

19.根据权利要求17到18中任一权利要求所述的设备，其进一步包括：

端点，其经配置以将所述视频数据从第一位置传输到至少一个第二位置。

20.根据权利要求17到19中任一权利要求所述的设备，其进一步包括：

端点，其经配置以传输包含所述静态图像的电子消息。