CN116524554A

CN116524554A - 视频画面构成方法以及电子装置

Info

Publication number: CN116524554A
Application number: CN202210660465.4A
Authority: CN
Inventors: 陈彦州; 邱垂邦; 何哲嘉
Original assignee: Amtran Technology Co Ltd
Current assignee: Amtran Technology Co Ltd
Priority date: 2022-01-24
Filing date: 2022-06-13
Publication date: 2023-08-01
Also published as: TWI810798B; TW202332248A; US20230237838A1

Abstract

由于在多人视频会议中众多交谈声音容易导致会议中断。因此，本揭示文件提供一种视频画面构成方法以及电子装置，视频画面构成方法包含下列步骤。取得优先级列表，优先级列表包含多个人员身份的多个优先级。接收多个视频串流。辨识所述多个视频串流中多个脸部图框所对应的多个身份标记。依据所述多个身份标记以及优先级列表取得对应于所述多个脸部图框的多个显示优先级。根据所述多个脸部图框是否发言以及所述多个显示优先级，产生由所述多个脸部图框中至少一者构成视频画面的主要显示区域，借此同时显示主讲者以及被指定人的脸部讯框，使视频会议流程更顺畅。

Description

视频画面构成方法以及电子装置

技术领域

本案是关于一种视频画面构成方法，特别是关于一种视频画面构成方法以及电子装置。

背景技术

在目前视频会议的技术中，若要请与会人员发言，通常直接透过声音说出名字，但在多人会议中，因众多交谈声音，与会人员容易因为会议上的各种状况而忽略，进而导致会议中断。进一步而言，在多人会议中主讲者在发言时也可能被忽略。另外视频会议的影像，通常无法在人员被点名发言的第一时间，将镜头对准被提问者，必须等待被提问者开始发言之后，才能视角调整至被提问者。

因此，如何改善主讲者在发言或指定与会人员发言时被忽略是本领域的重要议题。

发明内容

本揭示文件提供一种视频画面构成方法，包含下列步骤。取得优先级列表，其中优先级列表包含多个人员身份的多个优先级。接收多个视频串流。辨识所述多个视频串流中多个脸部图框所对应的多个身份标记。依据所述多个身份标记以及优先级列表以取得对应于所述多个脸部图框的多个显示优先级。侦测所述多个脸部图框是否发言。根据所述多个脸部图框是否发言以及所述多个显示优先级，产生由所述多个脸部图框中至少一者构成视频画面的主要显示区域。

在一些实施例中，视频画面构成方法包含下列步骤。在单人模式下，在正在发言的所述多个脸部图框中，判断具有所述多个显示优先级中的最高者的第一身份标记的第一脸部图框。在该单人模式下，将第一脸部图框配置于视频画面时的主要显示区域。

在一些实施例中，视频画面构成方法包含下列步骤。对应于第一身份标记的人员指定第二身份标记的人员响应于来自第一身份标记的人员的指定，将主要显示区域拆解为第一分割画面以及第二分割画面并开始问答模式。在该问答模式下，将第一脸部图框配置于第一分割画面，并且将第二身份标记对应的所述多个脸部图框中的第二脸部图框配置于第二分割画面。

在一些实施例中，视频画面构成方法包含下列步骤。响应于问答模式结束，将问答模式切换回单人模式以合并第一分割画面以及第二分割画面为主要显示区域，并且将第一脸部图框配置于主要显示区域。

在一些实施例中，其中对应于第一身份标记的人员的指定是由收音装置接收对应于第一身份标记的人员的声源信号，其中声源信号包含第二身份标记以及问答模式的关键字。

本揭示文件提供一种电子装置。电子装置包含储存装置以及处理电路。处理电路用以执行下列步骤。取得优先级列表，其中优先级列表包含多个人员身份的多个优先级。接收多个视频串流。辨识所述多个视频串流中多个脸部图框所对应的多个身份标记。依据所述多个身份标记以及该优先级列表以举得对应于所述多个脸部图框的多个显示优先级。侦测所述多个脸部图框是否发言。根据所述多个脸部图框是否发言以及所述多个显示优先级，产生由所述多个脸部图框中至少一者构成视频画面的主要显示区域。

在一些实施例中，处理电路更用以进行下列步骤。在单人模式下，在正在发言的所述多个脸部图框中，判断具有所述多个显示优先级中的最高者的第一身份标记的第一脸部图框。在单人模式下，将第一脸部图框配置于视频画面时的主要显示区域。

在一些实施例中，处理电路更用以进行下列步骤。对应于第一身份标记的人员指定第二身份标记的人员。响应于来自第一身份标记的人员的指定，将主要显示区域拆解为第一分割画面以及第二分割画面并开始问答模式。在问答模式下，将第一脸部图框配置于第一分割画面，并且将第二身份标记对应的所述多个脸部图框中的第二脸部图框配置于第二分割画面。

在一些实施例中，处理电路更用以进行下列步骤。响应于该问答模式结束，将问答模式切换回单人模式以合并第一分割画面以及一第二分割画面为主要显示区域，并且将第一脸部图框配置于主要显示区域。

综上所述，本揭示文件在视频会议中透过脸部辨识判断具有高显示优先级的主讲者，并根据所述多个脸部图框是否发言以及所述多个显示优先级，决定由所述多个脸部图框中至少一者构成视频画面的主要显示区域，从而使与会人员更清楚并能注意到主讲者的讯息。

附图说明

为使本揭露的上述和其他目的、特征、优点与实施例能更明显易懂，所附附图的说明如下：

图1为本揭露一实施例的电子装置的示意图；

图2A为本揭露一实施例的视频画面构成方法的流程图；

图2B为本揭露一实施例的图2A中的步骤S170的流程图；

图2C为本揭露一实施例的图2A中的步骤S140的流程图；

图3为本揭露一实施例的电子装置以及视频串流的示意图；

图4为本揭露一实施例的在一时间点的视频串流的示意图；

图5为本揭露一实施例的在与图4相同的时间点下电子装置的显示屏幕的示意图；

图6为本揭露一实施例的在另一时间点的视频串流的示意图；

图7为本揭露一实施例的在与图6相同的时间点下电子装置的显示屏幕的示意图；

图8为本揭露一实施例的电子装置的显示屏幕的示意图；

图9为本揭露一实施例的电子装置的显示屏幕的示意图。

【符号说明】

为使本揭露的上述和其他目的、特征、优点与实施例能更明显易懂，所附符号的说明如下：

100,100a,100b,100c,100d:电子装置

102:处理电路

104:储存装置

106:收音装置

108:摄影装置

110:显示屏幕

200:网络

210,220,230,240:视频串流

212:第一脸部图框

232:第二脸部图框

302:与会头像列表

MA:主要显示区域

SC1:第一分割画面

SC2:第二分割画面

SA1,SA2,SA3:子显示区域

S100:视频画面构成方法

S110,S120,S130,S140,S142,S144,S146,S150,S160,S170,S172,S174,S176,S178,S179,S180步骤

具体实施方式

下列是举实施例配合所附图示做详细说明，但所提供的实施例并非用以限制本揭露所涵盖的范围，而结构运作的描述非用以限制其执行顺序，任何由元件重新组合的结构，所产生具有均等功效的装置，皆为本揭露所涵盖的范围。另外，图示仅以说明为目的，并未依照原尺寸作图。为使便于理解，下述说明中相同元件或相似元件将以相同的符号标示来说明。

在全篇说明书与权利要求书所使用的用词(terms)，除有特别注明除外，通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。

此外，在本文中所使用的用词“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指“包含但不限于”。此外，本文中所使用的“及/或”，包含相关列举项目中一或多个项目的任意一个以及其所有组合。

于本文中，当一元件被称为“耦接”时，可指“电性耦接”。“耦接”亦可用以表示二或多个元件间相互搭配操作或互动。此外，虽然本文中使用“第一”、“第二”、…等用语描述不同元件，该用语仅是用以区别以相同技术用语描述的元件或操作。

请参阅图1，图1为本揭露一实施例的电子装置100的示意图。如图1所示，电子装置100包含显示屏幕110、处理电路102以及储存装置104。在一些实施例中，电子装置100可以由计算机、笔电、平板或其他可接收或传输视频串流的装置实施。处理电路102可以由处理器、微控制器等具有类似功能的元件/组件实施。储存装置104可以由记忆体、快取、硬盘或具有类似功能的元件/组件实施。

电子装置100利用收音装置106进行录音或判断音源方向。电子装置100利用摄影装置108进行摄影以产生视频串流。电子装置100透过显示屏幕110显示视频画面。在其他实施例中，电子装置100亦可利用外部的投影装置进行影像/画面显示。在一些实施例中，电子装置100包含收音装置以及摄影装置。因此，收音装置106以及摄影装置108与电子装置100之间相对的配置方式，不以此为限。

为了更加理解本揭示实施例，请参阅图1、2A～2C以及3～7。图2A为本揭露一实施例的视频画面构成方法S100的流程图。图2B为本揭露一实施例的图2A中的步骤S170的流程图。图2C为本揭露一实施例的图2A中的步骤S140的流程图。视频画面构成方法S100包含步骤S110～S180。步骤S170包含步骤S172～S179。步骤S140包含步骤S142～146。步骤S110～S180、S142～S149以及步骤S172～S179皆可由电子装置100中的处理电路102执行。

图3为本揭露一实施例的电子装置100a～100d以及视频串流210、220、230以及240的示意图。图4为本揭露一实施例的在一时间点的视频串流210、220、230以及240的示意图。图5为本揭露一实施例的在与图4相同的时间点下电子装置100的显示屏幕110的示意图。图6为本揭露一实施例的在另一时间点的视频串流210、220、230以及240的示意图。图7为本揭露一实施例的在与图6相同的时间点下电子装置100的显示屏幕110的示意图。

在步骤S110中，开始会议。此时，来自不同地区/空间欲参加会议的与会人员分别开启电子装置100a～100d中的视频会议软件。图3中的电子装置100a～100d可以由图1中的电子装置100实施，故在此不再赘述。电子装置100a～100d分别利用收音装置及摄影装置拍摄及录制各个会场的画面及音频，从而产生视频串流210、220、230以及240。在另一实施例中，开始时。参加会议的所有与会人员可在同一会议室/空间中，且电子装置100包含多个摄影装置108与收音装置106，以拍摄及录制该会议视/空间，从而产生多个视频串流210、220、230以及240。

在步骤S120中，取得优先顺序列表。优先级列表包含多个人员身份的多个优先级。举例而言，电子装置100a～100d可由数据库/储存装置104读取/提取公司/学校的人员列表。在公司内部的会议可依据职位设定人员身份的优先级，例如，新进员工、资深员工、部门主管、经理、总经理以及董事长会可以具有不同优先级。在校园的远距教学中，可将老师设为较高优先级，将学生设定为较低优先级。

值得注意的是，前述人员身份的优先级可在注册时进行脸部辨识，将脸部特征与人员的职位/身份以及称谓(名字)一并记录在数据库中，在会议开始以后不需依赖会议帐号即可透过脸部辨识得知与会人员的身份。在一些实施例中，与会人员的身份的优先级可依据职位设定。在另一些实施例中，与会人员的身份的优先级可依本场会议内容调整。

在步骤S130中，接收多个视频串流。电子装置100a～100d各自产生的视频串流210、220、230以及240透过网络200进行传输，使每一个电子装置100a～100d都能接收到视频串流210、220、230以及240，从而产生视频画面，借此开始进行视频会议的一般模式。

在步骤S140中，辨识所述多个视频串流中多个脸部图框所对应的多个身份标记。请参阅图2C，步骤S140包含步骤S142～S146。

在步骤S142中，分析本地影像。并且，在步骤S144中，人脸辨识建立与会名单。电子装置100a～100d可以对在一般模式下视频串流210、220、230以及240所产生的画面分别进行脸部辨识的运算。换言之，电子装置100a～100d可以分别将自视频串流210、220、230以及240中撷取的各个脸部图框与前述数据库中人员的脸部特征进行比对，从而得到多个本地与会名单。本地与会名单包含与会人员的身份(例如，名字与职位)以及依据与会人员的身份所设定的优先级。

在步骤S146中，取得会议各方人员名单。在一些实施例中，电子装置100a～100d可将在步骤S142中各自运算的本地与会名单相互传送，进而得到本视频会议中各地(亦即，不同的视频空间)与会人员的身份，并且透过各地的电子装置100a～100d对当地的视频画面进行运算可以节省运算成本。在另一些实例中，电子装置100a～100d每一者亦可先接收全部的视频串流210、220、230以及240，并对全部的视频串流210、220、230以及240的画面进行脸部辨识以取得与会名单。因此，本案不以此为限。

在步骤S150中，依据所述多个身份标记以及优先列表取得对应于所述多个脸部图框的多个显示优先级。在一些实施例中，可依据所述多个身份标记查找于步骤S120中取得的优先级列表以决定所述多个脸部图框的多个显示优先级。在另一些实施例中，亦可在会议开始前直接设定与会成员的优先级。因此，本案不以此为限。

在步骤S160中，侦测所述多个脸部图框是否发言。在多人会议中，当与会人员都热烈在相同时间讨论议题时，可能会造成视频会议的音频混杂无法听清。因此，接续步骤S170，根据所述多个脸部图框是否正在发言以及所述多个显示优先级，产生由所述多个脸部图框中至少一者构成视频画面的主要显示区域。如此，可以将显示视频画面的主要显示区域MA切换为正在发言且为与会成员中具有最高优先级者，借此提醒与会众人，视频会议中的主管、老师或主讲者正在进行发言。

步骤S170包含步骤S172～S179。请参阅图2B。在步骤S172中，在单人模式下，在正在发言的所述多个脸部图框中，判断具有所述多个显示优先级中的最高者的第一身份标记的第一脸部图框。具体而言，电子装置100可利用二维阵列式的收音装置106接收会场中的从不同位置所产生的声音并判断这些声源的方向，再将声源方向与视频画面比对，从而判断是哪些脸部图框在进行发言。接着，在单人模式下，电子装置100在正在发言的脸部图框中，选择具有最高显示优先级者。

举例而言，在图4所示视频串流210、220、230以及240中，电子装置100侦测到第一脸部图框212正在发言，且在发言的脸部图框中，第一脸部图框212所对应的第一身份标记具有显示优先级中的最高者，并将第一脸部图框212配置于视频画面的主要显示区域MA，如图5所示。

在一些实施例中，摄影装置108可调变焦距，电子装置100可控制摄影装置108的焦距以产生解析度更高的第一脸部图框212，并以此作为输出的视频串流210。在另一些实施例中，若摄影装置108不具备可调变焦距，电子装置100可自视频串流210中撷取第一脸部图框212，并将第一脸部图框212放大作为输出的视频串流210。

在图5所示的实施例中，在单人模式下，视频画面包含主要显示区域MA以及子显示区域SA1～SA3。子显示区域SA1～SA3分别用以配置视频串流220、230以及240。在另一些实施例中，在单人模式下的视频画面可不具有子显示区域SA1～SA3，视频画面可以仅由主要显示区域MA构成，借此可以更加清楚地看到正在发言的主讲者、主管或老师。

在步骤S174中，对应于第一身份标记的人员指定第二身份标记的人员。在本揭示文件的实施例中，可以由前述具有第一身份标记的人员指定具有第二身份标记的人员。

在本揭示的一些实施例中，前述对应于第一身份标记的人员的指定可由收音装置106接收对应于第一身份标记的人员的声源信号，所述的声源信号包含第二身份标记(例如，被指定人员的称谓或名字)以及问答模式的起始关键字。举例而言，收音装置106自对应于第一身份标记的第一脸部图框212的声源方向在预期时间内所接收到的声源信号，经电子装置100辨识后得到的词汇有“回答”以及“Elsa”，借此，第一身份标记的人员可由声控或由电子装置100的输入接口点选被指定人员的头像(例如，显示屏幕110所呈现的与会头像列表302)，或直接点选视频画面中与会人员的脸部，以指定第二身份标记的人员。接续进行步骤S176。

在步骤S176中，将主要显示区域(如图5所示的主要显示区域MA)拆解为第一分割画面(如图5所示的第一分割画面SC1)以及第二分割画面SC2(如图5所示的第二分割画面SC2)并开始问答模式，如图7所示。

在步骤S178中，在问答模式下，将第一脸部图框212配置于第一分割画面SC1，并且将第二脸部图框232配置于第二分割画面SC2。如此，在视频会议的问答过程可缩短搜寻主讲人、被指定人员的时间，并且及时切换视频画面亦可提醒被指定人员回答问题。在一些实施例中，当处理电路102接收到指定第二身份标记人员的指令，被指定的第二身份标记人员所在的电子装置100的显示屏幕110的边缘区域可以闪烁提示，进而促进会议流程。

举例而言，在图6所示视频串流210、220、230以及240中，电子装置100侦测到对应于第一脸部图框212的第一身份标记的人员正指定第二身份标记(例如，Elsa)的人员。在图7所示的视频画面中，第一脸部图框212经配置在第一分割画面SC1，对应于第二身份标记(例如，Elsa)的第二脸部图框232经配置在第二分割画面SC2。

类似地，第二脸部图框232可由电子装置100控制摄影装置108的焦距而感测，或者由电子装置100自视频串流230中撷取放大并输出。

在步骤S179中，响应于问答模式结束，将视频画面自问答模式切换回单人模式。具体而言，响应于问答模式结束，将问答模式切换回单人模式以合并第一分割画面SC1以及第二分割画面SC2为该主要显示区域MA，并且将第一身份标记对应的第一脸部图框212配置于主要显示区域MA。接续步骤S174，以指定另一与会者继续进行问答模式，或进行S180，会议结束。

图8为本揭露一实施例的电子装置100的显示屏幕110的示意图。图9为本揭露一实施例的电子装置100的显示屏幕110的示意图。相较于图5以及图7，在同一会场的多个与会者使用同一套音频设备，在图8以及图9中，在视频串流输出的画面是单人的情况下，可直接侦测有声音的视频串流，再判断其中有谁具有最高的显示优先级，以切换至图8所示的单人模式或图9所示的问答模式。在图8以及图9中的实施例的其余操作方式皆类似于前述图5以及图7的实施例，故亦可由步骤S110～S180进行操作。

综上所述，本揭示的实施例透过预先注册人员身份以及对应的脸部特征，从而在视频会议中的单人模式透过脸部辨识判断具有高显示优先级的主讲者，并在主讲者发言时将其脸部图框配置于视频画面的主要显示区域MA，从而使与会人员更清楚并能注意到主讲者的重要讯息。进一步而言，当具有高显示优先级的主讲者指定与会人员进行问答时，电子装置100可直接响应于主讲者的指定而将视频画面切换至问答模式，借此同时显示主讲者(提问人)以及被指定人的脸部讯框，使视频会议流程更顺畅，透过会议画面的切换，可避免与会者需要由音色判断主讲人或被指定人是谁的情况，让每一位与会者可以同步会议进程。

虽然本揭露已以实施方式揭露如上，然其并非用以限定本揭露，任何本领域通具通常知识者，在不脱离本揭露的精神和范围内，当可作各种的更动与润饰，因此本揭露的保护范围当视所附的权利要求书所界定的范围为准。

Claims

1.一种视频画面构成方法，其特征在于，包含：

取得一优先级列表，其中该优先级列表包含多个人员身份的多个优先级；

接收多个视频串流；

辨识所述多个视频串流中多个脸部图框所对应的多个身份标记；

依据所述多个身份标记以及该优先级列表以取得对应于所述多个脸部图框的多个显示优先级；

侦测所述多个脸部图框是否发言；以及

根据所述多个脸部图框是否发言以及所述多个显示优先级，产生由所述多个脸部图框中至少一者构成一视频画面的一主要显示区域。

2.根据权利要求1所述的视频画面构成方法，其特征在于，包含：

在一单人模式下，在正在发言的所述多个脸部图框中，判断具有所述多个显示优先级中的最高者的一第一身份标记的一第一脸部图框；以及

在该单人模式下，将该第一脸部图框配置于该视频画面时的该主要显示区域。

3.根据权利要求2所述的视频画面构成方法，其特征在于，包含：

对应于该第一身份标记的人员指定一第二身份标记的人员响应于来自该第一身份标记的人员的该指定，将该主要显示区域拆解为一第一分割画面以及一第二分割画面并开始一问答模式；以及

在该问答模式下，将该第一脸部图框配置于该第一分割画面，并且将该第二身份标记对应的所述多个脸部图框中的一第二脸部图框配置于该第二分割画面。

4.根据权利要求3所述的视频画面构成方法，其特征在于，包含：

响应于该问答模式结束，将该问答模式切换回该单人模式以合并该第一分割画面以及一第二分割画面为该主要显示区域，并且将该第一脸部图框配置于该主要显示区域。

5.根据权利要求3所述的视频画面构成方法，其特征在于，其中对应于该第一身份标记的人员的该指定是由收音装置接收对应于该第一身份标记的人员的一声源信号，其中该声源信号包含该第二身份标记以及该问答模式的关键字。

6.一种电子装置，其特征在于，包含：

一储存装置；以及

一处理电路，用以：

接收多个视频串流；

侦测所述多个脸部图框是否发言；以及

7.根据权利要求6所述的电子装置，其特征在于，其中该处理电路更用以：

8.根据权利要求7所述的电子装置，其特征在于，其中该处理电路更用以：

对应于该第一身份标记的人员指定一第二身份标记的人员；

响应于来自该第一身份标记的人员的该指定，将该主要显示区域拆解为一第一分割画面以及一第二分割画面并开始一问答模式；以及

9.根据权利要求8所述的电子装置，其特征在于，其中该处理电路更用以：

10.根据权利要求8所述的电子装置，其特征在于，其中对应于该第一身份标记的人员的该指定是由收音装置接收对应于该第一身份标记的人员的一声源信号，其中该声源信号包含该第二身份标记以及该问答模式的关键字。