CN115174845A - 一种针对视频会议中特殊行为动作的特写拍摄方法及装置 - Google Patents

一种针对视频会议中特殊行为动作的特写拍摄方法及装置 Download PDF

Info

Publication number
CN115174845A
CN115174845A CN202210772914.4A CN202210772914A CN115174845A CN 115174845 A CN115174845 A CN 115174845A CN 202210772914 A CN202210772914 A CN 202210772914A CN 115174845 A CN115174845 A CN 115174845A
Authority
CN
China
Prior art keywords
video data
behavior
target
camera
participants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210772914.4A
Other languages
English (en)
Inventor
吴易明
姜杭
黄裔源
陈志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingtalk China Information Technology Co Ltd
Original Assignee
Dingtalk China Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingtalk China Information Technology Co Ltd filed Critical Dingtalk China Information Technology Co Ltd
Priority to CN202210772914.4A priority Critical patent/CN115174845A/zh
Publication of CN115174845A publication Critical patent/CN115174845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本说明书一个或多个实施例提供一种针对视频会议中特殊行为动作的特写拍摄方法及装置,所述方法包括:获取摄像头采集的会议视频数据;识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员;控制摄像头针对所述目标参会人员进行特写拍摄。

Description

一种针对视频会议中特殊行为动作的特写拍摄方法及装置
技术领域
本说明书一个或多个实施例涉及摄像领域,尤其涉及一种针对视频会议中特殊行为动作的特写拍摄方法及装置。
背景技术
随着互联网的快速发展,以视频会议的方式开展网络会议逐渐成为远程协同办公中的常态。在现有的转播技术中,视频会议往往围绕发言人进行特写呈现,却忽略了会议中参会人员实施的一些具备特殊意义的行为动作,例如举手发言、握手等,从而导致会议中一些重要时刻的缺失,进而对会议进程以及参与人员造成巨大困扰。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种针对视频会议中特殊行为动作的特写拍摄方法及装置,可以解决相关技术中存在的不足。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种针对视频会议中特殊行为动作的特写拍摄方法,所述方法包括:
获取摄像头采集的会议视频数据;
识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员;
控制所述摄像头针对所述目标参会人员进行特写拍摄。
根据本说明书一个或多个实施例的第二方面,提出了一种针对视频会议中特殊行为动作的特写拍摄装置,所述装置包括:
获取单元:获取摄像头采集的会议视频数据;
识别单元:识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员;
拍摄单元:控制所述摄像头针对所述目标参会人员进行特写拍摄。
根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第一方面所述的方法。
根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
由以上技术方案可见,本说明书一个或多个实施例通过获取摄像头采集的会议视频数据,并对获取视频数据中参会人员的行为动作进行识别,从而确定了实施特殊行为动作的目标参会人员,使得摄像头可以针对确定的目标参会人员进行特写拍摄。该方式捕捉了会议过程中实施特殊行为动作的目标参会人员,并对其进行特写拍摄,使得会议中的特殊行为动作不被忽视,从而避免了会议中一些重要时刻的缺失,确保了参会人员信息交换的完整性。
附图说明
图1是一示例性实施例提供的一种针对视频会议中特殊行为动作的特写拍摄方法的系统架构图。
图2是一示例性实施例提供的一种针对视频会议中特殊行为动作的特写拍摄方法的流程图。
图3是一示例性实施例提供的一种参会人员举手表决的示意图。
图4是一示例性实施例提供的一种训练行为分类神经网络模型方法的示意图。
图5是一示例性实施例提供的一种需要视觉处理的目标视频数据的示意图。
图6是一示例性实施例提供的一种导播指示界面的示意图。
图7是一示例性实施例提供的一种视频会议画面的示意图。
图8是一示例性实施例提供的一种导播系统的系统架构图。
图9是一示例性实施例提供的一种设备的示意结构图。
图10是一示例性实施例提供的一种针对视频会议中特殊行为动作的特写拍摄装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
为对本说明书一个或多个实施例进行进一步说明,提供下列实施例:
图1是一示例性实施例提供的一种针对视频会议中特殊行为动作的特写拍摄方法的系统架构图,如图1所示,包括摄像头11、摄像头21、会议终端12、会议终端22、显示设备13、显示设备23以及服务器14。
视频会议的参会各方(下面以双方为例)都配置有摄像头、会议终端、显示设备以及服务器,如图1所示,第一参会方的会议终端12分别与摄像头11、显示设备13以及服务器14相连,同时第一参会方的会议终端12通过服务器14与第二参会方的会议终端22连通。
摄像头11、会议终端12、显示设备13均部署于第一参会方,基于对视频会议的支持,摄像头11可以是具备拍摄功能的电子设备,会议终端12可以是专用的会议设备,显示设备13可以是具备显示/投影功能的电子设备。在运行过程中,摄像头11可以对本地会议的参会人员进行拍摄,并将采集的视频数据提供至会议终端12,由服务器14将会议终端12上传的视频数据分发至各地会议终端,各地会议终端将分发的视频数据发送至本地的显示设备进行显示。
或者,在接收摄像头11发送的视频数据后,会议终端12可以识别视频数据中实施了特殊行为动作的目标参会人员,并控制摄像头11对目标参会人员进行特写拍摄,将拍摄得到的目标视频数据上传至服务器14,以执行前述类似的操作,从而使得显示设备显示针对目标参会人员特写拍摄的视频数据。
与第一参会方的情况类似,第二参会方部署的各设备也具备上述功能,此处不再赘述。
上述摄像头、会议终端、显示设备,可以是相互独立的电子设备,或者,摄像头和显示设备也可以仅为会议终端内置的功能模块(例如:会议终端可以为带有摄像头和显示屏具备数据处理功能的电视或者投影设备),本说明书并不对此进行限制。
服务器14可以为包含一独立主机的物理服务器,或者该服务器14可以为主机集群承载的虚拟服务器。在运行过程中,服务器14可以配合会议终端12或者22,将其上传的视频数据分发至各地会议终端,最终由各地显示设备进行显示。对于各地会议终端与服务器14之间进行的连接方式,可以包括多种类型的有线或无线连接,本说明书并不对此进行限制。
该实施例提供了一种多方参与视频会议的系统架构,其中摄像头可以针对实施特殊行为动作的参会人员进行特写拍摄,使得视频会议中一些重要的时刻不会被忽视,确保了会议的完整性,提升了用户的使用体验。
当然,上述实施例仅为视频会议场景下的其中一种情况,还存在多种架构,比如识别视频数据的执行主体可以为服务器,在该情况下,会议终端在接收视频数据后直接将其上传至服务器,由服务器识别视频数据中实施了特殊行为动作的目标参会人员,并通过会议终端控制摄像头对目标参会人员进行特写拍摄。当然,系统架构并不局限于上述两种情况,本说明书并不对此进行限制。
图2是一示例性实施例提供的一种针对视频会议中特殊行为动作的特写拍摄方法的流程图。如图2所示,该方法可以包括以下步骤:
步骤202,获取摄像头采集的会议视频数据。
摄像头可以为具备拍摄功能的摄像设备。摄像头部署于会议场所,其数量不限,可以为一个拍摄范围覆盖整个会议场所的全景摄像头,也可以为多个具备特写功能的特写摄像头,也或者是全景摄像头和特写摄像头搭配使用,本说明书并不对此进行限制。
摄像头采集的视频数据可以为一系列连续的图像序列,其中每一帧都是一幅静态的图像,图像中可以包括参会人员的行为动作、会场的背景布置等等。
从摄像头处获取视频数据的方式,可以为会议终端发送获取请求以获取摄像头采集的视频数据,也可以为摄像头主动向会议终端发送携带视频数据的请求或指示,对此,本说明书并不进行限制。
步骤204,识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员。
所述特殊行为动作至少包括:举手行为、握手行为、拥抱行为。
特殊行为动作往往为具备特殊象征意义的行为动作,例如举手行为往往代表参会人员示意自己要发表言论,或者代表投票表决。特殊行为动作可以根据默认设置为举手、握手、拥抱等,也可以预先设置为特定的行为动作,例如仅将鼓掌行为设置为特殊行为动作,那么此时,只有实施鼓掌行为的参会人员被确定为目标参会人员,实施举手行为的参会人员并不会被确定为目标参会人员。当然,特殊行为动作可以为一个行为动作,也可以为多个行为动作,本说明书并不对此进行限制。
下面结合图3对目标参会人员的确定进行详细介绍,图3是一示例性实施例提供的一种参会人员举手表决的示意图,该示意图包括:参会人员301、参会人员302。如图3所示,参会人员301实施了举手行为,而包括参会人员302在内的其余参会人员并没有实施举手行为。若预先设定特殊行为动作为举手行为,那么在对该图像进行识别之后,可以确定参会人员301为目标参会人员。
所述识别所述视频数据中的参会人员的行为动作,包括:提取所述视频数据中的参会人员的行为动作特征,将所述行为动作特征输入预先训练的行为分类神经网络模型;根据所述行为分类神经网络模型的输出结果确定所述参会人员的行为动作的类型。
行为分类神经网络模型可以通过将样本集输入神经网络训练模型训练得到,该样本集中的样本可以为添加有行为动作类型标签的行为动作特征。该行为动作特征的计算可以在视频数据的时间维度和空间维度上进行,关于具体计算过程可以参考Openpose算法,此处不再赘述。
行为分类神经网络模型可以通过一次训练得到,也可以通过多次迭代优化,在验证其识别准确率达到阈值后,确定优化后的行为分类神经网络模型,本说明书并不对此进行限制。
下面以不断迭代优化的训练方法为例,结合图4对行为分类神经网络模型进行详细介绍。图4是一示例性实施例提供的一种训练行为分类神经网络模型方法的示意图,如图4所示,该示意图包括:训练样本集401、神经网络训练模型402、行为分类神经网络模型403、训练样本集404、待验证行为动作类型405。训练样本集401由数量不限的样本组成,样本为添加有行为动作类型标签的行为动作特征,例如添加有举手行为标签的参会人员301对应的行为动作特征。将训练样本集输入神经网络训练模型402中进行训练,在一次训练之后得到待验证的行为分类神经网络模型403。验证训练集404中包含的为区别于训练样本集401、且未添加行为动作类型标签的行为动作特征的样本,将验证训练集404输入待验证的行为分类神经网络模型403,得到输出结果——待验证行为动作类型405。将待验证行为动作类型405与验证训练集404中样本的行为动作特征对应的真实行为动作类型进行对比,并计算其准确率。若输出结果的准确率达到预先设定的阈值,例如百分之九十,则可以得到行为分类神经网络模型;若输出结果的准确率未达到阈值,则需要继续对模型进行优化训练,直到准确率达到阈值为止。该实施例提供了一种训练行为分类神经网络模型的方法,通过不断迭代优化可以提高模型的准确率,从而提高了参会人员的行为动作类型的识别准确率。
在一实施例中,在计算准确率时可以设置一个累计值,该累计值初始为零。若待验证行为动作类型405与真实行为动作类型一致,则在累计值上加一;若待验证行为动作类型405与真实行为动作类型不一致,则不更改累计值。对比验证所有样本后,得到最终累计值,准确率则为最终累计值与样本数的比值。该实施例提供了一种计算样本准确率的方式,使得用户可以快速计算行为分类神经网络模型的准确率,以判断是否需要继续迭代优化模型。
步骤206,控制所述摄像头针对所述目标参会人员进行特写拍摄。
存在多种控制摄像头的方式,可以为向摄像头发送携带有目标参会人员信息的拍摄请求,以指示摄像头对目标参会人员进行特写拍摄,也可以为摄像头主动发送请求以获取目标参会人员的信息,本说明书并不对此进行限制。
在一实施例中,根据对所述目标参会人员的人形识别结果,控制所述摄像头对所述目标参会人员跟踪拍摄。根据人形识别算法对视频数据进行识别,确定每个参会人员的人形位置,并为识别到的每个参会人员分配一个跟踪ID,例如:为图3中的参会人员301分配跟踪ID“001”,当参会人员301离开位置发言或者从坐姿改为站姿时,会议终端会控制一号摄像头跟踪拍摄ID为“001”的参会人员,从而实现对目标参会人员的跟踪拍摄。该实施例根据对目标参与人员的人形识别结果,控制摄像头对目标参会人员进行跟踪拍摄,使得摄像头在目标参会人员改变位置的情况下,也可以对其进行特写拍摄,增强了拍摄的灵活性,提升了用户的使用体验。
在控制摄像头对目标参会人员进行特写拍摄后,可以得到针对目标参会人员的目标视频数据,该目标视频数据可以直接被播放,也可以经过视觉处理后再进行播放。
在一实施例中,对所述特写拍摄得到的目标视频数据进行视觉处理,并对处理后的目标视频数据进行播放。该视觉处理可以包括多个方面:对目标视频数据进行风格比例化处理,例如:可以根据默认风格将每帧图像裁剪为16:9的画面比例;对目标视频数据进行清晰化处理,例如:在图像低于1080P的情况下,通过超分算法对图像进行清晰度增强,让整个导播都处于高清画面的状态;对目标视频数据进行滤波去抖处理,避免视频跳帧而影响播放的平滑性;对目标视频数据进行图像编排,例如在同时有参会人员握手和鼓掌的情况下,进行分屏处理。该实施例在对目标参会人员进行特写拍摄的情况下,进一步对拍摄得到的目标视频数据进行视觉处理,使得视频会议的播放更加清晰、合理,提升了用户的使用体验。
进一步的,对目标视频数据进行视觉处理可以由会议终端根据预先设定的处理方式进行处理,也可以将目标视频数据提供至导播客户端,并根据导播客户端的指示进行视觉处理,本说明书并不对此进行限制。该导播客户端可以为某个会议终端,也可以为区别于会议终端的专门终端。导播客户端具备播放以及数据传输功能,可以将接收的目标数据视频进行播放,使得视频会议的导播人员可以根据导播客户端播放的视频返回处理指令,该处理指令可以指示服务端对目标视频数据进行相应的视觉处理。
在一实施例中,所述对所述特写拍摄得到的目标视频数据进行视觉处理,包括:将所述特写拍摄得到的目标视频数据提供至导播客户端;根据所述导播客户端返回的处理指令,对所述目标视频数据进行视觉处理。
所述对处理后的目标视频数据进行播放的播放方式至少包括:窗口内容替换播放、新增独立窗口播放。窗口内容替换播放的方式是将原先播放窗口中播放的视频数据替换为新的视频数据,该方式不会有新的独立窗口产生;新增独立窗口播放的方式是在原先窗口的基础上,再增添新的独立窗口播放以播放新的视频数据,此时,可以有多个视频同时播放,具体效果如图7所示。
下面以新增独立窗口播放为例,结合图5、6、7对导播客户端参与的视觉处理进行详细介绍,图5是一示例性实施例提供的一种需要视觉处理的目标视频数据的示意图,该示意图包括:发言视频数据501、握手视频数据502。同一时间,会议场所内存在实施了鼓掌行为参会人员对应的发言视频数据501,以及实施了握手行为的参会人员对应的握手视频数据502,摄像头在特写拍摄下这两组视频数据后,将其发送至导播客户端。在接收到目标视频数据后,导播客户端生成导播指示界面。图6是一示例性实施例提供的一种导播指示界面的示意图,如图6所示,该界面左侧为目标视频数据的播放侧,存在一个选择按钮位于每一份目标视频数据下方,导播人员可以点击选择按钮对选择需要处理的目标视频数据,界面右侧为指示参数的输入区域,导播人员可以在该区域输入对应的参数,在输入相应参数后,可以点击界面右下角处的视觉处理按钮,发送携带有指示参数的处理指令。服务端可以根据该处理指令对目标视频数据进行处理,最终处理结果如图7所示,图7是一示例性实施例提供的一种视频会议画面的示意图,该视频会议中,经过处理后的发言视频数据501、握手视频数据502以分屏的方式显示于会议画面中。
在导播系统中,除导播客户端可以为视觉处理提供处理指令之外,影响视觉处理的因素还包括很多方面,例如:由麦克风和摄像头组成的定位模块可以对视觉处理的结果造成影响。
下面结合图8对导播系统中视觉处理的决策进行详细介绍,图8是一示例性实施例提供的一种导播系统的系统架构图,如图8所示,该系统架构图包括:麦克风阵列801、摄像头阵列802、定位模块803、特殊行为模块804、多模态融合决策模块805、导播决策模块806、视觉处理模块807、显示模块808。其中定位模块由麦克风阵列801和摄像头阵列802组成,通过麦克风阵列801采集会议中的音频数据,并根据语音识别(Voice Activity Detection,简称VAD)算法对音频数据中的会议发言人进行声源定位,同时摄像头阵列802根据人形识别算法对视频数据中的参会人员进行跟踪定位,两个阵列相配合,确定会议发言人及其位置信息,对会议发言人进行特写拍摄得到第一目标视频数据,将其发送至多模态融合决策模块805。同时,特殊行为模块将实施了特殊行为动作的目标参会人员对应的第二目标视频数据发送至多模态融合决策模块805。多模态融合决策模块805可以将目标视频数据发送至导播决策模块根据预先设定的决策算法向视觉处理模块807发送处理指令,也可以将目标视频数据发送至导播决策模块806,由导播决策模块806根据实际情况进行处理的决策,或者也可以由两方共同进行决策,并生成处理指令。视觉处理模块807根据处理指令对目标视频数据进行视觉处理,如前所述,视觉处理可以包括风格比例化处理、清晰化处理等。视觉处理模块807可以将处理后的视频数据发送至传输模块808,由传输模块808将视频数据上传并分发至参会各方。
该导播系统中的音频、视频数据的采集可以由麦克风和摄像头实现,而对数据的识别以及处理,可以由前述提及的会议终端或者服务器实现,服务器最终可以将音频、视频数据下发至各会议终端,并在各地的显示设备上显示。
该实施例提供了一种智能导播的系统,该系统通过声源定位算法和视觉跟踪算法对会议参会人员进行准确定位,并对发言人或者实施特殊行为的参会人员进行特写拍摄,使得视频会议的参会各方可以最大限度的捕捉会议内的重要时刻和场景,确保视频会议中信息交流的完整性,提升用户的使用体验。
图9是一示例性实施例提供的一种设备的示意结构图。请参考图9,在硬件层面,该设备包括处理器902、内部总线904、网络接口906、内存909以及非易失性存储器910,当然还可能包括其他功能所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器902从非易失性存储器910中读取对应的计算机程序到内存908中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图10,一种针对视频会议中特殊行为动作的特写拍摄装置可以应用于如图10所示的设备中,以实现本说明书的技术方案,该装置可以包括:
获取单元1001,用于获取摄像头采集的会议视频数据;
识别单元1002,用于识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员;
控制单元1003,用于控制摄像头针对所述目标参会人员进行特写拍摄。
可选的,所述特殊行为动作至少包括:举手行为、握手行为、拥抱行为。
可选的,所述识别单元1002具体用于:
提取所述视频数据中的参会人员的行为动作特征,将所述行为动作特征输入预先训练的行为分类神经网络模型;
根据所述行为分类神经网络模型的输出结果确定所述参会人员的行为动作的类型。
可选的,还包括:
处理单元1004,用于对所述特写拍摄得到的目标视频数据进行视觉处理,并对处理后的目标视频数据进行播放。
可选的,所述处理单元1004具体用于:
将所述特写拍摄得到的目标视频数据提供至导播客户端;
根据所述导播客户端返回的处理指令,对所述目标视频数据进行视觉处理。
可选的,所述对处理后的目标视频数据进行播放的播放方式至少包括:窗口内容替换播放、新增独立窗口播放。
可选的,所述控制单元1003具体用于:
根据对所述目标参会人员的人形识别结果,控制所述摄像头对所述目标参会人员跟踪拍摄。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (10)

1.一种针对视频会议中特殊行为动作的特写拍摄方法,其特征在于,所述方法包括:
获取摄像头采集的会议视频数据;
识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员;
控制摄像头针对所述目标参会人员进行特写拍摄。
2.根据权利要求1所述的方法,其特征在于,所述特殊行为动作至少包括:举手行为、握手行为、拥抱行为。
3.根据权利要求1所述的方法,其特征在于,所述识别所述视频数据中的参会人员的行为动作,包括:
提取所述视频数据中的参会人员的行为动作特征,将所述行为动作特征输入预先训练的行为分类神经网络模型;
根据所述行为分类神经网络模型的输出结果确定所述参会人员的行为动作的类型。
4.根据权利要求1所述的方法,其特征在于,还包括:
对所述特写拍摄得到的目标视频数据进行视觉处理,并对处理后的目标视频数据进行播放。
5.根据权利要求4所述的方法,其特征在于,所述对所述特写拍摄得到的目标视频数据进行视觉处理,包括:
将所述特写拍摄得到的目标视频数据提供至导播客户端;
根据所述导播客户端返回的处理指令,对所述目标视频数据进行视觉处理。
6.根据权利要求4所述的方法,其特征在于,所述对处理后的目标视频数据进行播放的播放方式至少包括:窗口内容替换播放、新增独立窗口播放。
7.根据权利要求1所述的方法,其特征在于,所述控制所述摄像头针对所述目标参会人员进行特写拍摄,包括:根据对所述目标参会人员的人形识别结果,控制所述摄像头对所述目标参会人员跟踪拍摄。
8.一种针对视频会议中特殊行为动作的特写拍摄装置,其特征在于,所述装置包括:
获取单元:获取摄像头采集的会议视频数据;
识别单元:识别所述视频数据中的参会人员的行为动作,以确定实施了特殊行为动作的目标参会人员;
拍摄单元:控制所述摄像头针对所述目标参会人员进行特写拍摄。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
CN202210772914.4A 2022-06-30 2022-06-30 一种针对视频会议中特殊行为动作的特写拍摄方法及装置 Pending CN115174845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210772914.4A CN115174845A (zh) 2022-06-30 2022-06-30 一种针对视频会议中特殊行为动作的特写拍摄方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210772914.4A CN115174845A (zh) 2022-06-30 2022-06-30 一种针对视频会议中特殊行为动作的特写拍摄方法及装置

Publications (1)

Publication Number Publication Date
CN115174845A true CN115174845A (zh) 2022-10-11

Family

ID=83490077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210772914.4A Pending CN115174845A (zh) 2022-06-30 2022-06-30 一种针对视频会议中特殊行为动作的特写拍摄方法及装置

Country Status (1)

Country Link
CN (1) CN115174845A (zh)

Similar Documents

Publication Publication Date Title
CN112165590B (zh) 视频的录制实现方法、装置及电子设备
US10170157B2 (en) Method and apparatus for finding and using video portions that are relevant to adjacent still images
US10241990B2 (en) Gesture based annotations
US20150146078A1 (en) Shift camera focus based on speaker position
WO2017065935A1 (en) Methods and apparatuses for controlling video content displayed to a viewer
CN113973190A (zh) 视频虚拟背景图像处理方法、装置及计算机设备
CN108369816A (zh) 用于从全向视频创建视频剪辑的设备和方法
KR101895846B1 (ko) 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화
CN105960801B (zh) 增强视频会议
US10250803B2 (en) Video generating system and method thereof
US20140162234A1 (en) System and Method for Crowd Sourced Multi-Media Lecture Capture, Sharing and Playback
US11622072B2 (en) Systems and methods for suggesting video framing
US9325776B2 (en) Mixed media communication
CN105814905A (zh) 用于使使用信息在装置与服务器之间同步的方法和系统
US11847827B2 (en) Device and method for generating summary video
CN104780341B (zh) 一种信息处理方法以及信息处理装置
CN114222065B (zh) 图像处理方法、装置、电子设备、存储介质及程序产品
CN115174845A (zh) 一种针对视频会议中特殊行为动作的特写拍摄方法及装置
US11611600B1 (en) Streaming data processing for hybrid online meetings
CN113259734B (zh) 针对交互场景的智能导播方法、装置、终端和存储介质
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
US11290753B1 (en) Systems and methods for adaptive livestreaming
US11182619B2 (en) Point-of-interest determination and display
US8203593B2 (en) Audio visual tracking with established environmental regions
CN112565586A (zh) 一种自动对焦方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination