CN117037271A - 一种会议摄像头的发言人追踪方法、系统及存储介质 - Google Patents
一种会议摄像头的发言人追踪方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117037271A CN117037271A CN202310990754.5A CN202310990754A CN117037271A CN 117037271 A CN117037271 A CN 117037271A CN 202310990754 A CN202310990754 A CN 202310990754A CN 117037271 A CN117037271 A CN 117037271A
- Authority
- CN
- China
- Prior art keywords
- face
- speaker
- speaking
- tracking
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 9
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000012805 post-processing Methods 0.000 claims abstract description 10
- 238000009499 grossing Methods 0.000 claims description 11
- 241001282135 Poromitra oscitans Species 0.000 claims description 6
- 206010048232 Yawning Diseases 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000005520 cutting process Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种会议摄像头的发言人追踪方法、系统及存储介质,该方法包括:步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;步骤3:人脸说话动作识别,获取人脸说话动作得分;步骤4:后处理判决,获取发言人的人脸位置。本发明提供的会议摄像头的发言人追踪方法、系统及存储介质中,不使用阵列麦克风声源定位技术,而是使用视频中发言人说话动作识别来对发言人进行定位和追踪,有效防止非发言人的误检,操作简洁、准确率高,解决了现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确等问题。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种会议摄像头的发言人追踪方法、系统及存储介质。
背景技术
当前,办公室视频会议系统在很多公司得到了广泛使用,其中相当重要的功能之一便是对发言人进行定位,然后显示发言人的特写。常见的视频会议发言人追踪方法是使用阵列麦克风声源定位技术和人脸检测算法,通常的流程是先进行声源定位,估计出方位后,在这个方向上进行人脸检测,提取发言人特写。但是,当会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确,并且只使用人脸检测只能证明阵列麦克风声源定位算法估计出来的声源位置有人,并不能证明这个人真在说话,因此,在音视频模组中常常结合人脸识别、声纹识别等技术使用,然而使用人脸识别和声纹识别需要提前进行注册,不够灵活。
发明内容
为解决现有技术中存在的技术问题,本发明的目的在于提供一种会议摄像头的发言人追踪方法、系统及存储介质。
为实现上述目的,达到上述技术效果,本发明采用的技术方案为:
一种会议摄像头的发言人追踪方法,包括以下步骤:
步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;
步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;
步骤3:人脸说话动作识别,获取人脸说话动作得分;
步骤4:后处理判决,获取发言人的人脸位置。
进一步的,步骤1中,人脸检测,获取视频帧画面里的所有人脸边界框的步骤包括:
使用高清广角摄像头拍摄采集连续的会议室全景视频帧,每获取一帧会议室全景图像,将原始4K图像压缩到适合摄像头模组NPU计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框。
进一步的,步骤2中,人脸追踪,获取所有人脸边界框的追踪轨迹的步骤包括:
将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪ID,从而得到所有人脸边界框的追踪轨迹。
进一步的,步骤3中,人脸说话动作识别,获取人脸说话动作得分的步骤包括:
1)采集发言人人脸说话动作视频数据,制作数据集;
2)构建说话动作识别模型;
3)使用SpeakAction数据集训练说话动作识别模型;
4)基于步骤1得到的人脸边界框坐标,从原始4K图像中截取人脸图像并压缩,基于步骤2得到的人脸ID,输入说话动作识别模型,得到当前帧时刻的人脸说话动作得分。
进一步的,步骤3中,共获取3类人脸说话动作得分,包括类1、类2、类3,将会出现连续张闭嘴的说话动作作为类1,将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。
进一步的,所述说话动作识别模型为shufflenetV2-TSM模型,使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块以融合时序上的动作信息。
进一步的,步骤4中,后处理判决,获取发言人的人脸位置的步骤包括:
1)所述说话动作识别模型按时序输入视频帧,每输入一帧图像,输出3类嘴唇动作对应的得分,使用平滑窗口对当前时刻至过去一段时间T内的输出得分进行平滑,若平滑后类1得分最高,则初步判断当前帧的人脸在说话;
2)若当前帧满足类1得分最高,则对类1设置平滑窗口阈值Thresh_seg,判断在窗口t时间内,t<T,若类1得分的累加的平均值满足阈值Thresh_seg,则进一步认为当前帧的人脸在说话;
3)对类1设置平滑峰值阈值Thresh_peak,Thresh_peak>Thresh_seg;若当前帧过去窗口t时间内满足阈值Thresh_seg,则进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak的帧,若满足,则最终判定当前帧的人脸在说话,从而得到发言人的人脸位置。
本发明还公开了一种会议摄像头的发言人追踪系统,包括:
高清广角摄像头,用于采集会议室全景数据,保证会议室每个座位的参会者的人脸不会被遮挡或丢失;
发言人追踪模块,用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人,并发送检测到的发言人位置信息;
视频特写模块,用于对发言人进行特写展示。
本发明还公开了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于通过调用计算机程序,执行如上所述的一种会议摄像头的发言人追踪方法。
本发明还公开了一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的一种会议摄像头的发言人追踪方法。
与现有技术相比,本发明的有益效果为:
本发明公开了一种会议摄像头的发言人追踪方法、系统及存储介质,不使用阵列麦克风声源定位技术,而是使用视频中发言人说话动作识别来对发言人进行定位和追踪,克服噪声混响和多人同时对话时定位追踪不够准确的问题,操作简洁、准确率高。
附图说明
图1为本发明的流程图;
图2为本发明的人脸说话动作视频数据图;
图3为本发明的说话动作识别模型的结构图;
图4为本发明的后处理判决的流程图。
具体实施方式
下面对本发明进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
如图1-4所示,一种会议摄像头的发言人追踪方法,包括如下步骤:
步骤1:人脸检测。使用高清广角摄像头拍摄采集连续的会议室全景视频帧。每获取一帧会议室全景图像,将原始4K图像压缩到适合摄像头模组NPU计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框;
步骤2:人脸追踪。将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪ID,得到所有人脸边界框的追踪轨迹;
步骤3:人脸说话动作识别,得到3类(类1、类2、类3)人脸说话动作的得分;
步骤4:后处理判决。根据模型输出结果使用后处理判决当前时刻检测人脸是否发生说话的动作,从而得到发言人的人脸位置。
步骤3中,包括以下步骤:
1)采集发言人人脸说话动作视频数据,制作训练数据集。数据包括各个角度的静止人脸、基于xyz轴运动的人脸如抬头低头、左右摇头、左右晃头、各人脸做说话、大笑、打哈欠、闭嘴等动作。将会出现连续张闭嘴的说话动作作为类1;将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。将采集并分类好的视频数据切成视频帧,制作人脸说话动作识别数据集SpeakAction;
2)构建说话动作识别模型。使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块去融合时序上的动作信息,得到shufflenetV2-TSM模型;
3)使用SpeakAction数据集训练shufflenetV2-TSM模型;
4)基于步骤1得到的人脸边界框坐标,从原始4K图像中截取人脸图像并压缩到所需尺寸大小;基于步骤2得到的人脸ID X,将X的人脸图像输入shufflenetV2-TSM模型,得到当前帧时刻的X人脸说话动作得分。
步骤4中,包括以下步骤:
1)模型按时序输入视频帧,每输入一帧图像,输出3类嘴唇动作对应的得分。使用平滑窗口对当前时刻至过去一段时间T内的输出得分进行平滑,若平滑后类1得分最高,则初步判断当前帧的人脸在说话;
2)对类1设置平滑窗口阈值Thresh_seg。若当前帧满足类1得分最高,则进一步判断在窗口t(t<T)时间内,若类1得分的累加的平均值满足阈值Thresh_seg,则进一步认为当前帧的人脸在说话;
3)对类1设置平滑峰值阈值Thresh_peak,Thresh_peak>Thresh_seg。若当前帧过去窗口t时间内满足阈值Thresh_seg,则进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak的帧,若满足,则最终判定当前帧的人脸在说话,从而得到发言人的人脸位置。
一种会议摄像头的发言人追踪系统,包括:
高清广角摄像头,用于采集会议室全景数据,保证会议室每个座位的参会者的人脸不会被遮挡或丢失;
发言人追踪模块,用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人,并发送检测到的发言人位置信息;
视频特写模块,用于对发言人进行特写展示。当有说话动作检测到后,根据当前ID的人脸边界框进行扩展扣图,提取发言人特写画面,输出特写并显示在会议大屏上。
与现有技术相比,本发明至少具有以下技术效果:
为解决现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确等问题,本发明单独使用时序图像信息,对发言人面部说话动作识别,能够有效追踪发言人的位置,并且加上简易的后处理判决方法,有效防止非发言人的误检。
实施例1
如图1-4所示,一种会议摄像头的发言人追踪方法,包括如下步骤:
步骤1:人脸检测
1)将30fps/4K分辨率的高清广角摄像头采集到的会议视频压缩并跳帧到360p/15fps送入轻量级人脸检测器,采用人脸检测算法进行人脸检测,得到会议场景的人脸边界框;
步骤2:人脸追踪
1)将步骤1中检测到的人脸边界框按帧序输入人脸追踪模型,为每个会议视频中每一个人脸赋予不同的ID;
步骤3:人脸说话动作识别
1)采集发言人人脸说话动作视频数据,制作数据集
从网络视频中采集不同背景、不同光照下不同角度的静止人脸以及基于xyz轴运动的人脸如抬头低头、左右摇头、左右晃头、各人脸做说话、大笑、打哈欠、闭嘴等动作。将会出现连续张闭嘴的说话动作作为类1;将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3;
将采集并分类好的视频数据切成1-2s的小片段,抽取每个小片段视频帧,提取视频帧中人脸部分,resize到112*112大小,制作人脸说话动作识别数据集SpeakAction,如图2所示;
2)构建说话动作识别模型
使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块去融合时序上的动作信息,将上一帧的一部分特征和当前帧的一部分特征拼接起来。即将当前帧时刻的每一层shuffleBlock的输入特征图位移8个通道和下一帧时刻同一层的同样移位8个通道后shuffleBlock的输入特征图进行拼接(首帧拼接初始化为全0的特征图),得到shufflenetV2-TSM模型,如图3所示,由一个3x3卷积和maxpool进行初步的特征提取得到特征图,在接下来的每一层shuffleBlock之前,将得到的特征图位移8个通道,与下一帧图像在同一层同样位移8个通道后的特征图进行拼接,即将相邻帧时刻的特征在shuffleBlock之前进行融合,经过N层shuffleBlock的特征融合后,经过1个3x3卷积层、全局平均池化GAP、全连接层FC和softmax后输出分类得分。
3)使用SpeakAction数据集训练shufflenetV2-TSM模型
本实施例1能达到97.115%的准确率;
4)基于步骤1得到的人脸边界框坐标,从原始4K图像中截取人脸图像并压缩到112*112尺寸大小;基于步骤2得到的人脸ID X,将X的人脸图像输入shufflenetV2-TSM模型,得到当前帧时刻的X人脸说话动作得分;
步骤4:后处理判决
1)根据步骤3输出的3类嘴唇动作对应的得分,使用平滑窗口对当前时刻至过去一段时间T(T=8s)内的输出得分进行平滑,若平滑后当前帧时刻类1得分最高,则初步判断当前帧的人脸在说话,进入下一步判决;
2)若当前帧满足类1得分最高,则对类1设置平滑窗口阈值Thresh_seg,进一步判断在t=6帧时长内,若类1得分的累加的平均值满足阈值Thresh_seg=0.6,则进一步认为当前帧的人脸在说话,进入下一步判决;
3)若当前帧过去窗口t=6帧时长内满足Thresh_seg,则对类1设置平滑峰值阈值Thresh_peak,Thresh_peak>Thresh_seg,进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak=0.8的帧,若满足,则认为当前帧的人脸在说话。
一种会议摄像头的发言人追踪系统,包括:
一个30fps/4K分辨率(3840*2160)的高清广角摄像头,用于采集会议室全景数据,保证会议室每个座位的参会者的人脸不会被遮挡或丢失;
发言人追踪模块,用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人,并发送检测到的发言人位置信息;
视频特写模块,用于对发言人进行特写展示。当收到发言人人脸边界框的坐标信息后,根据人脸边界框的宽度和高度比例从原始4K图像上进行扣图,提取发言人特写画面,输出特写并显示在会议大屏左上角上。若有多个发言人,则特写画面在大屏幕上按顺序排列。
本发明未具体描述的部分或结构采用现有技术或现有产品即可,在此不做赘述。
对本领域技术人员而言,根据上述实施类型可以很容易联想其他变形,如不同人脸检测模型、不同的人脸追踪算法等。因此,本发明不局限于以上实施例,其仅仅作为例子对本发明的一种形态进行详细、示范性的说明。在不背离本发明宗旨的范围内,本领域技术人员根据上述具体实例,通过各种等同替换所得到的技术方案,均应包含在本发明的权利要求范围及其等同范围之内。
Claims (10)
1.一种会议摄像头的发言人追踪方法,其特征在于,包括以下步骤:
步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;
步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;
步骤3:人脸说话动作识别,获取人脸说话动作得分;
步骤4:后处理判决,获取发言人的人脸位置。
2.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤1中,人脸检测,获取视频帧画面里的所有人脸边界框的步骤包括:
使用高清广角摄像头拍摄采集连续的会议室全景视频帧,每获取一帧会议室全景图像,将原始4K图像压缩到适合摄像头模组NPU计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框。
3.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤2中,人脸追踪,获取所有人脸边界框的追踪轨迹的步骤包括:
将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪ID,从而得到所有人脸边界框的追踪轨迹。
4.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤3中,人脸说话动作识别,获取人脸说话动作得分的步骤包括:
1)采集发言人人脸说话动作视频数据,制作数据集;
2)构建说话动作识别模型;
3)使用SpeakAction数据集训练说话动作识别模型;
4)基于步骤1得到的人脸边界框坐标,从原始4K图像中截取人脸图像并压缩,基于步骤2得到的人脸ID,输入说话动作识别模型,得到当前帧时刻的人脸说话动作得分。
5.根据权利要求1或4所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤3中,共获取3类人脸说话动作得分,包括类1、类2、类3,将会出现连续张闭嘴的说话动作作为类1,将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。
6.根据权利要求4所述的一种会议摄像头的发言人追踪方法,其特征在于,所述说话动作识别模型为shufflenetV2-TSM模型,使用轻量级分类网络shufflenetV2为模型主干网络并在其每个shuffleBlock之前插入TSM模块以融合时序上的动作信息。
7.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤4中,后处理判决,获取发言人的人脸位置的步骤包括:
1)所述说话动作识别模型按时序输入视频帧,每输入一帧图像,输出3类嘴唇动作对应的得分,使用平滑窗口对当前时刻至过去一段时间T内的输出得分进行平滑,若平滑后类1得分最高,则初步判断当前帧的人脸在说话;
2)若当前帧满足类1得分最高,则对类1设置平滑窗口阈值Thresh_seg,判断在窗口t时间内,t<T,若类1得分的累加的平均值满足阈值Thresh_seg,则进一步认为当前帧的人脸在说话;
3)对类1设置平滑峰值阈值Thresh_peak,Thresh_peak>Thresh_seg;若当前帧过去窗口t时间内满足阈值Thresh_seg,则进一步判断窗口t时间内是否存在类1的最高得分大于Thresh_peak的帧,若满足,则最终判定当前帧的人脸在说话,从而得到发言人的人脸位置。
8.一种会议摄像头的发言人追踪系统,其特征在于,包括:
高清广角摄像头,用于采集会议室全景数据,保证会议室每个座位的参会者的人脸不会被遮挡或丢失;
发言人追踪模块,用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人,并发送检测到的发言人位置信息;
视频特写模块,用于对发言人进行特写展示。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于通过调用计算机程序,执行如权利要求1-7中任一项所述的一种会议摄像头的发言人追踪方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的一种会议摄像头的发言人追踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310990754.5A CN117037271A (zh) | 2023-08-08 | 2023-08-08 | 一种会议摄像头的发言人追踪方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310990754.5A CN117037271A (zh) | 2023-08-08 | 2023-08-08 | 一种会议摄像头的发言人追踪方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117037271A true CN117037271A (zh) | 2023-11-10 |
Family
ID=88631129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310990754.5A Pending CN117037271A (zh) | 2023-08-08 | 2023-08-08 | 一种会议摄像头的发言人追踪方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117037271A (zh) |
-
2023
- 2023-08-08 CN CN202310990754.5A patent/CN117037271A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4616702B2 (ja) | 画像処理 | |
JP4939968B2 (ja) | 監視画像処理方法、監視システム及び監視画像処理プログラム | |
US10991108B2 (en) | Densely compositing angularly separated sub-scenes | |
US11676369B2 (en) | Context based target framing in a teleconferencing environment | |
US8073203B2 (en) | Generating effects in a webcam application | |
US7636453B2 (en) | Object detection | |
JP5088507B2 (ja) | 同一性判定装置、同一性判定方法および同一性判定用プログラム | |
JP3801137B2 (ja) | 侵入物体検出装置 | |
JP2008501172A (ja) | 画像比較方法 | |
JP2009510877A (ja) | 顔検出を利用したストリーミングビデオにおける顔アノテーション | |
JP2009501476A (ja) | ビデオ時間アップコンバージョンを用いた処理方法及び装置 | |
US10943090B2 (en) | Method for face searching in images | |
JP2010057105A (ja) | オブジェクトの3次元追跡方法およびシステム | |
JP4821355B2 (ja) | 人物追跡装置、人物追跡方法および人物追跡プログラム | |
Fujiyoshi et al. | Layered detection for multiple overlapping objects | |
US20220327732A1 (en) | Information processing apparatus, information processing method, and program | |
Rybski et al. | Cameo: Camera assisted meeting event observer | |
KR101468347B1 (ko) | 이미지 내 가상 시각 정보를 식별하는 방법 및 장치 | |
KR100711950B1 (ko) | 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹 | |
CN117037271A (zh) | 一种会议摄像头的发言人追踪方法、系统及存储介质 | |
CN114913452A (zh) | 一种基于办公场所的违规行为检测系统及方法 | |
WO2024062971A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP2000078564A (ja) | テレビカメラモニタ人物追跡方式 | |
CN116958204A (zh) | 一种轻量高效的课堂学生起立坐下检测方法及系统 | |
CN116033110A (zh) | 视频会议发言人显示方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |