CN105915798A - 视频会议中摄像头的控制方法和控制装置 - Google Patents

视频会议中摄像头的控制方法和控制装置 Download PDF

Info

Publication number
CN105915798A
CN105915798A CN201610390131.4A CN201610390131A CN105915798A CN 105915798 A CN105915798 A CN 105915798A CN 201610390131 A CN201610390131 A CN 201610390131A CN 105915798 A CN105915798 A CN 105915798A
Authority
CN
China
Prior art keywords
participant
photographic head
video conference
spokesman
mouth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610390131.4A
Other languages
English (en)
Inventor
陈志军
王百超
杨松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610390131.4A priority Critical patent/CN105915798A/zh
Publication of CN105915798A publication Critical patent/CN105915798A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开是关于一种视频会议中摄像头的控制方法和控制装置,属于智能控制技术领域。所述控制方法包括:获取参加视频会议的参与者的脸部图像;对参与者的脸部图像进行特征识别以确定参与者的嘴部特征;根据连续帧的脸部图像判断参与者的嘴部特征是否有变化;如果判断参与者的嘴部特征有变化,则确定参与者为发言者;以及控制视频会议中的摄像头对发言者进行对焦。实现了对发言者的准确定位,提升视频会议互动性,提升用户使用体验。

Description

视频会议中摄像头的控制方法和控制装置
技术领域
本公开涉及智能控制技术领域,尤其涉及一种视频会议中摄像头的控制方法和控制装置。
背景技术
视频会议,是指位于两个或多个地点的人们,通过通信设备和网络,进行面对面交谈的会议。使用视频会议系统,参会者可以听到其它会场的声音、看到其它会场现场参会人的形象、动作和表情,还可以发送电子演示内容。
但是,在视频会议时,通过摄像头拍摄的区域是固定的,与讲话者位于不同地点的参会者有时无法定位讲话者具体是哪一位,导致视频会议的互动性差,用户使用体验变差。
发明内容
为克服相关技术中存在的问题,本公开提供一种视频会议中摄像头的控制方法和控制装置。
根据本公开实施例的第一方面,提供一种视频会议中摄像头的控制方法,包括:
获取参加视频会议的参与者的脸部图像;
对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征;
根据连续帧的脸部图像判断所述参与者的嘴部特征是否有变化;
如果判断所述参与者的嘴部特征有变化,则确定所述参与者为发言者;以及
控制所述视频会议中的摄像头对所述发言者进行对焦。
如上所述的控制方法,在所述确定所述参与者为发言者之后,还包括:
控制所述摄像头转向所述发言者。
如上所述的控制方法,所述获取参加视频会议的参与者的脸部图像包括:
获取所述视频会议的图像;
对所述视频会议的图像进行人脸识别,以获取所述参加视频会议的参与者的脸部图像。
如上所述的控制方法,所述对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征包括:
对所述参与者的脸部图像进行特征识别,以确定所述脸部图像中嘴部的关键点位置;以及
根据所述嘴部的关键点位置确定所述参与者的嘴部特征。
如上所述的控制方法,还包括:
检测所述发言者与所述摄像头之间的距离;以及
根据所述发言者与所述摄像头之间的距离对所述摄像头的焦距进行调整。
如上所述的控制方法,通过红外距离传感器检测所述发言者与所述摄像头之间的距离。
如上所述的控制方法,还包括:
采集所述发言者的语音信息;
对所述发言者的语音信息进行语音识别以生成文字信息,并根据所述文字信息生成会议纪要。
根据本公开实施例的第二方面,提供一种视频会议中摄像头的控制装置,包括:
图像获取模块,用于获取参加视频会议的参与者的脸部图像;
图像识别模块,用于对所述图像获取模块获取的所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征;
判断模块,用于根据连续帧的脸部图像判断所述图像识别模块确定的所述参与者的嘴部特征是否有变化;
确定模块,用于在所述判断模块判断所述参与者的嘴部特征有变化时,确定所述参与者为发言者;以及
对焦控制模块,用于控制所述视频会议中的摄像头对所述确定模块确定的所述发言者进行对焦。
如上所述的控制装置,还包括:
转动控制模块,用于控制所述摄像头转向所述确定模块确定的所述发言者。
如上所述的控制装置,所述图像获取模块包括:
图像获取单元,用于获取所述视频会议的图像;
识别单元,用于对所述图像获取单元获取的所述视频会议的图像进行人脸识别,以获取所述参加视频会议的参与者的脸部图像。
如上所述的控制装置,所述图像识别模块包括:
关键点位置确定单元,用于对所述参与者的脸部图像进行特征识别,以确定所述脸部图像中嘴部的关键点位置;以及
确定单元,用于根据所述关键点位置确定单元确定的所述嘴部的关键点位置确定所述参与者的嘴部特征。
如上所述的控制装置,所述对焦控制模块,包括:
距离检测单元,用于检测所述发言者与所述摄像头之间的距离;以及
焦距控制单元,用于根据所述发言者与所述摄像头之间的距离对所述摄像头的焦距进行调整。
如上所述的控制装置,所述距离检测模块为红外距离传感器。
如上所述的控制装置,还包括:
采集模块,用于采集所述发言者的语音信息;
生成模块,用于对所述采集模块采集的所述发言者的语音信息进行语音识别以生成文字信息,并根据所述文字信息生成会议纪要。
根据本公开实施例的第三方面,提供一种视频会议中摄像头的控制装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取参加视频会议的参与者的脸部图像;
对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征;
根据连续帧的脸部图像判断所述参与者的嘴部特征是否有变化;
如果判断所述参与者的嘴部特征有变化,则确定所述参与者为发言者;以及
控制所述视频会议中的摄像头对所述发言者进行对焦。
本公开的实施例提供的技术方案可以包括以下有益效果:通过获取参加视频会议的参与者的脸部图像,对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征,根据参与者的嘴部特征的变化,确定所述参与者为发言者,进而控制所述视频会议中的摄像头对所述发言者进行对焦,准确地对发言者进行定位,提升视频会议互动性,提升用户使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图。
图2是确定脸部图像中嘴部的关键点位置的效果示意图。
图3是根据另一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图。
图4是根据一示例性实施例示出的一种视频会议中摄像头的控制装置框图。
图5是根据另一示例性实施例示出的一种视频会议中摄像头的控制装置框图。
图6是根据一示例性实施例示出的一种视频会议中摄像头的控制装置600的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图,如图1所示,视频会议中摄像头的控制方法,包括以下步骤;
在步骤S101中,获取参加视频会议的参与者的脸部图像。
具体地,视频会议系统可通过摄像头获取视频会议的图像,然后对视频会议的图像进行人脸识别,从而获取参加视频会议的参与者的脸部图像。
在步骤S102中,对参与者的脸部图像进行特征识别以确定参与者的嘴部特征。
具体地,可对参与者的脸部图像进行特征识别,根据识别出的特征确定脸部图像中嘴部的关键点位置,然后可根据嘴部的关键点位置确定参与者的嘴部特征。举例来说,如图2所示,可通过ASM(Active Shape Model,动态形状模型)、SDM(Supervised Descent Method,监督倾斜法)、CNN(Convolutional neural networks,卷积神经网络)等算法,确定脸部图像中嘴部的关键点位置。具体地,脸部的几何形状可以通过N个关键特征点的坐标依次串联形成一个形状向量来表示。每个关键特征点均具有对应的坐标。也就是说,只需利用ASM模型等查找到哪些关键特征点是嘴部的(查找样本库中与当前关键特征点相似的嘴部特征样本,以此确认当前关键特征点是否为嘴部),将嘴部的关键特征点与坐标关联起来,即确定嘴部的关键点位置。
在步骤S103中,根据连续帧的脸部图像判断参与者的嘴部特征是否有变化。
具体地,在确定嘴部的关键点位置之后,可通过连续帧的脸部图像查看嘴部的关键点位置是否有变化,从而判断参与者的嘴部特征是否有变化。
在步骤S104中,如果判断参与者的嘴部特征有变化,则确定参与者为发言者。
经过多个连续帧的脸部图像的判断,如果参与者的嘴部特征有变化,即嘴部位置产生位移或者嘴部形状发生变化,则可确定参与者为发言者。
在步骤S105中,控制视频会议中的摄像头对发言者进行对焦。
在确定发言者之后,可控制视频会议中的摄像头对发言者进行对焦。具体地,可通过红外距离传感器检测发言者与摄像头之间的距离,然后根据发言者与摄像头之间的距离对摄像头的焦距进行调整,使得发言者的图像能够清晰,从而完成对焦。
当然,在对发言者进行对焦时,可控制摄像头转向发言者,使发言者位于图像的中心位置,能够突出显示发言者,对发言者进行定位,让其他参与者能够得知当前的发言者是哪一位。
综上,本实施例提供的视频会议中摄像头的控制方法,通过获取参加视频会议的参与者的脸部图像,对参与者的脸部图像进行特征识别以确定参与者的嘴部特征,根据参与者的嘴部特征的变化,确定参与者为发言者,进而控制视频会议中的摄像头对发言者进行对焦,准确地对发言者进行定位,提升视频会议互动性,提升用户使用体验。
图3是根据另一示例性实施例示出的一种视频会议中摄像头的控制方法的流程图,
如图3所示,视频会议中摄像头的控制方法,可以包括如下几个步骤:
在步骤S301中,获取参加视频会议的参与者的脸部图像。
具体地,视频会议系统可通过摄像头获取视频会议的图像,然后对视频会议的图像进行人脸识别,从而获取参加视频会议的参与者的脸部图像。
在步骤S302中,对参与者的脸部图像进行特征识别以确定参与者的嘴部特征。
具体地,可对参与者的脸部图像进行特征识别,根据识别出的特征确定脸部图像中嘴部的关键点位置,然后可根据嘴部的关键点位置确定参与者的嘴部特征。举例来说,如图2所示,可通过ASM(Active Shape Model,动态形状模型)、SDM(Supervised Descent Method,监督倾斜法)、CNN(Convolutional neural networks,卷积神经网络)等算法,确定脸部图像中嘴部的关键点位置。具体地,脸部的几何形状可以通过N个关键特征点的坐标依次串联形成一个形状向量来表示。每个关键特征点均具有对应的坐标。也就是说,只需利用ASM模型等查找到哪些关键特征点是嘴部的(查找样本库中与当前关键特征点相似的嘴部特征样本,以此确认当前关键特征点是否为嘴部),将嘴部的关键特征点与坐标关联起来,即确定嘴部的关键点位置。
在步骤S303中,根据连续帧的脸部图像判断参与者的嘴部特征是否有变化。
具体地,在确定嘴部的关键点位置之后,可通过连续帧的脸部图像查看嘴部的关键点位置是否有变化,从而判断参与者的嘴部特征是否有变化。
在步骤S304中,如果判断参与者的嘴部特征有变化,则确定参与者为发言者。
经过多个连续帧的脸部图像的判断,如果参与者的嘴部特征有变化,即嘴部位置产生位移或者嘴部形状发生变化,则可确定参与者为发言者。
在步骤S305中,控制视频会议中的摄像头对发言者进行对焦。
在确定发言者之后,可控制视频会议中的摄像头对发言者进行对焦。具体地,可通过红外距离传感器检测发言者与摄像头之间的距离,然后根据发言者与摄像头之间的距离对摄像头的焦距进行调整,使得发言者的图像能够清晰,从而完成对焦。
当然,在对发言者进行对焦时,可控制摄像头转向发言者,使发言者位于图像的中心位置,能够突出显示发言者,对发言者进行定位,让其他参与者能够得知当前的发言者是哪一位。
在步骤S306中,采集发言者的语音信息。
在对发言者进行对焦时,视频会议系统还可通过麦克风等录音设备采集发言者的语音信息。
在步骤S307中,对发言者的语音信息进行语音识别以生成文字信息,并根据文字信息生成会议纪要。
在采集发言者的语音信息后,可对语音信息进行语音识别,通过语音转换文本技术将语音信息转换成文字信息,然后记录转换后的文字信息,将上述文字信息作为会议纪要进行保存。
综上,本实施例提供的视频会议中摄像头的控制方法,通过采集发言者的语音信息,然后对发言者的语音信息进行语音识别以生成文字信息,并根据文字信息生成会议纪要,在定位发言者的同时,还可记录发言者的语音信息,省去人工记录会议纪要的繁琐,提升用户使用体验。
图4是根据一示例性实施例示出的一种视频会议中摄像头的控制装置框图,该控制装置可以通过软件、硬件或者两者的结合实现。如图4所示,该控制装置包括图像获取模块11、图像识别模块12、判断模块13、确定模块14和对焦控制模块15。
图像获取模块11被配置为对图像获取模块获取的参与者的脸部图像进行特征识别以确定参与者的嘴部特征。
其中,图像获取模块11包括图像获取单元111和识别单元112。
图像获取单元111被配置为获取视频会议的图像。
识别单元112被配置为对图像获取单元获取的视频会议的图像进行人脸识别,以获取参加视频会议的参与者的脸部图像。
图像识别模块12被配置为根据运动状态信息判断用户的平衡状态是否满足预设要求。
其中,图像识别模块12包括关键点位置确定单元121和确定单元122。
关键点位置确定单元121被配置为对参与者的脸部图像进行特征识别,以确定脸部图像中嘴部的关键点位置。
确定单元122被配置为根据关键点位置确定单元确定的嘴部的关键点位置确定参与者的嘴部特征。
判断模块13被配置为根据连续帧的脸部图像判断图像识别模块确定的参与者的嘴部特征是否有变化。
确定模块14被配置为在判断模块判断参与者的嘴部特征有变化时,确定参与者为发言者。
对焦控制模块15被配置为控制视频会议中的摄像头对确定模块确定的发言者进行对焦。
其中,对焦控制模块15包括距离检测单元151和焦距控制单元152。
距离检测单元151被配置为检测发言者与摄像头之间的距离。
焦距控制单元152被配置为根据发言者与摄像头之间的距离对摄像头的焦距进行调整。
关于上述实施例中的控制装置,其中各个模块执行操作的具体方式已经在有关该控制方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上,本实施例提供的视频会议中摄像头的控制装置,通过获取参加视频会议的参与者的脸部图像,对参与者的脸部图像进行特征识别以确定参与者的嘴部特征,根据参与者的嘴部特征的变化,确定参与者为发言者,进而控制视频会议中的摄像头对发言者进行对焦,准确地对发言者进行定位,提升视频会议互动性,提升用户使用体验。
图5是根据另一示例性实施例示出的一种视频会议中摄像头的控制装置框图,该控制装置可以通过软件、硬件或者两者的结合实现。如图5所示,视频会议中摄像头的控制装置,包括:图像获取模块11、图像识别模块12、判断模块13、确定模块14、对焦控制模块15、转动控制模块16、采集模块17和生成模块18。
其中,图像获取模块11、图像识别模块12、判断模块13、确定模块14、对焦控制模块15与上一实施例描述一致,故此处不赘述。
转动控制模块16被配置为控制摄像头转向确定模块确定的发言者。
采集模块17被配置为采集发言者的语音信息。
生成模块18被配置为对采集模块采集的发言者的语音信息进行语音识别以生成文字信息,并根据文字信息生成会议纪要。
关于上述实施例中的控制装置,其中各个模块执行操作的具体方式已经在有关该控制方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上,本实施例提供的视频会议中摄像头的控制装置,通过采集发言者的语音信息,然后对发言者的语音信息进行语音识别以生成文字信息,并根据文字信息生成会议纪要,在定位发言者的同时,还可记录发言者的语音信息,省去人工记录会议纪要的繁琐,提升用户使用体验。
图6是根据一示例性实施例示出的一种视频会议中摄像头的控制装置600的框图。
如图6所示,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,传感器组件608,以及通信组件610。
处理组件602通常控制控制装置600的整体操作,诸如与显示,数据通信,记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在控制装置600上操作的任何应用程序或方法的指令。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为控制装置600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为控制装置600生成、管理和分配电力相关联的组件。
传感器组件608包括一个或多个传感器,用于为控制装置600提供各个方面的状态评估。传感器组件608可以包括加速度传感器、压力传感器,被配置用来检测加速度和压力值。
通信组件610被配置为便于控制装置600和其他设备之间有线或无线方式的通信。控制装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件610经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。
在示例性实施例中,控制装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由控制装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由视频会议系统的处理器执行时,使得视频会议系统能够执行一种视频会议中摄像头的控制方法,所述控制方法包括:
获取参加视频会议的参与者的脸部图像;
对参与者的脸部图像进行特征识别以确定参与者的嘴部特征;
根据连续帧的脸部图像判断参与者的嘴部特征是否有变化;
如果判断参与者的嘴部特征有变化,则确定参与者为发言者;以及
控制视频会议中的摄像头对发言者进行对焦。
关于上述实施例中的控制装置,其中处理器执行操作的具体方式已经在有关该控制方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (15)

1.一种视频会议中摄像头的控制方法,其特征在于,包括以下步骤:
获取参加视频会议的参与者的脸部图像;
对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征;
根据连续帧的脸部图像判断所述参与者的嘴部特征是否有变化;
如果判断所述参与者的嘴部特征有变化,则确定所述参与者为发言者;以及
控制所述视频会议中的摄像头对所述发言者进行对焦。
2.如权利要求1所述的视频会议中摄像头的控制方法,其特征在于,在所述确定所述参与者为发言者之后,还包括:
控制所述摄像头转向所述发言者。
3.如权利要求1所述的视频会议中摄像头的控制方法,其特征在于,所述获取参加视频会议的参与者的脸部图像包括:
获取所述视频会议的图像;
对所述视频会议的图像进行人脸识别,以获取所述参加视频会议的参与者的脸部图像。
4.如权利要求1所述的视频会议中摄像头的控制方法,其特征在于,所述对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征包括:
对所述参与者的脸部图像进行特征识别,以确定所述脸部图像中嘴部的关键点位置;以及
根据所述嘴部的关键点位置确定所述参与者的嘴部特征。
5.如权利要求1所述的视频会议中摄像头的控制方法,其特征在于,控制所述视频会议中的摄像头对所述发言者进行对焦,包括:
检测所述发言者与所述摄像头之间的距离;以及
根据所述发言者与所述摄像头之间的距离对所述摄像头的焦距进行调整。
6.如权利要求5所述的视频会议中摄像头的控制方法,其特征在于,通过红外距离传感器检测所述发言者与所述摄像头之间的距离。
7.如权利要求1所述的视频会议中摄像头的控制方法,其特征在于,还包括:
采集所述发言者的语音信息;
对所述发言者的语音信息进行语音识别以生成文字信息,并根据所述文字信息生成会议纪要。
8.一种视频会议中摄像头的控制装置,其特征在于,包括:
图像获取模块,用于获取参加视频会议的参与者的脸部图像;
图像识别模块,用于对所述图像获取模块获取的所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征;
判断模块,用于根据连续帧的脸部图像判断所述图像识别模块确定的所述参与者的嘴部特征是否有变化;
确定模块,用于在所述判断模块判断所述参与者的嘴部特征有变化时,确定所述参与者为发言者;以及
对焦控制模块,用于控制所述视频会议中的摄像头对所述确定模块确定的所述发言者进行对焦。
9.如权利要求8所述的视频会议中摄像头的控制装置,其特征在于,还包括:
转动控制模块,用于控制所述摄像头转向所述确定模块确定的所述发言者。
10.如权利要求8所述的视频会议中摄像头的控制装置,其特征在于,所述图像获取模块包括:
图像获取单元,用于获取所述视频会议的图像;
识别单元,用于对所述图像获取单元获取的所述视频会议的图像进行人脸识别,以获取所述参加视频会议的参与者的脸部图像。
11.如权利要求8所述的视频会议中摄像头的控制装置,其特征在于,所述图像识别模块包括:
关键点位置确定单元,用于对所述参与者的脸部图像进行特征识别,以确定所述脸部图像中嘴部的关键点位置;以及
确定单元,用于根据所述关键点位置确定单元确定的所述嘴部的关键点位置确定所述参与者的嘴部特征。
12.如权利要求8所述的视频会议中摄像头的控制装置,其特征在于,所述对焦控制模块,包括:
距离检测单元,用于检测所述发言者与所述摄像头之间的距离;以及
焦距控制单元,用于根据所述发言者与所述摄像头之间的距离对所述摄像头的焦距进行调整。
13.如权利要求12所述的视频会议中摄像头的控制装置,其特征在于,所述距离检测模块为红外距离传感器。
14.如权利要求8所述的视频会议中摄像头的控制装置,其特征在于,还包括:
采集模块,用于采集所述发言者的语音信息;
生成模块,用于对所述采集模块采集的所述发言者的语音信息进行语音识别以生成文字信息,并根据所述文字信息生成会议纪要。
15.一种视频会议中摄像头的控制装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取参加视频会议的参与者的脸部图像;
对所述参与者的脸部图像进行特征识别以确定所述参与者的嘴部特征;
根据连续帧的脸部图像判断所述参与者的嘴部特征是否有变化;
如果判断所述参与者的嘴部特征有变化,则确定所述参与者为发言者;以及
控制所述视频会议中的摄像头对所述发言者进行对焦。
CN201610390131.4A 2016-06-02 2016-06-02 视频会议中摄像头的控制方法和控制装置 Pending CN105915798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610390131.4A CN105915798A (zh) 2016-06-02 2016-06-02 视频会议中摄像头的控制方法和控制装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610390131.4A CN105915798A (zh) 2016-06-02 2016-06-02 视频会议中摄像头的控制方法和控制装置

Publications (1)

Publication Number Publication Date
CN105915798A true CN105915798A (zh) 2016-08-31

Family

ID=56743311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610390131.4A Pending CN105915798A (zh) 2016-06-02 2016-06-02 视频会议中摄像头的控制方法和控制装置

Country Status (1)

Country Link
CN (1) CN105915798A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231236A (zh) * 2016-09-26 2016-12-14 江苏天安智联科技股份有限公司 4g网络车载会议系统
CN107123423A (zh) * 2017-06-07 2017-09-01 微鲸科技有限公司 语音拾取装置及多媒体设备
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN107809596A (zh) * 2017-11-15 2018-03-16 重庆科技学院 基于麦克风阵列的视频会议跟踪系统及方法
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
CN108933915A (zh) * 2017-05-26 2018-12-04 和硕联合科技股份有限公司 视频会议装置与视频会议管理方法
CN109446876A (zh) * 2018-08-31 2019-03-08 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
WO2019134548A1 (zh) * 2018-01-03 2019-07-11 阿里巴巴集团控股有限公司 身份识别的方法、装置及系统
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN111182256A (zh) * 2018-11-09 2020-05-19 中移(杭州)信息技术有限公司 一种信息处理方法及服务器
CN111193890A (zh) * 2018-11-14 2020-05-22 株式会社理光 会议记录解析装置、方法和会议记录播放系统
CN111602414A (zh) * 2018-01-16 2020-08-28 谷歌有限责任公司 视频会议期间控制音频信号聚焦说话者
CN111866421A (zh) * 2019-04-30 2020-10-30 陈筱涵 会议记录系统与会议记录方法
CN112291507A (zh) * 2020-12-25 2021-01-29 游密科技(深圳)有限公司 视频画面的调节方法、装置、电子设备及存储介质
CN112532912A (zh) * 2020-11-20 2021-03-19 北京搜狗科技发展有限公司 一种视频处理方法、装置和电子设备
CN112541402A (zh) * 2020-11-20 2021-03-23 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112788278A (zh) * 2020-12-30 2021-05-11 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质
CN112887652A (zh) * 2021-01-21 2021-06-01 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN113014857A (zh) * 2021-02-25 2021-06-22 游密科技(深圳)有限公司 视频会议显示的控制方法、装置、电子设备及存储介质
CN113473066A (zh) * 2021-05-10 2021-10-01 上海明我信息技术有限公司 一种视频会议画面调整方法
CN113630556A (zh) * 2021-09-26 2021-11-09 北京市商汤科技开发有限公司 聚焦方法、装置、电子设备以及存储介质
CN113873195A (zh) * 2021-08-18 2021-12-31 荣耀终端有限公司 视频会议控制方法、装置和存储介质
CN114067668A (zh) * 2020-08-04 2022-02-18 广州艾美网络科技有限公司 可调多媒体系统及其控制方法
CN114141245A (zh) * 2017-03-14 2022-03-04 谷歌有限责任公司 基于唇部检测的查询端点化
CN116168346A (zh) * 2023-04-21 2023-05-26 独数一智(北京)信息科技有限公司 一种基于学生行为捕捉的远程伴读监督系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1586074A (zh) * 2001-11-13 2005-02-23 皇家飞利浦电子股份有限公司 用于在视频会议期间提供对远端房间中的人的了解的系统和方法
CN101502088A (zh) * 2006-10-11 2009-08-05 思科技术公司 基于对会议参与者的脸部识别的交互
CN201426153Y (zh) * 2009-05-27 2010-03-17 中山佳时光电科技有限公司 用于视频会议智能摄像头控制系统
CN102256098A (zh) * 2010-05-18 2011-11-23 宝利通公司 具有多个语音跟踪摄像机的视频会议端点
CN202068503U (zh) * 2011-05-06 2011-12-07 深圳市江波龙电子有限公司 视频通信系统
CN103167191A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种基于ndn的电话会议中发言者的检测方法
CN104301659A (zh) * 2014-10-24 2015-01-21 四川省科本哈根能源科技有限公司 一种多点视频汇聚识别系统
CN104427292A (zh) * 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104580992A (zh) * 2014-12-31 2015-04-29 广东欧珀移动通信有限公司 一种控制方法及移动终端
CN105049709A (zh) * 2015-06-30 2015-11-11 广东欧珀移动通信有限公司 一种大视角摄像头控制方法及用户终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1586074A (zh) * 2001-11-13 2005-02-23 皇家飞利浦电子股份有限公司 用于在视频会议期间提供对远端房间中的人的了解的系统和方法
CN101502088A (zh) * 2006-10-11 2009-08-05 思科技术公司 基于对会议参与者的脸部识别的交互
CN201426153Y (zh) * 2009-05-27 2010-03-17 中山佳时光电科技有限公司 用于视频会议智能摄像头控制系统
CN102256098A (zh) * 2010-05-18 2011-11-23 宝利通公司 具有多个语音跟踪摄像机的视频会议端点
US20130271559A1 (en) * 2010-05-18 2013-10-17 Polycom, Inc. Videoconferencing Endpoint Having Multiple Voice-Tracking Cameras
CN202068503U (zh) * 2011-05-06 2011-12-07 深圳市江波龙电子有限公司 视频通信系统
CN103167191A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种基于ndn的电话会议中发言者的检测方法
CN104427292A (zh) * 2013-08-22 2015-03-18 中兴通讯股份有限公司 会议纪要的提取方法及装置
CN104301659A (zh) * 2014-10-24 2015-01-21 四川省科本哈根能源科技有限公司 一种多点视频汇聚识别系统
CN104580992A (zh) * 2014-12-31 2015-04-29 广东欧珀移动通信有限公司 一种控制方法及移动终端
CN105049709A (zh) * 2015-06-30 2015-11-11 广东欧珀移动通信有限公司 一种大视角摄像头控制方法及用户终端

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106231236A (zh) * 2016-09-26 2016-12-14 江苏天安智联科技股份有限公司 4g网络车载会议系统
CN114141245A (zh) * 2017-03-14 2022-03-04 谷歌有限责任公司 基于唇部检测的查询端点化
CN107230476A (zh) * 2017-05-05 2017-10-03 众安信息技术服务有限公司 一种自然的人机语音交互方法和系统
CN108933915B (zh) * 2017-05-26 2020-06-16 和硕联合科技股份有限公司 视频会议装置与视频会议管理方法
CN108933915A (zh) * 2017-05-26 2018-12-04 和硕联合科技股份有限公司 视频会议装置与视频会议管理方法
CN107123423A (zh) * 2017-06-07 2017-09-01 微鲸科技有限公司 语音拾取装置及多媒体设备
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN107809596A (zh) * 2017-11-15 2018-03-16 重庆科技学院 基于麦克风阵列的视频会议跟踪系统及方法
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
CN108200515B (zh) * 2017-12-29 2021-01-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
WO2019134548A1 (zh) * 2018-01-03 2019-07-11 阿里巴巴集团控股有限公司 身份识别的方法、装置及系统
CN111602414A (zh) * 2018-01-16 2020-08-28 谷歌有限责任公司 视频会议期间控制音频信号聚焦说话者
CN109446876A (zh) * 2018-08-31 2019-03-08 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
US11580983B2 (en) 2018-08-31 2023-02-14 Baidu Online Network Technology (Beijing) Co., Ltd. Sign language information processing method and apparatus, electronic device and readable storage medium
CN111182256A (zh) * 2018-11-09 2020-05-19 中移(杭州)信息技术有限公司 一种信息处理方法及服务器
CN111193890A (zh) * 2018-11-14 2020-05-22 株式会社理光 会议记录解析装置、方法和会议记录播放系统
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN109474797B (zh) * 2019-01-04 2023-12-08 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统
CN111866421A (zh) * 2019-04-30 2020-10-30 陈筱涵 会议记录系统与会议记录方法
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN114067668A (zh) * 2020-08-04 2022-02-18 广州艾美网络科技有限公司 可调多媒体系统及其控制方法
CN112532912A (zh) * 2020-11-20 2021-03-19 北京搜狗科技发展有限公司 一种视频处理方法、装置和电子设备
CN112541402A (zh) * 2020-11-20 2021-03-23 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112291507A (zh) * 2020-12-25 2021-01-29 游密科技(深圳)有限公司 视频画面的调节方法、装置、电子设备及存储介质
CN112788278A (zh) * 2020-12-30 2021-05-11 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质
CN112887652B (zh) * 2021-01-21 2023-03-14 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN112887652A (zh) * 2021-01-21 2021-06-01 宁波市鄞州声科电子有限公司 一种基于智能麦克风阵列提高网络会议质量的系统及方法
CN113014857A (zh) * 2021-02-25 2021-06-22 游密科技(深圳)有限公司 视频会议显示的控制方法、装置、电子设备及存储介质
CN113473066A (zh) * 2021-05-10 2021-10-01 上海明我信息技术有限公司 一种视频会议画面调整方法
CN113873195A (zh) * 2021-08-18 2021-12-31 荣耀终端有限公司 视频会议控制方法、装置和存储介质
CN113630556A (zh) * 2021-09-26 2021-11-09 北京市商汤科技开发有限公司 聚焦方法、装置、电子设备以及存储介质
CN116168346A (zh) * 2023-04-21 2023-05-26 独数一智(北京)信息科技有限公司 一种基于学生行为捕捉的远程伴读监督系统
CN116168346B (zh) * 2023-04-21 2023-08-18 独数一智(北京)信息科技有限公司 一种基于学生行为捕捉的远程伴读监督系统

Similar Documents

Publication Publication Date Title
CN105915798A (zh) 视频会议中摄像头的控制方法和控制装置
US9641585B2 (en) Automated video editing based on activity in video conference
CN110659397B (zh) 一种行为检测方法、装置、电子设备和存储介质
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
US11128793B2 (en) Speaker tracking in auditoriums
CN101715102A (zh) 在点对点和多点音频/视频会议期间显示动态呼叫者身份
KR101895846B1 (ko) 소셜 네트워킹 툴들과의 텔레비전 기반 상호작용의 용이화
CN109257559A (zh) 一种全景视频会议的图像显示方法、装置及视频会议系统
JP2005045779A (ja) オーディオ装置を管理する方法およびインタフェース・ツール、並びにオーディオ装置を管理するコンピュータが実行するコンピュータ・プログラム製品
CN107483813B (zh) 一种根据手势进行跟踪录播的方法、装置及存储装置
CN111970471B (zh) 基于视频会议的参会人员评分方法、装置、设备及介质
CN113066092A (zh) 视频对象分割方法、装置及计算机设备
US20140327730A1 (en) Optimized video snapshot
US20240119731A1 (en) Video framing based on tracked characteristics of meeting participants
JP2016179149A (ja) 着席判定装置、着席判定方法、及びプログラム
JP7334536B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2022054192A (ja) リモート会議システム、サーバ、写真撮影装置、音声出力方法、及びプログラム
CN104780341B (zh) 一种信息处理方法以及信息处理装置
KR20180130621A (ko) 서비스 공간 내 외현적 행동 반응 분석 장치 및 방법
US12056803B2 (en) Systems and methods for implementing a virtual avatar model for a video conference session
US11743428B2 (en) Detailed videoconference viewpoint generation
Ronzhin et al. A software system for the audiovisual monitoring of an intelligent meeting room in support of scientific and education activities
KR102345666B1 (ko) Ai를 이용한 무인 회의 영상 제공 시스템
CN112511786A (zh) 视频会议音量的调节方法、装置、终端设备及存储介质
CN109983765A (zh) 经由全方位相机的视听传输调整

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160831