CN113411487A - 设备的控制方法、装置、系统和计算机可读存储介质 - Google Patents
设备的控制方法、装置、系统和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113411487A CN113411487A CN202010186320.6A CN202010186320A CN113411487A CN 113411487 A CN113411487 A CN 113411487A CN 202010186320 A CN202010186320 A CN 202010186320A CN 113411487 A CN113411487 A CN 113411487A
- Authority
- CN
- China
- Prior art keywords
- target
- tracked
- image
- information
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Studio Devices (AREA)
Abstract
本公开涉及一种设备的控制方法、装置、系统和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取麦克风设备采集的多项声音信息;根据每项声音信息,确定声音信息对应的目标的标识,以及声音信息对应的目标的第一方位信息;根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识;将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种设备的控制方法、装置、系统和计算机可读存储介质。
背景技术
在节目录制、文艺演出或演讲过程中,为了达到良好的节目效果往往需要频繁移动摄像头对特定人物进行快速实时的跟踪。
目前,摄像头的移动与调整一般需要通过专业人员的操作。尤其在多台摄像头分别拍摄不同的人物或场景的情况下,需要多个专业人员同时进行操作。
发明内容
发明人发现:针对目前主要由专业人员对摄像设备进行调整对任务进行跟踪的方案,希望提出一种可以对摄像设备进行自动控制,提高跟踪效率和准确率的方案。
本公开所要解决的一个技术问题是:如何对摄像设备进行自动控制,实现摄像设备对特定人物的跟踪。
根据本公开的一些实施例,提供的一种设备的控制方法,包括:获取麦克风设备采集的多项声音信息;根据每项声音信息,确定声音信息对应的目标的标识,以及声音信息对应的目标的第一方位信息;根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识;将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
在一些实施例中,该方法,还包括:接收各个摄像设备拍摄的图像;针对每个摄像设备拍摄的图像,识别图像中是否包含摄像设备对应的待跟踪目标的图像;在图像中包含摄像设备对应的待跟踪目标的图像的情况下,根据待跟踪目标在图像中的位置,确定待跟踪目标的第二方位信息;将待跟踪目标的第二方位信息发送至对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
在一些实施例中,该方法,还包括:将待跟踪目标的第二方位信息发送至对应的麦克风设备,以便麦克风设备对第二方位信息对应的方位增强收音。
在一些实施例中,该方法,还包括:在图像中未包含摄像设备对应的待跟踪目标的图像的情况下,将待调整焦距发送至摄像设备;其中,待调整焦距使相对于摄像设备当前焦距更小;接收摄像设备以待调整焦距拍摄的图像;识别图像中是否包含摄像设备对应的待跟踪目标的图像。
在一些实施例中,获取麦克风设备采集的多项声音信息包括:在麦克风设备为麦克风阵列的情况下,对麦克风阵列采集的声音信息进行声音分离,并对分离后的声音信息进行语音活动检测,消除噪音,得到多项声音信息;或者,在麦克风设备为多个定向麦克风的情况下,将每个定向麦克风采集的声音信息进行语音活动检测,消除噪音,得到多项声音信息。
在一些实施例中,根据每项声音信息,确定声音信息对应的目标的标识,以及声音信息对应的目标的第一方位信息包括:针对每项声音信息,提取声音信息的声纹特征;将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配;根据匹配结果,确定各项声音信息对应的目标的标识;利用声源定位算法确定各项声音信息的方位信息,作为声音信息对应的目标的第一方位信息。
在一些实施例中,针对每个摄像设备拍摄的图像,识别图像中是否包含摄像设备对应的待跟踪目标的图像包括:针对每个摄像设备拍摄的图像,提取图像中各个目标的图像特征;根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征;将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对,确定图像中是否包含摄像设备对应的待跟踪目标的图像。
在一些实施例中,根据待跟踪目标在图像中的位置,确定待跟踪目标的第二方位信息包括:确定待跟踪目标的中心点与图像的中心点的距离;在距离超过距离阈值的情况下,根据待跟踪目标的中心点与图像的中心点的相对位置,确定待跟踪目标的第二方位信息。
在一些实施例中,该方法还包括:根据待跟踪目标在图像中所占的比例,确定摄像设备的焦距;将摄像设备的焦距发送至对应的摄像设备,以便摄像设备调整焦距。
在一些实施例中,根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识包括:根据各个摄像设备相对于各个目标的方位信息,计算各个摄像设备相对于各个目标的待调整角度;确定各个摄像设备的待调整角度的总合最小的情况下,每个摄像设备的待跟踪目标的标识。
根据本公开的另一些实施例,提供的一种设备的控制装置,包括:声音获取模块,用于获取麦克风设备采集的多项声音信息;声源确定模块,用于根据每项声音信息,确定声音信息对应的目标的标识,以及声音信息对应的目标的第一方位信息;目标分配模块,用于根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识;发送模块,用于将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
在一些实施例中,该装置还包括:微调模块,用于接收各个摄像设备拍摄的图像;针对每个摄像设备拍摄的图像,识别图像中是否包含摄像设备对应的待跟踪目标的图像;在图像中包含摄像设备对应的待跟踪目标的图像的情况下,根据待跟踪目标在图像中的位置,确定待跟踪目标的第二方位信息;将待跟踪目标的第二方位信息发送至对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
在一些实施例中,微调模块还用于将待跟踪目标的第二方位信息发送至对应的麦克风设备,以便麦克风设备对第二方位信息对应的方位增强收音。
在一些实施例中,微调模块还用于在图像中未包含摄像设备对应的待跟踪目标的图像的情况下,将待调整焦距发送至摄像设备;其中,待调整焦距使相对于摄像设备当前焦距更小;接收摄像设备以待调整焦距拍摄的图像;识别图像中是否包含摄像设备对应的待跟踪目标的图像。
在一些实施例中,声音获取模块用于在麦克风设备为麦克风阵列的情况下,对麦克风阵列采集的声音信息进行声音分离,并对分离后的声音信息进行语音活动检测,消除噪音,得到多项声音信息;或者,在麦克风设备为多个定向麦克风的情况下,将每个定向麦克风采集的声音信息进行语音活动检测,消除噪音,得到多项声音信息。
在一些实施例中,声源确定模块用于针对每项声音信息,提取声音信息的声纹特征;将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配;根据匹配结果,确定各项声音信息对应的目标的标识;利用声源定位算法确定各项声音信息的方位信息,作为声音信息对应的目标的第一方位信息。
在一些实施例中,微调模块用于针对每个摄像设备拍摄的图像,提取图像中各个目标的图像特征;根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征;将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对,确定图像中是否包含摄像设备对应的待跟踪目标的图像。
在一些实施例中,微调模块用于确定待跟踪目标的中心点与图像的中心点的距离;在距离超过距离阈值的情况下,根据待跟踪目标的中心点与图像的中心点的相对位置,确定待跟踪目标的第二方位信息。
在一些实施例中,该装置还包括:焦距调整模块,用于根据待跟踪目标在图像中所占的比例,确定摄像设备的焦距;将摄像设备的焦距发送至对应的摄像设备,以便摄像设备调整焦距。
在一些实施例中,目标分配模块用于根据各个摄像设备相对于各个目标的方位信息,计算各个摄像设备相对于各个目标的待调整角度;确定各个摄像设备的待调整角度的总合最小的情况下,每个摄像设备的待跟踪目标的标识。
根据本公开的又一些实施例,提供的一种设备的控制装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行前述任意实施例的设备的控制方法。
根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例设备的控制方法的步骤。
根据本公开的又一些实施例,提供的一种设备的控制系统,包括:前述任意实施例的设备的控制装置;以及麦克风设备,用于采集的多项声音信息;摄像设备,用于接收设备的控制装置发送的各个待跟踪目标的第一方位信息,并根据第一方位信息自动调整自身的角度对待跟踪目标进行拍摄。
在一些实施例中,摄像设备还用于拍摄图像,将图像发送至设备的控制装置;麦克风设备还用于接收设备的控制装置发送的待跟踪目标的第二方位信息,对第二方位信息对应的方位增强收音。
本公开根据麦克风设备采集的多项声音信息,确定对应的各个目标的第一方位信息,根据各个摄像设备相对于各个目标的方位,为各个摄像设备分配待跟踪目标,将待跟踪目标的第一方位信息发送至该待跟踪目标对应的摄像设备,使各个摄像设备自动调整角度进行拍摄,从而实现摄像设备对特定目标的跟踪。本公开的方案尤其适用于多个摄像设备对多个目标的跟踪,为每个摄像设备分配待跟踪目标考虑各个摄像设备相对于多个目标的方位,能够减少摄像设备调整的角度,提高跟踪的准确性和效率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的设备的控制方法的流程示意图。
图2示出本公开的另一些实施例的设备的控制方法的流程示意图。
图3示出本公开的一些实施例的设备的控制装置的结构示意图。
图4示出本公开的另一些实施例的设备的控制装置的结构示意图。
图5示出本公开的又一些实施例的设备的控制装置的结构示意图。
图6示出本公开的一些实施例的设备的控制系统的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种设备的控制方法,下面结合图1进行描述。
图1为本公开设备的控制方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~108。
在步骤S102,获取麦克风设备采集的多项声音信息。
麦克风设备例如为位于近场的麦克风阵列或者搭载云台的定向麦克风。麦克风阵列可以分散布置于舞台周围,定向麦克风可以设置于会场用于针对个人的发出的声音定向收音等。
在一些实施例中,在麦克风设备为麦克风阵列的情况下,对麦克风阵列采集的声音信息进行声音分离,并对分离后的声音信息进行语音活动检测(VAD),消除噪音,得到多项声音信息。可以采用现有的麦克风阵列盲语音分离算法,对麦克风阵列采集的声音信息进行声音分离,在此不再赘述。在只有一个目标的情况下,也可以不进行声音分离。
在另一些实施例中,在麦克风设备为多个定向麦克风的情况下,将每个定向麦克风采集的声音信息进行语音活动检测,消除噪音,得到多项声音信息。不同的定向麦克风可以采集不同目标的声音,可以不进行语音分离,直接进行VAD和噪音的消除即可得到多项声音信息。
在步骤S104中,根据每项声音信息,确定声音信息对应的目标的标识,以及声音信息对应的目标的第一方位信息。
在一些实施例中,针对每项声音信息,提取声音信息的声纹特征;将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配;根据匹配结果,确定各项声音信息对应的目标的标识;利用声源定位算法确定各项声音信息的方位信息,作为声音信息对应的目标的第一方位信息。
将处理后的各项声音信息通过基于深度学习的声纹识别模型进行特征的提取,得到各项声音信息的声纹特征。例如,声纹识别模型可以采用以下方法进行训练。采集一定量的声纹数据集,并对其进行清洗以及预处理,提取声纹的MFCC(Mel-scale FrequencyCepstral Coefficient,梅尔频率倒谱系数)特征,提取的各个MFCC特征,作为训练数据。将训练数据输入声纹识别模型进行训练,最终得到训练好的模型。声纹识别模型可以为VGG(Visual Geometry Group,牛津大学计算机视觉组)模型,可以在VGG中加入残差结构以提高网络的准确性。可以取训练好的VGG网络的倒数第二层输出的特征作为声纹特征。
对于各个目标,可以针对各个目标预先录制的声音提取声纹特征并进行存储。将前述处理后的各项声音信息提取声纹特征后,与预先存储的各个目标的声纹特征进行匹配。例如,如果一项声音信息的声纹特征与预先存储的一个目标的声纹特征相似度大于阈值,则认为该项声音信息为该目标发出的,从而确定该项声音信息对应的目标的标识。
可以利用现有的声源定位算法,确定各项声音信息的方位信息。例如,可以利用TODA(到达时间差)算法确定各项声音信息的方位信息。每项声音信息的方位信息可以包括:对应的声源相对于预设点(例如,舞台中心)的偏离角度信息或者以预设点为原点的坐标系中的坐标信息等,可以根据实际需求选取方位信息的表示方法,不限于所举示例。各项声音信息的方位信息即该声音信息对应的目标的第一方位信息。
在步骤S106中,根据各个摄像设备相对于各个目标的方位,确定每个摄像设备的待跟踪目标的标识。
根据各个目标的第一方位信息和各个摄像设备的位置,可以确定各个摄像设备相对于各个目标的方位。在一些实施例中,根据各个摄像设备相对于各个目标的方位信息,计算各个摄像设备相对于各个目标的待调整角度;确定各个摄像设备的待调整角度的总合最小的情况下,每个摄像设备的待跟踪目标的标识。可以设置目标函数计算各个摄像设备待调整的角度的总合,确定目标函数值最小的情况下,各个摄像设备对应的目标,从而确定各个摄像设备的待跟踪目标的标识。
采用上述方法,可以减少摄像设备的调整幅度,提高目标的追踪效率。在另一些实施例中,根据各个摄像设备相对于各个目标的方位信息,计算各个摄像设备相对于各个目标的距离;确定各个摄像设备的对应的距离的总合最小的情况下,每个摄像设备的待跟踪目标的标识。当然,如果各个摄像设备如果预设对应的跟踪目标的标识,则可以不执行该步骤。
在步骤S108中,将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
也可以将待调整角度发送至对应的各个摄像设备。摄像设备上可以设置自动调整机构,可以根据第一方位信息或待调整角度自动转动摄像头,使摄像头对准待跟踪目标。也可以将待跟踪目标的标识与对应的第一方位信息或待调整角度在数据库进行存储,将待跟踪目标的标识发送至对应的摄像设备,摄像设备根据待跟踪目标的标识获取对应的第一方位信息或待调整角度,再进行相应的调整。
上述实施例根据麦克风设备采集的多项声音信息,确定对应的各个目标的第一方位信息,根据各个摄像设备相对于各个目标的方位,为各个摄像设备分配待跟踪目标,将待跟踪目标的第一方位信息发送至该待跟踪目标对应的摄像设备,使各个摄像设备自动调整角度进行拍摄,从而实现摄像设备对特定目标的跟踪。上述实施例的方案尤其适用于多个摄像设备对多个目标的跟踪,为每个摄像设备分配待跟踪目标考虑各个摄像设备相对于多个目标的方位,能够减少摄像设备调整的角度,提高跟踪的准确性和效率。
下面结合图2描述本公开设备的控制方法的另一些实施例。
图2为本公开设备的控制方法另一些实施例的流程图。如图2所示,在步骤S108之后还包括:步骤S202~210。
在步骤S202中,接收各个摄像设备拍摄的图像。
在步骤S204中,针对每个摄像设备拍摄的图像,识别图像中是否包含摄像设备对应的待跟踪目标的图像,如果是,则执行步骤S206,否则执行步骤S205~S209。
在一些实施例中,针对每个摄像设备拍摄的图像,提取图像中各个目标的图像特征;根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征;将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对,确定图像中是否包含该摄像设备对应的待跟踪目标的图像。可以通过基于深度学习的图像检测模型(例如,人脸识别模型)确定图像中是否包含该摄像设备对应的待跟踪目标的图像。例如,在将提取的目标的图像特征与待跟踪目标的图像特征的相似度超过某一阈值的情况下,将提取的目标确定为待跟踪目标。
在步骤S205中,针对图像中不包含该摄像设备对应的待跟踪目标的图像的摄像设备,将待调整焦距发送至该摄像设备。
如果摄像设备根据前述实施例中的第一方位信息或待调整角度进行调整后没有拍摄到待跟踪目标的图像,则可以调整摄像设备的焦距。待调整焦距使相对于摄像设备当前焦距更小,则可以扩大摄像设备的拍摄范围。可以根据预设步长确定待调整焦距,例如,当前焦距减去预设步长。也可以直接将预设焦距作为待调整焦距。
在步骤S207中,接收该摄像设备以待调整焦距拍摄的图像。
在步骤S209中,识别图像中是否包含该摄像设备对应的待跟踪目标的图像。
摄像设备进行焦距变化后,可以对尽可能多的目标进行图像采集,可以将与待跟踪目标相似度最高的目标识别为待跟踪目标,之后直接执行步骤S206。也可以按照前述实施例的方法准确识别图像中是否包含待跟踪目标,如果是,则执行步骤S206,否则,可以返回步骤S205重新开始执行。
在返回步骤S205之前,可以判断该摄像设备是否达到最小焦距,如果是,则可以返回步骤S102重新开始执行。摄像设备已调整到最小焦距,但是仍然无法识别到待跟踪目标的情况比较少,如果发生这种情况,有可能是声音识别出错,可以重新进行声音的采集,重新调整各个摄像设备。
在步骤S206中,根据待跟踪目标在图像中的位置,确定待跟踪目标的第二方位信息。
根据待跟踪目标在图像中的位置,可以确定待跟踪目标的第二方位信息从而实现进一步精确调整(微调)。在一些实施例中,确定待跟踪目标的中心点与图像的中心点的距离;在距离超过距离阈值的情况下,根据待跟踪目标的中心点与图像的中心点的相对位置,确定待跟踪目标的第二方位信息。也可以确定待跟踪目标的中心点相对于图像的中心点的偏离角度;在偏离角度超过角度阈值的情况下,根据待跟踪目标的中心点与图像的中心点的相对位置,确定待跟踪目标的第二方位信息。即当待跟踪目标在图像中偏离中心一定范围的情况下,进行进一步精确调整。通过不断的精确调整,可以实现摄像设备对待跟踪目标的跟拍。
在步骤S208中,将待跟踪目标的第二方位信息发送至对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
也可以根据第二方位信息确定摄像设备的微调角度,将该微调角度发送至对应的摄像设备。
在一些实施例中,根据待跟踪目标在图像中所占的比例,确定摄像设备的焦距;将摄像设备的焦距发送至对应的摄像设备,以便摄像设备调整焦距。可以设置待跟踪目标在图像中所占的预设比例,在待跟踪目标在图像中所占的比例小于预设比例的情况下,调整摄像设备的焦距。
在步骤S210中,将待跟踪目标的第二方位信息发送至对应的麦克风设备,以便麦克风设备对第二方位信息对应的方位增强收音。
在麦克风设备为麦克风阵列的情况下,可以将第二方位信息发送至麦克风阵列,使其增强对第二方位信息对应的方位增强的收音。在麦克风设备为定向麦克风的情况下,可以将第二方位信息发送至对应的定向麦克风,定向麦克风可以根据第二方位信息自动调整角度进行收音。
上述实施例的方法,在根据麦克风设备采集的声音信息对摄像设备进行初步调整的情况下,进一步根据摄像设备采集的图像对摄像设备和麦克风设备进行自动精确调整,以实现准确的目标跟踪拍摄和高效的收音。可以基于系统的控制,在需要摄像设备进行精确调整的情况下,触发上述实施例的过程。如果不存在对应发出声音的目标或者不需要目标跟踪时,则进行全场景采集,不触发跟踪任务。在待跟踪目标大幅度移动时,如当摄像设备无法追踪到待跟踪目标时,可以通过声纹识别和声源定位技术实现待跟踪目标的初步定位,之后利用目标检测等技术来控制摄像设备,实现目标的跟踪。在待跟踪目标小范围移动没有离开摄像设备的拍摄范围时,可以通过目标检测或跟踪技术进行摄像设备的微调,同时对麦克风设备进行调节实现准确收声。
本公开还提供一种设备的控制装置,下面结合图3进行描述。
图3为本公开设备的控制装置的一些实施例的结构图。如图3所示,该实施例的装置30包括:声音获取模块310,声源确定模块320,目标分配模块330,发送模块340。
声音获取模块310用于获取麦克风设备采集的多项声音信息。
在一些实施例中,声音获取模块310用于在麦克风设备为麦克风阵列的情况下,对麦克风阵列采集的声音信息进行声音分离,并对分离后的声音信息进行语音活动检测,消除噪音,得到多项声音信息;或者,在麦克风设备为多个定向麦克风的情况下,将每个定向麦克风采集的声音信息进行语音活动检测,消除噪音,得到多项声音信息。
声源确定模块320用于根据每项声音信息,确定声音信息对应的目标的标识,以及声音信息对应的目标的第一方位信息。
在一些实施例中,声源确定模块320用于针对每项声音信息,提取声音信息的声纹特征;将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配;根据匹配结果,确定各项声音信息对应的目标的标识;利用声源定位算法确定各项声音信息的方位信息,作为声音信息对应的目标的第一方位信息。
目标分配模块330用于根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识。
在一些实施例中,目标分配模块330用于根据各个摄像设备相对于各个目标的方位信息,计算各个摄像设备相对于各个目标的待调整角度;确定各个摄像设备的待调整角度的总合最小的情况下,每个摄像设备的待跟踪目标的标识。
发送模块340用于将各个待跟踪目标的第一方位信息发送至待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
在一些实施例中,该装置30还包括:微调模块350,用于接收各个摄像设备拍摄的图像;针对每个摄像设备拍摄的图像,识别图像中是否包含摄像设备对应的待跟踪目标的图像;在图像中包含摄像设备对应的待跟踪目标的图像的情况下,根据待跟踪目标在图像中的位置,确定待跟踪目标的第二方位信息;将待跟踪目标的第二方位信息发送至对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
在一些实施例中,微调模块350用于针对每个摄像设备拍摄的图像,提取图像中各个目标的图像特征;根据摄像设备对应的待跟踪目标的标识查找预先存储的待跟踪目标的图像特征;将提取的各个目标的图像特征与待跟踪目标的图像特征进行比对,确定图像中是否包含摄像设备对应的待跟踪目标的图像。
在一些实施例中,微调模块350用于确定待跟踪目标的中心点与图像的中心点的距离;在距离超过距离阈值的情况下,根据待跟踪目标的中心点与图像的中心点的相对位置,确定待跟踪目标的第二方位信息。
在一些实施例中,微调模块350还用于将待跟踪目标的第二方位信息发送至对应的麦克风设备,以便麦克风设备对第二方位信息对应的方位增强收音。
在一些实施例中,微调模块350还用于在图像中未包含摄像设备对应的待跟踪目标的图像的情况下,将待调整焦距发送至摄像设备;其中,待调整焦距使相对于摄像设备当前焦距更小;接收摄像设备以待调整焦距拍摄的图像;识别图像中是否包含摄像设备对应的待跟踪目标的图像。
在一些实施例中,该装置30还包括:焦距调整模块360,用于根据待跟踪目标在图像中所占的比例,确定摄像设备的焦距;将摄像设备的焦距发送至对应的摄像设备,以便摄像设备调整焦距。
本公开的实施例中的设备的控制装置可各由各种计算设备或计算机系统来实现,下面结合图4以及图5进行描述。
图4为本公开设备的控制装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行本公开中任意一些实施例中的设备的控制方法。
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图5为本公开设备的控制装置的另一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及处理器520,分别与存储器410以及处理器420类似。还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530,540,550以及存储器510和处理器520之间例如可以通过总线560连接。其中,输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口550为SD卡、U盘等外置存储设备提供连接接口。
本公开还提供一种设备的控制系统,下面结合图6进行描述。
图6为本公开设备的控制系统的一些实施例的结构图。如图6所示,该实施例的系统6包括:设备的控制装置30/40/50,以及麦克风设备62,摄像设备64。
麦克风设备62用于采集的多项声音信息。
摄像设备64用于接收设备的控制装置30/40/50发送的各个待跟踪目标的第一方位信息,并根据第一方位信息自动调整自身的角度对待跟踪目标进行拍摄。
在一些实施例中,摄像设备64还用于拍摄图像,将图像发送至设备的控制装置30/40/50;麦克风设备62还用于接收设备的控制装置30/40/50发送的待跟踪目标的第二方位信息,对第二方位信息对应的方位增强收音。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (15)
1.一种设备的控制方法,包括:
获取麦克风设备采集的多项声音信息;
根据每项声音信息,确定所述声音信息对应的目标的标识,以及所述声音信息对应的目标的第一方位信息;
根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识;
将各个待跟踪目标的第一方位信息发送至所述待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
2.根据权利要求1的控制方法,还包括:
接收各个摄像设备拍摄的图像;
针对每个摄像设备拍摄的图像,识别所述图像中是否包含所述摄像设备对应的待跟踪目标的图像;
在所述图像中包含所述摄像设备对应的待跟踪目标的图像的情况下,根据所述待跟踪目标在图像中的位置,确定所述待跟踪目标的第二方位信息;
将所述待跟踪目标的第二方位信息发送至对应的摄像设备,以便所述摄像设备自动调整角度进行拍摄。
3.根据权利要求2的控制方法,还包括:
将所述待跟踪目标的第二方位信息发送至对应的麦克风设备,以便所述麦克风设备对所述第二方位信息对应的方位增强收音。
4.根据权利要求2的控制方法,还包括:
在所述图像中未包含所述摄像设备对应的待跟踪目标的图像的情况下,将待调整焦距发送至所述摄像设备;其中,所述待调整焦距使相对于所述摄像设备当前焦距更小;
接收所述摄像设备以所述待调整焦距拍摄的图像;
识别所述图像中是否包含所述摄像设备对应的待跟踪目标的图像。
5.根据权利要求1的控制方法,其中,
所述获取麦克风设备采集的多项声音信息包括:
在所述麦克风设备为麦克风阵列的情况下,对麦克风阵列采集的声音信息进行声音分离,并对分离后的声音信息进行语音活动检测,消除噪音,得到多项声音信息;
或者,在所述麦克风设备为多个定向麦克风的情况下,将每个定向麦克风采集的声音信息进行语音活动检测,消除噪音,得到多项声音信息。
6.根据权利要求1的控制方法,其中,
所述根据每项声音信息,确定所述声音信息对应的目标的标识,以及所述声音信息对应的目标的第一方位信息包括:
针对每项声音信息,提取所述声音信息的声纹特征;
将各项声音信息的声纹特征与预先存储的各个目标的声纹特征进行匹配;
根据匹配结果,确定各项声音信息对应的目标的标识;
利用声源定位算法确定各项声音信息的方位信息,作为所述声音信息对应的目标的第一方位信息。
7.根据权利要求2的控制方法,其中,
针对每个摄像设备拍摄的图像,识别所述图像中是否包含所述摄像设备对应的待跟踪目标的图像包括:
针对每个摄像设备拍摄的图像,提取所述图像中各个目标的图像特征;
根据所述摄像设备对应的待跟踪目标的标识查找预先存储的所述待跟踪目标的图像特征;
将提取的各个目标的图像特征与所述待跟踪目标的图像特征进行比对,确定所述图像中是否包含所述摄像设备对应的待跟踪目标的图像。
8.根据权利要求2的控制方法,其中,
根据所述待跟踪目标在图像中的位置,确定所述待跟踪目标的第二方位信息包括:
确定所述待跟踪目标的中心点与所述图像的中心点的距离;
在所述距离超过距离阈值的情况下,根据所述待跟踪目标的中心点与所述图像的中心点的相对位置,确定所述待跟踪目标的第二方位信息。
9.根据权利要求2的控制方法,还包括:
根据所述待跟踪目标在图像中所占的比例,确定所述摄像设备的焦距;
将所述摄像设备的焦距发送至对应的摄像设备,以便所述摄像设备调整焦距。
10.根据权利要求1的控制方法,其中,
所述根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识包括:
根据各个摄像设备相对于各个目标的方位信息,计算各个摄像设备相对于各个目标的待调整角度;
确定各个摄像设备的待调整角度的总合最小的情况下,每个摄像设备的待跟踪目标的标识。
11.一种设备的控制装置,包括:
声音获取模块,用于获取麦克风设备采集的多项声音信息;
声源确定模块,用于根据每项声音信息,确定所述声音信息对应的目标的标识,以及所述声音信息对应的目标的第一方位信息;
目标分配模块,用于根据各个摄像设备相对于各个目标的方位信息,确定每个摄像设备的待跟踪目标的标识;
发送模块,用于将各个待跟踪目标的第一方位信息发送至所述待跟踪目标对应的摄像设备,以便摄像设备自动调整角度进行拍摄。
12.一种设备的控制装置,包括:
处理器;以及
耦接至所述处理器的存储器,用于存储指令,所述指令被所述处理器执行时,使所述处理器执行如权利要求1-10任一项所述的设备的控制方法。
13.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。
14.一种设备的控制系统,包括:权利要求11或12所述的设备的控制装置;以及
麦克风设备,用于采集的多项声音信息;
摄像设备,用于接收所述设备的控制装置发送的各个待跟踪目标的第一方位信息,并根据所述第一方位信息自动调整自身的角度对待跟踪目标进行拍摄。
15.根据权利要求14所述的控制系统,其中,
所述摄像设备还用于拍摄图像,将图像发送至所述设备的控制装置;
所述麦克风设备还用于接收所述设备的控制装置发送的待跟踪目标的第二方位信息,对所述第二方位信息对应的方位增强收音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010186320.6A CN113411487B (zh) | 2020-03-17 | 2020-03-17 | 设备的控制方法、装置、系统和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010186320.6A CN113411487B (zh) | 2020-03-17 | 2020-03-17 | 设备的控制方法、装置、系统和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113411487A true CN113411487A (zh) | 2021-09-17 |
CN113411487B CN113411487B (zh) | 2023-08-01 |
Family
ID=77677138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010186320.6A Active CN113411487B (zh) | 2020-03-17 | 2020-03-17 | 设备的控制方法、装置、系统和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113411487B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103957359A (zh) * | 2014-05-15 | 2014-07-30 | 深圳市中兴移动通信有限公司 | 摄像装置及其对焦方法 |
JP2017028529A (ja) * | 2015-07-23 | 2017-02-02 | パナソニックIpマネジメント株式会社 | モニタリングシステム及びモニタリング方法 |
US20180046864A1 (en) * | 2016-08-10 | 2018-02-15 | Vivint, Inc. | Sonic sensing |
CN107948524A (zh) * | 2017-12-21 | 2018-04-20 | 重庆金鑫科技产业发展有限公司 | 一种摄像头 |
CN108513063A (zh) * | 2018-03-19 | 2018-09-07 | 苏州科技大学 | 一种自动捕捉的智能会议拍摄系统 |
CN108900787A (zh) * | 2018-06-20 | 2018-11-27 | 广州视源电子科技股份有限公司 | 图像显示方法、装置、系统及设备、可读存储介质 |
CN109754811A (zh) * | 2018-12-10 | 2019-05-14 | 平安科技(深圳)有限公司 | 基于生物特征的声源追踪方法、装置、设备及存储介质 |
CN109997370A (zh) * | 2016-09-30 | 2019-07-09 | 搜诺思公司 | 多取向回放设备麦克风 |
CN110062200A (zh) * | 2018-01-19 | 2019-07-26 | 浙江宇视科技有限公司 | 视频监控方法、装置、网络摄像机及存储介质 |
CN110691196A (zh) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | 一种音频设备的声源定位的方法及音频设备 |
CN110830708A (zh) * | 2018-08-13 | 2020-02-21 | 深圳市冠旭电子股份有限公司 | 一种追踪摄像方法、装置及终端设备 |
-
2020
- 2020-03-17 CN CN202010186320.6A patent/CN113411487B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103957359A (zh) * | 2014-05-15 | 2014-07-30 | 深圳市中兴移动通信有限公司 | 摄像装置及其对焦方法 |
JP2017028529A (ja) * | 2015-07-23 | 2017-02-02 | パナソニックIpマネジメント株式会社 | モニタリングシステム及びモニタリング方法 |
US20180046864A1 (en) * | 2016-08-10 | 2018-02-15 | Vivint, Inc. | Sonic sensing |
CN109997370A (zh) * | 2016-09-30 | 2019-07-09 | 搜诺思公司 | 多取向回放设备麦克风 |
CN107948524A (zh) * | 2017-12-21 | 2018-04-20 | 重庆金鑫科技产业发展有限公司 | 一种摄像头 |
CN110062200A (zh) * | 2018-01-19 | 2019-07-26 | 浙江宇视科技有限公司 | 视频监控方法、装置、网络摄像机及存储介质 |
CN108513063A (zh) * | 2018-03-19 | 2018-09-07 | 苏州科技大学 | 一种自动捕捉的智能会议拍摄系统 |
CN108900787A (zh) * | 2018-06-20 | 2018-11-27 | 广州视源电子科技股份有限公司 | 图像显示方法、装置、系统及设备、可读存储介质 |
CN110830708A (zh) * | 2018-08-13 | 2020-02-21 | 深圳市冠旭电子股份有限公司 | 一种追踪摄像方法、装置及终端设备 |
CN109754811A (zh) * | 2018-12-10 | 2019-05-14 | 平安科技(深圳)有限公司 | 基于生物特征的声源追踪方法、装置、设备及存储介质 |
CN110691196A (zh) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | 一种音频设备的声源定位的方法及音频设备 |
Non-Patent Citations (1)
Title |
---|
谢剑斌,陈章永,刘通,李沛秦,闫玮,王勇, 国防科技大学出版社, pages: 134 - 138 * |
Also Published As
Publication number | Publication date |
---|---|
CN113411487B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402627B2 (en) | Method and apparatus for determining identity identifier of face in face image, and terminal | |
CN106991395B (zh) | 信息处理方法、装置及电子设备 | |
CN110434853B (zh) | 一种机器人控制方法、装置及存储介质 | |
CN108257178B (zh) | 用于定位目标人体的位置的方法和装置 | |
US20090147995A1 (en) | Information processing apparatus and information processing method, and computer program | |
WO2015172630A1 (zh) | 摄像装置及其对焦方法 | |
CN112307868B (zh) | 图像识别方法、电子设备和计算机可读介质 | |
JP5355446B2 (ja) | 移動物体追跡システムおよび移動物体追跡方法 | |
CN110675433A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
JP5061382B2 (ja) | 時系列データの識別装置および動画像への人物メタ情報付与装置 | |
CN110941992B (zh) | 微笑表情检测方法、装置、计算机设备及存储介质 | |
CN110400566B (zh) | 识别方法和电子设备 | |
CN111722186A (zh) | 基于声源定位的拍摄方法、装置、电子设备及存储介质 | |
CN109902681B (zh) | 用户群体关系确定方法、装置、设备及存储介质 | |
WO2012175447A1 (en) | Dynamic gesture recognition process and authoring system | |
JP2013167986A (ja) | 画像認識システム、画像認識方法 | |
CN111695502A (zh) | 用于人脸识别的特征更新方法、装置和计算机设备 | |
CN111626263B (zh) | 一种视频感兴趣区域检测方法、装置、设备及介质 | |
CN112001334A (zh) | 人像识别装置 | |
JP6903117B2 (ja) | 顔識別方法、顔識別装置、およびコンピュータが読出し可能な非一時的媒体 | |
CN113095261B (zh) | 基于枪球联动的监控方法、系统、设备及存储介质 | |
CN113411487B (zh) | 设备的控制方法、装置、系统和计算机可读存储介质 | |
CN109165572B (zh) | 用于生成信息的方法和装置 | |
Mukherjee et al. | Energy efficient face recognition in mobile-fog environment | |
CN116363171A (zh) | 一种融合点云与图像信息的三维多目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |