CN111722186B - 基于声源定位的拍摄方法、装置、电子设备及存储介质 - Google Patents
基于声源定位的拍摄方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111722186B CN111722186B CN202010617286.3A CN202010617286A CN111722186B CN 111722186 B CN111722186 B CN 111722186B CN 202010617286 A CN202010617286 A CN 202010617286A CN 111722186 B CN111722186 B CN 111722186B
- Authority
- CN
- China
- Prior art keywords
- sound source
- position information
- sound
- source position
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004807 localization Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000005236 sound signal Effects 0.000 claims description 40
- 230000001502 supplementing effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000009434 installation Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/28—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Studio Devices (AREA)
Abstract
本发明涉及人工智能,提供一种基于声源定位的拍摄方法,该方法包括:接收拍摄指令,采集声音信息;对所述声音信息进行声源定位,得到备选声源位置信息;对所述备选声源位置信息进行分析,确定目标声源位置信息;获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;基于所述调整角度调整所述摄像单元的拍摄角度;控制所述摄像单元进行拍摄。此外,本发明还涉及区块链技术,所述声音信息可存储于区块链中。本发明还提供一种拍摄装置、电子设备及计算机可读存储介质。利用本发明,可提高声源定位准确性及拍摄效率。
Description
技术领域
本发明涉及人工智能及声源定位技术领域,尤其涉及一种基于声源定位的拍摄方法、装置、电子设备及计算机可读存储介质。
背景技术
在远程视频教学的应用场景中,当前的远程培训课堂的授课室,现有摄像头和灯光照射角度固定,但在被拍摄目标特别是授课老师走动时,无法变动摄像头及灯光照射角度,导致拍摄的视频图像质量不好。
现有技术中可以采取声源定位控制摄像头和灯光调整角度。然而,传统的声源定位得到的声源位置信息容易受到外界声音干扰,使得声源定位结果不准确,从而使得摄像头与灯光的调整角度计算出现错误。
因此,亟需提供一种能提高声源定位准确度的智能拍摄方法。
发明内容
鉴于以上内容,本发明提供一种基于声源定位的拍摄方法、装置、电子设备及计算机可读存储介质,其主要目的在于通过提高声源定位的准确性提高拍摄效率。
为实现上述目的,本发明提供一种基于声源定位的拍摄方法,该方法包括:
接收拍摄指令,控制所述声音采集单元采集声音信息;
利用声源定位算法对所述声音信息进行定位分析,得到所述声音信息对应的备选声源位置信息;
对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息;
获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;
当所述调整角度大于或等于预设角度阈值时,基于所述调整角度调整所述摄像单元的拍摄角度;及
控制所述摄像单元进行拍摄。
此外,为实现上述目的,本发明还提供一种拍摄装置,该装置包括:
声音采集模块,用于接收拍摄指令,控制所述声音采集单元采集声音信息;
第一定位模块,用于利用声源定位算法对所述声音信息进行定位分析,得到所述声音信息对应的备选声源位置信息;
第二定位模块,用于对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息;
计算模块,用于获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;
调整模块,用于当所述调整角度大于或等于预设角度阈值时,基于所述调整角度调整所述摄像单元的拍摄角度;及
拍摄模块,用于控制所述摄像单元进行拍摄。
此外,为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的基于声源定位的拍摄程序,所述基于声源定位的拍摄程序被所述处理器执行时可实现如上所述基于声源定位的拍摄方法中的任意步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于声源定位的拍摄程序,所述基于声源定位的拍摄程序被处理器执行时,可实现如上所述基于声源定位的拍摄方法中的任意步骤。
本发明提供的基于声源定位的拍摄方法、装置、电子设备及计算机可读存储介质,接收拍摄指令,采集声音信息;对所述声音信息进行声源定位,得到备选声源位置信息;对所述备选声源位置信息进行分析,确定目标声源位置信息;获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;基于所述调整角度调整所述摄像单元的拍摄角度;控制所述摄像单元进行拍摄。在识别到备选声源位置信息后,从备选声源位置信息中筛选出目标声源位置信息,提高了声源定位的准确性;考虑到摄像头的拍摄范围,当且仅当目标声源位置信息与初始声源位置信息满足一定条件时才调整摄像头的角度,而不是声源位置信息发生变化即调整摄像头,减少能源消耗,使拍摄更智能。
附图说明
图1为本发明基于声源定位的拍摄方法的一实施例的流程步骤图;
图2为本发明拍摄装置的模块示意图;
图3为本发明电子设备一可选的硬件架构的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种基于声源定位的拍摄方法。该方法可以由一个电子设备执行,所述电子设备可以由软件和/或硬件实现。
参照图1所示,为本发明基于声源定位的拍摄方法一实施例的流程步骤图。
在本实施例中,所述基于声源定位的拍摄方法包括:步骤S1-步骤S6。
步骤S1,接收拍摄指令,控制所述声音采集单元采集声音信息;
以远程视频教学为例对本方案进行解释说明。由于现有的摄像头及灯光照射角度固定,当被摄像头拍摄的目标对象(例如授课老师)走动位置变化较大的时候,摄像头无法跟随目标对象移动、照射角度固定的灯光无法跟随待识别目标移动而智能补光,导致拍摄的视频图像质量不好,例如人脸出现阴影,影响远程授课整体效果,降低了教学质量。
因此,在本实施例中,利用声源定位算法确定目标对象的位置信息,根据目标对象的位置信息实时调整摄像头角度及补光灯的偏转角度,使摄像头和补光灯始终朝向待识别目标,避免摄像头拍摄的视频图像由于存在角度和光线问题影响教学质量。
在本实施例中,上述拍摄指令可以是被拍摄对象通过客户端发出,也可以是除被拍摄对象的其他人通过客户端发出。
上述声音采集单元用于采集声音信息,上述声音信息包括声音信号和不同声音采集模块接收所述声音信号的时间差。
上述声音采集单元可以是驻极体麦克风阵列,MEMS麦克风阵列。麦克风阵列可以是一组位于空间不同位置的声学传感器按照一定的形状规则布置形成的阵列,是对空间传播的声音信号进行空间采样的一种装置。麦克风阵列中声学传感器被布置形成的形状排列规则,可以称为是麦克风阵列的拓扑结构,根据麦克风阵列的拓扑结构,可以将麦克风阵列分为线性麦克风阵列、平面麦克风阵列和立体麦克风阵列。作为一个示例,线性麦克风阵列可以表示麦克风阵列的阵元中心位于同一条直线上,例如水平阵列;平面麦克风阵列可以表示麦克风阵列的阵元中心分布在一个平面上,例如三角形阵列、圆形阵列、T型阵列、L型阵列、方型阵列等;立体麦克风阵阵列可以表示麦克风阵列的阵元中心分布在立体空间中,例如多面体阵列、球形阵列等。
当采集到声音信号后,分别获取各个声音采集单元接收到声音信号的接收时间,分别计算各个声音采集单元接收到所述声音信号的时间差,例如在麦克风拾取到周围环境人发出的声音时,记录下人声并获取此刻的时间,可想而知由于麦克风的安装位置不同,声音到达的时间也并不相同,因此存在一定的时间差异。
步骤S2,利用声源定位算法对所述声音信息进行定位分析,得到所述声音信息对应的备选声源位置信息;
在本实施例中,某一空间内(例如,教室、会议室、摄像棚等)可以安装有多个麦克风,通过至少两个麦克风获取的声音信号和其分别接收到声音信号的时间差值,并获取预先存储的位置信息,以及声音的传播速度,计算出声源所在的位置信息,需要说明的是,麦克风的安装位置信息是已知的,其空间位置坐标记录在预设存储路径中,举例说明:当说话人在该空间内发出声音时,空间内的麦克风a与麦克风b分别接收到声音,且接收到的时间存在差异t,获取预存的麦克风a、b的空间坐标值,且声速固定V,可通过算法计算出声音发出位置的空间坐标,也即是说话人当前所处位置,具体计算方式在此不作赘述。
步骤S3,对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息;
可以理解的是,由于大多时候环境中声源密集并且繁多,声音采集单元采集到的声音信号多为检测到包含异常声音信号的混合声音返回的声音信号,例如,异常声音信号包括空间外汽车鸣笛、非目标人员说话或者其他环境噪音等,因此定位结果中可能包括多个声源位置信息,即,上述备选声源位置信息中可能包括多个声源位置信息。因此,需从多个备选声源位置信息中筛选出准确的目标声源位置信息。
在本实施例中,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,包括:
a1.当存在多个备选声源位置信息时,获取所述多个备选声源位置信息对应的距离;及
a2.将距离小于或等于预设距离阈值的声源位置信息作为所述目标声源位置信息。
其中,多个声源位置信息对应的距离为声源与声音采集单元中心的距离。可以理解的是,目标声源位置信息应该在空间范围内,也就是说,声源与声音采集模块的中心的距离小于预设距离阈值(即,声音采集单元的中心到当前空间范围的最大距离)。通过排除距离大于预设阈值的声源位置信息,有效避免空间外的声源(例如,鸣笛声、非室内人员)产生的影响。
在其他实施例中,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,还包括:
b1.当存在多个距离小于或等于预设阈值的备选声源位置信息时,从所述声音信息中提取声音特征,判断所述声音特征对应的身份信息,记为第一身份信息;
b2.采集所述多个距离小于或等于预设阈值的备选声源位置信息的实时图像,从所述实时图像中识别人脸区域并进行身份识别,得到多个备选声源位置信息对应的身份信息,记为第二身份信息;及
b3.判断所述第二身份信息中是否存在与所述第一身份信息匹配身份信息,将与所述第一身份信息匹配的第二身份信息对应的备选声源位置信息作为目标声源位置信息。
例如,在确定多个当前空间内的备选声源位置信息后,通过采集备选声源位置信息对应的实时图像,对待识别目标进行身份识别,并从声音信息中提取声音特征,判断声音特征对应的身份是否为待识别目标的身份,若是,则确定声音信号与声源相对应,即可确定目标声源位置信息。人脸识别、语音特征提取、身份识别等均为现有技术,在此不作赘述。本实施例通过身份识别及匹配,避免误将室内其他说话人所在地作为目标声源位置信息。
在其他实施例中,当不存在与第一身份信息匹配的第二身份信息时(例如,未识别出人脸),表示声源定位发生错误。例如,说话人发出的声音信号经背景墙或者其他反射源反射后被声音采集单元拾取。此时,结束本次对声音采集单元拾取的声音信号的声源定位,待说话人再次发出声音时时,声音采集单元重现对声音信号进行声源定位。
在其他实施例中,所述拍摄指令中包括目标说话人的身份信息,记为目标身份信息;在步骤b2之前,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,还包括:
获取所述拍摄指令中的目标身份信息,判断所述第一身份信息与所述目标身份信息是否一致;
当判断所述第一身份信息与所述目标身份信息一致时,执行步骤b2;或
当判断所述第一身份新与所述目标身份信息不一致时,判断声源定位失败。
通过新增该判断,可以避免无效数据计算,提高声源定位效率。
步骤S4,获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;
其中,上述初始声源位置信息可以是默认位置信息,即,预先设置的起始信息。上述摄像单元可以是摄像头,用于拍摄被拍摄人的视频或图像。
以教室为例,初始声源位置信息为讲台中心。
在其他实施例中,上述初始声源信息还可以是上一次定位的目标声源位置信息;或者,摄像头此时的拍摄区域中心坐标。
在本实施例中,所述基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度,包括:
c1.获取所述摄像单元的位置坐标;
c2.分别构建所述摄像单元与所述目标声源位置信息及初始声源位置信息的直线;及
c3.计算构建的直线之间的角度作为所述调整角度。
需要说明的是,摄像头的安装位置坐标已知并保存在预设存储路径中,获取摄像头的位置坐标,基于摄像头的位置坐标、初始声源位置信息、目标声源位置信息,分别确定摄像头与初始声源的直线L1、摄像头与目标声源位置信息的直线L2,并计算L1、L2之间的角度,作为摄像头的调整角度。
步骤S5,当所述调整角度大于或等于预设角度阈值时,基于所述调整角度调整所述摄像单元的拍摄角度;
步骤S6,控制所述摄像单元进行拍摄。
可以理解的是,摄像头针对一个角度可拍摄到一定的区域范围,该区域范围包括一定的角度范围,因此,若计算得到的调整角度较小,无需调整摄像头的范围亦可拍摄到声源处说话人的图像。当且仅当计算得到的调整角度大于或等于预设角度阈值时,调整摄像头的拍摄角度,并对目标声源位置信息对应区域进行拍摄。
在其他实施例中,所述步骤S5还包括:
d1.实时获取所述感光单元发送的环境光照度;
d2.当所述环境光照度小于或等于预设光照度阈值时,基于所述目标声源位置信息及所述初始声源位置信息计算所述补光单元(例如,补光灯)的调整角度;及
d3.基于所述调整角度调整所述补光单元的照射角度,基于所述环境光照度调整所述补光单元的照射亮度。
其中,补光灯的位置坐标预先确定并保存在预设存储路径中。当且仅当环境光照度小于或等于预设光照度阈值时,调整补光灯的角度及亮度。计算补光灯的调整角度的步骤与摄像头的调整调度大致相同,在此不作赘述。
上述实施例提出的基于声源定位的拍摄方法,在识别到备选声源位置信息后,从备选声源位置信息中筛选出目标声源位置信息,提高了声源定位的准确性;考虑到摄像头的拍摄范围,当且仅当目标声源位置信息与初始声源位置信息满足一定条件时才调整摄像头的角度,而不是声源位置信息发生变化即调整摄像头,减少能源消耗,使拍摄更智能。
本发明还提出一种拍摄装置。
参照图2所示,是本发明拍摄装置一实施例的模块示意图。
本实施例所述拍摄装置10根据实现的功能可以包括:模块110-模块160。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
声音采集模块110,用于接收拍摄指令,控制所述声音采集单元采集声音信息;
在本实施例中,上述拍摄指令可以是被拍摄对象通过客户端发出,也可以是除被拍摄对象的其他人通过客户端发出。
上述声音信息包括声音信号和不同声音采集模块接收所述声音信号的时间差。
上述声音采集单元可以是麦克风阵列。麦克风阵列可以是一组位于空间不同位置的声学传感器按照一定的形状规则布置形成的阵列,是对空间传播的声音信号进行空间采样的一种装置。麦克风阵列中声学传感器被布置形成的形状排列规则,可以称为是麦克风阵列的拓扑结构,根据麦克风阵列的拓扑结构,可以将麦克风阵列分为线性麦克风阵列、平面麦克风阵列和立体麦克风阵列。
当声音采集模块110采集到声音信号后,分别获取各个声音采集单元接收到声音信号的接收时间,分别计算各个声音采集单元接收到所述声音信号的时间差,例如在麦克风拾取到周围环境人发出的声音时,记录下人声并获取此刻的时间,可想而知由于麦克风的安装位置不同,声音到达的时间也并不相同,因此存在一定的时间差异。
第一定位模块120,用于利用声源定位算法对所述声音信息进行定位分析,得到所述声音信息对应的备选声源位置信息;
在本实施例中,某一空间内(例如,教室、会议室、摄像棚等)可以安装有多个麦克风,通过至少两个麦克风获取的声音信号和其分别接收到声音信号的时间差值,并获取预先存储的位置信息,以及声音的传播速度,计算出声源所在的位置信息,需要说明的是,麦克风的安装位置信息是已知的,其空间位置坐标记录在预设存储路径中,举例说明:当说话人在该空间内发出声音时,空间内的麦克风a与麦克风b分别接收到声音,且接收到的时间存在差异t,获取预存的麦克风a、b的空间坐标值,且声速固定V,第一定位模块120可通过算法计算出声音发出位置的空间坐标,也即是说话人当前所处位置,具体计算方式在此不作赘述。
第二定位模块130,用于对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息;
可以理解的是,由于大多时候环境中声源密集并且繁多,声音采集单元采集到的声音信号多为检测到包含异常声音信号的混合声音返回的声音信号,例如,异常声音信号包括空间外汽车鸣笛、非目标人员说话或者其他环境噪音等,因此定位结果中可能包括多个声源位置信息,即,上述备选声源位置信息中可能包括多个声源位置信息。因此,第二定位模块130需从多个备选声源位置信息中筛选出准确的目标声源位置信息。
在本实施例中,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,包括:
a1.当存在多个备选声源位置信息时,获取所述多个备选声源位置信息对应的距离;及
a2.将距离小于或等于预设距离阈值的声源位置信息作为所述目标声源位置信息。
其中,多个声源位置信息对应的距离为声源与声音采集单元中心的距离。可以理解的是,目标声源位置信息应该在空间范围内,也就是说,声源与声音采集模块的中心的距离小于预设距离阈值(即,声音采集单元的中心到当前空间范围的最大距离)。通过排除距离大于预设阈值的声源位置信息,有效避免空间外的声源(例如,鸣笛声、非室内人员)产生的影响。
在其他实施例中,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,还包括:
b1.当存在多个距离小于或等于预设阈值的备选声源位置信息时,从所述声音信息中提取声音特征,判断所述声音特征对应的身份信息,记为第一身份信息;
b2.采集所述多个距离小于或等于预设阈值的备选声源位置信息的实时图像,从所述实时图像中识别人脸区域并进行身份识别,得到多个备选声源位置信息对应的身份信息,记为第二身份信息;及
b3.判断所述第二身份信息中是否存在与所述第一身份信息匹配身份信息,将与所述第一身份信息匹配的第二身份信息对应的备选声源位置信息作为目标声源位置信息。
例如,在确定多个当前空间内的备选声源位置信息后,通过采集备选声源位置信息对应的实时图像,对待识别目标进行身份识别,并从声音信息中提取声音特征,判断声音特征对应的身份是否为待识别目标的身份,若是,则确定声音信号与声源相对应,即可确定目标声源位置信息。人脸识别、语音特征提取、身份识别等均为现有技术,在此不作赘述。本实施例通过身份识别及匹配,避免误将室内其他说话人所在地作为目标声源位置信息。
在其他实施例中,当不存在与第一身份信息匹配的第二身份信息时(例如,未识别出人脸),表示声源定位发生错误。例如,说话人发出的声音信号经背景墙或者其他反射源反射后被声音采集单元拾取。此时,结束本次对声音采集单元拾取的声音信号的声源定位,待说话人再次发出声音时时,声音采集单元重现对声音信号进行声源定位。
在其他实施例中,所述拍摄指令中包括目标说话人的身份信息,记为目标身份信息;在步骤b2之前,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,还包括:
获取所述拍摄指令中的目标身份信息,判断所述第一身份信息与所述目标身份信息是否一致;
当判断所述第一身份信息与所述目标身份信息一致时,执行步骤b2;或
当判断所述第一身份新与所述目标身份信息不一致时,此次声源定位失败。
通过新增该判断,可以避免无效数据计算,提高声源定位效率。
计算模块140,用于获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;
其中,上述初始声源位置信息可以是默认位置信息,即,预先设置的起始信息。上述摄像单元可以是摄像头,用于拍摄被拍摄人的视频或图像。
以教室为例,初始声源位置信息为讲台中心。
在其他实施例中,上述初始声源信息还可以是上一次定位的目标声源位置信息;或者,摄像头此时的拍摄区域中心坐标。
在本实施例中,所述基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度,包括:
c1.获取所述摄像单元的位置坐标;
c2.分别构建所述摄像单元与所述目标声源位置信息及初始声源位置信息的直线;及
c3.计算构建的直线之间的角度作为所述调整角度。
需要说明的是,摄像头的安装位置坐标已知并保存在预设存储路径中,获取摄像头的位置坐标,计算模块140基于摄像头的位置坐标、初始声源位置信息、目标声源位置信息,分别确定摄像头与初始声源的直线L1、摄像头与目标声源位置信息的直线L2,并计算L1、L2之间的角度,作为摄像头的调整角度。
调整模块150,用于当所述调整角度大于或等于预设角度阈值时,基于所述调整角度调整所述摄像单元的拍摄角度;
拍摄模块160,用于控制所述摄像单元进行拍摄。
可以理解的是,摄像头针对一个角度可拍摄到一定的区域范围,该区域范围包括一定的角度范围,因此,若计算得到的调整角度较小,无需调整摄像头的范围亦可拍摄到声源处说话人的图像。当且仅当计算得到的调整角度大于或等于预设角度阈值时,调整模块150调整摄像头的拍摄角度,拍摄模块160控制摄像单元对目标声源位置信息对应区域进行拍摄。
在其他实施例中,所述调整模块150,还用于:
d1.实时获取所述感光单元发送的环境光照度;
d2.当所述环境光照度小于或等于预设光照度阈值时,基于所述目标声源位置信息及所述初始声源位置信息计算所述补光单元(例如,补光灯)的调整角度;及
d3.基于所述调整角度调整所述补光单元的照射角度,基于所述环境光照度调整所述补光单元的照射亮度。
其中,补光灯的位置坐标预先确定并保存在预设存储路径中。当且仅当环境光照度小于或等于预设光照度阈值时,调整模块150调整补光灯的角度及亮度。计算补光灯的调整角度的步骤与摄像头的调整调度大致相同,在此不作赘述。
本发明实施例还提供一种电子设备。
参照图3所示,是本发明电子设备一可选的硬件架构的示意图。
在本实施例中,所述应用电子设备1可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘。存储器11在另一些实施例中也可以是所述电子设备1的外部存储设备,例如该电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括该电子设备1的内部存储单元也包括外部存储设备。
存储器11不仅可以用于存储安装于该电子设备1的应用软件及各类数据,例如,基于声源定位的拍摄程序110等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如,基于声源定位的拍摄程序110等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子设备1与其他电子设备之间建立通信连接,例如,客户终端(图中未标识)。
需要指出的是,图3仅示出了具有组件11-13的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
可选地,该电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
在图3所示的电子设备1实施例中,作为一种计算机存储介质的存储器11中存储基于声源定位的拍摄程序110的程序代码,处理器12执行基于声源定位的拍摄程序10的程序代码时,可实现如上述实施例中所述的基于声源定位的拍摄方法的任意步骤。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序,例如,基于声源定位的拍摄程序110;存储数据区可存储根据区块链节点的使用所创建的数据等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于声源定位的拍摄方法,应用于电子设备,其特征在于,所述电子设备与摄像单元及至少两个麦克风通信连接,该方法包括:
接收拍摄指令,控制所述至少两个麦克风采集声音信息,所述声音信息包括声音信号和所述至少两个麦克风接收所述声音信号的时间差;
通过所述至少两个麦克风获取所述声音信号和接收到所述声音信号的时间差,获取所述至少两个麦克风预先存储的位置信息,以及声音的传播速度,计算出所述声音信息对应的备选声源位置信息;
当存在多个备选声源位置信息时,获取所述多个备选声源位置信息对应的距离,将距离小于或等于预设距离阈值的声源位置信息作为目标声源位置信息;
获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;
当所述调整角度大于或等于预设角度阈值时,基于所述调整角度调整所述摄像单元的拍摄角度;及
控制所述摄像单元进行拍摄。
2.根据权利要求1所述的基于声源定位的拍摄方法,其特征在于,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,还包括:
当存在多个距离小于或等于预设阈值的备选声源位置信息时,从所述声音信息中提取声音特征,判断所述声音特征对应的身份信息,记为第一身份信息;
采集所述多个距离小于或等于预设阈值的备选声源位置信息的实时图像,从所述实时图像中识别人脸区域并进行身份识别,得到多个备选声源位置信息对应的身份信息,记为第二身份信息;及
判断所述第二身份信息中是否存在与所述第一身份信息匹配身份信息,将与所述第一身份信息匹配的第二身份信息对应的备选声源位置信息作为目标声源位置信息。
3.根据权利要求2所述的基于声源定位的拍摄方法,其特征在于,所述拍摄指令包括目标身份信息,在所述采集所述多个距离小于或等于预设阈值的备选声源位置信息的实时图像之前,所述对所述备选声源位置信息进行分析,确定所述声音信息对应的目标声源位置信息,还包括:
获取所述目标身份信息,判断所述第一身份信息与所述目标身份信息是否一致;及
当判断所述第一身份信息与所述目标身份信息一致时,采集所述多个距离小于或等于预设阈值的备选声源位置信息的实时图像。
4.根据权利要求1所述的基于声源定位的拍摄方法,其特征在于,所述基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度,包括:
获取所述摄像单元的位置坐标;
分别构建所述摄像单元与所述目标声源位置信息及初始声源位置信息的直线;及
计算构建的直线之间的角度作为所述调整角度。
5.根据权利要求1至4中任意一项中所述的基于声源定位的拍摄方法,其特征在于,所述电子设备与感光单元、补光单元通信连接,所述控制所述摄像单元进行拍摄之前,该方法还包括:
实时获取所述感光单元发送的环境光照度;
当所述环境光照度小于或等于预设光照度阈值时,基于所述目标声源位置信息及所述初始声源位置信息计算所述补光单元的调整角度;及
基于所述调整角度调整所述补光单元的照射角度,基于所述环境光照度调整所述补光单元的照射亮度。
6.一种拍摄装置,其特征在于,该装置包括:
声音采集模块,用于接收拍摄指令,控制至少两个麦克风采集声音信息,所述声音信息包括声音信号和所述至少两个麦克风接收所述声音信号的时间差;
第一定位模块,用于通过所述至少两个麦克风获取所述声音信号和接收到所述声音信号的时间差,获取所述至少两个麦克风预先存储的位置信息,以及声音的传播速度,计算出所述声音信息对应的备选声源位置信息;
第二定位模块,用于当存在多个备选声源位置信息时,获取所述多个备选声源位置信息对应的距离,将距离小于或等于预设距离阈值的声源位置信息作为目标声源位置信息;
计算模块,用于获取初始声源位置信息,基于所述目标声源位置信息及所述初始声源位置信息计算所述摄像单元的调整角度;
调整模块,用于当所述调整角度大于或等于预设角度阈值时,基于所述调整角度调整所述摄像单元的拍摄角度;及
拍摄模块,用于控制所述摄像单元进行拍摄。
7.根据权利要求6所述的拍摄装置,其特征在于,所述调整模块还用于:
实时获取感光单元发送的环境光照度;
当所述环境光照度小于或等于预设光照度阈值时,基于所述目标声源位置信息及所述初始声源位置信息计算补光单元的调整角度;及
基于所述调整角度调整所述补光单元的照射角度,基于所述环境光照度调整所述补光单元的照射亮度。
8.一种电子设备,其特征在于,所述电子设备包括存储器及处理器,所述存储器中存储有可在所述处理器上运行的基于声源定位的拍摄程序,所述基于声源定位的拍摄程序被所述处理器执行时可实现如权利要求1至5中任意一项所述的基于声源定位的拍摄方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储数据区和存储程序区,所述存储数据区存储根据区块链节点的使用所创建的数据,所述存储程序区存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的基于声源定位的拍摄方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617286.3A CN111722186B (zh) | 2020-06-30 | 2020-06-30 | 基于声源定位的拍摄方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617286.3A CN111722186B (zh) | 2020-06-30 | 2020-06-30 | 基于声源定位的拍摄方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111722186A CN111722186A (zh) | 2020-09-29 |
CN111722186B true CN111722186B (zh) | 2024-04-05 |
Family
ID=72570713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010617286.3A Active CN111722186B (zh) | 2020-06-30 | 2020-06-30 | 基于声源定位的拍摄方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111722186B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112584014A (zh) * | 2020-12-01 | 2021-03-30 | 苏州触达信息技术有限公司 | 一种智能摄像机及其控制方法和计算机可读存储介质 |
CN112799019B (zh) * | 2021-01-26 | 2023-07-07 | 安徽淘云科技股份有限公司 | 声源定位方法、装置、电子设备及存储介质 |
CN113281706B (zh) * | 2021-04-02 | 2024-01-05 | 南方科技大学 | 一种目标定位方法、装置及计算机可读存储介质 |
CN113286088A (zh) * | 2021-05-31 | 2021-08-20 | 江苏文旭信息技术股份有限公司 | 一种通过声音定位进行视频优化的视频系统 |
CN113406567B (zh) * | 2021-06-25 | 2024-05-14 | 安徽淘云科技股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN114125659A (zh) * | 2021-10-29 | 2022-03-01 | 歌尔科技有限公司 | 音量实时补偿方法、电子设备及可读存储介质 |
CN115103115A (zh) * | 2022-06-16 | 2022-09-23 | 北京达佳互联信息技术有限公司 | 摄像设备控制方法及装置、电子设备 |
CN115996317A (zh) * | 2022-11-30 | 2023-04-21 | 旭宇光电(深圳)股份有限公司 | 多功能智能杆及基于其的噪声来源监控方法和装置 |
CN116866720B (zh) * | 2023-09-04 | 2023-11-28 | 国网山东省电力公司东营供电公司 | 基于声源定位的摄像头角度自适应调控方法、系统及终端 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110121304A (ko) * | 2010-04-30 | 2011-11-07 | 주식회사 에스원 | 음원 위치 산출 장치 및 그 방법 |
CN105278380A (zh) * | 2015-10-30 | 2016-01-27 | 小米科技有限责任公司 | 智能设备的控制方法和装置 |
WO2016183791A1 (zh) * | 2015-05-19 | 2016-11-24 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN106292732A (zh) * | 2015-06-10 | 2017-01-04 | 上海元趣信息技术有限公司 | 基于声源定位和人脸检测的智能机器人转动方法 |
WO2017215295A1 (zh) * | 2016-06-14 | 2017-12-21 | 华为技术有限公司 | 一种摄像机参数调整方法、导播摄像机及系统 |
CN107800967A (zh) * | 2017-10-30 | 2018-03-13 | 维沃移动通信有限公司 | 一种拍摄方法及移动终端 |
CN107948856A (zh) * | 2017-12-15 | 2018-04-20 | 浙江大华技术股份有限公司 | 一种录播主机、声源测向的方法及装置 |
CN109506568A (zh) * | 2018-12-29 | 2019-03-22 | 苏州思必驰信息科技有限公司 | 一种基于图像识别和语音识别的声源定位方法及装置 |
WO2019128098A1 (zh) * | 2017-12-27 | 2019-07-04 | 广景视睿科技(深圳)有限公司 | 一种基于定位追踪的投影方法、装置、投影仪及投影系统 |
CN110503045A (zh) * | 2019-08-26 | 2019-11-26 | 北京华捷艾米科技有限公司 | 一种人脸定位方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4854533B2 (ja) * | 2007-01-30 | 2012-01-18 | 富士通株式会社 | 音響判定方法、音響判定装置及びコンピュータプログラム |
-
2020
- 2020-06-30 CN CN202010617286.3A patent/CN111722186B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110121304A (ko) * | 2010-04-30 | 2011-11-07 | 주식회사 에스원 | 음원 위치 산출 장치 및 그 방법 |
WO2016183791A1 (zh) * | 2015-05-19 | 2016-11-24 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN106292732A (zh) * | 2015-06-10 | 2017-01-04 | 上海元趣信息技术有限公司 | 基于声源定位和人脸检测的智能机器人转动方法 |
CN105278380A (zh) * | 2015-10-30 | 2016-01-27 | 小米科技有限责任公司 | 智能设备的控制方法和装置 |
WO2017215295A1 (zh) * | 2016-06-14 | 2017-12-21 | 华为技术有限公司 | 一种摄像机参数调整方法、导播摄像机及系统 |
CN107800967A (zh) * | 2017-10-30 | 2018-03-13 | 维沃移动通信有限公司 | 一种拍摄方法及移动终端 |
CN107948856A (zh) * | 2017-12-15 | 2018-04-20 | 浙江大华技术股份有限公司 | 一种录播主机、声源测向的方法及装置 |
WO2019128098A1 (zh) * | 2017-12-27 | 2019-07-04 | 广景视睿科技(深圳)有限公司 | 一种基于定位追踪的投影方法、装置、投影仪及投影系统 |
CN109506568A (zh) * | 2018-12-29 | 2019-03-22 | 苏州思必驰信息科技有限公司 | 一种基于图像识别和语音识别的声源定位方法及装置 |
CN110503045A (zh) * | 2019-08-26 | 2019-11-26 | 北京华捷艾米科技有限公司 | 一种人脸定位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111722186A (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111722186B (zh) | 基于声源定位的拍摄方法、装置、电子设备及存储介质 | |
CN106679651B (zh) | 声源定位方法、装置和电子设备 | |
CN105745687B (zh) | 情景感知移动目标检测 | |
JP2019114280A (ja) | 物体追跡装置、物体追跡システム、物体追跡方法、表示制御装置、物体検出装置、プログラムおよび記録媒体 | |
CN111914635B (zh) | 人体测温方法、装置、系统和电子设备 | |
CN109683135A (zh) | 一种声源定位方法及装置、目标抓拍系统 | |
US10959038B2 (en) | Audio system for artificial reality environment | |
CN109977731B (zh) | 一种场景的识别方法、识别设备及终端设备 | |
US20220414997A1 (en) | Methods and systems for providing a tutorial for graphic manipulation of objects including real-time scanning in an augmented reality | |
US9295141B2 (en) | Identification device, method and computer program product | |
CN112307868B (zh) | 图像识别方法、电子设备和计算机可读介质 | |
CN110807361A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
JP2000306095A (ja) | 画像照合・検索システム | |
WO2016119107A1 (zh) | 一种噪音地图绘制方法及装置 | |
JP2011211687A (ja) | データ関連付けのための方法と装置 | |
CN112423191B (zh) | 一种视频通话设备和音频增益方法 | |
CN109902681A (zh) | 用户群体关系确定方法、装置、设备及存储介质 | |
CN109089087A (zh) | 多通道影音联动装置 | |
US12087090B2 (en) | Information processing system and information processing method | |
US9992593B2 (en) | Acoustic characterization based on sensor profiling | |
JP2016170031A (ja) | 三次元モデル処理装置およびカメラ校正システム | |
CN112601021B (zh) | 一种网络摄像机监控视频的处理方法及系统 | |
CN112578338B (zh) | 声源定位方法、装置、设备及存储介质 | |
CN111492668B (zh) | 用于在限定的空间内定位音频信号的发源点的方法和系统 | |
CN112446355A (zh) | 一种公共场所行人识别方法及人流统计系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |