CN113627290A - 一种音箱控制方法、装置、音箱及可读存储介质 - Google Patents
一种音箱控制方法、装置、音箱及可读存储介质 Download PDFInfo
- Publication number
- CN113627290A CN113627290A CN202110852856.1A CN202110852856A CN113627290A CN 113627290 A CN113627290 A CN 113627290A CN 202110852856 A CN202110852856 A CN 202110852856A CN 113627290 A CN113627290 A CN 113627290A
- Authority
- CN
- China
- Prior art keywords
- detected
- sound box
- currently traversed
- image
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Studio Devices (AREA)
Abstract
本公开提供了一种音箱控制方法、装置、音箱及可读存储介质,该方法包括:获取音箱的麦克风采集的音源数据;根据所述音源数据,确定至少一个音源相对于所述音箱的待检测方位;控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像;根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位;控制所述音箱的摄像头朝向所述目标方位。
Description
技术领域
本公开涉及智能音箱技术领域,更具体地,涉及一种音箱控制方法、一种音箱控制装置、一种音箱及一种可读存储介质。
背景技术
由于智能家居的迅速发展,人们对于生活质量的要求越来越高,智能语音操控也逐步深入家庭生活。国内外厂商也纷纷推出了相应的智能语音产品来抢占智能家居的入口,这些智能语音产品在一定程度上方便了人们的生活。
现有的智能语音产品,如智能音箱已经有了旋转的功能,可以根据声音的方位和摄像头所拍摄的图像中人物的位置,来控制摄像头自动朝向人物出现的方位。
在现有技术中,智能音箱控制摄像头自动朝向人物出现的方位的方式通常有两种:第一种方案是智能音箱采用根据麦克风采集的音源数据,计算周围音源方位的方式来进行人物定位;第二种方案是智能音箱采用摄像头来识别人物的方式来实现音箱的旋转跟踪。
但是,在前述的第一种方案中,智能音箱会被其他音源发出的噪音所干扰,在前述的第二种方案中,智能音箱会被其他没有与音箱沟通的人所干扰。前述的两种方案,都会导致智能音箱的摄像头所朝向的方位并不是与智能音箱交互的人物出现的方位,使得智能音箱的摄像头的朝向不准确。
发明内容
本公开的一个目的是提供一种使得音箱的摄像头准确朝向与音箱交互的目标用户出现的方位的新技术方案。
根据本公开的第一方面,提供了一种音箱控制方法,包括:
获取音箱的麦克风采集的音源数据;
根据所述音源数据,确定至少一个音源相对于所述音箱的待检测方位;
控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像;
根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位;
控制所述音箱的摄像头朝向所述目标方位。
可选的,所述控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像,包括:
遍历至少一个所述待检测方位;
控制所述音箱的摄像头朝向当前遍历到的待检测方位进行拍摄,得到所述当前遍历到的待检测方位的待测图像;
所述根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位包括:
确定所述当前遍历到的待检测方位的待测图像中人脸的姿态角;
根据所述当前遍历到的待检测方位的待测图像中人脸的姿态角,确定所述当前遍历到的待检测方位是否符合预设条件;
在所述当前遍历到的待检测方位符合所述预设条件的情况下,将所述当前遍历到的待检测方位作为所述目标方位,并停止遍历。
可选的,所述姿态角包括航向角和俯仰角,
根据所述当前遍历到的待检测方位的待测图像中人脸的姿态角,确定所述当前遍历到的待检测方位是否符合预设条件,包括:
根据所述当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角,确定所述当前遍历到的待检测方位的检测结果;
在所述当前遍历到的待检测方位的检测结果大于或等于预设的结果阈值的情况下,确定当前遍历到的待检测方位符合所述预设条件;
在所述当前遍历到的待检测方位的检测结果小于预设的结果阈值的情况下,确定当前遍历到的待检测方位不符合所述预设条件。
可选的,所述姿态角包括航向角和俯仰角,
所述确定所述当前遍历到的待检测方位的待测图像中人脸的姿态角,包括:
根据所述当前遍历到的待检测方位的待测图像,构建人脸的空间直角坐标系;所述人脸的空间直角坐标系的第一坐标轴,平行于所述当前遍历到的待检测方位的待测图像中双眼所在直线;所述人脸的空间直角坐标系的第二坐标轴,平行于第一平面且垂直于所述第一坐标轴,所述第一平面为所述待测图像中人脸的至少三个指定位置所在的平面;所述人脸的空间直角坐标系的第三坐标轴垂直于所述第一坐标轴和所述第二坐标轴;
构建参考坐标系;所述参考坐标系的第四坐标轴,平行于人脸正对所述摄像头的情况下双眼所在直线;所述参考坐标系的第五坐标轴,垂直于所述摄像头的镜头;
确定所述第一坐标轴与所述第四坐标轴之间的夹角,作为所述航向角;确定所述第三坐标轴与所述第五坐标轴之间的夹角,作为所述俯仰角。
可选的,所述方法还包括:
在所述当前遍历到的待检测方位不符合所述预设条件的情况下,继续遍历下一个待检测方位。
可选的,所述方法还包括:
在所述待检测方位均不符合所述预设条件的情况下,将检测结果最大的待检测方位,作为所述目标方位。
可选的,所述方法还包括:
根据所述音源数据,确定所述至少一个音源的音量;
根据所述至少一个音源的音量,对所述待检测方位进行排序;
所述遍历至少一个所述待检测方位包括:
按照所述待检测方位的排序顺序,遍历至少一个所述待检测方位。
根据本公开的第二方面,提供了一种音箱控制装置,包括:
音源数据获取模块,用于获取音箱的麦克风采集的音源数据;
待检测方位确定模块,用于根据所述音源数据,确定至少一个音源相对于所述音箱的待检测方位;
待测图像得到模块,用于控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像;
目标方位确定模块,用于根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位;
摄像头控制模块,用于控制所述音箱的摄像头朝向所述目标方位。
根据本公开的第三方面,提供了一种音箱,包括:
如本公开第二方面所述的装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本公开第一方面所述的方法。
根据本公开的第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本公开第一方面所述的方法。
通过本实施例的方法,结合音源信息和待测图像,来确定与音箱交互的目标用户相对于音箱的目标方位,并控制音箱的摄像头朝向目标方位,可以使得音箱的摄像头准确朝向与音箱交互的目标用户出现的方位,提升用户体验。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
图1是显示可用于实现本公开的实施例的音箱的硬件配置的一个例子的框图。
图2示出了本公开的实施例的音箱控制方法的流程图。
图3示出了本公开的实施例的音箱控制方法的一个例子的流程图。
图4示出了本公开的实施例的音箱控制装置的框图。
图5示出了本公开的实施例的音箱的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是可用于实现本公开实施例的音箱的硬件配置的一个例子的框图。
该音箱1000可以包括但不限于处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、图形处理器GPU、微处理器MCU等,用于执行计算机程序,该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口、并行接口等。通信装置1400例如能够利用光纤或电缆进行有线通信,或者进行无线通信,具体地可以包括WiFi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。扬声器1700用于输出音频信号。麦克风1800用于采集音频信号。
应用于本公开实施例中,音箱1000的存储器1200用于存储计算机程序,该计算机程序用于控制所述处理器1100进行操作以实现根据本公开实施例的方法。技术人员可以根据本公开所公开方案设计该计算机程序。该计算机程序如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。该音箱1000可以安装有智能操作系统(例如Windows、Linux、安卓、IOS等系统)和应用软件。
本领域技术人员应当理解,尽管在图1中示出了音箱1000的多个装置,但是,本公开实施例的音箱1000可以仅涉及其中的部分装置,例如,只涉及处理器1100和存储器1200等。
下面,参照附图描述根据本发明的各个实施例和例子。
<方法实施例>
在本实施例中,提供一种音箱控制方法。该方法由音箱实施。在一个例子中,该音箱可以是图1所示的音箱1000。
本实施例中的音箱,可以具有麦克风和摄像头。其中,麦克风可以是麦克风单体,也可以是任意排布形式的麦克风阵列,如直线2mic,或环形4mic。
根据图2所示,本实施例的音箱控制方法可以包括如下步骤S2100~S2500。
步骤S2100,获取音箱的麦克风采集的音源数据。
步骤S2200,根据音源数据,确定至少一个音源相对于音箱的待检测方位。
在本实施例中,麦克风所采集的音源数据,可以是至少一个音源所发出的。
根据音源数据,可以确定每个音源相对于音箱的待检测方位,以及每个音源的音量。
在本实施例中,待检测方位与音源一一对应,最终得到的待检测方位的数量与音源的数量相同。
步骤S2300,控制音箱的摄像头朝向待检测方位进行拍摄,得到对应待检测方位的待测图像。
在待检测方位为多个的情况下,可以是控制音箱的摄像头分别朝向每个待检测方位进行拍摄,得到每个待检测方位的待测图像。
在本公开的一个实施例中,控制音箱的摄像头朝向待检测方位进行拍摄,得到对应待检测方位的待测图像可以包括如下所示的步骤S2310~S2320:
步骤S2310,遍历至少一个待检测方位。
在本公开的一个实施例中,在执行步骤S2310之前,该方法还可以包括如下所示的步骤S2330~S2340:
步骤S2330,根据音源数据,确定至少一个音源的音量。
步骤S2340,根据至少一个音源的音量,对待检测方位进行排序。
在本实施例中,可以是按照音源的音量由大到小的顺序,对待检测方位进行排序。
例如,在音源1的音量为50dB,音源2的音量为30dB,音源3的音量为40dB的情况下,按照音源的音量由大到小的顺序。对音源1相对于音箱的待检测方位1、音源2相对于音箱的待检测方位2、音源3相对于音箱的待检测方位3进行排序,排序结果可以是待检测方位1、待检测方位3、待检测方位2。
在此基础上,遍历至少一个待检测方位可以为:按照待检测方位的排序顺序,遍历至少一个待检测方位。
例如,在排序结果为待检测方位1、待检测方位3、待检测方位2的情况下,可以是先遍历到待检测方位1,再遍历到待检测方位3,再遍历到待检测方位2。
步骤S2320,控制音箱的摄像头朝向当前遍历到的待检测方位进行拍摄,得到当前遍历到的待检测方位的待测图像。
在本公开的一个实施例中,可以是在得到每个待检测方位的待测图像之后,再执行步骤S2400,也可以是在得到当前遍历到的待检测方位的待测图像的情况下,执行步骤S2400。
步骤S2400,根据待测图像,从待检测方位中选择与音箱交互的目标用户相对于音箱的目标方位。
在前述的步骤S2310~S2320的基础上,根据待测图像,从待检测方位中选择与音箱交互的目标用户相对于音箱的目标方位可以包括如下所示的步骤S2410~S2430:
步骤S2410,确定当前遍历到的待检测方位的待测图像中人脸的姿态角。
在本公开的一个实施例中,测试图像中人脸的姿态角,可以包括航向角和俯仰角。
确定当前遍历到的待检测方位的待测图像中人脸的姿态角可以包括如下所示的步骤S2411~S2413:
步骤S2411,根据当前遍历到的待检测方位的待测图像,构建人脸的空间直角坐标系;人脸的空间直角坐标系的第一坐标轴,平行于当前遍历到的待检测方位的待测图像中双眼所在直线;人脸的空间直角坐标系的第二坐标轴,平行于第一平面且垂直于第一坐标轴,第一平面为待测图像中人脸的至少三个指定位置所在的平面;人脸的空间直角坐标系的第三坐标轴垂直于第一坐标轴和第二坐标轴。
在本实施例中,至少三个指定位置可以包括两个嘴角所在位置、以及下巴最下端所在位置。这三个指定位置所构成的平面,即为第一平面。
那么,根据当前遍历到的待检测方位的待测图像中,人脸的双眼所在位置、人脸的至少三个指定位置,就可以构建一个人脸的空间直角坐标系,且构建的该人脸的空间直角坐标系中三个坐标轴的方向与待测图像是一一对应的。
步骤S2412,构建参考坐标系;参考坐标系的第四坐标轴,平行于人脸正对摄像头的情况下双眼所在直线;参考坐标系的第五坐标轴,垂直于摄像头的镜头。
在本实施例中,可以是在摄像头朝向当前遍历到的待检测方位的基础上,构建参考坐标系。
该参考坐标系可以是空间直角坐标系,还包括第六坐标轴,该第六坐标轴可以垂直于该第四坐标轴和第五坐标轴。
在人脸正对摄像头的情况下,在得到的图像中,双眼所在的直线平行于该图像的一个边。
在一个例子中,由于音箱旋转的过程中,摄像头的翻滚角通常不会发生变化,因此,在构建参考坐标系的情况下,第四坐标轴可以是根据摄像头的设置姿态所预先确定好的。
步骤S2413,确定第一坐标轴与第四坐标轴之间的夹角,作为航向角;确定第三坐标轴与第五坐标轴之间的夹角,作为俯仰角。
在本实施例中,当人脸仰头或者低头的时候,人脸的俯仰角为α,α的取值为-π/2~π/2。当人脸正对着摄像头的情况下,α为0,当第一平面与垂直于摄像头的镜头的情况下,α为-π/2或π/2。在人脸左右旋转情况下,人脸的航向角为β,β的取值也是-π/2~π/2,当人脸正对着摄像头的情况下,β为0,当人脸的双眼所在直线与第四坐标轴垂直的情况下,β为-π/2或π/2。
步骤S2420,根据当前遍历到的待检测方位的待测图像中人脸的姿态角,确定当前遍历到的待检测方位是否符合预设条件。
在本公开的一个实施例中,航向角和俯仰角可以是用弧度方式表示。根据当前遍历到的待检测方位的待测图像中人脸的姿态角,确定当前遍历到的待检测方位是否符合预设条件可以包括如下所示的步骤S2421~S2423:
步骤S2421,根据当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角,确定当前遍历到的待检测方位的检测结果。
在本公开的一个实施例中,可以是通过如下公式来确定当前遍历到的待检测方位的检测结果:
Result=(π/2-|α|)2*(π/2-|β|)2
其中,α为俯仰角,β为航向角,Result为当前遍历到的待检测方位的检测结果。
步骤S2422,在当前遍历到的待检测方位的检测结果大于或等于预设的结果阈值的情况下,确定当前遍历到的待检测方位符合预设条件。
在本实施例中,结果阈值可以是预先根据应用场景或具体需求所设定的。例如,该结果阈值可以是1。那么,在当前遍历到的待检测方位的检测结果大于或等于1的情况下,可以确定当前遍历到的待检测方位符合预设条件;在当前遍历到的待检测方位的检测结果小于1的情况下,可以确定当前遍历到的待检测方位不符合预设条件。
步骤S2423,在当前遍历到的待检测方位的检测结果小于预设的结果阈值的情况下,确定当前遍历到的待检测方位不符合预设条件。
在本公开的另一个实施例中,航向角和俯仰角可以是用角度方式表示。根据当前遍历到的待检测方位的待测图像中人脸的姿态角,确定当前遍历到的待检测方位是否符合预设条件可以包括:
确定当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角是否均小于或等于预设的角度阈值,如是,则确定当前遍历到的待检测方位符合预设条件;如否,则确定当前遍历到的待检测方位不符合预设条件。
在本实施例中,角度阈值可以是预先根据应用场景或具体需求所设定的。例如,该角度阈值可以是30°。那么,在当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角均小于或等于30°的情况下,可以确定该当前遍历到的待检测方位符合预设条件;在当前遍历到的待检测方位的待测图像中人脸的航向角和/或俯仰角大于30°的情况下,可以确定该当前遍历到的待检测方位不符合预设条件。
步骤S2430,在当前遍历到的待检测方位符合预设条件的情况下,将当前遍历到的待检测方位作为目标方位,并停止遍历。
在本实施例中,预先根据音源的音量对待检测方位进行排序,并按照排序顺序进行遍历,可以认为先遍历的待检测方位的音源为与音箱交互的目标用户的可能性越大。因此,在当前遍历到的待检测方位符合预设条件的情况下,将当前遍历到的待检测方位作为目标方位,并停止遍历。
步骤S2440,在当前遍历到的待检测方位不符合预设条件的情况下,继续遍历下一个待检测方位。
在本公开的一个实施例中,在遍历结束后,所有待检测方位均不符合预设条件的情况下,可以是将检测结果最大的待检测方位,作为目标方位。
步骤S2500,控制音箱的摄像头朝向目标方位。
通过本实施例的方法,结合音源信息和待测图像,来确定与音箱交互的目标用户相对于音箱的目标方位,并控制音箱的摄像头朝向目标方位,可以使得音箱的摄像头准确朝向与音箱交互的目标用户出现的方位,提升用户体验。
<例子>
图3为根据本公开实施例的音箱控制方法的一个例子的流程图。
根据图3所示,该方法可以包括如下所示的步骤S3001~S3012:
步骤S3001,获取音箱的麦克风采集的音源数据。
步骤S3002,根据音源数据,确定至少一个音源相对于音箱的待检测方位、以及至少一个音源的音量。
步骤S3003,根据至少一个音源的音量,对待检测方位进行排序。
步骤S3004,按照待检测方位的排序顺序,遍历至少一个待检测方位。
步骤S3005,控制音箱的摄像头朝向当前遍历到的待检测方位进行拍摄,得到当前遍历到的待检测方位的待测图像。
步骤S3006,确定当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角。
步骤S3007,根据当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角,确定当前遍历到的待检测方位的检测结果。
步骤S3008,在当前遍历到的待检测方位的检测结果大于或等于预设的结果阈值的情况下,确定当前遍历到的待检测方位符合预设条件。
步骤S3009,在当前遍历到的待检测方位的检测结果小于预设的结果阈值的情况下,确定当前遍历到的待检测方位不符合预设条件,继续遍历下一个待检测方位。
步骤S3010,在当前遍历到的待检测方位符合预设条件的情况下,将当前遍历到的待检测方位作为目标方位,并停止遍历。
步骤S3011,在遍历结束后,所有待检测方位均不符合预设条件的情况下,将检测结果最大的待检测方位,作为目标方位。
步骤S3012,控制音箱的摄像头朝向目标方位。
<装置实施例>
在本实施例中,提供一种音箱控制装置4000,如图4所示,包括音源数据获取模块4100、待检测方位确定模块4200、待测图像得到模块4300、目标方位确定模块4400和摄像头控制模块4500。该音源数据获取模块4100用于获取音箱的麦克风采集的音源数据;该待检测方位确定模块4200用于根据音源数据,确定至少一个音源相对于音箱的待检测方位;该待测图像得到模块4300用于控制音箱的摄像头朝向待检测方位进行拍摄,得到对应待检测方位的待测图像;该目标方位确定模块4400用于根据待测图像,从待检测方位中选择与音箱交互的目标用户相对于音箱的目标方位;该摄像头控制模块4500用于控制音箱的摄像头朝向目标方位。
在本公开的一个实施例中,该待测图像得到模块4300还可以用于:
遍历至少一个待检测方位;
控制音箱的摄像头朝向当前遍历到的待检测方位进行拍摄,得到当前遍历到的待检测方位的待测图像;
该目标方位确定模块4400还可以用于:
确定当前遍历到的待检测方位的待测图像中人脸的姿态角;
根据当前遍历到的待检测方位的待测图像中人脸的姿态角,确定当前遍历到的待检测方位是否符合预设条件;
在当前遍历到的待检测方位符合预设条件的情况下,将当前遍历到的待检测方位作为目标方位,并停止遍历。
在本公开的一个实施例中,姿态角包括航向角和俯仰角,
根据当前遍历到的待检测方位的待测图像中人脸的姿态角,确定当前遍历到的待检测方位是否符合预设条件,包括:
根据当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角,确定当前遍历到的待检测方位的检测结果;
在当前遍历到的待检测方位的检测结果大于或等于预设的结果阈值的情况下,确定当前遍历到的待检测方位符合预设条件;
在当前遍历到的待检测方位的检测结果小于预设的结果阈值的情况下,确定当前遍历到的待检测方位不符合预设条件。
在本公开的一个实施例中,姿态角包括航向角和俯仰角,
确定当前遍历到的待检测方位的待测图像中人脸的姿态角,包括:
根据当前遍历到的待检测方位的待测图像,构建人脸的空间直角坐标系;人脸的空间直角坐标系的第一坐标轴,平行于当前遍历到的待检测方位的待测图像中双眼所在直线;人脸的空间直角坐标系的第二坐标轴,平行于第一平面且垂直于第一坐标轴,第一平面为待测图像中人脸的至少三个指定位置所在的平面;人脸的空间直角坐标系的第三坐标轴垂直于第一坐标轴和第二坐标轴;
构建参考坐标系;参考坐标系的第四坐标轴,平行于人脸正对摄像头的情况下双眼所在直线;参考坐标系的第五坐标轴,垂直于摄像头的镜头;
确定第一坐标轴与第四坐标轴之间的夹角,作为航向角;确定第三坐标轴与第五坐标轴之间的夹角,作为俯仰角。
在本公开的一个实施例中,该音箱控制装置4000还可以包括:
用于在当前遍历到的待检测方位不符合预设条件的情况下,继续遍历下一个待检测方位的模块。
在本公开的一个实施例中,该音箱控制装置4000还可以包括:
用于在待检测方位均不符合预设条件的情况下,将检测结果最大的待检测方位,作为目标方位的模块。
在本公开的一个实施例中,该音箱控制装置4000还可以包括:
用于根据音源数据,确定至少一个音源的音量的模块;
用于根据至少一个音源的音量,对待检测方位进行排序的模块;
遍历至少一个待检测方位包括:
按照待检测方位的排序顺序,遍历至少一个待检测方位。
本领域技术人员应当明白,可以通过各种方式来实现音箱控制装置4000。例如,可以通过指令配置处理器来实现音箱控制装置4000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现音箱控制装置4000。例如,可以将音箱控制装置4000固化到专用器件(例如ASIC)中。可以将音箱控制装置4000分成相互独立的单元,或者可以将它们合并在一起实现。音箱控制装置4000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,音箱控制装置4000可以具有多种实现形式,例如,音箱控制装置4000可以是任何的提供音箱控制服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<音箱>
在本实施例中,还提供一种音箱5000。
在一个例子中,该音箱5000可以包括前述的音箱控制装置4000。
在另一个例子中,如图5所示,该音箱5000可以包括:
存储器5100和处理器5200,该存储器5100用于存储可执行的指令;该指令用于控制处理器5200执行前述的音箱控制方法。
<可读存储介质>
在本实施例中,还提供一种可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本公开任意实施例的音箱控制方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。
Claims (10)
1.一种音箱控制方法,其特征在于,包括:
获取音箱的麦克风采集的音源数据;
根据所述音源数据,确定至少一个音源相对于所述音箱的待检测方位;
控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像;
根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位;
控制所述音箱的摄像头朝向所述目标方位。
2.根据权利要求1所述的方法,其特征在于,所述控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像,包括:
遍历至少一个所述待检测方位;
控制所述音箱的摄像头朝向当前遍历到的待检测方位进行拍摄,得到所述当前遍历到的待检测方位的待测图像;
所述根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位包括:
确定所述当前遍历到的待检测方位的待测图像中人脸的姿态角;
根据所述当前遍历到的待检测方位的待测图像中人脸的姿态角,确定所述当前遍历到的待检测方位是否符合预设条件;
在所述当前遍历到的待检测方位符合所述预设条件的情况下,将所述当前遍历到的待检测方位作为所述目标方位,并停止遍历。
3.根据权利要求2所述的方法,其特征在于,所述姿态角包括航向角和俯仰角,
根据所述当前遍历到的待检测方位的待测图像中人脸的姿态角,确定所述当前遍历到的待检测方位是否符合预设条件,包括:
根据所述当前遍历到的待检测方位的待测图像中人脸的航向角和俯仰角,确定所述当前遍历到的待检测方位的检测结果;
在所述当前遍历到的待检测方位的检测结果大于或等于预设的结果阈值的情况下,确定当前遍历到的待检测方位符合所述预设条件;
在所述当前遍历到的待检测方位的检测结果小于预设的结果阈值的情况下,确定当前遍历到的待检测方位不符合所述预设条件。
4.根据权利要求2所述的方法,其特征在于,所述姿态角包括航向角和俯仰角,
所述确定所述当前遍历到的待检测方位的待测图像中人脸的姿态角,包括:
根据所述当前遍历到的待检测方位的待测图像,构建人脸的空间直角坐标系;所述人脸的空间直角坐标系的第一坐标轴,平行于所述当前遍历到的待检测方位的待测图像中双眼所在直线;所述人脸的空间直角坐标系的第二坐标轴,平行于第一平面且垂直于所述第一坐标轴,所述第一平面为所述待测图像中人脸的至少三个指定位置所在的平面;所述人脸的空间直角坐标系的第三坐标轴垂直于所述第一坐标轴和所述第二坐标轴;
构建参考坐标系;所述参考坐标系的第四坐标轴,平行于人脸正对所述摄像头的情况下双眼所在直线;所述参考坐标系的第五坐标轴,垂直于所述摄像头的镜头;
确定所述第一坐标轴与所述第四坐标轴之间的夹角,作为所述航向角;确定所述第三坐标轴与所述第五坐标轴之间的夹角,作为所述俯仰角。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述当前遍历到的待检测方位不符合所述预设条件的情况下,继续遍历下一个待检测方位。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述待检测方位均不符合所述预设条件的情况下,将检测结果最大的待检测方位,作为所述目标方位。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述音源数据,确定所述至少一个音源的音量;
根据所述至少一个音源的音量,对所述待检测方位进行排序;
所述遍历至少一个所述待检测方位包括:
按照所述待检测方位的排序顺序,遍历至少一个所述待检测方位。
8.一种音箱控制装置,其特征在于,包括:
音源数据获取模块,用于获取音箱的麦克风采集的音源数据;
待检测方位确定模块,用于根据所述音源数据,确定至少一个音源相对于所述音箱的待检测方位;
待测图像得到模块,用于控制所述音箱的摄像头朝向所述待检测方位进行拍摄,得到对应待检测方位的待测图像;
目标方位确定模块,用于根据所述待测图像,从所述待检测方位中选择与音箱交互的目标用户相对于所述音箱的目标方位;
摄像头控制模块,用于控制所述音箱的摄像头朝向所述目标方位。
9.一种音箱,其特征在于,包括:
如权利要求8所述的装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110852856.1A CN113627290A (zh) | 2021-07-27 | 2021-07-27 | 一种音箱控制方法、装置、音箱及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110852856.1A CN113627290A (zh) | 2021-07-27 | 2021-07-27 | 一种音箱控制方法、装置、音箱及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627290A true CN113627290A (zh) | 2021-11-09 |
Family
ID=78381235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110852856.1A Pending CN113627290A (zh) | 2021-07-27 | 2021-07-27 | 一种音箱控制方法、装置、音箱及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627290A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513207A (zh) * | 2018-03-30 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 音箱控制方法、装置、设备及计算机可读介质 |
CN109040584A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种互动拍摄的方法和装置 |
CN110691196A (zh) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | 一种音频设备的声源定位的方法及音频设备 |
CN111093022A (zh) * | 2018-10-24 | 2020-05-01 | 西安中兴新软件有限责任公司 | 图像拍摄方法、装置、终端及计算机存储介质 |
WO2020151580A1 (zh) * | 2019-01-25 | 2020-07-30 | 华为技术有限公司 | 一种屏幕控制和语音控制方法及电子设备 |
WO2020244032A1 (zh) * | 2019-06-03 | 2020-12-10 | 罗普特科技集团股份有限公司 | 用于检测人脸图像的方法和装置 |
CN112492207A (zh) * | 2020-11-30 | 2021-03-12 | 深圳卡多希科技有限公司 | 一种基于声源定位控制摄像头转动的方法和装置 |
-
2021
- 2021-07-27 CN CN202110852856.1A patent/CN113627290A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108513207A (zh) * | 2018-03-30 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 音箱控制方法、装置、设备及计算机可读介质 |
CN109040584A (zh) * | 2018-07-27 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 一种互动拍摄的方法和装置 |
CN111093022A (zh) * | 2018-10-24 | 2020-05-01 | 西安中兴新软件有限责任公司 | 图像拍摄方法、装置、终端及计算机存储介质 |
WO2020151580A1 (zh) * | 2019-01-25 | 2020-07-30 | 华为技术有限公司 | 一种屏幕控制和语音控制方法及电子设备 |
WO2020244032A1 (zh) * | 2019-06-03 | 2020-12-10 | 罗普特科技集团股份有限公司 | 用于检测人脸图像的方法和装置 |
CN110691196A (zh) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | 一种音频设备的声源定位的方法及音频设备 |
CN112492207A (zh) * | 2020-11-30 | 2021-03-12 | 深圳卡多希科技有限公司 | 一种基于声源定位控制摄像头转动的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110691196A (zh) | 一种音频设备的声源定位的方法及音频设备 | |
CN106897688B (zh) | 交互式投影装置、控制交互式投影的方法和可读存储介质 | |
US9055190B2 (en) | Arrangement of multiple audiovisual streams | |
US9594945B2 (en) | Method and apparatus for protecting eyesight | |
EP4198694A1 (en) | Positioning and tracking method and platform, head-mounted display system, and computer-readable storage medium | |
EP3481049A1 (en) | Apparatus and method for setting camera | |
US20170155523A1 (en) | Method and apparatus for identifying type of electronic device on smart socket, and storage medium | |
US20170070835A1 (en) | System for generating immersive audio utilizing visual cues | |
US20170094434A1 (en) | Electronic media volume control | |
US11855742B2 (en) | Near field communication antenna system for a playset | |
US11934206B2 (en) | Gimbal control method and device | |
KR20150144065A (ko) | 전자장치 케이스 및 이를 구비하는 전자장치 | |
US20150248145A1 (en) | Electronic apparatus and method for checking attached state of cover | |
KR102236203B1 (ko) | 서비스를 제공하는 방법 및 그 전자 장치 | |
KR20150089146A (ko) | 디스플레이 장치 및 이를 포함하는 디스플레이 시스템, 그리고 이의 id 설정 방법 | |
CN113627290A (zh) | 一种音箱控制方法、装置、音箱及可读存储介质 | |
US10372895B2 (en) | Apparatus and method for providing a security environment | |
US10133408B2 (en) | Method, system and computer program product | |
CN108804897A (zh) | 屏幕控制方法、装置、计算机设备及存储介质 | |
CN111046447B (zh) | 权限控制方法和权限控制系统 | |
CN110333903B (zh) | 页面加载时长的确定方法及装置 | |
CN112153360A (zh) | 头戴设备的曝光参数的确定方法、装置及设备 | |
KR20180007916A (ko) | 이어폰을 이용한 전자 장치의 제어 방법 및 이를 위한 전자 장치 | |
CN104899611A (zh) | 确定图像中卡片位置的方法及装置 | |
US11918928B2 (en) | Virtual presentation of a playset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |