CN105208283A

CN105208283A - 一种声控拍照的方法及装置

Info

Publication number: CN105208283A
Application number: CN201510656801.8A
Authority: CN
Inventors: 吴磊
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2015-10-13
Filing date: 2015-10-13
Publication date: 2015-12-30

Abstract

本发明实施例公开了一种声控拍照的方法，包括：人脸区域，获取所述人脸区域对应的距离信息；根据所述人脸区域对应的距离信息，获取与所述人脸区域对应的声音参考振幅值；获取麦克风采集的音频数据，所述音频数据包括声音振幅值；判断所述声音振幅值是否与所述声音参考振幅值匹配且所述音频数据是否与预设的声音样本数据匹配；若是，则生成与所述音频数据对应的拍照指令。本发明还相应地提出了一种声控拍照的装置。采用本发明，可以在声控拍照的过程中，区分背景声音和目标声音，降低声控拍照的误操作率，提升用户体验。

Description

一种声控拍照的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种声控拍照的方法及装置。

背景技术

随着通信技术的不断发展，对照相机而言，除了可以通过设置在终端上的按钮控制拍照之外，还可以通过声控技术来控制拍照。在现有的声控拍照方法中，其声控的实现是通过麦克风获取音频数据，然后将获取到的音频数据与音频样本数据库进行比对，在音频数据匹配时，则生成与所述音频数据对应的拍照指令，并发送给终端的拍照模块。但是，当拍照环境中声音嘈杂或背景声音多样的情况下，例如在街道等环境中，周围环境的杂音，也可能触发拍照，造成误操作，给用户带来不变。因此，现有的声控拍照存在不能区分背景杂音和目标声音，从而导致声控拍照的误操作率很高，影响了用户体验。

发明内容

基于此，为解决上述提到的传统技术中声控拍照存在的不能区分背景杂音和目标声音导致的声控拍照的误操作率高的技术问题，特提供了一种声控拍照的方法。

一种声控拍照的方法，包括：

获取摄像头采集的目标图像，获取所述目标图像中的人脸区域，获取所述人脸区域对应的距离信息；

根据所述人脸区域对应的距离信息，获取与所述人脸区域对应的声音参考振幅值；

获取麦克风采集的音频数据，所述音频数据包括声音振幅值；

判断所述声音振幅值是否与所述声音参考振幅值匹配且所述音频数据是否与预设的声音样本数据匹配；

若是，则生成与所述音频数据对应的拍照指令。

可选的，所述获取所述目标图像中的人脸区域步骤包括：根据人脸识别算法在所述目标图像中查找与人脸对应的特征区域，将查找到的所述特征区域作为人脸区域。

可选的，所述摄像头为双摄像头；所述获取所述人脸区域对应的距离信息步骤包括：根据双摄像头测距原理通过双摄像头获取所述人脸区域对应的距离信息。

可选的，所述获取所述人脸区域对应的距离信息步骤包括：选取所述人脸区域中预设数量的参考像素点，获取与所述参考像素点对应的距离信息，计算所有所述参考像素点对应的距离信息的平均值，以所述所有参考像素点对应的距离信息的平均值为所述人脸区域对应的距离信息。

可选的，所述根据所述人脸区域对应的距离信息，获取与所述人脸区域对应的声音参考振幅值步骤包括：根据预设的函数，以所述人脸区域对应的距离信息为自变量，计算与所述人脸区域对应的声音参考振幅值。

可选的，所述音频数据包括各声源所发出的声音数据，所述各声源所发出的声音数据均包括与所述声音数据对应的声音振幅值；所述判断所述声音振幅值是否与所述声音参考振幅值匹配，且所述音频数据是否与预设的声音样本数据匹配的步骤包括：分别判断所述与各声源所发出的声音数据对应的声音振幅值是否与所述声音参考振幅值匹配，且所述各声源所发出的声音数据是否与预设的声音样本数据匹配。

此外，为解决上述提到的传统技术中声控拍照存在的不能区分背景杂音和目标声音导致的声控拍照的误操作率高的技术问题，本发明还提供了一种声控拍照的装置。

一种声控拍照的装置，包括：

图像获取模块，用于获取摄像头采集的目标图像，获取所述目标图像中的人脸区域，获取所述人脸区域对应的距离信息；

声音参考振幅值获取模块，用于根据所述人脸区域对应的距离信息，获取与所述人脸区域对应的声音参考振幅值；

音频数据获取模块，用于获取麦克风采集的音频数据，所述音频数据包括声音振幅值；

判断模块，用于判断所述声音振幅值是否与所述声音参考振幅值匹配且所述音频数据是否与预设的声音样本数据匹配；

指令生成模块，用于在所述判断模块的判断结果为是时，生成与所述音频数据对应的拍照指令。

可选的，所述图像获取模块还用于：根据人脸识别算法在所述目标图像中查找与人脸对应的特征区域，将查找到的所述特征区域作为人脸区域。

可选的，所述摄像头为双摄像头；所述图像获取模块还用于：根据双摄像头测距原理通过双摄像头获取所述人脸区域对应的距离信息。

可选的，所述图像获取模块还用于：选取所述人脸区域中预设数量的参考像素点，获取与所述参考像素点对应的距离信息，计算所有所述参考像素点对应的距离信息的平均值，以所述所有参考像素点对应的距离信息的平均值为所述人脸区域对应的距离信息。

可选的，所述声音参考振幅值获取模块还用于：根据预设的函数，以所述人脸区域对应的距离信息为自变量，计算与所述人脸区域对应的声音参考振幅值。

可选的，所述音频数据包括各声源所发出的声音数据，所述各声源所发出的声音数据均包括与所述声音数据对应的声音振幅值；所述判断模块还用于：分别判断所述与各声源所发出的声音数据对应的声音振幅值是否与所述声音参考振幅值匹配，且所述各声源所发出的声音数据是否与预设的声音样本数据匹配。

实施本发明实施例，将具有如下有益效果：

采用了上述声控拍照的方法及装置之后，在利用声控技术进行拍照的过程中，首先根据摄像头采集的图像中的人脸区域离镜头的距离确定相应的人物所发出的声音的参考范围，从而使得麦克风采集到的声音不仅要符合预设的拍照动作的触发语音设置，还需要其声音的大小在上述参考范围之内。综上叔叔，周围环境中的声音在其声音大小不满足条件的情况下，是不可能触发拍照操作的，即不会造成误拍。也就是说，采用本发明提出的声控拍照的方法及装置，可以区分背景声音和目标声音，从而降低了声控拍照的误操作率，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种声控拍照的方法流程示意图；

图2为一个实施例中一种声控拍照的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决上述提到的传统技术中声控拍照存在的不能区分背景杂音和目标声音导致的声控拍照的误操作率高的技术问题，在本实施例中，提供了一种声控拍照的方法。该方法可依赖于计算机实现，可运行于基于冯诺依曼体系的计算机系统上。该计算机程序可以是相机应用或者相机应用的客户端程序。该计算机系统可以是安装有摄像头的相机应用或相机应用的客户端的相机、智能手机、平板电脑、掌上电脑、笔记本电脑或个人电脑等终端设备。

具体的，上述声控拍照的方法如图1所示，该方法包括如下步骤：

步骤S102：获取摄像头采集的目标图像，获取所述目标图像中的人脸区域，获取所述人脸区域对应的距离信息。

本实施例所提及的摄像头可为终端内置的摄像头，如自带摄像头的手机；本步骤在终端接收到相机模式启动指令时，启动摄像头并获取摄像头采集的图像帧。若终端未包含内置的摄像头，但与外部摄像头相连，如终端为PC(PersonalComputer，个人计算机)，PC内未设置摄像头，但PC与外部摄像头相连接；本步骤在接收到录像启动指令时，启动与PC相连的摄像头，并获取摄像头采集的图像帧。

目标图像即为通过摄像头采集的图像，并且，在终端的显示界面上展示该目标图像。

在上述目标图像中包括了目标人物的人脸区域，在本实施例中，需要获取在目标图像中的人脸区域。具体的，人脸区域的获取可以由用户手动选择然后获取的，也可以是系统自动识别或查找的。例如，可以根据人脸识别算法在所述目标图像中查找与人脸对应的特征区域，将查找到的所述特征区域作为人脸区域。

人脸识别算法就是在检测到脸部并定位脸部的关键特征点之后，然后将主要的脸部区域裁剪出来作为人脸区域。

具体的，可以基于几何特征对人脸进行识别。基于已知的对人脸结构的先验知识，提取出眼睛、眉毛、鼻子、嘴巴、脸的形状以及它们之间的几何关系。为了他提高图像的识别率，在识别人脸之前，还可以对图片进行预处理，预处理的方式包括了灰度变换、二值化处理、图像归一化等。在另一个实施例中，人脸识别的实现，还可以是通过以下方法，将图像中的人脸区域看做是一种随机向量，根据图像的统计特征进行正交变换，获得其正交基底，利用这些基底的线性组合可以表达人脸图像，从而进行人脸识别。需要说明的是，在本实施例中，人脸识别算法不限于以上提到的算法，只要是可以实现从图像中提取人脸区域的算法，都可以作为上述人脸识别算法的具体实现方法。

在本实施例中，获取人脸区域对应的距离信息，可以通过对已经获取到的人脸区域对焦，对焦成功后根据人脸区域的像距和当前摄像头的焦距，计算与人脸区域对应的目标人物的脸部之间的距离值；还可通过在终端上安装测距传感器，如超声测距传感器、激光测距传感器、雷达测距传感器和红外线测距传感器等等，通过测距传感器去检测与目标拍摄对象之间的距离值。

在本实施例中，获取人脸区域对应的距离信息还可以通过设置在终端上的双摄像头获取。具体的，在终端上设置有两个摄像头，需要说明的是，本实施例中的双摄像头不是例如智能手机的前后摄像头，而是设置在终端的某一侧的两个摄像头，也就是说，这两个摄像头可以同时对同一物体进行拍摄。具体的，使用两个摄像头分别成像，因为两个摄像头之前存在的一定的距离，所以同一物体所成的像会在像素点坐标等信息上存在一定的差别，也就是说，两个摄像头的分别成像，会有一定的视差存在。上述双摄像头成像的视差，可以用来估计和计算物体距离镜头的实体距离，即距离信息，并且可以进一步地获取每一个像素点的距离信息。

根据双摄像头测距原理，通过同一物体在两个摄像头采集的图像中的位置的不同，以及两个摄像头在终端上设置的位置和角度，计算该物体离镜头之间的距离、以及物体离两个镜头的连线的中点的距离。

可选的，在本实施例中，获取所述人脸区域对应的距离信息步骤包括：选取所述人脸区域中预设数量的参考像素点，获取与所述参考像素点对应的距离信息，计算所有所述参考像素点对应的距离信息的平均值，以所述所有参考像素点对应的距离信息的平均值为所述人脸区域对应的距离信息。

需要说明的是，在上述人脸区域所对应的距离信息的获取中，获取的距离信息用以代表整个人脸区域被所有像素点的距离信息，在本实施例中，用哪一个点或者哪个区域的距离信息用来代表与人脸区域对应的目标人物的脸部区域的距离信息，是可以进行选择的，如，可以为用户实现设定的，也可以是系统预设的，或者，也可以是系统随机选定的一种方式。

具体的，可以取人脸区域内的任意一点的距离信息，用该点的距离信息代表整个人脸区域的距离信息。还可以是取人脸区域中满足预设条件的某一个特定点的对应的距离信息，用以代替整个人脸区域的距离信息，例如取距离信息对应的值最大的像素点的距离信息，例如取人脸区域的中心点对应的距离信息。在另一个实施例中，人脸区域的距离信息的获取还可以是通过获取前景目标区域中的每一个像素点对应的距离，并计算所有点对应的距离的平均值，以该平均值来代表前景目标的距离信息。

在另一个实施例中，人脸区域对应的距离信息的获取还可以为如下计算方式：随机选取人脸区域内一定数量的像素点，以这些像素点为参考像素点，获取上述参考像素点对应的距离信息，然后计算所有参考像素点的距离信息的平均值，以该平均值为人脸区域对应的距离信息。

步骤S104：根据所述人脸区域对应的距离信息，获取与所述人脸区域对应的声音参考振幅值。

一般来讲，声源离人的距离越远，人所感知或听到的声音会越小；相应的，当声源离麦克风的距离越远时，通过麦克风所采集到的声音的大小会越小。也就是说，通过声音采集装置采集到的声音的大小(声音的响度或振幅大小)跟声源的距离是成负相关关系的，距离越大，声音越小。

在这里，只考虑声音经空气传播，也就是说，对于某声源发出的固定振幅或响度的声音，声音经空气传播且随着传播距离的增大而减小。在本实施例中，声音的大小用振幅表示，也就是说，声音的振幅值与距离是成负相关关系的，或者声音的振幅值随着距离的增大而减小。

在一个实施例中，声音振幅值与距离成反比，可以用如下公式表示：

V = \frac{L}{k_{1}}

其中，V表示声音振幅值，L为声源离声音采集装置的距离，k₁为固定的系数，且k₁的具体值可以通过实验获取，其大小主要受空气密度的影响。

在另一个实施例中，声音振幅值与距离成线性关系，可以用如下线性函数表示：

V＝-k₂·L+V_max

其中V表示声音振幅值，L为声源离声音采集装置的距离，k₂为固定的系数，且k的具体值可以通过实验获取。

在其他实施例中，声音振幅值可以是以距离为自变量的其他函数，例如，分段函数，只要该函数能准确的表示声音振幅值与距离之间的相互影响关系，且，声音振幅值是关于距离的单调递减函数。

根据声音振幅值与人脸区域对应的距离信息之间的函数关系，在步骤S102中获取到人脸区域对应的距离信息之后，可以通过该函数关系计算与人脸区域对应的声音参考振幅值，即在一般情况下，在该距离下的声音的大小的参考值，只有在其接收到的声音大小在该声音参考振幅值的一定范围之内时，才能认定该声音是上述人脸区域所对应的目标人物所发出的声音或命令。

步骤S106：获取麦克风采集的音频数据，所述音频数据中包括声音振幅值。

在步骤S102中通过摄像头获取目标图像时，还需要通过麦克风或者其他声音采集装置获取周围环境中的音频数据，该音频数据即为拍照环境中通过麦克风获取的声音数据。例如，该音频数据可能包括用户发出的“拍照”指令对应的语音片段。并且，进一步的，该音频数据不仅包括了具体的语音内容，如人声的具体说话内容，还包括了每个声音的声音大小，即在音频数据中包括了对应的声音振幅值，该声音振幅值用来表示声音的大小或响度。

需要说明的是，在上述通过麦克风获取的音频数据中，因为该音频数据时麦克风获取的在拍照环境中的声音，因此，该音频数据包括了拍照环境中各声源所发出的声音，是各声源所发出的声音的综合。通常情况下，各声音到达麦克风时已经混叠，此时，终端可采用声音分离技术，去获取各声源相对应的声音数据，例如，采用基于声音基频的混叠声音数据分离方法，可先把混叠的声音数据进行傅里叶变换，把时域上的数据转变成频域数据，然后在频域上将出现的主频数据分开，即分别通过带通滤波器就得到各主频数据的频谱，再将分离后的频谱变换到时域上来以获取各声音数据分量的时域数据。

需要说明的是，在上述多声源的情况下，在获取各声源相对应的声音数据时，还需要获取与声源对应的声音数据的声音振幅值。

步骤S108：判断所述声音振幅值是否与所述声音参考振幅值匹配且所述音频数据是否与预设的声音样本数据匹配，若是，执行步骤S110：若是，则生成与所述音频数据对应的拍照指令。

具体实现中，声控拍照的拍照指令的生成，需要判断通过麦克风获取到的声音是否为预设的拍照指令所对应的声控方式匹配，即判断获取到的音频数据是否与预设的声音样本数据匹配。在本实施例中，为了区分背景声音和目标人物所发出的声音，还需要判断该音频数据所包括的声音振幅值是否与步骤S104中获取到的声音参考振幅值是匹配的，只有在上述两个判断的结果均为是时，才能确定通过麦克风获取到了目标人物发出的拍照命令，才能生成对应的拍照指令。

需要说明的是，在上述判断声音振幅值是否与声音参考振幅值匹配的过程中，因为声音参考振幅值是一个数值，若要求拍照指令对应的声音振幅等于该声音参考振幅值，会显得要求过于苛刻，并且，该条件很难满足，因为人发出的声音的大小会因为各种因素在一定范围的浮动，例如大声说话和笑声说话的去呗。所以，本实施例中，上述匹配方式为，若声音振幅值在包括声音参考振幅值的预设区间内，则判定声音振幅值与声音参考振幅值是匹配的。且，上述预设区间的设置，可以是在声音参考振幅值预设大小的正负区间，例如，若V_s表示声音参考振幅值，则预设区间可以表示为[V_s-V_-,V_s+V₊]，其中V_-和V₊均为正常数，且，V_-和V₊的值可以相同，也可以不同。

在本实施例中，判断音频数据是否与预设的样本数据匹配，主要是判断音频数据中包含的语音是否与预设的声音样本数据匹配，具体来讲就是，对音频数据中包含的语音进行识别，在样本数据库中查找与上述语音的特征值匹配的样本数据，然后跟据该样本数据识别音频数据中包含的语音所对应的字符，然后判断该字符是否与预设的字符是匹配的，若是，则判定为音频数据与预设的声音样本数据是匹配的。

需要说明的是，在本实施例中，在步骤S108中，只有在声音振幅值与所述声音参考振幅值是匹配的，且音频数据是否与预设的声音样本数据匹配时，步骤S108中的判断结果才为“是”，且执行步骤S110：生成与上述音频数据对应的拍照指令。

在本实施例中，拍照指令可以有多种，如实时拍照、延时拍照、连拍等，上述拍照指令所对应的操作需要根据通过麦克风获取到的音频数据所确定的。

在本实施例中，音频数据可能包括多个声源所发出的多个声音数据，也就是说，在将各个声源所发出的声音数据进行分离之后，分别针对每个声源所发出的声音数据进行处理，即分别判断与各声源所发出的声音数据对应的声音振幅值是否与所述声音参考振幅值匹配，且所述各声源所发出的声音数据是否与预设的声音样本数据匹配。若在上述判断过程中，若存在某个声源对应的声音数据的上述判断的判定结果为是，则判定步骤S108中的判断结果为是。

为解决上述提到的传统技术中声控拍照存在的不能区分背景杂音和目标声音导致的声控拍照的误操作率高的技术问题，在其他实施例中，提供了一种声控拍照的装置，该装置包括了图像获取模块102、声音参考振幅值获取模块104、音频数据获取模块106、判断模块108以及指令生成模块110，其中：

图像获取模块102，用于获取摄像头采集的目标图像，获取目标图像中的人脸区域，获取人脸区域对应的距离信息；

声音参考振幅值获取模块104，用于根据人脸区域对应的距离信息，获取与人脸区域对应的声音参考振幅值；

音频数据获取模块106，用于获取麦克风采集的音频数据，音频数据包括声音振幅值；

判断模块108，用于判断声音振幅值是否与声音参考振幅值匹配且音频数据是否与预设的声音样本数据匹配；

指令生成模块110，用于在判断模块108的判断结果为是时，生成与音频数据对应的拍照指令。

可选的，图像获取模块102还用于：根据人脸识别算法在目标图像中查找与人脸对应的特征区域，将查找到的特征区域作为人脸区域。

可选的，在本实施例中提及的摄像头为双摄像头；图像获取模块102还用于：根据双摄像头测距原理通过双摄像头获取人脸区域对应的距离信息。

可选的，图像获取模块102还用于：选取人脸区域中预设数量的参考像素点，获取与参考像素点对应的距离信息，计算所有参考像素点对应的距离信息的平均值，以所有参考像素点对应的距离信息的平均值为人脸区域对应的距离信息。

可选的，声音参考振幅值获取模块104还用于：根据预设的函数，以人脸区域对应的距离信息为自变量，计算与人脸区域对应的声音参考振幅值。

可选的，音频数据包括各声源所发出的声音数据，各声源所发出的声音数据均包括与声音数据对应的声音振幅值；判断模块108还用于：分别判断与各声源所发出的声音数据对应的声音振幅值是否与声音参考振幅值匹配，且各声源所发出的声音数据是否与预设的声音样本数据匹配。

实施本发明实施例，将具有如下有益效果：

本领域的技术人员可以将本说明书中描述的不同实施例以及不同实施例的特征进行结合和组合。本发明所有实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减；本发明所有实施例装置中的模块或单元可以根据实际需要进行合并、划分和删减。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

以上所揭露的仅为本发明的较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种声控拍照的方法，其特征在于，包括：

若是，则生成与所述音频数据对应的拍照指令。

2.根据权利要求1所述的声控拍照的方法，其特征在于，所述获取所述目标图像中的人脸区域步骤包括：

根据人脸识别算法在所述目标图像中查找与人脸对应的特征区域，将查找到的所述特征区域作为人脸区域。

3.根据权利要求1所述的声控拍照的方法，其特征在于，所述摄像头为双摄像头；

所述获取所述人脸区域对应的距离信息步骤包括：

根据双摄像头测距原理通过双摄像头获取所述人脸区域对应的距离信息。

4.根据权利要求1或3所述的声控拍照的方法，其特征在于，所述获取所述人脸区域对应的距离信息步骤包括：

选取所述人脸区域中预设数量的参考像素点，获取与所述参考像素点对应的距离信息，计算所有所述参考像素点对应的距离信息的平均值，以所述所有参考像素点对应的距离信息的平均值为所述人脸区域对应的距离信息。

5.根据权利要求1所述的声控拍照方法，其特征在于，所述根据所述人脸区域对应的距离信息，获取与所述人脸区域对应的声音参考振幅值步骤包括：

根据预设的函数，以所述人脸区域对应的距离信息为自变量，计算与所述人脸区域对应的声音参考振幅值。

6.根据权利要求1所述的声控拍照的方法，其特征在于，所述音频数据包括各声源所发出的声音数据，所述各声源所发出的声音数据均包括与所述声音数据对应的声音振幅值；

所述判断所述声音振幅值是否与所述声音参考振幅值匹配，且所述音频数据是否与预设的声音样本数据匹配的步骤包括：

分别判断所述与各声源所发出的声音数据对应的声音振幅值是否与所述声音参考振幅值匹配，且所述各声源所发出的声音数据是否与预设的声音样本数据匹配。

7.一种声控拍照的装置，其特征在于，包括：

8.根据权利要求7所述的声控拍照的装置，其特征在于，所述图像获取模块还用于：根据人脸识别算法在所述目标图像中查找与人脸对应的特征区域，将查找到的所述特征区域作为人脸区域。

9.根据权利要求7所述的声控拍照的装置，其特征在于，所述摄像头为双摄像头；

所述图像获取模块还用于：根据双摄像头测距原理通过双摄像头获取所述人脸区域对应的距离信息。

10.根据权利要求7或9所述的声控拍照的装置，其特征在于，所述图像获取模块还用于：选取所述人脸区域中预设数量的参考像素点，获取与所述参考像素点对应的距离信息，计算所有所述参考像素点对应的距离信息的平均值，以所述所有参考像素点对应的距离信息的平均值为所述人脸区域对应的距离信息。

11.根据权利要求7所述的声控拍照装置，其特征在于，所述声音参考振幅值获取模块还用于：根据预设的函数，以所述人脸区域对应的距离信息为自变量，计算与所述人脸区域对应的声音参考振幅值。

12.根据权利要求7所述的声控拍照的装置，其特征在于，所述音频数据包括各声源所发出的声音数据，所述各声源所发出的声音数据均包括与所述声音数据对应的声音振幅值；

所述判断模块还用于：分别判断所述与各声源所发出的声音数据对应的声音振幅值是否与所述声音参考振幅值匹配，且所述各声源所发出的声音数据是否与预设的声音样本数据匹配。