CN112073639A

CN112073639A - 拍摄控制方法及装置、计算机可读介质和电子设备

Info

Publication number: CN112073639A
Application number: CN202010954523.5A
Authority: CN
Inventors: 陈刚
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-11

Abstract

本公开提供一种拍摄控制方法、拍摄控制装置、计算机可读介质和电子设备，涉及摄像技术领域。该方法包括：获取拍摄对象发出的第一语音数据；根据至少两组定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据；基于定位数据确定拍摄对象与终端设备当前使用的第一摄像模组之间的距离，并根据距离控制第一摄像模组进行对焦和拍摄。本公开一方面不需要专门的拍摄人员进行辅助性调整和控制，可以通过拍摄对象单独完成拍摄；另一方面，可以避免相关技术中，人为调整与拍摄对象位置不匹配的情况；此外，还可以避免拍摄时，由于拍摄人员操作造成的画面抖动等问题。

Description

拍摄控制方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及摄像技术领域，具体涉及一种拍摄控制方法、拍摄控制装置、计算机可读介质和电子设备。

背景技术

在科学技术飞速发展的当下，拍照或摄像已经成为人们日常生活的一部分。因此，越来越多的终端设备上都配置有摄像模组，很多终端设备甚至还配置了不止一个摄像模组。例如，手机、平板电脑、笔记本电脑等。

在相关技术中，在拍摄对象与控制终端设备距离较远，无法直接控制终端设备时，为了实现对拍摄对象的追踪拍摄，往往需要专门的拍摄人员辅助拍摄对象对摄像模组进行调整和控制。例如，在通过手机对拍摄对象进行摄像时，若拍摄对象相对手机发生运动时，为了能够保证拍摄质量，需要拍摄人员手动调整摄像模组的焦距，以完成拍摄。然而，通过这种方式进行拍摄时，必须有专门的拍摄人员对终端设备或摄像模组进行辅助性调整和控制才能实现，无法实现单人拍摄。

发明内容

本公开的目的在于提供一种拍摄控制方法、拍摄控制装置、计算机可读介质和电子设备，进而在一定程度上避免了相关技术中，需要专门的拍摄人员辅助拍摄对象才可以完成拍摄的问题。

根据本公开的第一方面，提供一种拍摄控制方法，应用于终端设备，包括：获取拍摄对象发出的第一语音数据；其中，第一语音数据包括至少两组由不同麦克风采集的定位语音数据；根据至少两组定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据；基于定位数据确定拍摄对象与终端设备当前使用的第一摄像模组之间的距离，并根据距离控制第一摄像模组进行对焦。

根据本公开的第二方面，提供一种拍摄控制装置，应用于终端设备，包括：数据获取模块，用于获取拍摄对象发出的第一语音数据；其中，第一语音数据包括至少两组由不同麦克风采集的定位语音数据；声源定位模块，用于根据至少两组定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据；拍摄控制模块，用于基于定位数据确定拍摄对象与终端设备当前使用的第一摄像模组之间的距离，并根据距离控制第一摄像模组进行对焦。

根据本公开的第三方面，提供一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的方法。

根据本公开的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的拍摄控制方法，通过在获取到拍摄对象对应的第一语音数据时，根据第一语音数据对拍摄对象进行定位得到定位数据，进而根据定位数据确定拍摄对象与终端设备之间的距离，以使终端设备可以根据该距离对第一摄像模组进行对焦。一方面，通过对第一语音数据进行声源定位可以得到拍摄对象当前的定位数据，使得终端设备可以根据拍摄对象的实时位置对第一摄像模组进行对焦，因此不需要专门的拍摄人员进行辅助性调整和控制，可以通过拍摄对象单独完成拍摄；另一方面，由于摄像模组的对焦操作可以通过拍摄对象的定位数据进行控制，因此避免了相关技术中，人为调整与拍摄对象位置不匹配的情况。此外，由于在拍摄过程中不需要专门的拍摄人员进行辅助性调整和控制，因此可以在一定程度上避免了拍摄时，由于拍摄人员操作造成的画面抖动等问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图；

图2示出了可以应用本公开实施例的一种电子设备的示意图；

图3示意性示出本公开示例性实施例中一种拍摄控制方法的流程图；

图4示意性示出本公开示例性实施例中一种麦克风阵列的设置方式；

图5示意性示出本公开示例性实施例中一种声纹识别模型建立方法的流程图；

图6示意性示出本公开示例性实施例中另一种拍摄控制方法的流程图；

图7示意性示出本公开示例性实施例中一种终端设备坐标系的示意图；

图8示意性示出本公开示例性实施例中拍摄控制装置的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种拍摄控制方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种设置有摄像模组的终端设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的拍摄控制方法一般由终端设备101、102、103中执行，相应地，拍摄控制装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是，本公开实施例所提供的拍摄控制方法也可以由服务器105执行，相应的，拍摄控制装置也可以设置于服务器105中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是由服务器105对第一语音数据进行数据处理得到对应的距离，然后控制对应的拍摄设备根据该距离控制第一摄像模组进行对焦；在另一种示例性实施例中，也可以由终端设备101、102、103等对第一语音数据进行数据处理得到对应的距离，并控制自身设置的第一摄像模组根据该距离进行对焦。

本公开的示例性实施方式提供一种用于实现拍摄控制方法的电子设备，其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行拍摄控制方法。

下面以图2中的移动终端200为例，对电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。在另一些实施方式中，移动终端200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端200的结构限定。在另一些实施方式中，移动终端200也可以采用与图2不同的接口连接方式，或多种接口连接方式的组合。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module，SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

NPU为神经网络(Neural-Network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现移动终端200的智能认知等应用，例如，可以通过NPU实现声纹识别、语音识别、语义识别等。

处理器210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令：检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令，并由处理器210来控制执行。

充电管理模块240用于从充电器接收充电输入。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

移动终端200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。

移动终端200可以通过ISP、摄像模组291、数字信号处理器、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。其中，ISP用于处理摄像模组291反馈的数据；数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号；视频编解码器用于对数字视频压缩或解压缩，移动终端200还可以支持一种或多种视频编解码器。

需要说明的是，摄像模组291用于捕获静态图像或视频，可以通过对摄像模组291进行控制，调节摄像模组对应的焦距等。在一些实施例中，移动终端可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。

外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展移动终端200的存储能力。外部存储卡通过外部存储器接口222与处理器210通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储移动终端200使用过程中所创建的数据(比如音频数据，电话本等)等。

处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令，执行移动终端200的各种功能应用以及数据处理。

移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。需要说明的是，为了实现声源定位，在本公开的实施例中，移动终端中可以包括至少两个麦克风273，这些麦克风设置于终端设备的不同位置，以形成麦克风阵列。

移动终端200中还可包括其它提供辅助功能的设备。例如，按键294包括开机键，音量键等，用户可以通过按键输入，产生与移动终端200的用户设置以及功能控制有关的键信号输入。再如，指示器292、马达293、SIM卡接口295等。

下面对本公开示例性实施方式的拍摄控制方法和拍摄控制装置进行具体说明。

图3示出了本示例性实施方式中一种拍摄控制方法的流程，该方法应用于至少包括一个摄像模组的终端设备，包括以下步骤S310至S330：

在步骤S310中，获取拍摄对象发出的第一语音数据。

其中，第一语音数据可以包括通过麦克风阵列获取到同一时间的语音数据。由于麦克风阵列可以通过至少两个麦克风形成，因此得到的第一语音数据也包括由不同麦克风采集的至少两组定位语音数据。需要说明的是，上述麦克风阵列可以通过至少两个麦克风形成，麦克风阵列中的麦克风可以设置为一字、十字、双L、平面、螺旋、球形等形状，用于根据接收到的语音数据进行声源定位，本公开对此不做特殊限定。例如，可以将手机上麦克风阵列中的4个麦克风设置在如图4所示的位置。

在一示例性实施例中，在获取拍摄对象发出的第一语音数据之前，终端设备可以已经处于基于第一摄像模组进行拍摄的状态，也可以是在获取到拍摄对象发出的第一语音数据之后，终端设备响应于接收到拍摄对象发出的第一语音数据，开启第一摄像模组进行拍摄，本公开对拍摄开启的节点不做特殊限定。

进一步地，在当前环境中存在多个可以发出声音的对象时，为了能够得到拍摄对象发出的第一语音数据，可以先通过终端设备上设置的麦克风阵列采集当前环境下的第二语音数据，然后对各组当前语音数据进行声纹识别，以确定当前语音数据中是否包括拍摄对象发出的定位语音数据，并在至少两组当前语音数据中包括拍摄对象发出的定位语音数据时，将至少两组当前语音数据中包括的至少两组定位语音数据确定为拍摄对象发出的第一语音数据。

其中，由于麦克风阵列中包括至少两个麦克风，对应的第二语音数据也包括至少两组由不同麦克风采集的当前语音数据。在这种情况下，为了能够对拍摄对象进行定位，第一语音数据包括的定位语音数据必须为拍摄对象发出的。因此可以声纹识别的方式识别当前语音数据中是否包括拍摄对象发出的定位语音数据。同时，由于声源定位是基于至少两组不同麦克风采集的语音数据才可以成功定位，因此只有在至少两组当前语音数据都包括定位语音数据时，才可以得到拍摄对象发出的语音数据。

通过声纹识别对麦克风阵列采集的第二语音数据进行声纹识别，可以有效识别拍摄对象的身份，避免在声源较多的场景中无法准确定位拍摄对象的问题。

在一示例性实施例中，上述声纹识别的过程可以通过声纹识别模型进行。此时在分别对各当前语音数据进行声纹识别之前，需要先建立声纹识别模型，以根据声纹识别模式确定当前语音数据中是否包括拍摄对象发出的定位语音数据。

在一示例性实施例中，声纹模型的建立过程如下：接收拍摄对象发出的第三语音数据，在第三语音数据中提取拍摄对象发出的声纹特征，并以该声纹特征为样本对声纹识别模型进行训练，直至该训练模型的正确率到达预定正确率时，得到训练后的声纹识别模型。训练后的声纹识别模型可以用于提取语音数据中的声纹特征，并根据声纹特征识别该语音数据是否为拍摄对象发出的声音。

其中，提取的声纹特征可以是频域特征、时域特征、空域特征等特征，本公开对此不做特殊限定。此外，在进行声纹特征提取之前，还可以先对第三语音数据进行预处理，以提高第三语音数据的质量。具体的，预处理可以包括降噪处理、滤波处理等，本公开对此也不做特殊限定。

需要说明的是，在一些实施例中，还可以同时存在多个拍摄对象，此时，可以通过多个拍摄对象发出的第三语音数据对声纹识别模型进行训练，得到的声纹识别模型可以辨认多个拍摄对象发出的语音数据，进而可以根据各拍摄对象发出的语音数据分别进行拍摄，本公开对拍摄对象的数量不做特殊限定。

在一示例性实施例中，在获取拍摄对象发出的第一语音数据之后，还可以根据第一语音数据的语音特征与关键词语音的语音特征之间的关系，对终端设备的拍摄进行不同的控制。具体的，可以先对第一语音数据进行特征提取，得到第一语音数据中的语音特征，然后将该语音特征与关键词语音的语音特征进行比对，得到第一语音数据与关键词语音的相似度。

在一示例性实施例中，上述关键词语音中可以包括针对对焦这一功能设置的第一关键词语音。此时，在第一语音数据与第一关键词语音的第一相似度大于等于第一阈值时，可以基于定位数据确定拍摄对象与终端设备之间的距离，以根据该距离进行对焦；在第一相似度小于第一阈值时，则可以直接重新获取拍摄对象发出的第一语音数据。例如，假设第一关键词语音提前录制的拍摄对象A发出的“对焦”的语音，则在第一语音数据的语音特征与“对焦”的语音特征的相似度大于等于第一阈值时，可以确定拍摄对象A发出的第一语音数据也是“对焦”，此时则可以继续确定拍摄对象A与终端设备之间的距离。

通过设置第一关键词语音，使得终端设备可以根据拍摄对象A的第一语音数据的语音数据与第一关键词语音是否一致，即确定第一语音数据的内容与第一关键词语音内容是否一致，进而确定是否执行基于定位数据确定拍摄对象和终端设备之间的距离的步骤。

此外，上述关键词语音还可以包括针对其他拍摄功能设置的第二关键词语音。其中，其他拍摄功能可以包括拍摄过程中出对焦功能以外的所有功能，例如，添加滤镜、拍照、摄像等功能，本公开对此不做特殊限定。在关键词语音还包括第二关键词语音时，在将第一语音数据的语音特征与第二关键词语音的语音特征比对后，可以得到第一语音数据与第二关键词语音的第二相似度，若该相似度大于等于第二阈值，则可以说明第一语音数据与第二关键词语音是相同语义的语音。此时，可以根据第二关键词语音调用对应的拍摄功能，以对终端设备的拍摄进行控制。

举例而言，假设第二关键词语音包括提前录制的“添加滤镜”这一关键词的语音，该第二关键词语音用于触发滤镜功能中的一个滤镜。在基于语音特征得到的第一语音数据与第二关键词语音的第二相似度大于等于第二阈值时，可以说明第一语音数据中也包括“添加滤镜”这一关键词，此时可以调用与第二关键词语音对应的滤镜功能中的一个滤镜，以对终端设备的拍摄添加滤镜。需要说明的是，在设置第二关键词语音时，只需将第二关键词语音与对应的拍摄功能关联起来，即可在第一语音数据与第二关键词语音的相似度大于调用对应的拍摄功能。而第二关键词语音的具体内容可以根据拍摄对象的偏好进行自定义，本公开对此不做特殊限定。

在步骤S320中，根据至少两组定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据。

其中，在根据至少两组定位语音数据对拍摄对象进行定位时，可以对拍摄对象进行波束成形声源定位，定位的方法可以包括时延估计定位方法，基于稀疏表示定位方法等定位方法，本公开对此不做特殊限制。需要说明的是，在进行波束成形声源定位时，可以结合全向型麦克风形成的麦克风阵列采集数据，对终端设备各个方向上的声源进行定向放大，以得到更加精准的定位数据。

在步骤S330中，基于定位数据确定拍摄对象与终端设备当前使用的第一摄像模组之间的距离，并根据距离控制第一摄像模组进行对焦。

在一示例性实施例中，在获取到拍摄对象的定位数据后，可以根据定位数据建立终端设备坐标系，并确定终端设备坐标系下拍摄对象的实时坐标，然后基于拍摄对象在终端设备坐标系下的实时坐标，计算拍摄对象与终端设备当前使用的第一摄像模组之间的距离。

其中，终端设备坐标系可以是基于终端设备建立的三维坐标系，该三维坐标系，可以是以终端设备上的摄像头、CPU等装置为坐标原点生成的三维坐标系，也可以是以终端设备所在空间中任意一点为原点生成的三维坐标系，可以根据使用场景不同进行设定，本公开对此不做特殊限定。对应的，由于生成的终端设备坐标系不同，根据定位数据确定的拍摄对象的实时坐标也不同。因此，为了能够计算拍摄对象与终端设备之间的距离，需要确定第一摄像模组在该三维坐标系中的所处的坐标，以便于进行距离计算。

进一步地，由于定位数据是基于语音数据获取的，为了使得根据定位数据生成的实时坐标更加准确，可以以采集语音数据的麦克风中，与第一摄像模组距离最近的一个为坐标原点建立三维坐标系。在终端设备较小时，麦克风与第一摄像模组之间的距离，相对于麦克风与拍摄对象之间的距离而言很小，因此可以将拍摄对象与作为坐标原点之间的距离近似为拍摄对象与第一摄像模组之间的距离。此时，可以直接将实时坐标与坐标原点之间的距离作为拍摄对象与第一摄像模组之间距离，对第一摄像模组进行对焦。具体的计算过程可以如下公式(1)所示：

其中，R_M1为拍摄对象与第一摄像模组之间的距离，(x₁,y₁)为终端设备坐标系中，拍摄对象在z＝0的平面上的投影的实时坐标，z₁为拍摄对象的高度。

需要说明的是，在一些实施例中，在终端设备较大时，即终端设备上的第一摄像模组与建立三维坐标系的坐标原点距离较远时，可以先确定第一摄像模组在该三维坐标系中的坐标(由于终端设备结构通常是固定不变的，在确定了三维坐标系的坐标原点后，第一摄像模组的坐标也保持不变)，然后基于该坐标和拍摄对象的实时坐标计算出来的距离，作为拍摄对象与终端设备之间的距离，并基于该距离控制终端设备上的第一摄像模组进行对焦拍摄。具体的计算过程可以如下公式(2)所示：

其中，R_M1为拍摄对象与第一摄像模组之间的距离，(x₁,y₁)为终端设备坐标系中，拍摄对象在z＝0的平面上的投影的实时坐标，z₁为拍摄对象的高度。(x₀,y₀)为终端设备坐标系中，第一摄像模组在z＝0的平面上的投影的坐标。

在一示例性实施例中，终端设备包括多个摄像模组时，可以基于声源定位的结果同时对多个摄像模组进行对焦，以同时对多个拍摄画面进行调整。

此外，在终端设备还包括第二摄像模组时，在得到定位数据后，在定位数据满足预设条件时，可以将拍摄所使用的摄像模组由第一摄像模组切换至第二摄像模组，使得终端设备的拍摄可以基于第二摄像模组继续。

其中，预设条件可以根据第一摄像模组和第二摄像模组在终端设备上的位置进行设置，本公开对预设条件的设置方式不进行特殊限定。

举例而言，在终端设备为手机时，第一摄像模组和第二摄像模组可以分别为后置摄像头和前置摄像头，预设条件则可以包括定位数据在前置摄像头的拍摄范围或者后置摄像头的拍摄范围。在当前拍摄摄像头为前置摄像头时，若根据定位数据确定拍摄对象在手机后置摄像头的拍摄范围，则可以将将拍摄使用的摄像头由前置摄像头切换为后置摄像头；反之，当前拍摄摄像头为后置摄像头时，若根据定位数据确定拍摄对象在手机前置摄像头的拍摄范围，则可以将将拍摄使用的摄像头由后置摄像头切换为前置摄像头。

需要说明的是，在一些实施例中，终端设备上可以设置有三个甚至更多的摄像头，此时可以根据不同摄像头的拍摄范围对定位数据设置预设条件，以根据拍摄对象的定位数据切换拍摄所使用的摄像头。此外，在切换了摄像头之后，还可以根据定位数据继续对当前使用的摄像头进行对焦。通过根据拍摄对象的实时位置进行摄像头切换，使得终端设备可以根据拍摄对象的第一语音数据自动切换摄像头，不需要专门的拍摄人员对终端设备或摄像模组进行辅助性调整，因此也避免了拍摄人员进行辅助性调整时可能造成的摄像画面抖动的问题。

以下以设置有前置摄像头和后置摄像头的手机为终端设备，并以图4所示的方式在该手机上设置全向型麦克风阵列为例，参照图5至图7所示，对本公开的技术方案进行详细阐述：

图5示意性示出本公开示例性实施例中一种建立声纹识别模型方法的流程图，该方法包括以下步骤：

步骤S502，采集第三语音数据，第三语音数据是用于进行模型训练的样本数据；

步骤S504，对第三语音数据进行降噪、滤波等预处理，以提高第三语音数据的语音质量；

步骤S506，针对第三语音数据进行声纹特征提取，得到声纹特征；该声纹特征可以包括频域特征、时域特征、空域特征等；

步骤S508，以该声纹特征为输入对声纹识别模型进行训练；

步骤S510，在该声纹识别模型的声纹识别成功率达到预设成功率时，得到训练后的声纹识别模型。

图6示意性示出本公开示例性实施例中一种拍摄控制方法的流程图，该方法包括以下步骤：

初始状态下，手机通过后置摄像头进行拍摄。

步骤S602，通过手机上麦克风阵列中的4个麦克风采集当前环境下的第二语音数据；第二语音数据包括4组当前语音数据；

步骤S604，针对各组当前语音数据分别进行降噪、滤波等预处理，以提高当前语音数据的语音质量；

步骤S606，针对各组语音数据进行声纹识别，以确定各组当前语音数据是否包括拍摄对象发出的定位语音数据；

步骤S608，确定第二语音数据中是否包括至少2组拍摄对象发出的定位语音数据；

步骤S610，在4组当前语音数据中至少有2组当前语音数据包括拍摄对象发出的定位语音数据时，将包含定位语音数据的当前语音数据作为第一语音数据；

在4组当前语音数据中仅有1组当前语音数据包括拍摄对象发出的定位语音数据，或者均不包含定位语音数据时，重新执行步骤S602；

步骤S612，通过第一语音数据对拍摄对象进行定位，以确定拍摄对象的定位数据；

步骤S614，基于定位数据确定拍摄对象在以麦克风1为原点建立的三维坐标系中的实时坐标；基于麦克风1建立的三维坐标系如图7所示；

步骤S616，根据实时坐标计算拍摄对象与坐标原点之间的距离，并将该距离确定为拍摄对象与后置摄像头之间的距离；

步骤S618，根据该距离控制后置摄像头进行对焦。

在步骤S614之后，即根据定位数据确定拍摄对象在如图7所示的三维坐标系中的实时坐标之后，若拍摄对象的实时坐标中，x轴的取值出现负数，且出现负数的次数大于自定义次数时，表明拍摄对象此时处于手机前置摄像头的拍摄范围，因此可以将拍摄的摄像头由后置摄像头切换为前置摄像头。

此外，在步骤S612之前，还可以将第一语音数据的语音特征与针对对焦功能设置的第一关键词语音的语音特征进行比对，以确定第一语音数据是否为针对对焦功能下发的指令。若确定第一语音数据与第一关键词语音的相似度大于等于第一阈值时，则可以继续执行步骤S612；需要说明的是，除了针对对焦功能设置的第一关键词语音之外，在一些实施例中，还可以针对其他功能设置第二关键词语音，例如，可以针对拍摄功能设置第二关键词语音，在第一语音数据与第二关键词语音的相似度大于等于第二阈值时，则可以直接调用拍摄功能进行拍摄。

综上，本示例性实施方式中，一方面，通过对第二语音进行声纹识别，然后基于识别后的第一语音数据进行声源定位，可以在多个声源中准确确定拍摄对象声源，并对拍摄对象进行声源定位，进而可以根据拍摄对象的实时位置控制摄像头的对焦，使得拍摄对象可以单独完成动态拍摄，避免相关技术中需要专门的摄影人员进行辅助性调整的问题；此外，由于终端设备可以直接根据定位结果进行自动调整，因此避免了手动操作可能造成的画面抖动等问题。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图8所示，本示例的实施方式中还提供一种拍摄控制装置800，包括数据获取模块810、声源定位模块820和拍摄控制模块830。其中：

数据获取模块810可以用于获取拍摄对象发出的第一语音数据；其中，第一语音数据包括至少两组由不同麦克风采集的定位语音数据。

声源定位模块820可以用于根据至少两组定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据。

拍摄控制模块830可以用于基于定位数据确定拍摄对象与终端设备当前使用的第一摄像模组之间的距离，并根据距离控制第一摄像模组进行对焦。

在一示例性实施例中，拍摄控制模块830可以用于根据定位数据建立终端设备坐标系，并确定拍摄对象在终端设备坐标系下的实时坐标；基于拍摄对象在终端设备坐标系下的实时坐标，计算拍摄对象与终端设备当前使用的第一摄像模组之间的距离。

在一示例性实施例中，拍摄控制模块830可以用于在定位数据满足预设条件时，将第一摄像模组切换为第二摄像模组，以使终端设备基于第二摄像模组继续进行拍摄。

在一示例性实施例中，数据获取模块810可以用于通过终端设备的麦克风阵列采集当前环境下的第二语音数据；其中，麦克风阵列包括至少两个麦克风，第二语音数据包括至少两组由不同麦克风采集的当前语音数据；分别对各当前语音数据进行声纹识别，以确定当前语音数据中是否包括拍摄对象发出的定位语音数据；在至少两组当前语音数据包括定位语音数据时，将至少两组定位语音数据确定为拍摄对象发出的第一语音数据。

在一示例性实施例中，拍摄控制装置800还可以包括模型训练模块，用于接收拍摄对象发出的第三语音数据，基于第三语音数据提取拍摄对象发出的声纹特征；基于声纹特征对声纹识别模型进行训练，得到训练后的声纹识别模型。

在一示例性实施例中，拍摄控制模块830还可以用于对第一语音数据进行特征提取，以获取第一语音数据对应的语音特征；将语音特征与关键词语音的语音特征进行比对，以获取第一语音数据与关键词语音的相似度；关键词语音包括第一关键词语音；在第一语音数据与第一关键词语音的第一相似度大于等于第一阈值时，基于定位数据确定拍摄对象与终端设备之间的距离；在第一相似度小于第一阈值时，重新获取拍摄对象发出的第一语音数据。

在一示例性实施例中，拍摄控制模块830还可以用于在第一语音数据与第二关键词语音的第二相似度大于等于第二阈值时，根据第二关键词语音调用对应的拍摄功能，以对终端设备的拍摄进行控制。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3、图5、图6中任意一个或多个步骤。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

此外，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种拍摄控制方法，应用于终端设备，其特征在于，包括：

获取拍摄对象发出的第一语音数据；其中，所述第一语音数据包括至少两组由不同麦克风采集的定位语音数据；

根据至少两组所述定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据；

基于所述定位数据确定所述拍摄对象与所述终端设备当前使用的第一摄像模组之间的距离，并根据所述距离控制所述第一摄像模组进行对焦。

2.根据权利要求1所述的方法，其特征在于，所述基于所述定位数据确定所述拍摄对象与所述终端设备当前使用的第一摄像模组之间的距离，包括：

根据所述定位数据建立终端设备坐标系，并确定所述拍摄对象在所述终端设备坐标系下的实时坐标；

基于所述拍摄对象在所述终端设备坐标系下的实时坐标，计算所述拍摄对象与所述终端设备当前使用的第一摄像模组之间的距离。

3.根据权利要求1所述的方法，其特征在于，所述终端设备还包括第二摄像模组；在得到所述定位数据之后，所述方法还包括：

在所述定位数据满足预设条件时，将所述第一摄像模组切换为第二摄像模组，以使所述终端设备基于所述第二摄像模组继续进行拍摄。

4.根据权利要求1所述的方法，其特征在于，所述获取拍摄对象发出的第一语音数据，包括：

通过所述终端设备的麦克风阵列采集当前环境下的第二语音数据；其中，所述麦克风阵列包括至少两个麦克风，所述第二语音数据包括至少两组由不同麦克风采集的当前语音数据；

分别对各所述当前语音数据进行声纹识别，以确定所述当前语音数据中是否包括所述拍摄对象发出的定位语音数据；

在至少两组所述当前语音数据包括所述定位语音数据时，将至少两组所述定位语音数据确定为所述拍摄对象发出的第一语音数据。

5.根据权利要求4所述的方法，其特征在于，所述声纹识别通过声纹识别模型进行；

在所述分别对各所述当前语音数据进行声纹识别之前，所述方法还包括：

接收拍摄对象发出的第三语音数据，基于所述第三语音数据提取所述拍摄对象发出的声纹特征；

基于所述声纹特征对声纹识别模型进行训练，得到训练后的声纹识别模型。

6.根据权利要求1所述的方法，其特征在于，在获取拍摄对象发出的第一语音数据之后，所述方法还包括：

对所述第一语音数据进行特征提取，以获取所述第一语音数据对应的语音特征；

将所述语音特征与关键词语音的语音特征进行比对，以获取所述第一语音数据与所述关键词语音的相似度；所述关键词语音包括第一关键词语音；

在所述第一语音数据与所述第一关键词语音的第一相似度大于等于第一阈值时，基于所述定位数据确定所述拍摄对象与所述终端设备之间的距离；

在所述第一相似度小于所述第一阈值时，重新获取拍摄对象发出的第一语音数据。

7.根据权利要求6所述的方法，其特征在于，所述关键词语音还包括第二关键词语音；

在所述将所述语音特征与关键词语音的语音特征进行比对，以获取所述第一语音数据与所述关键词语音的相似度之后，所述方法还包括：

在所述第一语音数据与所述第二关键词语音的第二相似度大于等于第二阈值时，根据所述第二关键词语音调用对应的拍摄功能，以对所述终端设备的拍摄进行控制。

8.一种拍摄控制装置，应用于终端设备，其特征在于，包括：

数据获取模块，用于获取拍摄对象发出的第一语音数据；其中，所述第一语音数据包括至少两组由不同麦克风采集的定位语音数据；

声源定位模块，用于根据至少两组所述定位语音数据对拍摄对象进行声源定位，得到拍摄对象的定位数据；

拍摄控制模块，用于基于所述定位数据确定所述拍摄对象与所述终端设备当前使用的第一摄像模组之间的距离，并根据所述距离控制所述第一摄像模组进行对焦。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。