CN115035187A

CN115035187A - 声源方向确定方法、装置、终端、存储介质及产品

Info

Publication number: CN115035187A
Application number: CN202210558040.2A
Authority: CN
Inventors: 吴俊�; 李良斌
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-09-09

Abstract

本申请提供了一种声源方向确定方法、装置、终端、存储介质及产品，属于声源定位技术领域。所述方法包括：确定所采集的目标语音信号在至少一个拾音方向上的语音信号；若所述至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则确定初始声源方向，所述相似度是所述拾音方向对应的语音信号与预设唤醒词之间的相似度；若所述初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制所述终端上的摄像头转动并采集图像，基于当前采集到的图像的对象识别结果和所述摄像头当前的朝向，确定目标声源方向，所述目标拾音方向为所述至少一个拾音方向中最大相似度对应的方向。该方法所确定的目标声源方向的准确性较高。

Description

声源方向确定方法、装置、终端、存储介质及产品

技术领域

本申请涉及声源定位技术领域，特别涉及一种声源方向确定方法、装置、终端、存储介质及产品。

背景技术

目前，一些终端能够识别用户的语音信号，从而与用户进行互动。而为了节省功耗，终端一般处于休眠状态，在接收到唤醒指令时才唤醒终端。

相关技术中，为了提高采集到的语音信号的清晰度，终端可以借助于该唤醒指令对应的语音信号，确定声源方向，后续即可基于该声源方向采集语音信号。然而在周围环境存在噪声的情况下，会导致所确定的声源方向准确性较差。

发明内容

本申请实施例提供了一种声源方向确定方法、装置、终端、存储介质及产品，能够提高声源方向的准确性。所述技术方案如下：

根据本申请实施例的一方面，提供了一种声源方向确定方法，所述方法包括：

确定所采集的目标语音信号在至少一个拾音方向上的语音信号；

若所述至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则确定初始声源方向，所述相似度是所述拾音方向对应的语音信号与预设唤醒词之间的相似度；

若所述初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制所述终端上的摄像头转动并采集图像，基于当前采集到的图像的对象识别结果和所述摄像头当前的朝向，确定目标声源方向，所述目标拾音方向为所述至少一个拾音方向中最大相似度对应的方向。

在一种可能的实现方式中，所述对象识别结果表示在所采集的图像中未识别到对象或识别到对象，所述基于当前采集到的图像的对象识别结果和所述摄像头当前的朝向，确定目标声源方向，包括：

若所述摄像头未经过第一方向且当前所采集的图像中识别到对象，则记录所述摄像头当前的朝向，控制所述摄像头继续转动并采集图像；

若所述摄像头已经过所述第一方向、还未到达第二方向，且当前所采集的图像中识别到对象，则将所述摄像头当前的朝向确定为所述目标声源方向，并控制所述摄像头停止转动；或者，若所述摄像头当前的朝向为所述第二方向、当前所采集的图像中未识别到对象、且已记录朝向，则基于所记录的朝向，确定所述目标声源方向，并控制所述摄像头回旋至所述目标声源方向；

其中，所述第一方向为所述初始声源方向和所述目标拾音方向中，所述摄像头所经过的第一个方向，所述第二方向为所述初始声源方向和所述目标拾音方向中，所述摄像头所经过的第二个方向。

在一种可能的实现方式中，所述方法还包括：

若所述摄像头当前的朝向为所述第二方向、当前所采集的图像中未识别到对象、且未记录朝向，则将所述第二方向确定为所述目标声源方向，并控制所述摄像头停止转动。

在一种可能的实现方式中，所述基于所记录的朝向，确定所述目标声源方向，包括：

若所记录的朝向的数量为1个，则将所记录的朝向确定为所述目标声源方向；

若所述记录的朝向的数量为多个，则将所记录的多个朝向中与所述第一方向之间的夹角最小的朝向，确定为所述目标声源方向。

在一种可能的实现方式中，在所述控制所述终端上的摄像头转动并采集图像之前，所述方法还包括：

分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数；

基于所确定的方向参数，从所述逆时针转动方向和所述顺时针转动方向中，确定目标转动方向；

所述控制所述终端上的摄像头转动，包括：

控制所述终端上的摄像头按照所述目标转动方向转动。

在一种可能的实现方式中，所述分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数，包括：

若所述至少一个拾音方向的数量大于2，则对于所述逆时针转动方向和所述顺时针转动方向中的每一转动方向，确定至少一个中间方向，将所述至少一个中间方向对应的相似度的加权平均值，确定为所述转动方向对应的方向参数，所述中间方向是在所述转动方向上，位于所述摄像头当前的朝向与所述目标拾音方向中间的拾音方向；

所述基于所确定的方向参数，从所述逆时针转动方向和所述顺时针转动方向中，确定目标转动方向，包括：将所确定的最大方向参数对应的转动方向，确定为所述目标转动方向。

若所述至少一个拾音方向的数量小于或等于2，则对于所述逆时针转动方向和所述顺时针转动方向中的每一转动方向，确定在所述转动方向上，所述摄像头当前的朝向与所述初始声源方向的第一夹角，以及，所述摄像头当前的朝向与所述目标拾音方向之间的第二夹角，将所述第一夹角与所述第二夹角中的最大夹角，确定为所述转动方向对应的方向参数；

所述基于所确定的方向参数，从所述逆时针转动方向和所述顺时针转动方向中，确定目标转动方向，包括：将所确定的最小方向参数对应的转动方向，确定为所述目标转动方向。

在一种可能的实现方式中，所述方法还包括：

若所述初始声源方向与所述目标拾音方向之间的夹角小于或等于所述预设夹角阈值，则将所述初始声源方向确定为所述目标声源方向。

在一种可能的实现方式中，所述目标语音信号包括每个所述拾音方向对应的初始语音信号，所述确定所采集的目标语音信号在至少一个拾音方向上的语音信号，包括：

针对每个所述拾音方向，对所述目标语音信号中除所述拾音方向以外的其他拾音方向对应的初始语音信号进行噪声抑制，将噪声抑制后的目标语音信号，确定为所述拾音方向对应的语音信号。

在一种可能的实现方式中，所述方法还包括：

将所述至少一个拾音方向对应的语音信号输入至预设唤醒模型，得到所述至少一个拾音方向对应的相似度，所述预设唤醒模型用于确定输入语音信号与所述预设唤醒词之间的相似度。

根据本申请实施例的另一方面，提供了一种声源方向确定装置，所述装置包括：

信号确定模块，用于确定所采集的目标语音信号在至少一个拾音方向上的语音信号；

第一方向确定模块，用于若所述至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则确定初始声源方向，所述相似度是所述拾音方向对应的语音信号与预设唤醒词之间的相似度；

第二方向确定模块，用于若所述初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制所述终端上的摄像头转动并采集图像，基于当前采集到的图像的对象识别结果和所述摄像头当前的朝向，确定目标声源方向，所述目标拾音方向为所述至少一个拾音方向中最大相似度对应的方向。

在一种可能的实现方式中，所述对象识别结果表示在所采集的图像中未识别到对象或识别到对象，所述第二方向确定模块，用于：

在一种可能的实现方式中，所述装置还包括：

所述第二方向确定模块，还用于若所述摄像头当前的朝向为所述第二方向、当前所采集的图像中未识别到对象、且未记录朝向，则将所述第二方向确定为所述目标声源方向，并控制所述摄像头停止转动。

在一种可能的实现方式中，所述第二方向确定模块，用于：

在一种可能的实现方式中，所述装置还包括：

转动方向确定模块，用于分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数；基于所确定的方向参数，从所述逆时针转动方向和所述顺时针转动方向中，确定目标转动方向；

所述第二方向确定模块，用于：

控制所述终端上的摄像头按照所述目标转动方向转动。

在一种可能的实现方式中，所述转动方向确定模块，用于：

将所确定的最大方向参数对应的转动方向，确定为所述目标转动方向。

在一种可能的实现方式中，所述转动方向确定模块，用于：

将所确定的最小方向参数对应的转动方向，确定为所述目标转动方向。

在一种可能的实现方式中，所述装置还包括：

所述第二方向确定模块，用于若所述初始声源方向与所述目标拾音方向之间的夹角小于或等于所述预设夹角阈值，则将所述初始声源方向确定为所述目标声源方向。

在一种可能的实现方式中，所述目标语音信号包括每个所述拾音方向对应的初始语音信号，所述信号确定模块，用于针对每个所述拾音方向，对所述目标语音信号中除所述拾音方向以外的其他拾音方向对应的初始语音信号进行噪声抑制，将噪声抑制后的目标语音信号，确定为所述拾音方向对应的语音信号。

在一种可能的实现方式中，所述装置还包括：

相似度确定模块，用于将所述至少一个拾音方向对应的语音信号输入至预设唤醒模型，得到所述至少一个拾音方向对应的相似度，所述预设唤醒模型用于确定输入语音信号与所述预设唤醒词之间的相似度。

根据本申请实施例的另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述任一种可能的实现方式中所述的声源方向确定方法。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一种可能的实现方式中所述的声源方向确定方法。

根据本申请实施例的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码以实现如上述任一种可能的实现方式中所述的声源方向确定方法。

本申请实施例提供了一种声源方向确定方案，若某个拾音方向对应的语音信号与预设唤醒词之间的相似度大于预设相似度阈值，表示该语音信号很有可能是用于唤醒终端的语音信号，则可以确定初始声源方向，而初始声源方向和相似度最大的目标拾音方向之间的夹角较大，表示终端所处的环境中可能存在噪声，则初始声源方向和目标拾音方向的准确性不高，此时可以结合采集到的图像的对象识别结果，来确定目标声源方向，使得所确定的目标声源方向的准确性较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种声源方向确定方法的流程图；

图2是本申请实施例提供的另一种声源方向确定方法的流程图；

图3是本申请实施例提供的一种声源方向确定过程的示意图；

图4是本申请实施例提供的一种声源方向确定装置的结构框图；

图5是本申请实施例提供的一种终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。

需要说明的是，本申请所涉及的信号(包括但不限于语音信号)、数据(包括但不限于用于处理的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的语音信号、图像都是在充分授权的情况下获取的。

本申请实施例提供了一种声源方向确定方法，该方法由终端执行。可选地，终端包括但不限于智能机器人、智能家居设备、智能穿戴设备、智能手机、平板电脑、笔记本电脑或台式电脑等。其中，智能家居设备包括语音助手、智能电视、智能镜子、智能冰箱或者其他智能家居设备。

可选地，终端包括语音采集部件或者终端连接有语音采集部件，该语音采集部件用于采集语音信号。该语音采集部件包括麦克风阵列、耳机或者话筒等部件。可选地，终端还包括摄像头或者终端还连接有摄像头，该摄像头用于采集图像。该摄像头可以转动，例如摄像头相对于终端的其他部分转动。

在本申请实施例中，终端具有语音交互功能。终端基于语音采集部件采集语音信号，若该语音信号是包含预设唤醒词的语音信号，则唤醒终端，然后与发出该语音信号的目标声源进行交互。其中，目标声源为发出包含预设唤醒词的语音信号的用户，该用户存在与终端进行语音交互的意图。而终端所处的环境中还可能存在除目标声源外的其他声源，其他声源可以看作是干扰声源，干扰声源发出的语音信号与语音交互无关，可以看作是噪声。在目标声源发出包含预设唤醒词的语音信号时，干扰声源可能发出噪声，导致终端采集到的语音信号既包含目标声源发出的语音信号又包含噪声，从而终端需要确定目标声源对应的声源方向，后续针对所确定的声源方向采集语音信号，通过对采集到的语音信号进行识别，并执行相应的操作，实现与目标声源之间的语音交互。

本申请实施例提供的声源方向确定方法可以应用于多种语音交互场景，下面对声源方向确定方法的应用场景进行介绍。例如，终端具有音乐播放功能，用户想要控制终端播放音乐，则用户可以先说出预设唤醒词“XXXX”，终端采集包含该预设唤醒词的语音信号，通过本申请实施例提供的声源方向确定方法，唤醒终端并确定声源方向，即使周围环境中存在噪声，也能够确定出较为准确的声源方向，从而用户在说出“播放音乐”之后，终端能够基于所确定的声源方向采集语音信号，从而采集到较为准确的语音信号，对该语音信号进行识别，并执行相应的操作，例如播放音乐，进而能够提高与用户之间的交互效率，改善用户的使用体验。

需要说明的一点是，以上应用场景仅是示例性说明，并不对语音交互场景造成限制，本申请除了应用在以上场景外，还能够应用在其他任一语音交互的场景中。

图1是本申请实施例提供的一种声源方向确定方法的流程图。该方法由终端执行，参见图1，该方法包括如下步骤：

101、确定所采集的目标语音信号在至少一个拾音方向上的语音信号。

其中，目标语音信号是终端采集到的任一语音信号。可选地，终端上设置有语音采集部件，该语音采集部件用于采集语音信号，相应地，终端通过语音采集部件采集目标语音信号。在采集到目标语音信号之后，终端基于该目标语音信号，确定该目标语音信号对应的声源方向，从而后续能够针对该声源方向采集语音信号，以提高采集到的语音信号的准确性。语音信号对应的声源方向为发出该语音信号的声源相对于终端所在的方向。

拾音方向为拾取语音信号的方向，终端事先设置至少一个拾音方向。可选地，在至少一个拾音方向的数量为多个时，相邻两个拾音方向之间存在夹角，该夹角可以相同或者不同。例如，4个拾音方向包括30度拾音方向、60度拾音方向、90度拾音方向和120度拾音方向，此时相邻的两个拾音方向之间的夹角是相同的，都为30度。再如，3个拾音方向包括45度拾音方向、90度拾音方向和180度拾音方向，此时任意相邻的两个拾音方向之间的夹角是不同的。本申请实施例对于相邻的两个拾音方向之间的夹角的大小不加以限定。

本申请实施例从目标语音信号中提取出每个拾音方向对应的语音信号。每个拾音方向都有可能是声源方向，从而可以从至少一个拾音方向中选择一个拾音方向，将被选中的拾音方向确定为声源方向。但由于拾音方向是事先设定的，而发出目标语音信号的声源相对于终端的方向可能是任一方向，则被选中的拾音方向与真实的声源方向之间可能存在偏差。

102、若至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则确定初始声源方向，该相似度是拾音方向对应的语音信号与预设唤醒词之间的相似度。

其中，预设相似度阈值可以根据需要设置，本申请实施例对此不加以限定。例如，预设相似度阈值为0至1之间的实数，如0.7、0.8或0.9等。预设唤醒词用于唤醒终端，预设唤醒词可以根据需要设置，本申请实施例对此不加以限定，例如预设唤醒词为“小白”或“镜子镜子”等。

为节省功耗，终端一般处于休眠状态，而终端在休眠状态下也能够采集语音信号。在本申请实施例中，终端确定每个拾音方向对应的语音信号与预设唤醒词之间的相似度，基于至少一个拾音方向对应的相似度的大小，确定是否唤醒终端。若语音信号与预设唤醒词之间的相似度大于预设相似度阈值，表示语音信号与预设唤醒词较为相似，则该语音信号很有可能包含预设唤醒词，能够用来唤醒终端；若语音信号与预设唤醒词之间的相似度小于或等于预设相似度阈值，表示语音信号与预设唤醒词不太相似，则该语音信号很有可能并不是用来唤醒终端的语音信号。

相应地，若至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则可以唤醒终端。若至少一个拾音方向对应的相似度中不存在大于预设相似度阈值的相似度，则表示目标语音信号可能并不是用于唤醒终端的语音信号，则可以不唤醒终端，保持终端处于休眠状态，在处于休眠状态时，若采集到周围环境中的语音信号，则执行步骤101。

需要说明的是，本申请实施例可以在确定至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度时，就唤醒终端，然后执行后续步骤，如确定初始声源方向。或者本申请实施例还可以在确定目标声源方向之后，再唤醒终端，本申请实施例对此不加以限定。

在至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度时，终端确定初始声源方向。可选地，终端基于目标语音信号，通过DOA(Direction Of Arrival，波达方向)估计算法或者其他声源定位算法，确定初始声源方向。但是在周围环境中存在噪声时，所采集到的目标语音信号很有可能也包含噪声，则所确定的初始声源方向也有可能受到噪声的影响，导致确定的初始声源方向不够准确。

拾音方向对应的相似度越大，表示该拾音方向越有可能是声源所处的方向，相应地，终端将至少一个拾音方向中最大相似度对应的方向确定为目标拾音方向，然后终端执行下述步骤103，基于初始声源方向和目标拾音方向，确定目标声源方向，将该目标声源方向确定为最终的声源方向，从而基于该目标声源方向采集语音信号。

103、若初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制终端上的摄像头转动并采集图像，基于当前采集到的图像的对象识别结果和摄像头当前的朝向，确定目标声源方向，目标拾音方向为至少一个拾音方向中最大相似度对应的方向。

其中，预设夹角阈值可以根据需要设置，本申请实施例对此不加以限定。可选地，若至少一个拾音方向的数量为多个且相邻两个拾音方向之间的夹角相同，则预设夹角阈值可以是相邻两个拾音方向之间的夹角的一半。若至少一个拾音方向的数量为多个且相邻两个拾音方向之间的夹角不同，或者，若至少一个拾音方向的数量为1个，则预设夹角阈值可以是根据需要设置的一个角度阈值。

若初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则表示初始声源方向与目标拾音方向相差较多，则初始声源方向以及目标拾音方向的准确性较低，而对象在唤醒终端时，对象所处的位置很有可能距离终端较近，则通过控制摄像头转动并采集图像，从而能够结合图像的对象识别结果和摄像头当前的朝向，确定目标声源方向。若初始声源方向与目标拾音方向之间的夹角小于或等于预设夹角阈值，则表示初始声源方向与目标拾音方向相差不多，较为接近，则初始声源方向或者目标拾音方向很有可能就是真实的声源方向，则终端可以直接将初始声源方向或者目标拾音方向确定为目标声源方向。

本申请实施例提供了一种声源方向确定方案，若某个拾音方向对应的语音信号与预设唤醒词的相似度大于预设相似度阈值，表示该语音信号很有可能是用于唤醒终端的语音信号，则可以确定初始声源方向，而初始声源方向和相似度最大的目标拾音方向之间的夹角较大，表示终端所处的环境中可能存在噪声，则初始声源方向和目标拾音方向的准确性不高，此时可以结合采集到的图像的对象识别结果，来确定目标声源方向，使得所确定的目标声源方向的准确性较高。

图2是本申请实施例提供的另一种声源方向确定方法的流程图。该方法由终端执行，参见图2，该方法包括如下步骤：

201、确定所采集的目标语音信号在至少一个拾音方向上的语音信号。

其中，拾音方向为拾取语音信号的方向，终端事先设置至少一个拾音方向。可选地，在至少一个拾音方向的数量为多个时，相邻两个拾音方向之间存在夹角，该夹角可以相同或者不同。例如，4个拾音方向包括30度拾音方向、60度拾音方向、90度拾音方向和120度拾音方向，此时相邻的两个拾音方向之间的夹角是相同的，都为30度。再如，3个拾音方向包括45度拾音方向、90度拾音方向和180度拾音方向，此时任意相邻的两个拾音方向之间的夹角是不同的，有的夹角为45度，有的夹角为90度。本申请实施例对于相邻的两个拾音方向之间的夹角的大小不加以限定。

目标语音信号包括至少一个拾音方向中的每个拾音方向对应的初始语音信号。可选地，步骤201的实现方式包括：针对每个拾音方向，对目标语音信号中除拾音方向以外的其他拾音方向对应的初始语音信号进行噪声抑制，将噪声抑制后的目标语音信号，确定为拾音方向对应的语音信号。

在本申请实施例中，每个拾音方向都可能是真实的声源方向，那么针对每个拾音方向，若该拾音方向是声源方向，则该拾音方向对应的初始语音信号是声源发出的语音信号，而除该拾音方向以外的其他拾音方向对应的初始语音信号，很有可能是环境中的噪声，通过对其他拾音方向上的初始语音信号进行噪声抑制，使得噪声抑制后的目标语音信号中，该拾音方向上的语音信号较为突出，是主要的语音信号，从而能够较为准确地体现出该拾音方向上的语音信号的情况。

202、若至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则唤醒终端，相似度是拾音方向对应的语音信号与预设唤醒词之间的相似度。

其中，预设相似度阈值可以根据需要设置，本申请实施例对此不加以限定。例如，预设相似度阈值为0至1之间的实数，如0.7、0.8或0.9等。预设唤醒词用于唤醒终端，预设唤醒词可以根据需要设置，本申请实施例对此不加以限定。为节省功耗，终端一般处于休眠状态，而终端在休眠状态下也能够采集语音信号。在得到至少一个拾音方向对应的语音信号之后，确定每个拾音方向对应的语音信号与预设唤醒词之间的相似度，基于至少一个拾音方向对应的相似度的大小，确定是否唤醒终端。

在一种可能的实现方式中，相似度是基于预设唤醒模型确定的，预设唤醒模型用于确定输入语音信号与预设唤醒词之间的相似度。相应地，确定相似度的过程包括：将至少一个拾音方向对应的语音信号输入至预设唤醒模型，得到至少一个拾音方向对应的相似度。其中，预设唤醒模型是针对预设唤醒词训练得到的，且预设唤醒模型包括预设唤醒词。预设唤醒模型的输入数据为在拾音方向上的语音信号，输出数据为该语音信号与预设唤醒词之间的相似度。可选地，预设唤醒模型的训练过程包括：以样本语音信号对应的标签为监督，基于样本语音信号，训练预设唤醒模型，其中样本语音信号对应的标签表示样本语音信号是否为预设唤醒词对应的语音信号。相应地，调用预设唤醒模型，确定样本语音信号与预设唤醒词之间的预测相似度，基于预测相似度与标签确定损失值，基于损失值训练预设唤醒模型。预测相似度与标签相差越小，损失值越小，预设唤醒模型预测得更准确，预测相似度与标签相差越大，损失值越大，预设唤醒模型预测得越不准确。则预设唤醒模型的训练目标是最小化损失值，也即使得样本语音信号与预设唤醒词之间的预测相似度趋近于样本语音信号对应的标签。

由于预设唤醒模型在训练过程中能够学习到大量的样本语音信号与预设唤醒词之间的关系，从而在将语音信号输入到训练好的预设唤醒模型中之后，预设唤醒模型能够输出语音信号与预设唤醒词之间的相似度，所确定的相似度的准确性有所保障，且确定效率较高。

在另一种可能的实现方式中，相似度是基于语音信号对应的语音特征与预设唤醒词对应的唤醒词特征确定的。相应地，确定相似度的过程包括：对于每个拾音方向对应的语音信号，确定该语音信号对应的语音特征与预设唤醒词对应的唤醒词特征之间的相似度，例如相似度为余弦相似度。通过计算语音信号对应的语音特征与预设唤醒词对应的唤醒词特征之间的相似度，计算量较小，提高了计算相似度的效率。

在本申请实施例中，若语音信号与预设唤醒词之间的相似度大于预设相似度阈值，表示语音信号与预设唤醒词较为相似，则该语音信号很有可能包含预设唤醒词，能够用来唤醒终端；若语音信号与预设唤醒词之间的相似度小于或等于预设相似度阈值，表示语音信号与预设唤醒词不太相似，则该语音信号很有可能并不是用来唤醒终端的语音信号。相应地，若至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则可以唤醒终端，以使得终端与声源进行交互。若至少一个拾音方向对应的相似度中不存在大于预设相似度阈值的相似度，则表示目标语音信号可能并不是用于唤醒终端的语音信号，则可以不唤醒终端，保持终端处于休眠状态，在处于休眠状态时，若采集到周围环境中的语音信号，则执行步骤201。

需要说明的是，本申请实施例是以在确定至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度时，就唤醒终端为例进行说明的，在唤醒终端之后，终端执行后续步骤203。而本申请实施例也可以在确定目标声源方向之后，再唤醒终端，本申请实施例对此不加以限定。

203、基于目标语音信号，确定初始声源方向。

可选地，终端基于目标语音信号，通过DOA估计算法或者其他声源定位算法，确定初始声源方向。但是在周围环境中存在噪声时，所采集到的目标语音信号很有可能也包含噪声，则所确定的初始声源方向也有可能是噪声对应的声源方向，则该初始声源方向不够准确。

拾音方向对应的相似度越大，表示该拾音方向越有可能是声源所处的方向，相应地，在唤醒终端之后，终端将至少一个拾音方向中最大相似度对应的方向确定为目标拾音方向，基于初始声源方向和目标拾音方向，确定目标声源方向，将该目标声源方向确定为最终的声源方向，从而基于该目标声源方向采集语音信号，相应地，终端执行下述步骤204或执行步骤205。

204、若初始声源方向与目标拾音方向之间的夹角小于或等于预设夹角阈值，则将初始声源方向确定为目标声源方向，目标拾音方向为至少一个拾音方向中最大相似度对应的方向。

若初始声源方向与目标拾音方向之间的夹角小于或等于预设夹角阈值，则表示初始声源方向与目标拾音方向相差不多，较为接近，则初始声源方向或者目标拾音方向很有可能就是真实的声源方向，也即初始声源方向或目标拾音方向的准确性较高，则可以直接将初始声源方向或者目标拾音方向确定为目标声源方向，这样无需进行过多的计算，节省了计算资源。本申请实施例以将初始声源方向确定为目标声源方向为例进行说明。

205、若初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制终端上的摄像头转动，并采集图像，基于当前采集到的图像的对象识别结果和摄像头当前的朝向，确定目标声源方向。

若初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则表示初始声源方向与目标拾音方向相差较多，初始声源方向以及目标拾音方向的准确性较低。考虑到对象在唤醒终端时，对象所处的位置很有可能距离终端较近，则可以控制摄像头转动并采集图像，所采集到的图像可能包括用户，从而能够结合图像的对象识别结果和摄像头当前的朝向，确定目标声源方向。

可选地，终端控制摄像头转动，摄像头在转动过程中，还采集图像，终端获取所采集的图像，对图像进行识别，得到图像的对象识别结果。其中，对象识别结果表示在所采集的图像中未识别到对象或识别到对象。可选地，对象包括人物、动物或者机器人等。终端借助于对象识别模型对图像进行识别，相应地，确定当前采集到的图像的对象识别结果的过程包括：将采集到的图像输入至对象识别模型，得到图像的对象识别结果，对象识别模型用于对输入图像进行对象识别。其中，对象识别模型是事先训练好的模型。在对象为人物时，对象识别模型可以是人脸识别模型，从而对象识别模型从图像中识别到人脸，则表示图像包含对象，若未识别到人脸，表示图像不包含对象。由于对象识别模型在训练过程中能够对包含对象的样本图像进行学习，从而在将所采集到的图像输入到训练好的对象识别模型中之后，对象识别模型能够确定该图像是否包含对象，得到对象识别结果，所确定的对象识别结果的准确性有所保障，且确定效率较高。

在一种可能的实现方式中，终端控制摄像头从开始转动的时刻开始采集图像且是连续采集图像，每采集到一个图像，就对该图像进行识别。或者，考虑到摄像头采集图像的频率较高，而在相邻两个图像的采集间隔时间内，对象移动的范围较小，则每采集到一定数量的图像，从这一定数量的图像中抽取一个图像，对抽取到的图像进行识别，以降低识别工作量，提高效率。在另一种可能的实现方式中，终端控制摄像头从开始转动的时刻每隔一定时长采集一个图像，对采集到的图像进行识别，通过降低采集图像的频率，节省功耗。

可选地，基于当前采集到的图像的对象识别结果和摄像头当前的朝向，确定目标声源方向的实现方式包括：

若摄像头未经过第一方向且当前所采集的图像中识别到对象，则记录摄像头当前的朝向，控制摄像头继续转动。其中，摄像头在转动之前，朝向是固定的，该朝向是起始朝向，终端控制摄像头从起始朝向开始转动。在转动过程中，摄像头可能会经过初始声源方向或目标拾音方向。第一方向为初始声源方向和目标拾音方向中，摄像头所经过的第一个方向，第二方向为初始声源方向和目标拾音方向中，摄像头所经过的第二个方向。

从图像中识别到的对象很有可能是发出目标语音信号的声源，此时若摄像头当前的朝向还没经过第一方向，则当前的朝向与初始声源方向和目标拾音方向之间的夹角相对来说较大，则可以控制摄像头继续转动，在后续转动过程中可能还会采集到包含对象的图像。同时，还可以记录当前的朝向，便于后续参考。

在继续转动的过程中，若摄像头已经过第一方向、还未到达第二方向，且当前所采集的图像中识别到对象，则将摄像头当前的朝向确定为目标声源方向，并控制摄像头停止转动。在这种情况下，摄像头当前的朝向与初始声源方向和目标拾音方向之间的夹角都比较小，由于初始声源方向和目标拾音方向是上述过程中确定的、与真实的声源方向较为接近的方向，则真实的声源方向很有可能位于初始声源方向和目标拾音方向中间，当前的朝向与真实的声源方向非常接近，则当前的朝向可以看作是目标声源方向，相应地，在确定目标声源方向之后，可以控制摄像头停止转动并停止采集图像，以使得摄像头可以采集目标声源方向上的语音信号。

或者，摄像头在从第一方向转动到第二方向的过程中，所采集的图像中未识别到对象，则控制摄像头继续转动并采集图像，直至转动到第二方向。相应地，若摄像头当前的朝向为第二方向、当前所采集的图像中未识别到对象、且已记录朝向，则基于所记录的朝向，确定目标声源方向，并控制摄像头回旋至目标声源方向。在这种情况下，对象识别结果表示未识别到对象，说明图像不包含对象，也即对象当前并不在摄像头的采集范围内，则当前的朝向很有可能并不是真实的声源方向，则可以控制摄像头继续转动。然而在转动到朝向为第二方向，但是并未在第一方向和第二方向中采集到包含对象的图像时，可以根据是否记录朝向来确定目标声源方向。若已记录朝向，则表示在起始朝向与第一方向之间采集到了包含对象的图像，则考虑到该对象很有可能是发出目标语音信号的声源，则可以基于所记录的朝向，确定目标声源方向，并控制摄像头回旋，以使得摄像头可以采集目标声源方向上的语音信号。

由于在摄像头从起始朝向转动到第一方向的过程中，也可能并未记录朝向，则基于当前采集到的图像的对象识别结果和摄像头当前的朝向，确定目标声源方向的实现方式还包括：若摄像头当前的朝向为第二方向、当前所采集的图像中未识别到对象、且未记录朝向，则将第二方向确定为目标声源方向，并控制摄像头停止转动。在这种情况下，若未记录朝向，表示起始朝向与第一方向之间也未采集到包含对象的图像，则第二方向是与真实的声源方向最为接近的方向，则可以将第二方向确定为目标声源方向。

例如，参见图3，摄像头从起始朝向按照顺时针方向开始转动，预计先经过初始声源方向，也即第一方向，后经过目标拾音方向，也即第二方向，对象1相对于摄像头的方向位于起始朝向与第一方向中间，对象2相对于摄像头的方向位于第一方向与第二方向中间。

继续参见图3，在从起始方向转动到第一方向的过程中，摄像头采集图像，在对象1位于摄像头的采集范围内时，采集到的图像包含对象1，摄像头记录当前的朝向并继续转动。在经过第一方向之后继续转动的过程中，在对象2位于摄像头的采集范围内时，采集到的图像包含对象2，由于对象2位于第一方向和第二方向中间，相对于对象1，对象2更有可能是声源，此时摄像头朝向对象2，朝向可以看作是目标声源方向，摄像头停止转动。

在图3的基础上，假设起始朝向与第一方向中间不存在任一对象，则摄像头采集到的图像也不包含对象，则摄像头也继续转动。

在图3的基础上，假设起始朝向与第一方向中间存在对象1，而第一方向与第二方向中间不存在任一对象，则在经过第一方向之后继续转动的过程中，摄像头采集到的图像不包含对象，由于摄像头先前采集到了包含对象1的图像，对象1很有可能是声源，则摄像头可以回旋至所记录的朝向。

在图3的基础上，假设起始朝向与第一方向中间不存在任一对象，且第一方向与第二方向中间不存在任一对象，则摄像头在转动过程中未采集到包含任一对象的图像，说明声源很有可能位于第二方向附近且是距离第一方向较远的一侧，第二方向是最接近真实声源方向的方向，则可以控制摄像头在朝向第二方向时停止转动。

在本申请实施例中，通过结合当前采集到的图像的对象识别结果、摄像头当前的朝向与初始声源方向、目标拾音方向之间的位置关系，来确定目标声源方向，使得目标声源方向的确定参考了多方面的信息，从而较为准确。

在摄像头从起始朝向转动到第一方向的过程中，所记录的朝向可以是1个或者多个，可选地，基于所记录的朝向，确定目标声源方向的实现方式包括：若所记录的朝向的数量为1个，则将所记录的朝向确定为目标声源方向；若记录的朝向的数量为多个，则将所记录的多个朝向中与第一方向之间的夹角最小的朝向，确定为目标声源方向。

其中，考虑到所记录的朝向与第一方向之间的夹角均不同，且初始声源方向和目标拾音方向是与真实的声源方向较为接近的方向，则所记录的朝向与初始声源方向和目标拾音方向之间的夹角越小，则该朝向越可能是真实的声源方向，则通过将夹角最小的朝向确定为目标声源方向，提高了目标声源方向的准确性。

在上述实施例提供的声源方向确定方法中，终端控制摄像头按照逆时针转动方向转动，或者按照顺时针转动方向转动。可选地，终端先确定每个转动方向对应的方向参数，根据方向参数确定摄像头的目标转动方向，从而控制终端上的摄像头按照目标转动方向转动。相应地，在控制终端上的摄像头转动并采集图像之前，本申请实施例提供的声源方向确定方法还包括：分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数；基于所确定的方向参数，从逆时针转动方向和顺时针转动方向中，确定目标转动方向。其中，通过确定转动方向对应的方向参数，从而能够衡量转动方向对于确定目标声源方向的影响，从而能够基于方向参数确定一个合适的目标转动方向，从而控制摄像头按照目标转动方向转动，尽快或较为准确地确定出目标声源方向。

可选地，分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数的过程包括以下两种情况：

第一种情况，若至少一个拾音方向的数量大于2，则对于逆时针转动方向和顺时针转动方向中的每一转动方向，确定至少一个中间方向，将至少一个中间方向对应的相似度的加权平均值，确定为该转动方向对应的方向参数，中间方向是在该转动方向上，位于摄像头当前的朝向与目标拾音方向中间的拾音方向。

其中，拾音方向对应的相似度较大说明拾音方向与真实的声源方向较为接近，摄像头在按照某个转动方向转动的过程中，按照不同的转动方向转动，摄像头所经过的拾音方向也不同，若经过的拾音方向的相似度都比较大，则加权平均值较大，则真实的声源方向很有可能位于当前的朝向与目标拾音方向中间；若经过的拾音方向的相似度都比较小，则加权平均值较小，则真实的声源方向很有可能并不在当前的朝向与目标拾音方向中间；相应地，基于所确定的方向参数，从逆时针转动方向和顺时针转动方向中，确定目标转动方向的实现方式包括：将所确定的最大方向参数对应的转动方向，确定为目标转动方向。摄像头若按照所确定的最大方向参数对应的转动方向转动，确定出较为准确的目标拾音方向的可能性更大，提高了准确性。

在至少一个拾音方向的数量较少时，若数量为1，则这一个拾音方向也就是目标拾音方向，由于无论在哪个转动方向上，摄像头当前的朝向与目标拾音方向中间都没有拾音方向，则无法使用上述第一种情况提供的实现方式确定方向参数，若数量为2，则至少一个拾音方向包括目标拾音方向和另一个拾音方向，则转动方向对应的方向参数要么是0，要么是另一个拾音方向对应的相似度，若直接将该相似度确定为方向参数，则所确定的方向参数的准确性较低。则在至少一个拾音方向的数量较少时，可以采用以下实现方式确定方向参数。

第二种情况，若至少一个拾音方向的数量小于或等于2，则对于逆时针转动方向和顺时针转动方向中的每一转动方向，确定在该转动方向上，摄像头当前的朝向与初始声源方向的第一夹角，以及，摄像头当前的朝向与目标拾音方向之间的第二夹角，将第一夹角与第二夹角中的最大夹角，确定为该转动方向对应的方向参数。

其中，初始声源方向和目标拾音方向均是与真实的声源方向接近的方向，而按照不同的转动方向转动，对于初始声源方向和目标拾音方向，摄像头先后经过的顺序不同，而若某个方向与当前的朝向之间的夹角越小，则摄像头越快转动到朝向为该方向的位置，反之，与当前的朝向之间的夹角越大，则摄像头越慢转动到朝向为该方向的位置，相应地，，基于所确定的方向参数，从逆时针转动方向和顺时针转动方向中，确定目标转动方向的实现方式包括：将所确定的最小方向参数对应的转动方向，确定为目标转动方向。其中，第一夹角和第二夹角中的最大夹角为摄像头从起始朝向转动到朝向为第二方向时，所转动过的角度，则最大夹角越小，则摄像头能够越快转动到朝向为第二方向的位置，也就能尽快确定目标声源方向，通过将所确定的最小方向参数对应的转动方向，确定为目标转动方向，使得摄像头能够快速确定出目标声源方向，提高了确定速度。

下面以摄像头为摄像头、对象为人物为例，对声源方向确定过程进行说明。例如，已设置x个拾音方向，相邻拾音方向之间的夹角为θ，x个拾音方向对应的语音信号分别通过预设唤醒模型，输出x个相似度：s1、s2、……、sx。如果不存在大于预设相似度阈值的相似度，则不唤醒终端；如果存在大于预设相似度阈值的相似度，则唤醒终端，并确定初始声源方向为a，s1、s2、……、sx中最大相似度对应的拾音方向为b，摄像头当前的朝向为c。

第一种情况，若abs(b–a)<＝θ/2，则控制摄像头直接转动到朝向为a，其中abs()表示取绝对值，(b–a)表示b与a之间的夹角。

第二种情况，若abs(b–a)>θ/2，则：

1、若x<＝2，则分别确定顺时针转动方向、逆时针转动方向下，c与a的第一夹角、c与b的第二夹角中的最大夹角，哪个转动方向对应的最大夹角较小，则控制摄像头按照该转动方向转动。

2、若x>2，则分别确定顺时针转动方向、逆时针转动方向下，位于c到b中间的拾音方向对应的相似度的加权平均值，哪个转动方向对应的加权平均值更大，则控制摄像头按照该转动方向转动。

在转动过程中，控制摄像头采集图像，对图像进行人脸识别，并记录在从c转动到a和b中的第一方向时，是否识别到人脸：

1)若未识别到人脸：则控制摄像头继续向第二方向转动，期间若仍未识别到人脸则控制摄像头停在a和b中的第二方向，若识别到人脸，则控制摄像头停在识别到人脸的位置；

2)若识别到人脸，则记录当前的朝向为d，控制摄像头继续向第二方向转动，期间若未识别到人脸，则控制摄像头回旋至d；若识别到人脸，则控制摄像头停在识别到人脸的位置。其中，若记录的朝向为多个，则控制摄像头回旋至所记录的朝向中与a之间的最小夹角对应的朝向。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图4是本申请实施例提供的一种声源方向确定装置的结构框图。参照图4，装置包括：

信号确定模块401，用于确定所采集的目标语音信号在至少一个拾音方向上的语音信号；

第一方向确定模块402，用于若至少一个拾音方向对应的相似度中存在大于预设相似度阈值的相似度，则确定初始声源方向，相似度是拾音方向对应的语音信号与预设唤醒词之间的相似度；

第二方向确定模块403，用于若初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制终端上的摄像头转动并采集图像，基于当前采集到的图像的对象识别结果和摄像头当前的朝向，确定目标声源方向，目标拾音方向为至少一个拾音方向中最大相似度对应的方向。

在一种可能的实现方式中，对象识别结果表示在所采集的图像中未识别到对象或识别到对象，第二方向确定模块403，用于：

若摄像头未经过第一方向且当前所采集的图像中识别到对象，则记录摄像头当前的朝向，控制摄像头继续转动并采集图像；

若摄像头已经过第一方向、还未到达第二方向，且当前所采集的图像中识别到对象，则将摄像头当前的朝向确定为目标声源方向，并控制摄像头停止转动；或者，若摄像头当前的朝向为第二方向、当前所采集的图像中未识别到对象、且已记录朝向，则基于所记录的朝向，确定目标声源方向，并控制摄像头回旋至目标声源方向；

其中，第一方向为初始声源方向和目标拾音方向中，摄像头所经过的第一个方向，第二方向为初始声源方向和目标拾音方向中，摄像头所经过的第二个方向。

在一种可能的实现方式中，装置还包括：

第二方向确定模块403，还用于若摄像头当前的朝向为第二方向、当前所采集的图像中未识别到对象、且未记录朝向，则将第二方向确定为目标声源方向，并控制摄像头停止转动。

在一种可能的实现方式中，第二方向确定模块403，用于：

若所记录的朝向的数量为1个，则将所记录的朝向确定为目标声源方向；

若记录的朝向的数量为多个，则将所记录的多个朝向中与第一方向之间的夹角最小的朝向，确定为目标声源方向。

在一种可能的实现方式中，装置还包括：

转动方向确定模块，用于分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数；基于所确定的方向参数，从逆时针转动方向和顺时针转动方向中，确定目标转动方向；

第二方向确定模块403，用于：

控制终端上的摄像头按照目标转动方向转动。

在一种可能的实现方式中，转动方向确定模块，用于：

若至少一个拾音方向的数量大于2，则对于逆时针转动方向和顺时针转动方向中的每一转动方向，确定至少一个中间方向，将至少一个中间方向对应的相似度的加权平均值，确定为转动方向对应的方向参数，中间方向是在转动方向上，位于摄像头当前的朝向与目标拾音方向中间的拾音方向；

将所确定的最大方向参数对应的转动方向，确定为目标转动方向。

在一种可能的实现方式中，转动方向确定模块，用于：

若至少一个拾音方向的数量小于或等于2，则对于逆时针转动方向和顺时针转动方向中的每一转动方向，确定在转动方向上，摄像头当前的朝向与初始声源方向的第一夹角，以及，摄像头当前的朝向与目标拾音方向之间的第二夹角，将第一夹角与第二夹角中的最大夹角，确定为转动方向对应的方向参数；

将所确定的最小方向参数对应的转动方向，确定为目标转动方向。

在一种可能的实现方式中，装置还包括：

第二方向确定模块403，用于若初始声源方向与目标拾音方向之间的夹角小于或等于预设夹角阈值，则将初始声源方向确定为目标声源方向。

在一种可能的实现方式中，目标语音信号包括每个拾音方向对应的初始语音信号，信号确定模块，用于针对每个拾音方向，对目标语音信号中除拾音方向以外的其他拾音方向对应的初始语音信号进行噪声抑制，将噪声抑制后的目标语音信号，确定为拾音方向对应的语音信号。

在一种可能的实现方式中，装置还包括：

相似度确定模块，用于将至少一个拾音方向对应的语音信号输入至预设唤醒模型，得到至少一个拾音方向对应的相似度，预设唤醒模型用于确定输入语音信号与预设唤醒词之间的相似度。

本申请实施例提供了一种终端，终端包括处理器和存储器，存储器中存储有至少一条程序代码，至少一条程序代码由处理器加载并执行，以实现上述实施例中的声源方向确定方法。

图5是根据本申请实施例提供的一种终端500的结构框图。该终端500可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器501所执行以实现本申请中方法实施例提供的声源方向确定方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置在终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或者欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器150。该一个或多个传感器150包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、光学传感器514以及接近传感器515。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器514用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器514采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器514采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器515，也称距离传感器，通常设置在终端500的前面板。接近传感器515用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器515检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器515检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例中的声源方向确定方法。该计算机可读存储介质可以是存储器。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，紧凑型光盘只读储存器)、磁带、软盘和光数据存储终端等。

在示例性实施例中，还提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码以实现如上述实施例中的声源方向确定方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。该计算机设备可以为提供为终端。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种声源方向确定方法，其特征在于，所述方法包括：

若所述初始声源方向与目标拾音方向之间的夹角大于预设夹角阈值，则控制所述终端上的摄像头转动并采集图像，基于当前采集到的图像的对象识别结果和所述摄像头当前的朝向，确定目标声源方向；所述目标拾音方向为所述至少一个拾音方向中最大相似度对应的方向。

2.根据权利要求1所述的方法，其特征在于，所述对象识别结果表示在所采集的图像中未识别到对象或识别到对象，所述基于当前采集到的图像的对象识别结果和所述摄像头当前的朝向，确定目标声源方向，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所记录的朝向，确定所述目标声源方向，包括：

5.根据权利要求1所述的方法，其特征在于，在所述控制所述终端上的摄像头转动并采集图像之前，所述方法还包括：

所述控制所述终端上的摄像头转动，包括：

控制所述终端上的摄像头按照所述目标转动方向转动。

6.根据权利要求5所述的方法，其特征在于，所述分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数，包括：

7.根据权利要求5所述的方法，其特征在于，所述分别确定逆时针转动方向对应的方向参数和顺时针转动方向对应的方向参数，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述目标语音信号包括每个所述拾音方向对应的初始语音信号，所述确定所采集的目标语音信号在至少一个拾音方向上的语音信号，包括：

10.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

11.一种声源方向确定装置，其特征在于，所述装置包括：

12.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至10任一项所述的声源方向确定方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至10任一项所述的声源方向确定方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码以实现如权利要求1至10任一项所述的声源方向确定方法。