CN110611861A

CN110611861A - 定向发声控制方法及装置、发声设备、介质和电子设备

Info

Publication number: CN110611861A
Application number: CN201910843428.5A
Authority: CN
Inventors: 贾玉虎
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-12-24
Anticipated expiration: 2039-09-06
Also published as: CN110611861B

Abstract

本发明公开了一种定向发声控制方法、定向发声控制装置、定向发声设备、存储介质和电子设备，涉及定向发声技术领域。该定向发声控制方法包括：采集定向发声设备所处环境中一目标用户的人脸图像；如果目标用户的人脸图像与预存人脸图像匹配，则确定目标用户相对于定向发声设备的方向，作为目标方向；控制定向发声设备的声音发出端调整至目标方向，以便沿目标方向执行定向发声。本公开可以提高用户使用定向发声设备的便利性，使得定向发声过程更加智能。

Description

定向发声控制方法及装置、发声设备、介质和电子设备

技术领域

本公开涉及定向发声技术领域，具体而言，涉及一种定向发声控制方法、定向发声控制装置、定向发声设备、存储介质和电子设备。

背景技术

随着视听场景的增加，以及用户对信息私密性的保护需求，定向发声技术应运而生。定向发声技术可以应用于展馆、导购台、商场、超市、医院、汽车、智能家居、银行、智慧交通、盲人辅助器材等各个领域，因其私密性以及不影响他人的特点，受到越来越多的关注。

然而，通常的定向发声技术中，播放声音的方向单一，用户需要移动到对应的定向方向，才能听到对应的声音。对于用户而言，不够便捷。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种定向发声控制方法、定向发声控制装置、定向发声设备、存储介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的用户需要移动到定向方向才能聆听到声音而导致不便捷问题。

根据本公开的第一方面，提供一种定向发声控制方法，应用于定向发声设备执行定向发声的过程中，包括：采集定向发声设备所处环境中一目标用户的人脸图像；如果目标用户的人脸图像与预存人脸图像匹配，则确定目标用户相对于定向发声设备的方向，作为目标方向；控制定向发声设备的声音发出端调整至目标方向，以便沿目标方向执行定向发声。

根据本公开的第二方面，提供一种定向发声控制装置，配置于定向发声设备中，定向发声装置包括：人脸图像采集模块，用于采集定向发声设备所处环境中一目标用户的人脸图像；目标方向确定模块，用于如果目标用户的人脸图像与预存人脸图像匹配，则确定目标用户相对于定向发声设备的方向，作为目标方向；定向发声控制模块，用于控制定向发声设备的声音发出端调整至目标方向，以便沿目标方向执行定向发声。

根据本公开的第三方面，提供一种定向发声设备，包括：人脸检测模块，用于采集定向发声设备所处环境中一目标用户的人脸图像，并将目标用户的人脸图像与预存人脸图像进行比对，如果目标用户的人脸图像与预存人脸图像匹配，则发送比对成功指令；主控模块，用于接收比对成功指令，确定确定目标用户相对于定向发声设备的方向，作为目标方向，生成基于目标方向的方向调整指令并发送；方向调整模块，用于接收方向调整指令，控制定向发声设备的声音发出端调整至目标方向，以便定向发声设备沿目标方向执行定向发声。

根据本公开的第四方面，提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述定向发声控制方法。

根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述定向发声控制方法。

在本公开的一些实施例所提供的技术方案中，采集定向发声设备所处环境中目标用户的人脸图像，如果目标用户的人脸图像与预存人脸图像匹配，则确定目标用户相对于定向发声设备的方向，作为目标方向，控制定向发声设备的声音发出端调整至目标方向，以便沿目标方向执行定向发声。一方面，定向发声设备基于人脸识别结果自动调整发声方向，避免用户移动的过程，方便快捷，提高了用户体验，使得定向发声过程更加智能；另一方面，由于发声方向可以调整，因此，本公开的定向发声设备的部署方式不受场景的限制，大大提高了定向发声技术的应用范围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的示例性实施方式的定向发声控制方法的流程图；

图2示出了应用本公开的示例性实施方式的定向发声控制方法的效果示意图；

图3示意性示出了根据本公开的示例性实施方式的定向发声控制装置的方框图；

图4示意性示出了根据本公开的另一示例性实施方式的定向发声控制装置的方框图；

图5示意性示出了根据本公开的又一示例性实施方式的定向发声控制装置的方框图；

图6示意性示出了根据本公开的示例性实施方式的定向发声设备的方框图；

图7示意性示出了根据本公开的一个实施例的定向发声设备的架构图；

图8示意性示出了根据本公开的示例性实施方式的电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面所述的定向发声控制方法可以由定向发声设备执行，应用于该定向发声设备执行定向发声的过程中。也就是说，可以由定向发声设备执行本公开示例性实施方式的定向发声控制方法的各个步骤。在这种情况下，下面所述的定向发声装置可以被配置在该定向发声设备中。

实现本公开示例性实施方式的定向发声方案的定向发声设备可以包括但不限于手机、智能电视、智能音箱、商场或超市内的发声设备等。另外，需要理解的是，本公开所述的定向发声设备可以是集成在其他设备中的设备，也可以是仅用于定向发声的独立设备，本公开对定向发声设备的种类以及应用场景均不作特殊限制。

图1示意性示出了本公开的示例性实施方式的定向发声控制方法的流程图。参考图1，所述定向发声控制方法可以包括以下步骤：

S12.采集定向发声设备所处环境中一目标用户的人脸图像。

定向发声设备配备有摄像头，利用该摄像头可以对定向发声设备所处环境进行拍摄，例如，以拍摄多张图像的形式对环境进行拍摄，可以控制摄像头的拍摄角度不断变化，以确保尽可能拍摄到周围的所有区域。另外，可以每隔预定角度拍摄出不同的图像，其中，预定角度可以预先由人为设定。又例如，还可以通过转动摄像头以录像的方式对环境进行拍摄，以采集定向发声设备所处环境的图像。本公开示例性实施方式对获取环境图像的过程不做特殊限制。

根据本公开的一些实施例，可以响应定向发声触发事件，触发执行采集定向发声设备所处环境图像的过程。例如，定向发声触发事件可以是，定向发声设备接收到待进行定向发声的音频信号。再例如，定向发声触发事件还可以是，用户手动点击定向发声的触发按钮，以提前为定向发声做准备。又例如，预先规定每隔预定时间(例如，10分钟、1分钟等)执行采集环境图像的过程，在这种情况下，定向发声触发时间可以是，当前时间点为预先规定的采集环境图像的时间点。本公开对定向发声触发事件的类型不做限定。

根据本公开的另一些实施例，无论当前是否接收到待进行定向发声的音频信号，定向发声设备均可以实时采集环境的图像，以便于提前为定向发声做准备。其中，实时采集图像的过程为定向发声设备自行执行的过程。

在拍摄到环境中存在用户时，将该用户确定为目标用户，并通过人脸识别方法确定出目标用户的人脸区域，提取人脸图像。其中，可以利用一训练后的机器学习模块来采集人脸图像，本公开对采集人脸图像的具体过程不做特殊限制。

另外，可以先确定环境中是否包含用户，再进行图像的拍摄以及人脸图像的采集。相比于拍摄图像以及人脸图像提取的算法，检测是否包含用户的算法所占用的系统资源明显较小，因此，先检测是否包含用户，在包含用户的情况下，再进行人脸图像采集，这样可以大大减少系统资源消耗。

具体的，可以对定向发声设备所处环境进行红外检测，并根据红外检测的成像结果确定环境中是否存在用户。利用红外检测是否存在用户，方法简单，准确性高。

在响应定向发声触发时间执行采集环境图像的实例中，如果在预设时间段内未检测到环境中存在用户，则可以控制定向发声设备的声音发出端调整至预先设定的默认方向。其中，该预设时间段可以为10秒、5秒，本示例性实施方式中对此不做特殊限定。在这种情况下，可以沿该默认方向进行定向发声。

S14.如果目标用户的人脸图像与预存人脸图像匹配，则确定目标用户相对于定向发声设备的方向，作为目标方向。

在确定出目标用户的人脸图像后，可以将目标用户的人脸图像与预存人脸图像进行特征比对，如果特征比对的结果为目标用户的人脸图像与预存人脸图像之间的相似度大于一预定相似度，则可以确定出目标用户的人脸图像与预存人脸图像匹配。其中，该预定相似度可以人为设定，以完全相似被表示为1为例，预定相似度可以被设定为0.8。

一方面，步骤S12中确定出的目标用户的数量可能为多个，在这种情况下，可以分别将多个目标用户的人脸图像与预存人脸图像进行特征比对，以确定出与预存人脸图像匹配的一个或多个目标用户人脸图像。

另一方面，预存人脸图像可以是预存人脸图像集合中的任意一个预存人脸图像，其中，预存人脸图像集合中包含的预存人脸图像的数量可以为一个或多个。例如，预存人脸图像集合中包含预存人脸图像A、预存人脸图像B和预存人脸图像C，如果目标用户的人脸图像与人脸图像A、预存人脸图像B、预存人脸图像C中任一个匹配，则可以确定该目标用户为白名单中的用户。

在确定出目标用户的人脸图像与预存人脸图像匹配的情况下，可以确定目标用户相对于定向发声设备的方向，作为目标方向。

根据本公开的一些实施例，首先，可以确定定向发声设备拍摄到目标用户时摄像头的拍摄角度；接下来，可以根据摄像头的拍摄角度确定目标用户相对于定向发声设备的方向，作为目标方向。

具体的，在一个实施例中，可以直接将摄像头的拍摄角度确定目标用户相对于定向发声设备的方向。该拍摄角度可以是在世界坐标系中的绝对角度，例如，东偏南20度，另外，该拍摄角度还可以是相对的角度，例如，相对于定向发声设备主体的角度。

在另一个实施例中，可以基于摄像头的拍摄角度以及在该拍摄角度下目标用户在图像中的位置，来确定出目标用户相对于定向发声设备的方向。例如，目标用户在图像中偏右的位置，则确定出的摄像头拍摄角度可以加上一偏右的分量，以确定出目标用户相对于定向发声设备的方向，其中，可以通过实验的手段，确定出用户距图像正中心偏离的程度与添加的分量数值之间的映射关系。在实际应用过程中，根据该映射关系即可确定出目标方向。

根据本公开的另一些实施例，首先，可以确定定向发声设备拍摄到的包含目标用户的图像，记为目标图像，并提取目标图像中的背景信息，其中，背景信息指除目标用户之外的固定存在于环境中的背景物体的信息，以展览馆为例，背景信息可以是与指示牌、门、窗等物体对应的信息。需要注意的是，提取到的背景信息可以包含一个或多个物体的信息。

接下来，可以利用预存环境信息确定所述背景信息在所述环境中的位置。其中，预存环境信息为预先在无用户情况下对环境进行拍摄而得到的环境信息，这些位置信息中可以包含人为标注的各固定物体的位置信息。

随后，基于背景信息在环境中的位置，确定目标用户相对于定向发声设备的方向，作为目标方向。

S16.控制定向发声设备的声音发出端调整至目标方向，以便沿目标方向执行定向发声。

在确定出目标方向后，如果定向发声设备的声音发出端当前的朝向不是目标方向，则可以控制定向发声设备的声音发出端调整至目标方向，具体的，可以通过电机带动转轴转动的方式完成定向发声设备的转动过程。然而，还可以采用其他转动或平移机构实现将声音发出端调整至目标方向的目的，本示例性实施方式中对此不做限定。

在将声音发出端调整至目标方向后，可以沿目标方向执行定向发声。

为了避免在转动过程中音频已定向传播而造成用户不能听到完整音频内容的问题，在本公开的一些实施例中，在定向发声设备的声音发出端调整至目标方向之前，控制定向发声设备不执行定向发声。如果确定出定向发声设备的声音发出端已调整至目标方向，则控制定向发声设备开始执行定向发声。

其中，针对确定定向发声设备的声音发出端已调整至目标方向的过程，在一个实施例中，可以通过检测转动的角度来确定出是否已调整至目标方向。在另一个实施例中，还可以预先结合转动速度计算转动到目标方向所需的时间，在经历该时间时，即可确定出已转动至目标方向。虽然上面实施例以转动为例，然而，进行移动等的调整过程也属于本公开内容的构思。

图2示出了应用本公开示例性实施方式的定向发声控制方法的效果示意图。

在现有的一些技术中，定向发声设备只能沿单一固定的方向播放声音，如果用户未处于该方向上，用户需要走向该方向所在区域或者手动调整定向发声设备的声音发出端的方向，才能听到播放的声音内容。

应用本公开示例性的定向发声控制方法，定向发声设备可以通过拍摄的图像确定出用户所处方向，并自行控制声音发出端调整至用户所处方向，以播放声音。

综上所述，采用本公开示例性实施方式的定向发声控制方法，定向发声过程更加智能，便利性得到了提高。另外，由于定向发声设备的发声方向可以进行调整，因此，可以极大程度避免由于障碍物等原因而不适合布置定向发声设备的情况，提高了定向发声技术的应用范围。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种定向发声控制装置，配置于定向发声设备中。

图3示意性示出了本公开的示例性实施方式的定向发声控制装置的方框图。参考图3，根据本公开的示例性实施方式的定向发声控制装置3可以包括人脸图像采集模块31、目标方向确定模块33和定向发声控制模块35。

具体的，人脸图像采集模块31可以用于采集定向发声设备所处环境中一目标用户的人脸图像；目标方向确定模块33可以用于如果目标用户的人脸图像与预存人脸图像匹配，则确定目标用户相对于定向发声设备的方向，作为目标方向；定向发声控制模块35可以用于控制定向发声设备的声音发出端调整至目标方向，以便沿目标方向执行定向发声。

基于本公开示例性实施方式的定向发声控制装置，一方面，定向发声设备基于人脸识别结果自动调整发声方向，避免用户移动的过程，方便快捷，提高了用户体验，使得定向发声过程更加智能；另一方面，由于发声方向可以调整，因此，本公开的定向发声设备的部署方式不受场景的限制，大大提高了定向发声技术的应用范围。

根据本公开的示例性实施例，参考图4，相比于定向发声控制装置3，定向发声控制装置4还可以包括用户检测模块41。

具体的，用户检测模块41可以用于检测定向发声设备所处环境中是否存在用户。如果存在，则将定向发声设备所处环境中的用户确定为目标用户，并执行采集目标用户的人脸图像的过程。

根据本公开的示例性实施例，用户检测模块41可以被配置为执行：对定向发声设备所处环境进行红外检测；根据红外检测的成像结果确定定向发声设备所处环境中是否存在用户。

根据本公开的示例性实施例，参考图5，相比于定向发声控制装置4，定向发声控制装置5还可以包括默认发声控制模块51。

具体的，默认发声控制模块51可以用于响应定向发声触发事件，如果在预设时间段内未检测到定向发声设备所处环境中存在用户，则控制定向发声设备的声音发出端沿预先设定的默认方向执行定向发声。

根据本公开的示例性实施例，目标方向确定模块33可以被配置为执行：确定定向发声设备拍摄到目标用户的人脸图像时摄像头的拍摄角度；根据摄像头的拍摄角度确定目标用户相对于定向发声设备的方向，作为目标方向。

根据本公开的示例性实施例，目标方向确定模块33可以被配置为执行：确定所述定向发声设备拍摄到的包含目标用户的目标图像；提取所述目标图像中的背景信息；利用预存环境信息确定所述背景信息在所述环境中的位置；基于所述背景信息在所述环境中的位置，确定所述目标用户相对于所述定向发声设备的方向，作为目标方向。

根据本公开的示例性实施例，定向发声控制模块35可以被配置为执行：在定向发声设备的声音发出端调整至目标方向之前，控制定向发声设备不执行定向发声；以及如果确定出定向发声设备的声音发出端已调整至目标方向，则控制定向发声设备开始执行定向发声。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

进一步的，本公开示例实施方式中还提供了一种定向发声设备。

参考图6，本公开示例性实施方式的定向发声设备6可以包括人脸检测模块61、主控模块63和方向调整模块65。

具体的，人脸检测模块61可以用于采集定向发声设备所处环境中一目标用户的人脸图像，并将目标用户的人脸图像与预存人脸图像进行比对，如果目标用户的人脸图像与预存人脸图像匹配，则发送比对成功指令；主控模块63可以用于接收比对成功指令，确定确定目标用户相对于定向发声设备的方向，作为目标方向，生成基于目标方向的方向调整指令并发送；方向调整模块65可以用于接收方向调整指令，控制定向发声设备的声音发出端调整至目标方向，以便定向发声设备沿目标方向执行定向发声。

利用本公开示例性实施方式的定向发声设备，一方面，定向发声设备基于人脸识别结果自动调整发声方向，避免用户移动的过程，方便快捷，提高了用户体验，使得定向发声过程更加智能；另一方面，由于发声方向可以调整，因此，本公开的定向发声设备的部署方式不受场景的限制，大大提高了定向发声技术的应用范围。

下面参考图7，对本公开示例性实施方式的定向发声设备的一个实施例进行说明。其中，图7中人脸检测模块71对应于图6中的人脸检测模块61，主控模块72对应于图6中的主控模块62，转动模块73对应于图6中的方向调整模块65。

根据本公开的示例性实施例，定向发声设备还可以包括用户检测模块，该用户检测模块可以包括图7中的红外检测模块74。

具体的，红外检测模块74可以用于对定向发声设备所处环境进行红外检测，并根据红外检测的成像结果确定定向发声设备所处环境中是否存在用户。如果存在用户，则红外检测模块74会向主控模块72发送已检测到用户的信息，在这种情况下，主动模块72可以向人脸检测模块71发送人脸检测触发指令，以触发人脸检测模块71开始工作。

根据本公开的示例性实施例，主控模块72还可以用于响应定向发声触发事件，如果在预设时间段内未接收到由用户检测模块发送的存在用户的信息，则控制定向发声设备7的声音发出端沿预先设定的默认方向执行定向发声。

根据本公开的示例性实施例，主控模块72还可以用于确定定向发声设备7拍摄到目标用户的人脸图像时摄像头的拍摄角度，根据摄像头的拍摄角度确定目标用户相对于定向发声设备7的方向，作为目标方向。

根据本公开的示例性实施例，主控模块72还可以用于确定定向发声设备7拍摄到的包含目标用户的目标图像，提取目标图像中的背景信息，利用预存环境信息确定背景信息在所述环境中的位置，基于背景信息在环境中的位置，确定目标用户相对于定向发声设备7的方向，作为目标方向。

根据本公开的示例性实施例，主控模块72还可以用于在定向发声设备7的声音发出端调整至目标方向之前，控制定向发声设备7不执行定向发声。如果确定出定向发声设备7的声音发出端已调整至目标方向，则控制定向发声设备7开始执行定向发声。

此外，参考图7，定向发声设备7还可以包括音频处理模块75、超声波载波模块76、音频放大模块77、超声波发声模块78和电源模块79。

具体的，音频处理模块75可以用于获取待进行定向发声的音频信号，并对该音频信号进行去噪处理；超声波载波模块76可以用于生成载波信号；音频放大模块77可以用于获取由音频处理模块75发送的音频信号以及由超声波载波模块76发送的载波信号，并将音频信号和载波信号进行调制处理，生成待播放的音频信号；超声波发声模块78可以用于接收待播放的音频信号，并通过扬声器进行播放。电源模块79可以为定向发声设备7中各模块的工作提供支持。

各模块执行的具体操作在上述定向发声控制方法中已进行了描述，在此不再赘述。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810执行，使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元810可以执行如图1中所示的步骤S12至步骤S16。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种定向发声控制方法，应用于定向发声设备执行定向发声的过程中，其特征在于，包括：

采集所述定向发声设备所处环境中一目标用户的人脸图像；

如果所述目标用户的人脸图像与预存人脸图像匹配，则确定所述目标用户相对于所述定向发声设备的方向，作为目标方向；

控制所述定向发声设备的声音发出端调整至所述目标方向，以便沿所述目标方向执行定向发声。

2.根据权利要求1所述的定向发声控制方法，其特征在于，所述定向发声控制方法还包括：

检测所述定向发声设备所处环境中是否存在用户；

如果存在，则将所述定向发声设备所处环境中的用户确定为所述目标用户，并执行采集所述目标用户的人脸图像的过程。

3.根据权利要求2所述的定向发声控制方法，其特征在于，检测所述定向发声设备所处环境中是否存在用户包括：

对所述定向发声设备所处环境进行红外检测；

根据红外检测的成像结果确定所述定向发声设备所处环境中是否存在用户。

4.根据权利要求2所述的定向发声控制方法，其特征在于，所述定向发声控制方法还包括：

响应定向发声触发事件，如果在预设时间段内未检测到所述定向发声设备所处环境中存在用户，则控制所述定向发声设备的声音发出端沿预先设定的默认方向执行定向发声。

5.根据权利要求1所述的定向发声控制方法，其特征在于，确定所述目标用户相对于所述定向发声设备的方向，作为目标方向，包括：

确定所述定向发声设备拍摄到所述目标用户的人脸图像时摄像头的拍摄角度；

根据所述摄像头的拍摄角度确定所述目标用户相对于所述定向发声设备的方向，作为目标方向。

6.根据权利要求1所述的定向发声控制方法，其特征在于，确定所述目标用户相对于所述定向发声设备的方向，作为目标方向，包括：

确定所述定向发声设备拍摄到的包含目标用户的目标图像；

提取所述目标图像中的背景信息；

利用预存环境信息确定所述背景信息在所述环境中的位置；

基于所述背景信息在所述环境中的位置，确定所述目标用户相对于所述定向发声设备的方向，作为目标方向。

7.根据权利要求1至6中任一项所述的定向发声控制方法，其特征在于，所述定向发声控制方法还包括：

在所述定向发声设备的声音发出端调整至所述目标方向之前，控制所述定向发声设备不执行定向发声；以及

如果确定出所述定向发声设备的声音发出端已调整至所述目标方向，则控制所述定向发声设备开始执行定向发声。

8.一种定向发声控制装置，配置于定向发声设备中，其特征在于，所述定向发声装置包括：

人脸图像采集模块，用于采集所述定向发声设备所处环境中一目标用户的人脸图像；

目标方向确定模块，用于如果所述目标用户的人脸图像与预存人脸图像匹配，则确定所述目标用户相对于所述定向发声设备的方向，作为目标方向；

定向发声控制模块，用于控制所述定向发声设备的声音发出端调整至所述目标方向，以便沿所述目标方向执行定向发声。

9.一种定向发声设备，其特征在于，包括：

人脸检测模块，用于采集所述定向发声设备所处环境中一目标用户的人脸图像，并将所述目标用户的人脸图像与预存人脸图像进行比对，如果所述目标用户的人脸图像与所述预存人脸图像匹配，则发送比对成功指令；

主控模块，用于接收所述比对成功指令，确定确定所述目标用户相对于所述定向发声设备的方向，作为目标方向，生成基于所述目标方向的方向调整指令并发送；

方向调整模块，用于接收所述方向调整指令，控制所述定向发声设备的声音发出端调整至所述目标方向，以便所述定向发声设备沿所述目标方向执行定向发声。

10.根据权利要求9所述的定向发声设备，其特征在于，所述定向发声设备还包括：

用户检测模块，用于检测所述定向发声设备所处环境中是否存在用户；如果存在，则控制所述人脸检测模块执行采集所述目标用户的人脸图像的过程。

11.根据权利要求10所述的定向发声设备，其特征在于，所述用户检测模块包括：

红外检测模块，用于对所述定向发声设备所处环境进行红外检测，并根据红外检测的成像结果确定所述定向发声设备所处环境中是否存在用户。

12.根据权利要求10所述的定向发声设备，其特征在于，所述主控模块还用于响应定向发声触发事件，如果在预设时间段内未接收到由用户检测模块发送的存在用户的信息，则控制所述定向发声设备的声音发出端沿预先设定的默认方向执行定向发声。

13.根据权利要求9所述的定向发声设备，其特征在于，所述主控模块还用于确定所述定向发声设备拍摄到所述目标用户的人脸图像时摄像头的拍摄角度，根据所述摄像头的拍摄角度确定所述目标用户相对于所述定向发声设备的方向，作为目标方向。

14.根据权利要求9所述的定向发声设备，其特征在于，所述主控模块还用于确定所述定向发声设备拍摄到的包含目标用户的目标图像，提取所述目标图像中的背景信息，利用预存环境信息确定所述背景信息在所述环境中的位置，基于所述背景信息在所述环境中的位置，确定所述目标用户相对于所述定向发声设备的方向，作为目标方向。

15.根据权利要求9至14中任一项所述的定向发声设备，其特征在于，所述主控模块还用于在所述定向发声设备的声音发出端调整至所述目标方向之前，控制所述定向发声设备不执行定向发声；如果确定出所述定向发声设备的声音发出端已调整至所述目标方向，则控制所述定向发声设备开始执行定向发声。

16.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的定向发声控制方法。

17.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的定向发声控制方法。