CN110992971A

CN110992971A - 一种语音增强方向的确定方法、电子设备及存储介质

Info

Publication number: CN110992971A
Application number: CN201911344941.6A
Authority: CN
Inventors: 李锐
Original assignee: Cloudminds Chengdu Technologies Co ltd
Current assignee: Cloudminds Robotics Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-04-10

Abstract

本发明实施例涉及数据处理领域，公开了一种语音增强方向的确定方法、电子设备及存储介质。本申请的部分实施例中，语音增强方向的确定方法包括：获取周围环境的特征数据；根据周围环境的特征数据，以及预存的特征数据，确定周围环境的语音数据的语音增强方向；其中，周围环境的特征数据根据周围环境的语音数据确定，预存的特征数据包括注册用户的声音特征；或者，周围环境的特征数据根据周围环境的图像数据确定，预存的特征数据包括预存的视觉特征。该实施例使得语音增强方向更准确。

Description

一种语音增强方向的确定方法、电子设备及存储介质

技术领域

本发明实施例涉及数据处理领域，特别涉及一种语音增强方向的确定方法、电子设备及存储介质。

背景技术

随着5G通讯与物联网技术的成熟与推广，以语音作为信息交互的智能设备已经广泛地应用于智能家居，车载语音和智能客服等行业和场景。完整的语音交互大致需要经历“语音采集和处理-语音识别-声学信息分析-自然语言处理-意图分析-语音合成”。其中，语音识别以及声学信息分析(如声纹识别和情感分析等)的准确性会受到噪声与非目标人声的干扰而影响。用户的语音交互体验也将受到严重影响。因此，能够捕捉特定方位，并将之加工为满足后端应用要求的技术将变得至关重要。

然而，发明人发现现有技术中至少存在如下问题：现有语音定位和语音增强方法中，主要以麦克风阵列信号装置设备为主，通过多信道信号的空间信息估算用户的语音增强方向，并采用波束成形技术增强此方向期望信号的信噪比，从而达到抑制其他方向信号干扰的目的。与易损伤语音本征信号的单通道处理技术相比，此方式可以大大抑制期望语音信号的失真，从而保证并提高语音交互系统后端应用(如语音识别，声纹识别和情感分析等)的准确性。其中，用户方向估计的精准度是此技术的关键问题，而单独采用多通道声源定位的方法非常容易受到噪声和强干扰人声的影响，导致估计方向存在严重偏差。如果对用户的方向估计不准确，设备所采集和处理的语音信号可能会导致期望语音信号的失真，甚至获取非期望方向的信号，反而会降低后端应用的准确性。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施方式的目的在于提供一种语音增强方向的确定方法、电子设备及存储介质，使得语音增强方向更准确。

为解决上述技术问题，本发明的实施方式提供了一种语音增强方向的确定方法，包括：获取周围环境的特征数据；根据周围环境的特征数据，以及预存的特征数据，确定周围环境的语音数据的语音增强方向；其中，周围环境的特征数据根据周围环境的语音数据确定，预存的特征数据包括注册用户的声音特征；或者，周围环境的特征数据根据周围环境的图像数据确定，预存的特征数据包括预存的视觉特征。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施方式提及的语音增强方向的确定方法

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式提及的语音增强方向的确定方法。

本发明实施方式相对于现有技术而言，电子设备基于预存的特征数据，确定语音数据的语音增强方向，使得可以排除注册用户以外的其他用户的语音信号对语音增强方向的判断结果的影响，提高了语音增强方向定位的准确性。

另外，周围环境的特征数据包括根据周围环境的语音数据确定的第一候选语音增强方向的声音特征，预存的特征数据包括注册用户的声音特征；根据周围环境的特征数据，以及预存的特征数据，确定周围环境的语音数据的语音增强方向，具体包括：根据声音特征与注册用户的声音特征匹配的第一候选语音增强方向，确定语音增强方向。

另外，在获取周围环境的特征数据之前，语音增强方向的确定方法还包括：确定周围环境的语音数据的各个语音信号的声音特征中，存在声音特征与注册用户的声音特征相匹配的语音信号。

另外，根据声音特征与注册用户的声音特征相匹配的第一候选语音增强方向，确定语音增强方向，具体包括：判断相匹配的第一候选语音增强方向的个数是否大于1；若确定是，则播放第一提示语音，第一提示语音用于指示说出预定义的词汇；采集并分析各个相匹配的第一候选语音增强方向的语音信号，将语音信号中包含预定义的词汇的相匹配的第一候选语音增强方向，作为语音增强方向；若确定不是，将相匹配的第一候选语音增强方向，作为语音增强方向。

另外，在根据声音特征与注册用户的声音特征匹配的第一候选语音增强方向，确定语音增强方向之后，语音增强方向的确定方法还包括：周期性地将语音增强方向的声音特征与注册用户的声音特征进行匹配；若匹配失败，基于当前获取的周围环境的特征数据，确定新的语音增强方向。

另外，周围环境的特征数据包括根据周围环境的图像数据确定的各待测人物的视觉特征，预存的特征数据包括预存的视觉特征，待测人物的视觉特征包括待测人物的人脸特征或待测人物的姿态特征，预存的视觉特征包括预存的人脸特征或预存的姿态特征；根据周围环境的特征数据，以及预存的特征数据，确定周围环境的语音数据的语音增强方向，具体包括：判断周围环境的图像数据中各个待测人物的视觉特征中，是否存在与预存的视觉特征相匹配的视觉特征；若确定存在，将相匹配的视觉特征对应的待测人物，作为目标人物；根据目标人物的方向信息，确定语音增强方向。

另外，根据目标人物的方向信息，确定语音增强方向之后，语音增强方向的确定方法还包括：调用摄像头跟踪目标人物；根据跟踪结果，实时更新语音增强方向。

另外，根据目标人物的方向信息，确定语音增强方向之后，语音增强方向的确定方法还包括：判断目标人物是否符合预设要求，预设要求指示目标人物为静止状态；若确定符合，根据周围环境的图像数据，判断周围环境中是否存在非目标人物，若确定存在，则调用摄像头跟踪非目标人物，根据非目标人物的方向信息，确定抑制方向；根据语音增强方向和抑制方向，增强周围环境的语音数据中语音增强方向的语音信号，抑制周围环境的语音数据中抑制方向的语音信号。

另外，周围环境的特征数据还包括周围环境的声音数据；获取周围环境的特征数据，具体包括：采集周围环境的语音数据；根据周围环境的语音数据，确定第二候选语音增强方向；调用摄像头拍摄第二候选语音增强方向的图像数据，作为周围环境的图像数据；根据周围环境的图像数据，确定周围环境的特征数据。

另外，根据周围环境的语音数据，确定第二候选语音增强方向，具体包括：根据周围环境的语音数据，预估得到M个第三候选语音增强方向，M为正整数；根据声音特征与注册用户的声音特征匹配的第三候选语音增强方向，确定第二候选语音增强方向。

另外，根据目标人物的方向信息，确定语音增强方向，具体包括：判断目标人物的个数是否大于1；若确定是，播放第二提示语音，第二提示语音用于指示执行预定义的动作；拍摄目标人物所在方向的图像数据；通过姿态检测算法，识别目标人物所在方向的图像数据，判断是否存在执行预定义的动作的目标人物；若确定存在，将执行预定义的动作的目标人物的方向信息，作为语音增强方向；若确定不是，将目标人物的方向信息，作为语音增强方向。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的第一实施方式的语音增强方向的确定方法的流程图；

图2是本发明的第一实施方式的电子设备的结构示意图；

图3a是本发明的第一实施方式的智能显示器的结构示意图；

图3b是本发明的第一实施方式的智能音箱的结构示意图；

图3c是本发明的第一实施方式的智能机器人的结构示意图；

图4是本发明的第二实施方式的语音增强方向的确定方法的流程图；

图5是本发明的第二实施方式的电子设备的结构示意图；

图6a是本发明的第二实施方式的智能显示器的结构示意图；

图6b是本发明的第二实施方式的智能音箱的结构示意图；

图6c是本发明的第二实施方式的智能机器人的结构示意图；

图7是本发明的第三实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明的第一实施方式涉及一种语音增强方向的确定方法，应用于电子设备，例如，服务器，或者，终端，如智能音响、机器人等。如图1所示，语音增强方向的确定方法包括：

步骤101：获取周围环境的特征数据。

具体地说，周围环境的特征数据根据周围环境的语音数据，或者，周围环境的图像数据确定。

在一个示例中，周围环境的特征数据根据周围环境的语音数据确定。其中，周围环境的语音数据通过电子设备的麦克风阵列收集得到。

在一个示例中，周围环境的特征数据根据周围环境的图像数据确定。其中，周围环境的图像数据通过电子设备自身或外接的摄像头拍摄得到。

步骤102：根据周围环境的特征数据，以及预存的特征数据，确定周围环境的语音数据的语音增强方向。

具体地说，电子设备根据预存的特征数据和周围环境的特征数据，判断周围环境是否存在注册用户，若确定存在，将周围环境中的注册用户作为目标人物，根据目标人物的方向信息，确定语音增强方向。

在一个示例中，周围环境的特征数据根据周围环境的语音数据确定，预存的特征数据包括注册用户的声音特征；或者，周围环境的特征数据根据周围环境的图像数据确定，预存的特征数据包括预存的视觉特征。

发明人发现，在实际应用中，尤其在家居，车室内和会场等场景，假如多个人处于同一场景中连续说话，阵列信号处理技术和摄像头追踪都将无法分辨目标用户的方向。由于受到强干扰人(即非目标人物)的影响，语音增强方向将变得不稳定，随时都有偏离目标人物的方向的风险，可能导致目标人物的语音信号被当作干扰而被抑制，从而降低语音交互系统后端应用的准确性，最终影响搭载此系统设备的场景稳定性和适用性。因此，本实施方式中，预先存储可被视为目标人物的特征数据，例如，声音特征、视觉特征(如人脸特征，姿态特征)等，将周围环境的特征数据，与预先存储的特征数据进行匹配，更准确地估算目标人物的语音增强方向，即语音增强方向，以便对所采集的多通道语音信号进行增强或者抑制。相对于现有技术，本发明的实施方式借助预存的特征数据，可在强噪声干扰以及强说话人干扰的声学场景下，实现对目标人物的语音信号的高质量采集与处理，避免了现有技术中易受强噪声或非目标人声干扰影响的缺点。本发明的实施方式所采集和处理的语音信号，可以为语音交互系统后端应用的高准确性和高稳定性提供了保障。

在一个示例中，周围环境的特征数据包括根据周围环境的语音数据确定的第一候选语音增强方向的声音特征，预存的特征数据包括注册用户的声音特征。电子设备根据声音特征与注册用户的声音特征匹配的第一候选语音增强方向，确定语音增强方向。

在一个示例中，电子设备根据可以根据周围环境的语音数据中各个方向的语音信号的能量强度，选择能量强度最大的M个方向，作为第一候选语音增强方向。M为正整数，可根据需要设置。

需要说明的是，本领域技术人员可以理解，实际应用中，还可以通过其他方式来确定第一候选语音增强方向，本实施方式仅为举例说明。

在一个示例中，电子设备判断相匹配的第一候选语音增强方向的个数是否大于1；若确定是，则播放第一提示语音，第一提示语音用于指示说出预定义的词汇；采集并分析各个相匹配的第一候选语音增强方向的语音信号，将语音信号中包含预定义的词汇的相匹配的第一候选语音增强方向，作为语音增强方向；若确定不是，将相匹配的第一候选语音增强方向，作为语音增强方向。

需要说明的是，本领域技术人员可以理解，实际应用中，在存在多个相匹配的第一候选语音增强方向的情况下，还可以通过其他方式筛选最终的语音增强方向，本实施方式的示例仅为举例说明。

值得一提的是，通过检测各相匹配的第一候选语音增强方向的语音信号中是否存在预定义的词汇，确定语音增强方向，使得电子设备可以在存在多个注册用户说话的情况下，确定出语音增强方向，提高了该语音增强方向的确定方法的普适性。

可选择的，电子设备在获取周围环境的特征数据之前，确定周围环境的语音数据的各个语音信号的声音特征中，存在声音特征与注册用户的声音特征相匹配的语音信号。

可选择的，电子设备在根据声音特征与注册用户的声音特征匹配的第一候选语音增强方向，确定语音增强方向之后，周期性地将语音增强方向的声音特征与注册用户的声音特征进行匹配；若匹配失败，基于当前获取的周围环境的特征数据，确定新的语音增强方向。

值得一提的是，周期性地检测语音增强方向是否发生变化，使得电子设备可以在目标人物变动位置时，及时更新语音增强方向。

例如，声音特征为声纹特征。如图2所示，电子设备包括语音获取模块21、声源定位模块22、语音增强模块23和声纹识别模块24。其中，语音获取模块21可以是麦克风阵列，麦克风阵列为语音真实信号的接收端，用于信号的多通道采集，前置处理和模数转换。声源定位模块22的输入端连接麦克风阵列，利用多通道语音信号的空间信息估算目标人物相对阵列的方向。语音增强模块23的输入端连接麦克分阵列以及声源定位模块22，根据声源定位模块22确定的目标人物的方向信息，利用麦克风阵列语音增强技术对背景噪声以及干扰信号进行抑制，输出目标人物的高质量语音信号。声纹识别模块24的输入端连接麦克风阵列以及语音增强模块23。声纹识别模块24根据预存的特征数据对麦克风阵列采集的语音信号进行确认或者识别，为声源定位模块22提供方向估算激活信号。可选择的，声纹识别模块24对语音增强模块23处理后的语音信号持续确认或者识别，根据其匹配结果为声源定位模块22提供重新测向指令。如图3a所示，该电子设备可以是智能显示器301，麦克风阵列3011可以是线性阵列，为声源定位提供0-180°的扫描范围。其麦克风阵列的阵元可设置在智能显示器的底部。当然，麦克风阵列的阵元可设置在智能显示器的顶部。如图3b所示，电子设备可以是智能音箱302，麦克风阵列3021可以是面型阵列，为声源定位提供0-360°的扫描范围，麦克风阵列的阵元可设置在电子设备的顶部或其他部位。如图3c所示，电子设备可以是智能机器人303，麦克风阵列3031可以是立体型阵列，为声源定位提供0-360°的扫描范围，麦克风阵列的阵元可设置在电子设备的顶部或其他部位。电子设备预先对目标人物进行声纹注册，可暂时保存声纹特征，也可长期保存声纹特征，得到预存的特征数据。电子设备确定语音增强方向的过程包括以下步骤：

步骤1011：麦克风阵列实时监测并采集设备周围环境的语音信号，得到语音数据。

步骤1012：声纹识别模块对采集的语音信号进行声纹确认，或者声纹识别。可选的，可选择的，电子设备还包括语音唤醒模块，其输入端连接麦克风阵列以及声纹识别模块。当麦克风阵列采集的语音信号匹配预设的激活词时，使电子设备激活声纹识别模块对语音信号进行确认或识别。

步骤1013：如果采集的语音信号与所存的注册用户的声纹特征匹配，则传输方向估算激活信号至声源定位模块。

步骤1014：声源定位模块在接收到方向估计激活信号后，声源定位模块根据所采集的多通道语音数据对匹配到的目标人物的方向进行估算。

步骤1015：将声源定位模块所估算的目标人物的方位信息，作为语音增强方向，传递给语音增强模块；

步骤1016：语音增强模块接收到语音增强方向信息后，采用波束成形技术对所采集的多通道语音数据进行空间滤波，增强语音增强方向的语音信号，抑制其他方向的干扰；采用后置滤波的技术对语音数据进行非相关噪声的过滤。

步骤1017：输出处理后的语音数据；

可选择的，在步骤1016后，将处理后的语音数据传输给声纹识别模块，定期将处理后的语音数据与匹配的目标人物的声纹特征进行匹配，确保步骤1016中的波束成形方向始终对准目标人物。若出现声纹不匹配的情况，可以停止信号采集与处理，或者为声源定位模块传递重新测向指令。声源定位模块在接收到重新测向指令，声源定位模块重新估计目标用户方向，继续完成步骤1014至步骤1017。

需要说明的是，以上仅为举例说明，并不对本发明的技术方案构成限定。

与现有技术相比，本实施方式中提供的语音增强方向的确定方法，电子设备基于预存的特征数据，确定语音数据的语音增强方向，使得可以排除注册用户以外的其他用户的语音信号对语音增强方向的判断结果的影响，提高了语音增强方向定位的准确性。

本发明的第二实施方式涉及一种语音增强方向的确定方法，在第一实施方式中，以周围环境的特征数据根据周围环境的语音数据确定为例，对确定语音增强方向的过程进行了举例说明，第二实施方式中，以周围环境的特征数据根据周围环境的图像数据确定为例，对确定语音增强方向的过程进行举例说明。

具体的说，本实施方式中，预存的特征数据包括预存的视觉特征，待测人物的视觉特征包括待测人物的人脸特征或待测人物的姿态特征，预存的视觉特征包括预存的人脸特征或预存的姿态特征。如图4所示，语音增强方向的确定方法包括步骤401至步骤403，其中，步骤401与第一实施方式的步骤101大致相同，此处不再赘述，下面主要介绍不同之处：

步骤401：获取周围环境的特征数据。

步骤402：判断周围环境的图像数据中各个待测人物的视觉特征中，是否存在与预存的视觉特征相匹配的视觉特征。

具体地说，电子设备若确定周围环境的图像数据中存在与预存的视觉特征相匹配的视觉特征，则执行步骤403，若确定不存在相匹配的视觉特征，可以返回执行步骤401。

需要说明的是，本领域技术人员可以理解，当不存在相匹配的视觉特征时，电子设备还可以通过报警的方式提示使用者未发现目标人物，也可以采取其他措施，本实施方式不一一列举。

步骤403：将相匹配的视觉特征对应的待测人物，作为目标人物；根据目标人物的方向信息，确定语音增强方向。

具体地说，若电子设备在拍摄的图像数据中存在目标人物，就可以基于目标人物的方向信息，确定语音增强方向。

在一个示例中，在根据目标人物的方向信息，确定语音增强方向之后，调用摄像头跟踪目标人物；根据跟踪结果，实时更新语音增强方向。具体地说，电子设备可以配置一个或多个摄像头，通过一个或多个摄像头对目标人物进行跟踪。电子设备对一个或多个摄像头采集的图像数据进行分析，确定目标人物的方向，若目标人物的方向发生变化，则更新语音增强方向，若目标人物的方向未发生变化，则不更新语音增强方向。

值得一提的是，电子设备通过摄像头跟踪目标人物，及时更新语音增强方向，避免由于目标人物移动，语音增强方向更新不及时导致语音增强方向不准确的问题。

在一个示例中，根据目标人物的方向信息，确定语音增强方向之后，判断目标人物是否符合预设要求，预设要求指示目标人物为静止状态；若确定符合，根据周围环境的图像数据，判断周围环境中是否存在非目标人物，若确定存在，则调用摄像头跟踪非目标人物，根据非目标人物的方向信息，确定抑制方向；根据语音增强方向和抑制方向，增强周围环境的语音数据中语音增强方向的语音信号，抑制周围环境的语音数据中抑制方向的语音信号。其中，非目标人物是指除目标人物以外的人物。预设要求可以根据需要设置，例如，预设要求可以设置为目标人物不是站立状态。

值得一提的是，在目标人物为静止状态时，调用摄像头跟踪非目标人物，以便提供干扰的抑制方向，使得处理后的语音数据的增强效果更好。

在一个示例中，周围环境的特征数据还包括周围环境的声音数据；获取周围环境的特征数据，具体包括：采集周围环境的语音数据；根据周围环境的语音数据，确定第二候选语音增强方向；调用摄像头拍摄第二候选语音增强方向的图像数据，作为周围环境的图像数据；根据周围环境的图像数据，确定周围环境的特征数据。

值得一提的是，电子设备先通过语音数据确定候选语音增强方向，基于候选语音增强方向的图像数据来确定语音增强方向，避免电子设备的摄像头一直扫描周围环境造成不必要的功耗。

在一个示例中，根据周围环境的语音数据，确定第二候选语音增强方向，具体包括：根据周围环境的语音数据，预估得到M个第三候选语音增强方向，M为正整数；根据声音特征与注册用户的声音特征匹配的第三候选语音增强方向，确定第二候选语音增强方向。

在一个示例中，根据目标人物的方向信息，确定语音增强方向，具体包括：判断目标人物的个数是否大于1；若确定是，播放第二提示语音，第二提示语音用于指示执行预定义的动作；拍摄目标人物所在方向的图像数据；通过姿态检测算法，识别目标人物所在方向的图像数据，判断是否存在执行预定义的动作的目标人物；若确定存在，将执行预定义的动作的目标人物的方向信息，作为语音增强方向；若确定不是，将目标人物的方向信息，作为语音增强方向。

例如，声音特征为声纹特征。如图5所示，电子设备包括语音获取模块51、声源定位模块52、语音增强模块53、摄像模块54、人脸识别模块55和目标跟踪模块56。其中，语音获取模块51可以是麦克风阵列，麦克风阵列为语音真实信号的接收端，用于信号的多通道采集，前置处理和模数转换。声源定位模块52的输入端连接麦克风阵列，利用多通道语音信号的空间信息估算目标人物相对阵列的方向。语音增强模块53的输入端连接麦克分阵列以及声源定位模块52，根据声源定位模块52确定的目标人物的方向信息，利用麦克风阵列语音增强技术对背景噪声以及干扰信号进行抑制，输出目标人物的高质量语音信号。摄像模块54包括摄像头及其转动设备，用于采集视频图像，并根据电子设备提供的方向信息，驱动摄像头的转向。人脸识别模块55，其输入端连接摄像头，根据预存的特征数据对摄像头采集的图像数据中的人物进行确认或识别，并为目标跟踪模块提供目标人物的视觉特征。可选择地，人脸识别模块还可以为目标跟踪模块提供非目标人物的视觉特征。目标跟踪模块56，其输入端连接摄像模块以及人脸识别模块，根据电子设备所提供的预存的视觉特征，使摄像头保持对此特征信息的跟踪。相对应地调整摄像头正面朝向目标人物并为语音增强模块提供语音增强的方向信息。可选择的，在确定目标人物为静止状态时，调整摄像头正面朝向非目标人物，为语音增强模块提供干扰抑制的方向信息。可选择的，电子设备还包括声纹识别模块的输入端连接麦克风阵列以及语音增强模块。声纹识别模块根据预存的特征数据对麦克风阵列采集的语音信号进行确认或者识别，为声源定位模块提供方向估算激活信号。该电子设备可以使用麦克风阵列采集语音数据。如图6a所示，该电子设备可以是智能显示器601，麦克风阵列6011可以是线性阵列，为声源定位提供0-180°的扫描范围。其麦克风阵列的阵元可设置在智能显示器601的底部。当然，麦克风阵列6011的阵元可设置在智能显示器601的顶部。智能显示器601还配置有可自由转动的摄像头6012，可设置在电子设备的顶部。如图6b所示，电子设备可以是智能音箱602，麦克风阵列6021可以是面型阵列，为声源定位提供0-360°的扫描范围，麦克风阵列6021的阵元可设置在智能音响602的顶部或其他部位。智能音响602还配置有可自由转动的摄像头6022，可设置在智能音响602的顶部。如图6c所示，电子设备可以是智能机器人603，麦克风阵列6031可以是立体型阵列，为声源定位提供0-360°的扫描范围，麦克风阵列6031的阵元可设置在智能机器人603的顶部或其他部位。智能机器人603还配置有可自由转动的摄像头6032，可设置在智能机器人603的正面。

需要说明的是，摄像头和麦克风阵列也可以设置在电子设备的其他位置，此处不一一列举。

当视觉特征为人脸特征时，电子设备预先对目标人物进行人脸注册，可暂时保存人脸特征，也可长期保存人脸特征，得到预存的特征数据。电子设备确定语音增强方向的步骤包括：

步骤4011：麦克风阵列实时监测并采集设备周围环境的语音数据；

步骤4012：声源定位模块根据所采集的语音数据对语音增强方向进行估计。可选的，当语音数据中存在唤醒词后，再进行声源定位。

步骤4013：根据声源定位模块提供的方向信号，使摄像头正面转向可检测到估计的语音增强方向的范围；

步骤4014：摄像头监测该周围环境的图像数据，并采集人脸信息。

步骤4015：人脸识别模块对采集的人脸信息进行确认或者识别。如果采集的人脸特征与所存的预存的人脸特征匹配，则为目标跟踪模块传递跟踪启动信号，并提供一些追踪特征，比如人脸特征，或者目标用户的服装颜色特征等。如果匹配失败，则不进行后续处理，或者，返回执行步骤4011。

步骤4016：目标跟踪模块接收到跟踪启动信号后，对目标人物进行跟踪，估算目标人物的方向信息，持续更新目标人物的方向信息。可选择的，目标跟踪模块根据还可以根据目标人物的移动情况，为摄像头提供转向信息；

步骤4017：语音增强模块接收到目标人物的方向信息后，语音增强模块采用波束成形技术对所采集的多通道语音信号进行空间滤波，增强目标方向语音信号，抑制其他方向的干扰；并采用后置滤波的技术对语音信号进行非相关噪声的过滤，输出所采集并处理后的语音数据。

可选择的，电子设备还包括距离测定模块和运动控制模块。距离测定模块的输入连接麦克风阵列或摄像头，用于估算目标用户与智能设备的间距。运动控制模块的输入连接声源定位模块或目标跟踪模块，以及距离测定模块。运动控制模块根据电子设备所提供的目标人物的方向信息和预设的用户与设备间距信息，控制智能设备的运动。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第三实施方式涉及一种电子设备，如图7所示，包括：至少一个处理器701；以及，与至少一个处理器701通信连接的存储器702；其中，存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行，以使至少一个处理器701能够执行上述实施方式提及的语音增强方向的确定方法。

该电子设备包括：一个或多个处理器701以及存储器702，图7中以一个处理器701为例。处理器701、存储器702可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器701通过运行存储在存储器702中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语音增强方向的确定方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器702中，当被一个或者多个处理器701执行时，执行上述任意方法实施方式中的语音增强方向的确定方法。

上述产品可执行本申请实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本申请实施方式所提供的方法。

本发明的第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语音增强方向的确定方法，其特征在于，包括：

获取周围环境的特征数据；

根据所述周围环境的特征数据，以及预存的特征数据，确定所述周围环境的语音数据的语音增强方向；

其中，所述周围环境的特征数据根据所述周围环境的语音数据确定，所述预存的特征数据包括注册用户的声音特征；或者，

所述周围环境的特征数据根据所述周围环境的图像数据确定，所述预存的特征数据包括预存的视觉特征。

2.根据权利要求1所述的语音增强方向的确定方法，其特征在于，所述周围环境的特征数据包括根据所述周围环境的语音数据确定的第一候选语音增强方向的声音特征，所述预存的特征数据包括所述注册用户的声音特征；

所述根据所述周围环境的特征数据，以及预存的特征数据，确定所述周围环境的语音数据的语音增强方向，具体包括：

根据声音特征与所述注册用户的声音特征匹配的第一候选语音增强方向，确定所述语音增强方向。

3.根据权利要求2所述的语音增强方向的确定方法，其特征在于，在所述获取周围环境的特征数据之前，所述语音增强方向的确定方法还包括：

确定所述周围环境的语音数据的各个语音信号的声音特征中，存在声音特征与所述注册用户的声音特征相匹配的语音信号。

4.根据权利要求2所述的语音增强方向的确定方法，其特征在于，所述根据声音特征与所述注册用户的声音特征相匹配的第一候选语音增强方向，确定所述语音增强方向，具体包括：

判断所述相匹配的第一候选语音增强方向的个数是否大于1；

若确定是，则播放第一提示语音，所述第一提示语音用于指示说出预定义的词汇；采集并分析各个所述相匹配的第一候选语音增强方向的语音信号，将语音信号中包含所述预定义的词汇的所述相匹配的第一候选语音增强方向，作为所述语音增强方向；

若确定不是，将所述相匹配的第一候选语音增强方向，作为所述语音增强方向。

5.根据权利要求2所述的语音增强方向的确定方法，其特征在于，在所述根据声音特征与所述注册用户的声音特征匹配的第一候选语音增强方向，确定所述语音增强方向之后，所述语音增强方向的确定方法还包括：

周期性地将所述语音增强方向的声音特征与所述注册用户的声音特征进行匹配；

若匹配失败，基于当前获取的周围环境的特征数据，确定新的语音增强方向。

6.根据权利要求1所述的语音增强方向的确定方法，其特征在于，所述周围环境的特征数据包括根据所述周围环境的图像数据确定的各待测人物的视觉特征，所述预存的特征数据包括预存的视觉特征，所述待测人物的视觉特征包括待测人物的人脸特征或待测人物的姿态特征，所述预存的视觉特征包括预存的人脸特征或预存的姿态特征；

判断所述周围环境的图像数据中各个待测人物的视觉特征中，是否存在与所述预存的视觉特征相匹配的视觉特征；

若确定存在，将所述相匹配的视觉特征对应的待测人物，作为目标人物；根据所述目标人物的方向信息，确定所述语音增强方向。

7.根据权利要求6所述的语音增强方向的确定方法，其特征在于，所述根据所述目标人物的方向信息，确定所述语音增强方向之后，所述语音增强方向的确定方法还包括：

调用摄像头跟踪所述目标人物；

根据跟踪结果，实时更新所述语音增强方向。

8.根据权利要求6所述的语音增强方向的确定方法，其特征在于，所述根据所述目标人物的方向信息，确定所述语音增强方向之后，所述语音增强方向的确定方法还包括：

判断所述目标人物是否符合预设要求，所述预设要求指示所述目标人物为静止状态；

若确定符合，根据所述周围环境的图像数据，判断所述周围环境中是否存在非目标人物，若确定存在，则调用摄像头跟踪所述非目标人物，根据所述非目标人物的方向信息，确定抑制方向；

根据所述语音增强方向和所述抑制方向，增强所述周围环境的语音数据中所述语音增强方向的语音信号，抑制所述周围环境的语音数据中所述抑制方向的语音信号。

9.根据权利要求6所述的语音增强方向的确定方法，其特征在于，所述周围环境的特征数据还包括周围环境的声音数据；

所述获取周围环境的特征数据，具体包括：

采集所述周围环境的语音数据；

根据所述周围环境的语音数据，确定第二候选语音增强方向；

调用摄像头拍摄所述第二候选语音增强方向的图像数据，作为所述周围环境的图像数据；

根据所述周围环境的图像数据，确定所述周围环境的特征数据。

10.根据权利要求9所述的语音增强方向的确定方法，其特征在于，所述根据所述周围环境的语音数据，确定第二候选语音增强方向，具体包括：

根据所述周围环境的语音数据，预估得到M个第三候选语音增强方向，M为正整数；

根据声音特征与所述注册用户的声音特征匹配的第三候选语音增强方向，确定所述第二候选语音增强方向。

11.根据权利要求6所述的语音增强方向的确定方法，其特征在于，所述根据所述目标人物的方向信息，确定所述语音增强方向，具体包括：

判断所述目标人物的个数是否大于1；

若确定是，播放第二提示语音，所述第二提示语音用于指示执行预定义的动作；拍摄所述目标人物所在方向的图像数据；通过姿态检测算法，识别所述目标人物所在方向的图像数据，判断是否存在执行所述预定义的动作的目标人物；若确定存在，将执行所述预定义的动作的目标人物的方向信息，作为所述语音增强方向；

若确定不是，将所述目标人物的方向信息，作为所述语音增强方向。

12.一种电子设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至11中任一项所述的语音增强方向的确定方法。

13.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的语音增强方向的确定方法。