CN113241073B

CN113241073B - 智能语音控制方法、装置、电子设备及存储介质

Info

Publication number: CN113241073B
Application number: CN202110726271.5A
Authority: CN
Inventors: 谢志强
Original assignee: Shenzhen Oribo Technology Co Ltd
Current assignee: Shenzhen Oribo Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-10-31
Anticipated expiration: 2041-06-29
Also published as: CN113241073A

Abstract

本申请公开了一种智能语音控制方法、装置、电子设备及存储介质，涉及语音技术领域。该方法包括：采集当前环境的环境音频，监测所述环境音频的音频参数；若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频；从目标语音中识别语音控制指令，基于语音控制指令控制对应的智能设备。如此，可以准确检测除可控音源以外的其他音频，并提取指定音频作为待识别的目标语音，基于该目标语音进行语音识别以实现对智能设备的语音控制，从而提高语音识别及语音控制的准确性。

Description

智能语音控制方法、装置、电子设备及存储介质

技术领域

本申请涉及语音技术领域，更具体地，涉及一种智能语音控制方法、装置、电子设备及存储介质。

背景技术

随着智能家居的发展及普及，在智能家居环境中，用户可以通过对智能控制面板进行语音控制，从而控制多个智能家居设备。然而，在实际应用中，用户在对智能控制面板进行语音控制时，可能存在干扰用户语音指令的音源，导致用户语音无法被识别，或者，误将干扰音源作为用户语音指令进行响应，导致语音控制的准确性大大降低等问题。

发明内容

有鉴于此，本申请提出了一种智能语音控制方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种智能语音控制方法，所述方法包括：采集当前环境的环境音频，监测所述环境音频的音频参数；若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频；从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

第二方面，本申请实施例提供了一种智能语音控制装置，所述装置包括：音频参数监测模块、语音提取模块以及语音识别控制模块。音频参数监测模块，用于采集当前环境的环境音频，监测所述环境音频的音频参数；语音提取模块，用于若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频；语音识别控制单元，从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行第一方面提供的智能语音控制方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行第一方面提供的智能语音控制方法。

本申请提供的方案中，电子设备可以采集当前环境的环境音频，监测环境音频的音频参数；若基于音频参数确定环境音频中包含指定音频，则从环境音频中提取指定音频作为目标语音，其中，指定音频为环境音频中除可控音源以外的其他音频，再从目标语音中识别语音控制指令，并基于该语音控制指令控制对应的智能设备。如此，可以准确检测除可控音源以外的其他音频，并实现将可控音源进行剔除，仅提取除可控音源以外的其他音频作为目标语音，再基于目标语音实现对智能设备的语音控制。解决了因存在干扰指定音频的可控音源，导致指定音频无法被识别的问题，同时避免了因可控音源所导致的误控制，提高了基于指定音频进行语音控制的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的应用场景的示意图。

图2示出了本申请一实施例提供的智能语音控制方法的流程示意图。

图3示出了本申请另一实施例提供的智能语音控制方法的流程示意图。

图4示出了本申请另一实施例提供的智能语音控制方法的流程示意图。

图5示出了图4所示步骤S430在一种实施方式中的子步骤流程示意图。

图6示出了图4所示步骤S430在另一种实施方式中的子步骤流程示意图。

图7示出了本申请另一实施例提供的智能语音控制方法的流程示意图。

图8示出了本申请另一实施例提供的智能语音控制方法的流程示意图。

图9是根据本申请一实施例提供的一种智能语音控制装置的框图。

图10是本申请实施例的用于执行根据本申请实施例的智能语音控制方法的电子设备的框图。

图11是本申请实施例的用于保存或者携带实现根据本申请实施例的智能语音控制方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在相关技术中，当用户对智能控制面板进行语音控制时，智能控制面板一般是采集当前环境下的环境音，并对环境音进行识别，进而实现对多个智能家居设备的控制。由于环境音中可能存在其他会干扰用户语音指令的音源，导致用户语音无法被识别，或者，误将干扰音源作为用户语音指令进行响应，导致语音控制的准确性大大降低等问题。

针对上述问题，发明人提出一种智能语音控制方法、装置、电子设备及存储介质，可以通过持续采集当前环境的环境音频，监测环境音频的音频参数；基于音频参数，确定环境音频中是否包含指定音频，其中，指定音频为环境音频中除可控音源以外的其他音频；若环境音频中包含指定音频，从环境音频中提取所述指定音频作为目标语音；从目标语音中识别语音控制指令，基于语音控制指令控制对应的智能设备。下面对该内容进行详细描述。

下面对本申请实施例提供的智能语音控制方法的应用环境进行介绍。

请参照图1，图1示出了为本申请实施例应用场景的一种网络结构图，应用场景可以包括智能语音控制系统10，智能语音控制系统10可以包括电子设备100以及多个智能设备200，其中，电子设备100可以为智能控制面板、智能网关、智能设备中的主控设备、智能手机或平板电脑等设备，智能设备200可以是智能家居设备、智能控制面板、智能手机或平板电脑等设备，本实施例对此不作限制。电子设备100和多个智能设备200之间可以通过局域网、广域网或短距离通信(如紫蜂、蓝牙等)进行数据交互，也就是说，电子设备100可以基于从目标语音中识别出的语音控制指令对多个智能设备200进行控制，本实施例对此不作限制。

请参照图2，图2为本申请一实施例提供的一种智能语音控制方法的流程示意图。下面将结合图2对本申请实施例提供的智能语音控制方法进行详细阐述。该智能语音控制方法可以包括以下步骤：

步骤S210：采集当前环境的环境音频，监测所述环境音频的音频参数。

在本实施例中，电子设备可以持续采集当前环境的环境音频，同时对环境音频的音频参数进行实时监测。其中，电子设备可以是智能控制面板、智能家居设备、手机、平板电脑或者智能手表等设备；环境音频可以包括当前环境中用户发出的声音、可控音源(如智能设备播放的音频)以及其他环境噪音(如汽车鸣笛声、雨声等)等；音频参数可以为环境音频的音量，本实施例在此不作限制。

可以理解地，以电子设备为智能控制面板为例，在智能家居的语音控制场景中，用户可以通过说出指定控制语音，实现对智能控制面板的语音控制，进而控制多个智能家居设备。对应地，智能控制面板可以通过持续采集当前环境的环境音频，并从环境音频中提取出该用户发出的指定控制语音，生成对应的控制指令，实现对智能家居设备的控制。其中，在用户说出指定控制语音时，环境音频的音量也会对应发生改变，因此，智能控制面板可以通过监测环境音频的音量，基于环境音频的音量是否发生变化，来初步判断环境音中是否存在用户发出的指定控制语音。

步骤S220：若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频。

在本实施例中，可以先基于所述音频参数，确定所述环境音频中是否包含指定音频。其中，指定音频为环境音频中除可控音源以外的其他音频，例如，指定音频可以是用户发出的声音(如指定控制语音)、环境噪音等。智能控制面板可以根据音频参数中的音量的变化，来确定环境音频中是否包含指定音频。

在一些实施方式中，当智能控制面板检测到环境音频的音量发生变化时，判断该环境音频是否满足预设音频条件，若环境音频满足预设音频条件，则确定环境音频中包含上述指定音频；若环境音频不满足预设音频条件，则确定环境音频中仅包含可控音源。

具体地，当智能控制面板监测到环境音频的音量发生变化时，可以进一步判断环境音频是否满足预设音频条件，再根据判断结果确定环境音频中是否包含指定音频。其中，预设音频条件作为环境音频中包含除可控音频以外的其他音频的判定依据。判断环境音频是否满足预设音频条件的方式可以有多种，可选的，智能控制面板可以根据可控音源的数量以及环境音中包含的音源数量，确定环境音频是否满足预设音频条件；还可以根据可控音源的音量调整记录，以及环境音频的音量变化量，确定环境音频是否满足预设音频条件；还可以根据可控音源的总音量，以及环境音频的音量，确定环境音频是否满足预设音频条件；可选的，通过声纹匹配的方式，确定环境音频是否满足预设音频条件。

示例性的，智能控制面板通过声纹匹配的方式，确定环境音频是否满足预设音频条件。具体地，可以通过对采集到的环境音频进行声纹识别，得到环境音的声纹特征，再将该声纹特征与预设声纹特征进行匹配，若匹配，可以确定包含该声纹特征的语音的环境音频有权限对智能控制面板实现语音控制，进而判定环境音频满足预设音频条件；若不匹配，可以确定包含该声纹特征的语音的环境音频没有权限对智能控制面板实现语音控制，进而判定环境音频不满足预设音频条件。其中，预设声纹特征可以是通过用户提前录入智能控制面板得到，仅有与预设声纹特征相匹配的声纹特征的语音可以对智能控制面板进行语音控制，可以理解为通过对声纹特征进行识别匹配，对当前环境中发出语音的用户进行身份验证，声纹特征匹配成功，代表该用户身份验证通过，即该用户有权限对智能控制面板进行语音控制。

可选地，若所述环境音频中包含指定音频，从所述环境音频中提取所述指定音频作为目标语音。

在一些实施方式中，在确定环境音频中包含指定音频后，可以直接将指定音频提取出来作为目标语音。在确定出环境音频不包含指定音频时，则可以不对采集的环境音频进行后续处理。

在另一些实施方式中，可以先将指定音频从环境音频中提取出来，再检测指定音频中是否包含预设词汇，当指定音频中包含预设词汇时，再将指定音频作为目标语音。

步骤S230：从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

在本实施例中，智能设备可以是智能家居设备，也可以是智能控制面板，智能控制面板可以对目标语音进行识别，判断目标语音中是否包含语音控制指令，若识别出目标语音中包含语音控制指令，则基于该语音控制指令控制对应的智能设备，其中，控制智能设备可以是控制改变智能设备的状态，也可以是唤醒智能设备使其进入工作状态。

示例性地，若目标语音为“小欧管家，请将客厅的智能灯打开”，且智能控制面板当前处于未唤醒状态，那么智能控制面板可以从该目标语音识别出唤醒智能控制面板的语音控制指令，及打开客厅的智能灯的语音控制指令，将智能控制面板调节至唤醒状态并将开灯的控制指令发送至客厅的智能灯，以控制智能灯的开关状态；或者，若目标语音为“小欧管家，我想听音乐”，且智能控制面板当前处于唤醒状态，智能控制面板可以从该目标语音识别出唤醒智能音箱的唤醒控制指令，并将该唤醒控制指令发送至智能音箱，以唤醒智能音箱，对应地，智能音箱在接收到该唤醒控制指令后，则被唤醒进入工作状态，并与发出目标语音的用户进行交互，以播放该用户想听的音乐。

上述实施例中，可以准确检测除可控音源以外的其他音频，并实现将可控音源进行剔除，仅提取除可控音源以外的其他音频作为目标语音，再基于目标语音实现对智能设备的语音控制。解决了因存在干扰指定音频的可控音源，导致指定音频无法被识别或者误识别的问题，进而避免了因可控音源所导致的误控制，提高了基于指定音频对智能设备进行语音控制的准确性，提升了用户使用体验。

请参照图3，图3为本申请另一实施例提供的一种智能语音控制方法的流程示意图。下面将结合图3对本申请实施例提供的智能语音控制方法进行详细阐述。该智能语音控制方法可以包括以下步骤：

步骤S310：采集当前环境的环境音频，监测所述环境音频的音频参数。

步骤S320：若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频。

在本申请实施例中，步骤S310-步骤S320的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

步骤S330：若确定所述目标语音对应的音量小于音量阈值，则对所述目标语音进行语音增强，并对所述语音增强后的目标语音进行语音识别，得到所述语音识别结果。

在本实施例中，可以先判断所述目标语音对应的音量是否小于音量阈值。具体地，以电子设备为智能控制面板为例，目标语音的音量大小可以影响智能控制面板的语音识别结果，若目标语音的音量较小，可能会导致智能控制面板对目标语音识别错误或者无法识别。因此，在对目标语音进行识别之前，可以先判断目标语音的音量是否小于音量阈值，以提高智能控制面板对目标语音识别的准确性，其中，音量阈值是预设的数值，可以是用户自行设置的，并且可以根据不同的应用场景设置不同的音量阈值，也可以是智能控制面板出厂设置的，本实施例在此不作限制。

基于此，当目标语音对应的音量小于音量阈值时，若直接对目标语音进行语音识别，可能会导致识别结果不准确，因此，可以对目标语音进行语音增强，再将对语音增强后的目标语音进行语音识别，得到语音识别结果。其中，语音增强可以将目标语音的音量进行调整，以达到能保证语音识别准确性的音量大小，还可以在对音量调整后的目标语音进行降噪，以降低噪声对目标语音进行语音识别的干扰，对目标语音进行语音增强可以基于谱减法、统计模型或者子空间算法等，本实施例在此不作限制。对目标语音进行语音识别，可以通过卷积神经网络、深度学习神经网络、基于动态时间规整的算法或基于参数模型的隐马尔可夫模型等，本实施例在此不作限制。

步骤S340：若确定所述目标语音对应的音量不小于预设音量阈值，则对所述目标语音进行语音识别，得到所述语音识别结果。

当目标语音对应的音量不小于音量阈值时，可以直接对目标语音进行语音识别，得到语音识别结果。

步骤S350：若所述语音识别结果中包含语音控制指令，则基于所述语音控制指令控制对应的智能设备。

在本申请实施例中，步骤S350的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

在本实施例中，通过对音量小于音量阈值的目标语音进行语音增强，再对语音增强后的目标语音进行语音识别。如此，可以进一步提高对目标语音进行语音识别的准确性，进而也提高了基于目标语音对智能设备进行语音控制的准确性。

请参照图4，图4为本申请另一实施例提供的一种智能语音控制方法的流程示意图。下面将结合图4对本申请实施例提供的智能语音控制方法进行详细阐述。该智能语音控制方法可以包括以下步骤：

步骤S410：采集当前环境的环境音频，监测所述环境音频的音频参数。

步骤S420：若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频。

在本申请实施例中，步骤S410-步骤S420的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

步骤S430：若确定所述目标语音满足预设增强条件，则对所述目标语音进行语音增强，并对所述语音增强后的目标语音进行语音识别，得到所述语音识别结果。

在本实施例中，以电子设备为智能控制面板为例，若检测到该目标语音对应的音量小于音量阈值，还可以判断目标语音是否满足预设增强条件。在实际应用中，目标语音中不一定包含语音控制指令，因此，若对音量小于音量阈值的每个目标语音均进行语音增强，可能会导致算力资源的浪费或者影响语音识别的速度，进而可能影响对智能设备的语音控制的及时性。

具体地，在一些实施方式中，请参阅图5，步骤S430中确定所述目标语音满足预设增强条件具体可以包括以下步骤：

步骤S431A：分析所述目标语音对应的声源位置。

在本实施例中，目标语音可能是目标用户发出的控制智能控制面板的语音控制指令，也可能是噪音(如宠物发出的声音)，因此，可以基于目标语音的声源位置，分析该声源位置是否存在目标用户，进而达到分析目标语音是否为目标用户发出的语音的目的。因此，可以在目标语音对应的音量小于音量阈值时，分析目标语音对应的声源位置。

步骤S432A：通过图像采集装置对所述声源位置进行图像采集，得到目标图像。

在获取到目标语音的声源位置后，可以通过图像采集装置对声源位置进行图像采集，得到目标图像。其中，图像采集装置可以是单独的摄像头，在拍摄到图像后，可以通过网络或者短距离通信等方式将图像发送至智能控制面板处；图像采集装置也可以是智能控制面板本身携带的摄像头。图像采集的方式可以是拍摄单张图像、拍摄多张图像或拍摄视频等，本实施例对此不作限制。

步骤S433A：若所述目标图像中包含人像图像，则判定所述目标语音满足所述预设增强条件。

基于此，在获取到目标图像后，可以基于深度卷积神经网络或提前训练好的人像识别模型，对目标图像进行人像检测，判断目标图像中是否包含人像图像。若包含人像图像，判定所述目标语音满足所述预设增强条件。

若检测到目标图像中包含人像图像，则代表该目标语音为用户发出的几率较大，也就是说，此时目标语音中包含语音控制指令的几率也较大，因此，可以在目标图像包含人像图像时，判定目标语音满足预设增强条件，也就是说，可以将目标语音进行语音增强，以提高后续语音识别的准确性。

在一些实施方式中，在确定目标图像中包含人像图像后，还可以基于人像图像对说出目标语音对应的目标用户进行身份验证。具体地，判断人像图像与预存图像是否匹配，若匹配，代表该目标用户成功通过身份验证，进而判定目标语音满足预设增强条件；若不匹配，则代表该目标用户没有通过身份验证，进而判定目标语音不满足预设增强条件。其中，预存图像可以是智能控制面板中提前预存的有权限对其进行语音控制的用户的人像图像。

在另一些实施方式中，若不包含人像图像，则判定所述目标语音不满足所述预设增强条件。可选地，若检测到目标图像中不包含人像图像，代表目标语音的声源位置并不存在用户，因此，此时目标语音很可能并非为用户发出的声音，而是其他噪音或者宠物发出的声音，进而可以确定目标语音中包含语音控制指令的几率也比较小，判定目标语音不满足预设增强条件，也就是说，不会对目标语音进行语音增强，以防止算力资源的浪费，进而提高智能控制面板的语音识别的效率。

在另一些实施方式中，请参阅图6，步骤S430确定所述目标语音满足预设增强条件还可以包括以下步骤：

步骤S431B：分析所述目标语音对应的声源位置。

步骤S432B：若所述声源位置位于所述预设区域内，则判定所述目标语音满足所述预设增强条件。

在本实施例中，可以先判断所述声源位置是否位于预设区域内。其中，预设区域可以是提前设置，如智能控制面板在出厂设置时，自定义的一个预设距离，距离智能控制面板小于该预设距离的区域定义为上述预设区域，其中，用户可以在后续使用过程中，针对不同的应用场景对预设距离的数值进行调整，以调整语音控制智能控制面板的精度；预设区域也可以是用户语音控制智能控制面板的热点区域，其中，热点区域也就是用户语音控制智能控制面板所处的频率较高的区域，该热点区域可以是智能控制面板根据用户控制该面板自身的历史位置，经过算法处理计算得到。例如，针对第一智能控制面板，用户在对其进行语音控制的区域主要是在客厅，则第一智能面板可以将客厅作为上述预设区域；或者，用户在对其进行语音控制的距离大部分是小于指定距离的，智能控制面板也可以将距离其自身小于该指定距离的区域定义为预设区域，设置预设区域的方式可以有多种，本实施例在此不作限制。

基于此，可以在目标语音对应的音量小于音量阈值时，通过分析目标语音对应的声源位置来判断目标语音对应的目标用户所处的位置，再判断该位置是否处于预设区域内，进而来判断目标语音是否满足预设增强条件。当声源位置位于预设区域内时，可以判定此时目标语音为用户发出的语音控制指令的几率较大，因此，可以判定目标语音满足预设增强条件。也就是说，在声源位置位于预设区域内时，可以将目标语音进行语音增强，为提高语音识别准确性奠定基础。

在另一些实施方式中，当声源位置不位于预设区域内时，可以判定此时目标语音为用户发出的语音控制指令的几率较小，因此，可以判定目标语音不满足预设增强条件。也就是说，在声源位置不位于预设区域内时，不会对目标语音进行语音增强，以防止算力资源的浪费，影响智能控制面板的语音识别的效率。

步骤S440：若所述语音识别结果中包含语音控制指令，则基于所述语音控制指令控制对应的智能设备。

在本申请实施例中，步骤S440的具体实施方式可以分别参阅其他实施例中的内容，在此不再赘述。

步骤S450：若确定所述目标语音不满足所述预设增强条件，则输出提示信息，以提示用户重新输入用于语音控制的语音。

其中，提示信息可以是语音提示或文字提示，本实施例对此不作限制。例如，智能控制面板可以播放提示音频“请提高音量重新说您的需求”，以提示目标用户以更大声的音量重新说出包含控制指令的语音。

本实施例可以基于目标语音对应的音量，判断目标语音是否符合预设增强条件，并且仅在符合预设增强条件的情况下，对目标语音进行语音增强。如此，可以避免算力资源的浪费。在不符合预设增强条件时，提示用户重新输入用于语音控制的语音，也可以防止因误判导致未及时响应用户指令及提醒用户造成的影响。

请参照图7，图7为本申请另一实施例提供的一种智能语音控制方法的流程示意图。下面将结合图7对本申请实施例提供的智能语音控制方法进行详细阐述。该智能语音控制方法可以包括以下步骤：

步骤S510：采集当前环境的环境音频，监测所述环境音频的音频参数，所述音频参数包括音量。

在本申请实施例中，步骤S510的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

步骤S520：当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整数值。

步骤S530：若所述变化不是由所述可控音源的音频参数调整所产生，则确定所述环境音频中包含所述指定音频，从所述环境音频中提取所述指定音频作为目标语音。

在本实施例中，可以先基于所述音量调整数值，确定所述变化是否由所述可控音源的音频参数调整所产生。以电子设备为智能控制面板为例，可控音源可以是智能设备播放的音频，音量调整记录可以为用户手动调整智能设备播放音频的音量的调整记录、用户开启或关闭智能设备播放音频的记录或者智能设备播放的音频的音量自动发生变化的记录，其中，播放的音频的音量自动变化可能是因为该音频在播放的过程中原本就自身存在音量的变化(如智能音箱播放音乐，在播放间奏时音量较小，而当播放到副歌部分时音量会变得相对较大)，也可能是因为智能设备的硬件老化(如声卡老化)或智能设备的电压不稳定等其他因素。如此，电子设备除了可以获取到用户调整智能设备的音量的调整记录，还能实时监测智能设备播放的音量，防止因智能设备所播放的音频自动发生变化造成的误判，提高了判断音量变化是否由可控音源调整的准确性。因此，当监测到环境音频的音量发生变化时，智能控制面板可以获取当前环境中所有可控音源的音量调整记录。通过该音量调整记录，确定环境音的音量变化是否由可控音源的音量调整所产生。

在一些实施方式中，若所述音量调整记录中所述可控音源存在音量调整，获取存在音量调整的所述可控音源的音量调整数值，以及所述环境音频的音量相较于当前时刻之前的音量的变化数值，所述音量调整数值为当前音量相较于调整之前的音量的调整数值；判断所述变化数值与所述音量调整数值是否匹配；若所述变化数值与所述音量调整数值匹配，判定所述变化是由所述可控音源的音量调整所产生；若所述变化数值与所述音量调整数值不匹配，判定所述变化不是由所述可控音源的音量调整所产生。

具体地，可以获取环境音频当前时刻之前的第一音量数值，以及当前时刻的第二音量数值，再获取第一音量数值与第二音量数值的差值作为上述环境音频的音量的变化数值。

获取可控音源的音量调整数值，若可控音源中仅存在一个音源存在音量调整，则可以通过计算该音源音量调整后对总音量的影响值，计算的单个音源调整对总音量的影响的公式为：LP＝10lg(Lp1/Lp0)，其中，LP代表总音量因可控音源进行音量调整后的变化数值，Lp1代表该音源调整后的音量数值，Lp0代表该音源调整前的音量数值。例如，若可控音源中仅存在声源1将音量提高至原来的3倍，从20分贝调整至60分贝，对应的LP＝10lg3＝4.77，也就是声源1调整音量的给总音量带来的影响值为4.77分贝。

同理可得，当可控音源中存在多个音源同时存在音量调整，对应地，通过上述公式计算出每个音源调整后对总音量带来的影响值，并将每个音源调整后带来的影响值相加，即可得到可控音源的总的音量调整数值。例如，声源1将音量从20分贝调整至60分贝，声源2将音量从30分贝调整至60分贝，声源1对总音量的影响值为10lg3＝4.77，声源2对总音量的影响值为10lg2＝3.01，因此，可以得到声源1和声源2同时调整音量后，可控音源的总的音量调整数值为7.78分贝。

在获取到环境音频的变化数值以及可控音源的音量调整数值后，可以判断环境音频的变化数值以及可控音源的音量调整数值是否匹配，以此来判断环境音频的音量变化是否由可控音源的音量调整所产生。

可选地，可以通过判断环境音频的变化数值与可控音源的音量调整数值是否相等，若相等，则判定该变化数值与音量调整数值匹配；若不相等，则判定该变化数值与音量调整数值不匹配。

可选地，可以获取环境音频的变化数值与可控音源的音量调整数值之间的差值，判断该差值是否在预设差值范围内，若该差值在预设差值范围内，则可以判定该变化数值与音量调整数值匹配；若该差值不在预设差值范围内，可以判定该变化数值与音量调整数值不匹配。

基于此，当变化数值与音量调整数值匹配，判定该变化是由可控音源的音量调整所产生；若变化数值与音量调整数值不匹配，判定该变化不是由可控音源的音量调整所产生。基于此，当确定环境音频的变化是由可控音源的音量调整所产生，确定该环境音频中包含指定音频，即，确定当前环境中存在除可控音源以外的其他音频。

在另一些实施方式中，若所述变化由所述可控音源的音频参数调整所产生，确定所述环境音频中不包含所述指定音频。也就是说，若环境音频的变化不是由可控音源的音量调整所产生，则可以判定环境音中仅包含可控音源，未包含除可控音源以外的其他音源，也就是说，可以确定当前环境的环境音频中不存在需要提取的指定音频。

步骤S540：从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

在本申请实施例中，步骤S540的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

请参照图8，图8为本申请另一实施例提供的一种智能语音控制方法的流程示意图。下面将结合图8对本申请实施例提供的智能语音控制方法进行详细阐述。该智能语音控制方法可以包括以下步骤：

步骤S610：采集当前环境的环境音频，监测所述环境音频的音频参数，所述音频参数包括所述环境音频中包含的音源数量。

在本申请实施例中，步骤S610的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

步骤S620：获取正在播放音频的智能设备的设备数量。

在本实施例中，以电子设备为智能控制面板为例，当智能控制面板监测到环境音频的音量发生变化时，可以通过分析环境音频中包含的音源数量与正在播放音频的智能设备的设备数量，来判断环境音频是否满足预设音频条件。其中，环境音频中可以包括来自不同音源的音频，如智能设备播放的音频、用户发出的音频等，因此，可以通过分析环境音频中包含的音源数量，来分析得到环境音频中包含多少种音源的音频。智能控制面板可以基于麦克风阵列的声源定位算法，对环境音中包含的音源进行较为准确的声源定位，其中，声源定位算法可以是基于波束形成的方法、基于高分辨率谱估计的方法或基于声达时延差的方法等，本实施例对此不作限制。

另外，智能控制面板可以通过紫蜂协议(ZigBee)与当前环境中的智能设备建立通信连接，并且可以基于该通信连接获取到每个智能设备的状态，也就是说，智能控制面板可以获取到每个智能设备是否正在播放音频，同时统计正在播放音频的智能设备的设备数量。

步骤S630：若所述音源数量大于所述设备数量，则确定所述环境音频中包含所述指定音频，并从所述环境音频中提取所述指定音频作为目标语音。

在本实施例中，可以先判断音源数量是否大于设备数量，具体地，在获取到环境音频中的音源数量以及正在播放音频的智能设备的设备数量后，可以通过判断音源数量和设备数量的大小关系，进而判断环境音频中是否包含除正在播放音频的智能设备之外的其他音源。

具体地，判断音源数量是否大于设备数量，若音源数量大于设备数量，可以判定环境音频中包含除正在播放音频的智能设备之外的其他音源，如用户发出的语音或者其他环境噪音；若音源数量不大于设备数量，可以判定环境音频中仅包含正在播放音频的智能设备播放的音频。

可选地，若所述音源数量大于所述设备数量，确定所述环境音频中包含所述指定音频，从所述环境音频中提取所述指定音频作为目标语音。即，当音源数量大于设备数量时，可以确定环境音频中包含除正在播放音频的智能设备之外的其他音源，进而可以判定环境音频满足预设音频条件，进而可以确定环境音频中包含指定音频，即包含除可控音源以外的其他音频，其中，可控音源为正在播放音频的智能设备。

步骤S640：从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

在本申请实施例中，步骤S640的具体实施方式可以参阅其他实施例中的内容，在此不再赘述。

在另一些实施方式中，若音源数量不大于设备数量，可以确定环境音频中仅包含智能设备正在播放的音频，进而可以确定环境音频不满足预设音频条件，也就是说，此时，环境音频中没有包含指定音频。

请参照图9，其中示出了本申请另一实施例提供的一种智能语音控制装置700的结构框图。该装置700可以包括：音频参数监测模块710、语音提取模块720和语音识别控制模块730。

音频参数监测模块710用于采集当前环境的环境音频，监测所述环境音频的音频参数。

语音提取模块720用于若基于所述音频参数确定所述环境音频中包含指定音频，则从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频。

语音识别控制模块730从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

在一些实施方式中，语音识别控制模块730可以包括：语音分析单元以及语音识别控制单元。其中，语音分析单元可以用于若确定所述目标语音对应的音量不小于预设音量阈值，则对所述目标语音进行语音识别，得到所述语音识别结果；或者，若确定所述目标语音对应的音量小于音量阈值，则对所述目标语音进行语音增强，并对所述语音增强后的目标语音进行语音识别，得到所述语音识别结果。语音识别控制单元可以用于若所述语音识别结果中包含语音控制指令，则基于所述语音控制指令控制对应的智能设备。

在该方式下，语音分析单元可以具体用于在所述对所述目标语音进行语音增强之前，若确定所述目标语音满足预设增强条件，则执行所述对所述目标语音进行语音增强的步骤；若确定所述目标语音不满足所述预设增强条件，则输出提示信息，以提示用户重新输入用于语音控制的语音。。

在一些实施方式中，语音分析单元可以包括：声源分析子单元、图像采集子单元以及判断子单元。其中，声源分析子单元可以用于分析所述目标语音对应的声源位置。图像采集子单元可以用于通过图像采集装置对所述声源位置进行图像采集，得到目标图像。判断子单元可以用于若所述目标图像中包含人像图像，则判定所述目标语音满足所述预设增强条件。

在另一些实施方式中，语音分析单元可以包括：声源分析子单元和声源判断单元。其中，声源分析子单元可以用于分析所述目标语音对应的声源位置。声源判断单元可以用于若所述声源位置位于所述预设区域内，则判定所述目标语音满足所述预设增强条件。

在一些实施方式中，所述音频参数包括音量，语音提取模块720可以包括：音量获取单元以及音量变化确定单元。其中，音量获取单元用于当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整数值。音量变化确定单元可以用于若所述变化不是由所述可控音源的音频参数调整所产生，则确定所述环境音频中包含所述指定音频。

在另一些实施方式中，所述可控音源包括智能设备播放的音频，所述音频参数包括所述环境音频中包含的音源数量，语音提取模块720可以包括：设备数量获取单元以及设备数量判断单元。其中，设备数量获取单元可以用于获取正在播放音频的智能设备的设备数量。设备数量判断单元可以用于若所述音源数量大于所述设备数量，则确定所述环境音频中包含所述指定音频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

下面将结合图对本申请提供的一种电子设备进行说明。

参照图10，图10示出了本申请实施例提供的一种电子设备800的结构框图，本申请实施例提供的智能语音控制方法可以由该电子设备800执行。

本申请实施例中的电子设备800可以包括一个或多个如下部件：处理器801、存储器802、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器802中并被配置为由一个或多个处理器801执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器801可以包括一个或者多个处理核。处理器801利用各种接口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器802内的指令、程序、代码集或指令集，以及调用存储在存储器802内的数据，执行电子设备800的各种功能和处理数据。可选地，处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器801可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器801中，单独通过一块通信芯片进行实现。

存储器802可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器802可用于存储指令、程序、代码、代码集或指令集。存储器802可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备800在使用中所创建的数据(比如上述的音量阈值以及预设区域)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质900中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质900包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种智能语音控制方法，其特征在于，应用于电子设备，所述方法包括：

采集当前环境的环境音频，监测所述环境音频的音频参数，音频参数包括音量；

当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整数值；

若所述变化不是由所述可控音源的音频参数调整所产生，则确定所述环境音频中包含指定音频，并从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频；

从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

2.根据权利要求1所述的方法，其特征在于，所述从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备，包括：

若确定所述目标语音对应的音量不小于预设音量阈值，则对所述目标语音进行语音识别，得到所述语音识别结果；或者，若确定所述目标语音对应的音量小于音量阈值，则对所述目标语音进行语音增强，并对所述语音增强后的目标语音进行语音识别，得到所述语音识别结果；

若所述语音识别结果中包含语音控制指令，则基于所述语音控制指令控制对应的智能设备。

3.根据权利要求2所述的方法，其特征在于，在所述对所述目标语音进行语音增强之前，所述方法还包括：

若确定所述目标语音满足预设增强条件，则执行所述对所述目标语音进行语音增强的步骤；

若确定所述目标语音不满足所述预设增强条件，则输出提示信息，以提示用户重新输入用于语音控制的语音。

4.根据权利要求3所述的方法，其特征在于，所述确定所述目标语音满足预设增强条件，包括：

分析所述目标语音对应的声源位置；

通过图像采集装置对所述声源位置进行图像采集，得到目标图像；

若所述目标图像中包含人像图像，则判定所述目标语音满足所述预设增强条件。

5.根据权利要求3所述的方法，其特征在于，所述确定所述目标语音满足预设增强条件，包括：

分析所述目标语音对应的声源位置；

若所述声源位置位于预设区域内，则判定所述目标语音满足所述预设增强条件。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述可控音源包括智能设备播放的音频，所述音频参数包括所述环境音频中包含的音源数量，所述基于所述音频参数确定所述环境音频中包含指定音频，包括：

获取正在播放音频的智能设备的设备数量；

若所述音源数量大于所述设备数量，则确定所述环境音频中包含所述指定音频。

7.一种智能语音控制装置，其特征在于，应用于电子设备，所述装置包括：

音频参数监测模块，用于采集当前环境的环境音频，监测所述环境音频的音频参数，音频参数包括音量；

语音提取模块，用于当所述音量发生变化时，获取所述当前环境中所有可控音源的音量调整数值；若所述变化不是由所述可控音源的音频参数调整所产生，则确定所述环境音频中包含指定音频，并从所述环境音频中提取所述指定音频作为目标语音，所述指定音频为所述环境音频中除可控音源以外的其他音频；

语音识别控制模块，从所述目标语音中识别语音控制指令，基于所述语音控制指令控制对应的智能设备。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-6中任意一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6中任意一项所述的方法。