CN113066488B

CN113066488B - 语音唤醒智能控制方法、装置、电子设备及存储介质

Info

Publication number: CN113066488B
Application number: CN202110328123.8A
Authority: CN
Inventors: 何海亮
Original assignee: Shenzhen Oribo Technology Co Ltd
Current assignee: Shenzhen Oribo Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-10-27
Anticipated expiration: 2041-03-26
Also published as: CN113066488A

Abstract

本申请公开了一种语音唤醒智能控制方法、装置、电子设备及计算机可读存储介质。该方法应用于智能设备，该方法通过识别待抑制处理的语音信号，并对语音信号的初始置信度进行抑制处理，根据抑制置信度与预设置信度阈值判断是否执行对智能设备的唤醒操作。通过对待抑制处理的语音信号的置信度进行抑制处理，针对性地降低待抑制处理的语音信号的唤醒概率，从而降低智能设备的误唤醒率。

Description

语音唤醒智能控制方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，更具体地，涉及一种语音唤醒智能控制方法、装置、电子设备及存储介质。

背景技术

语音唤醒是语音识别技术的一种形式，其不直接接触硬件设备，通过语音即可将智能设备唤醒运行。通过语音唤醒这种非接触式的方式控制智能设备，不仅方便用户操作，且采用语音唤醒的机制，智能设备不用实时地处于工作状态，可以节省能耗。

通常，智能设备获取语音信号，分析语音信号的置信度，若语音信号的置信度大于预设的置信度阈值，则执行对智能设备的唤醒操作。然而，针对不同的应用环境，在存在干扰音源的环境中，语音信号可能来自目标用户，也可能来自干扰音源。

实际应用中，在存在干扰音源的应用环境下，来自干扰音源的语音信号可能会引起智能设备的误唤醒，导致智能设备的误唤醒率较高。

发明内容

鉴于上述问题，本发明提出了一种语音唤醒智能控制方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种语音唤醒智能控制方法，该方法包括：识别待抑制处理的语音信号，其中，语音信号用于唤醒智能设备。基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度。当语音信号的抑制置信度大于或等于预设置信度阈值时，基于语音信号执行对智能设备的唤醒操作。

第二方面，本申请实施例还提供了一种语音唤醒智能控制装置，该装置包括：抑制处理识别模块、抑制置信度确定模块以及唤醒操作执行模块。其中，抑制处理识别模块用于识别待抑制处理的语音信号。语音信号用于唤醒智能设备。抑制置信度确定模块用于基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度。唤醒操作执行模块用于当语音信号的抑制置信度大于预设的置信度阈值时，基于语音信号执行对智能设备的唤醒操作。

第三方面，本申请实施例还提供了一种电子设备。电子设备包括一个或多个处理器、存储器以及一个或多个应用程序。其中，一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质中存储有程序代码。其中，在程序代码被处理器运行时执行上述的方法。

本发明提供的技术方案中，通过识别待抑制处理的语音信号，并对语音信号的初始置信度进行抑制处理，根据抑制置信度与预设置信度阈值判断是否执行对智能设备的唤醒操作。通过对待抑制处理的语音信号的置信度进行抑制处理，针对性地降低待抑制处理的语音信号的唤醒概率，从而降低智能设备的误唤醒率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了本申请一实施例所涉及的一种应用环境的示意图；

图2示出了本申请另一实施例所涉及的一种应用环境的示意图；

图3示出了本申请一实施例提出的一种语音唤醒智能控制方法的流程示意图；

图4示出了本申请另一实施例提出的一种语音唤醒智能控制方法的一种应用场景图；

图5示出了本申请另一实施例提出的一种语音唤醒智能控制方法的流程示意图；

图6示出了本申请另一实施例中步骤S230的流程示意图；

图7示出了本申请另一实施例提出的一种语音唤醒智能控制方法的另一种应用场景图；

图8示出了本申请另一实施例中步骤S232的流程示意图；

图9示出了本申请又一实施例提出的一种语音唤醒智能控制方法的流程示意图；

图10示出了本申请一实施例提出的一种语音唤醒智能控制装置的结构框图；

图11示出了本申请一实施例提出的一种电子设备的结构框图；

图12示出了本申请一实施例提出的一种计算机可读存储介质的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

语音唤醒技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。语音唤醒可以应用于例如机器人、手机、可穿戴设备、智能家居、车载等智能设备，通过语音唤醒技术作为人和智能设备互动的一个开始或入口。

通常，智能设备获取语音信号，分析语音信号的置信度，若语音信号的置信度大于预设的置信度阈值，则执行对智能设备的唤醒操作。然而，针对不同的应用环境，例如在存在干扰音源的环境中，语音信号可能来自目标用户，也可能来自干扰音源。而现有分析语音信号置信度的算法或模型无法区分语音信号是来自用户还是干扰音源。在实际应用中，在存在干扰音源的应用环境下，来自干扰音源的语音信号若置信度大于预设的置信度阈值会引起智能设备的误唤醒，导致智能设备的误唤醒率较高。

为了改善上述问题，本申请的发明人提出了本申请提供的语音唤醒智能控制方法、装置、电子设备及存储介质。本发明提供的技术方案中，通过识别待抑制处理的语音信号，基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度，当语音信号的抑制置信度大于或等于预设置信度阈值时，基于语音信号执行对智能设备的唤醒操作，从而对待抑制处理的语音信号的置信度进行抑制处理，针对性地降低待抑制处理的语音信号的唤醒概率，从而降低智能设备的误唤醒率。

下面将针对本发明实施例提供的语音唤醒智能控制方法的应用环境进行介绍。

请参阅图1，图1示出了本申请实施例所涉及的一种语音唤醒智能控制系统的示意图，在本申请的实施例中该语音唤醒智能控制系统包括：智能设备100以及一个或多个第一设备200。智能设备100通过网络与第一设备200进行连接。该系统通常应用于家庭、办公室等环境。

其中，第一设备200是工作时会产生声源的设备。作为一种实施方式，第一设备200可以包括音频播放装置。例如电视机、音箱、音响、手机、平板电脑、学习机、门铃、座机等设备。作为另一种实施方式，第一设备200也可以不包括音频播放装置，但第一设备200在工作时会产生声源。例如洗衣机、油烟机等。本申请实施例对具体的第一设备200的类型不作限定。

智能设备100包括有音频采集装置，例如麦克风、麦克风阵列等，可以采集语音信号。智能设备100可以是智能控制面板、智能手机、智能穿戴设备、智能语音导航设备、智能机器人、平板电脑、个人计算机等等。本申请实施例对具体的智能设备的类型不作限定。

智能设备100通过网络与第一设备200进行连接。智能设备可以通过网络获取第一设备200的工作状态。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

请参阅图2，图2示出了本申请实施例所涉及的另一种语音唤醒系统的示意图，在本申请的实施例中该语音唤醒系统包括包括智能设备100、一个或多个第一设备200以及服务器300。在本申请的实施例中，智能设备100通过网络与服务器300连接，第一设备200通过网络与服务器300连接。第一设备200的工作状态通过网络发送给服务器，智能设备再通过网络从服务器获取第一设备的工作状态。

服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，端服务器。本申请实施例对具体的服务器的类型不作限定。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请一实施例提供了一种语音唤醒智能控制方法，可应用于智能设备，本实施例描述的是智能设备侧的步骤流程。下面将针对图3所示的流程进行详细的阐述，所示语音唤醒智能控制方法具体可以包括步骤S110至步骤S130。

步骤S110、识别待抑制处理的语音信号。其中，语音信号用于唤醒智能设备。

其中，智能设备可以获取语音信号。智能设备对获取到的语音信号进行识别，确定获取的语音信号是否为待抑制处理的语音信号。

在一些实施方式中，智能设备通过自带的拾音设备(如麦克风)从周围环境中拾取语音信号。作为一种实施方式，智能设备可以安装有语音助手类应用程序，或者安装具有语音助手功能的应用程序。作为一种实施方式，智能设备可以有多种工作模式，例如休眠模式、唤醒模式、关机模式等。可选地，智能设备在休眠模式下可以通过智能设备的拾音设备持续监听是否有语音信号输入。

在另一些实施方式中，智能设备也可以从其他设备处获取到语音信号。例如，作为一种方式，可以是外设的拾音设备拾取到语音信号后，将该语音信号发送至智能设备，从而智能设备获取到语音信号。

在一些实施方式中，语音信号可以为用户发出的声音。例如，语音信号可以是用户为了唤醒智能设备，输入的包含关键词的语音信号。例如，用户说“小X，打开电视”、“小Y，今天天气”等。

在另一些实施方式中，语音信号也可以为智能设备周围环境中的干扰声音。可选地，语音信号可以是由包括音频播放装置的设备在工作时发出的声音。例如电视机、音箱、音响、手机、平板电脑、学习机、门铃、座机等设备。可选地，语音信号还可以是由不包括音频播放装置的设备在工作时发出的声音。例如，洗衣机、油烟机等。

由于智能设备获取的语音信号可能是用户发出的声音，也可能是来自周围环境的干扰声音。在一些生活场景下，干扰声音例如是电视机播放的声音与用户的声音相似度较高，而且各唤醒模型都存在一定的误唤醒率，干扰声音也可能会引起智能设备的误唤醒。而如果可以区分出语音信号是否为干扰信号，再对识别出的干扰信号进行抑制处理，就可以降低智能设备的误唤醒率。

作为一种实施方式，可以通过分析语音信号的声音特性判断语音信号是否为干扰信号。例如，声音特性为声纹特征，智能设备通过分析语音信号中的声纹特征是否与预先存储的声纹特征匹配。若不匹配，则语音信号为干扰信号的概率较大，需要进行抑制处理。

作为另一种实施方式，可以通过确定周围环境中是否存在干扰声源，通过分析语音信号是否来自干扰声源判断语音信号是否为干扰信号。

干扰声源可能来自智能设备周围环境中的设备。智能设备周围环境中的设备位置通常是固定的，而且设备工作时发出的声音强度在一段时间内是基本不变的。作为一种方式，智能设备可以通过持续监控环境中的音频信号，对音频信号进行分析，例如分析是否存在位置固定、声音强度固定的声源来确定是否存在干扰声源。

作为另一种方式，智能设备可以与环境中的设备通过网络进行连接，智能设备可以通过网络获取设备的工作状态来确定周围环境中的设备是否处于工作状态。若设备处于工作状态，存在该设备工作时产生的干扰声源，进而再通过持续监控环境中的音频信号，分析是否存在位置固定、声音强度固定的干扰声源。从而可以精准地确定干扰声源，不需要智能设备持续地监控。可选地，当智能设备获取到设备的工作状态，若设备与智能设备的相对位置是已知的，例如位置关系可以是预先确定后存储在智能设备中，则可以直接调取预先存储的数据，确定干扰声源的方位。可以理解的是，本申请并不限制于此，其它可以确定干扰声源的方式也可以应用到本申请。

作为本申请的一种实施方式，当确定存在干扰声源，智能设备可以通过分析语音信号的方位和声音特性等确定语音信号是否在干扰声源的方位范围和声音特性范围内，确定语音信号是否为干扰信号。干扰声源的方位范围和声音特性范围可以通过持续监控分析环境中的音频信号获得。声音特性可以包括但不限于声音强度、信噪比等。

步骤S120、基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度。

通常智能设备将语音信号通过唤醒模型的处理获得语音信号的初始置信度，若语音信号的初始置信度高于预设置信度阈值，则该语音信号可以唤醒智能设备。而待抑制处理的语音信号大概率来自干扰信号，为了降低干扰信号的唤醒率，需要对待抑制处理的语音信号的初始置信度进行抑制处理，抑制其唤醒智能设备的成功率。

在本申请的实施例中，预设抑制规则是指对待抑制处理的语音信号的初始置信度进行抑制处理，确定待抑制处理的语音信号的抑制置信度的规则。根据预设抑制规则和待抑制处理的语音信号的初始置信度可以确定待抑制处理的语音信号的抑制置信度。根据预设抑制规则获得的抑制置信度小于初始置信度，从而降低待抑制处理的语音信号唤醒智能设备的成功率。

步骤S130、当语音信号的抑制置信度大于或等于预设置信度阈值时，基于语音信号执行对智能设备的唤醒操作。

在本申请的实施例中，采用抑制置信度作为待抑制处理的语音信号是否能唤醒智能设备的判断依据，将抑制置信度与智能设备语音唤醒的预设置信度阈值进行比较，如果抑制置信度仍大于或等于预设置信度阈值时，则说明该语音信号的置信度高，为唤醒信号的概率大，因此，基于该语音信号执行对智能设备的唤醒操作。

在本申请的实施例中，当待抑制处理的语音信号的抑制置信度小于预设置信度阈值时，则不基于语音信号执行对智能设备的唤醒操作。本申请的实施例中，通过抑制待抑制处理的语音信号的初始置信度，可以有效降低待抑制处理的语音信号唤醒智能设备的概率，从而降低智能设备的误唤醒率。

在一些实施方式中，智能设备被唤醒后由休眠模式进入唤醒模式，可以接收用户的指令语音，并对指令语音进行分析和执行指令语音中包含的任务。

在一些实施方式中，智能设备被唤醒后可以提示用户智能设备已进入唤醒模式。可选地，智能设备通过发出提示语音，提醒用户智能设备已进入唤醒模式，引导用户发出指令语音。例如，智能设备被唤醒后，发出提示语音“你好，请问有什么小Y可以帮助你？”、“小X在的，有什么问题都可以跟我说”等。可选地，智能设备还通过发出提示音乐，或者，通过亮屏操作，提醒用户智能设备已进入唤醒模式。可以理解的是，本申请并不限制于此，智能设备被唤醒后还可以采用其它实施方式提醒用户。

本申请一实施例提供的语音唤醒智能控制方法，通过识别待抑制处理的语音信号，并对语音信号的初始置信度进行抑制处理，根据抑制置信度与预设置信度阈值判断是否执行对智能设备的唤醒操作。通过对待抑制处理的语音信号的置信度进行抑制处理，针对性地降低待抑制处理的语音信号的唤醒概率，从而降低智能设备的误唤醒率。

请参阅图4，图4示出了本申请另一实施例的一种应用场景，图4中包括智能设备100和多个第一设备。多个第一设备至少包括电视机200a、电话2000b以及音乐播发器200c。智能设备100通过网络与多个第一设备连接，从而可以获取第一设备的工作状态。多个第一设备在工作时会产生干扰声源，导致智能设备100误唤醒。请参阅图5，本申请另一实施例提供了一种语音唤醒智能控制方法，可应用于智能设备侧，例如可应用于图4中的智能设备100。将下面将针对图5所示的流程进行详细的阐述，所示语音唤醒智能控制方法具体可以包括步骤S210至步骤S260。

步骤S210、接收语音信号。

在本申请的实施例中，智能设备可以接收语音信号。在一些实施方式中，智能设备通过自带的拾音设备从周围环境中拾取语音信号。在另一些实施方式中，智能设备也可以从其他设备处获取语音信号。例如外设的拾音设备。

在本申请的实施例中，智能设备可以在休眠模式下持续监听是否有语音信号输入，从而在产生语音信号的时候可以及时接收语音信号。

步骤S220、确定语音信号的初始置信度。

在本申请的实施例中，智能设备接收到语音信号后，为了进一步分析语音信号，需要先确定语音信号的初始置信度。

作为一种实施方式，初始置信度可以采用唤醒模型(或预先训练的模型)对输入的语音信号进行分析，确定语音信号的初始置信度。根据选用模型的不同，影响初始置信度的因素可能不同。影响初始置信度的因素包括但不限于语音信号的声学特征，例如包含的关键词(是否包括唤醒词)、音量大小(音量是否达到预设值)等。

在一些实施方式中，唤醒模型可以是唤醒词检测模型，通过唤醒词检测模型确定语音信号中是否存在预设唤醒词。可选地，唤醒词检测模块可以是经过大量训练语音信号预先训练得到的。通过唤醒词检测模型计算语音信号的初始置信度。在一些实施方式中，语音信号的初始置信度指唤醒词与预设唤醒词的声学特征的相似度。可选地，唤醒模型可以采用卷积神经网络算法(Convolutional Neural Networks，CNN)、深度神经网络算法(DeepNeural Networks，DNN)、卷积循环神经网络算法(Convolution Recurrent NeuralNetwork，CRNN)构建唤醒模型。可以理解的是，本发明并不限制于此，也可以采用其它唤醒模型获得语音信号的置信度。

可以理解的是，语音信号的初始置信度只有大于或等于预设置信度阈值才有可能唤醒智能设备。而经过抑制处理语音信号的抑制置信度会小于初始置信度。因此，作为本申请的一种实施方式，当确定语音信号的初始置信度之后，可以将语音信号的初始置信度与预设置信度阈值进行比较，若语音信号的初始置信度小于预设置信度阈值，则不基于语音信号执行对智能设备的唤醒操作，也不用执行判断语音信号是否需要抑制处理的操作。

步骤S230、判断语音信号是否需要抑制处理。

在本申请的实施例中，当智能设备接收到语音信号时，需要对语音信号进行进一步的分析，确定语音信号是否需要抑制处理。

在本申请的实施例中，可以通过判断语音信号是否来自干扰声源确定语音信号是否需要抑制处理。在本申请的实施例中，以干扰声源为智能设备周围环境中的设备工作时产生的干扰声源为例进行说明。下面将进行具体阐述。

请参阅图6所示，图6示出了本申请另一实施例中步骤S230的流程示意图，下面将针对图6所示的流程进行详细的阐述，步骤S230具体可以包括步骤S231至步骤S235。

步骤S231、获取第一设备的工作状态，第一设备为音频播放设备。

在本申请的实施中，第一设备是指智能设备周围环境中的设备。在本申请的实施例中，第一设备可以包括音频播放装置，例如电视机、音箱、音响、手机、平板电脑、学习机、门铃、座机、电话等设备。

在本申请的实施例中，第一设备的工作状态可以包括但不限于音频播放状态、非音频播放状态。第一设备在音频播放状态时会产生干扰声源，例如电视机在播放电视节目时，会产生干扰声源。又如音箱在播放音乐时会产生干扰声源。第一设备在非音频播放状态时不会产生干扰声源，例如电视机在关机时，不会产生干扰声源。通过获取第一设备的工作状态，可以准确地获知周围环境中干扰声源的情况。

作为一种实施方式，智能设备通过网络与第一设备连接。智能设备可以通过网络获取第一设备的工作状态。可选地，智能设备可以通过定期发送查询指令给第一设备，第一设备根据查询指令返回工作状态数据。可选地，第一设备定期发送工作状态数据给智能设备，智能设备根据定期接收的工作状态数据获取第一设备的工作状态。可选地，第一设备的控制状态由智能设备控制，通过存储和更新对第一设备的控制指令可以获取第一设备的工作状态。例如，智能设备为智能控制面板，用户可以通过智能控制面板控制电视机的开关状态。例如用户通过智能控制面板发送打开电视机的指令给电视机，则通过智能控制面板存储的对电视机的最新的控制指令“打开电视机”可以获取电视机的工作状态。

步骤S232、当第一设备的工作状态为音频播放状态时，获取干扰声源的干扰方向范围和干扰信噪比范围。

在本申请的实施例中，当智能设备获取第一设备的工作状态为音频播放状态时，确定智能设备的周围环境中可能存在由第一设备工作时产生的干扰声源。第一设备的位置通常是固定的，即由第一设备产生的干扰声源的位置也是固定的。而在一段时间内，第一设备产生的干扰声源的声音强度等特性也是固定的，例如音乐播放器播放音乐，在用户调整好音量之后，音乐播放器的音量基本维持不变。在本申请的实施例中，可以通过获取干扰声源的干扰方向范围和干扰信噪比范围来确定干扰声源。

作为本申请的一种实施方式，干扰声源可能只来自一个设备，如图4所示，图4中仅有电话110b处于音频播放状态。作为本申请的另一种实施方式，干扰声源可能来自多个设备。如图7所示，图7中电话200b和音乐播放器200c均处于音乐播放状态。此时，根据电话200b和音乐播放器200c的位置和声音强度等特性不同，干扰方向范围可能包括干扰声源为电话200b的第一干扰方向范围和第一干扰信噪比范围，并且干扰方向范围还包括干扰声源为音乐播放器200c的第二干扰方向范围和第二干扰信噪比范围。

请参阅图8所示，图8示出了本申请另一实施例中步骤S232的流程示意图，下面将针对图8所示的流程进行详细的阐述，步骤S232具体可以包括步骤S2321至步骤S2323。

步骤S2321、当第一设备的工作状态为音频播放状态时，获取预设时间长度的检测音频。

在本申请的实施例中，当第一设备的工作状态为音频播放状态时，第一设备产生干扰声源。智能设备可以通过获取环境中的音频，通过分析音频确定干扰声源。

为了更精确地确定干扰声源，可以获取预设时间长度的检测音频，通过预设时间长度的检测音频确定干扰声源。可以理解的是，预设时间长度可以根据实际需要进行设置。

作为本申请的一种实施方式，第一设备工作过程中可能由于播放内容的不同、用户对音量进行调整等影响因素，第一设备产生的干扰声源的信噪比可能会发生改变。为了更加精确地确定干扰声源的情况，在第一设备的工作状态为音频播放状态时，每隔预设周期采集一次预设时间长度的检测音频，以用于更新干扰声源的干扰方向范围和干扰信噪比范围。

步骤S2322、根据检测音频确定干扰声源的干扰方向范围。

在本申请的实施例中，智能设备根据获取的检测音频确定干扰声源的干扰方向范围。在一些实施方式中，智能设备可以包括麦克风阵列等音频获取装置。可选地，基于麦克风阵列的声源定位方法可以包括但不限于基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation，TDE)的声源定位技术等。

步骤S2323、根据检测音频确定干扰声源的干扰信噪比范围。

在本申请的实施例中，智能设备根据获取的检测音频确定干扰声源的干扰信噪比范围。

在一些实施方式中，智能设备将检测音频按时间顺序分割成多个单位时间长度的单位检测音频。其中，单位时间长度可以根据实际需要进行设置。在一些实施方式中，单位时间长度可以设置成和唤醒词同样长度的音频时长，例如2s等。

接着，智能设备分别确定每个单位检测音频的检测信噪比。在本申请的实施例中检测信噪比是指电子设备或电子系统中信号与噪声的比例。信号指的是来自设备外部需要通过这台设备进行处理的电子信号，在本申请中可以是指检测音频。噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息)，并且该种信号并不随原信号的变化而变化。

作为一种实施方式，可以通过公式1计算检测信噪比。

其中，声音信号强度是指单位检测音频的声音信号强度，设备噪声是指智能设备的设备噪声。在一些实施方式中，智能设备包括麦克风阵列可以获取单位检测音频和设备噪声，智能设备根据获取的单位检测音频和设备噪声计算单位检测音频的检测信噪比。可以理解的是，本申请并不限制于此，其它可以用于计算单位检测音频的方法也可以应用于本申请中。

然后，智能设备将多个检测信噪比中占比超过预设比例阈值的信噪比范围作为干扰信噪比范围。在本申请的实施例中，预设比例阈值是作为多个检测信噪比数据的绝大部分所在片区的确定。预设比例阈值可以根据实际需要进行设置，例如预设比例阈值可以设置为80％，例如多个检测信噪比的数据值范围为45-95，其中有80％的时间落在60-80之间，那么干扰信噪比的比对范围可以定在60-80。

在本申请的实施例中，当获得干扰声源的干扰方向范围和干扰信噪比范围后，智能设备存储该干扰方向范围和干扰信噪比范围。为了更加精确地确定干扰声源的实时情况，检测音频会定时采集更新，从而更新干扰方向范围和干扰信噪比范围。智能设备也会同时更新最新的干扰方向范围和干扰信噪比范围。

步骤S233、确定语音信号的声源方向和信噪比。

当智能设备接收到语音信号时，确定语音信号的声源方向和信噪比。具体计算声音方向和信噪比的方法可以参照上述描述，在此不再赘述。

步骤S234、当声源方向属于干扰方向范围且信噪比属于干扰信噪比范围时，判断语音信号需要抑制处理。

在本申请的实施中，当语音信号的声源方向属于干扰方向范围，并且语音信号的信噪比属于干扰信噪比范围，则语音信号高概率来自干扰声源，判断语音信号需要抑制处理。

在一些实施方式中，若同时存在多个干扰声源，例如第一干扰声源和第二干扰声源，则语音信号的声音方向属于第一干扰声源的第一干扰方向范围并且语音信号的信噪比属于第一干扰信噪比范围或者语音信号的声音方向属于第二干扰声源的第二干扰方向范围并且语音信号的信噪比属于第二干扰信噪比范围时，判定语音信号需要抑制处理。

步骤S235、当第一设备的工作状态不是音频播放状态时，判断语音信号不需要抑制处理。

在本申请的实施例中，干扰声源是第一设备工作状态为音频播放状态时产生的干扰。当智能设备获取到的第一设备的工作状态不是音频播放状态时，则判定语音信号不需要抑制处理。

在一些实施方式中，若语音信号不需要抑制处理，则判断语音信号的初始置信度是否大于或等于预设置信度阈值。若是，则基于语音信号执行对智能设备的唤醒操作。若不是，则不基于语音信号执行对智能设备的唤醒操作。

步骤S240、若是，判断识别到待抑制处理的语音信号。

当智能设备判断语音信号需要抑制处理，则判定识别到待抑制处理的语音信号。

步骤S250、基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度。

步骤S260、当语音信号的抑制置信度大于或等于预设置信度阈值时，基于语音信号执行对智能设备的唤醒操作。

其中，步骤S250至步骤S260的具体描述请参阅步骤S120至步骤S130，在此不再进行赘述。

本申请另一实施例提供的语音唤醒智能控制方法，通过获取第一设备的工作状态确定干扰声源的干扰方向和干扰信噪比范围，从而根据语音信号的声源方向和信噪比精准确定语音信号是否属于干扰声源，进而针对性地降低待抑制处理的语音信号的唤醒概率，从而进一步降低智能设备的误唤醒率。

请参阅图9，本申请又一实施例提供了一种语音唤醒智能控制方法，可应用于智能设备侧，本实施例描述的是智能设备侧的步骤流程，该方法可以包括步骤S310至步骤S350。

步骤S310、识别待抑制处理的语音信号。

步骤S320、基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度。

其中，步骤S310至步骤S320的具体描述请参阅步骤S120至步骤S120，在此不再进行赘述。

步骤S330、根据预设置信度确定规则确定预设抑制值。

在一些实施方式中，根据预设置信度确定规则确定的预设抑制值可以是固定值。

在另一些实施方式中，根据预设置信度确定规则确定的预设抑制值不是固定的。在一些实施方式中，根据不同的语音信号确定的预设抑制值不同。例如有些语音信号可能更靠近干扰声源，有些可能只是在干扰声源的边缘。而更靠近干扰声源的语音信号是干扰信号的概率更大，需要抑制的程度更大，因此，作为一种实施方式，预设抑制值可以是根据语音信号与干扰声源的方位关系确定，越靠近干扰声源的语音信号特定值越大，即抑制程度更大。

可选地，可以通过公式2计算语音信号的预设抑制值。

其中，第一预设参考值大于零，第一预设参考值越大，对待抑制处理信号的抑制程度越大，第一预设参考值可以根据实际需要进行设置，本申请对此不作限制。

其中，最接近干扰声源方向是指语音信号最接近的干扰方向范围的一端，例如对于语音信号1的声源方向为31°，干扰声源的干扰方向范围为“30°～60°”，则语音信号1最接近干扰声源的方向为30°，干扰声源的角度范围为(60°-30°)，即30°。假设第一预设参考值设置为10，则第一语音信号的预设抑制值为0.667。又如对于第二语音信号的声源方向为46°，则第二语音信号最接近干扰声源的方向为60°，故第二语音信号的预设抑制值为9.33。

在一些实施方式中，还可以将干扰方向范围进一步区分为几个不同的子范围，例如干扰方向范围为30°-60°，可以进一步区分为第一干扰方向子范围30°-40°、第二干扰方向子范围41°-50°以及第三干扰方向子范围51-60°。在本实施例中，不同子范围可以设置不同的权重，以使落入不同子范围的语音信号的抑制程度不同。例如第一干扰方向子范围的第一权重为0.5，第二干扰方向子范围的第二权重为1，第三干扰方向子范围的第三权重为0.5。落入不同干扰方向子范围的语音信号的预设抑制值可以通过公式3确定。

预设抑制值＝权重*第二预设参考值公式3

其中，第二预设参考值大于零，第二预设参考值越大，对待抑制处理信号的抑制程度越大，第二预设参考值可以根据实际需要进行设置，本申请对此不作限制。例如，第二预设参考值为10，对于第三语音信号的声源方向为35°，落入第一干扰方向子范围，则第三语音信号的权重为第一权重，第三语音信号的预设抑制值为5。对于第四语音信号的声音方向为45°，则第四语音信号落入第二干扰方向子范围，则第四语音信号的权重为第二权重，第四语音信号的预设抑制值为10。可以理解的是，在其它实施方式中，各子范围的划分和权重的设置可以根据实际需要进行设置，本申请对此不作限制。

在一些实施方式中，可以进一步结合语音信号的信噪比确定语音信号的预设抑制值。在一些方式中，可以将语音信号的信噪比与干扰信噪比范围的中间值进行比较，若差值越小，语音信号的预设抑制值越大。例如，干扰信噪比范围为60-90，干扰信噪比范围的中间值为75。第五语音信号的信噪比为70，与中间值的差值为5。第六语音信号的信噪比为65，与中间值的差值为10。可选地，可以根据差值的不同设置预设抑制值。例如，若语音信号与中间值的差值小于6，则预设抑制值为8，若语音信号与中间值的差值大于6且小于15，则预设抑制值为4。则上述第五语音信号的预设抑制值为8，第六语音信号的预设抑制为4。可以理解的是，本申请并不限制于此，还可以采用其它方式确定差值与预设抑制值的关系。

步骤S340、将语音信号的初始置信度减去预设抑制值的差值作为语音信号的抑制置信度。

在一些实施方式中，当预设抑制值为固定值时，将语音信号的初始置信度减去固定的预设抑制值的差值作为语音信号的抑制置信度。例如待抑制处理的语音信号3的初始置信度为“60”，预设抑制值为固定值“10”，则待抑制处理的语音信号3的抑制置信度为“50”；同理，待抑制处理的语音信号4的初始置信度为“50”，则待抑制处理的语音信号4的抑制置信度为“40”。

在另一些实施方式中，当预设抑制值为不固定值时，将语音信号的初始置信度减去预设抑制值的差值作为语音信号的抑制置信度。例如上述例子中，语音信号1的预设抑制值为0.667，初始置信度为60，则语音信号1的抑制置信度为59.333。又如上述例子中，语音信号2的预设抑制值为9.33，初始置信度为60，则语音信号2的抑制置信度为50.67。

本申请另一实施例提供的语音唤醒智能控制方法，根据预设置信度确定规则确定预设抑制值，将语音信号的初始置信度减去预设抑制值作为语音信号的抑制置信度，从而降低待抑制处理的语音信号的唤醒概率，降低智能设备的误唤醒率。

请参阅图10，其示出了本发明一个实施例提供的语音唤醒智能控制装置，该语音唤醒智能控制装置400包括：抑制处理识别模块410、抑制置信度确定模块420以及唤醒操作执行模块430。

其中，抑制处理识别模块410用于识别待抑制处理的语音信号。其中，语音信号用于唤醒智能设备。

抑制置信度确定模块420用于基于预设抑制规则对语音信号的初始置信度进行抑制处理，确定语音信号的抑制置信度。

唤醒操作执行模块430用于当语音信号的抑制置信度大于预设的置信度阈值时，基于语音信号执行对智能设备的唤醒操作。

在一些实施方式中，该语音唤醒智能控制装置还包括：语音接收模块、初始置信度确定模块、抑制处理判断模块以及语音信号识别模块。

其中，语音接收模块用于接收语音信号。初始置信度确定模块用于确定语音信号的初始置信度。抑制处理判断模块用于判断语音信号是否需要抑制处理。语音信号识别模块用于当语音信号需要抑制处理时，判断识别到待抑制处理的语音信号。

在一些实施方式中，抑制处理判断模块还包括工作状态获取单元、干扰声源获取单元、语音信号确定单元、语音信号抑制处理确定单元以及语音信号不需抑制处理确定单元。

其中，工作状态获取单元用于获取第一设备的工作状态，第一设备为音频播放设备。干扰声源获取单元用于当第一设备的工作状态为音频播放状态时，获取干扰声源的干扰方向范围和干扰信噪比范围。语音信号抑制处理确定单元可以确定语音信号的声源方向和信噪比。语音信号抑制处理确定单元用于当声源方向属于干扰方向范围且信噪比属于干扰信噪比范围时，判断语音信号需要抑制处理。语音信号不需抑制处理确定单元用于当第一设备的工作状态不是音频播放状态时，判断语音信号不需抑制处理。

在一些实施方式中，干扰声源获取单元还包括检测音频获取子单元、干扰方向范围确定子单元、干扰信噪比范围确定子单元。

其中，检测音频获取子单元用于当第一设备的工作状态为音频播放状态时，获取预设时间长度的检测音频。其中，检测音频每隔预设周期采集一次，以用于更新干扰声源的干扰方向范围和干扰信噪比范围。干扰方向范围确定子单元用于根据检测音频确定干扰声源的干扰方向范围。干扰信噪比范围确定子单元用于根据检测音频确定干扰声源的干扰信噪比范围。

在一些实施方式中，语音唤醒智能控制装置还包括预设抑制值确定模块和抑制置信度计算模块。

其中，预设抑制值确定模块用于根据预设置信度确定规则确定预设抑制值。抑制置信度计算模块用于将语音信号的初始置信度减去预设抑制值的差值作为语音信号的抑制置信度。

请参阅图11，基于上述的语音唤醒智能控制方法，本申请实施例还提供的另一种包括可以执行前述语音唤醒智能控制方法的处理器的电子设备500，电子设备500还包括一个或多个处理器510、存储器520以一个或多个应用程序。其中，该存储器520中存储有可以执行前述实施例中内容的程序，而处理器510可以执行该存储器中存储的程序。其中，电子设备500可以是智能控制面板、智能手机、智能穿戴设备、智能语音导航设备、智能机器人、平板电脑、个人计算机等。

其中，处理器510可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器510利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行电子设备的各种功能和处理数据。可选地，处理器可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器中，单独通过一块通信芯片进行实现。

存储器520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如语音接收功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如语音信号，预设置信度阈值)等。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

本申请公开的一种语音唤醒智能控制方法、装置、电子设备及计算机可读存储介质，通过识别待抑制处理的语音信号，并对语音信号的初始置信度进行抑制处理，根据抑制置信度与预设置信度阈值判断是否执行对智能设备的唤醒操作。通过对待抑制处理的语音信号的置信度进行抑制处理，针对性地降低待抑制处理的语音信号的唤醒概率，从而降低智能设备的误唤醒率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音唤醒智能控制方法，其特征在于，所述方法包括：

识别待抑制处理的语音信号，其中，所述语音信号用于唤醒智能设备；

基于预设抑制规则对所述语音信号的初始置信度进行抑制处理，确定所述语音信号的抑制置信度；

当所述语音信号的抑制置信度大于或等于预设置信度阈值时，基于所述语音信号执行对所述智能设备的唤醒操作；

其中，所述识别待抑制处理的语音信号，包括：接收语音信号；确定所述语音信号的初始置信度；判断所述语音信号是否需要抑制处理；若是，判断识别到待抑制处理的语音信号；

所述判断所述语音信号是否需要抑制处理，包括：获取第一设备的工作状态，所述第一设备为音频播放设备；当所述第一设备的工作状态为音频播放状态时，将所述第一设备确定为干扰声源并获取所述干扰声源的干扰方向范围和干扰信噪比范围；确定所述语音信号的声源方向和信噪比；当所述声源方向属于所述干扰方向范围且所述信噪比属于所述干扰信噪比范围时，判断所述语音信号需要抑制处理；当所述第一设备的工作状态不是音频播放状态时，判断所述语音信号不需要抑制处理；

基于预设抑制规则对所述语音信号的初始置信度进行抑制处理，确定所述语音信号的抑制置信度，包括：根据预设置信度确定规则确定预设抑制值；将所述语音信号的初始置信度减去所述预设抑制值的差值作为所述语音信号的抑制置信度。

2.根据权利要求1所述的方法，其特征在于，所述当所述第一设备的工作状态为音频播放状态时，获取干扰声源的干扰方向范围和干扰信噪比范围，包括：

当所述第一设备的工作状态为音频播放状态时，获取预设时间长度的检测音频；其中，所述检测音频每隔预设周期采集一次，以用于更新所述干扰声源的所述干扰方向范围和所述干扰信噪比范围；

根据所述检测音频确定所述干扰声源的所述干扰方向范围；

根据所述检测音频确定所述干扰声源的所述干扰信噪比范围。

3.根据权利要求2所述的方法，其特征在于，所述根据所述检测音频确定所述干扰声源的干扰信噪比范围，包括：

将所述检测音频按时间顺序分割成多个单位时间长度的单位检测音频；

分别确定每个单位检测音频的检测信噪比；

将所述多个检测信噪比中占比超过预设比例阈值的信噪比范围作为干扰信噪比范围。

4.根据权利要求1所述的方法，其特征在于，所述判断所述语音信号是否需要抑制处理之前，所述方法还包括：

若所述语音信号的初始置信度小于预设置信度阈值，则不执行判断所述语音信号是否需要抑制处理的操作，且不基于所述语音信号执行对所述智能设备的唤醒操作。

5.一种语音唤醒智能控制装置，其特征在于，包括：

抑制处理识别模块，用于识别待抑制处理的语音信号，其中，所述语音信号用于唤醒智能设备；

抑制置信度确定模块，用于基于预设抑制规则对所述语音信号的初始置信度进行抑制处理，确定所述语音信号的抑制置信度；

唤醒操作执行模块，用于当所述语音信号的抑制置信度大于预设的置信度阈值时，基于所述语音信号执行对所述智能设备的唤醒操作；

语音接收模块用于接收语音信号；初始置信度确定模块用于确定语音信号的初始置信度；抑制处理判断模块用于判断语音信号是否需要抑制处理；语音信号识别模块用于当语音信号需要抑制处理时，判断识别到待抑制处理的语音信号；

工作状态获取单元用于获取第一设备的工作状态，第一设备为音频播放设备；干扰声源获取单元用于当第一设备的工作状态为音频播放状态时，将所述第一设备确定为干扰声源并获取所述干扰声源的干扰方向范围和干扰信噪比范围；语音信号抑制处理确定单元可以确定语音信号的声源方向和信噪比；语音信号抑制处理确定单元用于当声源方向属于干扰方向范围且信噪比属于干扰信噪比范围时，判断语音信号需要抑制处理；语音信号不需抑制处理确定单元用于当第一设备的工作状态不是音频播放状态时，判断语音信号不需抑制处理；

预设抑制值确定模块用于基于预设抑制规则对所述语音信号的初始置信度进行抑制处理，确定所述语音信号的抑制置信度，包括：根据预设置信度确定规则确定预设抑制值；将所述语音信号的初始置信度减去所述预设抑制值的差值作为所述语音信号的抑制置信度。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-4任一项所述的方法。