CN112466305A

CN112466305A - 饮水机的语音控制方法及装置

Info

Publication number: CN112466305A
Application number: CN202011486701.2A
Authority: CN
Inventors: 陈进
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-09
Anticipated expiration: 2040-12-16
Also published as: CN112466305B

Abstract

本发明公开一种饮水机的语音操控方法及装置。在该方法中，基于饮水机中的音频采集模块，全向采集初始音频数据；基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据；基于所述目标音频数据，对所述饮水机执行相应的操控操作。由此，可以提升语音数据识别的成功率，使得即使用户不正对着饮水机说话，也依然能够成功触发饮水机的语音操控功能。

Description

饮水机的语音控制方法及装置

技术领域

本发明属于可穿戴设备技术领域，尤其涉及一种饮水机的语音控制方法及装置。

背景技术

随着科技的发展，人们对家居生活的品质的追求在不断提升，并且语音识别在现代设备中的应用也越来越普遍，人们在生活中也会经常使用到带有语音识别功能的科技产品。饮水机是众多家庭中常见的家电设备，故集成语音识别功能的饮水机将会是下一代受欢迎的智能家居产品。

但是，集成语音识别功能的饮水机对于用户的说话角度和说话声音的要求较高，会导致饮水机无法良好地执行语音识别功能，例如饮水机不容易唤醒且识别正确率不高。

针对上述问题，目前业界暂时并未提供较佳的解决方案。

发明内容

本发明实施例提供一种饮水机的语音操控方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种饮水机的语音操控方法，包括：基于饮水机中的音频采集模块，全向采集初始音频数据；基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据；基于所述目标音频数据，对所述饮水机执行相应的操控操作。

第二方面，本发明实施例提供一种饮水机的语音操控装置，包括：音频获取单元，被配置为基于饮水机中的音频采集模块，全向采集初始音频数据；音频优化单元，被配置为基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据；语音操控单元，被配置为基于所述目标音频数据，对所述饮水机执行相应的操控操作。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：

饮水机可以全向采集初始音频数据，并可以从初始音频数据中确定用户方位，通过用户方位来对初始音频数据进行优化而得到目标音频数据，并利用目标音频数据对饮水机进行操控。由此，饮水机可以依据说话人的方位来对音频数据进行有针对性的优化处理，提升了语音数据识别的成功率，使得即使用户不正对着饮水机说话，也依然能够成功触发饮水机的语音操控功能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的饮水机的语音操控方法的一示例的流程图；

图2示出了根据本发明实施例的基于目标音频数据对饮水机进行操控的一示例的流程图；

图3示出了根据本发明实施例的基于用户方位对初始音频数据进行优化处理的一示例的流程图；

图4示出了根据本发明实施例的根据第一音频数据确定目标音频数据的一示例的流程图；

图5示出了根据第一音频数据确定目标音频数据的一示例的流程图；

图6示出了根据本发明实施例的饮水机的语音操控系统的一示例的架构示意图；

图7示出了根据本发明实施例的饮水机的语音操控装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了根据本发明实施例的饮水机的语音操控方法的一示例的流程图。关于本发明实施例方法的执行主体，其可以是饮水机或饮水机中的控制模块，例如控制芯片或处理器等。

如图1所示，在步骤110中，基于饮水机中的音频采集模块，全向采集初始音频数据。这里，音频采集模块既可以采用单通道麦克风，也可以采用麦克风阵列，例如多通道麦克风。

在步骤120中，基于初始音频数据中说话人相对于饮水机的用户方位对初始音频数据进行优化处理，以得到相应的目标音频数据。

在本发明实施例的一个示例中，可以通过各种声源定位方式，从初始音频数据中提取出说话人相对于饮水机的用户方位，例如说话人概率识别技术等，并利用用户方位对对音频数据进行优化处理。在本发明实施例的另一示例中，可以对初始音频数据对应不同设定方位的音频信息分量分别进行定向增强优化，并找到对应存在说话人的概率最高的音频分量，即对应用户方位的音频分量，从而得到相应的目标音频数据，以上都属于本发明实施例的实施范围内。

在步骤130中，基于目标音频数据，对饮水机执行相应的操控操作。示例性地，对目标音频数据进行识别操作，从而对饮水机执行相应的操控操作。

通过本发明实施例，饮水机可以在对应说话人的用户方位上对所采集的初始音频数据进行优化处理，提高了目标音频数据的识别成功率，有助于提高用户在生活场景中对饮水机的语音操控的几率。

图2示出了根据本发明实施例的基于目标音频数据对饮水机进行操控的一示例的流程图。

如图2所示，在步骤210中，识别目标音频数据所对应的内容信息中是否存在唤醒关键词。

如果在步骤210中的识别结果指示内容信息中存在唤醒关键词，则跳转至步骤220。如果在步骤210中的识别结果指示内容信息中不存在唤醒关键词，则结束操作。

在步骤220中，当所识别的内容信息中存在唤醒关键词时，基于目标音频数据对饮水机执行相应的操控操作。在本发明实施例的一个示例中，可以利用所识别的内容信息来确定相应的操控指令，从而对饮水机执行相应的操控操作。

在本发明实施例的另一示例中，可以唤醒饮水机的语音交互操控功能，并接收用户后续输入的语音消息，以实现饮水机的语音操控功能。具体地，基于目标语音数据，触发饮水机在设定时间段内采集操控语音数据。然后，基于操控语音数据所对应的操控指令，对饮水机执行相应的操控操作。由此，通过提升饮水机的唤醒概率，从而提高语音操控饮水机的成功率。

图3示出了根据本发明实施例的基于用户方位对初始音频数据进行优化处理的一示例的流程图。

如图3所示，在步骤310中，对初始音频数据中对应用户方位的音频分量进行增强处理，并对初始音频数据中对应在用户方位之外的音频分量进行抑制处理，以得到相应的第一音频数据。

在步骤320中，根据第一音频数据，确定相应的目标音频数据。示例性地，将第一音频数据直接作为相应的目标音频数据，或者将第一音频数据再次进行优化而得到目标音频数据。

在本发明实施例中，对初始音频数据中在用户方位之外的音频分量进行抑制，有效消除了环境中的噪音分量，并且通过增强音频数据中的对应用户方位的音频分量，可以提升目标音频数据的识别成功率。

关于上述步骤310的实施细节，在一些实施方式中，可以在多个预设的方位角范围中，确定与用户方位匹配的目标方位角范围。示例性地，可以将全向范围划分为多个角度区间，并将不同的角度区间分别作为相应的方位角范围。

进而，可以针对初始音频数据在目标方位角范围中的音频分量进行增强处理，以及针对初始音频数据在目标方位角范围之外的音频分量进行抑制处理，以得到相应的第一音频数据。

在本发明实施例中，在方位角范围中进行宽泛式增强处理或抑制处理，降低在用户方位预测结果存在偏差时因优化处理而导致说话人音频分量被抑制掉的风险，保障目标音频数据的有效性。

图4示出了根据本发明实施例的根据第一音频数据确定目标音频数据的一示例的流程图。

这里，音频采集模块可以是多通道音频采集模块，例如音频采集模块可以是麦克风阵列，麦克风阵列中的每个麦克风分别用来采集相应的音频信息，通过混合而成初始音频数据。在一些实施方式中，多通道音频采集模块(或，麦克风阵列)中不同通道的音频采集模块(或，麦克风)还可以被分别安装在饮水机中的不同位置。

如图4所示，在步骤410中，获取第一音频数据中对应各个通道的音频信息的能量值。示例性地，可以对音频数据中不同通道的音频信息进行能量解析，从而确定各个通道的音频信息的能量值。

在步骤420中，根据所获取的各个通道的能量值，从对应各个通道的音频信息中确定目标音频信息。示例性地，可以从不同通道的音频信息中筛选对应能量值最大的音频信息作为目标音频信息。

在步骤430中，根据目标音频信息，确定相应的目标音频数据。示例性地，可以直接将该通道的目标音频信息作为目标音频数据。

在本发明实施例中，饮水机通过多通道音频采集模块可以同时采集说话人的多个音频信息，对不同的音频信息进行能量分析，可以在多通道中选择对应最佳通道的音频采集模块的目标音频信息，保障目标音频数据的声能量能够满足需求。

图5示出了根据第一音频数据确定目标音频数据的一示例的流程图。

在一些说话场景下，用户可能是需要通过连续说话来表达相应的声控意图，相应地，音频采集模块可以通过采集对应多个时间点(例如，连续的多个时间点)的音频数据来确定初始音频数据。

如图5所示，在步骤510中，获取第一音频数据中对应各个通道的音频信息的能量值。

在步骤520中，针对各个时间点，根据所获取的各个通道的能量值，从对应各个通道的音频信息中确定对应时间点的目标音频信息。应理解是，在不同时间点，各个通道的能量值的大小可能会发生变化，例如在说话人移动场景下，第一音频信息在第一时间点的能量最大，而第二音频信息在第二时间点的能量最大。

在步骤530中，聚合对应各个时间点的目标音频信息，以得到相应的目标音频数据。

通过本发明实施例，可以聚合对应不同时间点的能量最优的音频信息(其可以是由不同通道所采集的音频信息)，使得目标音频数据具有较高的性能，并能够在复杂的饮水机使用环境适用，例如说话人移动场景。

图6示出了根据本发明实施例的饮水机的语音操控系统的一示例的架构示意图。

如图6所示，饮水机的语音操控系统包括音频采集模块610、前端信号处理模块620和语音处理模块630。

具体地，音频采集模块610可以是麦克风阵列，例如MIC1…MICn，不同的麦克风分别用来采集相应的原始语音信号。

前端信号处理模块620中可以集成波束成形算法和波束选择算法。

示例性地，在前端信号处理模块620利用波束成形算法处理原始语音信号时，可以将平面180°分割成N个角度区间，以N＝3为例，则有3个角度区间[0,60]、(60,120]、(120、180]，针对上述每个角度区间，可以利用相应的一组最佳参数作为算法模型数据，该模型数据对来自角度方向θ的声波可以进行以下处理步骤：若θ∈[0,60]，则将来自(60,180]方向的声波进行最大化抑制；若θ∈(60,120]，则将来自[0,60]、(120、180]方向的声波进行最大化抑制；若θ∈(120、180]，则将来自[0,120]方向的声波进行最大化抑制。由此，可以使用3组模型参数分别施加于相应的麦克风采集到音频数据，得到3路波束信号，分别最大程度的保留[0,60]、(60,120]、(120、180]角度范围内的声波，并最大程度的抑制其他方向角度范围的声波。

另外，在前端信号处理模块620使用波束选择算法时，可以在多通道信号中选择最优的一路信号进行输出。需说明的是，前端信号处理模块620在不同时刻可能会选择不同路的波束信号，故而从一段时间来看，前端信号处理模块620输出到下一模块的语音信号，例如可能由三个不同通道的波束混合而成。具体地，前端信号处理模块620可以选择对应能量最大的波束，或者选择语音存在概率最大的波束。

在一些实施方式中，音频采集模块610中不同通道的麦克风可以分别具有相应的说话人方位角范围，例如MIC1对应[0,60]、MIC2对应(60,120]等。在前端信号处理模块620利用波束成形算法，可以增强各个麦克风采集的声波信息，以分别增强不同方位角范围的声波信息。进而，利用波束选择算法，可以通过能量识别等方式来识别各个通道中的声波数据中存在说话人的概率，并将对应说话人概率最大的声波数据选择为目标音频数据，以供语音处理模块630进行后续的语音操控操作。

语音处理模块630可以用来进行相应的语音识别操作。示例性地，语音处理器可以将经波束选择的语音信号输入到唤醒算法，识别是否存在唤醒关键词，如果成功唤醒，则继续使用识别算法处理后续的语音信号，并输出相应的命令词，以用于控制饮水机执行具体的设备行为，例如加热、消毒等操作行为。

如图7所示，饮水机的语音操控装置700包括音频获取单元710、音频优化单元720和语音操控单元730。

音频获取单元710被配置为基于饮水机中的音频采集模块，全向采集初始音频数据。

音频优化单元720被配置为基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据。

语音操控单元730被配置为基于所述目标音频数据，对所述饮水机执行相应的操控操作。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的饮水机的语音操控方法的步骤。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例的客户端或移动终端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种饮水机的语音操控方法，包括：

基于饮水机中的音频采集模块，全向采集初始音频数据；

基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据；

基于所述目标音频数据，对所述饮水机执行相应的操控操作。

2.根据权利要求1所述的方法，其中，所述基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据，包括：

对所述初始音频数据中对应所述用户方位的音频分量进行增强处理，并对所述初始音频数据中对应在所述用户方位之外的音频分量进行抑制处理，以得到相应的第一音频数据；

根据所述第一音频数据，确定相应的目标音频数据。

3.根据权利要求2所述的方法，其中，所述对所述初始音频数据中对应所述用户方位的音频分量进行增强处理，并对所述初始音频数据中对应在所述用户方位之外的音频分量进行抑制处理，以得到相应的第一音频数据，包括：

在多个预设的方位角范围中，确定与所述用户方位匹配的目标方位角范围；

针对所述初始音频数据在所述目标方位角范围中的音频分量进行增强处理，以及针对所述初始音频数据在所述目标方位角范围之外的音频分量进行抑制处理，以得到相应的第一音频数据。

4.根据权利要求2所述的方法，其中，所述音频采集模块为多通道音频采集模块，以及所述初始音频数据包括对应多个通道的音频信息；

其中，所述根据所述第一音频数据，确定相应的目标音频数据，包括：

获取所述第一音频数据中对应各个通道的音频信息的能量值；

根据所获取的各个通道的能量值，从对应所述各个通道的音频信息中确定目标音频信息；

根据所述目标音频信息，确定相应的目标音频数据。

5.根据权要求4所述的方法，其中，所述初始音频数据为对应多个时间点的音频数据，

其中，所述根据所获取的各个通道的能量值，从对应所述各个通道的音频信息中确定目标音频信息，包括：

针对各个所述时间点，根据所获取的各个通道的能量值，从对应所述各个通道的音频信息中确定对应所述时间点的目标音频信息；

相应地，所述根据所述目标音频信息，确定相应的目标音频数据，包括：

聚合对应所述各个时间点的目标音频信息，以得到相应的目标音频数据。

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频数据，对所述饮水机执行相应的操控操作，包括：

识别所述目标音频数据所对应的内容信息中是否存在唤醒关键词；

当所述内容信息中存在唤醒关键词时，基于所述目标音频数据对所述饮水机执行相应的操控操作。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标音频数据对所述饮水机执行相应的操控操作，包括：

基于所述目标语音数据，触发所述饮水机在设定时间段内采集操控语音数据；

基于所述操控语音数据所对应的操控指令，对所述饮水机执行相应的操控操作。

8.一种饮水机的语音操控装置，包括：

音频获取单元，被配置为基于饮水机中的音频采集模块，全向采集初始音频数据；

音频优化单元，被配置为基于所述初始音频数据中说话人相对于所述饮水机的用户方位对所述初始音频数据进行优化处理，以得到相应的目标音频数据；

语音操控单元，被配置为基于所述目标音频数据，对所述饮水机执行相应的操控操作。

9.一种饮水机，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。