CN113362833A

CN113362833A - 一种语音控制智能显示终端的方法、装置及电子设备

Info

Publication number: CN113362833A
Application number: CN202110571206.XA
Authority: CN
Inventors: 邓嘉俊; 罗益峰; 詹明学
Original assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Current assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-07

Abstract

本发明公开了一种语音控制智能显示终端的方法、装置及电子设备，所述方法包括：获取用户的语音数据，识别用户的语音数据包含的控制操作指令；监听智能显示终端的程序的启动状态，根据智能显示终端程序的启动状态设置标识智能显示终端的程序，将所述控制操作指令下发给标识的智能显示终端的程序。本发明通过将所述控制操作指令下发给标识的智能显示终端的程序，实现在智能显示终端使用装有多个应用程序时，通过语音来控制操作智能终端设备，极大了方便了用户的体验。

Description

一种语音控制智能显示终端的方法、装置及电子设备

技术领域

本发明涉及语音控制技术领域，具体涉及一种语音控制智能显示终端的方法、装置及电子设备。

背景技术

随着语音识别技术的发展，简单语音识别技术慢慢变得成熟，并且不断应用于消费电子领域。然而，用户在使用装有多种应用程序的智能终端设备时，想要操控各个应用程序时，往往需要进入到对应APP中进行操作，只能由用户手动操作来控制智能终端设备，极大地降低了用户体验。

发明内容

鉴于以上技术问题，本发明的目的在于提供一种语音控制智能显示终端的方法、装置及电子设备，解决了传统的智能终端设备在使用装有多个应用程序时只能由用户手动操作来控制智能终端设备的问题。

本发明采用以下技术方案：

一种语音控制智能显示终端的方法，包括：

获取用户的语音数据，识别用户的语音数据包含的控制操作指令；

监听智能显示终端的程序的启动状态，根据智能显示终端程序的启动状态设置标识智能显示终端的程序，将所述控制操作指令下发给标识的智能显示终端的程序。

进一步的，所述获取用户的语音数据包括：

响应于用户发出的语音信号，获取用户的位置作为目标音源位置；

根据目标音源所在位置确定拾音方向和拾音接收角；

根据所述拾音方向和拾音接收角采集目标音源发出的语音信号，形成语音数据。

进一步的，所述根据所述拾音方向和拾音接收角采集目标音源发出的语音信号，形成语音数据包括：

通过至少一拾音传感器，根据拾音方向和拾音接收角限定采集目标音源发出的语音信号，进行数字化处理形成语音数据。

进一步的，还包括：

在无法识别语音数据的控制操作指令时，将所述语音数据发送给云服务器，以云服务对所述语音数据进行语义识别处理，形成控制操作指令，根据所述控制操作指令对智能显示终端进行控制操作。

进一步的，所述识别用户的语音数据包含的控制操作指令包括：

提取用户的语音数据中的有效语音信号，对有效语音信号进行语音增强，从增强的语音信号中识别出控制操作指令。

进一步的，还包括：

在智能显示终端上配置屏蔽性定义接口；

通过屏蔽性定义接口进行某程序或某程序内的指定界面的屏蔽性定义操作；所述屏蔽性定义操作包括：在某程序内屏蔽所有非本程序的控制操作指令；和/或，在某程序内的指定界面，屏蔽所有非本界面的控制操作指令。

进一步的，所述获取用户的语音数据，识别用户的语音数据包含的控制操作指令包括：

采集声音信号，从采集的声音信号中去除智能显示终端包括的音频以获得差值声音信号，其中，采集的声音信号在智能显示终端播放音频内容的同时被采集；

通过将差值声音信号与至少一个预设语音信号进行匹配，确定差值声音信号是否是目标用户声音信号；

当存在与预设语音信号匹配的目标用户声音信号时，识别用户的语音数据包含的控制操作指令。

一种语音控制智能显示终端的装置，包括：

语音指令识别模块，用于获取用户的语音数据，识别用户的语音数据包含的控制操作指令；

指令下发模块，用于监听智能显示终端的程序的启动状态，根据智能显示终端程序的启动状态设置标识智能显示终端的程序，将所述控制操作指令下发给标识的智能显示终端的程序。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的语音控制智能显示终端的方法。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现所述的语音控制智能显示终端的方法。

相比现有技术，本发明的有益效果在于：

本发明通过获取用户的语音数据，识别用户的语音数据包含的控制操作指令；监听智能显示终端的程序的启动状态，根据智能显示终端程序的启动状态设置标识智能显示终端的程序，将所述控制操作指令下发给标识的智能显示终端的程序。通过将所述控制操作指令下发给标识的智能显示终端的程序，实现在智能显示终端使用装有多个应用程序时，通过语音来控制操作智能终端设备，极大了方便了用户的体验。

进一步的，通过从采集的声音信号中去除智能显示终端包括的音频以获得差值声音信号，将差值声音信号与至少一个预设语音信号进行匹配，只有在确定差值声音信号是目标用户声音信号时，才识别用户的语音数据包含的控制操作指令，对智能显示终端进行控制操作，可以避免除目标用户外的用户使用语音控制智能显示终端，对智能显示终端起到了隐私保护。

附图说明

图1为本发明一实施例提供的一种语音控制智能显示终端的方法流程示意图；

图2为本发明另一实施例提供的一种语音控制智能显示终端的装置的结构示意图；

图3为本发明另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例一：

请参照图1所示，示出了本发明实施例的一种语音控制智能显示终端的方法，包括：

步骤S1:获取用户的语音数据，识别用户的语音数据包含的控制操作指令；

步骤S2:监听智能显示终端的程序的启动状态，根据智能显示终端程序的启动状态设置标识智能显示终端的程序，将所述控制操作指令下发给标识的智能显示终端的程序。

可选的，所述获取用户的语音数据包括：

根据目标音源所在位置确定拾音方向和拾音接收角；

具体的，所述根据所述拾音方向和拾音接收角采集目标音源发出的语音信号，形成语音数据包括：

可选的，本发明的方法还包括：

步骤S3:在无法识别语音数据的控制操作指令时，将所述语音数据发送给云服务器，以云服务对所述语音数据进行语义识别处理，形成控制操作指令，根据所述控制操作指令对智能显示终端进行控制操作。

在上述实现过程中，在无法识别语音数据的控制操作指令时，将所述语音数据发送给云服务器，以云服务对所述语音数据进行语义识别处理，可以满足某些app无法识别语音数据的控制操作指令时，无法执行用户的语音数据时，由app的服务商等进行语义识别出来，形成控制操作指令，根据所述控制操作指令对智能显示终端进行控制操作。

可选的，所述识别用户的语音数据包含的控制操作指令包括：

步骤S10:提取用户的语音数据中的有效语音信号，对有效语音信号进行语音增强，从增强的语音信号中识别出控制操作指令。

具体的，所述提取用户的语音数据中的有效语音信号，对有效语音信号进行语音增强，从增强的语音信号中识别出控制操作指令包括：

步骤S11:对获取得到的语音数据进行分帧；

步骤S12:对每一帧语音信号进行加汉明窗处理；

步骤S13:计算每一帧语音信号的短时能量；

步骤S14:计算每一帧语音信号的过零率；

判断当前帧语音信号往前连续三帧语音信号的短时能量和过零率是否分别大于预设的短时能量判决门限上限值和预设的过零率判决门限上限值，若都分别大于预设的短时能量判决门限上限值和预设的过零率判决门限上限值，则判定当前帧语音信号为开始帧；判断当前帧语音信号往前连续三帧语音信号的短时能量和过零率是否分别小于预设的短时能量判决门限下限值和预设的过零率判决门限下限值，若都分别小于预设的短时能量判决门限上限值和预设的过零率判决门限上限值，则判定当前帧语音信号为结束帧；

步骤S15:根据开始帧和结束帧提取有效语音信号，对有效语音信号进行语音增强。

可选的，本发明的方法还包括：

步骤S4:在智能显示终端上配置屏蔽性定义接口；

在上述实现过程中，通过在智能显示终端上配置屏蔽性定义接口，通过屏蔽性定义接口进行某程序或某程序内的指定界面的屏蔽性定义操作，可以屏蔽掉某程序或某程序内的语音控制操作指令，方便用户在使用智能显示终端上的某程序时，屏蔽掉语音控制操作指令，避免被打扰。在默认情况下，屏蔽性定义可为否。

可选的，所述获取用户的语音数据，识别用户的语音数据包含的控制操作指令包括：

步骤S100:采集声音信号，从采集的声音信号中去除智能显示终端包括的音频以获得差值声音信号，其中，采集的声音信号在智能显示终端播放音频内容的同时被采集；

步骤S101:通过将差值声音信号与至少一个预设语音信号进行匹配，确定差值声音信号是否是目标用户声音信号；

步骤S102:当存在与预设语音信号匹配的目标用户声音信号时，识别用户的语音数据包含的控制操作指令。

其中，预设语音信号可以是通过用于预先在智能显示终端上预先录入的，用于与采集的语音信号进行比较匹配。

在上述实现过程中，通过将差值声音信号与至少一个预设语音信号进行匹配，只有在确定差值声音信号是目标用户声音信号时，才识别用户的语音数据包含的控制操作指令，对智能显示终端进行控制操作，可以避免除目标用户外的用户使用语音控制智能显示终端，对智能显示终端起到了隐私保护。

实施例二：

请参照图2所示，示出了本发明的一种语音控制智能显示终端的装置，包括：语音指令识别模块1和指令下发模块2；

具体的，语音指令识别模块1，用于获取用户的语音数据，识别用户的语音数据包含的控制操作指令；

可选的，所述语音指令识别模块1，还用于采集声音信号，从采集的声音信号中去除智能显示终端包括的音频以获得差值声音信号，其中，采集的声音信号在智能显示终端播放音频内容的同时被采集；通过将差值声音信号与至少一个预设语音信号进行匹配，确定差值声音信号是否是目标用户声音信号；当存在与预设语音信号匹配的目标用户声音信号时，识别用户的语音数据包含的控制操作指令。

可选的，所述语音指令识别模块1，还用于提取用户的语音数据中的有效语音信号，对有效语音信号进行语音增强，从增强的语音信号中识别出控制操作指令。

具体的，所述提取用户的语音数据中的有效语音信号，对有效语音信号进行语音增强，从增强的语音信号中识别出控制操作指令包括：步骤S11:对获取得到的语音数据进行分帧；

步骤S12:对每一帧语音信号进行加汉明窗处理；

步骤S13:计算每一帧语音信号的短时能量；

步骤S14:计算每一帧语音信号的过零率；

指令下发模块2，用于监听智能显示终端的程序的启动状态，根据智能显示终端程序的启动状态设置标识智能显示终端的程序，将所述控制操作指令下发给标识的智能显示终端的程序。

可选的，所述指令下发模块2，还用于配置屏蔽性定义接口；通过屏蔽性定义接口进行某程序或某程序内的指定界面的屏蔽性定义操作；所述屏蔽性定义操作包括：在某程序内屏蔽所有非本程序的控制操作指令；和/或，在某程序内的指定界面，屏蔽所有非本界面的控制操作指令。

实施例三：

图3为本申请实施例提供的一种电子设备的结构示意图，在本申请中可以通过图3所示的示意图来描述用于实现本申请实施例的本发明的一种语音控制智能显示终端的方法的电子设备100。

具体的，电子设备100包括一个或多个处理器102、一个或多个存储装置104，这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图3示出的部分组件，也可以具有图3未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

本发明还提供一种计算机存储介质，其上存储有计算机程序，本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在该计算机存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机存储介质不包括电载波信号和电信信号。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种语音控制智能显示终端的方法，其特征在于，包括：

2.根据权利要求1所述的语音控制智能显示终端的方法，其特征在于，所述获取用户的语音数据包括：

根据目标音源所在位置确定拾音方向和拾音接收角；

3.根据权利要求2所述的语音控制智能显示终端的方法，其特征在于，所述根据所述拾音方向和拾音接收角采集目标音源发出的语音信号，形成语音数据包括：

4.根据权利要求1所述的语音控制智能显示终端的方法，其特征在于，还包括：

5.根据权利要求1所述的语音控制智能显示终端的方法，其特征在于，所述识别用户的语音数据包含的控制操作指令包括：

6.根据权利要求1所述的语音控制智能显示终端的方法，其特征在于，还包括：

在智能显示终端上配置屏蔽性定义接口；

7.根据权利要求1所述的语音控制智能显示终端的方法，其特征在于，所述获取用户的语音数据，识别用户的语音数据包含的控制操作指令包括：

8.一种语音控制智能显示终端的装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的语音控制智能显示终端的方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如权利要求1至7任一项所述的语音控制智能显示终端的方法。