CN108632653B

CN108632653B - 语音管控方法、智能电视及计算机可读存储介质

Info

Publication number: CN108632653B
Application number: CN201810535753.0A
Authority: CN
Inventors: 俄万有
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2022-04-19
Anticipated expiration: 2038-05-30
Also published as: CN108632653A

Abstract

本申请提供了一种语音管控方法、智能电视及计算机可读存储介质。该语音管控方法包括：接收与智能电视相关的语音控制自定义请求；响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面，其中，所述语音自定义界面包含：所述智能电视当前支持的操控命令；当所述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集本次输入的语音信号并生成与本次采集到的语音信号相关的语音信息；将本次生成的语音信息与所述被选择的操控命令关联存储，以完成对控制类语音的自定义，其中，所述控制类语音被用以触发所述智能电视执行相应的操控命令。本申请技术方案可满足用户个性化的操控需求。

Description

语音管控方法、智能电视及计算机可读存储介质

技术领域

本申请属于智能电视技术领域，具体涉及一种语音管控方法、智能电视及计算机可读存储介质。

背景技术

智能电视，是具有全开放式平台、搭载了操作系统、且用户在欣赏普通电视内容的同时，可自行安装和卸载各类应用软件，持续对功能进行扩充和升级的电视产品的总称。

目前，语音控制已在智能电视操控上得到了广泛应用，通过语音控制可以降低用户对智能电视的操作难度。现有的语音操作控制操作流程如下：用户通过操作遥控器的语音输入按钮激活智能电视的语音识别功能，之后通过智能电视连接的麦克风输入语音，智能电视将用户输入的语音在智能电视预设的命令集进行操控命令的匹配，并基于匹配到的操控命令执行相应的操作，以实现对用户所需功能的支持。

然而，由于现有的语音操作控制流程中，语音交互的命令集是由智能电视机的生产厂商提前设定好，因此，用户必须按照智能电视出厂时所设定的命令集输入标准的语音才能实现对智能电视机的语音控制，这将难以满足用户个性化的操控需求。

发明内容

有鉴于此，本申请提供了一种语音管控方法、智能电视及计算机可读存储介质，可满足用户个性化的操控需求。

本申请实施例的第一方面提供了一种语音管控方法，包括：

接收与智能电视相关的语音控制自定义请求；

响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面，其中，所述语音自定义界面包含：所述智能电视当前支持的操控命令；

当所述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集本次输入的语音信号并生成与本次采集到的语音信号相关的语音信息；

将本次生成的语音信息与所述被选择的操控命令关联存储，以完成对控制类语音的自定义，其中，所述控制类语音被用以触发所述智能电视执行相应的操控命令。

基于本申请第一方面，在第一种可能的实现方式中，所述响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面包括：

响应于所述语音控制自定义请求，向服务器发送自定义请求消息，其中，所述自定义请求消息中携带所述智能电视的设备信息，所述设备信息包含：所述智能电视的设备标识和系统版本号；

接收所述服务器基于所述设备信息推送的操控命令列表，其中，所述操控命令列表包含所述智能电视当前支持的操控命令；

基于接收到的所述操控命令列表，在所述智能电视的界面显示语音自定义界面。

基于本申请第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述将本次生成的语音信息与所述被选择的操控命令关联存储具体为：

将本次生成的语音信息与所述被选择的操控命令关联存储在与所述设备信息相关的语音控制模板库中。

基于本申请第一方面，或者本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述采集用户本次输入的语音信号并生成与本次采集到的语音信号相关的语音信息包括：

采集用户本次输入的语音信号；

将本次采集到的语音信号输入深度神经网络模型，以得到与本次输入的语音信息相关的语音信息，其中，所述深度神经网络模型基于语音样本训练得到。

基于本申请第一方面，或者本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，在第四种可能的实现方式中，所述语音管控方法还包括：

接收与所述智能电视相关的语音唤醒自定义请求；

响应于所述语音唤醒自定义请求，采集用户本次输入的语音信号；

基于本次采集到的语音信号构建唤醒模型，以便基于所述唤醒模型监听唤醒语音的输入，并在监听到所述唤醒语音的输入时唤醒所述智能电视的语音交互功能。

基于本申请第一方面，或者本申请第一方面的第一种可能的实现方式，或者本申请第一方面的第二种可能的实现方式，在第五种可能的实现方式中，所述将本次生成的语音信息与所述被选择的操控命令关联存储为：

将本次生成的语音信息与所述被选择的操控命令、所述智能电视当前登录的账户关联存储。

本申请第二方面提供一种智能电视，包括：

接收单元，用于接收与智能电视相关的语音控制自定义请求；

显示单元，用于响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面，其中，所述语音自定义界面包含：所述智能电视当前支持的操控命令；

采集单元，用于当所述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集本次输入的语音信号；

生成单元，用于生成与所示采集单元本次输入的语音信号相关的语音信息；

存储单元，用于将本次生成的语音信息与所述被选择的操控命令关联存储在语音控制模板库中，以完成对控制类语音的自定义，其中，所述控制类语音被用以触发所述智能电视执行相应的操控命令。

基于本申请第二方面，在第一种可能的实现方式中，所述显示单元包括：

子发送单元，用于响应于所述语音控制自定义请求，向服务器发送自定义请求消息，其中，所述自定义请求消息中携带所述智能电视的设备信息，所述设备信息包含：所述智能电视的设备标识和系统版本号；

子接收单元，用于接收所述服务器基于所述设备信息推送的操控命令列表，其中，所述操控命令列表包含所述智能电视当前支持的操控命令；

子显示单元，用于基于所述子接收单元接收到的所述操控命令列表，在所述智能电视的界面显示语音自定义界面。

基于本申请第二方面的第一种可能的实现方式，在第二种可能的实现方式中，

所述存储单元具体用于：将本次生成的语音信息与所述被选择的操控命令关联存储在与所述设备信息相关的语音控制模板库中。

基于本申请第二方面，或者本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述生成单元具体用于：将所述采集单元本次采集到的语音信号输入深度神经网络模型，以得到与本次输入的语音信息相关的语音信息，其中，所述深度神经网络模型基于语音样本训练得到。

基于本申请第二方面，或者本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，在第四种可能的实现方式中，

所述接收单元还用于接收与所述智能电视相关的语音唤醒自定义请求；

所述采集单元还用于响应于所述语音唤醒自定义请求，采集用户本次输入的语音信号；

所述智能电视还包括：

模型构建单元，用于基于本次采集到的语音信号构建唤醒模型，以便基于所述唤醒模型监听唤醒语音的输入，并在监听到所述唤醒语音的输入时唤醒所述智能电视的语音交互功能。

基于本申请第二方面，或者本申请第二方面的第一种可能的实现方式，或者本申请第二方面的第二种可能的实现方式，在第五种可能的实现方式中，所述存储单元具体用于：将本次生成的语音信息与所述被选择的操控命令、所述智能电视当前登录的账户关联存储。

本申请第三方面提供一种智能电视，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序。该处理器执行上述计算机程序时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的语音管控方法。

本申请第四方面提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序。上述计算机程序被处理器执行时实现上述第一方面或者上述第一方面的任一可能实现方式中提及的语音管控方法。

由上可见，本申请方案在接收到语音控制自定义请求时，显示语音自定义界面，一方面，使得用户可以通过该语音自定义界面进行控制类语音的自定义，从而实现通过自定义的控制类语音触发智能电视执行相应的操控命令，满足用户个性化的操控需求；另一方面，通过在语音自定义界面中提供智能电视当前支持的操控命令，使得用户可以自主选择智能电视所支持的操控命令进行控制类语音的自定义，提高了用户的自主选择权。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的语音管控方法一个实施例流程示意图；

图2为本申请提供的一种系统架构示意图；

图3为本申请提供的基于图2所示系统架构的语音管控方法交互示意图；

图4为本申请提供的语音管控方法另一个实施例流程示意图；

图5为本申请提供的智能电视一个实施例结构示意图；

图6为本发明提供的智能电视另一个实施例结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应理解，下述方法实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对各实施例的实施过程构成任何限定。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

实施例一

本申请实施例提供一种语音管控方法，该语音管控方法应用于智能电视中。

请参阅图1，本申请实施例中的语音管控方法包括：

步骤101、接收与智能电视相关的语音控制自定义请求；

本申请实施例中，可以在智能电视的设置界面或其它界面提供用以输入上述语音控制自定义请求的控件(例如名为“语音自定义”的虚拟按键)，用户可以通过操控智能电视进入该智能电视的设置界面(或其它界面)，之后通过该设置界面(或其它界面)中的预设控件输入上述语音控制自定义请求。当然，用户也可以通过输入与该语音控制自定义请求相关的语音指令，以输入上述语音控制自定义请求，或者，用户也可以通过其它方式输入上述语音控制自定义请求，此处不做限定。

用户通过向智能电视发送上述语音控制自定义请求，可以触发后续图1所示的语音管控流程。

步骤102、响应于上述语音控制自定义请求，在上述智能电视的界面显示语音自定义界面；

其中，上述语音自定义界面包含：上述智能电视当前支持的操控命令。上述操控命令是指用于触发智能电视执行相应动作的指令。例如，“增大音量”、“减小音量”、“影视搜索”、“音乐播放”等都属于操控命令，相应的，这些操控命令可以触发该智能电视增大音量、减少音量、进入影视的搜索界面、启动并运行音乐播放界面等动作。

由于型号和/或系统版本不同的智能电视所支持的操控命令有所不同，因此，本申请实施例中，可基于上述智能电视的设备标识和系统版本获取该智能电视所支持的所有操控命令，并在该智能电视的界面显示包含获取的操控命令的语音自定义界面。

在一种应用场景中，上述智能电视所支持的所有操控命令可以存储在该智能电视中，并在该智能电视的系统版本升级时，相应更新该智能电视所支持的所有操控命令。在步骤102中，响应于上述语音控制自定义请求，可直接在该智能电视本地获取该智能电视所支持的所有操控命令，并在该智能电视的界面显示包含获取的操控命令的语音自定义界面。

在另一种应用场景中，上述智能电视所支持的所有操控命令可以存储在服务器中，由智能电视向上述服务器请求获取上述智能电视所支持的操控命令。上述步骤102可包括：响应于上述语音控制自定义请求，向服务器发送自定义请求消息，接收上述服务器基于上述设备信息推送的操控命令列表，其中，上述自定义请求消息中携带上述智能电视的设备信息，上述设备信息包含：所述智能电视的设备标识和系统版本号，上述操控命令列表包含上述智能电视当前支持的操控命令。上述操控命令列表具体可以包含上述智能电视当前支持的所有操控命令。

步骤103、当上述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集本次输入的语音信号并生成与本次采集到的语音信号相关的语音信息；

本申请实施例中，用户可以从上述语音自定义界面中选择当前要自定义控制类语音的操控命令，当上述语音自定义界面中的操控命令被选择时，可针对当前被选择的操控命令，采集本次输入的语音信号并生成与本次采集到的语音信号相关的语音信息。

具体的，在步骤103中，可以通过麦克风阵列采集用户输入的语音信号，以便在采集语音信号的过程中，增强对语音信号的降噪效果。其中，上述麦克风阵列可以集成在智能电视上，或者，上述麦克风阵列也可以集成在智能电视的遥控器上，此处不做限定。

在一种应用场景中，在采集到用户输入的语音信号后，可以由智能电视基于采集到的语音信号生成与该语音信号相关的语音信息。具体的，可以对采集到的语音信号进行预处理(例如预加重、分帧、加窗等预处理操作)，之后基于语音识别技术对预处理后的语音信号进行识别，以得到与该语音信号相关的语音信号。或者，在对采集到的语音信号进行预处理后，也可以提取经预处理后的语音信号中的声学特征，然后将提取的声学特征输入到深度神经网络模型进行语音识别，以得到与该语音信号相关的语音信号。其中，上述深度神经网络模型基于大量的语音样本训练得到。

在另一种应用场景中，在采集到用户输入的语音信号后，也可以由服务器基于采集到的语音信号生成与该语音信号相关的语音信息。则上述生成与本次采集到的语音信号相关的语音信息包括：将采集到的语音信号发送给服务器，以便服务器基于该语音信号生成与该语音信号相关的语音信息。具体的，服务器基于该语音信号生成与该语音信号相关的语音信息的过程可以为：服务器对接收到的语音信号预处理(例如预加重、分帧、加窗等预处理操作)，之后基于语音识别技术对预处理后的语音信号进行识别，以得到与该语音信号相关的语音信号；或者，服务器对接收到的语音信号进行预处理，之后提取经预处理后的语音信号中的声学特征，然后将提取的声学特征输入到深度神经网络模型进行语音识别，以得到与该语音信号相关的语音信号。当然，在采集到用户输入的语音信号后，也可以先由智能电视对该语音信号进行预处理，之后向服务器发送预处理后的语音信号，以便服务器基于预处理后的语音信号生成与该语音信号相关的语音信息。

由于深度神经网络模型会随着用户与智能电视之间的语音互动次数的增多而不断得到完善，因此，通过引入深度神经网络模型进行语音识别，可以使得语音识别的准确性和智能性不断得到提升。

步骤104、将本次生成的语音信息与上述被选择的操控命令关联存储，以完成对控制类语音的自定义；

本申请实施例中，上述控制类语音被用以触发上述智能电视执行相应的操控命令。也即，在智能电视的语音交互功能开启后，用户可以通过输入上述控制类语音的方式触发上述智能电视执行与该控制类语音相关的操控命令。

可选的，步骤104可以表现为：将本次生成的语音信息与所述被选择的操控命令关联存储在与所述设备信息相关的语音控制模板库中。上述语音控制模板库可以设置在智能电视本地。或者，上述语音控制模板库也可以设置在服务器且与上述设备信息相关，在此场景下，步骤103可以由服务器生成与语音信号相关的语音信息，并由服务器将生成的语音信号与上述被选择的操控命令关联存储在与上述智能电视的设备信息相关的语音控制模板库中。

可选的，考虑到某些智能电视允许用户通过账户进行登录，为了使得不同账户对应的语音信息能够相互独立。在此应用场景下，步骤104可以表现为：将本次生成的语音信息与所述被选择的操控命令、上述智能电视当前登录的账户关联存储。具体的，可以将本次生成的语音信息与所述被选择的操控命令、所述智能电视当前登录的账户关联存储在上述语音控制模板库中。

可选的，在步骤104中，如果用户所选择的操控指令已经存在关联的语音信息，可以将本次生成的语音信息作为该操控指令新增的语音信息，或者，也可以将该操作指令此前已经关联的语音信息替换为本次生成的语音信息。

可选的，步骤102中显示的语音自定义界面还可以包含：各个操控命令已关联的语音信息的编辑控件(语音信息可以通过名称进行标识，该名称可以是在语音信息生成时自动生成或者手动设定)，该编辑控件可以包含如下一个或两个以上子控件：删除控件、修改控件。用户可以通过触发某个操控命令所关联的语音信息的编辑控件，从该编辑控件中触发对应的子控件。例如，当与操控命令所关联的语音信息的删除控件被触发时，将删除相应的语音信息。又例如，当与操控命令所关联的语音信息的修改控件被触发时，采集输入的语音信号并生成相关的语音信息(如步骤103)，之后利用生成的语音信息替换被选择修改的语音信息。

下面以一具体应用场景对本申请实施例中的语音管控方法进行说明。首先，对可实现图1所示实施例中的语音管控方法的一种系统架构进行说明，如图2所示，该系统架构可分为四个部分：TV应用层(可理解为智能电视的客户端)、逻辑处理层、深度神经网络模块和信息存储服务。其中，TV应用层用于采集用户输入语音信号、将采集到的语音信号上传逻辑处理层，以及收到逻辑处理层响应后输出相关的音频信息或者触发智能电视执行相应的操控命令。逻辑处理层包括：语音处理服务、自定义命令集服务、语音控制服务以及语音合成服务。语音处理服务可对智能电视采集到的语音信号进行预处理(例如预加重、分帧、加窗等预处理操作)后提交给深度神经网络模块进行语音识别处理。自定义命令集服务可负责自定义控制类语音集的处理逻辑。语音控制服务可根据深度神经网络对语音信号识别的结果匹配相应的操控命令，并将操控命令下发给TV应用层进行处理。语音合成服务可根据深度神经网络模块对语音信号识别的结果生成相应的语音响应消息并通过TV应用层输出。深度神经网络模块主要用于基于深度神经网络对输入的语音信号进行特征提取、建模和识别，进而进行相关的分析以及相关逻辑的分类判断(如操控命令的匹配)。信息存储服务可用于存储图1中提及的语音控制模板库、智能电视所支持的操控命令等数据。

下面结合图2对图1所示实施例中的语音管控方法进行具体说明，如图3所示，该语音管控方法包括：

步骤201、TV应用层接收用户输入的语音控制自定义请求；

当用户在使用智能电视的过程中发现通用的控制类语音不适合个人的使用习惯时，可向智能电视输入上述语音控制自定义请求。具体的，上述语音控制自定义请求的输入可参照图1所示实施例中步骤101的描述，此处不再赘述。

步骤202、TV应用层向自定义命令集服务发送自定义请求消息；

其中，上述自定义请求消息中携带上述智能电视的设备信息，该设备信息包含：上述智能电视的设备标识和系统版本号(系统版本号也可以替换为客户端版本号)。

步骤203、自定义命令集服务接收到上述自定义请求消息后，根据上述设备信息从信息存储服务中读取上述智能电视支持的操控命令列表。

步骤204、信息存储服务根据上述设备信息向自定义命令集服务返回相应的操控命令列表；

上述操控命令列表包含上述智能电视当前支持的操控命令。

步骤205、自定义命令集服务向TV应用层发送上述操控命令列表。

步骤206、TV应用层基于接收到的操控命令列表，在智能电视的界面显示语音自定义界面；

上述语音自定义界面包含：所述智能电视当前支持的操控命令。进一步，TV应用层还可以引导用户进行自定义控制类语音的操作。

步骤207、当上述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集本次输入的语音信号；

用户通过上述语音自定义界面可以选择需要设置的操控命令，并按照TV应用层提示以自己想要的方式输入对应的语音信号。比如，用户选择的操控命令为“搜索命令”，TV应用层可提示用户以自己的语言输入诸如“搜索刘德华的电影”类似的语音信号。

步骤208、TV应用层向自定义命令集服务发送采集到的语音信号。

步骤209、自定义命令集服务将接收到的语音信号上传到语音处理服务进行处理。

步骤210、语音处理服务对接收到的语音信号进行预处理。

步骤210、语音处理服务将预处理后的语音信号输入到深度神经网络模块进行处理。

步骤211、深度神经网络模块对输入的语音信号进行识别，并基于识别的结果生成语音控制模板；

其中，上述语音控制模板包含识别得到的语音信息以及与该语音信息关联的操控命令(该操控命令也即用户当前选择的操控命令)。

步骤212、深度神经网络模块向语音处理服务返回语音控制模板。

步骤213、语音处理服务向自定义命令集服务返回接收到的语音控制模板。

步骤214、自定义命令集服务向信息存储服务发送上述智能电视的设备信息和接收到的语音控制模板。

步骤215、信息存储服务将接收到的语音控制模板存储在与接收到的设备信息相关的语音控制模板库中，从而形成用户个性化的语音控制模板库。

步骤216、信息存储服务向自定义命令集服务返回数据存储结果。

步骤217、自定义命令集服务向TV层返回控制类语音的自定义处理结果。

由上可见，本申请实施例在接收到语音控制自定义请求时，显示语音自定义界面，一方面，使得用户可以通过该语音自定义界面进行控制类语音的自定义，从而实现通过自定义的控制类语音触发智能电视执行相应的操控命令，满足用户个性化的操控需求；另一方面，通过在语音自定义界面中提供智能电视当前支持的操控命令，使得用户可以自主选择智能电视所支持的操控命令进行控制类语音的自定义，提高了用户的自主选择权。

实施例二

本申请实施例与实施例一的区别在于，本申请实施例提供一种可自定义唤醒语音的语音管控方法。具体的，如图4所示，该语音管控方法包括：

步骤301、接收与智能电视相关的语音唤醒自定义请求；

本申请实施例中，可以在智能电视的设置界面或其它界面提供用以输入上述语音唤醒自定义请求的控件(例如名为“唤醒自定义”的虚拟按键)，用户可以通过操控智能电视进入该智能电视的设置界面(或其它界面)，之后通过该设置界面(或其它界面)中的预设控件输入上述语音唤醒自定义请求。当然，也可以在智能电视的语音交互功能初始化时自动输入上述语音唤醒自定义请求，并进一步提醒用户通过语音的方式输入自定义的唤醒语音。

步骤302、响应于上述语音唤醒自定义请求，采集本次输入的语音信号；

具体的，在步骤302中，可以通过麦克风阵列采集用户输入的语音信号，以便在采集语音信号的过程中，增强对语音信号的降噪效果。其中，上述麦克风阵列可以集成在智能电视上，或者，上述麦克风阵列也可以集成在智能电视的遥控器上，此处不做限定。

步骤303、基于本次采集到的语音信号构建唤醒模型；

在一种应用场景中，可以由智能电视基于本次采集到的语音信号构建唤醒模型。具体的，可以对采集到的语音信号进行预处理(例如预加重、分帧、加窗等预处理操作)，之后提取预处理后的语音信号中的声学特征，然后基于该声学特征建立声学模型，之后基于该声学模型生成上述唤醒模型。其中，上述声学模型可以的建立过程可以理解为对发声的建模，它能够将语音输入转换成声学表示的输出，更准确的说是给出语音信号对应多个状态的概率。

在另一种应用场景中，也可以由服务器基于本次采集到的语音信号构建上述智能电视的唤醒模型，则步骤303可以包括：将本次采集到的语音信号发送给服务器，以便服务器基于该语音信号生成与该智能电视相关的唤醒模型。具体的，服务器基于该语音信号生成与该智能电视相关的唤醒模型的过程可以为：服务器对接收到的语音信号预处理(例如预加重、分帧、加窗等预处理操作)，之后提取预处理后的语音信号中的声学特征，然后基于该声学特征建立声学模型，之后基于该声学模型生成上述唤醒模型，并将该唤醒模型与上述智能电视的设备标识关联存储。

本申请实施例中，智能电视的语音交互功能在未被唤醒时处于休眠状态。在该休眠状态下，智能电视的麦克风(该麦克风可设置在智能电视机体上，或者该麦克风也可以设置在该智能电视的遥控器上)会持续或周期性采集外界的语音信号，并将采集到的语音信号输入上述唤醒模型进行识别分析，当基于上述唤醒模型监听到唤醒语音的输入时，唤醒上述智能电视的语音交互功能。进一步，若该语音信号除了唤醒语音之外还包含其它语音，则可基于上述其它语音对操控命令进行匹配，并在匹配到操控命令时触发该智能电视执行匹配到的操控命令。举例说明，设用户基于图3所示实施例设置了“小白兔”这一唤醒词作为唤醒语音，在上述智能电视的语音交互功能处于休眠状态时，用户可以通过该智能电视的麦克风输入如下语音：“小白兔请降低音量”，此时智能电视基于该智能电视的唤醒模板可识别到“小白兔”这一唤醒语音并唤醒该智能电视的语音交互功能，之后将位于“小白兔”之后的语音信号(即“请降低音量”)作为匹配操控命令的语音信号，当匹配到“减小音量”这一操控命令时，触发该智能电视执行“减小音量”这一操控命令，以减小该智能电视的音量。

本申请实施例中，用户可以通过自定义唤醒语音，以输入自定义的唤醒语音的方式唤醒智能电视的语音交互功能。相比于传统的通过操作遥控器(如按住语音键)唤醒智能电视语音交互功能的方式，用户可以摆脱遥控器的限制，无需动手就可完成与智能电视的交互，满足了用户个性化和智能化的操控需求。

实施例三

本申请实施例提供一种虚智能电视。如图5所示，本申请实施例中的智能电视包括：

接收单元401，用于接收与智能电视相关的语音控制自定义请求；

显示单元402，用于响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面，其中，所述语音自定义界面包含：所述智能电视当前支持的操控命令；

采集单元403，用于当所述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集本次输入的语音信号；

生成单元404，用于生成与采集单元403本次输入的语音信号相关的语音信息；

存储单元405，用于将本次生成的语音信息与所述被选择的操控命令关联存储，以完成对控制类语音的自定义，其中，所述控制类语音被用以触发所述智能电视执行相应的操控命令。

可选的，显示单元402包括：

可选的，存储单元405具体用于：将本次生成的语音信息与所述被选择的操控命令关联存储。

可选的，存储单元具体用于：将本次生成的语音信息与所述被选择的操控命令、上述智能电视当前登录的账户关联存储。

可选的，生成单元404具体用于：将采集单元403本次采集到的语音信号输入深度神经网络模型，以得到与本次输入的语音信息相关的语音信息，其中，所述深度神经网络模型基于语音样本训练得到。

可选的，接收单元401还用于接收与所述智能电视相关的语音唤醒自定义请求；采集单元403还用于响应于所述语音唤醒自定义请求，采集用户本次输入的语音信号；

上述智能电视还包括：

应理解，本发明实施例中的智能电视可以如上述方法实施例中提及的语音管控方法，可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。

实施例四

本申请实施例提供一种智能电视，请参阅图6，本申请实施例中的智能电视还包括：存储器501，一个或多个处理器502(图5中仅示出一个)及存储在存储器501上并可在处理器上运行的计算机程序。其中：存储器501用于存储软件程序以及模块，处理器502通过运行存储在存储器501的软件程序以及单元，从而执行各种功能应用以及数据处理。具体地，处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤：

接收与智能电视相关的语音控制自定义请求；

假设上述为第一种可能的实现方式，则在第一种可能的实现方式作为基础而提供的第二种可能的实现方式中，所述响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面包括：

在上述第二种可能的实现方式作为基础而提供的第三种可能的实现方式中，

所述将本次生成的语音信息与所述被选择的操控命令关联存储具体为：

在上述第一种可能的实现方式或者上述第二种可能的实现方式或者上述第三种可能的实现方式作为基础而提供的第四种可能的实现方式中，所述采集用户本次输入的语音信号并生成与本次采集到的语音信号相关的语音信息包括：

采集用户本次输入的语音信号；

在上述第一种可能的实现方式或者上述第二种可能的实现方式或者上述第三种可能的实现方式作为基础而提供的第五种可能的实现方式中，处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤：

接收与所述智能电视相关的语音唤醒自定义请求；

在上述第一种可能的实现方式或者上述第二种可能的实现方式或者上述第三种可能的实现方式作为基础而提供的第六种可能的实现方式中，所述将本次生成的语音信息与所述被选择的操控命令关联存储为：

将本次生成的语音信息与所述被选择的操控命令、上述智能电视当前登录的账户关联存储。

可选的，如图6所示，上述电子设备还可包括：一个或多个输入设备503(图6中仅示出一个)和一个或多个输出设备504(图6中仅示出一个)。存储器501、处理器502、输入设备503和输出设备504通过总线505连接。

应当理解，在本申请实施例中，所称处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备503可以包括键盘、触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备504可以包括显示器、扬声器等。

存储器504可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器504的一部分或全部还可以包括非易失性随机存取存储器。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音管控方法，其特征在于，包括：

接收与智能电视相关的语音控制自定义请求；

当所述语音自定义界面中的操控命令被选择时，针对当前被选择的操控命令，采集用户本次输入的语音信号；

将本次采集到的语音信号预处理，提取经预处理后的语音信号中的声学特征输入深度神经网络模型，以得到与本次输入的语音信号相关的语音信息，其中，所述深度神经网络模型基于语音样本训练得到；

其中，所述深度神经网络模型还用于对输入的语音信号进行特征提取、建模和识别，进而进行操控命令的匹配；

将本次生成的语音信息与所述被选择的操控命令关联存储，以完成对控制类语音的自定义，其中，所述控制类语音被用以根据所述深度神经网络模型对采集到的用户输入的语音信号识别的结果匹配相应的操控命令，以触发所述智能电视执行相应的操控命令。

2.根据权利要求1所述的语音管控方法，其特征在于，所述响应于所述语音控制自定义请求，在所述智能电视的界面显示语音自定义界面包括：

3.根据权利要求2所述的语音管控方法，其特征在于，所述语音控制模板库设置在所述服务器且与所述设备信息相关；

4.根据权利要求1至3任一项所述的语音管控方法，其特征在于，所述语音管控方法还包括：

接收与所述智能电视相关的语音唤醒自定义请求；

5.根据权利要求1至3任一项所述的语音管控方法，其特征在于，所述将本次生成的语音信息与所述被选择的操控命令关联存储为：

6.一种智能电视，其特征在于，包括：

生成单元，用于将本次采集到的语音信号预处理，提取经预处理后的语音信号中的声学特征输入深度神经网络模型，以得到与本次输入的语音信号相关的语音信息，其中，所述深度神经网络模型基于语音样本训练得到；

存储单元，用于将本次生成的语音信息与所述被选择的操控命令关联存储在语音控制模板库中，以完成对控制类语音的自定义，其中，所述控制类语音被用以根据所述深度神经网络模型对采集到的用户输入的语音信号识别的结果匹配相应的操控命令，以触发所述智能电视执行相应的操控命令。

7.根据权利要求6所述的智能电视，其特征在于，所述显示单元包括：

8.一种智能电视，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序且应用于智能电视，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。