CN108271078A

CN108271078A - 通过手势识别的语音唤醒方法、智能电视及存储介质

Info

Publication number: CN108271078A
Application number: CN201810185900.6A
Authority: CN
Inventors: 林敏强; 刘泽民; 郭斌
Original assignee: Konka Group Co Ltd
Current assignee: Konka Group Co Ltd
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-07-10

Abstract

本发明公开了通过手势识别的语音唤醒方法、智能电视及存储介质，其中，方法包括：预先在智能电视上设置用于获取手势操作的摄像头，并设置摄像头获取的预定操作手势与智能电视的操作指令对应，以及设置预定操作手势与调用语音识别操作指令对应；智能电视的摄像头监测图像信息，当摄像头捕获到与调用语音识别操作指令对应的预定操作手势时，调用语音识别模块；语音识别模块控制打开麦克风获取对应的语音命令，控制智能电视执行相应操作。本发明能有效解决语音唤醒的技术短板问题，为用户提供方便，并且本发明可以有效降低技术实现成本，为用户提供方便。

Description

通过手势识别的语音唤醒方法、智能电视及存储介质

技术领域

本发明涉及智能电视技术领域，具体涉及一种通过手势识别的语音唤醒方法、智能电视及存储介质。

背景技术

当前的智能电视已经普及语音识别应用，可以通过语音进行查询、控制等操作。远场语音技术的引入，使得电视的人机交互完全脱离遥控器，直接通过语音唤醒后台引擎，达到人机智能对话的效果。

现有技术方案的缺陷在于，算法需要对环境噪音、电视本身的声音进行消除，否则电视的声音干扰目标声源的声音拾音效果。现有技术中的智能电视算法的缺陷在于当电视音量超过一定限幅时，远超过目标声源的分贝，则唤醒的效果会大打折扣甚至无法唤醒。而且语音唤醒的算法需要对唤醒词做大量的训练，训练成本高。

即现有技术中语音识别的电视开机时，用户说出指定的唤醒词，电视经过拾音、消噪、消回声（本机声音）、与后台训练的唤醒词做识别匹配，当识别结果正确时调用语音识别应用的接口，从而实现之后的语音识别服务。

在实际使用中，正常人说话的音量在65dB左右，电视的最大音量可以达到140多dB，当电视的音量远大于人说话的声音时，一般超过20dB的情况下，麦克风难以有效拾音，即使声音增强算法上有所优化，仍然无法满足大音量条件下的语音唤醒使用需求。因此，现有的技术条件下，存在语音唤醒技术的瓶颈。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供一种通过手势识别的语音唤醒方法、智能电视及存储介质，本发明能有效解决语音唤醒的技术短板问题，为用户提供方便，并且本发明可以有效降低技术实现成本。

为了达到上述目的，本发明采取了以下技术方案：

一种智能电视通过手势识别的语音唤醒方法，其中，包括如下步骤：

A，预先在智能电视上设置用于获取手势操作的摄像头，并设置摄像头获取的预定操作手势与智能电视的操作指令对应，以及设置预定操作手势与调用语音识别操作指令对应；

B，智能电视的摄像头监测图像信息，当摄像头捕获到与调用语音识别操作指令对应的预定操作手势时，调用语音识别模块；

C、语音识别模块控制打开麦克风获取对应的语音命令，控制智能电视执行相应操作。

所述的智能电视通过手势识别的语音唤醒方法，其中，所述步骤B还包括：

B10、当摄像头获捕获到与智能电视的操作指令对应的预定操作手势时，根据所述预定操作手势控制智能电视执行对应的操作。

所述的智能电视通过手势识别的语音唤醒方法，其中，所述步骤C具体包括：

C1、语音识别模块控制麦克风打开，对用户语音命令进行拾音操作；

C2、音频数据反馈到语音识别模块进行处理；

C3、语音识别模块将有效的指令提交至后台识别引擎，由引擎返回识别结果；

C4、电视界面显示结果或者响应对应识别结果的命令。

所述的智能电视通过手势识别的语音唤醒方法，其中，所述预定操作手势包括且不局限于：OK手势、手掌手势、拳头手势、上手势、下手势、左手势和/或右手势。

一种智能电视，其中，包括：处理器、存储器和通信总线；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如下步骤：

预先在智能电视上设置用于获取手势操作的摄像头，并设置摄像头获取的预定操作手势与智能电视的操作指令对应，以及设置预定操作手势与调用语音识别操作指令对应；

智能电视的摄像头监测图像信息，当摄像头捕获到与调用语音识别操作指令对应的预定操作手势时，调用语音识别模块；

语音识别模块控制打开麦克风获取对应的语音命令，控制智能电视执行相应操作。

所述智能电视，其中，其还包括与所述处理器连接的摄像头，用于获取用户的手势操作。

所述智能电视，其中，所述处理器内设置有：与摄像头连接的手势识别模块，用于处理摄像头捕获的操作手势。

所述智能电视，其中，其还包括与所述处理器连接的麦克风，用于获取用户的声音信息。

所述智能电视，其中，所述处理器内设置有：与摄像头连接的语音识别模块，用于对麦克风获取的用户语音信号进行处理。

一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现所述的智能电视通过手势识别的语音唤醒方法中的步骤。

相较于现有技术，本发明提供的通过手势识别的语音唤醒方法、智能电视及存储介质，所述方法通过摄像头捕获用户图像，对图像进行算法分析，当用户做出既定的手势动作时，识别结果为yes，则调用语音识别apk接口，拉起语音服务，此时用户可以通过语音操作，来实现点歌、搜索影视、控制智能设备等服务，为用户提供方便。

附图说明

图1为本发明提供的通过手势识别的语音唤醒方法的流程图。

图2为本发明实施的手势操作示意图。

图3为本发明智能电视第一较佳实施例的功能模块图。

图4为本发明智能电视第二较佳实施例的功能模块图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供的通过手势识别的语音唤醒方法包括以下步骤：

S100、预先在智能电视上设置用于获取手势操作的摄像头，并设置摄像头获取的预定操作手势与智能电视的操作指令对应，以及设置预定操作手势与调用语音识别操作指令对应。

本发明实施例中，在实施前，需要在预先在智能电视上设置用于获取手势操作的摄像头，将摄像头与智能电视的处理器连接。

本明还需要预先设置摄像头获取的预定操作手势与智能电视的操作指令对应，如图2所示，本发明所述预定操作手势包括但不限于：OK手势、手掌手势、拳头手势、上手势、下手势、左手势和/或右手势。例如设置一个食指向上的上手势与智能电视向上操作的操作指令对应。

本发明还需要以及设置预定操作手势与调用语音识别操作指令对应。例如设置所述OK手势与用于则调用语音识别apk接口，拉起语音服务的操作指令对应。

S200、智能电视的摄像头监测图像信息，当摄像头获捕获到与与调用语音识别操作指令对应的预定操作手势时，调用语音识别模块。

本发明在具体实施时，智能电视的摄像头监测图像信息，当摄像头捕获到与调用语音识别操作指令对应的预定操作手势时，调用语音识别模块。例如当智能电视的摄像头获取到用户操作手势为OK手势，则控制调用语音识别模块。.

譬如：本发明中通过摄像头捕获用户图像，对图像进行算法分析，当用户做出既定的手势动作时，识别结果为yes，则调用语音识别apk接口，拉起语音服务，此时用户可以通过语音操作，来实现点歌、搜索影视、控制智能设备等服务。本文提到的手势包含但不局限于OK、手掌、拳头、上、下、左、右等手势。

当摄像头获捕获到与智能电视的操作指令对应的预定操作手势时，根据该操作手势控制智能电视执行对应的操作。例如，当摄像头捕获到一个食指向上的上手势与智能电视向上操作的操作指令对应。

S300、语音识别模块控制打开麦克风获取对应的语音命令，控制智能电视执行相应操作。

所述预定操作手势包括且不局限于：OK手势、手掌手势、拳头手势、上手势、下手势、左手势和/或右手势。

本步骤中，当通过摄像头捕获用户图像，对图像进行算法分析，当用户做出既定的手势动作时，识别结果为yes，则调用语音识别apk接口，通过语音识别模块控制麦克风打开，对用户语音命令进行拾音操作；音频数据反馈到语音识别模块进行处理；语音识别模块将有效的指令提交至后台识别引擎，由引擎返回识别结果；电视界面显示结果或者响应对应识别结果的命令。

由上可见，本发明能有效解决语音唤醒的技术短板问题，为用户提供方便，并且本发明可以有效降低技术实现成本。

如图3所示，基于上述通过手势识别的语音唤醒方法，本发明还相应提供了一种智能电视。该智能电视包括处理器10、存储器20及显示屏30。图3仅示出了智能电视的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述智能电视的内部存储单元，例如智能电视的内存。所述存储器20在另一些实施例中也可以是所述智能电视的外部存储设备，例如所述智能电视上配备的插接式U盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器20还可以既包括所智能电视的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述智能电视的应用软件及各类数据，例如所述通过手势识别的语音唤醒的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有智能电视触摸屏坐标输出控制程序40，该智能电视触摸屏坐标输出控制程序40可被处理器10所执行，从而实现本申请中通过手势识别的语音唤醒方法。

所述处理器10在一些实施例中可以是一中央处理器（Central Processing Unit,CPU），微处理器，手机基带处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述通过手势识别的语音唤醒方法等。

所述显示屏30在一些实施例中可以是LED显示屏、液晶显示屏、触控式液晶显示屏以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。所述显示屏30用于显示在所述智能电视的信息以及用于显示可视化的用户界面。所述智能电视的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中智能电视触摸屏坐标输出控制程序40时实现以下步骤：

语音识别模块控制打开麦克风获取对应的语音命令，控制智能电视执行相应操作，具体如上所述。

图4所示，所述智能电视，还包括与所述处理器连接的摄像头50，用于获取用户的手势操作。所述智能电视，还包括与所述处理器连接的麦克风60，用于获取用户的声音信息，具体如上所述。

所述智能电视，所述处理器内设置有：与摄像头连接的手势识别模块，用于处理摄像头捕获的操作手势，具体如上所述。

所述智能电视，所述处理器内设置有：与摄像头连接的语音识别模块，用于对麦克风获取的用户语音信号进行处理，具体如上所述。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种智能电视通过手势识别的语音唤醒方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的智能电视通过手势识别的语音唤醒方法，其特征在于，所述步骤B还包括：

B10、当摄像头捕获到与智能电视的操作指令对应的预定操作手势时，根据所述预定操作手势控制智能电视执行对应的操作。

3.根据权利要求1所述的智能电视通过手势识别的语音唤醒方法，其特征在于，所述步骤C具体包括：

C2、音频数据反馈到语音识别模块进行处理；

C4、电视界面显示结果或者响应对应识别结果的命令。

4.根据权利要求1所述的智能电视通过手势识别的语音唤醒方法，其特征在于，所述预定操作手势包括：OK手势、手掌手势、拳头手势、上手势、下手势、左手势和/或右手势。

5.一种智能电视，其特征在于，包括：处理器、存储器和通信总线；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如下步骤：

6.根据权利要求5所述智能电视，其特征在于，还包括与所述处理器连接的摄像头，用于获取用户的手势操作。

7.根据权利要求6所述智能电视，其特征在于，所述处理器内设置有：与摄像头连接的手势识别模块，用于处理摄像头捕获的操作手势。

8.根据权利要求5所述智能电视，其特征在于，还包括与所述处理器连接的麦克风，用于获取用户的声音信息。

9.根据权利要求5所述智能电视，其特征在于，所述处理器内设置有：与摄像头连接的语音识别模块，用于对麦克风获取的用户语音信号进行处理。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-4任意一项所述的智能电视通过手势识别的语音唤醒方法中的步骤。