CN117891517A

CN117891517A - 一种显示设备及语音唤醒方法

Info

Publication number: CN117891517A
Application number: CN202311834314.7A
Authority: CN
Inventors: 潘程; 杨香斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-16

Abstract

本申请提供一种显示设备及语音唤醒方法，所述方法通过在显示器显示待机界面时，响应于用户输入的语音唤醒指令，获取音频数据，并提取音频数据的音频特征。然后基于预唤醒词，通过第一唤醒模型对音频特征进行识别，若第一识别概率大于第一识别概率阈值，则基于唤醒词，通过第二唤醒模型再次对音频特征进行识别，在第二识别概率大于第二识别概率阈值时，显示器显示用户界面，完成唤醒。本申请通过第一唤醒模型对音频数据的预唤醒词执行识别后，再通过第二唤醒模型对音频数据的唤醒词执行识别，降低误唤醒的次数，减少显示设备的功耗。

Description

一种显示设备及语音唤醒方法

技术领域

本申请涉及语音唤醒技术邻域，尤其涉及一种显示设备及语音唤醒方法。

背景技术

显示设备在长时间没有接收到控制指令时，可以从工作模式切换为待机模式以节省功耗。在待机模式下，显示设备会持续检测显示设备所在环境的语音信号，用户可以通过语音唤醒功能(KWS，KeyWord Spotting)，说出显示设备预设的唤醒词，显示设备在识别出语音信号中包含唤醒词的音频波形时，会从待机模式切换为工作模式，以实现语音唤醒。

但是，在嘈杂的声音环境下，显示设备会接收到杂乱的音频波形。当这些杂乱的音频波形与唤醒词的音频波形相近时，很容易产生显示设备被误唤醒，导致显示设备反复从工作模式和待机模式之间切换，造成不必要的功耗消耗。

发明内容

为解决显示设备在嘈杂的声音环境下产生的误唤醒，导致显示设备功耗过大的问题，第一方面，本申请的部分实施例提供一种显示设备，包括显示器、存储器、音频输入接口和控制器，所述显示器被配置为显示用户界面或显示待机界面，所述存储器中存储有第一唤醒模型和第二唤醒模型，所述音频输入接口被配置为获取音频数据，所述控制器被配置为在所述显示器显示所述待机界面时，响应于用户输入的语音唤醒指令，通过所述音频输入接口获取音频数据；

提取所述音频数据的音频特征；

基于预唤醒词，通过所述第一唤醒模型对所述音频特征执行语音识别，得到第一识别概率，所述预唤醒词为唤醒词中包含的预设词语，所述第一识别概率用于表征所述音频数据中包括预唤醒词的概率；

若所述第一识别概率大于第一识别概率阈值，则基于唤醒词，通过所述第二唤醒模型对所述音频特征执行语音识别，得到第二识别概率,所述第二识别概率用于表征所述音频数据中包括唤醒词的概率；

在所述第二识别概率大于第二识别概率阈值时，控制所述显示器显示所述用户界面。

在一些实施例中，所述控制器执行提取所述音频数据的音频特征前，还被配置为：

获取所述音频数据对应的音频帧；

若所述音频帧的时长小于所述唤醒词的预设音频时长，则基于时长差提取历史音频数据，所述历史音频数据为语音特征的第二识别概率大于第二识别概率阈值的音频数据，所述时长差为所述音频帧的时长和所述预设时长差值；

将所述历史音频数据与所述音频数据执行拼接，得到拼接后的音频数据。

在一些实施例中，若所述第一识别概率小于第一识别概率阈值，所述控制器执行控制所述显示器显示所述用户界面后，还被配置为：

根据当前时间点更新音频数据；

在所述第二识别概率大于第二识别概率阈值时，所述控制器还被配置为：

将预设比例的所述音频数据缓存为历史音频数据。

在一些实施例中，所述控制器基于时长差提取历史音频数据前，还被配置为：

设置所述音频帧的滑动步长，所述滑动步长为滑动窗口的特征计算频率，所述滑动窗口的长度为预设音频时长；

根据所述音频帧的时长和所述滑动步长获取所述滑动窗口的滑动次数；

根据所述滑动次数计算所述时长差。

在一些实施例中，所述控制器执行通过所述第一唤醒模型对所述音频特征执行语音识别前，还被配置为：

获取第一训练集，所述第一训练集中包括预唤醒词的语音样本；

通过所述第一唤醒模型计算所述预唤醒词的语音样本中非预唤醒词概率和预唤醒词概率；

通过第一损失函数基于所述非预唤醒词概率和所述预唤醒词概率的最大值对所述第一唤醒模型执行迭代训练，以更新第一唤醒模型的模型参数。

在一些实施例中，所述控制器执行通过所述第二唤醒模型对所述音频特征执行语音识别前，还被配置为：

获取第二训练集，所述第二训练集中包括唤醒词的语音样本；

基于标签平滑策略设置所述第二唤醒模型的第二损失函数；

通过所述第二唤醒模型计算所述唤醒词的语音样本中的唤醒词概率；

通过所述第二损失函数基于所述唤醒词概率对所述第二唤醒模型执行迭代训练，以更新第二唤醒模型的模型参数。

在一些实施例中，所述控制器执行控制所述显示器显示所述用户界面后，还被配置为：

获取所述第一唤醒模型的第一任务进程，以及，获取所述第二唤醒模型的第二任务进程；

挂起所述第一任务进程和所述第二任务进程，以停止运行所述第一唤醒模型和所述第二唤醒模型。

在一些实施例中，所述控制器停止运行所述第一唤醒模型和所述第二唤醒模型后，还被配置为：

基于所述第一任务进程和所述第二任务进程，控制所述音频输入接口关闭；

监听所述用户界面的操作事件；

在所述操作事件结束后，根据预设的待机判定时长执行计时；

当计时时长大于或等于所述待机判定时长时，开启所述音频输入接口，以恢复运行所述第一任务进程和所述第二任务进程。

在一些实施例中，所述控制器执行提取所述音频数据的音频特征，被配置为：

对所述音频数据执行傅里叶变换，得到音频光谱；

通过梅尔滤波器消除所述音频光谱中的谐波，得到梅尔频谱；

根据所述梅尔频谱的倒谱系数，将所述梅尔频谱输出为音频特征。

第二方面，本申请的部分实施例提供一种语音唤醒方法，应用于显示设备，所述显示设备包括显示器、存储器、音频输入接口和控制器，所述显示器被配置为显示用户界面或显示待机界面，所述存储器中存储有第一唤醒模型和第二唤醒模型，所述音频输入接口被配置为获取音频数据，所述方法包括：

在所述显示器显示所述待机界面时，响应于用户输入的语音唤醒指令，通过所述音频输入接口获取音频数据；

提取所述音频数据的音频特征；

由以上技术方案可知，本申请提供一种显示设备及语音唤醒方法，所述方法通过在显示器显示待机界面时，响应于用户输入的语音唤醒指令，获取音频数据，并提取音频数据的音频特征。然后基于预唤醒词，通过第一唤醒模型对音频特征进行识别，若第一识别概率大于第一识别概率阈值，则基于唤醒词，通过第二唤醒模型再次对音频特征进行识别，在第二识别概率大于第二识别概率阈值时，显示器显示用户界面，完成唤醒。本申请通过第一唤醒模型对音频数据的预唤醒词执行识别后，再通过第二唤醒模型对音频数据的唤醒词执行识别，降低误唤醒的次数，减少显示设备的功耗。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中显示设备的使用场景；

图2为本申请实施例中显示设备的硬件配置图；

图3为本申请实施例中用户与显示设备的语音交互流程图；

图4为本申请实施例提供的一种语音唤醒方法的流程图；

图5为本申请实施例对音频数据执行预处理的流程图；

图6为本申请实施例对预唤醒词执行语音识别的流程图；

图7为本申请实施例中第一唤醒模型的结构示意图；

图8为本申请实施例中根据多个预唤醒词输出第一识别概率的流程图；

图9为本申请实施例中显示设备的唤醒流程示意图；

图10为本申请实施例中第二唤醒模型的结构示意图；

图11为本申请实施例中去除相同唤醒词的流程图；

图12为本申请实施例中滑动窗口在音频帧中滑动的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的终端设备可以具有多种实施形式，例如，可以是电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。

图1为根据实施例中终端设备与控制装置之间操作场景的示意图。如图1所示，用户可通过终端设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备200的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用终端设备300(如移动电话、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在终端设备300上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200可以不使用上述的终端设备300或控制装置100接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和终端设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音终端设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

如图2所示，显示设备200可以包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中，控制器250可以包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260可以包括以下组件，即：用于呈现画面的显示屏组件；驱动图像显示的驱动组件；用于接收源自控制器250输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面的组件等。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器400进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音或者用户发出的声音指令。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，外部装置接口240还可以包括音频输入接口，音频输入接口可以连接有音频采集设备，例如，外置麦克风、话筒或其他可收集音频数据的采集装置。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制终端设备300的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，控制器250包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM(RandomAccess Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

在一些实施例中，基于Internet应用技术，显示设备200还可以具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能。以显示设备200为智能电视为例，显示设备200可以为一种集影音、娱乐、数据等多种功能于一体的电视产品，用于满足用户多样化和个性化需求。

在显示设备200处于启动状态时，显示器260显示用户界面，用户界面是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic UserInterface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在显示设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

用户可以通过外接控制装置，如鼠标、遥控装置等，运行用户界面对应的应用程序。对于具备触控功能的显示器250，可以通过触控笔点击用户界面的对应区域来运行应用程序，例如，用户通过点击用户界面的影音播放功能，并选择对应的影片进行播放，从而达到使用显示设备200观影的目的。

在一些实施例中，显示设备200还可以具备语音交互功能，用户可以向显示设备200发送语音指令。显示设备200可以对语音指令执行语音识别，从而根据语音指令识别得到的文本指令执行对应的动作响应，显示设备200还可以通过对比波形是否一致，确定输入的语音指令对应的文本指令。图3为本申请实施例中用户与显示设备的语音交互流程图。如图3所示，用户可以向显示设备200发送“播放歌曲A”的语音指令，显示设备200可以对“播放歌曲A”进行识别。在完成识别后，显示设备200可以对歌曲A的音频数据进行解码，生成语音信号，并通过音频输出接口播放歌曲A对应的音频信号，还可以控制显示器260显示歌曲A对应的歌曲信息，如歌词、音乐封面等。

在一些实施例中，显示设备200在长时间显示非播放界面，且没有检测到用户发送的控制指令时，为了节省功耗，可以从工作模式切换为待机模式，并控制显示器260将用户界面切换为待机界面。在待机模式下，显示设备200各个任务程序的工作进程挂起，以保存运行的进度，然后停止对上述工作进程的运行，以节省显示设备200的功耗。

待机界面是指显示设备200在待机状态下的屏幕显示界面，待机界面可以包括桌面壁纸、时间、任务栏等，以便于用户在显示设备200处于低功耗的状态下，获取时间、任务状态等重要信息。待机界面可以为用户提供快速访问和使用显示设备200的功能，用户可以通过鼠标、键盘等外接设备向显示设备200发送控制指令，来唤醒显示设备200，从而使显示设备200从待机模式切换为工作模式，并基于待机之前挂起的工作进程，重新运行工作进程，以及恢复用户界面的显示。

在一些实施例中，当用户无法通过外接设备来唤醒显示设备时，还可以基于语音交互功能中的语音唤醒功能(KWS，KeyWord Spotting)唤醒显示设备200。在待机模式下，显示设备200可以通过音频采集接口实时采集显示设备200所在区域内的语音信号。当用户说出显示设备200预设的唤醒词时，音频采集接口会对用户的语音信号进行识别。当语音信号中包含唤醒词的音频波形时，显示设备200被唤醒，从而使显示设备200从待机模式切换为工作模式。

以显示设备200为具备显示功能的智能音箱为示例，用户可以预先设置智能音箱的唤醒词，如“启动音箱”。智能音箱在处于待机模式时，可以实时获取智能音箱周围环境的音频数据，并对音频数据执行语音识别，以判断该音频数据所表示的内容是否包含唤醒词。当智能音箱接收到用户说出“启动音箱”的语音指令时，会将语音指令转换为文本指令，并基于唤醒词进行识别。如果通过识别，智能音箱会从待机模式切换为工作模式，从而完成唤醒。

需要说明的是，本申请实施例仅以语音唤醒作为示例性说明，在实际应用中，显示设备200还可以根据用户发出的语音指令执行显示设备200的其他功能，例如，关闭显示设备200，或者，运行显示设备200的媒资播放器功能等。

当显示设备200处于嘈杂的声音环境时，待机模式的显示设备200会持续接收杂乱的音频数据。当这些杂乱的音频数据的音频波形与唤醒词的音频波形相近时，显示设备200会被误唤醒，导致用户在没有向显示设备200发送控制指令或者语音指令的情况下，显示设备200从待机模式切换为工作模式，甚至导致显示设备200反复从工作模式和待机模式之间切换，造成不必要的功耗消耗。

为解决显示设备200在嘈杂的声音环境下产生的误唤醒，导致显示设备200功耗大的问题，本申请的部分实施例提供一种显示设备200，所述显示设备200包括显示器260、存储器、音频输入接口和控制器250。在显示设备200处于工作模式时，显示器260显示用户界面，以便于用户根据用户界面发送对应的控制指令，从而使显示设备200运行对应的界面显示功能，当显示设备200在经过预设的时长后，没有接收到用户发出的控制指令，显示设备200即可从工作模式切换至待机模式，此时，控制器250可以运行对应的屏幕保护程序，使显示器260显示待机界面，待机界面可以为静态的图片、图案或者动态的视频等。

在一些实施例中，显示设备200可以通过控制器250执行一种语音唤醒方法来缓解误唤醒导致显示设备200功耗大的问题。图4为本申请实施例提供的一种语音唤醒方法的流程图。参见图4，所述方法包括：

S100：在所述显示器显示所述待机界面时，响应于用户输入的语音唤醒指令，通过所述音频输入接口获取音频数据。

显示器260显示待机界面时，显示设备200处于待机模式，用户可以通过语音指令或者控制指令唤醒显示设备200。为此，控制器250在显示设备200切换为待机模式之前，用户可以向显示设备200输入语音唤醒指令，以开启显示设备200的语音唤醒功能，从而在显示设备200切换至待机模式后，控制器250通过音频输入接口，实时获取音频数据，并根据对音频数据的语音识别结果唤醒显示设备200。

在一些实施例中，音频输入接口需要实时获取音频数据，为此，控制器250还可以通过流式获取音频数据。流式获取音频数据是指通过流式传输技术实时获取音频数据。

在流式获取语音的过程中，音频数据会不断地从音频输入接口中流入，并通过流式传输技术实时传输到控制器250，从而保证音频数据的实时性和连续性，减少出现音频中断或延迟的问题。

S200：提取所述音频数据的音频特征。

唤醒处于待机状态的显示设备200需要在音频数据中识别到唤醒词，为了提高语音识别的准确度，可以从音频数据中提取音频特征，音频特征可以为FBANK，MFCC，PCEN等语音特征。如图5所示，控制器250可以将对音频数据执行傅里叶变换(Fourier Transform)，基于音频数据得到音频频谱特性，从而根据音频频谱特性获取音频数据的信息，音频数据的信息包括音频数据的频率成分和时域变化。

在一些实施例中，控制器250还可以对音频数据执行短时傅里叶变换(Short TimeFourier Transform，STFT)，通过将音频数据以预设的帧长分割为若干音频段落，并分别对每一音频段落执行傅里叶变换，以获取音频段落的频率信息和时域变化。控制器250还可以对音频光谱从空间域转换到频域，以便于对音频光谱进行降噪、压缩和增强等处理，提高音频光谱的准确性。

当显示设备200处于嘈杂的声音环境时，音频输入接口采集的音频数据中包含环境杂音，这些环境杂音会影响语音识别的精度，从而造成显示设备200误唤醒。为了减少环境杂音对语音识别的影响，如图5所示，在控制器250对音频数据执行傅里叶变换之后，可以通过梅尔滤波器对音频光谱执行滤波，以滤除音频光谱中的谐波，得到梅尔频谱。控制器250还可以通过梅尔滤波器提取梅尔频谱的倒谱系数(Mel-frequency cepstralcoefficients，MFCC)，将倒谱系数转换为对数系数，并将转换后得到的对数系数依次执行平均值和方差标准化，以消除不同音频信号之间的差异，最后根据标准化后的对数系数输出音频特征。

S300：基于预唤醒词，通过所述第一唤醒模型对所述音频特征执行语音识别，得到第一识别概率。

用户可以自定义设置唤醒词作为语音唤醒显示设备200的参照，唤醒词可以为一个或多个，以便于用户自定义个性化的唤醒词唤醒显示设备200。为了减少嘈杂的声音环境中的杂音误唤醒显示设备200，导致消耗显示设备200的功耗，本申请实施例先根据预唤醒词对音频数据执行初步的语音识别。

预唤醒词为唤醒词中包含的预设词语，控制器250可以基于预唤醒词，通过第一唤醒模型对音频特征执行语音识别。当设置有多个唤醒词时，预唤醒词可以为多个唤醒词中均包含的词语，例如，唤醒词为“打开音箱”和“启动音箱”，在上述两个唤醒词中，均包含词语“音箱”，因此，可以将“音箱”设置为上述唤醒词的预唤醒词。

图5为本申请实施例中第一唤醒模型输出第一识别概率的流程图。参见图6，控制器250在基于预唤醒词，通过第一唤醒模型对音频特征执行语音识别的过程中，第一唤醒模型可以根据预唤醒词的音频特征与实时获取的音频数据的音频特征进行比对，从而根据相似度输出第一识别概率，以完成对实时获取的音频数据的音频特征的预唤醒词识别，其中，第一识别概率用于表征所述音频数据中包括预唤醒词的概率。

在一些实施例中，第一唤醒模型可以包括如图7所示的神经网络结构，在图7中，第一唤醒模型包括多层深度可分离卷积(Depthwise Separable Convolutional NeuralNetwork，DS-CNN)、全连接层和relu激活函数连接得到，第一唤醒模型的输入为音频数据的音频特征。音频特征会经过多层深度可分离卷积网络，提取音频特征中的深层次特征，以根据深层次特征执行语音识别，提高语音识别的准确性。全连接层可以在提取深层次特征的过程中学习复杂的非线性关系。relu激活函数可以为第一唤醒模型添加非线性特性，提高深度可分离卷积网络对第一唤醒模型的表达能力。

在一些实施例中，如图8所示，当存在多个唤醒词时，可以每个唤醒词设置一个预唤醒词，为此，在对控制器250基于预唤醒词，通过第一唤醒模型对音频特征执行语音识别时，预唤醒词可能为预设的多个唤醒词中包含的词语，因此，控制器250还可以基于每个唤醒词的预唤醒词，通过第一唤醒模型对音频特征执行语音识别，并输出多个概率值，此时，控制器250可以将多个概率值中最大的概率值标记为第一识别概率。

S400：若所述第一识别概率大于第一识别概率阈值，则基于唤醒词，通过所述第二唤醒模型对所述音频特征执行语音识别，得到第二识别概率。

在本实施例中，如图9所示，控制器250通过设置第一识别概率阈值来判断音频数据中是否包含预唤醒词，当第一唤醒模型基于预唤醒词输出的第一识别概率大于第一识别概率阈值时，说明音频数据中包含预唤醒词。本申请实施例可以通过预唤醒词筛除音频数据中的杂音产生的误唤醒，减少显示设备200被误唤醒的次数，节省显示设备200的功耗。

在判断音频数据中包含预唤醒词后，控制器250可以基于唤醒词，通过第二唤醒模型再次对音频数据的音频特征执行语音识别。在通过第二唤醒模型对音频特征执行语音识别的过程中，第二唤醒模型可以根据唤醒词的音频特征与音频数据的音频特征进行比对，从而根据音频特征相似度输出第二识别概率，以完成对实时获取的音频数据的音频特征的唤醒词识别，其中，第二识别概率用于表征音频数据中包括唤醒词的概率。

在一些实施例中，第二唤醒模型可以包括如图10所示的神经网络结构，在图10中，第二唤醒模型包括卷积层、双向长短期记忆网络(Long Short-Term Memory，LSTM)、全连接层。其中，卷积层可以通过不同尺寸的卷积核提取音频特征中提取高精度特征。双向长短期记忆网络可以长期记忆和短期记忆结合，预测音频特征的序列，在本实施例中，第二唤醒模型包括两层双向长短期记忆网络，从而通过两层双向长短期记忆网络以不同的方向将音频特征之间的序列联系起来，获取音频特征的序列之间的依赖关系，提高第二唤醒模型的识别精度。全连接层用于将输入的音频特征映射至对应的识别结果，并根据识别结果输出第二识别概率。

步骤S300示出了多个唤醒词对应存在多个预唤醒词，并基于多个预唤醒词通过第一唤醒模型输出这些预唤醒词的概率值的示例，为此，在一些实施例中，控制器250还可以根据第一唤醒模型输出的多个概率值依次与第一识别概率阈值进行比较，并筛选出大于第一识别概率阈值的概率值作为第一识别概率。若存在多项第一识别概率，则说明音频数据的音频波形与至少两个预唤醒词相符，控制器250可以根据这些预唤醒词获取对应的唤醒词，从而基于这些唤醒词生成唤醒词集合。

同一唤醒词可以设置多个预唤醒词，因此，多个预唤醒词可能对应同一唤醒词，为了减少第二唤醒模型对同一唤醒词反复执行语音识别所产生的功耗，在一些实施例中，如图11所示，控制器250可以遍历唤醒词集合中的唤醒词，并去除重复的唤醒词，以确保唤醒词集合中同一唤醒词的数量仅为一个。

在去除唤醒词集合中相同的唤醒词后，控制器250可以依次基于唤醒词集合中的唤醒词，通过第二唤醒模型对音频特征执行语音识别，从而将输出的最大概率值作为第二识别概率。例如，唤醒词集合中包括第一唤醒词和第二唤醒词，控制器250可以基于第一唤醒词，通过第二唤醒模型对音频特征执行语音识别，输出第一概率值，然后再基于第二唤醒词，通过第二唤醒模型对音频特征执行语音识别，输出第二概率值。控制器250可以比较第一概率值和第二概率值，将第一概率值和第二概率值中较大的概率值作为第二识别概率阈值输出，从而减少音频数据通过基于多个唤醒词通过第二唤醒模型的语音识别，改善了语音识别混淆的问题，提高唤醒显示设备200的成功率。

在一些实施例中，若第一识别唤醒概率小于第一识别概率阈值，说明基于预唤醒词，音频数据唤醒失败，控制器250无法根据音频数据唤醒显示设备200，显示设备200依然以待机模式运行，控制器250控制音频输入接口根据当前时间点更新流式获取的音频数据。

S500：在所述第二识别概率大于第二识别概率阈值时，控制所述显示器显示所述用户界面。

在第二唤醒模型输出第二识别概率后，当第二识别概率大于第二识别概率阈值时，控制器250唤醒显示设备200，并控制显示器260显示用户界面。

由于采用流式获取的音频数据具有流动性，流式获取的音频数据的音频帧可能小于唤醒词的预设音频时长，此时需要通过历史音频数据，以唤醒词的预设音频时长为参照将音频数据执行补齐。

在一些实施例中，控制器250可以获取音频数据对应的音频帧，若音频帧的时长小于唤醒词的预设音频时长，则说明音频帧需要使用历史音频数据进行补齐，控制器250可以计算音频帧的时长与唤醒词的预设音频时长的时长差，并基于时长差在存储器中提取历史音频数据，并将历史音频数据与音频数据执行拼接，得到拼接后的音频数据。

在本实施例中，历史音频数据可以拼接在音频数据的首端，也可以拼接在音频数据的末端，本申请对于历史音频数据的拼接位置不做具体限定。历史音频数据为能成功唤醒显示设备200的音频数据，因此，历史音频数据可以为语音特征的第二识别概率大于第二识别概率阈值的音频数据。

若音频帧的时长大于唤醒词的预设音频时长，控制器250可以检测音频帧的大于预设音频时长的部分是否为预设音频时长的整数倍，若不是整数倍，则控制器250根据大于预设音频时长的部分与预设音频时长的时长差提取历史音频数据，并将历史音频数据与音频数据执行拼接，以将音频数据补齐至预设音频时长的整数倍，从而减少第二唤醒模型的计算量，提高计算效率。

当唤醒显示设备200后，控制器250可以将用于唤醒显示设备200的音频数据缓存至存储器中，以作为历史音频数据。

在一些实施例中，控制器250在缓存音频数据之前，可以检测存储器的内存余量，若存储器的内存余量不足以缓存全部的音频数据时，控制器250可以设置音频数据的缓存比例，并以缓存比例将音频数据缓存至存储器中。

如果预先通过控制器250使用历史音频数据和音频数据执行对齐，那么第一唤醒模型也会对对齐后的音频数据执行语音识别，从而浪费显示设备200的功耗。为此，在一些实施例中，在第一唤醒模型基于预唤醒词输出的第一识别概率大于第一识别概率阈值后，控制器250可以将音频数据和历史音频数据同时输入至第二唤醒模型中，第二唤醒模型会预计唤醒词的音频时长对音频数据的音频帧执行检测，若音频数据的时长小于唤醒词的预设音频时长，则根据时长差将提取对应长度的历史音频数据。

在将音频数据输入至第二唤醒模型后，第二唤醒模型可以通过滑动窗口算法对音频数据执行音频特征提取，在音频特征提取的过程中，控制器250可以根据预设音频时长设置滑动窗口控制器250可以根据滑动窗口的长度设置音频帧的滑动步长，滑动步长为滑动窗口的特征计算频率，控制器250可以根据滑动窗口以滑动步长在音频帧中滑动，以根据音频帧的时长和滑动步长获取滑动窗口的滑动次数，从而获取更加精确的音频特征。示例性的，当音频帧长度为1s，滑动窗口为200ms，滑动步长为200ms，音频帧除去滑动窗口的长度后，剩余800ms，因此，滑动窗口以滑动步长在音频帧内滑动4次。

在一些实施例中，控制器250还可以通过设置滑动步长在音频中产生重叠区域，例如，当音频帧为1s，滑动窗口为200ms，滑动步长为100ms，在滑动时并提取音频特征时，滑动窗口从0ms-200ms滑动至100ms-300ms，其中，100ms-200ms为滑动过程中的重叠区域，控制器250会对重叠区域执行至少两次的音频特征提取。并且，滑动窗口在每次的滑动中，都会产生重叠区域，从而提高音频特征的精确度。

为了准确参照唤醒词执行语音识别，控制器250可以将第二唤醒模型的识别长度设置为用户在特定语速下说出唤醒词的音频长度，第二唤醒模型会基于该音频长度提取所输入的音频数据的音频特征。但是，当音频数据的音频帧时长小于模板音频长度时，控制器250可以根据音频帧时长和滑动步长计算时长差，其中，模板音频长度可以用户在特定语速下说出唤醒词的音频长度。如图12所示，当模板音频长度为1s，但音频帧时长仅为0.7s，以100ms的滑动步长在模板音频滑动200ms的滑动窗口时，需要滑动8次，以100ms的滑动步长在模音频帧中200ms的滑动窗口时，需要滑动5次，因此，可以根据滑动次数的差值与每次滑动的滑动步长计算出时长差为300ms。控制器250即可根据以时长差为长度提取历史音频数据与音频数据执行拼接。

由于第一唤醒模型基于原始的音频数据执行语音识别，而第二唤醒模型基于拼接后的音频数据执行语音识别，因此，第一唤醒模型的所消耗的功耗大于第二唤醒模型消耗的功耗，为了减少显示设备200的功耗消耗，本申请实施例在音频数据通过第一唤醒模型的语音识别后，在通过功耗更大的第二唤醒模型进一步对音频数据执行语音识别，实现低功耗的语音唤醒。

在控制器250通过第一唤醒模型和第二唤醒模型对音频数据执行语音识别之前，还需要对第一唤醒模型和第二唤醒模型执行特定的训练过程。

在一些实施例中，在对第一唤醒模型执行训练时，控制器250可以获取用户输入的第一训练集，第一训练集中包括预先录制的预唤醒词的语音样本。第一唤醒模型可以基于预唤醒词对预唤醒词的语音样本中的音频帧赋予分类标签，但是，由于预唤醒词的语音样本中包括大量的音频帧，第一唤醒模型赋予音频帧的分类标签存在一定的误差，从而影响第一唤醒模型语音识别的准确性，降低唤醒效率。

为了减少第一唤醒模型在执行语音识别中产生的误差，第一唤醒模型可以将max-pooling loss作为第一损失函数执行训练。其中，max-pooling loss公式为：

其中，为第一唤醒模型的训练损失，T为输入第一唤醒模型的音频帧长度，为音频中非预唤醒词的音频帧，/>表示音频帧中非预唤醒词概率，/>表示音频帧中预唤醒词概率，/>表示预唤醒词概率的最大值。

max-pooling loss损失函数可以将输入的语音样本中的音频帧区别为预唤醒词语音帧和非预唤醒词语音帧，控制器250可以通过第一唤醒模型计算预唤醒词语音帧的预唤醒词概率，以及，通过第一唤醒模型计算非预唤醒词语音帧的非预唤醒词概率，并根据非预唤醒词概率和预唤醒词概率的最大值对第一唤醒模型执行迭代训练，以更新第一唤醒模型的模型参数。

为了准确输出识别概率，第一唤醒模型对于预唤醒词语音帧选取最大的识别概率，而对于非预唤醒词语音帧，第一唤醒模型需要关注所有非预唤醒词语音帧的识别概率，以使非预唤醒词的识别概率更低，从而减少非预唤醒词的语音帧对语音识别的影响。

在一些实施例中，在对第二唤醒模型执行训练时，控制器250可以获取用户输入的第二训练集，第二训练集中包括预先录制的唤醒词的语音样本。第二唤醒模型的第二损失函数可以为交叉熵损失函数，为了减少第二唤醒模型在执行语音识别中产生的误差，可以通过标签平滑策略对交叉熵损失函数执行融合，并通过融合后的损失函数训练第二唤醒模型，以减少语音识别误差。融合后的交叉熵损失函数为：

其中，L_cross-entroy为第二唤醒模型的训练损失，K为唤醒词的类别数量，为标签平滑的数学形式，P_i为分布概率。

其中，y_one-hot为，独热编码的标签向量，y_i为更新的标签向量，α为超参数，通常为0.1。

在控制器250将第二训练集输入至第二唤醒模型后，第二唤醒模型会计算唤醒词的语音样本中的唤醒词概率，并通过第二损失函数基于唤醒词概率对第二唤醒模型执行迭代训练，以更新第二唤醒模型的模型参数，从而提高第二唤醒模型的语音识别精度。

显示设备200在从待机模式切换至工作模式后，会执行用户发送的其他控制指令，显示设备200在短时间内不会被再次唤醒，因此，为了节省功耗，控制器250可以停止运行第一唤醒模型和第二唤醒模型。

在一些实施例中，在显示设备200被唤醒，控制器250控制显示器260显示用户界面之后，控制器250还可以获取第一唤醒模型的第一任务进程，以及，获取第二唤醒模型的第二任务进程，并挂起第一任务进程和第二任务进程，以停止运行第一唤醒模型和第二唤醒模型，从而避免在显示设备200再次从工作模式切换至待机模式后，重新运行第一唤醒模型和第二唤醒模型，以减少功耗。

在显示设备200长时间没有接收到用户的控制指令后，显示设备200从工作模式切换至待机模式，控制器250可以恢复运行第一任务进程和第二任务进程。在控制器250获取第一任务进程和第二任务进程后，由于显示设备200在短时间内不会被再次唤醒，因此，可以根据第一任务进程和第二任务进程控制音频输入接口关闭。

在音频输入接口关闭后，控制器250可以监听用户界面的操作事件，在显示设备200执行用户输入的控制指令时，会生成操作事件，说明显示设备200正在运行。当操作事件结束后，控制器250可以根据预设的待机判定时长执行计时，例如，待机判定时长可以设置为3min，当计时时长大于或等于3min时，说明在3min内用户界面没有产生操作事件，控制器250可以将显示设备200从工作模式切换为待机模式，并开启音频输入接口，获取音频数据，以恢复运行第一唤醒模型的第一任务进程和第二唤醒模型的第二任务进程。若在待机判定时长内，控制器250再次监听到用户界面的操作事件，控制器250停止计时并初始化计时时长，在新的操作事件结束后，再次执行计时。

本申请的部分实施例还提供一种语音唤醒方法，所述方法应用于上述记载的显示设备200，所述显示设备200应至少包括显示器260、存储器、音频输入接口和控制器250，所述显示器260被配置为显示用户界面或显示待机界面，所述存储器中存储有第一唤醒模型和第二唤醒模型，所述音频输入接口被配置为获取音频数据，所述方法包括：

S100：在所述显示器显示所述待机界面时，响应于用户输入的语音唤醒指令，通过所述音频输入接口获取音频数据；

S200：提取所述音频数据的音频特征；

S300：基于预唤醒词，通过所述第一唤醒模型对所述音频特征执行语音识别，得到第一识别概率，所述预唤醒词为唤醒词中包含的预设词语，所述第一识别概率用于表征所述音频数据中包括预唤醒词的概率；

S400：若所述第一识别概率大于第一识别概率阈值，则基于唤醒词，通过所述第二唤醒模型对所述音频特征执行语音识别，得到第二识别概率,所述第二识别概率用于表征所述音频数据中包括唤醒词的概率；

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品可以存储在计算机可读存储介质中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释本公开内容，从而使得本领域技术人员更好的使用所述实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器，被配置为显示用户界面或显示待机界面；

存储器，所述存储器中存储有第一唤醒模型和第二唤醒模型；

音频输入接口，被配置为获取音频数据；

控制器，被配置为：

提取所述音频数据的音频特征；

若所述第一识别概率大于第一识别概率阈值，则基于唤醒词，通过所述第二唤醒模型对所述音频特征执行语音识别，得到第二识别概率，所述第二识别概率用于表征所述音频数据中包括唤醒词的概率；

2.根据权利要求1所述的显示设备，其特征在于，所述控制器执行提取所述音频数据的音频特征前，还被配置为：

获取所述音频数据对应的音频帧；

3.根据权利要求2所述的显示设备，其特征在于，若所述第一识别概率小于第一识别概率阈值，所述控制器执行控制所述显示器显示所述用户界面后，还被配置为：

根据当前时间点更新音频数据；

将预设比例的所述音频数据缓存为历史音频数据。

4.根据权利要求2所述的显示设备，其特征在于，所述控制器基于时长差提取历史音频数据前，还被配置为：

根据所述滑动次数计算所述时长差。

5.根据权利要求1所述的显示设备，其特征在于，所述控制器执行通过所述第一唤醒模型对所述音频特征执行语音识别前，还被配置为：

6.根据权利要求1所述的显示设备，其特征在于，所述控制器执行通过所述第二唤醒模型对所述音频特征执行语音识别前，还被配置为：

基于标签平滑策略设置所述第二唤醒模型的第二损失函数；

7.根据权利要求1所述的显示设备，其特征在于，所述控制器执行控制所述显示器显示所述用户界面后，还被配置为：

8.根据权利要求7所述的显示设备，其特征在于，所述控制器停止运行所述第一唤醒模型和所述第二唤醒模型后，还被配置为：

监听所述用户界面的操作事件；

9.根据权利要求1所述的显示设备，其特征在于，所述控制器执行提取所述音频数据的音频特征，被配置为：

对所述音频数据执行傅里叶变换，得到音频光谱；

10.一种语音唤醒方法，其特征在于，应用于显示设备，所述显示设备包括显示器、存储器、音频输入接口和控制器，所述显示器被配置为显示用户界面或显示待机界面，所述存储器中存储有第一唤醒模型和第二唤醒模型，所述音频输入接口被配置为获取音频数据，所述方法包括：

提取所述音频数据的音频特征；