CN117809652A

CN117809652A - 电子设备及电子设备的音频数据处理方法

Info

Publication number: CN117809652A
Application number: CN202311472288.8A
Authority: CN
Inventors: 杨毅; 季云云
Original assignee: Hisense Electronic Technology Shenzhen Co ltd
Current assignee: Hisense Electronic Technology Shenzhen Co ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-04-02

Abstract

本公开提供一种电子设备及电子设备的音频数据处理方法，涉及音频处理技术领域；方法包括：接收用户输入的待识别音频信号；之后，基于目标语音处理模型中的目标语音识别子模型对待识别音频信号进行处理，得到目标语音信号；再之后，基于目标语音处理模型中的目标关键词获取子模型对语音信号进行处理，得到关键词语音信号；最后，基于目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对关键词语音进行分类处理，得到目标关键词；如此，通过目标语音处理模型对待识别音频信号进行多级判别，以获取目标关键词；这样能够提高关键词的识别精度，降低语音唤醒模块的误唤醒概率。

Description

电子设备及电子设备的音频数据处理方法

技术领域

本公开涉及音频处理技术领域，尤其涉及一种电子设备及电子设备的音频数据处理方法。

背景技术

语音唤醒(KeyWord Spotting，KWS)系统持续处理音频流来检测关键词。然而，音频流中大部分音频包含非关键词语音或非语音(又称为“噪声”)，因此在大部分时间里，KWS系统处理的是包含非关键词语音或非语音(也称为噪声)的音频，使得KWS系统容易误报。在家具环境中，当用户在观看电视(电器)或者进行语音交互时，若KWS系统误报，则可能导致电视被误唤醒，这样会影响用户的使用体验。

现有技术中，可以将训练的数据分成两个类别：包含关键词的标签(正样本)和不包含关键词的标签(负样本)，之后加入尽量多的负样本来降低语音唤醒模块(KWS系统)的误唤醒的概率，但是因为训练的数据量远小于真实环境的数据量，因此导致对语音唤醒模块误唤醒的改善效果有限；还可以采用分时间段唤醒开关来控制误唤醒的比率；比如，对于晚上或者休息时间关掉语音唤醒模块。但这样无法实现全天候实时的检测环境是否会有唤醒词，从而影响用户使用语音唤醒模块的体验。

发明内容

为了解决上述技术问题，本公开提供了一种电子设备及电子设备的音频数据处理方法，能够通过比对前后段缓存的音频数据，根据比对结果对前后段音频数据进行调整，并得到目标音频数据；如此，目标音频数据中前后段音频数据过渡平滑，能够提升用户的观影体验。

本公开的技术方案如下：

第一方面，本公开提供一种电子设备，包括：

通信器，被配置为接收用户输入的待识别音频信号；

控制器，与所述通信器耦接，且被配置为：

基于目标语音处理模型中的目标语音识别子模型对所述待识别音频信号进行处理，得到目标语音信号；

基于所述目标语音处理模型中的目标关键词获取子模型对所述目标语音信号进行处理，得到关键词语音信号；

基于所述目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对所述关键词语音进行分类处理，得到目标关键词。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，具体被配置为：

基于所述目标语音识别子模型，对所述待识别音频信号中的音频帧进行识别，并将所述待识别音频信号中包含语音的音频帧确定为所述目标语音信号。

基于所述目标关键词获取子模型，对所述目标语音信号中的音频帧进行识别，并将所述语音信号中包含关键词语音的音频帧确定为所述关键词语音信号。

基于所述目标关键词分类子模型，对所述关键词语音与所述关键词集中各关键词进行匹配处理，并将所述关键词集中与所述关键词语音匹配度最高的所述关键词确定为所述目标关键词。

获取样本音频信号和样本输出数据；所述样本音频输出数据包括样本语音信号、样本关键词语音信号和样本关键词；

基于所述初始语音处理模型对所述样本音频信号进行处理，得到预测输出数据；所述预测输出数据包括预测语音信号、预测关键词语音信号和预测关键词；

以所述预测输出数据作为所述初始语音处理模型的初始训练输出，所述样本输出数据作为监督信息，迭代训练所述初始语音处理模型得到所述目标语音处理模型。

结合第一方面和上述可能的实现方式，在另一种可能的实现方式中，控制器，还被配置为：

基于所述初始语音处理模型中的初始语音识别子模型，对所述样本音频信号进行处理，得到所述预测语音信号；

基于所述初始语音处理模型中的初始关键词获取子模型，对所述预测语音信号进行处理，得到所述预测关键词语音信号；

基于所述初始语音处理模型中的初始关键词分类子模型，对所述预测关键词语音信号进行处理，得到所述预测关键词。

基于第一损失函数，以及所述预测语音信号和所述样本语音信号，确定第一损失值；

基于第二损失函数，以及所述预测关键词语音信号和所述样本关键词语音信号，确定第二损失值；

基于第三损失函数，以及所述预测关键词和所述样本关键词，确定第三损失函数；

根据所述第一损失值、所述第二损失值和所述第三损失值，迭代更新所述初始语音处理模型，得到所述目标语音处理模型。

对初始音频信号进行特征提取，得到所述初始音频信号对应的初始音频特征；

对所述音频特征进行卷积处理，得到所述样本音频信号。

第二方面，本公开提供一种电子设备的音频数据处理方法，其特征在于，包括：

接收用户输入的待识别音频信号；

基于所述目标语音处理模型中的目标关键词获取子模型对所述语音信号进行处理，得到关键词语音信号；

结合第二方面和上述可能的实现方式，在另一种可能的实现方式中，所述方法还包括：

第三方面，本发明提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第二方面提供的方法步骤。

第四方面，本发明提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第二方面提供的任一项的方法步骤。

本申请实施例提供一种电子设备及电子设备的音频数据处理方法，电子设备的音频数据处理方法包括：接收用户输入的待识别音频信号；之后，基于目标语音处理模型中的目标语音识别子模型对所述待识别音频信号进行处理，得到目标语音信号；再之后，基于所述目标语音处理模型中的目标关键词获取子模型对所述语音信号进行处理，得到关键词语音信号；最后，基于所述目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对所述关键词语音进行分类处理，得到目标关键词；如此，通过目标语音处理模型对待识别音频信号进行多级判别，即从是否是语音，是否含有关键词语音和含有哪个关键词三个分支进行音频处理，以获取目标关键词；这样能够提高关键词的识别精度，降低语音唤醒模块的误唤醒概率，保证用户使用语音唤醒模块的体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种电子设备的音频数据处理方法的操作场景示意图；

图2为本申请实施例提供的一种控制装置的结构示意图；

图3为本申请实施例提供的一种电子设备的硬件结构示意图；

图4为本申请实施例提供的一种电子设备的音频数据处理方法的流程示意图；

图5为本申请实施例提供的一种目标语音处理模型的结构示意图；

图6为本申请实施例提供的另一种电子设备的音频数据处理方法的流程示意图；

图7为本申请实施例提供的又一种电子设备的音频数据处理方法的流程示意图；

图8为本申请实施例提供的一种初始语音处理模型的训练流程示意图；

图9为本申请实施例提供的又一种电子设备的音频数据处理方法的流程示意图；

图10为本申请实施例提供的一种初始语音处理模型的结构示意图；

图11为本申请实施例提供的又一种电子设备的音频数据处理方法的流程示意图；

图12为本申请实施例提供的一种电子设备的组成示意图；

图13为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

本申请中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

从移动设备到家用电器，语音唤醒(KeyWord Spotting，KWS)系统是人机交互的基石。KWS系统持续处理音频流来检测关键词。然而，音频流中大部分音频包含非关键词语音或非语音(又称为“噪声”)，因此在大部分时间里，KWS系统处理的是包含非关键词语音或非语音(也称为噪声)的音频，使得KWS系统容易误报；如，一个始终保持开启状态的KWS系统的误报率为5％，意味着KWS系统每0.1秒处理一秒的音频，这导致每小时1800次误报。在家具环境中，当用户在观看电视(电器)或者进行语音交互时，若KWS系统误报，则可能导致电视被误唤醒，这样会影响用户的使用体验。且KWS系统检测到关键词后，将会触发其他系统，如，自动语音识别(Automatic Speech Recognition，ASR)系统；并将不必要地记录和用户音频上传到云端，导致用户隐私泄露。

针对上述问题，本申请实施例提供一种电子设备及电子设备的音频数据处理方法，通过目标语音处理模型对待识别音频信号进行多级判别，即从待识别音频信号是否是语音，是否含有关键词语音和含有哪个关键词三个分支进行，以获取目标关键词；这样能够提高关键词的识别精度，降低语音唤醒模块的误唤醒概率，保证用户使用语音唤醒模块的体验。

下面对本申请实施例提供的应用于电子设备的音频数据处理方法进行描述。本申请实施方式提供的电子设备可以具有多种实施形式，例如，可以是电视机、智能电视、激光投影设备、电子白板(electronic bulletin board)、电子桌面(electronic table)等具有显示器的电子设备，也可以是音响、空调等不具有显示器的电子设备。本申请实施例在此对电子设备的具体形态不做限制。本申请实施例中以电子设备为电视机为例进行示意说明。

图1为根据实施例中电子设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备400或控制装置200操作电视机300。

在一些实施例中，控制装置200可以是遥控器，遥控器和电视机300的通信包括红外协议通信，及其他短距离通信方式，通过无线或有线方式来控制电视机300。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制电视机300。

在一些实施例中，用户也可以使用智能设备400(如移动终端、平板电脑、计算机、笔记本电脑等)控制电视机300。例如，使用在智能设备上运行的应用程序控制电视机300。

在一些实施例中，电视机300可以不从上述的智能设备400或控制装置200接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，电视机300还可以采用除了控制装置200和智能设备400之外的方式进行控制，例如，可以通过电视机300设备内部配置的获取语音指令的模块直接接收用户的语音指令，也可以通过电视机300设备外部设置的语音控制设备来接收用户的语音指令。

在一些实施例中，电视机300还与服务器500进行数据通信。可允许电视机300通过局域网(Local Area Network，LAN)、无线局域网(Wireless Local Area Networks，WLAN)和其他网络进行通信连接。服务器500可以向电视机300提供各种内容和互动(例如，音视频数据、网络连接数据)。服务器500可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

示例性地，图2示出了本申请实施例中控制装置200的配置框图。如图2所示，控制装置200包括控制器210、通信接口220、用户输入/输出接口230、存储器、供电电源。控制装置200可接收用户的输入操作指令，且将操作指令转换为电视机300可识别和响应的指令，起用户与电视机300之间交互的中介作用。

示例性地，图3示出了本申请实施例提供的一种电视机的结构示意图。

如图3所示，电视机300包括调谐解调器310、通信器320、检测器330、外部装置接口340、控制器350、显示器360、音频输出接口370、存储器、供电电源、用户接口380中的至少一种。

在一些实施例中，控制器350包括：中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

显示器360包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器350输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控用户界面(Use Interface，UI)。

显示器360可为液晶显示器、有机发光二极管(Organic Light-Emitting Diode，OLED)显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器320是用于根据各种通信协议类型与外部设备进行通信的组件。例如：通信器320可以包括无线网络通信技术Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外模块(如，红外接收器和红外发射器)中的至少一种。电视机300可以通过通信器320与控制装置200建立连接，以收发信息(如，控制信号和数据信号)。

用户接口380，可用于接收控制装置200的控制信号。

检测器330用于采集外部环境或与外部交互的信号。例如，检测器330包括光接收器，用于采集环境光线强度的传感器；或者，检测器330包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器330包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口340可以包括但不限于如下：高清多媒体接口(High DefinitionMultimedia Interface，HDMI)、模拟或数据高清分量输入接口(可以称为分量)、复合视频输入接口CVBS、通用串行总线(Universal Serial Bus，USB)输入接口(可以称为USB口)等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器310通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器350和调谐解调器310可以位于不同的分体设备中，即调谐解调器310也可在控制器350所在的主体设备的外置设备中，如外置机顶盒等。

控制器350，通过存储在存储器上中各种软件控制程序，来控制电视机300的工作和响应用户的操作。控制器350控制电视机300的整体操作。例如：控制器350响应于用户输入的语音指令，获取待识别语音数据(待识别音频信号)并与用户进行对话行为。

用户可在显示器360上显示的用户界面UI输入用户命令，则用户输入接口通过用户界面UI接收用户输入命令。

“用户界面UI”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电视机300的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、微件Widget等可视的界面元素。

以下实施例中的方法均可以在具有上述硬件结构或软件结构的电子设备中实现。以下实施例中以上述电子设备是电视机300为例，对本申请实施例的方法进行说明。

本申请实施例提供一种电子设备的音频数据处理方法。如图4所示，电子设备的音频数据处理方法包括S401-S404。

S401、接收用户输入的待识别音频信号。

在一些实施例中，电视机300接收用户输入的待识别音频信号。其中，待识别音频信号为用户通过任何可行的语音输入方式输入的音频数据。待识别音频信号中包含语音、非语音、关键词语音和非关键词语音。语音表示人声，非语音表示噪声，关键词语音表示包含关键词的语音，非关键语音表示不包含关键词的语音。

示例性地，用户可以向电视机300输入待识别音频信号“XX，我想看电视，请打开视频播放器”。

需要说明的是，待识别音频信号包括但不限于由不同性别、不同年龄段的人在不同的噪音环境下发出的待识别音频信号、不同语音语调的待识别音频信号、不同音量的待识别音频信号、不同语速的待识别音频信号、不同方言的待识别音频信号等。例如，唤醒词样本可以是八岁儿童在打闹时发出的拖长声音的待识别音频信号、六十岁奶奶在安静环境中发出的待识别音频信号、三十岁女性在嘈杂的厨房发出的待识别音频信号等。又例如，待识别音频信号可以是在30dB安静场景下发出的声音；也可以是在65-80dB嘈杂噪音场景下发出的声音。本申请实施例对此不作限定。

在一些实施例中，电视机300在接通电源且系统(如，KWS系统)处于运行状态的情况下，执行S401，以获取待识别音频信号。

S402、基于目标语音处理模型中的目标语音识别子模型对待识别音频信号进行处理，得到目标语音信号。

在一些实施例中，电视机300将执行S401接收到的待识别音频信号输入至目标语音处理模型中，目标语音处理模型中的目标语音识别子模型对待识别音频信号进行处理，得到目标语音信号。其中，目标语音信号为待识别音频信号中包含语音的音频帧。

示例性地，若待识别音频信号为“XX，我想看电视，请打开视频播放器”。目标语音信号为包含“XX，我想看电视，请打开视频播放器”的音频帧。

在一些实施例中，基于目标语音识别子模型，对待识别音频信号中的音频帧进行识别，并将待识别音频信号中包含语音的音频帧确定为目标语音信号。

示例性地，电视机300通过目标语音处理模型中的目标语音识别子模型对待识别音频信号进行处理，以识别待识别音频信号中的每帧音频帧，从待识别音频信号中多个音频帧中识别出包含语音的音频帧。之后，将待识别音频信号中包含语音的音频帧确定为目标语音信号。

S403、基于目标语音处理模型中的目标关键词获取子模型对目标语音信号进行处理，得到关键词语音信号。

在一些实施例中，电视机300将执行S402得到的目标语音信号输入至目标语音处理模型中，目标语音处理模型中的目标关键词获取子模型对目标语音信号进行处理，得到关键词语音信号。

示例性地，若目标语音信号为“XX，我想看电视，请打开视频播放器”，则关键词语音信号为包含“XX”和“打开视频播放器”的音频帧。

在一些实施例中，基于目标关键词获取子模型，对目标语音信号中的音频帧进行识别，并将语音信号中包含关键词语音的音频帧确定为关键词语音信号。

示例性地，电视机300通过目标语音处理模型中的目标关键词获取子模型对目标语音信号进行识别，以识别目标语音信号中的每帧音频帧，从目标语音信号中多个音频帧中识别出包含关键词语音的音频帧。之后，将目标语音信号中包含关键词语音的音频帧确定为关键词语音信号。即关键词语音信号表征待识别音频信号中既包含语音还包含关键词的语音帧。

S404、基于目标语音处理模型中的目标关键词分类子模型和预设的关键词集，对关键词语音进行分类处理，得到目标关键词

在一些实施例中，电视机300将执行S403得到的关键词语音信号输入至目标关键词分类子模型，目标语音处理模型中的目标关键词分类子模型基于预设的关键词集对关键词语音信号进行分类处理，得到目标关键词。

示例性地，若关键词语音信号为包含“XX”和“打开视频播放器”的音频帧，基于预设的关键词集对关键词语音信号进行分类处理，得到目标关键词“XX”和“打开视频播放器”。

在一些实施例中，基于目标关键词分类子模型，对关键词语音与关键词集中各关键词进行匹配处理，并将关键词集中与关键词语音匹配度最高的关键词确定为目标关键词。

示例性地，电视机300通过目标语音处理模型中的目标关键词分类子模型将关键词语音信号与预设的关键词集中各关键词进行匹配，得到关键词语音信号与关键词集中各关键词的匹配度。之后，将关键词集中与关键词语音匹配度最高的关键词确定为目标关键词。

在一些实施例中，电视机300执行S404得到目标关键词后，能够目标关键词进入唤醒状态，或者，基于目标关键词执行目标关键词对应的操作。

示例性地，电视机300可以根据目标关键词“XX”进入唤醒状态，之后，根据目标关键词“打开视频播放器”，打开视频播放器并控制显示器显示视频播放器对面的用户界面。

需要说明的是，目标关键词可以包括预设的关键词集中的任一关键词，还可以为用户自定义的唤醒词。本申请实施例对此不作限定，在本申请中，目标关键词为“XX”中，X可以为任意字符或者就为“X”字母本身。

在一些实施例中，若电视机300可以根据目标关键词进入唤醒状态后，执行目标关键词对应的操作；还可以根据目标关键词进入唤醒状态，并以语音形态或文字形态输出“在呢”或其他信息，以提示用户输入后续的待识别音频信号；还可以根据目标关键词执行目标关键词对应的操作。本申请实施例对此不作限定。

在一些实施例中，目标语音处理模型包括目标基础子模型、目标语音识别子模型、目标关键词获取子模型和目标关键词分类子模型。其中，目标语音识别子模型用于将待识别音频信号分类为人类语音(目标语音信号)或其他类型；目标关键词获取子模型用于将目标语音信号分类为关键词语音(关键词语音信号)和非关键词语音；目标关键词分类子模型用于将关键词语音信号分类为关键词集中的关键词之一或其他类型。

示例性地，目标语音处理模型基于公式1-1至公式1-3进行构建得到，公式1-1至公式1-3如下所示：

p(c_n|x)＝probability of x being keyword c_n 公式1-1

p(c_n|x)＝p(c_n|k＝1,s＝1,x)p(k＝1|s＝1,x)p(s＝1|x) 公式1-3

其中，c_n表示第n个关键词，x表示音频帧，s和k为随机变量，在音频帧x包含语音时s为1，音频帧x不包含语音时s为0；在音频帧x包含关键词语音时k为1，音频帧x不包含关键词语音时k为0；p(s＝1|x)表示目标语音识别子模型对应的输出概率；p(k＝1|s＝1,x)表示目标关键词获取子模型对应的输出概率；p(c_n|k＝1,s＝1,x)表示目标关键词分类子模型对应的输出概率。

图5示出了一种目标语音处理模型的结构示意图，如图5所示，在一些实施例中，电视机300将待识别音频信号输入至目标语音处理模型中的目标基础子模型(base model)，由base model将待识别音频信号输入至目标语音识别子模型(Final layer3)中。Finallayer3对待识别音频信号进行处理，将非语音的语音帧去除，以得到包含语音的音频帧并输出至Final layer2，即Final layer3输出目标语音信号至目标关键词获取子模型(Finallayer2)。之后，Final layer2对包含语音的音频帧进行处理(如，分类)，将非关键词语音的语音帧去除，以得到包含关键词语音的语音帧并输出至Final layer1，即Final layer2输出关键词语音信号至目标关键词分类子模型。最后，Final layer1对包含关键词语音的语音帧进行分类，以确定包含关键词语音的语音帧属于哪个关键词，即确定关键词语音信号对应的目标关键词。其中，目标语音识别子模型和目标关键词获取子模型采用sigmoid激活函数，目标关键词分类子模型采用softmax激活函数。sigmoid激活函数和softmax激活函数均为现有技术，此处不再赘述。

示例性地，目标语音处理模型中的目标基础子模型可以是卷积神经网络(Convolutional Neural Networks，CNN)和全连接层(fully connected layer，FC)的结合，还可以是时延神经网络(Time-Delay Neural Network，TDNN)或者TC残差网络(TC-ResNet)。本申请实施例对目标基础子模型的结构不作限定，以下实施例中将以目标基础子模型是卷积神经网络(Convolutional Neural Networks，CNN)和全连接层(fullyconnected layer，FC)的结合为例进行示例性说明。

本申请实施例通过目标语音处理模型中的不同子模型(目标语音识别子模型、目标关键词获取子模型和目标关键词分类子模型)对待识别音频信号进行分级多级判别；这样能够提高关键词的识别精度，降低语音唤醒模块的误唤醒概率，保证用户使用语音唤醒模块的体验。

为了提高关键词的识别准确度，可以预先对未训练好的语音处理模型，即初始语音处理模型进行模型训练，以得到前述实施例中使用的目标语音处理模型。

如图6所示，在一些实施例中，本申请实施例提供的电子设备的音频数据处理方法，还包括S601-S603。

S601、获取样本音频信号和样本输出数据。

其中，样本音频输出数据包括样本语音信号、样本关键词语音信号和样本关键词。

示例性地，样本音频信号可以是电子设备在历史音频数据处理过程中的历史音频信号，也可以是基于网络获取到的音频信号，还可以是对初始音频信号进行处理后得到的音频信号。本申请实施例对此不作限定，下述实施例中将以对初始音频信号进行处理后得到的样本音频信号为例进行示例性说明。

在一些实施例中，样本语音信号为样本音频信号中包含语音的语音帧。样本关键词语音信号为样本音频信号中既包含语音还包含关键词的语音帧，即关键词语音信号为样本语音信号中包含关键词的语音帧。样本关键词为样本语音信号对应的关键词。

在一些实施例中，如图7所示，S601可以包括S6011-S6012。

S6011、对初始音频信号进行特征提取，得到初始音频信号对应的初始音频特征。

示例性地，初始音频信号可以从网上获取，也可以以音频的形式自行录制，本申请实施例对此不作限定。

S6012、对音频特征进行卷积处理，得到样本音频信号。

示例性地，图8示出的一种初始语音处理模型的训练流程示意图；如图8所示，将初始音频信号输入特征提取模块，通过特征提取模块对初始音频信号进行特征提取，以得到初始音频信号对应的音频特征(如，梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)或频谱特征(FBank))。其中，可以通过离散余弦变换(DCT forDiscrete Cosine Transform，DCT)或短时傅里叶变换(short-time Fourier transform，STFT)，将时域上的初始音频信号转换至频谱上，进而完成特征提取。在初始音频信号完成特征提取后，将得到的音频特征输入至卷积神经网络(Convolutional Neural Networks，CNN)和全连接层(fully connected layer，FC)中，以完成音频特征的卷积处理，得到样本音频信号并输出；即将得到的音频特征输入至初始语音处理模型中的初始基础子模型中。

在一些实施例中，特征提取模块可以单独设置，也可以作为初始语音处理模型中初始基础子模型的一部分，还可以与初始语音处理模型中的初始基础子模型链接。本申请实施例对此不作限定。

S602、基于初始语音处理模型对样本音频信号进行处理，得到预测输出数据。

其中，预测输出数据包括预测语音信号、预测关键词语音信号和预测关键词。

在一些实施例中，预测语音信号为初始语音处理模型对样本音频信号进行处理后得到的包含语音的语音帧。预测关键词语音信号为初始语音处理模型对预测音频信号进行处理后得到的既包含语音还包含关键词的语音帧，即预测语音信号中包含关键词的语音帧。预测关键词为初始语音处理模型对预测关键词语音信号进行分类后得到的关键词。

在一些实施例中，如图9所示，S602可以包括S6021-S6023。

S6021、基于初始语音处理模型中的初始语音识别子模型，对样本音频信号进行处理，得到预测语音信号。

S6022、基于初始语音处理模型中的初始关键词获取子模型，对预测语音信号进行处理，得到预测关键词语音信号。

S6023、基于初始语音处理模型中的初始关键词分类子模型，对预测关键词语音信号进行处理，得到预测关键词。

在一些实施例中，如图10所示，执行S602或S6021-S6023时，可以通过公式1-3模拟样本音频信号在网络中的流动。如，通过初始语音识别子模型传递数据(样本音频信号)，以模拟概率p(s＝1|x)；将样本音频信号中仅包含语音的音频帧(预测语音信号)通过初始关键词获取子模型进行处理，以模拟概率p(k＝1|s＝1,x)。将样本音频信号中仅包含关键词语音的音频帧(预测关键词语音信号)通过初始关键词分类子模型进行分类，确定预测关键词语音信号属于哪个关键词，以模拟概率p(c_n|k＝1,s＝1,x)。

S603、以预测输出数据作为初始语音处理模型的初始训练输出，样本输出数据作为监督信息，迭代训练初始语音处理模型得到目标语音处理模型。

如图11所示，在一些实施例中，S603可以包括S6031-S6034。

S6031、基于第一损失函数，以及预测语音信号和样本语音信号，确定第一损失值。

示例性地，为了使预测语音信号尽可能的接近样本语音信号，可以采用二分类加权焦点损失函数确定第一损失值，即第一损失函数可以是二分类加权焦点损失函数。其中，二分类加权焦点损失函数为现有技术，此处不再赘述。

S6032、基于第二损失函数，以及预测关键词语音信号和样本关键词语音信号，确定第二损失值。

示例性地，为了使预测关键词语音信号尽可能的接近样本关键词语音信号，可以采用二分类加权焦点损失函数确定第二损失值，即第二损失函数可以是二分类加权焦点损失函数。

S6033、基于第三损失函数，以及预测关键词和样本关键词，确定第三损失函数。

示例性地，为了使预测关键词尽可能的接近样本关键词，可以采用归一化指数损失函数(softmax损失函数)确定第三损失值，即第三损失函数可以是softmax损失函数。其中，softmax损失函数为现有技术，此处不再赘述。

S6034、根据第一损失值、第二损失值和第三损失值，迭代更新初始语音处理模型，得到目标语音处理模型。

示例性地，初始语音处理模型的总损失函数为第一损失函数、第二损失函数和第三损失函数的加权和，初始语音处理模型的总损失函数L如公式1-4所示。

L＝L_softmax+λ₁L_{keyword branch}+λ₂L_{speech branch} 公式1-4

其中，L_softmax为第三损失函数，L_{keyword branch}为第二损失函数，L_{speech branch}为第一损失函数，λ₁为第二损失函数对应的权重，λ₂为第一损失函数对应的权重。

可以理解的，通过第一损失函数、第二损失函数和第三损失函数可以分别得到第一损失值、第二损失值和第三损失值，再结合公式1-4可以得到初始语音处理模型的总损失值，根据该总损失值可以不断的迭代优化初始语音处理模型，直到总损失值满足预设条件，则可得到能够准确识别出关键词的目标语音处理模型。

需要说明的是，每个损失函数中不同类别的权重可以与该类别中样本的数量成反比。在反向传播过程中，每个子模型(初始语音识别子模型、初始关键词获取子模型和初始关键词分类子模型)可以只接收来自其损失的梯度(例如，初始关键词分类子模型只接收来自初始关键词获取子模型的梯度，初始关键词获取子模型只接收来自初始语音识别子模型的梯度)。但是，初始基础子模型接收来自三个损失的梯度，即初始基础子模型接收来自初始关键词分类子模型的梯度、来自初始关键词获取子模型的梯度和来自初始语音识别子模型的梯度。

为了验证训练好的初始语音处理模型(目标语音处理模型)在实际应用场景中的应用情况。在一些实施例中，初始语音处理模型训练好后，可以利用训练好的初始语音处理模型(目标语音处理模型)进行推理判决。

示例性地，设输入的音频信号为x，关键词集为{1，…,N}；则训练好的初始关键词分类子模型(目标关键词分类子模型)基于关键词集{1，…,N}能够得到多项式分布p(c_n|k＝1,s＝1,x)：＝pc_n。训练好的初始关键词获取子模型(目标关键词获取子模型)对应的是否包含关键词的分布为p(k＝i|s＝1,x)：＝p_k＝i，训练好的初始语音识别子模型(目标语音识别子模型)对应的是否包含语音的分布式为p(s＝i|x)：＝p_s＝i，i∈{0，1}。如此，训练好的初始语音处理模型的总概率分布为p:＝[p_c1p_k＝1p_s＝1,...,p_cNp_k＝1p_s＝1,p_k＝0p_s＝1,p_s＝0]。设l^＝argmax{p[l]}，l∈{1,…，N+2}；若l^＝N+1则输出音频信号x为非关键词语音；如果l^＝N+2，则输出音频信号x为非语音。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备(如，电视机300)进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请的实施例还提供一种电子设备。如图12所示，电子设备1200，包括：

通信器1201，被配置为接收用户输入的待识别音频信号；

控制器1202，与所述通信器1201耦接，且被配置为：

在另一种可能的实现方式中，控制器1202，具体被配置为：

在另一种可能的实现方式中，控制器1202，还被配置为：

在另一种可能的实现方式中，控制器1202，具体被配置为：

对所述音频特征进行卷积处理，得到所述样本音频信号。

本申请实施例还提供一种电子设备，包括：第一处理器和第一存储器；该第一存储器用于存储计算机指令，当该电子设备运行时，该第一处理器执行该第一存储器存储的该计算机指令，以使该电子设备执行本申请实施例提供的电子设备的音频数据处理方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在电子设备和/或服务器上运行时，使得电子设备和/或服务器可以执行本申请实施例提供的音频数据处理方法。

例如，该计算机可读存储介质可以是ROM、RAM、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供一种包含计算机指令的计算机程序产品，当计算机指令在电子设备和/或服务器上运行时，使得电子设备和/或服务器可以执行本申请实施例提供的音频数据处理方法。

本申请实施例还提供一种装置(例如，该装置可以是芯片系统)，该装置包括处理器，用于支持电子设备和/或服务器实现本申请实施例提供的语音键盘输入识别方法。在一种可能的设计中，该装置还包括存储器，该存储器，用于保存电子设备和/或服务器必要的程序指令和数据。该装置是芯片系统时，可以由芯片构成，也可以包含芯片和其他分立器件。

示例性地，如图13所示，本申请实施例提供的芯片系统1300可以包括至少一个处理器1301和至少一个接口电路1302。该处理器1301可以是上述电视机300中的处理器。处理器1301和接口电路1302可通过线路互联。该处理器1301可以通过接口电路1302从上述电视机300的存储器接收并执行计算机指令。当计算机指令被处理器1301执行时，可使得电视机300执行上述实施例中电视机300执行的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置(如，第一控制设备，区域控制器)的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置(如，第一控制设备，区域控制器)和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置(如，第一控制设备，区域控制器)和方法，可以通过其它的方式实现。例如，以上所描述的装置(如，第一控制设备，区域控制器)实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种电子设备，其特征在于，包括：

通信器，被配置为接收用户输入的待识别音频信号；

控制器，与所述通信器耦接，且被配置为：

2.根据权利要求1所述的电子设备，其特征在于，所述控制器，具体被配置为：

3.根据权利要求1所述的电子设备，其特征在于，所述控制器，具体被配置为：

4.根据权利要求1所述的电子设备，其特征在于，所述控制器，具体被配置为：

5.根据权利要求1-4任一项所述的电子设备，其特征在于，所述控制器，还被配置为：

基于初始语音处理模型对所述样本音频信号进行处理，得到预测输出数据；所述预测输出数据包括预测语音信号、预测关键词语音信号和预测关键词；

6.根据权利要求5所述的电子设备，其特征在于，所述控制器，具体被配置为：

7.根据权利要求6所述的电子设备，其特征在于，所述控制器，具体被配置为：

8.根据权利要求5所述的电子设备，其特征在于，所述控制器，具体被配置为：

对所述音频特征进行卷积处理，得到所述样本音频信号。

9.一种电子设备的音频数据处理方法，其特征在于，包括：

接收用户输入的待识别音频信号；

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：