CN118280373A

CN118280373A - 一种电子设备及语音唤醒方法

Info

Publication number: CN118280373A
Application number: CN202211706760.5A
Authority: CN
Inventors: 朱飞; 陈楚林
Original assignee: Vidaa Netherlands International Holdings BV
Current assignee: Vidaa Netherlands International Holdings BV
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2024-07-02

Abstract

本申请一些实施例示出一种电子设备及语音唤醒方法，所述方法包括：控制声音采集器收集音频数据；如果所述音频数据中包括唤醒关键词，提取所述音频数据的第一声纹特征信息；如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配，则确定所述音频数据的发出者为已注册声纹的用户，所述第二声纹特征信息为根据用户录入音频数据提取并存储在个人声纹库中的声纹特征信息；唤醒语音助手的语音识别系统。本申请实施例在电子设备上提供声纹提取和存储能力，通过将音频数据提取的声纹特征与个人声纹库中的声纹特征匹配的方式来抑制非声纹注册用户的唤醒，在不显著增加计算资源的情况下，来降低语音助手误唤醒率。

Description

一种电子设备及语音唤醒方法

技术领域

本申请涉及电子设备技术领域，尤其涉及一种电子设备及语音唤醒方法。

背景技术

语音唤醒是语音交互场景中最常用的技术，用户通过语音说出一段特定的语音词汇，即唤醒词。例如用户通过说出“小X小X”来唤醒处于低功率待机状态下的语音助手的语音识别系统，以使音箱或电视对接下来用户的指令进行识别。语音唤醒技术中最重要的工作是唤醒词的识别，这个识别过程一般需要大量的关键词数据来进行训练。虽然唤醒词是固定的，但是在实际使用过程中，语音助手为了能够及时响应用户的语音请求，其语音识别系统一直都处于监控状态，需要随时从环境音、用户说话音、设备自发音(例如电视正在播放电视剧或者音乐)等复杂环境中第一时间将唤醒词识别出来。在这样的条件下，很容易造成误唤醒。

语音误唤醒的原因主要有几个方面：1)语音关键词检测模型准确率不够；2)环境音的干扰，比较常见的是语音助手有时候会被设备的自发音唤醒；3)语音助手一般会设置提示语句播报给用户，提示语句中包括唤醒关键词，语音助手在播报提示语句的时候，检测到了自己发出的关键词声音，被自唤醒。例如XX地图导航时，小X播报提示音：“您可以说，小X小X，我想去天安门”，该语音播报完后，小X在其自己设备音中检测到关键词“小X小X”被唤醒，然后播报：“在呢”。以上语音误唤醒可能导致用户在不需要语音服务时采集到用户的声音，需要用户去关闭语音服务；还可能在用户需要语音服务时，无法将用户的语音指令执行下去，用户体验差。

发明内容

本申请一些实施例提供了一种电子设备及语音唤醒方法，在电子设备上提供声纹提取和存储能力，通过将音频数据提取的声纹特征与个人声纹库中的声纹特征匹配的方式来抑制非声纹注册用户的唤醒，在不显著增加计算资源的情况下，来降低语音助手误唤醒率。

第一方面，本申请一些实施例中提供一种电子设备，包括：

声音采集器；

控制器，被配置为：

控制所述声音采集器收集音频数据；

如果所述音频数据中包括唤醒关键词，提取所述音频数据的第一声纹特征信息；

如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配，则确定所述音频数据的发出者为已注册声纹的用户，所述第二声纹特征信息为根据用户录入音频数据提取并存储在个人声纹库中的声纹特征信息；

唤醒语音助手的语音识别系统。

在一些实施例中，所述控制器，被配置为：

如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息不匹配，则将所述音频数据的声音信号时程输入到人机声音分类模型中，得到输出结果；

如果所述输出结果为人声，则唤醒语音助手的语音识别系统。

在一些实施例中，所述控制器执行提取所述音频数据的第一声纹特征信息，被进一步配置为：

将所述音频数据切分为数个第二预设长度的输入音频数据；

对所述输入音频数据的声音信号时程进行预加重、分帧和加窗，得到加窗后的声音信号时程；

对加窗后的声音信号时程进行快速傅里叶变换，得到频谱分布信息；

基于所述频谱分布信息确定能量谱；

将所述能量谱通过一组三角形滤波器组，得到滤波器输出的对数能量；

将所述对数能量经过离散弦变换，得到梅尔频率倒谱系数、梅尔频率倒谱系数对应的导数和二阶导数；

确定梅尔频率倒谱系数、梅尔频率倒谱系数对应的导数和二阶导数为第一声纹特征信息。

在一些实施例中，所述控制器执行生成个人声纹库，被进一步配置为：

收集用户输入第一预设长度的有效音频；

对所述有效音频进行随机切分，得到第一预设数量的样本音频数据，所述样本音频数据的长度为第二预设长度；

提取所述样本音频数据的声纹特征信息；

计算所述样本音频数据的声纹特征信息的相似度；

取相似度最高的第二预设数量组数的声纹特征信息作为第二声纹特征信息；

将第二声纹特征信息添加到个人声纹库中。

在一些实施例中，所述控制器执行如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配，则确定所述音频数据的发出者为已注册声纹的用户，被进一步配置为：

计算所述第一声纹特征信息与所述第二声纹特征信息的相似度；

统计所述相似度大于相似度阈值的最大数量；

如果所述最大数量大于第三预设数量，则确定所述音频数据的发出者为已注册声纹的用户。

在一些实施例中，所述控制器执行训练人机声音分类模型，被进一步配置为：

将训练数据中的声音信号时程输入人机声音分类模型中，经卷积神经网络和循环神经网络提取特征后，输入到分类器中，得到二维向量；

将所述二维向量和所述训练数据中的标签对应的向量进行损失计算，将损失反馈至人机声音分类模型，以使所述人机声音分类模型进行迭代优化，所述声音信号时程与所述标签对应，所述标签包括人声或机器声。

在一些实施例中，所述输出结果为二维向量，所述二维向量包括第一值和第二值，所述控制器执行如果所述输出结果为人声，则唤醒语音助手的语音识别系统，被进一步配置为：

如果所述第一值大于所述第二值，则确定所述输出结果为人声；

唤醒语音助手的语音识别系统。

在一些实施例中，如果所述输出结果为人声，所述控制器，还被配置为：

将所述第一声纹特征信息存储至预设位置；

如果所述预设位置的第一声纹特征信息达到第一预设数量，计算所述第一声纹特征信息的相似度；

将第二声纹特征信息添加到个人声纹库中。

将所述音频数据存储至预设位置；

如果所述预设位置的音频数据达到预设容量，基于当前存储的音频数据提取第二声纹特征信息，并保存至个人声纹库中。

第二方面，本申请一些实施例中提供一种语音唤醒方法，包括：

控制声音采集器收集音频数据；

唤醒语音助手的语音识别系统。

本申请的一些实施例提供一种电子设备及语音唤醒方法。实时监控环境声音并检测收集的音频数据是否包括唤醒关键词。如果音频数据中包括唤醒关键词，则提取音频数据的第一声纹特征信息；如果第一声纹特征信息与个人声纹库的声纹特征匹配，则说明音频数据的发出者为已注册声纹的用户，则可以直接唤醒语音助手的语音识别系统。本申请实施例在电子设备上提供声纹提取和存储能力，通过将音频数据提取的声纹特征与个人声纹库中的声纹特征匹配的方式来抑制非声纹注册用户的唤醒，在不显著增加计算资源的情况下，来降低语音助手误唤醒率。

附图说明

图1示出了根据一些实施例的显示设备与控制装置之间操作场景；

图2示出了根据一些实施例的控制设备的硬件配置框图；

图3示出了根据一些实施例的显示设备的硬件配置框图；

图4示出了根据一些实施例的显示设备中软件配置图；

图5示出了根据一些实施例提供的一种控制器执行语音唤醒方法的流程图；

图6示出了根据一些实施例提供的一种提取输入音频数据的第一声纹特征信息的流程图；

图7示出了根据一些实施例提供的一种三角滤波器的中心频率与频域响应函数的关系图；

图8示出了根据一些实施例提供的一种语音服务界面的示意图；

图9示出了根据一些实施例提供的一种语音控制界面的示意图；

图10示出了根据一些实施例提供的一种个人声纹库设置界面的示意图；

图11示出了根据一些实施例提供的一种提示用户界面的示意图；

图12示出了根据一些实施例提供的另一种提示用户界面的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的电子设备可以具有多种实施形式，例如，可以是显示设备、智能设备和音频输出设备等。其中，音频输出设备包括智能音箱等其他用于播放音频的设备，智能设备包括移动终端、平板电脑、计算机、笔记本电脑等。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1和图2为本申请的显示设备的一种具体实施方式。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

显示器260还包括触控屏，触控屏用于接收用户手指在触控屏上滑动或点击等动作输入控制指令。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

如图4所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。

应用层主要包含电视上的常用应用，以及应用框架(Application Framework)，其中，常用应用主要是基于浏览器Browser开发的应用，例如：HTML5 APPs；以及原生应用(Native APPs)；

应用框架(Application Framework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。

原生应用(Native APPs)可以支持在线或离线，消息推送或本地资源访问。

中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。

硬件层主要包括HAL接口、硬件以及驱动，其中，HAL接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

语音误唤醒的原因主要有几个方面：1)语音关键词检测模型准确率不够；2)环境音的干扰，比较常见的是语音助手有时候会被设备的自发音唤醒；3)语音助手一般会设置提示语句播报给用户，提示语句中包括唤醒关键词，语音助手在播报提示语句的时候，检测到了自己发出的关键词声音，被自唤醒。以上语音误唤醒可能导致用户在不需要语音服务时采集到用户的声音，需要用户去关闭语音服务；还可能在用户需要语音服务时，无法将用户的语音指令执行下去。例如用户说出播放生日快乐歌时，小X播放音乐前会播报提示音：“接下来让小X为您播放生日快乐歌”，在该语音播报过程中，小X在其自己设备音中检测到关键词“小X”被唤醒，然后播报：“在呢”，导致无法继续播放生日快乐歌。用户体验差。

在一些实施例中，为了解决上述问题，主流的方法是去进一步提升语音关键词检测模型的能力，但是模型的更新迭代需要大规模各种场景的数据集，存在收集困难且成本高的问题，且无法从根本上解决人机声音无法区分的问题。

由于当前的智能设备(比如电视机、手机)等，一般都是小范围的人群在使用，比如智能电视、音箱等一般是家里的家庭成员在使用，手机一般是个人在使用。为了解决以上技术问题，本申请实施例提供一种电子设备。以显示设备为例，显示设备200的结构及各部分的功能可以参阅上述实施例。此外，在上述实施例示出的显示设备200的基础上，本实施例对显示设备200的一些功能做进一步的完善。如图5所示，控制器250执行以下步骤：

步骤S501：控制声音采集器收集音频数据；

在一些实施例中，在语音助手开启的状态下，语音助手的语音识别模型，即声音采集器实时监控环境声音。当检测到环境声音大于或等于预设音量或者环境中声音信号时程大于或等于预设阈值时，控制所述声音采集器开始采集音频数据；当检测到环境声音小于预设音量或者环境中声音信号时程小于预设阈值时，控制所述声音采集器结束采集音频数据。

步骤S502：判断所述音频数据中是否包括唤醒关键词；

在一些实施例中，利用语音关键词检测模型检测所述音频数据中是否包括唤醒关键词。

在一些实施例中，可将音频数据转换为文字，并将文字与唤醒关键词匹配，如果匹配成功，则说明音频数据中包括唤醒关键词；如果匹配失败，则说明音频数据中不包括唤醒关键词。

如果所述音频数据中不包括唤醒关键词，则继续监控环境声音，不执行与唤醒语音助手的语音识别系统的相关操作。

如果所述音频数据中包括唤醒关键词，则执行步骤S503：提取所述音频数据的第一声纹特征信息；

声纹特征信息提取主要是对说话人的声音特征参数进行提取，声音特征参数对于每个人都是不一样的，具有唯一性和稳定性。

在一些实施例中，确定音频数据的长度。本申请实施例的长度是指音频数据的时长。

判断所述音频数据的长度是否小于第二预设长度；

如果所述音频数据的长度小于第二预设长度，则以声音信号音程为0将该音频数据的长度补足到第二预设长度；

如果所述音频数据的长度大于或等于第二预设长度，将所述音频数据从开始位置每隔第二预设长度切分一个输入音频数据。如果最后一个输入音频数据不足第二预设长度，则以声音信号音程为0将该音频数据的长度补足到第二预设长度。

在一些实施例中，使用梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)的方法来提取输入音频数据的第一声纹特征信息。梅尔频率倒谱系数参数是基于人的听觉特性利用人听觉的屏蔽效应，在Mel标度频率域提取出来的倒谱特征参数。

在一些实施例中，利用梅尔频率倒谱系数的方法来提取输入音频数据的第一声纹特征信息的步骤，如图6所示，包括：

步骤S601：对输入音频数据的声音信号时程进行预加重、分帧和加窗，得到加窗后的声音信号时程；

其中，首先对输入的声音信号进行预加重、分帧、加窗；

1)预加重处理其实是将声音信号通过一个高通滤波器，得到预加重的声音信号时程。即对于输入的声音信号时程x进行如下变换：y(n)＝x(n)–αx(n-1)；其中，n表示第n时刻，α表示权重系数，y(n)为预加重后的声音信号时程，x(n)表示第n时刻的声音信号时程，x(n-1)表示第n-1时刻的声音信号时程。

2)将预加重后的声音信号时程进行分帧处理，得到分帧后的声音信号时程。其中，一帧有N个采样点，如N的值为256或512，涵盖的时间约为20～30毫秒。为了避免相邻两帧的变化过大，平缓过度，因此会让两个相邻帧之间有一段重叠区域，此重叠区域包含了A个取样点，通常A的值约为N的1/2或1/3。

3)加窗：将分帧后的声音信号时程加窗，得到加窗后的声音信号时程。为了缓解频谱泄漏。将每一帧乘以一个窗函数。窗函数包括汉明窗，海宁窗。将分帧后的声音信号时程加窗的公式为：x(n)＝S(n)*W(n)，n＝0，1…，N-1，N。其中，x(n)表示加窗后的声音信号时程，S(n)表示分帧后的声音信号时程，N表示帧的大小，W(n)表示汉明窗。

步骤S602：对加窗后的声音信号时程进行快速傅里叶变换，得到频谱分布信息；

对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱：

其中，X_a(k)表示频谱幅度，x(n)表示加窗后的声音信号时程，N表示傅里叶变换的点数，e为自然常数，j为复数符号。

步骤S603：基于所述频谱分布信息确定能量谱；

其中，求频谱幅度的平方，得到能量谱；

步骤S604：将所述能量谱通过一组三角形滤波器组，得到滤波器输出的对数能量；

其中，将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，中心频率为f(m)。M通常取22-26，如图7所示。

计算每组滤波器输出的对数能量为：

其中，s(m)表示第m组滤波器输出的对数能量，X_a(k)表示频谱幅度，Hm(k)表示第k个三角滤波器的频域响应函数，N表示傅里叶变换的点数。

步骤S605：将所述对数能量经过离散弦变换，得到梅尔频率倒谱系数、梅尔频率倒谱系数对应的导数和二阶导数；

其中，将所述对数能量经过离散弦变换(Discrete Cosine Transform，DCT)得到梅尔频率倒谱系数(MFCC系数)，并取对应的导数和二阶导数作为增广特征。

经离散余弦变换(DCT)得到梅尔频率倒谱系数如下：

其中，C(n)表示梅尔频率倒谱系数，s(m)表示第m组滤波器输出的对数能量，L表示梅尔频率倒谱系数阶数，M表示三角滤波器个数。

将上述的对数能量带入离散余弦变换，求出L阶的梅尔频率倒谱系数。得到C(n)序列后，用当前帧的前后几帧的信息来计算一阶和二阶导数，识别帧之间的动态变化信息，提高识别效果。

梅尔频率倒谱系数的一阶导数的公式为：

其中，d_t表示梅尔频率倒谱系数的一阶导数。计算第t帧的一阶导数需要t-n到t+n的系数，n通常是2。如果对一阶导数系数dt再使用上述公式就可以得到二阶导数系数。

步骤S606：确定梅尔频率倒谱系数、梅尔频率倒谱系数对应的导数和二阶导数为第一声纹特征信息。

梅尔频率倒谱系数个数通常取20-30，常常不用0阶倒谱系数，因为它反映的是频谱能量，故在一般识别系统中，将称为能量系数，并不作为倒谱系数。例如：本申请实施例选取20阶倒谱系数，即N＝20-1＝19，还包括梅尔频率倒谱系数的一阶导数和二阶导数，最终的特征维度维3N＝57。这些特征有效地包含了说话人的个人特征，而与讲话的内容无关。

步骤S504：判断所述第一声纹特征信息与个人声纹库中的第二声纹特征信息是否匹配，所述第二声纹特征信息为根据用户录入音频数据提取并存储在个人声纹库中的声纹特征信息；

在一些实施例中，根据用户录入音频数据提取第二声纹特征信息的步骤，包括：

收集用户输入的第一预设长度的有效音频；

在一些实施例中，用户可通过按压控制装置的菜单键进入系统设置界面，并在系统设置界面中选中语音服务控件。响应于用户输入的指令，显示如图8所示的语音服务界面。语音服务界面包括第一语音助手控件81、第二语音助手控件82、第三语音助手控件83、语音控制控件84和焦点85。

在一些实施例中，焦点的标识形式通常多样化。示例的，可通过放大项目来实现或标识焦点对象的位置，还通过设置项目背景色来实现或标识焦点对象的位置，也可以通过改变聚焦项目的文本或图像的边框线、尺寸、颜色、透明度和轮廓和/或字体等标识焦点对象的位置。

在图8中，用户通过控制装置将焦点85移动至语音控制控件84的位置并按压确认键，显示如图9所示的语音控制界面。语音控制界面包括语音控制开关控件91和个人声纹库控件92。响应于用户选中个人声纹库控件92的指令，显示如图10所示的个人声纹库设置界面。个人声纹库设置界面包括添加声纹控件101、用户1的删除控件102、播放控件103、修改名字控件104和确认控件105。如果接收到用户输入选中删除控件102的指令，删除个人声纹库中用户1的声纹特征信息；如果接收到用户输入选中播放控件103的指令，可播放添加声纹库时用户1录入的音频文件，以便用户在未设置可区别名称时了解用户1是哪个用户的声纹信息。如果接收到用户输入选中修改名字控件104的指令，可修改用户1的名称，以便用户了解用户1是哪个用户的声纹信息。

接收用户输入选中添加声纹控件101的指令，显示如图11所示的提示用户界面，用户界面中包含一些提示性的语句。

在一些实施例中，当检测到环境声音大于或等于预设音量或者环境中声音信号时程大于或等于预设阈值时，控制所述声音采集器开始采集音频数据；当检测到环境声音小于预设音量或者环境中声音信号时程小于预设阈值时，控制所述声音采集器结束采集音频数据。录制预设段数的音频数据。例如：录制10段长度约为6秒的用户输入音频数据。

在一些实施例中，当检测到环境声音大于或等于预设音量或者环境中声音信号时程大于或等于预设阈值时，控制所述声音采集器开始采集音频数据；当录制时长达到第一预设长度后，控制所述声音采集器结束采集音频数据。例如：例如：录制1min的用户输入的音频数据。

在一些实施例中，可在用户界面中添加开始控件，由用户选择开始控件后开始录制用户的音频数据，并在录制时长达到第一预设长度后，自动控制所述声音采集器结束采集音频数据。

在一些实施例中，用户录入的音频数据为有效音频。有效音频是指接收到用户输入正常音频，而非静音等，可通过静默检测得到。当遍历整个音频的声音信号时程x，如果每个值x(n)都小于某个阈值[x]，则表示该段声音幅值都很小，可能为静音或者噪音，即为无效音频。

在一些实施例中，如果个人声纹库中没有用户输入的声纹信息，可将用户在使用语音服务功能过程中的音频数据收集起来。

在一些实施例中，收集用户输入的音频数据；

统计音频数据的累计时长；

判断所述累计时长是否超过第一预设时长；

如果所述累计时长超过第一预设时长，则执行下一步对所述有效音频进行随机切分；

如果所述累计时长未超过第一预设时长，则继续统计收集到的音频数据的累计时长。

在一些实施例中，收集用户输入的音频数据；

统计音频数据的累计段数；

判断所述累计段数是否超过目标数量；

如果所述累计段数超过目标数量，则执行下一步对所述有效音频进行随机切分；

如果所述累计段数未超过目标数量，则继续统计收集到的音频数据的累计段数。

在一些实施例中，收集到用户第一预设长度的音频数据，切分为第一预设数量个第二预设长度的样本音频数据，其中，所述音频数据是完整连续的，即用户输入的音频数据是一个时长为第一预设长度的音频数据，第一预设数量是固定的。

在一些实施例中，根据第一预设长度与第二预设长度确定样本数量；

即样本数量为第一预设长度与第二预设长度的比值，如果所述比值不为整数，则将该比值取整。

判断所述样本数量是否小于第一预设数量；

如果所述样本数量小于所述第一预设数量，则将所述有效音频从起始位置开始，每隔第二预设长度切分为一个样本音频数据，直至有效音频的结束位置，得到样本数量个样本音频数据；

从有效音频的任意位置开始，每隔第二预设长度切分为一个样本音频数据，直至切分样本差值个样本音频数据，所述样本差值为所述第一预设数量与所述样本数量的差值，其中，如果到达有效音频的结束位置仍没有达到样本差值，则从有效音频从起始位置继续切分。

示例性的，收集到用户1分钟(第一预设长度)的有效音频，每1秒(第二预设长度)切分为一个样本音频数据。样本数量为第一预设长度/第二预设长度＝60秒/1秒＝60。第一预设数量为100。样本数量60小于第一预设数量100，所以将1分钟的有效音频从开始位置，切分为60个1秒的样本音频数据。然后在从任意位置，如第11.5秒的位置开始再每隔1秒切分40(样本差值)个样本音频数据，得到最终100个样本音频数据。

如果所述样本数量大于或等于所述第一预设数量，则将所述有效音频从有效音频的任意位置开始，每隔第二预设长度切分为一个样本音频数据，直至切分第一预设数量个样本音频数据，其中，如果到达有效音频的结束位置仍没有达到第一预设数量，则从有效音频从起始位置继续切分。

示例性的，收集到用户1分钟(第一预设长度)的有效音频，每1秒(第二预设长度)切分为一个样本音频数据。样本数量为第一预设长度/第二预设长度＝60秒/1秒＝60。第一预设数量为40。样本数量60大于第一预设数量40，所以将1分钟的有效音频从任意位置，如第11.5秒的位置开始再每隔1秒切分40个样本音频数据。

在一些实施例中，收集到用户第一预设长度的音频数据，切分为第一预设数量个第二预设长度的样本音频数据，其中，所述音频数据是收集到多个音频数据，音频数据的总时长为第一预设长度。

在一些实施例中，将每个音频数据从起始位置进行切分，得到第二预设长度的样本音频数据。

如果切分最后一个样本音频数据不足第二预设长度，可以删除该样本音频数据，还可以以声音信号音程为0将该样本音频数据的长度补足到第二预设长度。

示例性的，一个4.5秒的音频数据，可以切分为0-1秒，1-2秒，2-3秒，3-4秒四个样本音频数据，还可以切分为0-1秒，1-2秒，2-3秒，3-4秒，4-5秒五个样本音频数据，其中，4-5秒的样本音频数据中在4.5秒后声音信号音程为0。

在一些实施例中，将每个音频数据从随机位置进行切分，得到第二预设长度的样本音频数据。当切分到该音频数据的结束位置后，可在音频数据的起始位置继续切分，但是不包括已切分的音频数据。

示例性的，一个4.5秒的音频数据，从0.5秒的位置开始切分，切分结果为0.5-1.5秒，1.5-2.5秒，2.5-3.5秒，3.5-4.5秒四个样本音频数据，还可以保留0-0.5s的样本音频数据，在该样本音频数据的前0.5s或后0.5s用声音信号音程为0补足1秒的样本音频数据。

第一预设数量为收集到的多个音频数据切分数量之和，由于切分的方式不同，音频数据的长度也可能不同，其第一预设数量也有可能不同。

提取所述样本音频数据的声纹特征信息；

在得到样本音频数据后，采用提取所述音频数据的第一声纹特征信息同样的方法提取每个样本音频数据的声纹特征信息，即声纹特征向量。

计算所述样本音频数据的声纹特征信息的相似度；

其中，第一预设数量为k，对于k个样本，每个样本的声音特征维度是57，则该K个样本的声音特征可以表示为矩阵K，维度为k×57，计算相似度矩阵＝K×KT，KT表示K的转置，得到相似度矩阵维度为k×k，该矩阵为对称矩阵，对角线上的元素即为某个样本和自己本身的相似度，一般都为1。

其中，在得到对称矩阵后，可以取非对角线上相似度最大的第二数据数量组作为第二声纹特征信息，即该用户的声纹集；

将第二声纹特征信息添加到个人声纹库中。

在一些实施例中，可将多个用户的第二声纹特征信息添加到个人声纹库中，其中，声纹提取与个人声纹库生成均是在显示设备上执行，个人声纹库存储在显示设备上，以确保用户隐私。

在一些实施例中，判断所述第一声纹特征信息与个人声纹库中的第二声纹特征信息是否匹配的步骤，包括：

其中，由于音频数据的长度不同，第一声纹特征信息至少有一组，采用向量点积直接求每一组第一声纹特征信息与个人声纹库中的第二声纹特征信息的相似度：

对于实时监控的音频数据，按时间顺序每1秒截取一段音频数据，提取这一段音频的声纹特征信息，和个人声纹库中M1*M2条声纹数据进行相似度计算，即计算输入向量(第一声纹特征信息)v和候选向量(第二声纹特征信息)Vi(i＝1,…,K)之间的向量内积；

相似度计算公式：sim(v,Vi)＝v*Vi/(||v||*||Vi||),||v||，||Vi||分别为特征向量v，Vi的模。

确定每一组第一声纹特征信息相似度大于相似度阈值的声纹数量；

其中，可将大于相似度阈值的声纹数量按照由大到小排序；

选取所述声纹数量中最大数量；

判断所述最大数量是否大于第三预设数量；

如果所述最大数量大于第三预设数量，则所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配成功；

如果所述最大数量小于或等于第三预设数量，则所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配失败。

示例性的，相似度阈值为0.5，第三预设数量为0。音频数据被切分为2个输入音频数据。第一个输入音频数据相似度大于0.5的数量为1，第二个输入音频数据相似度大于0.5的数量为0。则选取第一个输入音频数据相似度大于0.5的数量(1)大于第三预设数量(0)，则确定第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配成功。如果第三预设数量为2，选取第一个输入音频数据相似度大于0.5的数量(1)小于第三预设数量(2)，则确定第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配失败。

如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配，则执行步骤S505：确定所述音频数据的发出者为已注册声纹的用户；

在一些实施例中，可确定音频数据的发出者的名字，在图10中可在个人声纹库中声纹所属人的名字。

步骤S506：唤醒语音助手的语音识别系统。

在一些实施例中，在唤醒语音助手的语音识别系统后，可发出提示音，例如“在呢”，和/或，在用户界面中显示语音采集的动画图像，以提醒用户可以对用户接下来的语音进行识别。

在一些实施例中，在确定音频数据的发出者的名字后，可发出提示音，所述提示音包括音频输出发出者的名字。例如：“您好，小强，我在呢”。其中，小强为用户设置在个人声纹库中声纹所属人的名字。

如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息不匹配，则执行步骤S507：将所述音频数据的声音信号时程输入到人机声音分类模型中，得到输出结果；

人机声音分类主要是一个二分类的任务，主要是判断某段音频是否包含真人声音，还是只有设备自发音。

人机声音分类模型采用卷积神经网络(Convolutional Neural Networks,CNN)+门控循环单元(Gated Recurrent Unit，GRU)模型：

假如输入的是一个4秒钟的音频时程数据x，如果采样率为16000，则一条数据包括64000个点，即x的维度是[64000,1]。

将该模型首先输入到CNN模型中做卷积提取特征，主要是捕获局部特征，并降低时间方向的维度；CNN模型包括三个卷积层，每一个卷积层定义如下：

1)首先经过一个1维卷积F＝Conv1D(8,kernel_size＝25,padding＝'valid',activation＝'relu',strides＝1)，卷积核大小kernel_size为25，滑动步长strides＝1,输出维度为8，得到第一特征向量x1＝F(x)；

2)对第一特征向量x1进行最大池化操作：第二特征向量x2＝MaxPooling1D(4)(x)，池化尺寸取4，即每4个连续值中取最大值。

重复上述卷积过程3次，kernel_size分别由25依次变为20，10；最终的输出第三特征向量x3的尺寸为(185,32)。

然后将提取的特征输入到GRU模型中捕获全局时序关系；

GRU是循环神经网络的一种，和长短期记忆网络(Long-Short Term Memory，LSTM)一样，主要用于对长序列输入进行编码，能够解决长期记忆和反向传播中的梯度等问题。

GRU模型采用3层双向的GRU堆叠，每一层GRU函数可以表示为G＝Bidirectional(GRU(128,return_sequences＝True),merge_mode＝'sum')，即第四特征向量x4＝G(x3)，第五特征向量x5＝G(x4)，第六特征向量x6＝G(x5)。

最终将第六特征向量x6送到一个两层的非线性分类器进行分类。

在一些实施例中，训练人机声音分类模型的步骤，包括：

其中，采用有监督训练，即收集含有标签的数据集，标签label两类：[人声，设备声]，则每条训练数据即为【x,label】，训练时将声音时程信号x输入到模型，经过CNN和GRU提取特征后，最终输入到分类器，得到一个二维向量【y1,y2】。

其中，将二维向量和输入的标签label的相应标签向量进行损失计算，将损失反馈给模型，进行迭代优化。如果label＝人声，则label对应标签向量为【1，0】，如果label＝设备声，则label对应标签向量为【0，1】。

步骤S508：判断所述输出结果是否为人声；

在一些实施例中，所述输出结果为二维向量，所述二维向量包括第一值和第二值，所述判断所述输出结果是否为人声的步骤包括：

判断所述第一值是否大于所述第二值；

如果所述第一值小于或等于所述第二值，则确定所述输出结果为设备声。

例如：输入声音x，通过模型得到最终预测结果【y1,y2】，若y1>y2，则为人声，y1≤y2，则为设备声。

如果所述输出结果为人声，则执行步骤S506：唤醒语音助手的语音识别系统。

如果所述输出结果不为人声，则继续监控环境声音，不执行与唤醒语音助手的语音识别系统的相关操作。

在一些实施例中，在图9中，响应于用户输入开启语音控制开关的指令，将语音控制标志位设置为1。响应于用户输入关闭语音控制开关的指令，将语音控制标志位设置为0。

如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息不匹配，获取语音控制标志位；

判断语音控制标志位是否为1；

如果所述语音控制标志位为1，则继续监控环境声音，不执行与唤醒语音助手的语音识别系统的相关操作。

如果所述语音控制标志位不为1，执行步骤S507：将所述音频数据的声音信号时程输入到人机声音分类模型中，得到输出结果。

在一些实施例中，如果所述输出结果为人声，唤醒语音助手的语音识别系统的步骤之后，还包括：

将所述第一声纹特征信息存储至预设位置；

将第二声纹特征信息添加到个人声纹库中。

需要说明的是，在确定第一声纹特征信息与个人声纹库中的第二声纹特征信息不匹配且音频数据是人声后，可能是有新加入的用户在使用当前显示设备。可将新加入用户的声纹信息自动添加到个人声纹库中。

在一些实施例中，在确定第一声纹特征信息与个人声纹库中的第二声纹特征信息不匹配且音频数据是人声后，唤醒语音助手的语音识别系统的同时，显示添加个人声纹库的提示框，如图12所示。响应于用户选中添加控件121的指令，将第一声纹特征信息添加到个人声纹库中；响应于用户选中取消控件122的指令，不将第一声纹特征信息添加到个人声纹库中。

其中，第一声纹特征信息暂存至预设位置，当第一声纹特征信息达到第一预设数量后，计算所有第一声纹特征信息的相似度；取相似度最高的第二预设数量组数作为第二声纹特征信息；将第二声纹特征信息添加到个人声纹库中。

将所述音频数据存储至预设位置；

在一些实施例中，在确定第一声纹特征信息与个人声纹库中的第二声纹特征信息不匹配且音频数据是人声后，唤醒语音助手的语音识别系统的同时，显示添加个人声纹库的提示框，如图12所示。响应于用户选中添加控件121的指令，将音频数据存储至预设位置；响应于用户选中取消控件122的指令，不将音频数据存储至预设位置。

在一些实施例中，如果所述预设位置的音频数据的累计时长达到第一预设长度，对所述音频数据进行随机切分，得到第一预设数量的第二预设长度的样本音频数据；提取所述样本音频数据的声纹特征信息；计算所述样本音频数据的声纹特征信息的相似度；取相似度最高的第二预设数量组数作为第二声纹特征信息；将第二声纹特征信息添加到个人声纹库中。

在一些实施例中，如果所述预设位置的音频数据的累计数量超过目标数量，对所述音频数据进行随机切分，得到第一预设数量的第二预设长度的样本音频数据；提取所述样本音频数据的声纹特征信息；计算所述样本音频数据的声纹特征信息的相似度；取相似度最高的第二预设数量组数作为第二声纹特征信息；将第二声纹特征信息添加到个人声纹库中。

本申请的一些实施例提供一种语音唤醒方法，所述方法适用于电子设备，电子设备包括声音采集器和控制器，所述控制器被配置为：控制声音采集器收集音频数据；如果所述音频数据中包括唤醒关键词，提取所述音频数据的第一声纹特征信息；如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配，则确定所述音频数据的发出者为已注册声纹的用户，所述第二声纹特征信息为根据用户录入音频数据提取并存储在个人声纹库中的声纹特征信息；唤醒语音助手的语音识别系统。本申请实施例在电子设备上提供声纹提取和存储能力，通过将音频数据提取的声纹特征与个人声纹库中的声纹特征匹配的方式来抑制非声纹注册用户的唤醒，在不显著增加计算资源的情况下，来降低语音助手误唤醒率。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种电子设备，其特征在于，包括：

声音采集器；

控制器，被配置为：

控制所述声音采集器收集音频数据；

唤醒语音助手的语音识别系统。

2.根据权利要求1所述的电子设备，其特征在于，所述控制器，被配置为：

3.根据权利要求1所述的电子设备，其特征在于，所述控制器执行提取所述音频数据的第一声纹特征信息，被进一步配置为：

将所述音频数据切分为数个第二预设长度的输入音频数据；

基于所述频谱分布信息确定能量谱；

4.根据权利要求1所述的电子设备，其特征在于，所述控制器执行生成个人声纹库，被进一步配置为：

收集用户输入第一预设长度的有效音频；

提取所述样本音频数据的声纹特征信息；

计算所述样本音频数据的声纹特征信息的相似度；

将第二声纹特征信息添加到个人声纹库中。

5.根据权利要求1所述的电子设备，其特征在于，所述控制器执行如果所述第一声纹特征信息与个人声纹库中的第二声纹特征信息匹配，则确定所述音频数据的发出者为已注册声纹的用户，被进一步配置为：

统计所述相似度大于相似度阈值的最大数量；

6.根据权利要求2所述的电子设备，其特征在于，所述控制器执行训练人机声音分类模型，被进一步配置为：

7.根据权利要求6所述的电子设备，其特征在于，所述输出结果为二维向量，所述二维向量包括第一值和第二值，所述控制器执行如果所述输出结果为人声，则唤醒语音助手的语音识别系统，被进一步配置为：

唤醒语音助手的语音识别系统。

8.根据权利要求2所述的电子设备，其特征在于，如果所述输出结果为人声，所述控制器，还被配置为：

将所述第一声纹特征信息存储至预设位置；

将第二声纹特征信息添加到个人声纹库中。

9.根据权利要求2所述的电子设备，其特征在于，如果所述输出结果为人声，所述控制器，还被配置为：

将所述音频数据存储至预设位置；

10.一种语音唤醒方法，其特征在于，包括：

控制声音采集器收集音频数据；

唤醒语音助手的语音识别系统。