CN110570873B

CN110570873B - 声纹唤醒方法、装置、计算机设备以及存储介质

Info

Publication number: CN110570873B
Application number: CN201910865434.0A
Authority: CN
Inventors: 刘文龙
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-08-05
Anticipated expiration: 2039-09-12
Also published as: CN110570873A

Abstract

本申请公开了一种声纹唤醒方法，属于语音处理技术领域。所述方法包括：通过获取用户输入的唤醒语音；通过声纹特征提取模型对唤醒语音进行处理，获取第一声纹特征；其中，声纹特征提取模型是根据第一训练数据训练获得的模型，第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；将第一声纹特征与声纹特征模板进行匹配；当第一声纹特征与声纹特征模板匹配时，唤醒终端。本申请通过不同用户阅读不同的文本内容时产生的训练语音的训练数据对终端中的声纹特征提取模型进行训练，使得终端通过声纹特征提取模型获取第一声纹特征时考虑文本内容的因素，从而提高了终端获取第一声纹特征的准确性。

Description

声纹唤醒方法、装置、计算机设备以及存储介质

技术领域

本申请涉及语音处理技术领域，特别涉及一种声纹唤醒方法、装置、计算机设备以及存储介质。

背景技术

随着语音处理技术的快速发展，在人们的日常生活中，终端中已经出现语音对话功能，用户可以通过输入特定的唤醒语音，启动该语音对话功能。

其中，对于启动该语音对话功能的过程中，终端中通过应用语音处理技术，对用户输入的唤醒语音进行处理，根据处理结果，确定是否启动相应的语音对话功能。例如，在相关技术中，终端基于语音处理技术，可以根据用户说出的唤醒语音，识别出包含的唤醒词，进而控制终端是否启动该语音对话功能，比如，当用户说出：“你好你好”的唤醒语音时，终端可以识别其中的唤醒词“你好”，从而启动终端的语音对话功能。

由于目前终端中对用户输入的唤醒语音进行识别时，采用的声纹提取模型不够完善，往往造成终端出现误操作的现象，降低了终端响应于唤醒语音执行操作的准确性。

发明内容

本申请实施例提供了一种声纹唤醒方法、装置、计算机设备以及存储介质，可以提高终端响应于唤醒语音执行操作的准确性。所述技术方案如下：

一个方面，本申请实施例提供了一种声纹唤醒方法，所述方法由终端执行，所述方法包括：

获取用户输入的唤醒语音；

通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征；所述声纹特征提取模型是根据第一训练数据训练获得的模型，所述第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；

将所述第一声纹特征与声纹特征模板进行匹配；

当所述第一声纹特征与所述声纹特征模板匹配时，唤醒所述终端。

另一方面，本申请实施例提供了一种声纹唤醒装置，所述装置用于由终端执行，所述方法包括：

唤醒语音获取模块，用于获取用户输入的唤醒语音；

第一特征获取模块，用于通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征；所述声纹特征提取模型是根据第一训练数据训练获得的模型，所述第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；

特征匹配模块，用于将所述第一声纹特征与声纹特征模板进行匹配；

终端唤醒模块，用于当所述第一声纹特征与所述声纹特征模板匹配时，唤醒所述终端。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的声纹唤醒方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的声纹唤醒方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

终端通过获取用户输入的唤醒语音；通过声纹特征提取模型对唤醒语音进行处理，获取第一声纹特征；其中，该声纹特征提取模型是根据第一训练数据训练获得的模型，第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；将第一声纹特征与声纹特征模板进行匹配；当第一声纹特征与声纹特征模板匹配时，唤醒终端。本申请通过不同用户阅读不同的文本内容时产生的训练语音的训练数据对终端中的声纹特征提取模型进行训练，使得终端中的声纹特征提取模型可以根据文本内容对即将得到的第一声纹特征进行优化，从而使得终端通过声纹特征提取模型获取第一声纹特征时，利用了依赖文本内容的特点，降低了终端出现误操作的现象，提高了终端获取第一声纹特征的准确性以及响应于唤醒语音的执行操作的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例提供的一种语音唤醒应用场景的示意图；

图2是本申请一示例性实施例提供的一种声纹唤醒方法的方法流程图；

图3是本申请一示例性实施例提供的一种声纹唤醒方法的方法流程图；

图4是本申请实施例涉及的一种语音数据的图像示意图；

图5是本申请实施例涉及的一种MFCC特征提取模型各个模块的示意图；

图6是本申请实施例涉及的一种CNN模型的结构示意图；

图7是本申请实施例涉及的一种第一语音匹配模型运行的流程示意图；

图8是本申请实施例涉及的一种识别模型的结构示意图；

图9是本申请实施例涉及的一种终端中展示的声纹唤醒应用的界面示意图；

图10是本申请一示例性实施例提供的一种声纹唤醒方法的方法流程图；

图11是本申请实施例涉及的一种声纹唤醒界面的界面示意图；

图12是本申请一示例性实施例提供的声纹唤醒装置的结构框图；

图13是本申请一个示例性实施例提供的终端的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请提供的方案，可以用于人们在日常生活中使用终端时，通过向终端输入唤醒语音，使得终端执行相应操作的现实场景中，为了便于理解，下面首先对本申请实施例涉及的一些名词以及应用场景进行简单介绍。

语音唤醒：指用户通过说出唤醒词来唤醒终端，使终端开启语音对话功能，进入到等待语音指令的状态或者使终端直接执行预定语音指令。

随着科技的发展，大部分终端中已经应用了语音处理技术，其中，终端可以通过接收用户输入的唤醒语音，对唤醒语音进行识别，从而执行相应的语音对话功能等。请参考图1，其示出了本申请一示例性实施例提供的一种语音唤醒应用场景的示意图。如图1所示，其中包含了用户110，终端120。

可选的，终端120可以是具有语音唤醒功能的终端，比如，该终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、膝上型便携计算机等等。

可选的，用户可以提前在终端120中开启语音唤醒功能，并对终端输入相应的唤醒词，从而使得终端执行该唤醒词对应的语音指令。例如，以唤醒词为“你好，你好”为例，当用户对终端的麦克风说出：“你好，你好”语音时，终端可以得到该唤醒语音，通过自身对唤醒语音进行识别得到该唤醒语音中包含的唤醒词，进一步获取该唤醒语音的声纹特征，终端根据该语音信息的声纹特征，识别是哪个用户说的，从而决定是否启动相应的语音指令。

其中，终端在接收到用户输入的唤醒语音时，往往可以通过语音处理技术，对接收到的唤醒语音进行处理，解析该唤醒语音对应的唤醒词，并获得该唤醒语音对应的声纹特征。其中，在对唤醒语音获取声纹特征时，往往是基于GMM(Gaussian mixture model，高斯混合模型)的模型唤醒方案或者是基于CNN(Convolutional Neural Networks，卷积神经网络)的模型唤醒方案，在这两种方案中，终端都是根据用户输入的唤醒语音的音频特征获取出对应的声纹特征，实现对唤醒语音的声纹识别。其中，当识别出的声纹特征与该终端中存储的声纹特征相同时，终端可以响应于该声纹特征，执行对应的语音指令。

对于上述语音唤醒过程，由于终端获取唤醒语音的声纹特征时，其采用的模型唤醒方案中的模型仅仅基于唤醒语音的音频特征进行提取，并未考虑到其他影响唤醒语音的声纹特征的因素，例如，文本内容、时间段、空间环境等因素。例如，对于同一用户表述不同的文本内容，声纹识别模型识别出的唤醒语音中所包含的声纹特征可能不同；对于同一用户在一天的不同时间段内，声纹识别模型识别出的唤醒语音中所包含的声纹特征也可能不同；空间环境也类似等等，使得相关技术中对于声纹识别的提取并没有利用唤醒语音中的文本内容，造成终端对唤醒语音的声纹识别的准确性较低。

为了提高终端对唤醒语音的声纹识别特征提取的准确性，提升终端响应于唤醒语音执行操作的准确度，本申请提供了一种解决方案，可以提升终端响应于唤醒语音执行操作的准确度。请参考图2，其示出了本申请一示例性实施例提供的一种声纹唤醒方法的方法流程图。该方法可以应用于上述图1所示的语音唤醒场景的终端中。如图2所示，该声纹唤醒方法可以包括以下几个步骤：

步骤201，获取用户输入的唤醒语音。

可选的，用户可以通过上述图1所示的方式，从终端的麦克风输入唤醒语音，终端通过自身的麦克风采集用户输入的语音，当用户输入的语音为唤醒语音时，终端便可以获取到相应的唤醒语音。例如，该唤醒语音可以是“你好，小明”，“你好，小红”等。

步骤202，通过声纹特征提取模型对唤醒语音进行处理，获取第一声纹特征。

其中，声纹特征提取模型是根据第一训练数据训练获得的模型，第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音。

可选的，该声纹特征提取模型是预先通过第一训练数据训练好之后，设置在终端中的，当终端需要对唤醒语音进行声纹特征提取时，可以直接利用该声纹特征提取模型进行提取。在一种可能实现的方式中，声纹特征提取模型训练时使用的第一训练数据可以如下：不同用户阅读“你好，小明”的文本内容时对应的语音数据，不同用户阅读“你好，小红”的文本内容时对应的语音数据，不同用户阅读“你好，打开语音唤醒”的文本内容时对应的语音数据等等，开发人员可以将这些数据一起作为该声纹特征提取模型的第一训练数据，即，声纹特征提取模型可以由这些语音数据训练得到。可选的，第一训练数据的数据量(即用户的数量以及对应的文本内容的数量)可以由开发人员确定，本申请实施例对此并不加以限定。

可选的，声纹特征提取模型在训练过程中，可以对第一训练数据进行分组，各组训练数据中包含将第一训练数据划分为不同用户对应的相同文本内容的语音数据。例如，将上述不同用户阅读“你好，小明”的文本内容时对应的语音数据划分为一组训练数据，将上述不同用户阅读“你好，小红”的文本内容时对应的语音数据划分为一组训练数据，将上述不同用户阅读“你好，打开语音唤醒”的文本内容时对应的语音数据划分为一组训练数据等等。可选的，声纹特征提取模型在训练过程中，还可以根据各组训练数据的文本内容对声纹特征提取模型提取声纹特征的各个参数进行修改，从而使得声纹特征提取模型迭代获取到的声纹特征是参考了文本内容的，以便于获取到更好的声纹特征。

步骤203，将第一声纹特征与声纹特征模板进行匹配。

其中，该声纹特征模板可以是终端中预先存储的声纹特征模板，声纹特征模板的数量也可以是多个。例如，终端中存储有用户A的声纹特征，也存储有用户B的声纹特征，则声纹特征模板可以包含用户A的声纹特征以及用户B的声纹特征。可选的，当终端得到唤醒语音对应的第一声纹特征后，终端可以将该第一声纹特征与自身存储的声纹特征模板进行比对。

比如，终端中存储有用户A对应的“你好，小明”的声纹特征，也存储有用户B对应的“你好，小明”的声纹特征，用户A和用户B各自的“你好，小明”的声纹特征都可以属于终端的声纹特模板。

步骤204，当第一声纹特征与声纹特征模板匹配时，唤醒终端。

其中，终端对获取到的第一声纹特征与上述声纹特征模板进行匹配，当第一声纹特征是属于该声纹特征模板中对应的任意一个声纹特征时，终端可以响应相应的语音，即唤醒终端。

比如，用户A通过上述步骤对终端输入了唤醒语音“你好，小明”，终端可以通过声纹特征提取模型对该唤醒语音进行处理，得到用户A的“你好，小明”唤醒语音对应的第一声纹特征，通过该第一声纹特征与终端中存储的声纹特征模板进行匹配，得知该第一声纹特征是声纹特征模板中的用户A的声纹特征，从而唤醒终端。

综上所述，终端通过获取用户输入的唤醒语音；通过声纹特征提取模型对唤醒语音进行处理，获取第一声纹特征；其中，该声纹特征提取模型是根据第一训练数据训练获得的模型，第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；将第一声纹特征与声纹特征模板进行匹配；当第一声纹特征与声纹特征模板匹配时，唤醒终端。本申请通过不同用户阅读不同的文本内容时产生的训练语音的训练数据对终端中的声纹特征提取模型进行训练，使得终端中的声纹特征提取模型可以根据文本内容对即将得到的第一声纹特征进行优化，从而使得终端通过声纹特征提取模型获取第一声纹特征时，利用了依赖文本内容的特点，降低了终端出现误操作的现象，提高了终端获取第一声纹特征的准确性以及响应于唤醒语音的执行操作的准确性。

在一种可能实现的方式中，上述终端在执行声纹唤醒之前，终端还可以获取用户输入的唤醒语音的声音强度，以及获取用户输入的唤醒语音的文本内容，在上述获取第一声纹特征之前，判断唤醒语音的声音强度是否高于预设阈值，以及判断唤醒语音的文本内容是否符合指定内容，从而执行获取第一声纹特征的步骤。其中，以声纹特征提取模型集成于该终端中的芯片上为例，对上述图2所示的方案进行详细介绍。

请参考图3，其示出了本申请一示例性实施例提供的一种声纹唤醒方法的方法流程图。该方法可以由上述图1所示终端执行，如图3所示，该声纹唤醒方法可以包括以下几个步骤：

步骤301，获取用户输入的唤醒语音。

其中，本步骤中的唤醒语音的获取可以参考上述步骤201中的描述，此处不再赘述。

步骤302，通过第一芯片获取唤醒语音的声音强度。

其中，第一芯片可以是数字信号处理(Digital Signal Processing，DSP)芯片。可选的，DSP芯片中有声音监听模块，上述步骤301和步骤302也可以由DSP芯片的声音监听模块执行。即，DSP芯片通过监听终端周围的语音，并获取语音的声音强度。

步骤303，当唤醒语音的声音强度高于预设阈值时，通过第一语音匹配模型和第二语音匹配模型分别对唤醒语音进行语音匹配。

其中，第一语音匹配模型和第二语音匹配模型分别是通过第二训练数据训练获得的模型，第二训练数据包括正样本语音和负样本语音，正样本语音是包含指定文本的语音，负样本语音是不包含指定文本的语音。即，DSP芯片可以对获取到的声音强度进行判断，当判断出声音强度高于预设阈值时，对唤醒语音执行下一步处理。例如，该预设阈值为20分贝，该第一芯片检测到的唤醒语音的声音强度为30分贝，此时第一芯片判断出唤醒语音的声音强度高于20分贝，则启动第一语音匹配模型和第二语音匹配模型。其中，通过此处的预设阈值判断，可以过滤掉其他低音量的语音对终端执行语音唤醒的影响，从而节约功耗。

可选的，指定文本可以是第一语音匹配模型或者第二语音匹配模型训练时，采用的唤醒词对应的文本内容中包含的文本。比如，第一语音匹配模型或者第二语音匹配模型训练时，采用的唤醒词是“你好，小明”，则该指定文本可以是“你”、“好”、“小”、“明”的文本，相应的，指定文本语音是“你好，小明”对应的语音。对应于“你好，小明”的指定文本，对应的负样本语音可以是不包含“你”、“好”、“小”、“明”指定文本的任何一个文本对应的语音。例如，负样本语音可以是“我”、“大”、“没”、“乐”、“果”等文本对应的语音。

可选的，第一语音匹配模型或者第二语音匹配模型在训练时，负样本语音可以由根据正样本语音从数据库中获取。例如，数据库中可以存储有各个文本语音，当模型得到正样本语音后，从数据库中随机选择一个不同于该正样本语音的文本语音，将该文本语音作为此次训练过程中的负样本语音。

可选的，第一语音匹配模型或者第二语音匹配模型的训练过程可以如下(以下以第一语音匹配模型进行举例说明)：

步骤a，对正样本语音进行切分，生成单个指定文本对应的语音数据。

其中，仍以上述正样本语音是对应的“你好，小明”对应的语音为例，该步骤中，可以提前将“你好，小明”的语音进行切分，将“你好，小明”的语音切分为为“你”、“好”、“小”、“明”四个单个指定文本对应的语音数据。请参考图4，其示出了本申请实施例涉及的一种语音数据的图像示意图。如图4所示，其中横轴为时间，纵轴为语音数据对应的声纹幅度。其中还包含了第一指定文本的语音数据401，第二指定文本的语音数据402，第三指定文本的语音数据403，第四指定文本的语音数据404，即，可以将指定文本切分为图4所示的各个单个指定文本。本申请对此步骤中采用的切分方法并不加以限定。

可选的，对生成单个指定文本对应的语音数据分别建立标签，例如，请参考表1,其示出了本申请实施例涉及的一种单个指定文本与对应标签的对应关系表。

单个指定文本	标签
		你	1
好	2
		小	3
明	4

表1

如表1所示，其中对于“你”、“好”、“小”、“明”四个语音数据分别建立了标签“1”、“2”、“3”、“4”，可选的，开发人员可以将该表1提前存储至待训练训练的第一语音匹配模型中。

步骤b，获取负样本语音。

从数据库中随机选择一个不同于上述正样本语音包含的各个指定文本均不同的语音数据。例如，当上述正样本语音为“你好，小明”时，从数据库中选择的负样本语音为“大”对应的语音。可选的，对于得到的负样本语音也可以建立一个标签，从而指示该负样本语音。其中，该负样本语音的标签需要与上述建立的表1中的标签均不相同。例如，对于得到的“大”语音，将“大”的负样本语音文本用标签“4”表示。相应的，开发人员也可以将该负样本语音以及对应的标签，提前存储至待训练的第一语音匹配模型中。可选的，本步骤中，获取负样本语音的执行，也可以是由待训练的第一语音匹配模型自己执行，即，待训练的第一语音匹配模型可以根据上述表1主动查询各个单个指定文本，并从数据库中选择一个不同于各个指定文本的语音数据，并对其进行表示，本申请对此并不加以限定。

步骤c，对每个指定文本进行特征提取得到每个指定文本对应的梅尔频率倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)特征。

请参考图5，其示出了本申请实施例涉及的一种MFCC特征提取模型各个模块的示意图。如图5所示，其中包含了预加重模块501，分帧加窗模块502，傅里叶变换模块503，能量谱计算模块504，梅尔滤波模块505，对数提取模块506。

其中，对于上述步骤a和步骤b分别得到的单个指定文本的语音和负样本语音，可以对各个语音数据通过预加重模块501进行处理，可选的，该预加重模块是高通滤波器，其数学表达式可以如下：

H(z)＝1-az^-1；

其中，H(z)表示滤波后的音频数据，z表示滤波前的音频数据，a是修正系数，一般取0.95-0.97。例如，对于上述得到的“你”对应的音频数据进行高通滤波处理，得到处理后的音频数据。

可选的，对处理后的音频数据通过分帧加窗模块502进行处理，将每个指定文本的语音分为预设数量的帧数，并平滑帧信号的边缘。其中，该预设数量可以由采用的分帧加窗模块中的汉明窗的函数决定。可选的，本步骤中采用的汉明窗的函数表达式可以如下：

其中，n为整数，n＝0,1,2,3......X，X为傅里叶变换的点数，比如X取值312、512等均可以。可选的，在通过分帧加窗模块502对上述各个单个指定文本的语音和负样本语音处理之后，可以根据能量谱计算模块504对得到的各个音频数据计算对应的能量谱。例如，对上述“你”进行分帧加窗处理后，通过能量谱计算模块504计算“你”的能量谱，对上述“好”进行分帧加窗处理后，通过能量谱计算模块504计算“好”的能量谱等等。将得到的各个能量谱通过梅尔滤波模块505进行处理，将相应的能量谱转化为符合人耳听觉的梅尔谱。可选的，梅尔滤波模块505中进行转化时采用的函数表达式可以如下：

其中，F_mel(f)表示提取到的梅尔谱，f为傅里叶变换后的频点。

通过上述处理后得到梅尔谱后，最后可以通过对数提取模块506先对得到的F_mel(f)取对数，然后做离散余弦变化(Discrete Cosine Transform，DCT)处理，最终得到的DCT系数即为提取到的MFCC特征。其中，对于各个指定文本语音和负样本语音都可以提取到各自对应的MFCC特征。

步骤e，根据MFCC特征生成每个指定文本对应的训练数据。

以上述分帧加窗模块502中采用的X＝312，且每一帧数据为20毫秒的音频数据为例，对于各个指定文本语音和负样本语音的每一帧都可以得到相应的312个数据点，本步骤中，为了得到具体各帧的训练数据，可以将每一帧数据前9帧和后10帧数据与本帧数据结合得到该帧的训练数据，相应的，每一帧数据的特征即为对应的该帧前9帧和后10帧(总共20帧)的综合312个数据点的特征，可选的，当上述MFCC特征是从312个数据点中提取出的40维的数据时，本步骤中，每一帧的训练数据可以为20*40的二维向量，即20帧中各帧对应的40为MFCC特征数据。相应的，对于上述各个指定文本语音和负样本语音，都可以生成每帧对应的训练数据，根据每帧的训练数据进行训练。可选的，本步骤中采用的数据量都是以举例说明，并不作为本申请的限制。

步骤f，将训练数据导入CNN模型，生成第一语音匹配模型。

其中，该CNN模型相当于待训练的第一语音匹配模型，通过上述得到的训练数据可以对该CNN模型进行训练，从而得到第一语音匹配模型。请参考图6，其示出了本申请实施例涉及的一种CNN模型的结构示意图。如图6所示，其中包含了第一卷积层601，第二卷积层602，第三卷积层603。可选的，该CNN模型是一个分类模型，即在训练数据导入该CNN模型之后，CNN模型可以对训练数据进行分类处理，最终映射出各帧数据对应的分类结果。由于上述步骤a和步骤b已经完成了各个指定文本语音和负样本语音对应标签的建立，即，数据分别被标记为0，1，2，3，4五类标签，分别代表“你”，“好”，“小”，“明”和负样本类。对该CNN模型进行训练，最终使得该CNN模型可以就输入的音频数据映射出对应的类别。可选的，该过程中可以采用梯度下降法或者其他迭代方法进行训练。

按照上述方式，得到第一语音匹配模型和第二语音匹配模型后，可以将第一语音匹配模型和第二语音匹配模型集成在终端中的芯片中，当唤醒语音的声音强度高于预设阈值时，通过第一语音匹配模型对唤醒语音进行匹配，获取第一匹配结果。需要说明的是，第一语音匹配模型和第二语音匹配模型的不同之处在于图6所示的CNN模型示意图中，卷积层的数量。其中，第二语音匹配模型的CNN模型中的卷积层数量多于第一语音匹配模型，从而可以训练出的第二语音匹配模型的计算量更大，即第一语音匹配模型对应的复杂程度低于第二语音匹配模型的复杂程度。

可选的，第一语音匹配模型可以集成在终端的第一芯片上，该第一芯片可以是DSP芯片，即，当唤醒语音的声音强度高于预设阈值时，终端通过第一芯片(DSP芯片)运行第一语音匹配模型，以对该唤醒语音进行匹配，获得第一匹配结果。

请参考图7，其示出了本申请实施例涉及的一种第一语音匹配模型运行的流程示意图。如图7所示，其中包含了特征提取模块701，模型输入模块702，模型推理模块703，模型输出模块704。其中，特征提取模块701可以根据用户输入的唤醒语音，提取到该唤醒语音的MFCC特征，例如，按照上述图5所示的特征提取模块进行提取时，可以将唤醒语音先进行切分为20ms一帧的语音数据，并对各帧的语音数据进行特征提取，得到各帧的MFCC特征。其中，仍采用与上述图5所示特征提取模块训练过程中提取到的MFCC数据量，则针对每一帧的唤醒语音数据，也可以得到输入至后续模型推理模块703中每帧的输入数据(20*40维的MFCC特征数据)。模型输入模块702将特征提取模块701提取到的数据输入至模型推理模块703中，模型推理模块703对输入的每帧的数据进行前向推理，得到每帧数据对应的标签，便可以表示该帧对应的文本。模型输出模块704将得到的每帧数据对应的标签进行输出，从而匹配出唤醒语音对应的匹配结果。

比如，用户输入的唤醒语音为“你好，小明”，通过特征提取模块701可以提取出“你”，“好”，“小”，“明”各自对应的每帧的MFCC特征，并针对每帧的MFCC特征进行模型前向推理，得到每帧对应的类别，从而得到唤醒语音对应的匹配结果。

当第一匹配结果指示唤醒语音中包含指定文本时，通过第二语音匹配模型对唤醒语音进行匹配，获得第二匹配结果。

在一种可能实现的方式中，终端对通过第一语音匹配模型得到第一匹配结果后，可以对第一匹配结果进行验证。可选的，上述图7中所示的第一语音匹配模型中，还可以包含后处理模块705，该后处理模块可以对得到的各帧的分类结果进行后处理，形成连续的分类结果，并查找连续数秒的每帧对应的分类结果。例如，一般情况下，3s基本上可以包含一个短语，后处理模块705可以对各帧的分类结果进行后处理生成连续的“你好，小明”的分类结果“0123”，后处理模块可以查找连续3s内的分类结果，如果依次出现“0”，“1”，“2”，“3”，则表明该唤醒语音一次出现“你”，“好”，“小”，“明”，则说明此次验证通过，即第一匹配结果指示唤醒语音包含指定文本。

此时终端可以通过第二语音匹配模型对唤醒语音再次进行匹配，获得第二匹配结果。其中，第二语音匹配模型的训练可以参考上述第一语音匹配模型的训练方式，第二匹配结果的获得方式也可以参照第一匹配结果的获得方式，此处不再赘述。

与第一语音匹配模型不同的是，第二语音匹配模型可以集成于第二芯片上，其中，第二芯片的功耗高于第一芯片的功耗。终端通过第二语音匹配模型对唤醒语音进行匹配，获得第二匹配结果，即是通过第二芯片运行第二语音匹配模型，以对唤醒语音进行匹配，从而获得第二匹配结果。例如，上述第一芯片是终端中的DSP芯片时，此处使用的第二芯片可以是终端的处理器芯片，比如，RISC微处理器(Advanced RISC Machine，ARM)芯片。

可选的，终端在执行通过第二芯片运行第二语音匹配模型，以对唤醒语音进行匹配，获得第二匹配结果的步骤时，控制第一芯片进入休眠状态。其中，由于终端在进行第二匹配结果的获取时，终端已经通过第一芯片运行第一语音匹配模型，并得到了第一匹配结果，此处，可以控制第一芯片进入休眠状态，从而可以节约终端的功耗。即，终端的DSP芯片在ARM芯片获取第二匹配结果的过程中，DSP芯片可以进入休眠状态，停止持续监听唤醒语音等步骤。

类似的，当终端通过第二芯片获取到第二匹配结果后，可以对第二匹配结果进行验证，检验第二匹配结果指示的唤醒语音是否包含指定文本。可选的，当第二匹配结果指示唤醒语音中包含指定文本时，执行通过声纹特征提取模型对唤醒语音进行处理，获取第一声纹特征的步骤，即执行步骤304，否则返回至步骤301，继续获取下一次用户输入的唤醒语音。此处检验第二匹配结果指示的唤醒语音是否包含指定文本，也可以参照上述检验第一匹配结果指示的唤醒语音是否包含指定文本的方式，此处不再赘述。

步骤304，通过声纹特征提取模型对唤醒语音进行处理，获取第一声纹特征。

可选的，第一训练数据中的每一条训练语音是N个用户中的一个用户阅读M条文本内容中的一条文本内容时产生的语音；M、N分别是大于或者等于2的整数。可选的，在本申请实施例中，对于声纹特征提取模型的训练，可以采用1000条不同用户阅读“你好，小明”的语音数据，1000条不同用户阅读“你好，小红”的语音数据，1000条不同用户阅读“你好，你在哪”的语音数据。

可选的，声纹特征提取模型的训练方式可以如下；

步骤1，对第一训练数据进行预处理。

其中，该预处理包括但不限于对第一训练数据中的每一条训练语音进行剪切、过滤、对齐等处理。例如，将第一训练数据通过预处理，将每一条训练语音都剪切或者补零对齐为3秒的语音数据。比如，将上述1000条不同用户阅读“你好，小明”的语音数据均剪切或者补零对齐为3秒的语音数据。将上述1000条不同用户阅读“你好，小红”的语音数据也均剪切或者补零对齐为3秒的语音数据，1000条不同用户阅读“你好，你在哪”的语音数据也均剪切或者补零对齐为3秒的语音数据。

步骤2，通过第一训练数据中包含的各条训练语音对识别模型进行训练。

其中，该识别模型包含提取模型以及分类模型，提取模型用于提取输入的语音的声纹特征，分类模型用于对提取模型输出的声纹特征进行分类确定对应的用户和文本内容。

请参考图8，其示出了本申请实施例涉及的一种识别模型的结构示意图。如图8所示，该识别模型中包含了特征提取模块801，卷积模块802，GRU(Gated Recurrent Unitnetworks,门控循环单元)模块803，全连接模块804，声纹特征提取模块805，文本内容提取模块806。其中，特征提取模块801类似于上述图5所示的特征提取模块501，可以提取第一训练数据的各条训练语音对应的MFCC特征。例如，对于第一训练数据中的某条“你好，小明”的训练语音进行MFCC特征提取，得到该条训练语音的MFCC特征。其中，识别模型中提取的MFCC特征的维度可以与图5中的特征提取模块501提取的维度不同。例如，本申请实施例中，特征提取模块801提取每条训练语音的MFCC特征的维度可以是128维，如果依旧采用每帧为20毫秒，则对每条处理后的训练语音均可以生成150*128维的特征向量。其中，150是时间维度，128为MFCC特征维度。

通过特征提取模块801提取MFCC模型之后，再次通过卷积模块802对得到的MFCC特征进行卷积计算，其中，该卷积模块802中的卷积层的数量至少为1层，卷积模块802的对应每条训练语音输出为512个卷积结果，将该卷积结果输入至GRU模块803中，其中，GRU采用512个节点，对应各个卷积结果输出一个向量，得到512维向量。可选的，上述GRU模块803中还可以包含注意力机制，通过注意力机制对得到512维向量赋予每个时间维度对应的权重，得到512维的特征向量。

全连接模块804可以对GRU模块803生成的512维的特征向量进行处理得到包含声纹特征以及文本内容的数据。其中，全连接模块804中可以包含有至少一个全连接层，且各个全连接层的输出通道为1024，即将GRU模块803生成的512维的特征向量通过全连接模块804处理后，可以得到对应输出通道数量的数据。

全连接模块804可以将输出的数据整体输入至声纹特征提取模块805中，由声纹特征提取模块805根据全连接模块804的输出数据提取相应的声纹特征，得到该条训练语音属于某个用户的概率。例如，声纹特征提取模块805可以利用第一softmax层处理，得到该条训练语音属于某个用户的概率。例如，对于用户A说出的“你好，小明”的语音数据，通过上述识别模型得到该条训练语音属于用户A的概率为70％。

全连接模块804可以将输出的数据整体也可以输入至文本内容提取模块806中，由文本内容提取模块806根据全连接模块804的输出数据提取相应的文本内容对应的类别，得到该条训练语音属于某个类别的概率。例如，声纹特征提取模块805可以利用第二softmax层处理，得到该条训练语音属于某个类别的概率。例如，对于用户A说出的“你好，小明”的语音数据，通过上述识别模型得到该条训练语音的文本内容属于文本类别一的概率为60％。

步骤3，当识别模型训练至收敛时，将提取模型获取为声纹特征提取模型。

识别模型可以根据存储的训练语音对应的真实用户，以及该训练语音的文本内容对应的真实类别，对上述卷积模块802，GRU模块803，全连接模块804，声纹特征提取模块805，文本内容提取模块806中使用的各个参数进行调整，使得下次获取到的训练语音对应的某个用户更加接近真实用户，训练语音的文本内容对应的类别更加接近真实类别。

可选的，识别模型中可以提前存储各个用户的训练语音与各个用户之间的对应关系。请参考表2，其示出了各个用户的训练语音与各个用户之间的对应关系表。

用户	训练语音
		用户A	训练语音一
用户B	训练语音二
		用户C	训练语音三
……	……

表2

其中，识别模型可以根据上述表2得到各个训练语音对应的真实用户。

可选的，识别模型中可以提前存储各个训练语音的文本内容与各个文本类别之间的对应关系。请参考表3，其示出了各个训练语音的文本内容与各个文本类别之间的对应关系表。

文本内容	文本类别
		文本内容一	文本类别A
文本内容二	文本类别B
		文本内容三	文本类别C
……	……

表3

类似的，识别模型可以根据上述表3得到各个训练语音的文本内容对应的真实文本类别。

在一种可能实现的方式中，识别模型可以采用交叉熵损失函数，计算上述声纹特征提取模块805得到的结果与真实用户之间的损失数Loss1，以及文本内容提取模块806得到的结果与真实类别之间的损失数Loss2，将Loss1和Loss2相加得到损失函数，利用梯度下降法或者其他迭代方法训练该识别模型，直至该识别模型收敛，将该识别模型中的提取模型获取为声纹特征提取模型即可。

在一种可能实现的方式中，上述声纹特征提取模型训练好之后，可以集成到终端中，从而使得终端可以根据唤醒语音以及该声纹特征提取模型，提取对应该唤醒语音对应的第一声纹特征，可选的，该声纹特征提取模型可以与上述第二语音匹配模型都集成在终端的处理器中。由上述图8可知，该声纹特征提取模型可以包括：特征提取模块，卷积模块，GRU模块，全连接模块，声纹特征提取模块几个模块。可选的，在本申请实施例中，终端中应用的声纹特征提取模型可以依次包括语音特征提取层、至少一层巻积层、基于注意力机制的门控循环单元GRU网络层以及至少一层全连接层；

通过语音特征提取层提取唤醒语音的梅尔频率倒谱系数MFCC特征，并分别通过至少一层巻积层、基于注意力机制的GRU网络层以及至少一层全连接层，依次对上层处理结果进行处理，获得第一声纹特征。其中，对接收到的唤醒语音进行处理可以参考上述训练过程中对任意一条训练语音的处理，此处不再赘述。

步骤305，将第一声纹特征与声纹特征模板进行匹配。

其中，该步骤中将第一声纹特征与声纹特征模板进行匹配的方式可以参照上述步骤203中的描述，此处不再赘述。

在一种可能实现的方式中，在步骤305之前，终端还可以检测是否存储有声纹特征模板。例如，当用户打开终端的声纹唤醒应用时，终端可以检测自身是否存储有声纹特征模板。当未存储有声纹特征模板时，展示提示信息。该提示信息用于指示进行模板语音的录入。请参考图9，其示出了本申请实施例涉及的一种终端中展示的声纹唤醒应用的界面示意图。如图9所示，在界面900中包含了提示信息901，确认控件902，取消控件903。可选的，用户可以通过点击声纹唤醒应用的图标，进入声纹唤醒应用，相应的终端可以检测自身是否存储有声纹特征模板，如果没有存储声纹特征模板，则可以展示图9所示的提示信息，提示用户进行模板语音的录入。当用户点击图9所示的确认控件时，可以开启声纹特征模板的录入过程。

可选的，该声纹特征模板的录入过程可以如下：

A：接收录入的至少一条模板语音。

其中，用户在录入一条模板语音后，终端可以继续提醒用户再次录入相同的模板语音，从而得到用户录入的至少一条模板语音。

B：通过声纹特征提取模型分别对至少一条模板语音进行处理，获取至少一条模板语音各自的第二声纹特征。

在一种可能实现的方式中，终端可以根据上述训练好的声纹特征提取模型对得到的多条模板语音进行特征提取，分别获取各条模板语音各自的第二声纹特征。可选的，终端也可以在提取一条模板语音的第二声纹特征之后，再提醒用户再次录入第二条模板语音，从而进一步得到各条模板语音的第二声纹特征。本申请实施例对此并不加以限定。

C：根据至少一条模板语音各自的第二声纹特征生成声纹特征模板。

终端可以对各个第二声纹特征取平均，最终生成上述声纹特征模板。可选的，以该终端中的唤醒语音为“你好，小明”为例，用户A可以对着终端分别录入3段同样的“你好，小明”的语音，终端可以对这3段语音分别进行声纹特征提取，将提取到的3个第二声纹特征进行取平均，得到用户A的声纹特征模板，并将该声纹特征模板存储在终端中。

步骤306，当第一声纹特征与声纹特征模板匹配时，唤醒终端。

即，当终端接收到的唤醒语音对应的第一声纹特征与声纹特征模板匹配时，终端可以执行相应的唤醒操作。在一种可能实现的方式中，当第一声纹特征与声纹特征模板匹配时，唤醒终端的语音对话功能。比如，终端具有语音对话功能，终端可以根据第一声纹特征，确定是否开启自身的语音对话功能，使得用户可以与自身进行后续的语音对话。

在一种可能实现的方式中，当第一声纹特征与声纹特征模板匹配时，唤醒终端执行目标指令，目标指令是声纹特征模板绑定的操作指令。比如，终端在上述生成声纹特征模板时，可以根据用户选择的操作控件，建立声纹特征模板与操作指令之间的绑定关系，当第一声纹特征与声纹特征模板匹配时，终端可以直接根据声纹特征模板获取到相应的操作指令，从而执行目标指令。比如，该目标指令可以是“终端开锁”、“终端开启目标应用”等对应的指令，即，用户可以通过输入第一声纹特征，终端根据对第一声纹特征与声纹特征模板之间的匹配关系，确定自身是否执行目标指令。

需要说明的是，本申请实施例所提到的语音对话功能、终端开锁以及终端开启目标应用的功能是举例说明，实际应用中，也可以是直接执行其他对应的操作，本申请对此并不加以限定。

另外，本申请在声纹识别模型的训练过程中，由于采用了不同文本内容的语音数据，并对获取声纹特征过程的各个参数进行修正等，从而使得提取到的声纹特征更加准确。

需要说明的是，上述第一语音匹配模型集成在功耗较低的第一芯片中，第二语音匹配模型和声纹特征提取模型集成在功耗较高的第二芯片中，并在第二芯片执行相应步骤时，第一芯片可以进入休眠状态，从而节约终端的功耗。

在一种可能实现的方式中，以上述终端是手机，第一语音匹配模型集成在终端中的DSP芯片上，第二语音匹配模型和声纹特征提取模型集成在ARM芯片中为例，对上述图2或图3的方法实施例进行举例说明。请参考图10，其示出了本申请一示例性实施例提供的一种声纹唤醒方法的方法流程图。该方法是由日常生活中的手机执行的，如图10所示，该声纹唤醒方法可以包括以下几个步骤：

步骤1001，展示声纹唤醒界面。

可选的，用户可以通过点击手机中的声纹唤醒应用进入声纹唤醒界面，或者，用户也可以通过手机的设置应用进入声纹唤醒界面。请参考图11，其示出了本申请实施例涉及的一种声纹唤醒界面的界面示意图。如图11所示，在界面1100中包含了声纹录入控件1101，声纹唤醒开启控件1102。

步骤1002，录入声纹模板。

在一种可能实现的方式中，用户可以点击上述图11所示的声纹录入控件1101，开始录入声纹模板。比如，用户点击声纹录入控件1101后，可以对着手机麦克风说出指定文本的语音，手机可以采集用户的语音数据，并通过声纹特征提取模型对用户输入的语音数据进行声纹特征提取，得到该用户的声纹模板。可选的，该步骤中声纹特征提取模型提取声纹特征的方式可以参照上述图3所示实施例中的相应描述，此处不再赘述。

步骤1003，开启声纹唤醒功能。

可选的，当手机中已经存储有声纹模板时，用户可以点击上述图11所示的声纹唤醒开启控件1102，开启手机的声纹唤醒功能。

步骤1004，通过麦克风采集音频数据。

当用户开启声纹唤醒功能之后，手机的麦克风可以一直处于采集状态，实时采集手机周围的音频数据。DSP芯片也可以工作在监听状态，接收麦克风传递的音频数据。

步骤1005，通过DSP芯片检测音频数据的声音强度。

DSP芯片对接收到的音频数据进行判断，检测该音频数据的声音强度是否高于预设阈值，当该音频数据高于预设阈值时，执行步骤1006，否则，返回至步骤1004，继续监听手机周围的音频数据。

步骤1006，通过DSP芯片中的第一语音匹配模型对音频数据进行匹配。

其中，当DSP芯片对音频数据匹配通过时，执行步骤1007，否则，返回至步骤1004，继续监听手机周围的音频数据。可选的，手机通过第一语音匹配模型对音频数据进行匹配的实现方式可以参照上述图3所示实施例中的相关描述，此处不再赘述。

可选的，在该步骤中，如果DSP芯片对音频数据匹配通过，且此时手机的ARM芯片处于休眠状态时，手机可以将ARM芯片由休眠状态转为工作状态，并将音频数据输入至ARM芯片中，使得ARM芯片得到该音频数据。可选的，如果DSP芯片对音频数据匹配通过，且此时手机的ARM芯片处于工作状态时，手机也可以直接将该音频数据输入至ARM芯片。

可选的，该步骤完成后，即DSP芯片将音频数据输入至ARM芯片后，DSP芯片可以由监听状态切换到休眠状态，从而节约终端的功耗。

步骤1007，通过ARM芯片中的第二语音匹配模型对音频数据进行匹配。

其中，当ARM芯片对音频数据匹配通过时，执行步骤1008，否则，返回至步骤1004，继续监听手机周围的音频数据。可选的，手机通过第二语音匹配模型对音频数据进行匹配的实现方式可以参照上述图3所示实施例中的相关描述，此处不再赘述。

可选的，当ARM芯片对音频数据匹配未通过时，手机也可以控制DSP由休眠状态切换到监听状态，继续监听手机周围的音频数据。同时，若此时手机处于息屏状态，手机也可以控制ARM工作状态转为休眠状态。

步骤1008，通过ARM芯片中的声纹特征提取模型对音频数据进行声纹提取。

可选的，手机通过ARM芯片中的声纹特征提取模型对音频数据进行声纹提取实现方式可以参照上述图3所示实施例中的相关描述，此处不再赘述。

步骤1009，对提取到的声纹特征进行验证。

对提取到的声纹特征与存储的声纹特征模板进行比对，如果提取到的声纹特征符合声纹特征模板，则通过该验证，进入步骤1010，否则返回步骤1004，继续监听手机周围的音频数据。可选的，DSP芯片和ARM芯片的工作状态也可以进行相应的切换。

步骤1010，执行手机中相应的操作。

即，根据用户说出的唤醒语音，执行相应的功能。

综上所述，本申请通过在手机中应用按照上述图2或图3的训练方式得到的声纹特征提取模型，使得终端中的声纹特征提取模型获取音频数据的声纹特征时，利用了文本内容的特点，提高了手机获取声纹特征的准确性以及响应于唤醒语音的执行操作的准确性。另外，通过不同模型部署在不同的芯片上，以及不同芯片对应的工作状态的切换，也有利于节省手机的功耗。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图12，其示出了本申请一示例性实施例提供的声纹唤醒装置的结构框图。该声纹唤醒装置1200可以用于终端中，以执行图2、图3或者图10所示实施例提供的方法中由终端执行的全部或者部分步骤。该声纹唤醒装置1200可以包括：唤醒语音获取模块1201，第一特征获取模块1202，特征匹配模块1203以及终端唤醒模块1204。

所述唤醒语音获取模块1201，用于获取用户输入的唤醒语音；

所述第一特征获取模块1202，用于通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征；所述声纹特征提取模型是根据第一训练数据训练获得的模型，所述第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；

所述特征匹配模块1203，用于将所述第一声纹特征与声纹特征模板进行匹配；

所述终端唤醒模块1204，用于当所述第一声纹特征与所述声纹特征模板匹配时，唤醒所述终端。

综上所述，本申请通过不同用户阅读不同的文本内容时产生的训练语音的训练数据对终端中的声纹特征提取模型进行训练，使得终端中的声纹特征提取模型可以根据文本内容对即将得到的第一声纹特征进行优化，从而使得终端通过声纹特征提取模型获取第一声纹特征时，利用了依赖文本内容的特点，降低了终端出现误操作的现象，提高了终端获取第一声纹特征的准确性以及响应于唤醒语音的执行操作的准确性。

可选的，所述声纹唤醒装置还包括数据训练模块，模型获取模块；

所述数据训练模块，用于在所述唤醒语音获取模块1201获取用户输入的唤醒语音之前，通过所述第一训练数据中包含的各条所述训练语音对识别模型进行训练，所述识别模型包含提取模型以及分类模型，所述提取模型用于提取输入的语音的声纹特征，所述分类模型用于对所述提取模型输出的声纹特征进行分类确定对应的用户和文本内容；

所述模型获取模块，用于当所述识别模型训练至收敛时，将所述提取模型获取为所述声纹特征提取模型。

可选的，所述第一训练数据中的每一条所述训练语音是N个用户中的一个用户阅读M条文本内容中的一条文本内容时产生的语音；M、N分别是大于或者等于2的整数；

可选的，所述声纹特征提取模型依次包括语音特征提取层、至少一层巻积层、基于注意力机制的门控循环单元GRU网络层以及至少一层全连接层；

所述第一特征获取模块1202，还用于通过所述语音特征提取层提取所述唤醒语音的梅尔频率倒谱系数MFCC特征，并分别通过所述至少一层巻积层、基于注意力机制的门控循环单元GRU网络层以及至少一层全连接层，依次对上层处理结果进行处理，获得所述第一声纹特征。

可选的，所述声纹唤醒装置还包括模板检测模块，信息展示模块，模板语音接收模块，第二特征获取模块，模板生成模块；

所述模板检测模块，用于在所述特征匹配模块1203将所述第一声纹特征与声纹特征模板进行匹配之前，检测是否存储有所述声纹特征模板；

所述信息展示模块，用于当未存储有所述声纹特征模板时，展示提示信息，所述提示信息用于指示进行模板语音的录入；

所述模板语音接收模块，用于接收录入的至少一条模板语音；

所述第二特征获取模块，用于通过所述声纹特征提取模型分别对所述至少一条模板语音进行处理，获取所述至少一条模板语音各自的第二声纹特征；

所述模板生成模块，用于根据所述至少一条模板语音各自的第二声纹特征生成所述声纹特征模板。

可选的，所述声纹唤醒装置还包括语音匹配模块和第一执行模块；

所述语音匹配模块，用于在所述第一特征获取模块802通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征之前，通过第一语音匹配模型和第二语音匹配模型分别对唤醒语音进行语音匹配；所述第一语音匹配模型和所述第二语音匹配模型分别是通过第二训练数据训练获得的模型，所述第二训练数据包括正样本语音和负样本语音，所述正样本语音是包含指定文本的语音，所述负样本语音是不包含指定文本的语音；

所述第一执行模块，用于当通过所述第一语音匹配模型和所述第二语音匹配模型分别匹配出所述唤醒语音中包含所述指定文本时，执行所述通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征的步骤。

可选的，所述第一语音匹配模型的复杂程度低于所述第二语音匹配模型的复杂程度；

所述语音匹配模块，包括：第一结果获取单元，第二结果获取单元；

所述第一结果获取单元，用于通过所述第一语音匹配模型对所述唤醒语音进行匹配，获取第一匹配结果；

所述第二结果获取单元，用于当所述第一匹配结果指示所述唤醒语音中包含所述指定文本时，通过所述第二语音匹配模型对所述唤醒语音进行匹配，获得第二匹配结果；

所述第一执行模块，还用于当所述第二匹配结果指示所述唤醒语音中包含所述指定文本时，执行所述通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征的步骤。

可选的，所述第一结果获取单元，还用于通过第一芯片运行所述第一语音匹配模型，以对所述唤醒语音进行匹配，获得所述第一匹配结果；

所述第二结果获取单元，还用于通过第二芯片运行所述第二语音匹配模型，以对所述唤醒语音进行匹配，获得所述第二匹配结果；

其中，所述第一芯片的功耗低于所述第二芯片的功耗。

可选的，所述第一芯片是数字信号处理DSP芯片，所述第二芯片是处理器芯片。

可选的，所述声纹唤醒装置还包括：状态控制模块；

所述状态控制模块，用于在执行通过第二芯片运行所述第二语音匹配模型，以对所述唤醒语音进行匹配，获得所述第二匹配结果的步骤时，控制所述第一芯片进入休眠状态。

可选的，所述声纹唤醒装置还包括：强度获取模块；

所述强度获取模块，用于所述语音匹配模块在通过第一语音匹配模型和第二语音匹配模型对唤醒语音进行语音匹配之前，通过所述第一芯片获取所述唤醒语音的声音强度；

所述通过第一语音匹配模型和第二语音匹配模型对唤醒语音进行语音匹配，包括：

当所述唤醒语音的声音强度高于预设阈值时，执行所述通过第一语音匹配模型和第二语音匹配模型对唤醒语音进行语音匹配的步骤。

请参考图13，其示出了本申请一个示例性实施例提供的终端的结构示意图，如图13所示，该终端包括处理器1310、存储器1320、显示组件1330和传感器组件1340，显示组件1330用于显示终端中前台运行的程序的界面，传感器组件1340用于采集各个传感器数据。所述存储器1320中存储有至少一条指令，所述指令由所述处理器1310加载并执行以实现如上各个实施例所述的声纹唤醒方法中，由终端执行的部分或者全部步骤。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的声纹唤醒方法中，由终端执行的全部或部分步骤。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的声纹唤醒方法中，由终端执行的全部或部分步骤。

需要说明的是：上述实施例提供的声纹唤醒装置在执行上述声纹唤醒方法时，仅以上述各实施例进行举例说明，实际程序中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种声纹唤醒方法，其特征在于，所述方法由终端执行，所述方法包括：

获取用户输入的唤醒语音；

获取所述唤醒语音的声音强度；

当所述唤醒语音的声音强度高于预设阈值时，通过第一语音匹配模型和第二语音匹配模型分别对所述唤醒语音进行语音匹配；所述第一语音匹配模型和所述第二语音匹配模型分别是通过第二训练数据训练获得的模型，所述第二训练数据包括正样本语音和负样本语音，所述正样本语音是包含指定文本的语音，所述负样本语音是不包含指定文本的语音；所述指定文本是所述第一语音匹配模型或者所述第二语音匹配模型训练时，采用的唤醒词对应的文本内容中包含的文本；

当通过所述第一语音匹配模型和所述第二语音匹配模型分别匹配出所述唤醒语音中包含所述指定文本时，通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征；所述声纹特征提取模型是根据第一训练数据训练获得的模型，所述第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；

将所述第一声纹特征与所述终端中预先存储的至少一个声纹特征模板进行匹配；所述声纹特征模板中包含至少两个声纹特征，所述声纹特征模板中的声纹特征分别对应于不同的用户；

当所述第一声纹特征与所述至少一个声纹特征模板中的任意一个声纹特征匹配时，唤醒所述终端。

2.根据权利要求1所述的方法，其特征在于，所述第一训练数据中的每一条所述训练语音是N个用户中的一个用户阅读M条文本内容中的一条文本内容时产生的语音；M、N分别是大于或者等于2的整数；

所述获取用户输入的唤醒语音之前，还包括：

通过所述第一训练数据中包含的各条所述训练语音对识别模型进行训练，所述识别模型包含提取模型以及分类模型，所述提取模型用于提取输入的语音的声纹特征，所述分类模型用于对所述提取模型输出的声纹特征进行分类确定对应的用户和文本内容；

当所述识别模型训练至收敛时，将所述提取模型获取为所述声纹特征提取模型。

3.根据权利要求1所述的方法，其特征在于，所述声纹特征提取模型依次包括语音特征提取层、至少一层巻积层、基于注意力机制的门控循环单元GRU网络层以及至少一层全连接层；

所述通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征，包括：

通过所述语音特征提取层提取所述唤醒语音的梅尔频率倒谱系数MFCC特征，并分别通过所述至少一层巻积层、基于注意力机制的门控循环单元GRU网络层以及至少一层全连接层，依次对上层处理结果进行处理，获得所述第一声纹特征。

4.根据权利要求1所述的方法，其特征在于，所述将所述第一声纹特征与声纹特征模板进行匹配之前，还包括：

检测是否存储有所述声纹特征模板；

当未存储有所述声纹特征模板时，展示提示信息，所述提示信息用于指示进行模板语音的录入；

接收录入的至少一条模板语音；

通过所述声纹特征提取模型分别对所述至少一条模板语音进行处理，获取所述至少一条模板语音各自的第二声纹特征；

根据所述至少一条模板语音各自的第二声纹特征生成所述声纹特征模板。

5.根据权利要求1所述的方法，其特征在于，所述第一语音匹配模型的复杂程度低于所述第二语音匹配模型的复杂程度；

所述通过第一语音匹配模型和第二语音匹配模型分别对唤醒语音进行语音匹配，包括：

通过所述第一语音匹配模型对所述唤醒语音进行匹配，获取第一匹配结果；

当所述第一匹配结果指示所述唤醒语音中包含所述指定文本时，通过所述第二语音匹配模型对所述唤醒语音进行匹配，获得第二匹配结果；

所述当通过所述第一语音匹配模型和所述第二语音匹配模型分别匹配出所述唤醒语音中包含所述指定文本时，执行所述通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征的步骤，包括：

当所述第二匹配结果指示所述唤醒语音中包含所述指定文本时，执行所述通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征的步骤。

6.根据权利要求5所述的方法，其特征在于，

所述通过所述第一语音匹配模型对所述唤醒语音进行匹配，获取第一匹配结果，包括：

通过第一芯片运行所述第一语音匹配模型，以对所述唤醒语音进行匹配，获得所述第一匹配结果；

所述通过所述第二语音匹配模型对所述唤醒语音进行匹配，获得第二匹配结果，包括：

通过第二芯片运行所述第二语音匹配模型，以对所述唤醒语音进行匹配，获得所述第二匹配结果；

其中，所述第一芯片的功耗低于所述第二芯片的功耗。

7.根据权利要求6所述的方法，其特征在于，所述第一芯片是数字信号处理DSP芯片，所述第二芯片是处理器芯片。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在执行通过第二芯片运行所述第二语音匹配模型，以对所述唤醒语音进行匹配，获得所述第二匹配结果的步骤时，控制所述第一芯片进入休眠状态。

9.根据权利要求6所述的方法，其特征在于，所述获取所述唤醒语音的声音强度，包括：

通过所述第一芯片获取所述唤醒语音的声音强度。

10.根据权利要求1所述的方法，其特征在于，所述当所述第一声纹特征与所述声纹特征模板匹配时，唤醒所述终端，包括：

当所述第一声纹特征与所述声纹特征模板匹配时，唤醒所述终端的语音对话功能；或者，

当所述第一声纹特征与所述声纹特征模板匹配时，唤醒所述终端执行目标指令，所述目标指令是所述声纹特征模板绑定的操作指令。

11.一种声纹唤醒装置，其特征在于，所述装置用于终端中，所述装置包括：

唤醒语音获取模块，用于获取用户输入的唤醒语音；

强度获取模块，用于获取所述唤醒语音的声音强度；

语音匹配模块，用于当所述唤醒语音的声音强度高于预设阈值时，通过第一语音匹配模型和第二语音匹配模型分别对所述唤醒语音进行语音匹配；所述第一语音匹配模型和所述第二语音匹配模型分别是通过第二训练数据训练获得的模型，所述第二训练数据包括正样本语音和负样本语音，所述正样本语音是包含指定文本的语音，所述负样本语音是不包含指定文本的语音；所述指定文本是所述第一语音匹配模型或者所述第二语音匹配模型训练时，采用的唤醒词对应的文本内容中包含的文本；

第一特征获取模块，用于当通过所述第一语音匹配模型和所述第二语音匹配模型分别匹配出所述唤醒语音中包含所述指定文本时，通过声纹特征提取模型对所述唤醒语音进行处理，获取第一声纹特征；所述声纹特征提取模型是根据第一训练数据训练获得的模型，所述第一训练数据包括不同用户阅读不同的文本内容时产生的训练语音；

特征匹配模块，用于将所述第一声纹特征与所述终端中预先存储的至少一个声纹特征模板进行匹配；所述声纹特征模板中包含至少两个声纹特征，所述声纹特征模板中的声纹特征分别对应于不同的用户；

终端唤醒模块，用于当所述第一声纹特征与至少一个所述声纹特征模板中的任意一个声纹特征匹配时，唤醒所述终端。

12.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的声纹唤醒方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的声纹唤醒方法。