CN117012205A

CN117012205A - 声纹识别方法、图形界面及电子设备

Info

Publication number: CN117012205A
Application number: CN202210468806.8A
Authority: CN
Inventors: 吴彪; 夏日升
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-11-07
Also published as: WO2023207185A1; EP4293664A1; EP4293664A4

Abstract

本申请公开了一种声纹识别方法、图形界面及电子设备。在该声纹识别方法中，电子设备中预置有声纹模型，然后电子设备基于从注册用户的语音中提取的声纹特征，对预置声纹模型进行训练并更新，得到属于该注册用户的专有声纹模型。最后，电子设备采用该专有声纹模型根据注册用户的语音的声纹特征生成注册用户表征，将该注册用户表征作为参考标准来实现对说话人的语音进行声纹识别，由于专有声纹模型是根据注册用户的个人语音的声纹特征训练得到的，因此其生成的注册用户表征能够准确地表达用户的声纹特征，从而提高声纹识别准确率。

Description

声纹识别方法、图形界面及电子设备

技术领域

本申请涉及终端领域，尤其涉及一种声纹识别方法、图形界面及电子设备。

背景技术

语音作为用户的独特信息而被广泛使用，例如在声纹识别技术中，电子设备可从说话人的语音中提取声纹特征，并基于提取到的声纹特征，采用预置声纹模型生成说话人表征，然后将该说话人表征与注册用户表征(相当于参考标准)进行比对，以识别说话人是否为注册用户。目前，同型号的电子设备中都预置有一款相同的声纹模型。

如何提高声纹识别准确率，则是亟待解决的问题。

发明内容

本申请提供了一种声纹识别方法、图形界面及电子设备。在该声纹识别方法中，电子设备可以基于从注册用户的语音中提取的声纹特征对预置声纹模型进行训练并更新，得到属于该注册用户的专有声纹模型。最后，利用该专有声纹模型进行声纹识别，从而提高声纹识别准确率。

第一方面，本申请提供了一种声纹识别方法，该方法包括：电子设备检测到第一语音指令，输出第一结果，该第一结果不指示声纹识别通；该电子设备检测到第二语音指令，输出第二结果，该第二结果指示声纹识别通过；该第一语音指令和该第二语音指令均包含用户在同一状态下的声纹特征。用户的状态会受到以下任意一项或多项的干扰：时间(用户年龄)、生理、病理、心理以及环境。用户的状态包括但不限于：第一状态和第二状态，其中第一状态是指用户的生理、病理和心理状态都处于健康、平静、稳定的状态，且不受环境影响的状态，例如该第一状态包括但不限于用户躺在床上休息的时的状态；其中，第二状态是指用户的生理、病理或者心理状态中任一项处于非健康、平静、稳定的状态，例如包括但不限于用户正在剧烈运动(骑行)、喉咙病变、情绪紧张不稳定时的状态。用户在不同状态下输出的语音不同，例如语音的情绪/语速不同，也就是说用户在不同状态下输出的语音的声纹特征不同。在同一状态下分别输出的语音的类似，例如语音的情绪/语速类似，也就是说用户在同一状态下输出的语音的声纹特征类似。

实施第一方面提供的方法后，能够准确的识别用户在各种状态下的声纹特征，可以提高声纹识别准确率。避免用户在受到环境、心理、病理、年龄阶段的影响而导致用户的声纹特征出现轻微变异，从而导致声纹识别不准确。

结合第一方面提供的方法，该电子设备检测到第二语音指令之后，该方法还包括：该电子设备识别该第二语音指令对应的语音，执行该语音对应的第二操作；该第二操作包括以下任意一种：唤醒语音助手，控制语音助手执行响应操作，或者登陆该用户的账号。

这样，电子设备对用户的声纹识别通过后，可以根据用户的语音指令执行相应的操作。

结合第一方面提供的方法，该电子设备中包括第一声纹模型，该电子设备检测到第二语音指令之前，该方法还包括：该电子设备获取该用户的一条或多条第三语音；基于该一条或多条第三语音对该第一声纹模型进行训练，得到第二声纹模型；该电子设备使用该第二声纹模型，根据该用户的第四语音生成第一用户表征(相当于采用更新后的声纹模型生成的注册用户表征)；该第一用户表征指示该用户的声纹特征；其中，该第二声纹模型和该第一用户表征用于该电子设备对该第二语音指令进行声纹识别。

这样，电子设备采用更新后的声纹模型(第二声纹模型)，能够准确的识别用户在各种状态下的声纹特征，可以提高声纹识别准确率。避免用户在受到环境、心理、病理、年龄阶段的影响而导致用户的声纹特征出现轻微变异，从而导致声纹识别不准确。

结合第一方面提供的方法，该电子设备基于该一条或多条第三语音对该第一声纹模型进行训练之前，该方法还包括：该电子设备开启用于更新该第一声纹模型的功能。

这样，用户可以主动输入操作控制电子设备更新声纹模型，或者电子设备可以自动更新声纹模型，这种多触发操作，可以为用户提供便利。

结合第一方面提供的方法，该电子设备基于该一条或多条第三语音对该第一声纹模型进行训练之前，该方法还包括：确定该电子设备处于以下一种或多种状态：空闲状态、充电状态、预设的更新时间范围内或电池电量大于阈值。

这样，电子设备可以实现无感知的声纹模型更新，避免影响用户进行对电子设备进行其他操作。其中，判断电子设备是否处于空闲状态具体可以通过时间检测和语音检测来确定。例如，当检测到时间处于特定范围(北京时间0点到7点)内，且通过麦克风检测到环境噪声低于阈值且没有用户语音，则认为此事用户处于睡眠状态，使用电子设备的可能性较小，因此确认电子设备此时处于空闲状态。又例如，电子设备还可以通过智能学习用户使用电子设备的习惯，来判断电子设备合适处于空闲状态。这样，电子设备可以实现无感知声纹模型更新。

结合第一方面提供的方法，该电子设备到检测第二语音指令之后，输出指示声纹识别通过的第二结果之前，该方法还包括：该电子设备从该第二语音指令中获取第一声纹特征，使用该第二声纹模型根据该第一声纹特征得到第一说话人表征，仅在确定该第一说话人表征和该用户表征之间的第一相似度大于第一值的情况下，确定声纹识别通过。

这样，电子设备可以采用更新的声纹模型，精确识别这个用户在每个状态下说出的语音中的声纹特征。

结合第一方面提供的方法，该电子设备基于该一条或多条第三语音对该第一声纹模型进行训练之前，该方法还包括：该电子设备使用该第一声纹模型，根据该第一用户的第五语音生成第二用户表征(相当于采用未更新的声纹模型生成的注册用户表征)；该第二用户表征指示该用户的声纹特征，该第二用户表征不同于该第一用户表征；该电子设备获取该用户的一条或多条第三语音，具体包括：该电子设备检测到第六语音；该电子设备从该第六语音中获取第二声纹特征，使用该第一声纹模型根据该第二声纹特征得到第二说话人表征；将该第二说话人表征和该第二用户表征之间的第二相似度大于第二值时对应的该第六语音，确定为该第一用户的第三语音。

这样，电子设备在更新声纹模型之前，可以通过采用预置声纹模型或者上一次更新的声纹模型进行声纹识别，并且声纹识别成功的用户的语音，作为训练数据。来得到符合该用户的专属声纹模型。

结合第一方面提供的方法，该电子设备基于该一条或多条第三语音对该第一声纹模型进行训练，得到第二声纹模型，具体包括：该电子设备获取第三语音对应的文本，以及，第三语音中的第三声纹特征；该电子设备根据该文本和该第三声纹特征生成一条或多条合成语音，该合成语音对应的文本和该第三语音对应的该文本相同，该合成语音的声纹特征和该第三声纹特征之间的相似度大于第三值；该电子设备使用训练语音对该第一声纹模型进行训练，得到第二声纹模型；该训练语音包括：该一条或多条第三语音，和/或，该一条或多条合成语音，中的部分或全部。

这样，电子设备在更新声纹模型之前，可以通过采用预置声纹模型或者上一次更新的声纹模型进行声纹识别，并且声纹识别成功的用户的语音，作为训练数据。并且，基于声纹识别成功的用户的语音，生成合成语音，也作为训练数据，这样能够段时间得到大量的训练数据，提高声纹模型更新的效率。

结合第一方面提供的方法，该电子设备根据该文本和该第三声纹特征生成一条或多条合成语音，具体包括：该电子设备根据语音控制参数、该文本和该第三声纹特征生成一条或多条合成语音；该语音控制参数包括情绪参数和/或语速参数，该合成语音的情绪与该情绪参数指示的情绪相同，该合成语音对应的文本和该第三语音对应的该文本相同，该合成语音的声纹特征和该第三声纹特征之间的相似度大于该第三值。

这样，电子设备在获取合成语音以作为模型的训练数据时，能够通过语音控制参数模拟出用户在不同情绪、状态下输出的语音，从而丰富训练数据的类型，以得到更加准确的声纹模型，从而准确识别用户在各种状态下输出不同情绪、语速的语音的声纹特征。

结合第一方面提供的方法，该电子设备使用训练语音对该第一声纹模型进行训练，具体包括：该电子设备按照预设比例从该一条或多条第三语音，和/或，该一条或多条合成语音选取部分或全部语音作为该训练语音；其中，该预设比例指示该训练数据中不同情绪和/或语速的语音所占的比例。

这样，可以进一步的从根源上解决由于用户的情感漂移，而带来的声纹识别准确率低的问题，提升声纹模型的性能。

结合第一方面提供的方法，该合成语音的数量为第一数量；该第一数量是该电子设备根据该第二相似度确定的，该第二相似度越低该第一数量越多。

这样，当用户的第三语音对应的第二说话人表征和第二用户表征的相似度大于阈值并且很大时，则说明此时的声纹模型能够非常准确的识别用户的语音，则基于注册用户的语音获取训练数据去更新模型的性能提升空间不大。反之，当该用户的语音对应的第二说话人表征和第二用户表征的相似度大于第二值但很小时，则说明此时的声纹模型虽然能够的识别用户的语音的声纹特征，但是该用户若再说一条与之前的第三语音有点差异的语音，可能导致声纹识别不准确，则此时的声纹模型基于该用户的第三语音获取训练数据去更新模型的性能提升空间非常大。

结合第一方面提供的方法，该电子设备检测到第二语音指令之后，该方法还包括：该电子设备确定该第二语音指令的文本为特定文本，该特定文本包括以下一种或多种：该唤醒词、预设语音指令对应的词、账号登陆时通过语音输入的词。

这样，可以防止用户随意说出的语音误触发电子设备去收集用户语音，作为训练语音更新声纹模型。

结合第一方面提供的方法，该第四语音包括以下一种或多种语音：该第三语音，该第五语音，或者，该电子设备提示用户主动注册的语音。

这样，电子设备采用更细后的第二声纹模型重新生成用户表征时，可以根据训练语音、或者根据以前采用未更新的第一声纹模型进行声纹注册时输入的注册语音，或者是用户重新进行声纹注册时输入的语音来提取其中的声纹特征，得到新的用户表征。

第二方面，本申请提供一种电子设备，该电子设备包括：一个或多个处理器、一个或多个存储器和显示屏；该一个或多个存储器与一个或多个处理器耦合，该一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当该一个或多个处理器执行该计算机指令时，使得该电子设备执行如第一方面中任一项所描述的方法。

第三方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行如第一方面中任一项所描述的方法。

第四方面，本申请提供一种芯片或芯片系统，该芯片或芯片系统包括处理电路和接口电路，该接口电路用于接收代码指令并传输至该处理电路，该处理电路用于运行该代码指令以执行如第一方面中任一项所描述的方法。

附图说明

图1为一种声纹识别方法的流程图；

图2为本申请实施例提供的声纹识别场景示意图；

图3A-图3E为本申请实施例提供的一组声纹注册用户界面示意图；

图4A-图4B为本申请实施例提供的注册用户在第一状态下进行语音测试时的一组用户界面示意图；

图5A-图5B为本申请实施例提供的注册用户在第二状态下进行语音测试时的一组用户界面示意图；

图6为本申请实施例提供的一种开启自动更新声纹模型功能的用户界面示意图；

图7A-图7B为本申请实施例提供的注册用户在第一状态下进行语音测试时的另一组用户界面示意图；

图8A-图8C为本申请实施例的注册用户在第二状态下进行语音测试时的另一组用户界面示意图；

图9为本申请实施例提供的声纹识别方法流程图；

图10为本申请实施例提供的一种电子设备硬件架构示意图；

图11为本申请实施例提供的一种电子设备软件架构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

声纹是指，携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有唯一性、相对稳定性、可测量性、以及变异性等特点。

唯一性是指，语音的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，每个人的发声器官在尺寸和形态方面差异很大，所以不同人的声纹都有差异。

相对稳定性是指，在每个阶段范围内(例如青少年时期、中年时期、老年时期等)人的语言中枢、发音器官等发育稳定，人的声纹可保持长期相对稳定不变。

可测量性是指，可以通过技术手段从语音中提取其中的声纹特征。其中，声纹特征是用于表征一个人的声纹的特征。声纹特征包括但不限于：声学特征(如频谱、倒频谱、共振峰、基频、能量、反射系数等)，词法特征(说话人相关的词n-gram，音素n-gram)，韵律特征等。本申请对声纹特征的具体类型不作限制，但主要采用声学特征。

变异性是指，人的声纹会受到时间、生理、病理、心理以及环境的干扰。

因此，基于声纹的唯一性、稳定性以及可测量性等，可以采用声纹识别技术，即，从说话人语音中提取声纹特征，来确定说话人的身份。

参考图1，图1示例性示出一种声纹识别方法的流程图。

如图1所示，该声纹识别方法包括以下步骤：

S101，开发人员在第一设备中训练声纹模型。

第一步，通过将多个用户的声纹特征输入到初始声纹模型中，得到初步的多个说话人表征。然后第一设备还需判断实际属于同一说话人的多个声纹特征分别对应的多个说话人表征是否能够被分为一类。

第二步，如果实际属于同一说话人的多个声纹特征分别对应的多个说话人表征能够被分为一类，则说明初始声纹模型为最终训练得到的声纹模型；否则，则对初始声纹模型的部分或者全部参数进行修正，并继续向该修正后的声纹模型输入相同的多个用户的语音的声纹特征，得到该修正模型输出的多个说话人表征。如果实际属于同一说话人的多个声纹特征分别对应的多个说话人表征能够被分为一类，则说明该修正后的声纹模型为最终训练得到的声纹模型；否则，继续修正声纹模型并重复上述步骤，直至得到多个说话人表征满足实际属于同一说话人的多个声纹特征分别对应的多个说话人表征能够被分为一类的条件。

上述说话人表征被划分为一类的条件为，两个说话人表征之间的差异小于阈值(还可以称为第二值)。其中，对比两个说话人表征之间的差异小于阈值具体可以通过采用分类模型实现，该分类模型能够根据两个说话人表征之间的差异对说话人表征进行分类。

上述说话人表征是指：从用户输出的一句语音中提取到的声纹特征，然后从该声纹特征中提取到的部分信息所生成的说话人表征，该说话人表征能够标识说话人的身份。

S102，电子设备预置声纹模型。

具体的，电子设备中预先设置S101中训练得到的声纹模型。

在电子设备出厂之前，开发人员把第一设备中训练得到的声纹模型预先存储在电子设备中；或者，在电子设备出厂之后，开发人员可以通过第一设备向电子设备发送声纹模型，电子设备接收并存储该声纹模型。

在一些实施例中，第一设备与电子设备为不同的设备，第一设备为开发人员用来进行研发的设备，包括但不限于服务器、计算机、笔记本等等，电子设备为用户使用的端侧设备。在另一些实施例中，第一设备可以和电子设备为同一个设备，这样，在电子设备中实现训练好声纹模型后，则一直将该声纹模型存储在电子设备中。

S103，电子设备采集注册用户输入的一条或多条注册语音，并从中提取注册用户的声纹特征。

具体的，电子设备可以通过麦克风采集注册用户输入的注册语音，并从该一条或多条注册语音中提取对应的一个或多个声纹特征。

这里的注册用户，仅为一个名称，不代表该注册用户已经完成声纹注册，若电子设备根据该注册用户输入的注册语音执行了步骤S103和后文S104后，该注册用户才成功完成声纹注册。

其中，注册用户可以是一个或多个，包括但不限于：电子设备的机主、机主的家人等。

注册用户的注册语音是指，注册用户在开启电子设备的声纹识别类的功能时，需要向电子设备输入例如唤醒词或者其他预设词对应的语音。该注册语音用于电子设备根据其生成注册用户表征，以在后续的声纹识别过程中作为参考表征。在本申请中，预置声纹模型生成的注册用户表征还可以被称为第二用户表征。

S104，电子设备采用预置声纹模型根据注册用户的声纹特征生成说话人表征，以得到注册用户表征。

当注册用户的声纹特征包括一个时，则电子设备可以将该一个声纹特征输入至预置声纹模型，以得到对应的说话人表征。该说话人表征可用于标识注册用户的身份，因此该说话人表征在后文将统一使用注册用户表征进行代替。

当注册用户的声纹特征包括多个时，则电子设备将该多个声纹特征分别输入至预置声纹模型，以得到对应的多个说话人表征。然后电子设备将该多个说话人表征进行融合，以得到最终的一个说话人表征，该最终的一个说话人表征可用于标识注册用户的身份，因此该最终的一个说话人表征在后文将统一使用注册用户表征进行代替。

最后，电子设备将该注册用户表征存储在声纹模型的数据库中，用于为后续的声纹识别提供参考标准。

S105，电子设备采集说话人输入的语音，采用预置声纹模型生成说话人表征。

在本申请中，预置声纹模型生成的说话人表征还可以被称为第二说话人表征。

S106，电子设备对比说话人表征和注册用户表征以确定说话人是否为注册用户。

S107-1，当说话人为注册用户时，则电子设备根据该说话人的语音执行对应的操作。

S107-2，当说话人为非注册用户时，则电子设备不执行该说话人的语音所对应的操作。

基于图1所示的声纹识别方法可以知道，该种声纹识别方法始终通过电子设备中的预置声纹模型，生成说话人的声纹特征所对应的说话人表征，将说话人表征和注册用户表征(相当于参考标准)进行比对，来判断说话人是否为注册人。但是采用预置声纹模型会存在以下问题：

预置声纹模型泛化能力过低，只能满足广大用户的普遍需求，无法满足任意一个用户的全部需求。这是因为，在训练预置声纹模型时，是从多个用户的语音中提取的声纹特征作为训练数据的，使得训练得到的声纹模型受到海量用户中每一个用户的声纹特征的影响。但针对一个用户使用该预置声纹模型来说，该一个用户在不同状态下以不同情绪、语速说出的语音，通过该预置声纹模型，识别用户身份时，该模型的性能较差，会出现有时声纹识别结果准确，而有时声纹识别结果不准确的问题。这是因为预置模型通过海量用户数据训练，可以提取到这些用于训练的用户声纹信息有差异的部分，因此可以区别说话人，但是对于新的用户，不在训练集内的，他的声纹差异信息能否被预置模型准确提取到是不可知的，另外，用户的声纹信息随时间，情绪都会变化，这些对预置模型都有很强的挑战，导致它对某一个用户难以达到最优的效果，精确识别这个用户在每个状态下说出的语音中的声纹特征。

为了解决上述问题，提高声纹识别准确率，本申请实施例提供了一种声纹识别方法、图形界面及电子设备。在该声纹识别方法中，在该方法中，电子设备存储有预置声纹模型，电子设备可以根据注册用户的语音，对该预置声纹模型进行训练，得到新的声纹模型。然后，电子设备利用注册用户的注册语音，通过该新的声纹模型得到该用户的注册用户表征。之后，电子设备采集说话人输入的语音，对比该说话人的说话人表征和注册用户表征，如果相似度大于阈值(也可以称为第一值)则确定该说话人为注册用户，如果相似度小于阈值则确定该说话人为非注册用户。

在本申请中，更新后的新的声纹模型生成的注册用户表征还可以被称为第一用户表征。更新后的新的声纹模型生成的说话人表征还可以被称为第一说话人表征。

在本申请一些实施例中，电子设备对该预置声纹模型进行训练并得到新的声纹模型之后，电子设备还可以根据注册用户的语音，对该新声纹模型进行再训练，得到更新的声纹模型。此时注册用户的语音则是利用新声纹模型，确定说话人为注册用户时，该说话人说出的语音。在本申请中，预置声纹模型及上一次更新的模型还可以被称为第一声纹模型，最新更新得到的声纹模型还可以被称为第二声纹模型。

在本申请一些实施例中，如果有多个注册用户，则电子设备可以根据各个注册用户的语音生成针对各个用户的新的专有声纹模型，以实现在一个电子设备中对多个注册用户进行声纹识别的准确率。

在本申请一些实施例中，电子设备将预置声纹模型替换为更新后的声纹模型后，还会继续收集注册用户的语音，实时对上一次更新的模型进行再更新。

在本申请一些实施例中，电子设备根据注册用户的语音训练声纹模型时，具体可以选取注册用户在不同状态的语音，来训练声纹模型。

在本申请一些实施例中，电子设备根据注册用户的语音训练声纹模型时，具体可以按照类型配比选取注册用户在不同状态下的语音，来训练声纹模型。

在本申请一些实施例中，电子设备可以在多种场景下利用更新的声纹模型进行声纹识别。该使用场景包括但不限于：唤醒设备、登录账号，根据语音指令执行对应的操作等。若识别到当前说话人为注册用户，则电子设备会执行对应的操作，例如唤醒设备、登陆账号以及根据具体的语音指令执行对应的操作等；若识别到当前说话人为非注册用户，则电子设备不执行对应的操作，从而可以保护电子设备不被他人恶意使用。

接下来对上述内容涉及的自定义名词作出解释：

其中，预置声纹模型是开发人员预先训练好，并存储在电子设中的声纹模型。关于预置声纹模型的作用可以参看上文S101步骤的描述。

注册用户的注册语音是指，注册用户在开启例如电子设备的声纹识别、语音唤醒类的功能时，需要向电子设备输入例如唤醒词或者电子设备预先设置其他词所对应的语音。或者，注册用户的注册语音还可能是电子设备在注册用户账号时，输入的语音类账号密码等。本申请对注册用户的注册语音所对应的具体词不做限制。

注册用户的语音是指，注册用户向电子设备输入的语音，并且电子设备可以从该语音中提取声纹特征，作为预置声纹模型或者更新后的声纹模型的输入数据的语音。

具体的，注册用户的语音包括但不限于：注册用户输入的注册语音，注册用户在使用电子设备过程中输入的语音。其中，后者可以是注册用户输入的唤醒词，语音指令，登陆账户时输入的验证语音以及在用户授权范围内采集的用户日常生活中输入的语音。

说话人表征是指，在声纹注册过程以外的情况下，电子设备从采集到的说话人的一句语音中提取到的声纹特征，然后从该声纹特征中提取到的部分信息所生成的说话人表征，该说话人表征能够标识说话人的身份。在本申请中，说话人表征还可以被称为说话人模板向量、说话人声纹模板向量等。

注册用户表征是指，在声纹注册过程中，电子设备从采集到的注册用户的语音中提取到的声纹特征，然后从该声纹特征中提取到的部分信息所生成的注册用户表征，该注册用户表征能够标识注册用户的身份。在本申请中，注册用户表征还可以被称为注册用户模板向量、注册用户声纹模板向量等。

可见，实施本申请提供的声纹识别方法、图形界面及电子设备后，具有以下有益效果：

(1)电子设备根据注册用户的语音，对预置声纹模型进行训练得到针对该注册用户的专有声纹模型，然后使用该专有声纹模型能够提高声纹识别准确率，提高用户体验。

(2)电子设备将预置声纹模型替换为更新后的声纹模型后，还会继续收集注册用户的语音，实时对上一次更新的模型进行再更新。这样，可以避免注册用户在不同状态下，例如受病理原因导致喉咙发炎前后，因用户声纹特征的变化导致声纹识别准确率低下的问题。

(3)电子设备选取注册用户在不同状态(例如不同情绪、不同语速下)的语音，来训练声纹模型。从而可以解决由于用户的语音情感漂移，而带来的声纹识别准确率低的问题，提升声纹模型的性能。

(4)电子设备按照类型配比选取注册用户在不同状态下的语音，来训练声纹模型。该类型配比可以根据用户在日常生活中，在不同状态下说话所对应的频率来决定。例如，用户在正常状态(还可以称为第一状态)说话和不正常状态(还可以称为第二状态)说话的频率比例为1.2:1，则电子设备可以按照该1.2:1的类别比例选取注册用户的语音，去训练/调整声纹模型。从而可以，进一步的从根源上解决由于用户的情感漂移，而带来的声纹识别准确率低的问题，提升声纹模型的性能。

(5)电子设备可以在多种场景下利用更新的声纹模型进行语音识，提高本申请提供的声纹识别的应用范围。

下面将结合UI实施例来详细介绍本申请实施例提供的声纹识别方法。

参考图2，图2示例性示出本申请提供的声纹识别方法的典型应用场景示意图。

如图2所示，本申请提供的声纹识别方法的应用场景包括但不限于：说话人确认、说话人鉴别等场景。说话人确认的应用场景是指，电子设备有一个注册用户时，该电子设备确认说话人是否为该注册用户。说话人鉴别的应用场景是指，电子设备有多个注册用户时，该电子设备确认说话人是否为注册用户，以及，是该多个注册用户中的哪一个注册用户。

参考图3A-图3E，图3A-图3E示例性示出声纹注册时的一系列用户界面示意图。

声纹注册是指，注册用户通过向电子设备输入一段语音，电子设备可以提取该段语音对应的声纹特征，然后采用预置声纹模型为注册用户的声纹特征进行建模以获得注册用户的注册用户表征。

如图3A所示，电子设备显示的用户界面310即设置界面，设置界面中显示有多个设置选项，包含智慧助手选项311。当电子设备中检测到作用于智慧助手选项311上的操作后，响应于该操作，电子设备显示图3B所示的用户界面320。

如图3B所示，用户界面320即智慧助手详情页，智慧助手详情页中显示有智慧助手提供的一系列功能选项，例如智慧语音选项321等等。当电子设备检测到作用于智慧语音选项321上的操作后，响应于该操作，电子设备显示图3C所示的用户界面330。

如图3C所示，用户界面330显示有语音唤醒对应的开关控件331和自动更新对应的开关控件332。此时，开关控件331和开关控件332都保持关闭状态。

在本申请一些实施例中，当开关控件331和开关控件332都保持关闭状态时，电子设备可以接收用户操作开启语音唤醒或者自动更新功能。在本申请另一些实施例，开关控件331和开关控件332可以默认保持开启状态，本申请实施例对此不作限制。

图3C中的语音唤醒、自动更新仅仅作为对应功能的一个可选名称，本申请实施例对此不作限制。关于语音唤醒、自动更新分别对应的功能具体记载于下文中，在本申请另一些实施例中，语音唤醒还可以称为语音激活、语音呼叫和语音服务等，自动更新还可以称为智慧服务、智慧声纹识别、智慧声纹识别等等。

语音唤醒是指，用户开启语音唤醒功能并录入唤醒词后，可以通过输入唤醒词对应的语音唤醒电子设备的智慧助手，以实现为注册用户提供便捷服务。自动更新是指，电子设备可以实时学习注册用户输入的语音，并基于大量的语音数据进行声纹模型训练并更新之前的声纹模型，从而为用户提供更准确的声纹识别功能，提高电子设备的唤醒成功率。

当电子设备检测到作用于语音唤醒对应的开关控件331上的操作后，响应于该操作，电子设备显示图3D所示的用户界面340。

如图3D所示，用户界面340为唤醒词录入界面，该界面显示有唤醒词录入的提示信息341，例如，请说出“你好YOYO”。本申请以电子设备的默认唤醒词“你好YOYO”为例进行示出，在本申请另一些实施例中，唤醒词还可以被默认为其他例如“嘿YOYO”，或者还可以由用户自定义等，本申请实施例对此不作限制。

当用户按照提示信息在用户界面340中清晰的说出“你好YOYO”后，电子设备可以通过麦克风采集到该段语音，并从该语音中提取对应的声纹特征，将该声纹特征输入至预置声纹模型中，预置声纹模型可以输出注册用户对应的注册用户表征，并将该注册用户表征存储在声纹模型数据库中，该注册用户表征能够标识注册用户的身份。之后电子设备则会显示图3E所示的用户界面350，以提示用户语音唤醒功能已开启。

如图3E所示，用户界面350与图3C所示的用户界面330类似，不同的是，此时语音唤醒对应的开关控件351的状态为开启状态，自动更新对应的开关控件352的状态仍然保持关闭启状态。

可以理解的是，上文仅仅示例性介绍了一个用户进行声纹注册的过程，在另一些实施例中，电子设备还可以同时支持多个用户去注册声纹，进而为多个用户分别建立并存储注册用户表征。关于多用户进行声纹注册的过程具体可以参考上述一个用户进行声纹注册的过程，在此暂不赘述。

值得注意的是，图3A-图3E仅仅为本申请提供的注册声纹的一种方法示例，图3A-图3E所示的用户界面中包含的内容仅为示例，不应构成对本申请的限制。在本申请另一些实施例中，上述用户界面还可以包含更多或者更少的内容。在本申请另一些实施例中，用户还可以通过下拉菜单栏，以开启语音唤醒功能。

参考图4A-图4B，图4A-图4B示例性示出注册用户在第一状态下进行语音测试时的一组用户界面示意图。

语音测试是指，当注册用户为一个用户时，则在声纹注册成功之后，说话人通过向电子设备输入特定语音，触发电子设备对该段特定语音进行声纹特征的提取，并将提取到的声纹特征与电子设备中存储的注册用户的注册用户表征进行比对，从而确认说话人的身份是否为注册用户；当注册用户为多个时，则电子设备还可以将提取到的声纹特征与电子设备中存储的多个注册用户的注册用户表征分别进行比对，从而辨别出当前说话人具体为哪个注册用户。

上述特定语音是指说出特定文本对应的语音。特定文本包括但不限于：声纹注册时录入的唤醒词和电子设备预先设定的多命令词等。关于唤醒词和多命令词的介绍具体可以参考前文吗，在此暂不赘述。说话人包括注册用户和非注册用户。

参考图4A，图4A示例性示出注册用户在第一状态输出唤醒词的操作示意图。

如图4A所示，假设注册用户在处于第一状态的情况下向电子设备输入特定语音，该第一状态是指用户的生理、病理和心理状态都处于健康、平静、稳定的状态，并且不受环境的影响。该第一状态包括但不限于用户躺在床上休息的时的状态。因此，此时响应于注册用户输入的唤醒词，则电子设备响应于检测到的该条特定语音，会唤醒电子设备的智慧语音助手“YOYO”，并将原来显示的图4A所示的用户界面410切换为显示如图4B所示的用户界面420。

参考图4B，图4B示例性示出电子设备响应于注册用户输入的唤醒词所显示的用户界面示意图。

如图4B所示，用户界面420即语音控制界面，该界面中显示有语音识别图标421和语音提示框422。其中，语音识别图标421用于提示用户电子设备已经唤醒智慧语音助手，语音提示框422用于显示听到的用户说出的语音对应的文本信息。当用户说出唤醒词后还未说出其他语音(例如多命令词)时，则该语音提示框422中显示有“嗨，我在听”，同时，电子设备还可以通过语音播报“嗨，我在听”的提示信息，提示用户可以开始通过语音输入语音指令(多命令词)。

参考图5A-图5B，图5A-图5B示例性示出注册用户在第二状态下进行语音测试时的一组用户界面示意图。

参考图5A，图5A示例性示出注册用户在第二状态输出唤醒词的操作示意图。

如图5A所示，假设注册用户在处于第二状态的情况下向电子设备输入特定语音，该第二状态是指用户的生理、病理或者心理状态中任一项处于非健康、平静、稳定的状态，包括但不限于用户正在剧烈运动(骑行)、喉咙病变、情绪紧张不稳定时的状态。或者第二状态还包括受环境影响用户说话的状态。在本申请中，图5A中注册用户在第二状态输出唤醒词包含在注册用户在第二状态下输出的第一语音指令中。第一语音指令和下文所述的第二语音指令都是同一个用户(例如注册用户)在同一状态下说出的语音指令。第一语音指令和第二语音指令具体对应的操作可以是一下任意一种：唤醒语音助手，控制语音助手执行响应操作，或者登陆所述用户的账号。第一语音指令和第二语音指令所指示的操作可以相同或者不同。

因此，在图5A所示的场景下，电子设备响应于检测到的该条特定语音，不会唤醒电子设备的智慧语音助手“YOYO”并保持显示与图5A所示的用户界面530相同用户界面530，具体见图5B。这是因为电子设备通过麦克风采集到注册用户在第二状态下输出的特定语音，进行声纹识别时，识别结果不准确，误判当前说话人非注册人。

在本申请另一种示例里，电子设备进行声纹识别时，若识别不通过即判断当前说话人不是注册用户时，电子设备除了不作响应外(例如不显示语音识别图标421和语音提示框422外)，电子设备还可能会输出指示声纹识别不通过的提示信息，或者指示重新进行声纹识别的提示信息等。在本申请中，可以将电子设备声纹识别不通过时，电子设备不作响应、输出声纹识别不通过的提示信息、输出重新声纹识别的提示信息统称为电子设备输出第一结果，该第一结果不指示声纹识别通过。

为了提高声纹识别的准确率，则需要更新电子设备中的声纹模型。具体的，自动更新是指，电子设备可以实时学习用户输入的特定语音，并基于大量的语音数据进行声纹模型训练并更新之前的声纹模型，从而为用户提供更准确的声纹识别功能，提高电子设备的唤醒成功率。

参考图6，图6示例性示出开启自动更新声纹模型功能的用户界面示意图。

如图6所示，用户界面610与前文所述的图3E所示的用户界面350类似，关于对用户界面610的描述具体可以参考前文对用户界面350的描述。当电子设备检测到作用于用户界面610中自动更新功能对应的开关控件时，电子设备则开启自动更新功能，并显示如用户界面620所示的自动更新功能对应的开关控件被开启的状态。关于自动更新功能的具体介绍，也可参考下文的方法流程中详细介绍。

可以理解的是，图6所示的内容仅为示例，不应构成对本申请的限定。

参考图7A-图7B，图7A-图7B示例性示出注册用户在第一状态下进行语音测试时的另一组用户界面示意图。

参考图7A，图7A示例性示出注册用户在第一状态输出唤醒词的操作示意图。

如图7A所示，假设注册用户在处于第一状态的情况下向电子设备输入特定语音，该第一状态是指用户的生理、病理和心理状态都处于健康、平静、稳定的状态，该第一状态包括但不限于用户躺在床上休息的时的状态。因此，此时响应于注册用户输入的唤醒词，则电子设备响应于检测到的该条特定语音，会唤醒电子设备的智慧语音助手“YOYO”并将原来显示的图7A所示的用户界面710切换显示如图7B所示的用户界面720。

参考图7B，图7B示例性示出电子设备响应于注册用户输入的唤醒词所显示的用户界面示意图。

如图7B所示，用户界面720即语音控制界面，该界面中显示有语音识别图标721和语音提示框722。其中，语音识别图标721用于提示用户电子设备已经唤醒智慧语音助手，语音提示框722用于显示听到的用户说出的语音对应的文本信息。当用户说出唤醒词后还未说出其他语音(例如多命令词)时，则该语音提示框722中显示有“嗨，我在听”，同时，电子设备还可以通过语音播报“嗨，我在听”的提示信息，提示用户可以开始通过语音输入操作指令(多命令词)。

参考图8A-图8B，图8A-图8B示例性示出注册用户在第二状态下进行语音测试时的另一组用户界面示意图。

参考图8A，图8A示例性示出注册用户在第二状态输出唤醒词的操作示意图。

如图8A所示，假设注册用户在处于第二状态的情况下向电子设备输入特定语音，该第二状态是指用户的生理、病理或者心理状态中任一项处于非健康、平静、稳定的状态，包括但不限于用户正在剧烈运动(骑行)、喉咙病变、情绪紧张不稳定时的状态。因此，在图8A所示的场景下，电子设备响应于检测到的该条特定语音，会唤醒电子设备的智慧语音助手“YOYO”并将原来图8A显示的用户界面810切换显示如图8B所示的用户界面820。在本申请中，图8A中注册用户在第二状态输出唤醒词包含在注册用户在第二状态下输出的第二语音指令中。

参考图8B，图8B示例性示出电子设备响应于注册用户输入的唤醒词所显示的用户界面示意图。

如图8B所示，用户界面820即语音控制界面，该界面中显示有语音识别图标821和语音提示框822。其中，语音识别图标821用于提示用户电子设备已经唤醒智慧语音助手，语音提示框822用于显示听到的用户说出的语音对应的文本信息。当用户说出唤醒词后还未说出其他语音(例如多命令词)时，则该语音提示框822中显示有“嗨，我在听”，同时，电子设备还可以通过语音播报“嗨，我在听”的提示信息，提示用户可以开始通过语音输入操作指令(多命令词)。

可以理解的是，本申请提供的声纹识别方法不仅仅应用上文所述的语音唤醒场景中，例如还可以应用在账号登陆场景中，具体可以参考图8C。

如图8C所示，电子设备正在进行账号登陆过程，用户可以通过声纹识别来登陆账号，具体的，用户可以通过长按控件811录入语音，电子设备采集到该语音后，采用本申请提供的声纹识别方法，即利用更新后的声纹模型来识别当前用户的身份是否为该账号对应的注册用户，若是则电子设备会成功登陆账号或者还会输出声纹识别成功的提示信息821。

在本申请中，电子设备在上文图8B和图8C中输出结果都可以称为第二结果，该第二结果用于指示声纹识别通过。

基于上述UI实施例，将开启自动更新功能前后，电子设备的声纹识别准确率进行对比，可以知道，电子设备在开启自动更新功能后，声纹识别准确率有所提高，具体体现在注册用户在第二状态下仍然能够成功唤醒语音助手。这是因为，在电子设备开启自动更新功能之后，每当电子设备检测到说话人输入特定语音，并且确定该说话人为注册用户时，则电子设备可以根据说话人输入的特定语音，进行语音合成，以得到与该真实的特定语音声纹特征相关的多个合成语音。这些合成语音，模拟了注册用户在不同状态下输出的语音，也就说，这些合成语音分别和注册用户采用不同的情绪、语速、语调和音量等等说出的语音有着相似的声纹特征。然后电子设备通过这些大量的合成语音进行学习，从而训练得到更新后的声纹模型，该更新后的声纹模型比之前预设的声纹模型能够从用户声纹特征中提取到更加全面描述注册用户本人声纹特征的表征信息，也就是说，更新后的声纹模型所输出的注册用户表征更加全面的模拟了用户在不同状态下输出的语音所具备的声纹特征，从而使得用户在第二状态下的进行声纹识别的成功率更高。

可以理解是，当电子设备开启自动更新功能后，电子设备可以基于注册用户的特定语音所合成的语音，进行用户无感知的实时更新，例如当语料数据库中存储的合成语音达到阈值时，则电子设备可以根据这些合成语音进行更新，或者电子设备可以预设更新周期，每一周、每三天等更新一次声纹模型。关于电子设备更新声纹模型的时机具体可参考后文方法流中描述的模型更新条件判断，在此暂不详述。

基于上文的UI实施例，接下来结合图9所示的方法流程来详细介绍本申请提供的声纹识别方法。

如图9所示，声纹识别方法包括以下步骤：

S901，电子设备开启自动更新功能。

自动更新功能是指，电子设备可以实时学习注册用户输入的语音，并基于大量的语音进行声纹模型训练并更新之前的预置声纹模型，从而为用户提供更准确的声纹识别功能。开启自动更新功能后则触发电子设备执行下述步骤S902-907-1/907-1对应的操作。

在一些实施例中，电子设备可以根据用户操作开启自动更新功能。该用户操作可以参考上文图6所示手动操作方法，或者该用户操作还可以是语音指令等。本申请对此不作限制。

在另一些实施例中，电子设备可以默认开启自动更新功能，无需用户操作触发电子设备开启自动更新功能。

S902，电子设备基于注册用户的语音收集训练数据。

在本申请实施例中，训练数据可以包括：注册用户的语音对应的声纹特征，和/或，基于注册用户的语音得到的合成语音对应的声纹特征。

在本申请中，训练数据中所包括的注册用户的语音对应的声纹特征，这里的注册用户的语音还可以被称为第三语音。

其中，注册用户的语音的获取方法包括以下任意一种或多种：

(1)注册用户在声纹注册过程中输入的注册语音。关于注册用户进行声纹注册的过程可以参考前文步骤S102-S104的描述。在本申请中，前文步骤S102-S104中注册用户输入的注册语音还可以被称为第五语音或者旧注册语音。

(2)注册用户在日常使用电子设备过程中输入的特定语音。

具体的，电子设备可以从采集到的说话人输入特定语音中提取声纹特征，并基于该声纹特征采用预置声纹模型得到说话人表征，将说话人表征与上文步骤S104中预置声纹模型得到的注册用户表征进行对比，若两者相似度大于阈值(可以称为第二值)则说明当前说话人输入的语音为注册用户的语音，则将该语音存储在电子设备中，用来作为训练数据。

(3)注册用户在日常使用电子设备过程中输入的任意语音。

具体的，电子设备在得到用户授权下，在用户的授权范围内(固定时间段、使用固定APP等范围内)采集注册用户说的任意语音。

(4)电子设备可以为用户提供交互窗口，采集并存储注册用户在模拟不同情绪、语速状态下输出的多条语音。

采用注册用户的语音对应的声纹特征作为训练数据，能够根据用户的真实语音得到更符合用户说话方式、习惯的专有声纹模型，提高声纹识别的准确率。

其中，基于注册用户的语音得到的合成语音的获取方法包括：

首先电子设备获取到注册用户的语音，然后在基于注册用户的语音生成合成语音。关于获取到注册用户的语音具体实现参考上文，关于基于注册用户的语音生成合成语音具体步骤如下：

具体的，电子设备先获取注册用户的语音的合成参数，然后将合成参数输入至电子设备中，电子设备根据合成参数生成注册用户的语音对应的一条或多条合成语音。具体的，由电子设备中预置的语音合成模型根据合成参数生成注册用户的语音对应的一条或多条合成语音。

在本申请实施例中，注册用户的语音的合成参数包括：声纹特征、待合成文本。声纹特征和待合成文本都是从注册用户的语音中提取到的。然后，预置语音合成模型根据声纹特征、待合成文本生成对应的合成语音，该合成语音的文本与待合成文本一致，该合成语音的声纹特征与该声纹特征的差异小于阈值(还可以称为第三值)。

可选的，该注册用户的语音的合成参数还可以包括语音控制参数，语音控制参数包括但不限于用于控制语音中携带的情绪、语速的矢量。在每一次语音合成过程中，输入不同的语音控制参数，可以将待合成文本和声纹特征组合生成为一种携带不同情绪、语速的合成语音，并且该合成语音对应的声纹特征与声纹特征之间的相似度大于阈值。其中，情绪可以划分为：高兴、悲伤、恐惧、愤怒和中性(不喜不悲)等等，语速可以被划分为：急速、快速、中速和缓慢等等。

可选的，该注册用户的语音的合成参数还可以包括合成语音条数，其用于控制预置语音合成模型根据待合成文本和声纹特征组合生成对应条数的合成语音。若注册用户的语音的合成参数不包括语音控制参数时，由于预置语音合成模型的固有属性，其根据同一个待合成文本和声纹特征合成的多条合成语音也具有一定的差异性，这是因为语音合成模型可以通过除上述语音控制参数以外的参数来控制生成不同的合成语音，但每两条合成语音之间的声纹特征的相似度会大于阈值。

在一些实施例中，注册用户的语音合成条数可以是电子设备预设的固定值，例如20条。

在另一些实施例中，注册用户的语音合成条数是根据，注册用户的语音所属说话人的说话人表征与注册用户表征的相似度，获取到的。当两者相似度越大，则合成语音的条数越少；当两者相似度越小并且大于阈值，则合成语音的条数越多。其中相似度的大小可以用分值来衡量，当相似度越大，则分值越高；两者相似度越小，则分值越低。分值与注册用户的语音合成条数的对应关系例如可以是：当得分范围在50-60分范围内，则对应的合成语音数量为50条；当得分范围在60-70分范围内，则对应的合成语音数量为40条；当得分范围在70-80分范围内，则对应的合成语音数量为30条；当得分范围在80-90分范围内，则对应的合成语音数量为20条；当得分范围在90-100分范围内，则对应的合成语音数量为10条等。本申请实施例对声纹识别得分和合成语音数量的对应规则不做限制，例如，在本申请另一些实施例中，当得分范围大于95分时，则不进行语音合成。

采用基于注册用户的语音得到的合成语音对应的声纹特征作为训练数据，可以在短时间内得到更多的训练数据，节省对声纹模型训练和更新的时间。并且，采用上述规则确定注册用户的语音合成条数时，当注册用户的语音对应的说话人表征和注册用户表征的相似度大于阈值并且很大时，则说明此时的声纹模型能够非常准确的识别注册用户的语音，则基于注册用户的语音获取训练数据去更新模型的性能提升空间不大。反之，当注册用户的语音对应的说话人表征和注册用户表征的相似度大于阈值但很小时，则说明此时的预置声纹模型虽然能够的识别注册用户的语音，但是若说话人再说一条与注册用户的语音有点差异的语音，则此时的预置声纹模型基于注册用户的语音获取训练数据去更新模型的性能提升空间非常大。

S903，电子设备根据训练数据对预置声纹模型进行训练并更新。

电子设备可以从注册用户的语音和/或合成语音中选取部分或者所有语音，从中提取声纹特征，采用包括但不限于：去finetune、去增量训练方法或者其他算法，对预置的声纹模型进行更新。其中，去finetune、去增量训练方法的原理是：将预置声纹模型中的部分参数保持不变，另一部分参数作为调整参数，然后将从注册用户的语音和/或合成语音中提取到的声纹特征，作为训练数据输入至预置声纹模型中进行训练，具体训练更新方法具体如下：

第一步：分别向预置声纹模型输入部分或全部训练数据中提取的声纹特征，得到多个说话人表征，通常，该多个说话人表征不能被划分为一类。这是因为，训练数据之间的声纹特征差异性较大，因此采用预置声纹模型得到的说话人表征的差异会大于阈值，所以不能被划分为一类。

第二步：则对预置声纹模型中的部分参数进行修正。并继续向该修正后的声纹模型输入用户的多个语音的声纹特征，得到该修正模型输出的多个说话人表征，如果该多个说话人表征能够被分为一类，则说明该修正后的声纹模型为最终训练得到的声纹模型；否则，继续修正声纹模型中的部分参数，并重复上述步骤，直至得到多个说话人表征能够被分为一类的条件。

在本申请一些实施例中，电子设备根据训练数据对预置声纹模型进行训练并更新时，具体可以随机选取注册用户的语音，来训练声纹模型。

在本申请一些实施例中，电子设备根据训练数据对预置声纹模型进行训练并更新，具体可以按照类型配比选取注册用户在不同状态下的语音，来训练声纹模型。

优选的，电子设备选取语音和/或合成语音中选取部分语音时可以按照语音类型配比来选取。例如，在电子设备获取到注册用户的语音和/或合成语音后，可以为每条语音打上标签，该标签用于标识语音的类型。语音的类型可以根据语音携带的情绪、语速等信息中的任意一个或多个来划分。例如，只以情绪来划分标签的话，则标签可以包括但不限于：高兴、悲伤、恐惧、愤怒和中性(不喜不悲)等等。该语音类型配比为：非中性：中性＝1:1.2，其中，中性是指用户处于正常的不喜不悲不惧不躁的状态说出的语音，非中性则包括高兴、悲伤、恐惧、愤怒等等。又例如，该语音类型配比可以为：高兴：悲伤：恐惧：愤怒：中性＝2:1:1:1:3，该语音类型配比还可以为其他，本申请实施例对此不作限制。通常，电子设备会存储大量的语音数据，使得语音数据的数量能够满足上述类型配比满足要求。这样可以，进一步的从根源上解决由于用户的语音情感漂移，而带来的声纹识别准确率低的问题，提升声纹模型的性能。

可选的，作为步骤S904的前提条件，电子设备还会判断电子设备是否满足更新条件。更新条件包括但不限于：电子设备处于空闲状态、充电状态、电池电量大于阈值，电子设备处于预设的更新时间范围内(预设更新时间例如是每周的周一)等等。

其中，判断电子设备是否处于空闲状态具体可以通过时间检测和语音检测来确定。例如，当检测到时间处于北京时间0点到7点范围内，且通过麦克风检测到环境噪声低于阈值且没有用户语音，则认为此事用户处于睡眠状态，使用电子设备的可能性较小，因此确认电子设备此时处于空闲状态。本申请实施例对检测电子设备是否处于空闲状态的方法具体不作限制。例如，在本申请其他一些实施例中，电子设备还可以通过智能学习用户使用电子设备的习惯，来判断电子设备合适处于空闲状态。这样，电子设备可以实现无感知声纹模型更新。也就是说，可以避免在用户可能使用电子设备的过程中进行声纹模型更新从而占用电子设备的运行进程，影响用户体验。

S904，电子设备采用更新后的声纹模型生成注册用户表征。

在一些实施例中，电子设备可以根据用户操作，采用更新后的声纹模型生成注册用户表征。具体的，当电子设备将预置声纹模型替换为更新的声纹模型之后，电子设备会输出提示信息，用于提示用户声纹模型已经更新，并提醒用户重新进行声纹注册。用户可以根据提示信息重新进行声纹注册，也可以按照上文图3A-图3E所述的操作方法，重新进行声纹注册，使得电子设备采用更新的声纹模型生成注册用户表征。关于电子设备采用更新的声纹模型生成注册用户表征的具体方法可以参考前文步骤S102-S104的描述，在此暂不赘述。在本申请中，这里注册用户在重新进行声纹注册时，输入的注册语音还可以被称为第四语音或者新注册语音。

在另一些实施例中，电子设备可以自动采用更新后的声纹模型生成注册用户表征。具体的，电子设备可以先从注册用户曾经说过的语音库中，选取一条或多条语音来作为新的注册声纹，提取对应的声纹特征，以采用更新后的声纹模型生成注册用户表征。

在另一些实施例中，电子设备可以同时根据用户操作重新输入的注册用户的注册声纹，和注册用户曾经说过的语音，采用更新后的声纹模型生成注册用户表征。具体的，电子设备可以从注册用户的注册声纹中提取声纹特征，采用更新后的声纹模型根据该声纹特征生成对应的注册用户表征，电子设备还可以从注册用户曾经说过的语音中提取声纹特征，采用更新后的声纹模型根据该声纹特征生成对应的第二注册用户表征，最后电子设备将注册用户表征和第二注册用户表征进行融合，以得到最终的一个注册用户表征，将该最终的一个注册用户表征存储起来，作为后续声纹识别的参考标准。

可以理解的是，上文S901-S904只示例性示出电子设备生成属于一个注册用户的新的声纹模型的过程。但在本申请另一些实施例中，当电子设备预先采用预置声纹模型注册了多个用户时(即存储多个注册用户对应的注册用户表征时)，电子设备也可以分别生成属于每个注册用户的更新后的声纹模型。具体如下：

第一步，电子设备也可以根据每个注册用户的语音来分别收集属于每个注册用户的训练数据，关于每个注册用户的训练数据收集过程可以参考步骤S902。

第二步，电子设备采用每个注册用户的训练数据分别对同一个预置声纹模型进行训练及更新，分别得到每个注册用户专属的更新后的声纹模型，关于获取每个注册用户更新后的声纹模型的过程可以参考步骤S903。

第三步，电子设备存储多个更新后的声纹模型，并将多个更新后的声纹模型分别与对应的注册用户绑定。最后电子设备可以采用对应的更新后的声纹模型生成对应注册用户的注册用户表征。

S905，电子设备采集说话人输入的语音，采用更新后的声纹模型生成说话人表征。

具体的，在用户使用电子设备，唤醒设备、登录账号，或者根据语音指令执行对应的操作等场景下，电子设备可以通过麦克风采集说话人输入的语音，并从中提取说话人的声纹特征，然后采用更新后的声纹模型根据说话人的声纹特征生成说话人表征。

可选的，在电子设备从说话人的语音中提取说话人的声纹特征之前，电子设备还需对该语音对应的文本进行验证，只有在该语音对应的文本为特定文本时，电子设备才会提取声纹特征以为后续的表征比对(S907)做准备。这样可以避免，说话人随意说出的语音触发电子设备进行后续的表征比对。其中，特定文本包括但不限于：唤醒词、语音指令对应的词(又称多命令词)等。特定文本还可以是：在电子设备进行账号登陆时，若使用语音登陆验证，则说话人输入的语音对应的文字也包括在特定文本中。本申请对特定文本不作限制。

S906，电子设备对比说话人表征和注册用户表征以确定说话人是否为注册用户。

具体的，电子设备可以对比说话人表征和注册用户表征，当两者相似度小于阈值，则确定说话人非注册用户，电子设备则不作任何响应；当两者相似度大于阈值时，则确定说话人为注册用户。如果电子设备中存储多个注册用户表征，则需要将说话人表征分别和每个注册用户表征进行一一对比，来判断说话人是否为注册用户，若是则具体为哪一个注册用户。其中，相似度还可以用分值进行衡量，例如相似度越大，则分值越高，否则，分值越低。

S907-1，当说话人为注册用户时，则电子设备根据该说话人的语音执行对应的操作。

具体的，如果步骤S907中确定该说话人为注册用户，则电子设备会对该说话人的语音进行语义分析，并根据分析结果执行对应的操作。例如，当说话人说出的语音是唤醒词，则电子设备会唤醒设备，并且做出例如图8A和图8B所示的响应。又例如，当说话人说出的语音是账户登录时的验证词，则电子设备会登陆账号，并且做出例如图8A和图8B所示的响应。

如果，电子设备中存储多个注册用户对应的注册用户表征时，并且电子设备在S907-1中确定当前注册用户为存储多个注册用户某一个注册用户时，电子设备会根据注册用户的个人习惯，为该注册用户提供个性化服务，例如当该注册用户唤醒设备后，电子设备推送该注册用户常看的新闻或者打开常用的APP等。

S907-2，当说话人为非注册用户时，则电子设备不执行该说话人的语音所对应的操作。

在本申请一些实施例中，当说话人为非注册用户时，则电子设备不执行该说话人的语音所对应的操作，并不做任何响应。

在本申请一些实施例中，当说话人为非注册用户时，则电子设备不执行该说话人的语音所对应的操作，但会输出例如声纹识别不通过，请重新输入语音的提示信息。

之后，电子设备还会重复上述步骤S902-907-1/907-1，直至电子设备关闭上述自动更新功能。

将图8A-图8B与图5A-图5B进行对比时，可以发现，采用更新后的声纹模型，电子设备的声纹识别准确率有所上升。这是因为，电子设备采用更新后的模型生成注册用户表征，和说话人表征，而更新后的声纹模型是采用该注册用户的多条不同类型的语音来作为声纹模型训练和更新的数据支持，因此得到的更新后的声纹模型为该注册用户的专属模型，其能够根据注册用户的声纹特征，生成一个更加全面的，用于标识用户身份的注册用户表征，那么当注册用户以不同状态(包括但不限于上文所述的第一状态、第二状态)说出特定语音时，则电子设备都能准确识别说话人为注册用户，并做出对应的响应。

综上所述，电子设备采用本申请实施例提供的声纹识别方法后，设备可以基于注册用户的语音，以及根据注册用户的语音生成的合成语音，作为训练数据，来对预置声纹模型进行更新以训练出注册用户的专有声纹模型，进而提高声纹识别成功率。并且电子设备在用户进行声纹识别的过程中，持续收集注册用户的语音，实时更新声纹模型，包括对预置声纹模型的更新和前一次更新的声纹模型再更新。这样，可以避免注册用户在不同时间，例如变声期前后，在不同生理、病理状态下，例如喉咙发炎前后，因用户声纹特征的变化导致声纹识别准确率低下的问题。从而提升声纹模型的性能，可以从根源上解决由于用户的声纹漂移，语音情感漂移，而带来的声纹识别准确率低的问题。

基于上文对本申请提供方法实施例，接下来介绍装置实施例。本申请提供的声纹识别方法所应用的电子设备的软硬件架构如下：

本申请实施例提供的电子设备可以是搭载或者其它操作系统的终端设备，例如手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备的具体类型不作特殊限制。

图10示出了电子设备100的结构示意图。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在本申请实施例中，处理器110可用于进行声纹识别，具体的可用于接收麦克风采集到的说话人输出的语音，基于该语音进行特定语音验证、以及提取对应的声纹特征，并采用预置声纹模型生成对应的说话人表征，用于和注册用户表征进行对比，从而判断说话人是否为注册用户。关于处理器110所执行的该具体步骤可以参考前文步骤S102-S106的描述，在此暂不赘述。

此外，处理器110还可用于语音合成以为声纹模型更新提供数据支持。关于处理器110所执行的该具体步骤可以参考前文步骤S902的描述，在此暂不赘述。

此外，处理器110还可用于，基于从注册用户的真实语音和/或合成语音提取到的声纹特征作为模型更新时的训练数据，并检测当前设备状态是否满足更新条件，若满足更新条件，则处理器110可以根据训练数据对当前最新的声纹模型(包括预置声纹模型和上一次更新的声纹模型)进行训练及更新。关于处理器110所执行的具体步骤可以参考前文步骤S903-904的描述，在此暂不赘述。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

在本申请实施例中，处理器110还可以通过充电管理模块140确定电子设备是否处于充电状态，并根据该状态判断电子设备是否满足更新条件。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号解调以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)。显示屏面板还可以采用有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode，AMOLED)，柔性发光二极管(flexlight-emitting diode，FLED)，miniled，microLed，micro-oled，量子点发光二极管(quantum dot light emitting diodes，QLED)等制造。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，声纹识别，文本理解等。

内部存储器121可以包括一个或多个随机存取存储器(random access memory，RAM)和一个或多个非易失性存储器(non-volatile memory，NVM)。

随机存取存储器可以包括静态随机存储器(static random-access memory，SRAM)、动态随机存储器(dynamic random access memory，DRAM)、同步动态随机存储器(synchronous dynamic random access memory,SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM，例如第五代DDR SDRAM一般称为DDR5 SDRAM)等；

非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。

快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等，按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)、三阶储存单元(triple-level cell,TLC)、四阶储存单元(quad-level cell,QLC)等，按照存储规范划分可以包括通用闪存存储(英文：universalflash storage，UFS)、嵌入式多媒体存储卡(embedded multi media Card，eMMC)等。

随机存取存储器可以由处理器110直接进行读写，可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令)，还可以用于存储用户及应用程序的数据等。

非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等，可以提前加载到随机存取存储器中，用于处理器110直接进行读写。

在本申请实施例中，上述非易失性存储器可用于存储预置声纹模型、预置语音合成模型。注册用户的相关数据，注册用户语音相关数据包括但不限于：注册用户表征，注册用户输入的语音，该语音对应的是合成语音等等。

外部存储器接口120可以用于连接外部的非易失性存储器，实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部的非易失性存储器中。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

在本申请实施例中，麦克风170C可用于采集说话人的语音数据和周围的环境声音，并将这些语音数据传输到处理器110中，用于根据这些语音数据进行后续的声纹识别和模型更新。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图11是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图11所示，应用程序包可以包括智慧助手，图库，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。其中，智慧助手仅为用于提供声纹识别功能的应用程序的一个可选名称，在本申请另一些实施例中，用于提供本申请所述的声纹识别方法的应用程序还可以称为除智慧助手以外的其他名称，例如语音助手、智慧语音、声纹识别、声纹识别等等，本申请对此不作限制。

在本申请实施例中，预置声纹模型、更新后的声纹模型以及预置语音合成模型可以存储在应用程序层中的智慧助手中。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图11所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

硬件抽象层(Hardware Abstraction Layer，HAL)，HAL位于内核层和框架层之间，起着承上启下的作用。具体的，HAL定义了一套标准接口，包括：声纹HAL、指纹HAL和其他Sensor HAL等等。

内核层是硬件和软件之间的层。内核层至少包含麦克风驱动，显示驱动，摄像头驱动，音频驱动，传感器驱动。

在本申请实施例中，智慧助手应用可以通过应用程序框架层提供的接口、声纹HAL向麦克风驱动下发语音监听命令，使得麦克风驱动控制麦克风放检测说话人输入的语音。智慧助手应用还可以通过应用程序框架层中的接口、声纹HAL和麦克风驱动接收麦克风采集到的说话人的输入的语音，并根据该语音进行声纹识别，确定说话人是否为注册用户，智慧助手应用根据声纹识别结果执行对应的操作。例如，当声纹识别结果为当前说话人非注册用户时，则不作任何响应；当声纹识别结果为当前说话人是注册用户时，则智慧助手应用会显示如下文图4B所示的语音识别图标421和语音提示框422等等，并且还会语音播报“嗨，我在听”的提示信息等。

下面结合语音唤醒场景，示例性说明电子设备软件以及硬件的工作流程。

当麦克风170C接收到语音输入操作，相应的硬件中断被发给内核层的麦克风驱动。内核层的麦克风驱动将触摸操作加工成原始输入事件(包括语音输入事件等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的语音指令。以该语音指令是唤醒电子设备的智慧助手操作，智慧助手应用调用应用框架层的接口，启动声纹服务为智慧助手应用提供服务。

应理解，本申请提供的上述方法实施例中的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请还提供一种电子设备，该电子设备可以包括：存储器和处理器。其中，存储器可用于存储计算机程序；处理器可用于调用所述存储器中的计算机程序，以使得该电子设备执行上述任意一个实施例中的方法。

本申请还提供了一种芯片系统，所述芯片系统包括至少一个处理器，用于实现上述任意一个实施例中电子设备执行的方法中所涉及的功能。

在一种可能的设计中，所述芯片系统还包括存储器，所述存储器用于保存程序指令和数据，存储器位于处理器之内或处理器之外。

该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

可选地，该芯片系统中的处理器可以为一个或多个。该处理器可以通过硬件实现也可以通过软件实现。当通过硬件实现时，该处理器可以是逻辑电路、集成电路等。当通过软件实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现。

可选地，该芯片系统中的存储器也可以为一个或多个。该存储器可以与处理器集成在一起，也可以和处理器分离设置，本申请实施例并不限定。示例性地，存储器可以是非瞬时性处理器，例如只读存储器ROM，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型，以及存储器与处理器的设置方式不作具体限定。

示例性地，该芯片系统可以是现场可编程门阵列(field programmable gatearray，FPGA)，可以是专用集成芯片(application specific integrated circuit，ASIC)，还可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processorunit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是微控制器(micro controller unit，MCU)，还可以是可编程控制器(programmable logic device，PLD)或其他集成芯片。

本申请还提供一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机执行上述任一个实施例中电子设备执行的方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)。当所述计算机程序被运行时，使得计算机执行上述任一个实施例中电子设备执行的方法。

本申请的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

总之，以上所述仅为本发明技术方案的实施例而已，并非用于限定本发明的保护范围。凡根据本发明的揭露，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

电子设备检测到第一语音指令，输出第一结果，所述第一结果不指示声纹识别通过；

所述电子设备检测到第二语音指令，输出第二结果，所述第二结果指示声纹识别通过；

所述第一语音指令和所述第二语音指令均包含用户在同一状态下的声纹特征。

2.根据权利要求1所述的方法，其特征在于，所述电子设备检测到第二语音指令之后，所述方法还包括：

所述电子设备识别所述第二语音指令对应的语音，执行该语音对应的操作；

所述操作包括以下任意一种：唤醒语音助手，控制语音助手执行相应的操作，或者登陆所述用户的账号。

3.根据权利要求1或2所述的方法，其特征在于，所述电子设备中包括第一声纹模型，所述电子设备检测到第二语音指令之前，所述方法还包括：

所述电子设备获取所述用户的一条或多条第三语音；

基于所述一条或多条第三语音对所述第一声纹模型进行训练，得到第二声纹模型；

所述电子设备使用所述第二声纹模型，根据所述用户的第四语音生成第一用户表征；所述第一用户表征指示所述用户的声纹特征；

其中，所述第二声纹模型和所述第一用户表征用于所述电子设备对所述第二语音指令进行声纹识别。

4.根据权利要求3所述的方法，其特征在于，所述电子设备基于所述一条或多条第三语音对所述第一声纹模型进行训练之前，所述方法还包括：

所述电子设备开启用于更新所述第一声纹模型的功能。

5.根据权利要求3或4所述的方法，其特征在于，所述电子设备基于所述一条或多条第三语音对所述第一声纹模型进行训练之前，所述方法还包括：

确定所述电子设备处于以下一种或多种状态：空闲状态、充电状态、预设的更新时间范围内或电池电量大于阈值。

6.根据权利要求3-5中任一项所述的方法，其特征在于，所述电子设备到检测第二语音指令之后，输出指示声纹识别通过的第二结果之前，所述方法还包括：

所述电子设备从所述第二语音指令中获取第一声纹特征，使用所述第二声纹模型根据所述第一声纹特征得到第一说话人表征，仅在确定所述第一说话人表征和所述第一用户表征之间的第一相似度大于第一值的情况下，确定声纹识别通过。

7.根据权利要求2-6中任一项所述的方法，其特征在于，所述电子设备基于所述一条或多条第三语音对所述第一声纹模型进行训练之前，所述方法还包括：

所述电子设备使用所述第一声纹模型，根据所述第一用户的第五语音生成第二用户表征；所述第二用户表征指示所述用户的声纹特征，所述第二用户表征不同于所述第一用户表征；

所述电子设备获取所述用户的一条或多条第三语音，具体包括：

所述电子设备检测到第六语音；

所述电子设备从所述第六语音中获取第二声纹特征，使用所述第一声纹模型根据所述第二声纹特征得到第二说话人表征；

将所述第二说话人表征和所述第二用户表征之间的第二相似度大于第二值时对应的所述第六语音，确定为所述第一用户的第三语音。

8.根据权利要求3-7中任一项所述的方法，其特征在于，所述电子设备基于所述一条或多条第三语音对所述第一声纹模型进行训练，得到第二声纹模型，具体包括：

所述电子设备获取第三语音对应的文本，以及，第三语音中的第三声纹特征；

所述电子设备根据所述文本和所述第三声纹特征生成一条或多条合成语音，所述合成语音对应的文本和所述第三语音对应的所述文本相同，所述合成语音的声纹特征和所述第三声纹特征之间的相似度大于第三值；

所述电子设备使用训练语音对所述第一声纹模型进行训练，得到第二声纹模型；所述训练语音包括：所述一条或多条第三语音，和/或，所述一条或多条合成语音，中的部分或全部。

9.根据权利要求8所述的方法，其特征在于，所述电子设备根据所述文本和所述第三声纹特征生成一条或多条合成语音，具体包括：

所述电子设备根据语音控制参数、所述文本和所述第三声纹特征生成一条或多条合成语音；所述语音控制参数包括情绪参数和/或语速参数，所述合成语音的情绪与所述情绪参数指示的情绪相同，所述合成语音对应的文本和所述第三语音对应的所述文本相同，所述合成语音的声纹特征和所述第三声纹特征之间的相似度大于第三值。

10.根据权利要求9所述的方法，其特征在于，所述电子设备使用训练语音对所述第一声纹模型进行训练，具体包括：

所述电子设备按照预设比例从所述一条或多条第三语音，和/或，所述一条或多条合成语音选取部分或全部语音作为所述训练语音；

其中，所述预设比例指示所述训练数据中不同情绪和/或语速的语音所占的比例。

11.根据权利要求8-10中任一项所述的方法，其特征在于，

所述合成语音的数量为第一数量；所述第一数量是所述电子设备根据所述第二相似度确定的，所述第二相似度越低所述第一数量越多。

12.根据权利要求1-11中任一项所述的方法，其特征在于，所述电子设备检测到第二语音指令之后，所述方法还包括：

所述电子设备确定所述第二语音指令的文本为特定文本，所述特定文本包括以下一种或多种：所述唤醒词、预设语音指令对应的词、账号登陆时通过语音输入的词。

13.根据权利要求7-12中任一项所述的方法，其特征在于，所述第四语音包括以下一种或多种语音：所述第三语音，所述第五语音，或者，所述电子设备提示用户主动注册的语音。

14.一种电子设备，其特征在于，包括：一个或多个处理器、一个或多个存储器和显示屏；所述一个或多个存储器与一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-13中的任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13中的任一项所述的方法。

16.一种芯片或芯片系统，其特征在于，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行如权利要求1-13中任一项所述的方法。