CN109683938A

CN109683938A - 用于移动终端的声纹模型升级方法和装置

Info

Publication number: CN109683938A
Application number: CN201811601065.6A
Authority: CN
Inventors: 吴卫; 张顺; 俞瑞隆
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-04-26
Anticipated expiration: 2038-12-26
Also published as: CN109683938B

Abstract

本发明公开用于移动终端的声纹模型升级方法和装置，其中，一种用于移动终端的声纹模型升级方法，包括：响应于SDK初始化，检测移动终端是否存在声纹模型；若存在，判断SDK中的第一声纹模型是否与移动终端中的第二声纹模型匹配；若不匹配，则删除第二声纹模型，并获取移动终端中存储的至少一个注册名及对应的声纹训练音频；基于至少一个注册名和与至少一个注册名对应的注册训练音频对第一声纹模型进行训练以生成更新后的声纹模型。本申请的方案对于用户而言可以避免再次重复且耗时注册声纹模型，提高了用户体验。

Description

用于移动终端的声纹模型升级方法和装置

技术领域

本发明属于语音数据技术领域，尤其涉及用于移动终端的声纹模型升级方法和装置。

背景技术

相关技术中，目前还没有找到一种可在移动设备端自动离线升级声纹模型的方法。且现有市面上的声纹识别SDK(software development kit软件开发包)技术，大都是基于云端功能的识别，模型的更新也在云端实现，比如某些科技公司的方案。对于那些少数的离线声纹识别SDK，也没有自动升级声纹模型的方案，且模型的升级还是需要用户手动重复训练导入。

现有技术都能在声纹算法精度提高或修复BUG时主动或被动的更新声纹模型，从而提高声纹识别的准确率和响应率。

发明人在实现本申请的过程中发现，上述方案至少存在以下缺陷：

依赖云端服务：对于那些在线声纹识别技术，需在云端部署升级服务，且无法在离线状态下使用。

成本较大：对于那些在线识别技术而言，升级过程中需要较高的网络带宽和资源，运维成本提高。对于现有的离线方案而言，需要用户再次手动重复执行一系列繁琐的训练过程，用户体验成本大大提高。

发明内容

本发明实施例提供一种用于移动终端的声纹模型升级方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种用于移动终端的声纹模型升级方法，包括：响应于SDK初始化，检测移动终端是否存在声纹模型；若存在，判断SDK中的第一声纹模型是否与所述移动终端中的第二声纹模型匹配；若不匹配，则删除所述第二声纹模型，并获取所述移动终端中存储的至少一个注册名及对应的声纹训练音频；基于所述至少一个注册名和与所述至少一个注册名对应的注册训练音频对所述第一声纹模型进行训练以生成更新后的声纹模型。

第二方面，本发明实施例提供一种用于移动终端的声纹模型升级装置，包括：检测模块，配置为响应于SDK初始化，检测移动终端是否存在声纹模型；判断模块，配置为若存在，判断SDK中的第一声纹模型是否与所述移动终端中的第二声纹模型匹配；删除获取模块，配置为若不匹配，则删除所述第二声纹模型，并获取所述移动终端中存储的至少一个注册名及对应的声纹训练音频；以及训练更新模块，配置为基于所述至少一个注册名和与所述至少一个注册名对应的注册训练音频对所述第一声纹模型进行训练以生成更新后的声纹模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于移动终端的声纹模型升级方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于移动终端的声纹模型升级方法的步骤。

本申请的提供的由SDK自动更新移动设备端的声纹模型这一方案，对于用户而言可以避免再次重复且耗时注册声纹模型，提高了用户体验；对于开发者而言，使用该版本的SDK就不必担心由于声纹算法的迭代更新导致声纹应用无法继续使用的情况。更重要的是，该方案不依赖于云端服务器，可以纯离线执行，没有网络资源和服务器运维成本的消耗。且各台设备升级过程中互不影响，不受服务器并发出错问题的影响。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种用于移动终端的声纹模型升级方法的流程图；

图2为本发明一实施例提供的另一种用于移动终端的声纹模型升级方法的流程图；

图3为本发明一实施例提供的又一种用于移动终端的声纹模型升级方法的流程图；

图4为本发明一实施例提供的一种用于服务器端的用于移动终端的声纹模型升级方法的具体示例的流程图；

图5为本发明一实施例提供的一种用于移动终端的声纹模型升级装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的用于移动终端的声纹模型升级方法一实施例的流程图，本实施例的用于移动终端的声纹模型升级方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具、智能手机等需要用到声纹模型的设备。

如图1所示，在步骤101中，响应于SDK初始化，检测移动终端是否存在声纹模型；

在步骤102中，若存在，判断SDK中的第一声纹模型是否与移动终端中的第二声纹模型匹配；

在步骤103中，若不匹配，则删除第二声纹模型，并获取移动终端中存储的至少一个注册名及对应的声纹训练音频；

在步骤104中，基于至少一个注册名和与至少一个注册名对应的注册训练音频对第一声纹模型进行训练以生成更新后的声纹模型。

在本实施例中，对于步骤101，声纹模型升级装置检测到有SDK在初始化，检测移动终端中是否已经存在声纹模型。之后，对于步骤102，对于已经存在声纹模型的情况，声纹模型升级装置会继续判断该移动终端中已经存在的第二声纹模型是否和正在初始化的SDK中的第一声纹模型匹配，即检测SDK中的声纹模型是否已经存在。之后，对于步骤103，如果该已经存在的第二声纹模型与该SDK中的第一声纹模型不匹配，则需要对移动终端中已经存在的第二声纹模型进行升级更新，本申请的方案是删除移动终端中原有的第二声纹模型，并获取该移动终端中已经存储的至少一个注册名及与该至少一个注册名对应的声纹训练音频。最后，对于步骤104，基于该至少一个注册名和与该至少一个注册名对应的注册训练音频对该第一声纹模型进行训练从而对声纹模型进行更新升级。其中，移动终端中可能同时存在多个注册名及多组与注册名对应的注册训练音频，则需要分别对各注册名及与之对应的注册训练音频进行训练。

本实施例的方案通过利用原有的注册名及对应的注册训练音频来对新的声纹模型进行训练，从而可以无需用户在此提供新的注册训练音频，就能利用移动终端中已有的注册名和注册训练音频对新的声纹模型进行训练以升级更新，该方案可以在离线的状况下进行，用户体验较好。

进一步参考图2，其示出了本申请一实施例提供的另一种用于移动终端的声纹模型升级方法。本实施例的方法主要是针对流程图1中步骤101中“移动终端中不存在声纹模型”的方案进一步限定的步骤的流程图。

如图2所示，在步骤201中，若移动终端不存在声纹模型，获取用户的注册名；

在步骤202中，保存与注册名对应的注册训练音频；

在步骤203中，基于注册训练音频训练第一声纹模型。

在本实施例中，对于步骤201，对于移动终端中不存在声纹模型且有SDK初始化的情况，需要用户提供注册训练音频，此时先获取用户的注册名。之后，对于步骤202，从用户处获取并保存与该注册名对应的注册训练音频。最后，对于步骤203，基于该注册训练音频对SDK中的第一声纹模型进行训练以得到训练后的声纹模型。

本实施例的方法通过在移动终端不存在声纹模型的情况下，获取用户的注册训练音频对SDK中的声纹模型进行训练使得声纹模型可以支持移动终端上的声纹功能如签到功能和测试功能等。

在一些可选的实施例中，注册训练音频以与注册训练音频对应的注册名和时间戳的方式命名。

进一步参考图3，其示出了本申请一实施例提供的又一种用于移动终端的声纹模型升级方法。本实施例的方法主要是针对流程图1中步骤102中“SDK中的第一声纹模型移动终端中的第二声纹模型匹配”的情况进一步限定的步骤的流程图。

如图3所示，在步骤301中，若匹配，则反馈第二声纹模型有效；

在步骤302中，直接使用第二声纹模型进行声纹功能的使用，其中，声纹功能包括签到功能和/或测试功能。

在本实施例中，对于步骤301，如果判断SDK中的第一声纹模型移动终端中的第二声纹模型匹配，则说明原来的声纹模型可以继续使用。之后，对于步骤302，可以直接使用该移动终端中原来的第二声纹模型进行声纹模型功能的使用，而不需要删除或者重新训练，从而可以极大地节约系统资源，用户体验更好。

在一些可选的实施例中，上述方法还包括：响应于用户删除移动终端上存储的注册名，删除与注册名对应的注册训练音频。从而在用户删除注册名的同时帮助用户删除无用的注册训练音频，可以极大地节省移动终端的存储空间以存储更多有用的内容。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人认为现有技术中存在的缺陷主要是由以下内容导致的:

依赖云端服务：这些在线的方案都是基于云端的在线声纹识别，识别模型部署在服务端，每次声纹识别的使用和模型的升级都依赖于云端的服务器。如果云端服务器宕机，声纹识别功能将无法使用，更谈不上模型的自动升级了。

成本较大：对于在线识别而言，云端方案需要部署相应的服务器，在声纹模型升级的过程中，需要较高的网络带宽和资源。同时云端服务器需要一定的人力来维护。网络资源消耗成本和人力维护成本较大。对于现有的离线方案而言，忽略了产品的用户体验，把工程实现的代价转移给了用户，从而使得用户体验成本的提高，也不利于技术产品的落地和推广。

发明人发现，为了解决现有技术中存在的上述缺陷，现有技术的部分产品可能通过下面的方法来解决：

对于云端方案而言，只能通过提高云端服务器的稳定性，减少运营和维护成本来解决，但是这两者是相矛盾的，两者不可兼得。

方案架构的不同决定了解决方案的不同。在线声纹识别方案本质上就固有这些局限性，设备端不具有声纹算法的处理功能，识别结果都是通过网络从云端下发下来的。因此也就无法和离线识别方案相比。且当大量的设备需要同时升级模型时，云端服务器的压力较大，并发数大，耗时较多。而离线方案中每台设备都是一个独立的单元，升级过程互相之间不受影响且总耗时少。

而对于现有的离线方案而言，主要是没有从产品和用户的角度来优化该方案，大大忽略了用户的体验。

本申请的方案的一个具体实施例如下，需要说明的是以下实施例中虽然提到了一些具体的例子，但并不用于限制本申请的方案。

当升级后的声纹内核加载现有的模型提示版本不兼容时，由SDK来自动的进行声纹模型的重新训练和生成，且训练的原始语料数据不需要用户再次输入，直接从SDK的缓冲区中加载即可。重新训练过程耗时短，每个注册人的模型重新生成只需短短一两秒内。对于用户而言，升级过程无感知，用户体验基本上没有降低。

声纹模型升级流程图如图4所示，处理流程如下：

步骤一：

已注册人的声纹训练音频是SDK能够在移动设备端自动升级声纹模型的前提和保证。因此用户在设备端第一次使用SDK注册声纹信息时，由于声纹模型未存在，SDK会自动持久化保存相应的注册训练音频到移动设备中，且以该注册人手动输入的name+时间戳来命名相对应的注册音频文件。

步骤二：

在用户完成N次的训练并成功生成声纹模型信息后，设备中即会产生N个该用户的声纹训练音频。同理，当该用户主动删除自己的声纹模型信息时，SDK也会自动的删除设备中该用户对应的声纹训练音频。

步骤三：

针对大多数情况下由于声纹算法精度的提高或者算法BUG的修复，移动设备端使用最新迭代后的声纹SDK会出现加载之前旧声纹模型失败的情况。为了避免用户再次重复训练声纹模型，SDK会进行声纹模型的自动升级和更新。

步骤四：

SDK会先删除既有的旧声纹模型文件。

步骤五：

遍历设备中缓存的声纹训练音频对应name的个数，并按name来分别自动执行声纹训练任务。

步骤六：

生成更新后的声纹模型文件即可正常使用声纹的签到或测试功能。

步骤七：

若在SDK加载模型的过程中，声纹模块反馈模型文件有效，则可直接使用现有的模型进行声纹功能的使用。

本申请提供的由SDK自动更新移动设备端的声纹模型这一方案，对于用户而言可以避免再次重复且耗时注册声纹模型，提高了用户体验；对于开发者而言，使用该版本的SDK就不必担心由于声纹算法的迭代更新导致声纹应用无法继续使用的情况。更重要的是，该方案不依赖于云端服务器，可以纯离线执行，没有网络资源和服务器运维成本的消耗。且各台设备升级过程中互不影响，不受服务器并发出错问题的影响。

请参考图5，其示出了本发明一实施例提供的用于移动终端的声纹模型升级装置的框图。

如图5所示，用于移动终端的声纹模型升级装置500，包括检测模块510、判断模块520、删除获取模块530和训练更新模块540。

其中，检测模块510，配置为响应于SDK初始化，检测移动终端是否存在声纹模型；判断模块520，配置为若存在，判断SDK中的第一声纹模型是否与移动终端中的第二声纹模型匹配；删除获取模块530，配置为若不匹配，则删除第二声纹模型，并获取移动终端中存储的至少一个注册名及对应的声纹训练音频；以及训练更新模块540，配置为基于至少一个注册名和与至少一个注册名对应的注册训练音频对第一声纹模型进行训练以生成更新后的声纹模型。

在一些可选的实施例中，上述用于移动终端的声纹模型升级装置500，还包括注册名获取模块(图中未示出)，配置为若移动终端不存在声纹模型，获取用户的注册名；保存模块(图中未示出)，配置为保存与注册名对应的注册训练音频；以及初始模块(图中未示出)，配置为基于注册训练音频训练第一声纹模型。

在另一些可选的实施例中，上述用于移动终端的声纹模型升级装置500，还包括反馈模块(图中未示出)，若第一声纹模型与第二声纹模型匹配，则反馈第二声纹模型有效；使用模块(图中未示出)，配置为直接使用第二声纹模型进行声纹功能的使用，其中，声纹功能包括签到功能和/或测试功能。

应当理解，图5中记载的诸模块与参考图1、图2和图3中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如检测模块可以描述为响应于SDK初始化，检测移动终端是否存在声纹模型的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如检测模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于移动终端的声纹模型升级方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于SDK初始化，检测移动终端是否存在声纹模型；

若存在，判断SDK中的第一声纹模型是否与所述移动终端中的第二声纹模型匹配；

若不匹配，则删除所述第二声纹模型，并获取所述移动终端中存储的至少一个注册名及对应的声纹训练音频；

基于所述至少一个注册名和与所述至少一个注册名对应的注册训练音频对所述第一声纹模型进行训练以生成更新后的声纹模型。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于移动终端的声纹模型升级装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至用于移动终端的声纹模型升级装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项用于移动终端的声纹模型升级方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。用于移动终端的声纹模型升级方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于移动终端的声纹模型升级方法。输入装置630可接收输入的数字或字符信息，以及产生与声纹模型升级装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于用于移动终端的声纹模型升级装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

响应于SDK初始化，检测移动终端是否存在声纹模型；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于移动终端的声纹模型升级方法，包括：

响应于SDK初始化，检测移动终端是否存在声纹模型；

2.根据权利要求1所述的方法，其中，在所述检测移动终端是否存在声纹模型之后，所述方法还包括：

若所述移动终端不存在声纹模型，获取用户的注册名；

保存与所述注册名对应的注册训练音频；

基于所述注册训练音频训练第一声纹模型。

3.根据权利要求2所述的方法，其中，所述注册训练音频以与所述注册训练音频对应的注册名和时间戳的方式命名。

4.根据权利要求1所述的方法，其中，在所述判断SDK中的第一声纹模型是否与所述移动终端中的第二声纹模型匹配之后，还包括：

若匹配，则反馈所述第二声纹模型有效；

直接使用所述第二声纹模型进行声纹功能的使用，其中，所述声纹功能包括签到功能和/或测试功能。

5.根据权利要求1-4中任一项所述的方法，其中，所述方法还包括：

响应于用户删除所述移动终端上存储的注册名，删除与所述注册名对应的注册训练音频。

6.一种用于移动终端的声纹模型升级装置，包括：

检测模块，配置为响应于SDK初始化，检测移动终端是否存在声纹模型；

判断模块，配置为若存在，判断SDK中的第一声纹模型是否与所述移动终端中的第二声纹模型匹配；

删除获取模块，配置为若不匹配，则删除所述第二声纹模型，并获取所述移动终端中存储的至少一个注册名及对应的声纹训练音频；

训练更新模块，配置为基于所述至少一个注册名和与所述至少一个注册名对应的注册训练音频对所述第一声纹模型进行训练以生成更新后的声纹模型。

7.根据权利要求6所述的装置，还包括：

注册名获取模块，配置为若所述移动终端不存在声纹模型，获取用户的注册名；

保存模块，配置为保存与所述注册名对应的注册训练音频；

初始模块，配置为基于所述注册训练音频训练第一声纹模型。

8.根据权利要求6所述的装置，还包括：

反馈模块，若所述第一声纹模型与所述第二声纹模型匹配，则反馈所述第二声纹模型有效；

使用模块，配置为直接使用所述第二声纹模型进行声纹功能的使用，其中，所述声纹功能包括签到功能和/或测试功能。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。