CN109147770A

CN109147770A - 声音识别特征的优化、动态注册方法、客户端和服务器

Info

Publication number: CN109147770A
Application number: CN201710461578.0A
Authority: CN
Inventors: 刘刚; 赵情恩; 刘广兴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2019-01-04
Anticipated expiration: 2037-06-16
Also published as: TW201905895A; WO2018232148A1; CN109147770B; JP2020523643A; US20180366125A1; JP6912605B2; US11011177B2; EP3610396A1; EP3610396A4; EP3610396B1

Abstract

本申请实施方式公开了一种声音识别特征的优化、动态注册方法、客户端和服务器，其中，该声音识别特征的优化包括：获取音频数据，并提取所述音频数据的音频特征；确定已关联特征库中是否存在与所述音频特征之间的相似度达到预设匹配阈值的声音识别特征，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的声音识别特征；在确定不存在的情况下，将所述音频特征添加至未关联特征库中，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征。本申请解决了现有技术中所存在的无法简单高效地建立准确的用于声纹识别的特征库，达到了简单高效地建立准确的用于声纹识别的特征库的技术效果。

Description

声音识别特征的优化、动态注册方法、客户端和服务器

技术领域

本申请涉及计算机技术领域，特别涉及一种声音识别特征的优化、动态注册方法、客户端和服务器。

背景技术

随着人工智能技术的不断发展，人脸识别、指纹识别技术等都得到了很大的发展。智能识别的应用也越来越广泛。声纹识别作为一种新型的识别技术发展速度也越来越快，声纹识别(voiceprint identification)技术也可以称为说话人识别(speakeridentification)。所谓的声纹识别是从说话的人发出的语音中提取出语音特征，然后基于提取出的语音特征进行身份验证的识别技术。

声纹识别所依赖的是人们的发声器官是在成长的过程中逐渐形成的特征，每个人的声纹都是不同的，可以是；音色、语调、语速等的不同，也可以是声音所形成的声谱的不同的。即使有意进行模仿，不同人的声纹也是不同的，类似于指纹，不同的人都有不同的指纹。

然而，如果希望通过声纹进行识别，那么也需要建立一个进行声纹匹配的特征集合，从而实现声纹识别。

针对如何简单高效地建立准确的用于声纹识别的特征库，目前尚未提出有效的解决方案。

发明内容

本申请实施方式的目的是提供一种声音识别特征的优化、动态注册方法、客户端和服务器，以达到简单高效建立精度较高的声音识别特征库的目的。

一种声音识别特征的优化方法，所述方法包括：

获取音频数据，并提取所述音频数据的音频特征；

确定已关联特征库中是否存在与所述音频特征之间的相似度达到预设匹配阈值的声音识别特征，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征；

在确定存在的情况下，通过所述音频特征更新匹配出的声音识别特征；

在确定不存在的情况下，将所述音频特征添加至未关联特征库中，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征。

一种声音识别特征的动态注册方法，所述方法包括：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

在确定用于更新所述声音识别特征的音频数量达到所述预设阈值的情况下，为所述声音识别特征关联用户信息。

一种声音识别特征的动态注册方法，所述方法包括：

确定未关联特征库中是否存在更新次数达到预设阈值的声音识别特征，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征；

在确定未关联特征库中存在更新次数达到预设阈值的声音识别特征的情况下，为该声音识别特征关联用户信息，并将该声音识别特征添加至已关联特征库中，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征。

一种声音识别特征的动态注册方法，所述方法包括：

确定声音识别特征是否满足预设要求；

在确定所述声音识别特征满足所述预设要求的情况下，为所述声音识别特征关联用户信息。

一种客户端，包括：处理器和存储器，其中：

所述处理器用于获取音频数据，并提取所述音频数据的音频特征；确定已关联特征库中是否存在与所述音频特征之间的相似度达到预设匹配阈值的声音识别特征，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的声音识别特征；在确定不存在的情况下，将所述音频特征添加至未关联特征库中，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征；

所述存储器用于存储所述已关联特征库和所述未关联特征库。

一种服务器，包括：处理器和存储器，其中：

一种客户端，包括：处理器，所述处理器用于执行如下步骤：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

一种服务器，包括：处理器，所述处理器用于执行如下步骤：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

一种声音识别特征的处理方法，所述方法包括：

获取音频数据，并提取所述音频数据的音频特征；

确定是否存在与所述音频特征匹配的已存储声音识别特征；

在确定存在的情况下，通过所述音频特征更新所述已存储声音识别特征；

在确定不存在的情况下，为所述音频特征创建新用户档案，所述新用户档案关联于所述音频特征。

一种电子设备，包括：麦克风单元和网络通信单元；

所述麦克风单元用于获取音频数据；

所述网络通信单元用于将所述音频信息发送给服务器，以用于所述服务器提取所述音频数据的音频特征；确定已关联特征库中是否存在与所述音频特征之间的相似度达到预设匹配阈值的声音识别特征，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的声音识别特征；在确定不存在的情况下，将所述音频特征添加至未关联特征库中，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征。

一种电子设备，包括：麦克风单元、网络通信单元和处理器；

所述麦克风单元用于获取音频数据；

所述处理器用于提取所述音频数据的音频特征；

所述网络通信单元用于将所述音频特征发送给服务器，以用于所述服务器确定已关联特征库中是否存在与所述音频特征之间的相似度达到预设匹配阈值的声音识别特征，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的声音识别特征；在确定不存在的情况下，将所述音频特征添加至未关联特征库中，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

在上例中，在确定用于更新声音识别特征的音频数量超出预设阈值的情况下，为声音识别特征添加与该声音识别特征关联的用户信息，即，在确定出某个声音识别特征可以用于表征用户的声音特性的情况下，可以为该声音识别特征关联用户信息，从而实现用户信息与声音识别特征的关联，以完成声纹库的自动建立和更新，解决了现有技术中所存在的无法简单高效地建立准确的用于声纹识别的特征库，达到了简单高效地建立准确的用于声纹识别的特征库的技术效果。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种数据更新方法的流程图；

图2为本申请实施方式提供的一种未关联特征库和已关联特征库示意图；

图3为本申请实施方式提供的一种数据更新方法的另一流程图；

图4为本申请实施方式提供的未关联特征库中各个特征更新次数的标识示意图；

图5为本申请实施方式中一个实施场景的场景示意图；

图6为本申请实施方式提供的一种数据更新方法的另一流程图；

图7为本申请实施方式提供的一种支付方法的应用场景示意图；

图8为本申请实施方式提供的一种支付方法的应用场景示意图；

图9为本申请实施方式提供的一种支付方法的应用场景示意图；

图10为本申请实施方式提供的一种数据更新系统的架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

考虑到现有的建立声纹库的方法一般是获知用户的身份之后，告知用户输入自己的音频数据(也可以称为语音数据)，然后提取出音频数据中的音频特征作为该用户的声音识别特征，从而实现用户身份与其声音识别特征之间的关联。

然而，这种方式主要存在以下几个问题：

1)实现过程比较复杂，不仅需要告知用户输入，还需要等待用户基于该通知消息进行输入，实现起来较为繁琐；

2)实现场景较为固定，需要用户在特定触发环境下进行触发，在触发之后，在特定的时间才能实现注册；

3)声音识别特征不是很准确，因为采用用户被动录入的方式，因此，次数一般是有限制的，例如，仅获取用户三个语音数据，样本数太少，使得生成的识别特征不是很准确，如果需要增加样本量，就需要用户录入更多次，导致用户体验下降；

4)智能化程度比较低，即，整个注册过程需要用户全程参与，声音识别库的建立不够智能。

为了解决上述存在的问题，在申请实施例中提供了一种声音识别特征的动态注册方法，获取音频数据，并自动进行音频数据的音频特征提取和记录，在确定某个语音识别特征满足预设要求的情况下，将该语音识别特征与用户信息进行关联，以实现声音识别特征库的建立和更新。如图1所示，提供了一种声音识别特征的动态注册方法，在确定用于更新声音识别特征的音频数量达到预设阈值的情况下，为该声音识别特征关联用户信息。

即，可以获取音频数据，如果确定该音频数据来自于还未注册(即，未与自身的声纹进行用户信息的关联)的用户，则确定该音频数据相似的声音识别特征的更新次数是否达到了预设的要求，如果达到预设次数，则可以确定该声音识别特征已经可以较为准确地标识用户的声音，这个时候，可以触发将该声音识别特征与用户进行关联，从而实现了自动注册的目的，解决了现有的声纹库录入需要用户全程参与的问题。

另外，在本例中，还提供了一种声音识别特征的优化方法，这主要是对获取音频数据，并提取音频特征之后，发现存在与该音频特征相似的声纹，且该声纹已经关联了用户信息，即，该音频数据的主人已经进行了声纹注册，那么这个时候，可以利用该音频特征对匹配得到的声音识别特征(即，声纹)进行更新，例如，获取提取出的音频特征和匹配出的声音识别特征，然后根据音频特征和匹配出的声音识别特征生成第一识别特征，通过该第一识别特征取代匹配出的声音识别特征作为该用户的声纹，以实现声纹的更新。在一个实施方式中，在根据音频特征和匹配出的声音识别特征生成第一识别特征的过程中，可以是采用提取出的音频特征和匹配出的声音识别特征进行加权平均的方式或者是其它的方式生成第一识别特征。通过该方式，可以提高声纹库中声音识别特征的精度和识别准确度。

在一个实施方式中，上述的声音识别特征的优化和声音识别特征的动态注册流程，可以包括：提取获取的音频数据的音频特征，然后对于每次获取的音频特征，可以与已关联用户信息的声音识别特征进行匹配，如果存在与音频特征之间的相似度超出预设匹配阈值的已关联用户信息的声音识别特征；那么就表明该音频数据的音频特征与已关联用户信息的声音识别特征是来自同一个人的，因此，可以通过该音频数据的音频特征更新该匹配出的声音识别特征。如果不存在与该音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征，则可以进一步确定是否存在与该音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征；在确定存在与该音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征的情况下，那么可以通过该音频特征更新匹配出的未关联用户信息的声音识别特征。

通过上述方式，可以将当前采集得到的音频数据中所提取的音频特征更新到已关联用户信息的声音识别特征中，或者是更新到未关联用户信息的声音识别特征中。当然，如果已关联用户信息的声音识别特征和未关联用户信息的声音识别特征中都不存在与该音频特征相似的声音识别特征，那么可以将该音频特征作为一个新的未关联用户信息的声音识别特征。

在一个实施方式中，考虑到如果对于某个未关联用户信息的声音识别特征而言，更新这个特征所用的音频个数已经到达或超过预定的次数，那么可以认为当前该未关联用户信息的声音识别特征可以较为准确地进行用户身份识别，这时可以触发为该未关联用户信息的声音识别特征关联用户信息，从而使得该未关联用户信息的声音识别特征可以用于身份识别。为了实现为未关联用户信息的声音识别特征关联用户信息的触发，可以是定期对每个未关联用户信息的声音识别特征进行判断，确定出哪些未关联用户信息的声音识别特征被更新的次数是达到预设阈值的，对于达到预设阈值的未关联用户信息的声音识别特征，对其关联用户信息。也可以实时动态更新的，例如，一旦检查到将当前的音频特征用于更新某个未关联用户信息的声音识别特征，且该未关联用户信息的声音识别特征的更新次数达到预设阈值(例如：6次)，那么就可以触发为该未关联用户信息的声音识别特征关联用户信息。

在一个实施方式中，考虑到有时会存在多个与该音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征，那么可以选择相似度最高的已关联用户信息的声音识别特征，利用该音频特征更新该相似度最高的已关联用户信息的声音识别特征。同样的，也可能匹配出多个与该音频特征之间的相似度达到预设匹配阈值的未关联用户信息的声音识别特征，利用该音频特征更新该相似度最高的未关联用户信息的声音识别特征。

在一个实施方式中，音频数据可以是录音设备录制的具有一定时长的音频数据，也可以是录音设备录制的具有一定大小的音频数据。

在一个实施方式中，可以根据预设算法，从音频数据中提取音频特征，用户的声音会有用户自身的特征，比如音色、语调、语速等等。录制成音频文件时，可以从音频数据中的频率、振幅等角度，体现每个用户自身的声音特征。使得将音频数据按照预设算法得到音频特征，其中，所述预设算法可以是MFCC(Mel Frequency Cepstrum Coefficient)、MFSC(MelFrequency Spectral Coefficient)、FMFCC(Fractional Mel Frequency CepstrumCoefficient)、DMFCC(Discriminative)、LPCC(Linear Prediction CepstrumCoefficient)等。当然，所属领域技术人员在本申请技术精髓启示下，还可能采用其它算法从音频数据中提取音频特征，但只要其实现的功能和效果与本申请方式相同或相似，均应涵盖于本申请保护范围内。

在一个实施方式中，为了进一步区分出音频文件中用户语音的音频数据和非用户语音的音频数据。在提取音频特征的过程中，还可以包括端点检测处理。进而，可以在音频特征中减少将非用户语音的音频数据对应的数据，如此，可以在一定程度上提升生成的音频特征与用户之间的关联程度。端点检测处理的方法可以包括但不限于基于能量的端点检测、基于倒谱特征的端点检测、基于信息熵的端点检测、基于自身相关相似距离的端点检测等，在此不再列举。

在一个实施方式中，考虑到对于未关联用户信息的声音识别特征会随着识别的音频数据的增多，也越来越多。为了避免未关联用户信息的声音识别特征过多而导致计算量过大或者是存储量过大，可以设置一个未关联用户信息的声音识别特征的数量阈值，如果监测到未关联用户信息的声音识别特征的数量超出预设数量，那么可以删除一部分未关联用户信息的声音识别特征。在实现的时候，可以是删除未关联用户信息的声音识别特征中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征，也可以是删除未关联用户信息的声音识别特征中更新时间最早的一个或多个声音识别特征。

例如，可以是删除仅被更新一次的声音识别特征，表明该用户出现的次数比较少，不是很重要或者不是很必要，因此，可以删除。也可以是删除更新最早的，即，对于长久未出现的用户，也可以删除这些人的声音识别特征。

然而值得注意的是，上述所列举的选取要删除的未关联用户信息的声音识别特征仅是一种示意性描述，在实现的时候，可以根据需要选择其它的选取方式，本申请对此不作限定。

在一个实施方式中，上述音频数据可以是通过客户端采集的用户的音频数据。在本实施方式中，客户端可以是具有录音功能的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于上述电子设备中的软件。例如，电子设备中提供录音功能，软件可以通过调用该录音功能录制音频数据。

在一个实施方式中，在确定用于更新声音识别特征的音频数量达到所述预设阈值的情况下，为该声音识别特征关联用户信息，可以是在确定用于更新声音识别特征的音频数量达到所述预设阈值的情况下，向用户发出输入个人信息的请求，例如，可以采用语音或者是文字提醒：还麻烦输入您的个人信息。用户响应于该请求，可以通过语音的方式输入个人信息，也可以是通过文字输入的方式输入个人信息，也可以是提供一个界面，界面中显示多个输入框，接收用户在这些输入框中输入的信息作为该用户的用户信息。

然而，值得注意的是，上述获取用户信息的方式仅是一种示意性说明，在实际实现的时候，还可以采用其它的方式获取用户信息。在获取到用户信息之后，可以将声音识别特征与用户信息进行关联。

在本实施方式中，用户信息可以包括但不限于以下至少之一：用户名、昵称、真实姓名、性别、联系电话、通信地址等等。将声音识别特征与用户信息进行关联。这样在应用的时候，可以实现采集一个用户说话的音频数据后，可以通过从该音频数据中提取的音频特征与声音识别特征进行匹配，以实现用户身份的识别。

在一个实施方式中，客户端可以将录制的音频数据或者是从音频数据中识别出的音频特征发送给服务器，服务器确定用于更新声音识别特征的音频数量达到预设阈值的情况下，为该声音识别特征关联用户信息。或者是，客户端自身从音频数据中提取出音频特征，通过提取出的音频特征更新声音识别特征，并在用于更新某个声音识别特征的音频数量达到预设阈值的情况下，为该声音识别特征关联用户信息。

在一个实施方式中，上述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信端子、处理器和存储器等。当然，上述服务器也可以是指运行于所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。

为了实现已关联用户信息的声音识别特征和未关联用户信息的声音识别特征的区分，可以设置两个数据库：已关联特征库和未关联特征库，其中，已关联特征库用于存储已关联用户信息的声音识别特征，未关联特征库用于存储未关联用户信息的声音识别特征，其中，已关联特征库和未关联特征库可以分别是一个存储器，也可以两个共用一个存储器，或者是各自由多个存储器组成，对此，本申请不作限定，只要是可以实现已关联用户信息的声音识别特征和未关联用户信息的声音识别特征的区分的存储划分方式都可以。

在建立了已关联特征库和未关联特征库之后，就可以按照如图2所示的方式，将已关联用户信息的声音识别特征存储在已关联特征库中，将未关联用户信息的声音识别特征存储在未关联特征库中。

相应的，在执行数据更新过程中的时候，就可以先到已关联特征库进行匹配，如果匹配不成功，再到未关联特征库进行匹配。例如，可以如图3所示：

获取音频数据，并提取音频数据的音频特征；

1)在已关联特征库中存在与音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过音频特征更新匹配出的声音识别特征；

2)在已关联特征库中不存在与音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征增加至所述未关联特征库中：

2-1)在未关联特征库中存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过所述音频特征更新匹配出的声音识别特征，并更新用于更新该声音识别特征的音频数量；

2-2)在未关联特征库中不存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征作为声音识别特征增加至所述未关联特征库中。

考虑到数据库主要存储的是已关联用户信息的声音识别特征，对于未关联数据库可以仅设置一个较小的存储空间，如果存储的关联用户信息的声音识别特征过多，可以进行删除。在删除的时候，可以是在未关联特征库中的声音识别特征超出预设数量的情况下，删除所述未关联特征库中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征，或者，删除所述未关联特征库中更新时间最早的一个或多个声音识别特征。具体采用哪种方式可以根据实际需要确定，具体删除多少也可以根据实际需要确定，本申请对此不作限定。

在本实施方式中，在得到待匹配的音频数据并提取出其音频特征之后，是先到已关联特征库进行匹配，匹配不通过，再到未关联特征库中匹配。但是因为人们的声音状况有时是不太一样的，例如：感冒发烧等可能会影响用户的发音，因此，有时会存在其实某用户的声音识别特征已经存储在已关联特征库中，但是，在进行相似度匹配的时候，因为感冒发烧导致的声音出现变化的音频特征没有在已关联特征库中关联到相似的已关联用户信息的声音识别特征，而被放到了未关联特征库中。但是当样本量比较多的时候，基于这些样本量所更新得到未关联用户信息的声音识别特征，就会与该用户正常情况下产生的音频特征比较相似。为了避免对同一用户信息在已关联特征库中的重复录入，可以在未关联特征库中的未关联用户信息的声音识别特征满足放入已关联特征库的条件的情况下，先与已关联特征库中已有的声音识别特征进行对比，确定是否存在相似的已关联用户信息的声音识别特征，如果存在，则通过该满足条件的声音识别特征更新匹配出的相似的已关联用户信息的声音识别特征，如果不存在，则为该满足条件的声音识别特征关联一个用户信息，通过该方式避免了因为用户声音有时由于身体原因而导致的声音特征变化，致使同一用户对应多个声音识别特征的情况的产生。

在本例中，对于未关联特征库而言，可以如图4所示，对于未关联特征库中的各个未关联用户信息的声音识别特征，设置更新次数记录，每次被更新，相应的未关联用户信息的声音识别特征的更新次数就加1，这样可以便于进行更新次数是否满足预设阈值的判断。当然，在实现的时候，可以如图4所示，直接在未关联特征库中记录，也可以是单独设置一个存储表，用于存储各个未关联用户信息的声音识别特征的更新次数，对此，本申请不作限定，可以根据实际需要和情况选取。

上述仅是对本申请中的数据更新进行一个说明，该方法可以应用在多种场景中，例如：

1)通过客户端从音频数据中提取音频特征，然后将音频数据传送给服务器端(也可以是云端)，通过服务器端(或云端)根据该音频特征实现对数据的更新。

2)客户端本地维护一个数据库，从音频数据中提取音频特征，以及通过提取的音频特征对数据进行更新的过程都通过客户端自身实现，对于更新后的数据，可以更新到服务器或者云端，也可以不更新，本申请对此不作限定。

3)也可以是客户端将音频数据直接发送给服务器端或云端，由服务器端执行音频特征提取以及数据更新的操作，客户端仅执行获取数据和信息的过程。

上述仅是列举了一些场景，在实际实现的时候，可以根据实际需要选择各个步骤的执行主体，例如，还可以是特征提取和数据更新过程都在客户端实现，数据获取通过服务器等等都是可以为构想的。

在一个实施方式中，也可以不建立库，而是采用为声音识别特征创建新用户档案的方式，用户档案与对应的音频特征或者是声音识别特征进行关联。例如，可以获取音频数据，并提取所述音频数据的音频特征；确定是否存在与所述音频特征匹配的已存储声音识别特征；在确定存在的情况下，通过所述音频特征更新所述已存储声音识别特征；在确定不存在的情况下，为所述音频特征创建新用户档案，所述新用户档案关联于所述音频特征。即，在获得一个音频特征的情况下，先确认是否有与该音频特征匹配的已经存储的声音识别特征，及已经建立了用户档案的声音识别特征，如果有的话，那么就通过该音频特征对匹配出的声音识别特征进行更新，如果没有的话，就将该音频特征作为一个声音识别特征，为该声音识别特征新建用户档案，即，将声音识别特征与对应用户的用户档案进行关联。

其中，上述用户档案可以与特定用户相关的用户信息集合，可关联于该用户的音频特征集合或者是该用户的语音识别特征，以及该用户的其他基本信息，智能设备可以提示该用户采用语音、手工等其他方式输入其个人信息(例如：姓名、年龄、支付账户等)，以便于管理其声音与身份以及其他个人信息的管理关系，由此可以使得用户通过语音方式使用各种服务。

下面结合一个具体的应用场景对上述方法进行较为详细和具体的说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

如图5所示，可以在家里安装一个智能音箱，该智能音箱可以自动动态注册出现在家里的人的信息。例如，可以为该智能音箱设置一个“唤醒词”，每次有人说“唤醒词”，则会作为一个音频数据被记录，同时开启与该智能音箱的交互。例如，为音箱起名叫“贝贝”，那么可以将“贝贝你好”作为唤醒词，这样，如果智能音箱识别到有人说贝贝你好，就可以自动开启与该用户进行对话，同时记录该贝贝你好的音频数据。

在这个时候，在智能音箱的后台，或者是在服务器侧，可以提取该音频数据中的音频特征，然后将提取出的音频特征与已关联用户信息的声音识别特征进行匹配，如果存在与音频特征之间的相似度超出预设匹配阈值的已关联用户信息的声音识别特征；那么就表明该音频数据的音频特征与已关联用户信息的声音识别特征是来自同一个人的，因此，可以通过该音频数据的音频特征更新该匹配出的声音识别特征。如果不存在与该音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征，则可以进一步确定是否存在与该音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征；在确定存在与该音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征的情况下，那么可以通过该音频特征更新匹配出的未关联用户信息的声音识别特征，如果未关联用户信息的声音识别特征也不存在与该提取出的音频特征相似的声音识别特征，那么可以将该音频特征作为一个新的未关联用户信息的声音识别特征进行记录。对于未关联用户信息的声音识别特征，如果更新次数超出了预设阈值，则可以为其关联用户信息，将其作为已关联用户信息的声音识别特征。

对于唤醒词的选取可以选择正常聊天中比较少遇到的又具有一定识别度的词，通过上述方式，以用户说出唤醒词时候的语音作为音频数据，实现声音识别特征库的更新优化，以及用户的动态注册，从而使得该智能音箱可以认识该用户，使得用户不需要有意识地进行身份注册，提升了用户体验，也使得音箱更为智能化。即，智能音箱在每次使用的时候，都会记录用户说出唤醒词时候的音频数据，并通过预置的算法进行音频特征的提取和处理，使得用户在使用智能音箱一段时间之后，智能音箱可以认识并可以识别该用户。

上述场景中是以用户说出唤醒词时候的音频数据作为提取音频特征的音频数据，在实际实现的时候，也可以不以用户说出唤醒词时候的语音作为音频数据。

例如，用户在唤醒智能音箱之后，在与智能音箱进行对话的过程中，智能音箱采集用户的对话音频作为音频数据，然后在后台或者是服务器侧进行声音识别特征的优化和声音识别特征的动态注册。

该智能音箱的执行流程可以如图6所示，智能音箱可以设置熟人库(相当于前文的已关联特征库)和陌生人库(未关联特征库)。

智能信箱在获取语音数据后，生成声纹(即，提取出的音频特征，也可以称为声音识别特征)，将提取出的声纹与熟人库中的声纹进行比对，如果有相似的，则直接找到最相似的人，通过生成的声纹更新该最相似的人在熟人库中的声纹。如果在熟人库中没有相似的，则与陌生人库中的声纹进行比较，如果存在相似的，则找到最相似的声纹，并更新该声纹，同时记录更新该声纹所利用的音频的个数，如果陌生人库中也不存在相似的，则将该生成的声纹追加到陌生人库中。可以实时或者定期检测陌生人库中存储的声纹的个数是否超出预设阈值，如果超出，则可以删除陌生人库中用于更新声纹的音频数最少的声纹。进一步的，还可以实时或定期检测陌生人库中是否存在更新次数达到预设频次阈值(例如：10次)的声纹，如果存在，则将该声纹与熟人库中的声纹进行比较，确定是否存在相似的声纹，如果存在，则通过该声纹更新熟人库中相似的声纹，如果不存在，则将该声纹追加到熟人库中，并记录该声纹对应的用户信息。

其中，上述智能音箱的声纹库可以是保存在本地的，也可以是保存在云端的。本申请对此不作限定。

在该应用场景中，是以家用的智能音箱为例进行的说明，在实际实现的时候，还可以是通过手机中的软件，或者是智能电视、智能机器人等等都可以作为类似于上述智能音箱的方式进行声纹库的更新和用户的自动注册。

在通过上述方式完成声纹库的建立之后，本申请实施方式还提供一种身份识别方法。所述身份识别方法可以根据用户的音频的音频特征，识别用户的身份。

在本实施方式中，用户可以先通过上述的注册方式进行注册，进而得到用户的声音识别特征。该声音识别特征可以存储在客户端中，也可以存储在服务器中。相应的，声音识别特征与该用户的个人信息相关联。

在本实施方式中，当需要对用户的身份进行识别时，可以录制用户的语音的音频信息。比如，用户对着麦克风说一句话。此时客户端得到用户语音输入的音频信息。根据前述语音特征向量的生成方法，根据该音频信息生成语音特征向量。

在本实施方式中，将语音特征向量与声音识别特征进行匹配，在匹配成功时，将所述声音识别特征关联的个人信息作为所述用户的身份信息。具体的，将语音特征向量与声音识别特征进行匹配的方式，可以为根据二者进行运算，在二者之间符合某种关系时，可以认为匹配成功。具体的，例如，将二者做差后求和，将得到的数值作为匹配值，将该匹配值与一个设定阈值比较，在所述匹配值小于或等于设定阈值的情况下认为所述语音特征向量与所述声音识别特征匹配成功。或者，也可以将所述语音特征向量与所述声音识别特征直接求和，将得到的数值作为匹配值，在所述匹配值大于或等于设定阈值的情况下认为所述语音特征向量与所述声音识别特征匹配成功。

本申请实施方式还提供一种网络交互系统。所述虚拟资源处理系统包括客户端和服务器。

在本实施方式中，客户端可以是具有录音功能的电子设备。根据客户端数据处理能力的不同，可以被划分成以下类别。

表1

在本实施方式中，初级网络设备的硬件设备较为简单，可以进行通过麦克风进行录音，生成音频信息。并将生成的音频信息通过网路通信模块发送给服务器。初级网络设备可以包括麦克风、网络通信单元、传感器和扬声器。初级网络设备可以基本上不需要对数据进行加工处理。初级网络设备还可以设置有其它的传感器，用于采集初级网络设备的工作参数。具体的，例如，初级网络设备可以是物联网设备、边缘节点设备等。

在本实施方式中，简单网络设备可以主要包括：麦克风、网络通信单元、处理器、存储器、扬声器等。简单网络设备相较于初级网络设备增强了数据处理的能力。简单网络设备可以具有一个能处理简单逻辑运算的处理器，使得简单网络设备在采集到数据之后，可以对数据进行初步的预处理，比如可以根据音频信息生成特征矩阵。简单网络设备可以具有一个具有简单显示功能的显示模块，可以用于向用户反馈信息。具体的，例如，简单网络设备可以是智能可穿戴设备、POS(point of sale)机等。例如，智能手环、较初级的智能手表、智能眼镜，或是线下购物场所内的结算设备(例如，POS机)、移动式结算设备(例如，手持式POS机、附加在手持设备上的结算模块)等。

在本实施方式中，中级网络设备可以主要包括麦克风、网络通信单元、处理器、存储器显示器、扬声器等。中级网络设备的处理器的主频通常小于2.0GHz，内存容量通常少于2GB，存储器的容量通常少于128GB。中级网络设备可以对录制的音频信息进行一定程度的处理，比如生成特征矩阵，对特征矩阵进行端点检测处理、降噪处理、语音识别等。具体的，例如，中级网络设备可以包括：智能家居中的智能家用电器、智能家庭终端、智能音箱、较高级的智能手表、较为初级的智能手机(比如，价位在1000元左右)、车载智能终端。

在本实施方式中，智能网络设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。智能网络设备可以具有较强的数据处理能力。智能网络设备的处理器的主频通常大于2.0GHz，内存的容量通常小于12GB，存储器的容量通常小于1TB。可以对音频信息生成特征矩阵之后，可以进行端点检测处理、降噪处理、语音识别等。进一步的，智能网络设备还可以根据音频信息生成语音特征向量。在一些情况下，可以将语音特征向量与声音识别特征进行匹配，识别用户的身份。但这种匹配限于有限个数的声音识别特征，比如一个家庭中的各个家庭成员的声音识别特征。具体的，例如，智能网络设备可以包括：性能较好的智能手机、平板电脑、台式电脑、笔记本电脑等。

在本实施方式中，高性能设备可以主要包括麦克风、网络通信单元、处理器、存储器、显示器、扬声器等硬件。高性能设备可以具有大规模的数据运算处理能力，还可以提供强大的数据存储能力。高性能设备的处理器主频通常在3.0GHz以上，内存的容量通常大于12GB，存储器容量可以在1TB以上。高性能设备可以对音频信息生成特征矩阵、端点检测处理、降噪处理、语音识别、生成语音特征向量，以及将语音特征向量与存储的大量的声音识别特征进行匹配。具体的，例如，高性能设备可以是工作站、配置很高的台式电脑、Kiosk智能电话亭、自助服务机等。

当然，上述只是示例的方式列举了一些客户端。随着科学技术进步，硬件设备的性能可能会有提升，使得上述目前数据处理能力较弱的电子设备，也可能具备较强的处理能力。所以下文中实施方式引用上述表1中的内容，也仅作为示例参考，并不构成限定。

值得注意的是，上述表1所示的五种类型的硬件都可以实现上述的声音识别特征动态注册方法和更新优化方法，以实现声音识别特征的动态注册和优化。对于上述五种类型的硬件结构如何具体进行声音识别特征动态注册和更新优化的过程可以参加前文对声音识别特征动态注册方法和更新方法的说明，不再赘述。

在本实施方式中，服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信端子、处理器和存储器等。当然，上述服务器也可以是指运行于所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。在本实施方式中，服务器中可以用于管理声音识别特征。用户完成注册之后，用户的声音识别特征可以存储于服务器中。

一个场景示例中，客户端可以是具有一定程度上的运算能力的家用智能设备。例如，可以是上表1中的类别3型设备。在一个家用场景下，客户端可以被制造为智能音箱。智能音箱可以具有麦克风、扬声器、Wifi模块、存储器、处理器等等。智能音箱可以实现普通的音频播放功能，并且配备有处理设备和网络设备以通过与用户对话以及与服务器数据交互，实现购物功能。

在本场景示例中，智能音箱可以通过识别唤醒词启动进一步的功能，在智能音箱识别到用户说出唤醒词之前，可以处于一种待机的状态。用户需要使用智能音箱时，可以说“你好，音箱”。智能音箱会录制该用户说的语音，并识别得出用户说话的内容为唤醒词。此时，智能音箱可以通过扬声器发生回答用户，“您好，您需要帮忙么？”。

在本场景示例中，用户想要购买空气净化器。用户可能会说：“我想买一台空气净化器，你有什么推荐么？”。智能音箱通过麦克风录音生成音频信息后，识别到上述商品描述信息。并在存储器中的商品信息集中，查询空气净化器的商品信息，得到二个推荐结果，通过扬声器播放语音：“我有两个推荐，第一个是小米空气净化器2代，第二个是美的KJ210G-C46空气净化器”。用户可能会说：“我要购买小米空气净化器2代”。智能音箱通过录制音频信息并识别之后，确定要购买的商品信息是小米空气净化器2代。当然，智能音箱也可以将商品描述信息发送给服务器，并接收服务器提供的推荐结果。

在本场景示例中，智能音箱可以询问用户“您现在就要支付购买么？”，用户可能答复说“是的”。智能音箱可以根据预设的随机算法生成一段文字，并告知用户“请您跟读一遍这段数字，57463”。智能音箱可以识别用户说的内容是不是指定的数字，以判断用户是不是具有真实的支付意愿。如果用户说的是：“算了，不买了”，那么智能音箱便可以结束本次购买流程。用户可能说：“57463”。此时，智能音箱发现识别得到的用户说的内容与指定的数字相同，认为用户确实具有购买的意愿。

在本场景示例中，智能音箱可以根据用户跟读数字的音频信息生成音频特征。并将该音频特征与智能音箱存储器中存储的用户的声音识别特征进行匹配。声音识别特征就是上例动态注册时候注册的，使得智能音箱具有用户的声音识别特征。

在本场景示例中，智能音箱可以在存储的声音识别特征中与音频特征匹配成功，此时智能音箱完成了对用户的身份验证，可以将用户的个人信息和要购买的商品信息发送给服务器，以使服务器从用户的金融账户中支付商品信息中的价款给该商品的卖家。

在一个场景示例中，智能音箱可以主动预测用户关注的商品或服务。

在本场景示例中，智能音箱可以位于用户家庭的客厅。用户在看电视过程中，智能音箱可以通过对电视声音的录音，得到音频信息，进而识别得到频道编码。或者，智能音箱可以通过识别电视节目的内容，与服务器进行交互，由服务器反馈相应的电视频道。

在本场景示例中，智能音箱可以存储有电视频道的节目清单。或者，也可以从服务器拉去电视频道的节目清单。在用户观看电视的过程中，可能对某一个广告的商品感兴趣，要进行购买。此时，用户可以说：“你好，音箱”，“我要购买这个广告中的商品”。智能音箱可以根据用户说话的时间点，和节目清单中给出的时间，确定用户要购买的商品信息。进一步的，智能音箱可以根据用户的音频数据提取出音频特征，与已经建立的声音识别特征库中的声音识别特征进行匹配，验证用户的身份。在验证成功时，将用户的个人信息和商品信息发送给服务器，以使服务器从用户的金融账户中支付商品信息中的价款给该商品的卖家。

在一个场景示例中，如图7所示。智能音箱可以主动预测用户关注的商品或服务。

在本场景示例中，智能音箱可以存储有电视频道的节目清单。或者，也可以从服务器拉去电视频道的节目清单。在用户观看电视的过程中，可能对某一个广告的商品感兴趣，要进行购买。此时，用户可以说：“你好，音箱”，“我要购买这个广告中的商品”。智能音箱可以根据用户说话的时间点，和节目清单中给出的时间，确定用户要购买的商品信息。进一步的，智能音箱可以根据用户音频的音频特征匹配出声音识别特征，以验证用户的身份。在验证成功时，将用户的个人信息和商品信息发送给服务器，以使服务器从用户的金融账户中支付商品信息中的价款给该商品的卖家。

在一个场景示例中，如图8所示，客户端可以是具有显示器的电子设备。例如，可以是上表1中的类别4型设备。具体的，例如，客户端可以是智能手机。

在本场景示例中，用户可能想要购买一款耳麦。用户可以使用购物软件，例如，手机京东、当当、亚马逊购物等等，操作浏览商品信息。

在本场景示例中，用户可以完成了商品信息的浏览，要针对一款价值150元的耳麦进行支付时，可以将手机停留在该商品信息的界面，对着手机说：“我要付款”。此时，手机可以录制该音频并识别得到该用户的指令后，手机可以向用户提供付款界面。或者，用户点击了要付款的按钮，手机提供付款界面。在付款界面上用户可以直接说出预先设定的支付关键词。比如，用户说：“声纹支付方式给生活带来便捷”，手机进行录音生成音频信息，可以根据该音频信息生成音频特征。将该音频特征与手机中存储的声音识别特征进行匹配，以验证用户的身份。在匹配成功时，手机可以将用户的个人信息和商品信息发送给服务器，以用于服务器从用户的金融账户中支付商品信息中的价款给该商品的卖家。

在一个具体的场景示例中，如图9所示，客户端可以是车载终端。该车载终端可以通过与用户的对话，并进一步处理确认用户要购买的是一种服务兑换券，比如售价为50元的汽车维修工时券。车载终端可以将录制的用户的语音文件和该汽车维修工时券的信息，一并发送给服务器。有服务器进行身份验证的过程。

在本场景示例中，车载终端向服务器提供的音频信息，可以是用户发出购买指令的录音。比如，用户说：“我要购买百骏维修厂的汽车维修工时券”，车载终端将该句话的音频数据发送给服务器。

在本场景示例中，服务器接收到音频数据和服务信息后，可以根据音频数据提取出音频特征，然后与服务器中的声音识别特征进行匹配，以验证用户的身份。比如，验证成功，根据匹配成功的声音识别特征，得到用户的个人信息，进而可以实现个人信息的金融账户对百骏维修厂付款购买汽车维修工时券。

在本场景示例中，车载终端也可以录制音频数据之后，生成音频特征，并将音频特征和服务信息发送给服务器。进而便于服务器根据音频特征与声音识别特征进行匹配，以验证用户身份。

下面结合另一个应用场景进行说明，在本例中，如图10所示，包括：多个客户端和云端服务器。客户端获取音频数据，并提取出音频特征作为声纹，与云端服务器存储的声纹进行匹配，以实现对云端多个客户端共享的声纹库进行更新。也可以是客户端获取音频数据之后直接发送给云端服务器，云端服务器对这些音频数据处理以提取出声纹，并通过提取出的声纹对声纹库进行更新。也或者是对于多个客户端而言，有些客户端的数据是在云端进行共享的，有些客户端会维护自身的声纹库，仅在需要匹配用户信息的时候从云端进行获取，如果云端获取不到相似声纹的用户信息，再向用户请求用户信息。

具体的实现方式或者实现场景可以根据实际需要进行构想，本申请对此不作限定。

在本实施方式中，客户端可以是具有录音功能的电子设备。具体的，例如，客户端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中，智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。或者，客户端也可以为能够运行于上述电子设备中的软件。例如，电子设备中提供录音功能，软件可以通过调用该录音功能录制音频数据。

本申请实施方式还提供一种客户端。所述客户端包括：麦克风单元和处理器。

所述麦克风单元，用于获取音频数据；

所述处理器，用于确定用于更新声音识别特征的音频数量是否达到预设阈值；在确定用于更新所述声音识别特征的音频数量达到所述预设阈值的情况下，为所述声音识别特征关联用户信息；

所述存储器，用于存储声音识别特征和关联的用户信息。

本申请实施方式还提供一种客户端，包括：处理器和存储器，其中：

在一个实施方式中，上述处理器具体可以用于获取所述音频特征和所述匹配出的声音识别特征；根据所述音频特征和所述匹配出的声音识别特征生成第一识别特征；将所述第一识别特征取代所述匹配出的声音识别特征存储在所述已关联特征库中。

在一个实施方式中，上述处理器具体可以用于在所述未关联特征库中存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过所述音频特征更新匹配出的声音识别特征，并更新用于更新该声音识别特征的音频数量；在所述未关联特征库中不存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征作为声音识别特征增加至所述未关联特征库中。

在一个实施方式中，上述音频数据可以包括但不限于：对用户说出唤醒词的声音进行录制所得到的音频文件。

本申请实施方式还提供一种服务器，包括：处理器和存储器，其中：

本申请实施方式还提供一种客户端，包括：处理器，所述处理器用于执行如下步骤：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

在一个实施方式中，上述处理器具体还可以用于在确定用于更新声音识别特征的音频数量是否达到预设阈值之前，获取音频数据；提取所述音频数据的音频特征；确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的已关联用户信息的声音识别特征。

在一个实施方式中，上述处理器还可以用于在确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征之后，在确定出不存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，确定是否存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征；在确定存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征的情况下，通过所述音频特征更新匹配出的未关联用户信息的声音识别特征；确定用于更新匹配出的未关联用户信息的声音识别特征的音频数量是否达到预设阈值。

在一个实施方式中，上述处理器具体可以用于在确定出存在多个与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，通过所述音频特征更新相似度最高的已关联用户信息的声音识别特征。

在一个实施方式中，上述处理器具体还可以用于监测未关联用户信息的声音识别特征的数量是否超出预设数量；在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征。

在一个实施方式中，上述处理器还可以用于监测未关联用户信息的声音识别特征的数量是否超出预设数量；在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中更新时间最早的一个或多个声音识别特征。

在一个实施方式中，上述处理器具体还可以用于生成用于请求用户信息的请求；接收响应于所述请求返回的用户信息；将接收到的用户信息与所述声音识别特征进行关联。

本申请实施方式还提供一种服务器，可以包括：处理器，所述处理器用于执行如下步骤：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

在本实施方式中，上述存储器可以包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，上述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

在本实施方式中，上述麦克风单元可以将声音转换成电信号形成音频文件。麦克风单元可以采取电阻式麦克风、电感式麦克风、电容式麦克风、铝带式麦克风、动圈式麦克风或驻极体麦克风。

本实施方式中提供的客户端、服务器，其实现的功能和效果可以参见其它实施方式对照解释。

本申请实施方式还提供一种计算机存储介质，其存储有程序指令，在所述程序指令被执行时实现：获取音频数据，并提取所述音频数据的音频特征；确定已关联特征库中是否存在与所述音频特征之间的相似度达到预设匹配阈值的声音识别特征，其中，所述已关联特征库用于存储已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的声音识别特征；在确定不存在的情况下，将所述音频特征添加至未关联特征库中，其中，所述未关联特征库用于存储未关联用户信息的声音识别特征。

在本实施方式中，所述计算机存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。

本实施方式中提供的计算机存储介质，其程序指令被执行时实现的功能和效果可以参见其它实施方式对照解释。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

本申请实施方式中提及的服务器，在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware Description Language)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种声音识别特征的优化方法，其特征在于，所述方法包括：

获取音频数据，并提取所述音频数据的音频特征；

2.根据权利要求1所述的方法，其特征在于，通过所述音频特征更新匹配出的声音识别特征，包括：

获取所述音频特征和所述匹配出的声音识别特征；

根据所述音频特征和所述匹配出的声音识别特征生成第一识别特征；

将所述第一识别特征取代所述匹配出的声音识别特征存储在所述已关联特征库中。

3.根据权利要求1所述的方法，其特征在于，将所述音频特征添加至所述未关联特征库中，包括：

在所述未关联特征库中存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过所述音频特征更新匹配出的声音识别特征，并更新用于更新该声音识别特征的音频数量；

在所述未关联特征库中不存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征作为声音识别特征增加至所述未关联特征库中。

4.根据权利要求1所述的方法，其特征在于，所述音频数据包括：对用户说出唤醒词的声音进行录制所得到的音频文件。

5.一种声音识别特征的动态注册方法，其特征在于，所述方法包括：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

6.根据权利要求5所述的方法，其特征在于，在确定用于更新声音识别特征的音频数量是否达到预设阈值之前，所述方法还包括：

获取音频数据；

提取所述音频数据的音频特征；

确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征；

在确定存在的情况下，通过所述音频特征更新匹配出的已关联用户信息的声音识别特征。

7.根据权利要求6所述的方法，其特征在于，在确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征之后，确定用于更新声音识别特征的音频数量是否达到预设阈值，包括：

在确定出不存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，确定是否存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征；

在确定存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征的情况下，通过所述音频特征更新匹配出的未关联用户信息的声音识别特征；

确定用于更新匹配出的未关联用户信息的声音识别特征的音频数量是否达到预设阈值。

8.根据权利要求6所述的方法，其特征在于，在确定存在的情况下，通过所述音频特征更新匹配出的已关联用户信息的声音识别特征，包括：

在确定出存在多个与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，通过所述音频特征更新相似度最高的已关联用户信息的声音识别特征。

9.根据权利要求6所述的方法，其特征在于，还包括：

监测未关联用户信息的声音识别特征的数量是否超出预设数量；

在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征。

10.根据权利要求6所述的方法，其特征在于，还包括：

在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中更新时间最早的一个或多个声音识别特征。

11.根据权利要求6所述的方法，其特征在于，为所述声音识别特征添加与该声音识别特征关联的用户信息，包括：

生成用于请求用户信息的请求；

接收响应于所述请求返回的用户信息；

将接收到的用户信息与所述声音识别特征进行关联。

12.一种声音识别特征的动态注册方法，其特征在于，所述方法包括：

13.根据权利要求12所述的方法，其特征在于，所述已关联特征库中还存储有已关联用户信息的声音识别特征所关联的用户信息；和/或，所述未关联特征库中还存储有用于更新各个未关联用户信息的声音识别特征的音频数量。

14.根据权利要求12所述的方法，其特征在于，还包括：

获取音频数据，并提取所述音频数据的音频特征；

在所述已关联特征库中存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过所述音频特征更新匹配出的声音识别特征；

在所述已关联特征库中不存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征增加至所述未关联特征库中。

15.根据权利要求14所述的方法，其特征在于，将所述音频特征增加至所述未关联特征库中，包括：

16.根据权利要求12所述的方法，其特征在于，还包括：

确定所述未关联特征库中的声音识别特征是否超出预设数量；

在所述关联特征库中的声音识别特征超出预设数量的情况下，删除所述未关联特征库中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征。

17.根据权利要求12所述的方法，其特征在于，还包括：

在所述关联特征库中的声音识别特征超出预设数量的情况下，删除所述未关联特征库中更新时间最早的一个或多个声音识别特征。

18.根据权利要求12所述的方法，其特征在于，在确定所述未关联特征库中存在更新次数达到预设阈值的声音识别特征的情况下，为该声音识别特征关联用户信息，并将该声音识别特征添加至所述已关联特征库中，包括：

在确定所述未关联特征库中存在更新次数达到预设阈值的声音识别特征的情况下，确定所述已关联特征库中是否存在与该达到预设阈值的声音识别特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征；

在确定存在的情况下，通过该达到预设阈值的声音识别特征更新匹配出的已关联用户信息的声音识别特征。

19.一种声音识别特征的动态注册方法，其特征在于，所述方法包括：

确定声音识别特征是否满足预设要求；

20.一种客户端，其特征在于，包括：处理器和存储器，其中：

21.根据权利要求20所述的客户端，其特征在于，所述处理器具体用于获取所述音频特征和所述匹配出的声音识别特征；根据所述音频特征和所述匹配出的声音识别特征生成第一识别特征；将所述第一识别特征取代所述匹配出的声音识别特征存储在所述已关联特征库中。

22.根据权利要求20所述的客户端，其特征在于，所述处理器具体用于在所述未关联特征库中存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过所述音频特征更新匹配出的声音识别特征，并更新用于更新该声音识别特征的音频数量；在所述未关联特征库中不存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征作为声音识别特征增加至所述未关联特征库中。

23.根据权利要求20所述的客户端，其特征在于，所述音频数据包括：对用户说出唤醒词的声音进行录制所得到的音频文件。

24.一种服务器，其特征在于，包括：处理器和存储器，其中：

25.根据权利要求24所述的服务器，其特征在于，所述处理器具体用于获取所述音频特征和所述匹配出的声音识别特征；根据所述音频特征和所述匹配出的声音识别特征生成第一识别特征；将所述第一识别特征取代所述匹配出的声音识别特征存储在所述已关联特征库中。

26.根据权利要求24所述的服务器，其特征在于，所述处理器具体用于在所述未关联特征库中存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，通过所述音频特征更新匹配出的声音识别特征，并更新用于更新该声音识别特征的音频数量；在所述未关联特征库中不存在与所述音频特征相似度达到预设匹配阈值的声音识别特征的情况下，将所述音频特征作为声音识别特征增加至所述未关联特征库中。

27.根据权利要求24所述的服务器，其特征在于，所述音频数据包括：对用户说出唤醒词的声音进行录制所得到的音频文件。

28.一种客户端，其特征在于，包括：处理器，所述处理器用于执行如下步骤：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

29.根据权利要求28所述的客户端，其特征在于，所述处理器具体还用于在确定用于更新声音识别特征的音频数量是否达到预设阈值之前，获取音频数据；提取所述音频数据的音频特征；确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的已关联用户信息的声音识别特征。

30.根据权利要求29所述的客户端，其特征在于，所述处理器还用于在确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征之后，在确定出不存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，确定是否存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征；在确定存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征的情况下，通过所述音频特征更新匹配出的未关联用户信息的声音识别特征；确定用于更新匹配出的未关联用户信息的声音识别特征的音频数量是否达到预设阈值。

31.根据权利要求29所述的客户端，其特征在于，所述处理器具体用于在确定出存在多个与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，通过所述音频特征更新相似度最高的已关联用户信息的声音识别特征。

32.根据权利要求29所述的客户端，其特征在于，所述处理器还用于监测未关联用户信息的声音识别特征的数量是否超出预设数量；在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征。

33.根据权利要求29所述的客户端，其特征在于，所述处理器还用于监测未关联用户信息的声音识别特征的数量是否超出预设数量；在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中更新时间最早的一个或多个声音识别特征。

34.根据权利要求29所述的客户端，其特征在于，所述处理器具体用于生成用于请求用户信息的请求；接收响应于所述请求返回的用户信息；将接收到的用户信息与所述声音识别特征进行关联。

35.一种服务器，其特征在于，包括：处理器，所述处理器用于执行如下步骤：

确定用于更新声音识别特征的音频数量是否达到预设阈值；

36.根据权利要求35所述的服务器，其特征在于，所述处理器具体还用于在确定用于更新声音识别特征的音频数量是否达到预设阈值之前，获取音频数据；提取所述音频数据的音频特征；确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征；在确定存在的情况下，通过所述音频特征更新匹配出的已关联用户信息的声音识别特征。

37.根据权利要求36所述的服务器，其特征在于，所述处理器还用于在确定是否存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征之后，在确定出不存在与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，确定是否存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征；在确定存在与所述音频特征相似度达到预设匹配阈值的未关联用户信息的声音识别特征的情况下，通过所述音频特征更新匹配出的未关联用户信息的声音识别特征；确定用于更新匹配出的未关联用户信息的声音识别特征的音频数量是否达到预设阈值。

38.根据权利要求36所述的服务器，其特征在于，所述处理器具体用于在确定出存在多个与所述音频特征之间的相似度达到预设匹配阈值的已关联用户信息的声音识别特征的情况下，通过所述音频特征更新相似度最高的已关联用户信息的声音识别特征。

39.根据权利要求36所述的服务器，其特征在于，所述处理器还用于监测未关联用户信息的声音识别特征的数量是否超出预设数量；在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中用于更新声音识别特征的音频数据的数量最少的一个或多个声音识别特征。

40.根据权利要求36所述的服务器，其特征在于，所述处理器还用于监测未关联用户信息的声音识别特征的数量是否超出预设数量；在确定超出所述预设数量的情况下，删除未关联用户信息的声音识别特征中更新时间最早的一个或多个声音识别特征。

41.根据权利要求36所述的服务器，其特征在于，所述处理器具体用于生成用于请求用户信息的请求；接收响应于所述请求返回的用户信息；将接收到的用户信息与所述声音识别特征进行关联。

42.一种声音识别特征的处理方法，其特征在于，所述方法包括：

获取音频数据，并提取所述音频数据的音频特征；

确定是否存在与所述音频特征匹配的已存储声音识别特征；

43.根据权利要求42所述的方法，其特征在于，通过所述音频特征更新所述已存储声音识别特征，包括：

获取所述音频特征和匹配出的已存储声音识别特征；

根据所述音频特征和匹配出的已存储声音识别特征生成第一识别特征；

将所述第一识别特征替代匹配出的已存储声音识别特征进行存储。

44.根据权利要求42所述的方法，其特征在于，为所述音频特征创建新用户档案，所述新用户档案关联于所述音频特征，包括：

确定所述音频特征是否满足预设的创建用户档案条件；

如果满足条件，则为所述音频特征创建新用户档案。

45.根据权利要求42所述的方法，其特征在于，所述音频数据包括：对用户说出唤醒词的声音进行录制所得到的音频文件。

46.一种电子设备，其特征在于，包括：麦克风单元和网络通信单元；

所述麦克风单元用于获取音频数据；

47.一种电子设备，其特征在于，包括：麦克风单元、网络通信单元和处理器；

所述麦克风单元用于获取音频数据；

所述处理器用于提取所述音频数据的音频特征；

48.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。

49.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求5至11中任一项所述方法的步骤。

50.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求12至18中任一项所述方法的步骤。