CN108958810A

CN108958810A - 一种基于声纹的用户识别方法、装置及设备

Info

Publication number: CN108958810A
Application number: CN201810133615.XA
Authority: CN
Inventors: 吴本谷; 李想; 陈君宇
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-12-07

Abstract

本发明实施例提供了一种基于声纹的用户识别方法、装置及设备，该方法包括：获取待识别用户的语音信号，作为待识别语音信号；利用预先训练得到的唤醒模型，识别待识别语音信号中的唤醒词；获取包含所述唤醒词的语音片段；利用预先训练得到的声纹模型，对所述语音片段进行声纹识别，根据识别结果，确定所述待识别用户的身份信息。可见，本方案中，智能设备在接收到唤醒词后识别用户身份，进而也就可以根据用户身份，为不同的用户提供个性化服务。

Description

一种基于声纹的用户识别方法、装置及设备

技术领域

本发明涉及生物识别技术领域，特别是涉及一种基于声纹的用户识别方法、装置及设备。

背景技术

目前，智能设备的种类越来越多，应用也越来越广泛。智能设备通常包括：智能机器人、智能音箱等等。现有的智能设备已经可以针对用户发送的语音指令进行响应。举例来说，用户可以向智能设备发送“我要听‘明朝那些事儿”、或“播放‘明朝那些事儿’”、或其他语音指令，以请求播放音频资源、或者视频资源、或者其他多媒体资源(“明朝那些事儿”为音频资源)；智能设备接收到语音指令后，可以播放用户所请求的多媒体资源。

一般来说，智能设备接收到特定的唤醒词后切换至唤醒状态，之后智能设备才能识别用户发送的语音指令，并播放用户所请求的多媒体资源。但是，在唤醒过程中，智能设备无法识别出用户的身份，也就无法针对不同的用户提供个性化服务。

发明内容

本发明实施例的目的在于提供一种基于声纹的用户识别方法、装置及设备，实现智能设备在接收到唤醒词后识别用户身份。

具体技术方案如下：

本发明实施例提供了一种基于声纹的用户识别方法，应用于智能设备，所述方法包括：

获取待识别用户的语音信号，作为待识别信号；

利用预先训练得到的唤醒模型，识别所述待识别语音信号中的唤醒词；

获取包含所述唤醒词的语音片段；

利用预先训练得到的声纹模型，对所述语音片段进行声纹识别，根据识别结果，确定所述待识别用户的身份信息。

可选的，采用如下步骤建立声纹模型：

获取注册用户的语音信号，作为注册语音信号；其中，所述注册语音信号中包含所述唤醒词；

根据所述注册语音信号，建立声纹模型；

存储建立的声纹模型及与所述声纹模型对应的注册用户的身份信息。

可选的，所述方法还包括：

所述智能设备从待唤醒状态切换为唤醒状态。

可选的，所述方法还包括：

播放与识别出的用户身份信息对应的音频信息。

可选的，在确定所述待识别用户的身份信息之后，还包括：

从所述待识别语音信号中识别出语音指令；

根据所述待识别用户的身份信息，播放与所述语音指令相对应的音频信息。

可选的，所述利用预先训练得到的唤醒模型，识别所述待识别语音信号中的唤醒词，包括：

提取所述待识别语音信号的特征向量，将所述待识别语音信号的特征向量输入预先训练得到的唤醒模型中；

在所述唤醒模型中，根据所述待识别语音信号的特征向量，识别所述待识别语音信号中是否包含唤醒词；

所述利用预先训练得到的声纹模型，对所述语音片段进行声纹识别，包括：

将所述语音片段的特征向量输入预先训练得到的声纹模型；在所述声纹模型中，对所述语音片段的特征向量进行声纹识别。

本发明实施例还提供了一种基于声纹的用户识别装置，应用于智能设备，所述装置包括：

语音信号获取模块，用于获取待识别用户的语音信号，作为待识别信号；

唤醒模块，用于利用预先训练得到的唤醒模型，识别所述待识别语音信号中的唤醒词；

语音片段获取模块，用于获取包含所述唤醒词的语音片段；

声纹识别模块，用于利用预先训练得到的声纹模型，对所述语音片段进行声纹识别，根据识别结果，确定所述待识别用户的身份信息。

可选的，采用如下装置建立声纹模型：

注册语音获取模块，用于获取注册用户的语音信号，作为注册语音信号；其中，所述注册语音信号中包含所述唤醒词；

声纹模型建立模块，用于根据所述注册语音信号，建立声纹模型；

身份信息存储模块，用于存储建立的声纹模型及与所述声纹模型对应的注册用户的身份信息。

可选的，所述装置还包括：

状态切换模块，用于将所述智能设备从待唤醒状态切换为唤醒状态。

可选的，所述装置还包括：

音频播放模块，用于播放与识别出的用户身份信息对应的音频信息。

可选的，所述装置还包括：

指令响应模块，用于从所述待识别语音信号中识别出语音指令；根据所述待识别用户的身份信息，播放与所述语音指令相对应的音频信息。

可选的，所述唤醒模块，包括：

特征向量提取子模块，用于提取所述待识别语音信号的特征向量，将所述待识别语音信号的特征向量输入预先训练得到的唤醒模型中；

唤醒词识别子模块，用于根据所述待识别语音信号的特征向量，识别所述待识别语音信号中是否包含唤醒词；

所述声纹识别模块，包括：

特征向量获取子模块，用于将所述语音片段的特征向量输入预先训练得到的声纹模型；

声纹识别子模块，用于在所述声纹模型中，对所述语音片段的特征向量进行声纹识别，根据识别结果，确定所述待识别用户的身份信息。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一方法步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法步骤。

应用本发明实施例，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；可见，本方案中，智能设备在接收到唤醒词后识别用户身份，进而也就可以根据用户身份，为不同的用户提供个性化服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方案示意图；

图2为本发明实施例提供的一种基于声纹的用户识别方法的流程示意图；

图3为唤醒模型的一种实现方式；

图4为本发明实施例提供的另一种基于声纹的用户识别方法的流程示意图；

图5为本发明实施例提供的另一种基于声纹的用户识别方法的流程示意图；

图6为本发明实施例中一种基于声纹的用户识别装置的结构示意图；

图7为本发明实施例中另一种基于声纹的用户识别装置的结构示意图；

图8为本发明实施例中另一种基于声纹的用户识别装置的结构示意图；

图9为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明提出了一种基于声纹的用户识别方法。

本方案可以应用于各种智能设备中，如智能音箱、智能机器人等等，具体不做限定，本方案中，智能设备在接收到唤醒词后识别用户身份，进而也就可以根据用户身份，为不同的用户提供个性化服务，从而提升用户的体验。

下面从总体上对本发明实施例提供的基于声纹的用户识别方法进行举例说明。

如图1所示，首先，智能设备获取用户的待识别语音信号，然后，该待识别语音信号输入至唤醒模型，唤醒模型识别该待识别语音信号中的唤醒词，并获取包含有唤醒词的语音片段，接着，该语音片段再输入至声纹模型，声纹模型识别出用户的身份信息，这样，智能设备便可以根据用户的身份信息执行相应的任务，比如播放用户的身份信息对应的音频信息，等等，具体任务不做限定。

本发明的一种实现方式中，上述基于声纹的用户识别方法包括：

获取待识别用户的语音信号，作为待识别语音信号；

获取包含所述唤醒词的语音片段；

由以上可见，应用本发明实施例，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；可见，本方案中，智能设备在接收到唤醒词后识别用户身份，进而也就可以根据用户身份，为不同的用户提供个性化服务。

下面将通过具体的实施例，对本发明实施例提供的基于声纹的用户识别方法进行详细描述。

如图2所示，为本发明实施例提供的一种基于声纹的用户识别方法的流程示意图，包括如下步骤：

步骤S201：获取待识别用户的语音信号，作为待识别语音信号。

比如，当用户需要使用智能设备时，用户向智能设备发送语音信号。智能设备将接收到的语音信号作为待识别语音信号。

举例来说，智能设备执行S201时可以为待唤醒状态，也可以为唤醒状态，这两种状态均可以获取到语音信号。待唤醒状态也就是智能设备识别到唤醒词以前的状态，可以理解为一种低功耗状态；唤醒状态也就是智能设备识别到唤醒词以后的状态，可以理解为一种高功耗状态。

唤醒词可以为两音节或四音节的词汇，例如“小豹小豹”等。唤醒词可以预先设定，唤醒词的具体内容可以有多种，具体不做限定。

步骤S202：利用预先训练得到的唤醒模型，识别待识别语音信号中的唤醒词。

举例来说，训练得到唤醒模型有很多种实现方式：

在一种实现方式中，唤醒模型可以为已经训练好的通用的语音识别模型，通过该语音识别模型，得到待识别语音信号的识别结果，判断识别结果与唤醒词是否匹配。在一具体实施例中，利用通用的语音识别模型获取到待识别语音信号中的文本信息，再判断该文本信息中是否包含唤醒词。这种实现方式下，训练得到唤醒模型时，需要使用较多自然状态下的语句，因此这种唤醒模型对日常各种环境中的复杂语音信号的适应性较强。

在另一种实现方式中，可以将包含唤醒词的语音数据作为训练数据，对预设结构的神经网络进行训练，得到该唤醒模型。或者，也可以将包含唤醒词及其他词汇的语音数据作为训练数据，神经网络进行训练，得到该唤醒模型。

这种实现方式下，由于是具有针对性的对唤醒词的语音数据进行训练，因此这种唤醒模型对唤醒词的识别更加灵敏。

或者，也可以根据不同的应用场景和硬件条件等选择不同的唤醒模型，本发明实施例对此不做具体限定。

在本发明实施例中，预先训练得到的唤醒模型可以存储在智能设备中，这样智能设备利用自身存储的唤醒模型，识别待识别语音信号中的唤醒词，可以缩短唤醒过程的响应时间。或者，该唤醒模型也可以存储在与智能设备通信连接的云端服务器中，这样可以节省智能设备的内存。

如果智能设备利用唤醒模型，识别到待识别语音信号中的唤醒词，而且此时智能设备处于待唤醒状态，则智能设备将自身切换为唤醒状态。

一些情况下，智能设备获取到的语音信号仅仅是环境中的噪声，或者是用户发出的并不针对智能设备的语音信号，这样，利用唤醒模型，并不能识别到语音信号中的唤醒词，也就不再执行后续步骤。

举例来说，在获取到待识别语音信号之后，可以对待识别语音信号进行信号处理，得到优化信号；信号处理可以包括以下一项或多项：滤波、加窗分帧、端点检测和预加重等。然后提取优化信号的特征向量，这里所说的特征可以采用谱基的特征，例如MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)、PLP(Perceptual LinearPredictive，感知线性预测系数)、LPCC(linear prediction cepstrum coefficient，线性预测倒谱系数)等。将所提取的特征向量输入至唤醒模型，在唤醒模型中，根据该特征向量，识别该待识别语音信号中是否包含唤醒词。

图3为唤醒模型的一种实现方式，假设唤醒词为“小豹小豹”，则只有在唤醒模型识别出待识别语音信号中包括“xiao-bao-xiao-bao”时，才确定识别出了唤醒词，而如果只识别出“xiao-bao”或其他语音信息时，则表示未识别到唤醒词。

步骤S203：获取包含唤醒词的语音片段。

利用唤醒模型识别出待识别语音信号中的唤醒词后，智能设备就可以从获取的待识别语音信号中进一步提取出包含唤醒词的语音片段。

在一种实现方式中，上述包含唤醒词的语音片段即为仅包含唤醒词的语音片段，例如，当唤醒词为“小豹小豹”时，只提取“小豹小豹”的语音片段，这样，可以尽量避免其他语音信号对后续声纹识别的过程带来的干扰。

在另一种实现方式中，包含唤醒词的语音片段也可以是包含唤醒词的指定长度的语音片段，例如，当唤醒词为“小豹小豹”时，提取以“小豹小豹”为起始点，长度为10秒的语音片段，这样提取到的语音片段中包含更多的用户语音信息，可以提升后续声纹识别过程中的准确性和稳定性。

或者还可以根据其他的方法提取语音片段，本发明实施例对此不做具体限定。

步骤S204：利用预先训练得到的声纹模型，对语音片段进行声纹识别，根据识别结果，确定待识别用户的身份信息。

在使用声纹模型对语音片段进行声纹识别之前，需要预先建立声纹模型，建立声纹模型的过程也就是用户进行声纹注册的过程。在一种实现方式中，可以采用如下步骤建立声纹模型：

步骤1：获取注册用户的语音信号，作为注册语音信号。

在本步骤中，注册用户的数量可以为一个，也可以为多个。注册语音信号可以为用户随机说出的语句，也可以是用户按照一定的规则说出的语句，语句可以是比较长的句子，也可以是比较短的词汇，本发明实施例对此不做限定。

在一种实现方式中，注册语音信号可以包括唤醒词。例如，当智能设备预设的唤醒词为“小豹小豹”时，智能设备可以提示注册用户说出“小豹小豹”以进行声纹注册。唤醒词通常很短，通过唤醒词进行声纹注册可以减少用户的注册时间。另外，如果声纹模型通过唤醒词注册得到，利用声纹模型对包含唤醒词的语音片段进行识别，可以提高声纹模型对该语音片段的识别效果。

步骤2：根据注册语音信号，建立声纹模型。

在本步骤中，构建声纹模型可以通过多种实现方式实现。其中，在一种实现方式中，可以利用深度神经网络对不同注册用户的注册语音信号语音特征数据进行训练，构建不同注册用户的分类模型；在另一种实现方式中，也可以利用高斯混合模型，对不同用户的语音信息信号进行区分；或者，可以提取注册语音信号中的声纹特征参数，根据该声纹特征参数，构建声纹模型。或者，也可以是利用其他的方式构建的声纹模型，本发明实施例对此不做限定。

每当有新用户进行了声纹注册，则声纹模型也会随之更新，这样，通过声纹模型可以识别出新用户的身份信息。

步骤3：存储建立的声纹模型及与所述声纹模型对应的注册用户的身份信息。

用户的身份信息可以为用户ID，还可以包括用户性别、年龄等信息，具体内容不做限定。

在本发明实施例中，预先训练得到的声纹模型可以存储在智能设备中，这样智能设备利用自身存储的声纹模型，对语音片段进行声纹识别，可以缩短识别过程的响应时间。或者，该声纹模型也可以存储在与智能设备通信连接的云端服务器中，这样可以节省智能设备的内存。

智能设备在确定了待识别用户的身份信息之后，便可以根据待识别用户的身份，执行相应的任务。举例来说，智能设备可以预先将用户的身份信息与用户的权限、使用记录和偏好设置等对应存储，或者说，用户的身份信息中可以包括用户的权限、使用记录和偏好设置等；这样，智能设备在确定用户的身份信息后，可以根据用户的权限、偏好设置等，向用户播放音频资源、视频资源或者其他各种多媒体资源，具体不做限定。或者，智能设备也可以根据身份信息中包含的性别、年龄等信息，确定用户感兴趣的资源，获取该资源，将该资源展示给用户。

在一种实现方式中，智能设备根据所述待识别用户的身份信息，播放与所述语音指令相对应的音频信息。一般来说，用户在说出唤醒词后，通常会继续向智能设备发送其他语音指令，比如智能设备获取的待识别语音信号为“小豹小豹我想听明朝那些事儿”，则通过唤醒模型，识别出该待识别语音信号中包含的唤醒词“小豹小豹”，另外，通过声纹模型识别出该用户为注册用户A；然后，智能设备从待识别语音信号中识别出用户A的语音指令：“想听明朝那些事儿”，再结合用户A的使用记录，该用户的使用记录中正在听《明朝那些事儿》下部，则智能设备继续为用户A播放《明朝那些事儿》下部。或者，如果用户A想听的节目是付费节目，则智能设备根据用户A的权限，如果用户A是付费用户，则直接播放，否则提示用户A先进行购买。

举例来说，智能设备中可以预先存储有多种交互模板，比如：“用户某某，您好，为您继续播放……”，或者，“亲爱的用户某某，为您继续播放……”，或者“用户某某，您好，接下来为您播放……”，或者，“亲爱的用户某某，接下来为您播放……”，等等，交互模板有多种，不再一一列举。

延续上述例子，智能设备在接收到“小豹小豹我想听明朝那些事儿”的语音信号后，可以根据该交互模板，播放“A，您好，为您继续播放《明朝那些事儿》下部……”，或者“亲爱的A，为您继续播放《明朝那些事儿》下部……”等等。

再举一例，智能设备获取的待识别语音信号为“小豹小豹我想听歌”，则通过唤醒模型，识别出该待识别语音信号中包含的唤醒词“小豹小豹”，另外，通过声纹模型识别出该用户为注册用户A；然后，智能设备从待识别语音信号中识别出用户A的语音指令：“想听歌”，再结合用户A的偏好为抒情歌曲，则可以优先为用户A播放抒情类的歌曲。智能设备可以根据预先存储的交互模板播放“A，您好，接下来为您播放……”，或者“亲爱的A，接下来为您播放……”，等等。

如果S204中未确定出用户的身份信息，也可以向用户推送较热门的资源，并在接收到该用户的指令后，执行相应指令。

由以上可见，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；然后继续识别用户发出的语音指令，结合用户的身份信息执行用户的语音指令，为用户提供更智能的服务，从而进一步提升用户的体验。

如图4所示，为本发明实施例提供的另一种基于声纹的用户识别方法的流程示意图，包括如下步骤：

步骤S401：获取待识别用户的语音信号，作为待识别语音信号。

例如，获取到待识别语音信号为“小豹小豹我想听明朝那些事儿”，其中，“小豹小豹”为唤醒词。

步骤S402：利用预先训练得到的唤醒模型，识别待识别语音信号中的唤醒词。

步骤S403：获取包含唤醒词的语音片段。

延续上述例子，可以只提取“小豹小豹”的语音片段，这样，可以尽量避免其他语音信号对后续声纹识别的过程带来的干扰。

步骤S404：利用预先训练得到的声纹模型，对所述语音片段进行声纹识别，根据识别结果，确定待识别用户的身份信息。

用户的身份信息可以为用户ID，还可以包括用户性别、年龄等信息，具体内容不做限定。举例来说，智能设备可以预先将用户的身份信息与用户的权限、使用记录和偏好设置等对应存储，或者说，用户的身份信息中可以包括用户的权限、使用记录和偏好设置等。

步骤S405：从待识别语音信号中识别出语音指令，根据待识别用户的身份信息，播放与语音指令相对应的音频信息。

智能设备在确定用户的身份信息后，可以根据用户的权限、偏好设置等，向用户播放音频资源、视频资源或者其他各种多媒体资源，具体不做限定。或者，智能设备也可以根据身份信息中包含的性别、年龄等信息，确定用户感兴趣的资源，获取该资源，将该资源展示给用户。

延续上述例子，在步骤S401中获取的待识别语音信号中，除了唤醒词对应的语音片段，还包含有用户的语音指令“我想听明朝那些事儿”。因此，在识别出用户的身份信息之后，如果用户为注册用户，则可以根据用户的身份信息，确定该用户的使用记录，根据该使用记录，播放“明朝那些事儿”中的相应章节。或者，可以根据用户的身份信息，确定该用户是否有“明朝那些事儿”的使用权限，仅在有权限的情况下，播放“明朝那些事儿”。

应用本发明图4实施例，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；然后继续识别用户发出的语音指令，结合用户的身份信息执行用户的语音指令，为用户提供更智能的服务，从而进一步提升用户的体验。

如图5所示，为本发明实施例提供的另一种基于声纹的用户识别方法的流程示意图，包括如下步骤：

步骤S501：获取待识别用户的语音信号，作为待识别语音信号。

步骤S502：提取待识别语音信号的特征向量，将待识别语音信号的特征向量输入预先训练得到的唤醒模型中；在唤醒模型中，根据待识别语音信号的特征向量，识别待识别语音信号中的唤醒词。

在获取待识别用户的语音信号之后，可以对该待识别语音信号进行优化处理，得到优化信号；优化处理可以包括以下一项或多项：滤波、加窗分帧、端点检测和预加重等处理。然后提取优化信号的特征向量，这里所说的特征可以采用谱基的特征，例如MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)、PLP(Perceptual LinearPredictive，感知线性预测系数)、LPCC(linear prediction cepstrum coefficient，线性预测倒谱系数)等。将待识别语音信号的特征向量输入预先训练得到的唤醒模型中，根据该特征向量，识别该待识别语音信号中是否包含唤醒词。

步骤S503：获取包含唤醒词的语音片段的特征向量。

步骤S504：将语音片段的特征向量输入预先训练得到的声纹模型；在声纹模型中，对语音片段的特征向量进行声纹识别，根据识别结果，确定待识别用户的身份信息。

S502中提取到的待识别语音信号的特征向量包括该语音片段的特征向量，可以从待识别语音信号的特征向量中得到该语音片段的特征向量，并将该语音片段的特征向量发送至声纹模型进行识别。这样，利用声纹模型进行声纹识别时，不需要重复提取语音片段的特征向量，提高了处理效率。

应用本发明图5实施例，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；然后继续识别用户发出的语音指令，结合用户的身份信息执行用户的语音指令，为用户提供更智能的服务，从而进一步提升用户的体验。

与上述基于声纹的用户识别方法相对应，本发明实施例还提供了一种基于声纹的用户识别装置。

如图6所示，为本发明实施例中一种基于声纹的用户识别装置的结构示意图，该装置包括：

语音信号获取模块610，用于获取待识别用户的语音信号，作为待识别语音信号。

唤醒模块620，用于利用预先训练得到的唤醒模型，识别待识别语音信号中的唤醒词。

语音片段获取模块630，用于获取包含唤醒词的语音片段。

声纹识别模块640，用于利用预先训练得到的声纹模型，对语音片段进行声纹识别，根据识别结果，确定待识别用户的身份信息。

在使用声纹模型对语音片段进行声纹识别之前，需要预先建立声纹模型，建立声纹模型的过程也就是用户进行声纹注册的过程。在一种实现方式中，可以采用如下装置建立声纹模型：

智能设备在确定了待识别用户的身份信息之后，便可以根据待识别用户的身份，执行相应的任务。举例来说，智能设备可以设置状态切换模块，用于将所述智能设备从待唤醒状态切换为唤醒状态。或者，还可以设置音频播放模块，用于播放与识别出的用户身份信息对应的音频信息。

由以上可见，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；可见，本方案中，智能设备在接收到唤醒词后识别用户身份，进而也就可以根据用户身份，为不同的用户提供个性化服务。

如图7所示，为本发明实施例中另一种基于声纹的用户识别装置的结构示意图，该装置包括：

语音信号获取模块710，用于获取待识别用户的语音信号，作为待识别语音信号。

唤醒模块720，用于利用预先训练得到的唤醒模型，识别待识别语音信号中的唤醒词。

语音片段获取模块730，用于获取包含唤醒词的语音片段。

声纹识别模块740，用于利用预先训练得到的声纹模型，对语音片段进行声纹识别，根据识别结果，确定待识别用户的身份信息。

指令响应模块750，用于从所述待识别语音信号中识别出语音指令，根据所述待识别用户的身份信息，播放与所述语音指令相对应的音频信息。

应用本发明图7实施例，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；然后继续识别用户发出的语音指令，结合用户的身份信息执行用户的语音指令，为用户提供更智能的服务，从而进一步提升用户的体验。

如图8所示，为本发明实施例中另一种基于声纹的用户识别装置的结构示意图，该装置包括：

语音信号获取模块810，用于获取待识别用户的语音信号，作为待识别语音信号。

唤醒模块820，包括：

特征向量提取子模块821，用于提取待识别语音信号的特征向量，将待识别语音信号的特征向量输入预先训练得到的唤醒模型中。

唤醒词识别子模块822，用于根据待识别语音信号的特征向量，识别待识别语音信号中是否包含唤醒词。

语音片段获取模块830，用于获取包含唤醒词的语音片段。

声纹识别模块840，包括：

特征向量获取子模块841，用于将语音片段的特征向量输入预先训练得到的声纹模型。

声纹识别子模块842，用于在声纹模型中，对语音片段的特征向量进行声纹识别，根据识别结果，确定待识别用户的身份信息。

应用本发明图8实施例，结合使用唤醒模型和声纹模型，通过唤醒模型识别唤醒词，并获取包含唤醒词的语音片段，再利用声纹模型对该语音片段进行识别，确定用户的身份信息；然后继续识别用户发出的语音指令，结合用户的身份信息执行用户的语音指令，为用户提供更智能的服务，从而进一步提升用户的体验。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

获取待识别用户的语音信号，作为待识别语音信号；

获取包含所述唤醒词的语音片段；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

上述电子设备可以为智能音箱、智能机器人等智能设备，具体不做限定。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于声纹的用户识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的基于声纹的用户识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于声纹的用户识别方法，其特征在于，应用于智能设备，所述方法包括：

获取待识别用户的语音信号，作为待识别信号；

获取包含所述唤醒词的语音片段；

2.根据权利要求1所述的方法，其特征在于，采用如下步骤建立声纹模型：

根据所述注册语音信号，建立声纹模型；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述智能设备从待唤醒状态切换为唤醒状态。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

播放与识别出的用户身份信息对应的音频信息。

5.根据权利要求1所述的方法，其特征在于，在确定所述待识别用户的身份信息之后，还包括：

从所述待识别语音信号中识别出语音指令；

6.根据权利要求1所述的方法，其特征在于，所述利用预先训练得到的唤醒模型，识别所述待识别语音信号中的唤醒词，包括：

7.一种基于声纹的用户识别装置，其特征在于，应用于智能设备，所述装置包括：

语音片段获取模块，用于获取包含所述唤醒词的语音片段；

8.根据权利要求7所述的装置，其特征在于，采用如下装置建立声纹模型：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求7所述的装置，其特征在于，所述唤醒模块，包括：

所述声纹识别模块，包括：

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。