CN108766446A

CN108766446A - 声纹识别方法、装置、存储介质及音箱

Info

Publication number: CN108766446A
Application number: CN201810349855.3A
Authority: CN
Inventors: 周雷; 徐颖
Original assignee: Mdt Infotech Ltd In Shanghai
Current assignee: Mdt Infotech Ltd In Shanghai
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-11-06

Abstract

本发明公开一种声纹识别方法、装置、存储介质及音箱，该方法包括获取用户的语音信息；检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息；将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作。通过声纹识别技术以及唤醒词技术的结合，提高了识别的安全性。

Description

声纹识别方法、装置、存储介质及音箱

技术领域

本发明涉及语音领域，更具体的说，涉及一种声纹识别方法、装置、存储介质及音箱。

背景技术

伴随着全球化、网络化、信息化、数字化时代的到来，我们对高可靠性的身份验证技术与高精准个性化定制需求也日益增长，同时智能化、易操作的产品相继问世。传统的以密码为特征的身份认证技术暴露出巨大的弊端，很难满足高安全性和长效安全性的要求。

发明内容

本发明所要解决的技术问题是提供一种声纹识别方法、装置、存储介质及音箱，能提高安全性。

本发明的目的是通过以下技术方案来实现的：

第一方面，本发明实施例提供一种声纹识别方法，包括：

获取用户的语音信息；

检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则

进入唤醒状态，同时获取所述语音信息的声纹特征信息；

将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则

接收控制指令并根据所述控制指令进行操作。

第二方面，本发明实施例提供一种声纹识别装置，包括：

语音信息获取模块，用于获取用户的语音信息；

检测模块，用于检测所述语音信息是否包括唤醒词，若所述语音信息

包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息；

匹配模块，用于将所述声纹特征信息与预存声纹模型信息进行匹配，

若匹配成功，则接收控制指令并根据所述控制指令进行操作。

第三方面，本发明实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在音箱上运行时，使得所述音箱执行上述的声纹识别方法。

第四方面，本发明实施例提供一种音箱，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行上述的声纹识别方法。

本发明实施例提供的声纹识别方法、装置、存储介质及音箱，通过获取用户的语音信息；检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息；

将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作。通过声纹识别技术以及唤醒词技术的结合，提高了识别的安全性。

附图说明

需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 为本发明实施例提供的声纹识别方法的第一种流程示意图。

图2 为本发明实施例提供的声纹识别方法的第二种流程示意图。

图3 为本发明实施例提供的声纹识别方法的第三种流程示意图。

图4 为本发明实施例提供的声纹识别方法的第四种流程示意图。

图5为本发明实施例提供的声纹识别方法的第五种流程示意图。

图6 为本发明实施例提供的声纹识别方法的第六种流程示意图。

图7 为本发明实施例提供的声纹识别方法的第七种流程示意图。

图8 为本发明实施例提供的声纹识别方法的第八种流程示意图。

图9 为本发明实施例提供的语音进行预处理特征提取过程的示意图。

图10为本发明实施例提供的声纹模型生成流程图。

图11 为本发明实施例提供的声纹识别装置的第一种结构示意图。

图12 为本发明实施例提供的声纹识别装置的第二种结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“单元”可看做为在该运算系统上执行的软件对象。

本文所述的不同组件、单元、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

本发明中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种声纹识别方法，该声纹识别方法的执行主体可以是本发明实施例提供的声纹识别装置，或者集成了该声纹识别装置的音箱，其中该声纹识别装置可以采用硬件或者软件的方式实现。

本发明实施例将从声纹识别装置的角度进行描述，该声纹识别装置具体可以集成在音箱中。该声纹识别包括：获取用户的语音信息；检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息；将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作。其中该声纹识别装置也可以集成在智能手机或平板电脑等设备上。

语音是人的自然属性之一，由于说话人发声器官的生理差异以及后天形成的行为差异，每个人的语音都带有强烈的个人色彩，这使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点，如语音是人的固有特征，不会丢失或遗忘；语音信号的采集方便，系统设备的成本低；另外利用电话网还可以实现远程客户服务等等。

近年来，利用语音特征进行身份鉴别的说话人识别在生物认证技术领域中越来越受到研究者的关注。

在全球化、信息化、数字化和网络化的今天，人们对智能化产品应用越来越重视。在众多生物识别技术中，除了早已使用多年的指纹识别、虹膜识别，近期兴起的人脸识别技术被用于公司打卡、软件系统登录、家庭或公共场所的安防等多个场景，而语音识别技术的用途更是广泛，机器人、智能家居产品、无人车等等。比如苹果的iPhoneX 手机搭载Face ID（又称面容ID 技术）面部识别技术，可以用人脸直接解锁屏幕。这无疑是当今世界的一项重大技术革新，其为继指纹识别、虹膜识别以及声音识别等生物识别技术之后，以其独特的方便、经济及准确性而越来越受到世人的瞩目。

随着相关算法的精进，以上生物识别技术的准确率已经可以与人类相媲美。而在这些识别技术愈加成熟之时，越来越多的人将目光放在另外一种生物识别技术上——声纹识别。按照技术的准确性排列，应该是声纹大于人脸。因而声纹在辨识的专业性上大大超过了人脸，所以在商用上也是有一定的价值的。

声纹识别，也称作说话人识别，是一种通过声音判别说话人身份的技术。人在讲话时使用的发声器官舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，因而声纹具有唯一性。

在应用上，声纹识别更大的应用前景在于安防领域，比如刑侦破案、门禁、银行交易等等。此外，在智能家居等领域，为了安全，也为了更好的智能体验，比如在人声鼎沸的情境中准确识别哪句话是主人下达的命令等，声纹识别技术也就渐渐受到了重视。

相对于其他生物识别技术，在安全性上，声纹识别的唯一性名列前茅的，纵然模仿声音类似，但也是能够分辨出来的。除了更高的安全指数，与其他生物识别技术相比，声纹识别还有着其他的优势：

1、蕴含声纹特征的语音获取方便、自然；

2、获取语音的成本低廉，使用简单，像麦克风、通讯设备等皆可；

3、适合远程身份确认；

4、声纹辨认和确认的算法复杂度低；

5、配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率。

请参阅图1，图1 为本发明实施例提供的声纹识别方法的第一种流程示意图。本发明实施例提供的声纹识别方法，具体流程可以如下：110，获取用户的语音信息。

先通过音频设备获取用户的语音信息，具体的可以通过音频设备如麦克风实时获取用户的语音信息。

120，检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息。

获取用户的语音信息后，检测该语音信息是否包括唤醒词。唤醒词可以用户自己预先设定好，如“长江一号启动”等。例如，初始状态，设备为待机状态，检测到语音信息中包括唤醒词，则进入唤醒状态，不再是待机状态，而是正常工作状态。此外，还同时获取该语音信息的声纹特征信息。

130，将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作。

将该声纹特征信息与预先存储的预存声纹模型信息进行匹配，若匹配成功，则说明该用户为有权限的用户，后续接收到该用户的操作指令后，根据该操作指令进行操作。

若匹配不成功，则系统自动为新用户建立声纹模型，并插入预存的模型库，替换掉其中一个比较老的模型，从而完成新用户自动化识别注册。

系统能识别用户身份，对用户个性化操作记忆，实现产品的人性化。

请参阅图2，图2 为本发明实施例提供的声纹识别方法的第二种流程示意图。本发明实施例提供的声纹识别方法中，所述将所述声纹特征信息与预存声纹模型信息进行匹配的步骤，具体流程可以如下：

131，根据所述语音信息中唤醒词对应的起始点和终点，得到唤醒词语音。

132，获取所述唤醒词语音的声纹特征信息，并与预存声纹模型信息数据库中的多个预存声纹模型信息匹配，得到多个匹配值；

133，从所述多个匹配值中选出匹配值最高的作为目标匹配值；

134，若所述目标匹配值大于预设阈值，则判断为匹配成功。

135，若所述目标匹配值不大于预设阈值，则将所述唤醒词语音对应的声纹特征信息存入数据库作为新的预存声纹模型信息。

本实施例为非注册式的声纹识别方法，是以声纹识别技术为主，涵盖了唤醒词技术和语音识别技术等多项技术的综合。实现了说话人超短时领域的声纹识别；其次该声纹识别方法为非注册的，自动辨识老用户身份，自动发现新用户并生成新模型，使用极其方便，快捷。本实施例提供的方法关键在于新用户发现的识别率，不同信道下辨识能力的鲁棒性。技术不断发展的今天，积极提升算法的识别性能，提高系统的辨识能力，发现更好的新算法，增强不同信道下的稳定性，提升该方法的使用价值。

请参阅图3，图3 为本发明实施例提供的声纹识别方法的第三种流程示意图。本发明实施例提供的声纹识别方法中包括了语音身份认证自动注册方法。该语音身份认证自动注册方法主要是针对新用户首次使用的情况，

具体包括如下步骤：

210，获取用户的语音信息。

220，检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时将唤醒语音终点和长度输入到声纹识别模块。

230，进入声纹识别模块后，会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分，此时声纹库中声纹模型个数和每个声纹模型的参数初始化阶段设置。

240，获取声纹得分后，将此分数与内设的阈值进行比较，当小于阈值的时，则判定为声纹库外未注册的语音，此处的内设阈值也是初始化的时候设定的。

250，对库外的唤醒语音，系统会对此语音建立新的声纹模型，同时替换掉声纹库中一个模型，以保持库中模型数量不变，替换的规则为声纹库中使用次数最少的模型。

至此，身份认证阶段已经完成,即为声纹库中添加新用户的声纹模型的流程。

请参阅图4，图4 为本发明实施例提供的声纹识别方法的第四种流程示意图。本发明实施例提供的声纹识别方法中包括了身份识别记忆方法，该身份识别记忆方法针对已注册的用户再次唤醒智能音箱时使用。具体包括如下步骤：

310，获取用户的语音信息；

320，检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取唤醒语音终点和长度信息输入到智能声纹识别模块。

330，然后系统会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分并获得最高得分及其对应的声纹模型。

340，获取声纹得分后，将最高得分与内设的阈值进行比较，当大于内设阈值的时，先判定唤醒语音为库内目标声纹模型的语音，最高得分对应的声纹模型即为目标说话人模型，从而获取说话人的身份信息。

350，用户对唤醒后的音箱，做个性化操作和使用时，系统会将这些个性化的信息同说话人的身份信息绑定和记忆，从而实现第二个阶段的身份识别记忆功能。

本发明成功的引入了声纹识别技术对用户身份进行识别，并将身份信息同个性化信息完成绑定，又将声纹识别技术与唤醒词技术结合，实现无需主动声纹注册，即可完成高精准的用户身份识别方案。

请参阅图5，图5 为本发明实施例提供的声纹识别方法的第五种流程示意图。本发明实施例提供的声纹识别方法，具体包括如下步骤：

用户在唤醒智能音箱后，系统会根据唤醒词的用户声纹特性自动判定用户信息，自动进入不同两个过程，分别为语音身份认证自动注册过程和身份识别记忆过程。其中语音身份认证自动注册过程包括：用户辨识为集合外，自动生成该用户的新模型。身份识别记忆包括：用户辨识为集合内，自动返回其个性化信息。

若新用户首次唤醒智能音箱，对声纹库中的所有模型打分，获得所有得分最大值，且最大值仍然会低于内设集合内外判定阈值，系统即进入语音身份认证自动注册，用户被辨识为集合外，自动生成该用户的新模型；

若老用户再次唤醒智能音箱的，同样对声纹库中的所有模型打分，获得所有得分最大值，且最大值仍然会高于内设集合内外判定阈值，系统即进入语音身份识别记忆过程，用户被辨识为集合内，自动返回该用户的个性化信息；

在用户完成语音身份识别记忆过程，表明系统已完成身份认证，当音箱再次接受声纹重置命令，系统执行重置流程，将声纹库以及所有的个性化信息清空。

请参阅图6，图6 为本发明实施例提供的声纹识别方法的第六种流程示意图。本发明实施例提供的声纹识别方法中包括语音身份认证自动注册过程，具体包括如下步骤：

421，用户唤醒智能音响后，系统内置唤醒技术会将唤醒词的语音的起始端点，传递给声纹识别模块。

422，获得唤醒语音后，对唤醒语音进行预处理。

预处理包括：静音检测和去除，以及提取 13 维的梅尔倒谱系数极其一阶差分总共26 维信息作为后端处理的特征参数。

423，获得特征参数，通过通用背景模型（UBM）通过最大后验概率的自适应生成表征用户身份特性的高斯混合模型（GMM）。

424，获取模型参数后，将新的声纹模型导入模型库，替换掉未使用时间最长的模型，维持声纹库中的模型数目不变。

425，语音身份认证自动注册过程完成。

请参阅图7，图7 为本发明实施例提供的声纹识别方法的第七种流程示意图。本发明实施例提供的声纹识别方法中包括身份识别记忆过程，具体包括如下步骤：

431，用户唤醒智能音响后，系统内置唤醒技术会将唤醒词的语音的起始端点，传递给声纹识别模块。

432，获得唤醒语音后，对唤醒语音进行预处理。

预处理包括：静音检测和去除，以及提取13 维的梅尔倒谱系数极其一阶差分总共26维信息作为后端处理的特征参数。

433，语音多帧特征参数通过UBM 和模型库中所有的GMM 似然函数打分，分别利用每个GMM 得分减去UBM 的得分作为各自模型的最终得分。

434，取模型库中最终得分最大值，输出所对应的模型标号和信息。

435，至此身份识别记忆过程完成。

请参阅图8，图 8 为本发明实施例提供的声纹识别方法的第八种流程示意图。本发明实施例提供的声纹识别方法中系统重置流程为，系统先识别为声纹库集合内说话人用户，然后再等待接受系统重置命令。用户说出系统重置命令词，系统语音识别模块识别关键词文本信息，成功辨识重置命令。接受完命令后，系统开启重置功能，清空声纹库信息，恢复出厂设置。系统重置完成。

请参阅图9，图9 为本发明实施例提供的语音进行预处理特征提取过程的示意图。本发明实施例提供语音进行预处理特征提取过程中，梅尔倒谱系统数提取过程可分为预加重、端点检测、分帧、加窗、快速傅里叶变换(FFT)、梅尔频率滤波和离散余弦变换(DCT)等主要的步骤。

预加重：预加重的目的是将更为有用的高频部分的频谱进行提升，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于进行频谱分析或声道参数分析。

端点检测：对输入语音信号进行判断，从背景噪声中准确找出语音段的起始点和终止点。

分帧：由于语音信号的准平稳特性，只在短时段上才可看做是一个平稳过程，若用对平稳过程的分析方法来分析，必须将信号划分为一个一个的短时段，每一短时段称为一帧，每一帧的长度大概为10 一30ms。分帧采用连续分段的方法，但为了使帧与帧之间平滑过渡，一般采用交叠分段的方法，即每一帧的帧尾与下一帧的帧头是重叠的。

加窗：为了减小语音帧的截断效应，降低帧两端的坡度，使语音帧的两端不引起急剧变化而平滑过渡到零，就要让语音帧乘以一个窗函数。目前常用的窗函数为汉明窗(即升余弦窗)：

其中N为一帧的采样点数。

快速傅里叶变换(FFT)：由于离散傅立叶变换(DFT)的运算量较大，可以采用高效的快速傅立叶变换(FFT)来把语音帧由时域变换到频域。

梅尔频率滤波（Mel 频率滤波）：把上步变换得到的离散频谱用序列三角滤波器进行滤波处理，得到一组系数m1，m2……．。该滤波器组的个数p由信号的截止频率决定，所有滤波器总体上覆盖从OHz到奈奎斯特频率，即采样率的二分之一。

和离散余弦变换(DCT)：把上一步获得的mel 频谱变换到时域，其结果就是MFCC系数。因为Mel 频谱系数都是实数，可以使用DCT 把它们变换到时域。MFCC 倒谱系数的计算公式如下：

，

其中p为滤波器组个数，N 为一帧的采样点数。

其中，代表用户身份特性的声纹模型，通过将事先存储的高斯混合背景模型(UBM)通过最大后验概率(MAP)的自适应方法获得，被称为高斯混合模型（GMM），具体流程如图9，其中所涉及算法如下所示：

高斯混合模型公式如下：

其中，为维语音特征矢量；为高斯混合模型分量，它是维

高斯分布函数；为对应分量的加权系数；为高斯混合模型中分量的个数。对于和，它们满足以下式子

其中为均值向量，为协方差矩阵。

整个高斯混合模型(GMM)由各混合分量的均值矢量、协方差矩阵以及混合权重来描述，用来表示该模型，有：

UBM 其实就是一个大型的GMM 模型，用来训练表示与说话人无关的特征分布。它的训练数据是某一信道下的所有人的语音数据，而不是想目标模型只是反映某一个人的特征分布。

从训练后的UBM 模型参数通过最大后验概率估计(MAP)的方法自适应来更新其参数进而导出目标说话人的GMM 模型。

这种自适应算法分为两步：第一步，与EM 算法的E-Step 一样，对UBM的每个混合成分计算目标说话人训练语音的充分统计的估计；第二部与EM算法不同，这些新的充分估计与老的充分估计用一个语料相关的混合系数结合起来。具体计算方法：

第一步：

给定GMM 模型和目标说话人的训练矢量，首先算出训练矢量在UBM 混合成员中的概率分布。即对第个混合成员：

然后利用来计算新的混合加权值、均值矢量和均方矢量，结果分别如下：

这里与EM算法中的E-Step一样。

最后，这些由训练数据产生的新的充分统计量用来更新UBM 的第i 个混合成员的充分统计量(新的权重、均值和方差)：

其中是自适应系数，用来控制新的和老的估计量之间的平衡，分别控制权重，均值，方差。

自适应系数定义为

是一个固定参数的因子。通常在GMM—UBM系统中采用一用了一种简单的自适应方法：

其中r 通常取10~20，本系统选择14。

最后将GMM 模型的均值方差权重等信息存入声纹库。声纹库中最新生成或者使用的放到声纹库队列前面，按照使用时间依次排序。每次有新的模型生成，自动替换掉队列尾部的模型，并将新生成的模型放到队头，其他模型依次后移，保持了队列的时间顺序，同时维持模型库中的声纹模型个数的保持不变。同理，在身份识别记忆过程中，虽然不生成新的模型，但声纹库中模型会被辨识选中，此时，将该模型放到声纹库队列的队头，其它的模型依次后台，维持模型库的使用时间队列顺序。

在身份识别记忆过程中，对唤醒词语音进行预处理、静音检测和去除、提取26维梅尔倒谱特征系数MFCC 作为特征参数，然后将语音特征参数依次对声纹库中每个GMM 和高斯混合背景模型UBM 进行打分，每个GMM 和UBM组成一对，利用计算对数似然比的方法获得本使用者的分数。其中对数似然比打分采用如下打分公式：

其中代表声纹库中用户高斯混合模型，表示高斯混合背景模型。

然后选取声纹库中所有模型的最大得分，若得分大于阈值，最大的得分所对应的模型为此次唤醒词的目标说话人。

由上可知，本发明实施例提供的声纹识别方法，包括：获取用户的语音信息；检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息；将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作。可以提高声纹识别的安全性。

请参阅图11，图11 为本发明实施例提供的声纹识别装置的第一种结构示意图。其中该声纹识别装置500 包括语音信息获取模块510、检测模块520 和匹配模块530。

语音信息获取模块510，用于获取用户的语音信息。

检测模块520，用于检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息。

匹配模块530，用于将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作操作。

请参阅图12，图 12 为本发明实施例提供的声纹识别装置的第二种结构示意图。其中该匹配模块530 包括唤醒词获取子模块531、匹配值获取子模块532、目标匹配值获取子模块533 和判断子模块534。

唤醒词获取子模块531，用于根据所述语音信息中唤醒词对应的起始点和终点，得到唤醒词语音；

匹配值获取子模块532，用于获取所述唤醒词语音的声纹特征信息，

并与预存声纹模型信息数据库中的多个预存声纹模型信息匹配，得到多个匹配值；

目标匹配值获取子模块533，用于从所述多个匹配值中选出匹配值最高的作为目标匹配值；

判断子模块534，用于若所述目标匹配值大于预设阈值，则判断为匹配成功。

本实施例为非注册式的声纹识别装置，是以声纹识别技术为主，涵盖了唤醒词技术和语音识别技术等多项技术的综合。实现了说话人超短时领域的声纹识别；其次该声纹识别方法为非注册的，自动辨识老用户身份，自动发现新用户并生成新模型，使用极其方便，快捷。本实施例提供的装置关键在于新用户发现的识别率，不同信道下辨识能力的鲁棒性。技术不断发展的今天，积极提升算法的识别性能，提高系统的辨识能力，发现更好的新算法，增强不同信道下的稳定性，提升该方法的使用价值。

在一些实施例中，该装置还包括打分模块、比较模块和替换模块。

打分模块，用于进入声纹识别模块后，会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分，此时声纹库中声纹模型个数和每个声纹模型的参数初始化阶段设置。

比较模块，用于获取声纹得分后，将此分数与内设的阈值进行比较，当小于阈值的时，则判定为声纹库外未注册的语音，此处的内设阈值也是初始化的时候设定的。

替换模块，对库外的唤醒语音，系统会对此语音建立新的声纹模型，同时替换掉声纹库中一个模型，以保持库中模型数量不变，替换的规则为声纹库中使用次数最少的模型。

在一些实施例中，该装置还包括打分模块、比较模块和绑定记忆模块。

打分模块，用于然后系统会将唤醒语音的声纹特征对声纹库中已经存在的模型进行打分并获得最高得分及其对应的声纹模型。

比较模块，用于获取声纹得分后，将最高得分与内设的阈值进行比较，当大于内设阈值的时，先判定唤醒语音为库内目标声纹模型的语音，最高得分对应的声纹模型即为目标说话人模型，从而获取说话人的身份信息。

绑定记忆模块，用于用户对唤醒后的音箱，做个性化操作和使用时，系统会将这些个性化的信息同说话人的身份信息绑定和记忆，从而实现第二个阶段的身份识别记忆功能。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本发明实施例中，声纹识别装置与上文实施例中的声纹识别方法属于同一构思，在声纹识别装置上可以运行声纹识别方法实施例中提供的任一方法，其具体实现过程详见声纹识别方法的实施例，此处不再赘述。

本发明实施例还提供一种音箱。音箱包括处理器以及存储器。其中，处理器与存储器电性连接。

处理器是音箱的控制中心，利用各种接口和线路连接整个音箱的各个部分，通过运行或加载存储在存储器内的计算机程序，以及调用存储在存储器内的数据，执行音箱的各种功能并处理数据，从而对音箱进行整体监控。

存储器可用于存储软件程序以及单元，处理器通过运行存储在存储器的计算机程序以及单元，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据音箱的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

在本发明实施例中，音箱中的处理器会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器中，并由处理器运行存储在存储器中的计算机程序，从而实现各种功能，如下：

获取用户的语音信息；

进入唤醒状态，同时获取所述语音信息的声纹特征信息；

接收控制指令并根据所述控制指令进行操作。

本发明实施例还提供一种存储介质，存储介质存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行上述任一实施例中的应用程序管控方法，比如：获取用户的语音信息；检测所述语音信息是否包括唤醒词，若所述语音信息包括唤醒词，则进入唤醒状态，同时获取所述语音信息的声纹特征信息；将所述声纹特征信息与预存声纹模型信息进行匹配，若匹配成功，则接收控制指令并根据所述控制指令进行操作。

在本发明实施例中，存储介质可以是磁碟、光盘、只读存储器（Read Only Memory，ROM）、或者随机存取记忆体（Random Access Memory，RAM）等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本发明实施例的声纹识别方法而言，本领域普通测试人员可以理解实现本发明实施例声纹识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，如存储在音箱的存储器中，并被该音箱内的至少一个处理器执行，在执行过程中可包括如音频播放方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种声纹识别方法，其特征在于，包括：

获取用户的语音信息；

进入唤醒状态，同时获取所述语音信息的声纹特征信息；

接收控制指令并根据所述控制指令进行操作。

2.如权利要求1 所述的声纹识别方法，其特征在于，所述将所述声

纹特征信息与预存声纹模型信息进行匹配的步骤，具体包括：

根据所述语音信息中唤醒词对应的起始点和终点，得到唤醒词语音；

获取所述唤醒词语音的声纹特征信息，并与预存声纹模型信息数据库

中的多个预存声纹模型信息匹配，得到多个匹配值；

从所述多个匹配值中选出匹配值最高的作为目标匹配值；

若所述目标匹配值大于预设阈值，则判断为匹配成功。

3.如权利要求2 所述的声纹识别方法，其特征在于，还包括：

若所述目标匹配值不大于预设阈值，则将所述唤醒词语音对应的声纹

特征信息存入数据库作为新的预存声纹模型信息。

4.如权利要求3 所述的声纹识别方法，其特征在于，所述将所述唤

醒词语音对应的声纹特征信息存入数据库作为新的预存声纹模型信息的步

骤，包括：

对所述唤醒词语音进行预处理，提取梅尔倒谱系数及其一阶差分作为

后端处理的特征参数；

通用背景模型根据所述特征参数通过最大后验概率的自适应生成高

斯混合模型；

将高斯混合模型导入预存声纹模型信息数据库作为新的预存声纹模

型信息。

5.如权利要求2 所述的声纹识别方法，其特征在于，所述获取所述

唤醒词语音的声纹特征信息，并与预存声纹模型信息数据库中的多个预存

声纹模型信息匹配，得到多个匹配值的步骤，包括;

后端处理的特征参数；

将所述特征参数输入多对通用背景模型和高斯混合模型分别得到多

对第一匹配值和第二匹配值；

将每对中的第二匹配值减去第一匹配值，得到多个第三匹配值。

6.如权利要求4 或5 所述的声纹识别方法，其特征在于，对所述唤

醒词语音进行预处理，提取梅尔倒谱系数及其一阶差分作为后端处理的特

征参数的步骤，包括：

对所述唤醒词语音预加重、端点检测、分帧、加窗、快速傅里叶变换、

梅尔频率滤波和离散余弦变换，进而提取13维的梅尔倒谱系数及其一阶差

分总共26 维信息作为后端处理的特征参数。

7.如权利要求1 所述的声纹识别方法，其特征在于，所述接收控制

指令并根据所述控制指令进行操作的步骤，包括：

接收用户的语音信息，并从所述语音信息中提取关键字；

若所述关键字与预存声纹重置控制指令匹配，则将预存声纹模型信息

删除。

8.一种声纹识别装置，其特征在于，包括：

语音信息获取模块，用于获取用户的语音信息；

9.如权利要求1 所述的声纹识别装置，其特征在于，所述匹配模块

包括：

唤醒词获取子模块，用于根据所述语音信息中唤醒词对应的起始点和

终点，得到唤醒词语音；

匹配值获取子模块，用于获取所述唤醒词语音的声纹特征信息，并与

预存声纹模型信息数据库中的多个预存声纹模型信息匹配，得到多个匹配

值；

目标匹配值获取子模块，用于从所述多个匹配值中选出匹配值最高的

作为目标匹配值；

判断子模块，用于若所述目标匹配值大于预设阈值，则判断为匹配成

功。

10.一种存储介质，其上存储有计算机程序，其特征在于，当所述计

算机程序在音箱上运行时，使得所述音箱执行如权利要求1 至7 任一项所

述的声纹识别方法。

11.一种音箱，包括处理器和存储器，所述存储器有计算机程序，其

特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1

至7任一项所述的声纹识别方法。