CN110517696A

CN110517696A - 一种可植入式离线声纹识别系统

Info

Publication number: CN110517696A
Application number: CN201910766034.4A
Authority: CN
Inventors: 任超; 钟亚希; 陈志骏
Original assignee: Effective Software Technology (shanghai) Co Ltd
Current assignee: Effective Software Technology (shanghai) Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-29

Abstract

本发明公开了一种可植入式离线声纹识别系统，包括：语音的前端预处理模块：通过对语音的预处理，降低接收语音中干扰识别结果的因素，提高声纹识别质量；声纹注册模块：提供给用户进行注册时候使用，通过对经过前端预处理模块预处理过的用户注册语音进行特征提取，并采用自定义加密方式保存用户声纹特征，从而建立用户声纹模型；声纹验证模块：用户使用声纹验证时，根据经过前端预处理模块预处理过的录入的用户语音而提取的特征值，跟模型库中的声纹模型特质进行比对，得到识别结果，本发明能够轻松植入到现行通用系统，并且在离线状态下快速、准确、有效的声纹注册、识别功能。从而拓宽声纹识别的应用场景，让声纹识别技术得到更广阔的应用。

Description

一种可植入式离线声纹识别系统

技术领域

本发明涉及一种识别系统，具体是一种可植入式离线声纹识别系统。

背景技术

声纹识别(Vbiceprint Recognition，VR)，又常被称为说话人识别(SpeakerRecognition,SR)，是一种根据一个人说话的声音来判别他身份的技术。声纹识别是语音识别的一种特殊形式。声纹识别是从语音信号中找出识别人的个性因素，关键问题是不同识别人之间的特性差异；语音识别则是从语音信号中找出不同识别人的共同特性，以识别出识别人说出的内容，关键问题是找出共性。

声纹识别与更常见的指纹识别、虹膜识别等一样属于生物识别技术的领域，具有使用方便，不会遗忘丢失等优点。采用语音来判定和辨认一个人的身份与其它形式的生物识别技术相比，具有很多的优势：

(1)语音数据获取简单便捷，不需要昂贵的设备，像指纹扫描仪、虹膜扫描仪等价格都比较贵，而语音输入只需要简单的声音输入装备；

(2)认证方法简便，接受程度高，用户只需说几句话就可以了，不必像指纹识别、虹膜识别等识别技术那样，需要把手、眼睛靠近扫描设备；

(3)支持远程识别，在基于网络的识别应用中，如电子银行等，与其他生物识别技术相比，更便于应用。

目前，声纹识别已经渐渐的走入了实际的应用，AT&T应用声纹识别技术研制出了智慧卡(Smart card)，已应用于自动提款机。欧洲电信联盟在电信、金融以及相结合的领域使用声纹识别技术，在l 998年成功的完成了CAVE(Caller Vermcation in Banking andTelecommunication)计划，同一年又启动了PICASSO(Pioneering Call Authenticationfor Secure Service Operation)计划，在电信网上完成了声纹识别技术的应用。与此同时，摩托罗拉和签证等公司成立了V型商业联盟，以实现电子交易便捷化、自助化、自动化为目标，声纹识别技术是一个重要的组成部分。ITT公司的研发的Speaker Key实现了电话声音的个人身份确认，T-NETIX公司的Speak EZ，另外还有Keyware公司的Vbice Guardian等许多公司和科研机构提供了很多方便使用的SDK。

尽管声纹识别技术得到了比较快速的发展，但是在移动应用领域，却很少有相应的应用。另外，因为声纹识别系统的训练环境和识别环境常常不一致，而且往往存在比较大的差别，使得提取的语音特征发生了变化，从而不能很好的匹配训练模型，识别的性能常常达不到要求，甚至系统的整体识别率会迅速的下降。所以，如何提高声纹识别系统的抗干扰能力和鲁棒性是声纹识别技术面临的主要挑战。

此外，在目前绝大多数声纹识别系统中，都不能脱离互联网而独立存在，例如实际情况中，用户手机可能经常出现网络状态不佳，从而导致声纹识别速度过慢，或者识别失败等问题的产生。而且识别后的用户信息保护问题也是目前声纹识别系统忽略的一个问题，如果发生泄漏可能对用户造成严重的财产损失。

因此，需要一种可植入式的、可离线使用的，且能够严格保护用户身份信息的声纹识别系统，使得声纹识别系统应用范围更加广泛，系统使用的准确性与安全性更高。

发明内容

本发明的目的在于提供一种可植入式离线声纹识别系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种可植入式离线声纹识别系统，包括：

语音的前端预处理模块：通过对语音的预处理，降低接收语音中干扰识别结果的因素，进而提高声纹识别质量；

声纹注册模块：提供给用户进行注册时候使用，通过对经过前端预处理模块预处理过的用户注册语音进行特征提取，并采用自定义加密方式保存用户声纹特征，从而建立用户声纹模型；

声纹验证模块：用户使用声纹验证时，根据经过前端预处理模块预处理过的录入的用户语音而提取的特征值，跟模型库中的声纹模型特质进行比对，从而得到识别结果。

作为本发明的进一步技术方案：所述预处理包含以下步骤：a)数据采集；b)预加重；c)分帧加窗；d)端点检测。

作为本发明的进一步技术方案：所述步骤a)具体是：数字采集系统对音频源进行记录，形成语音文件。

作为本发明的进一步技术方案：所述步骤b)具体是：采用FIR高通滤波器来提升高频部分，FIR高通滤波器的传递函数为H(z)＝1-az^-1，其中，a为预加重系数，取值范围为0.9<a<1.0，对n时刻的语音信号的采样值s(n)，经过FIR预加重滤波器的传递函数表示的预加重滤波器后，可得预加重后的语音信号为：y(n)＝s(n)-ax(n-1)。

作为本发明的进一步技术方案：所述步骤c)采用汉明窗的方法对语音信号进行加窗分帧处理，汉明窗函数如下：

作为本发明的进一步技术方案：所述步骤d)采用综合短时能量和短时过零率两种特征来进行检测，短时能量的计算公式如下：式中，N为信号帧的长度，n表示此时计算的是第几帧信号的能量，短时过零率是指每一帧信号中波形穿过零轴的次数，对于离散的信号，两个相邻的采样点如果正负符号不同则定义为过零了，因此通过信号符号变化次数来计算信号通过零值的次数，在单位时间内信号穿过零值的次数即过零率，定义第n个语音帧信号x_n(m)的短时过零率为ZCR(n)，其计算公式如下：其中sgn为符号函数，定义如下：首先，设置一个较高的短时能量阈值T₁，通过该阈值来对语音段进行初始判定，此时判定的语音段为能量较强的浊音段；接着根据背景噪声的短时能量确定另一个短时能量阈值T₂，此时划分的语音段为第一级判别的语音段信号，其次，根据背景噪声的短时过零率设置另一个阈值T₃，利用该阈值判断语音中的清音和尾音段，进而完成端点检测的二级判断，最终根据两级判断结果，完成语音的端点检测。

作为本发明的进一步技术方案：所述声纹注册模块的注册过程是：用户在第一次使用过程中，通过录入自己的声音，形成自己独一无二的声纹模型，并保存下来，进而完成真个注册过程，声纹注册过程中，不需要连网，声纹模型保存到本地，保存本地的声纹模型通过程序进行加密后进行保存，由于保存用户声纹模型时，只保存用户声纹特征，不保存用户语音相关信息，即使在用户得到解密方法，对声纹模型进行解密得到的文件，也不能进行反编译，并且不能够转换成可播放音频。

作为本发明的进一步技术方案：所述声纹验证具体是：通过对用户录入的语音文件进行特征向量的提取，跟对应声纹模型提取的注册模型声纹特征向量进行模式匹配，从而得到匹配结果，模式匹配的方法是应用概率最大化匹配算法来实现的，识别函数如下：通过对待识别的语音信号提取出的特征参数，将其与声纹模型特征向量进行特征概率匹配，匹配结果超过设定阈值，即判断录入语音的用户跟比对模型对应的用户是同一个人，否则认为不是同一个人，设定的阈值范围为-15至+15。

与现有技术相比，本发明具有以下有益效果：本发明能够轻松植入到现行通用系统，并且在离线状态下快速、准确、有效的声纹注册、识别功能。从而拓宽声纹识别的应用场景，让声纹识别技术得到更广阔的应用。

附图说明

图1为本发明的系统框架图。

图2为本发明的前端处理流程图。

图3为声纹注册流程图。

图4为声纹验证流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，一种可植入式离线声纹识别系统，包括：

其中：声纹识别过程中，对录入语音的预处理效果，对声纹识别结果有一定的影响，因此在声纹注册、识别过程中，首先需要对录入的音频进行前端处理操作。前端处理流程如图2所示，主要包含一下步骤：

a)数据采集；数字采集系统对音频源进行记录，形成语音文件，

b)预加重；为使得数字语音信号的频率谱变得比较平坦，便于对语音信号进行分析。本发明采用FIR高通滤波器来提升高频部分，FIR预加重滤波器的传递函数为：

H(z)＝1-az^-1

其中，a为预加重系数，取值范围为0.9<a<1.0，一般取0.935～0.97之间。

对n时刻的语音信号的采样值s(n)，经过FIR预加重滤波器的传递函数表示的预加重滤波器后，可得预加重后的语音信号为：

y(n)＝s(n)-ax(n-1)

c)分帧加窗；语音信号实质上是一个时变信号，要想对它进行分析处理，一般假定10ms～30ms内的语音信号是短时平稳的，对语音信号的后续分析处理都是在这个短时平稳的假设下进行的。对语音信号进行加窗分帧处理后，就可以得到短时平稳的语音信号。本发明采用汉明窗的方法对语音信号进行加窗分帧处理，汉明窗函数如下：

d)端点检测；端点检测就是判断语音段中字词的起始点和终结点，其目的是为了正确的区分出有效语音信号和噪声信号，从而去除噪声。端点检测的方法采用综合短时能量和短时过零率两种特征来进行检测。

短时能量的计算公式如下：

式中，N为信号帧的长度，n表示此时计算的是第几帧信号的能量。

短时过零率是指每一帧信号中波形穿过零轴的次数。对于离散的信号，两个相邻的采样点如果正负符号不同就可以说明过零了，因此可以通过信号符号变化次数来计算信号通过零值的次数，在单位时间内信号穿过零值的次数即过零率。

定义第n个语音帧信号x_n(m)的短时过零率为ZCR(n)，其计算公式如下：

其中sgn为符号函数，定义如下：

首先，设置一个较高的短时能量阈值T₁，通过该阈值来对语音段进行初始判定，此时判定的语音段为能量较强的浊音段；接着根据背景噪声的短时能量确定另一个短时能量阈值T₂.此时划分的语音段为第一级判别的语音段信号。其次，根据背景噪声的短时过零率设置另一个阈值T₃，利用该阈值判断语音中的清音和尾音段。进而完成端点检测的二级判断，最终根据两级判断结果，完成语音的端点检测。

声纹注册过程，即用户在第一次使用过程中，通过录入自己的声音，形成自己独一无二的声纹模型，并保存下来，进而完成真个注册过程。声纹注册过程中，不需要连网，声纹模型保存到本地。

保存本地的声纹模型通过程序进行加密后进行保存，即使在用户得到解密方法，对声纹模型进行解密得到的文件，也不能进行反编译，并且不能够转换成可播放音频。因为，在保存用户声纹模型时，只保存用户声纹特征，不保存用户语音相关信息。

声纹注册流程，主要包含前端处理、声纹特征的提取，生成注册声纹模型，最后保存声纹模型到本地。

声纹验证，即判断说话人跟比对模型对应的用户是否是同一个人。通过对用户录入的语音文件进行特征向量的提取，跟对应声纹模型提取的注册模型声纹特征向量进行模式匹配，从而得到匹配结果。

模式匹配的方法是应用概率最大化匹配算法来实现的，识别函数如下：

通过对待识别的语音信号提取出的特征参数，将其与声纹模型特征向量进行特征概率匹配，匹配结果超过设定阈值，即判断录入语音的用户跟比对模型对应的用户是同一个人，否则认为不是同一个人。设定的阈值范围为-15至+15。在实际使用过程中，根据用户要求进行设定。

声纹验证流程，主要包含对声音源的采集、前端处理、提取待验证语音特征向量、从语音模型文件夹中选取比对声纹模型、提取注册语音模型中的特征向量、模式匹配，最终得到声纹验证结果。

实施例2，在实施例1的基础上，声纹模型进行本地保存，加快的模型的读取速度，使得声纹识别速度进一步的提高。缩短了系统的整体响应时间。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种可植入式离线声纹识别系统，其特征在于，包括：

2.根据权利要求1所述的一种可植入式离线声纹识别系统，其特征在于，所述预处理包含以下步骤：a)数据采集；b)预加重；c)分帧加窗；d)端点检测。

3.根据权利要求2所述的一种可植入式离线声纹识别系统，其特征在于，所述步骤a)具体是：数字采集系统对音频源进行记录，形成语音文件。

4.根据权利要求3所述的一种可植入式离线声纹识别系统，其特征在于，所述步骤b)具体是：采用FIR高通滤波器来提升高频部分，FIR高通滤波器的传递函数为H(z)＝1-az^-1，其中，a为预加重系数，取值范围为0.9<a<1.0，对n时刻的语音信号的采样值s(n)，经过FIR预加重滤波器的传递函数表示的预加重滤波器后，可得预加重后的语音信号为：y(n)＝s(n)-ax(n-1)。

5.根据权利要求4所述的一种可植入式离线声纹识别系统，其特征在于，所述步骤c)采用汉明窗的方法对语音信号进行加窗分帧处理，汉明窗函数如下：

6.根据权利要求4所述的一种可植入式离线声纹识别系统，其特征在于，所述步骤d)采用综合短时能量和短时过零率两种特征来进行检测，短时能量的计算公式如下：式中，N为信号帧的长度，n表示此时计算的是第几帧信号的能量，短时过零率是指每一帧信号中波形穿过零轴的次数，对于离散的信号，两个相邻的采样点如果正负符号不同则定义为过零了，因此通过信号符号变化次数来计算信号通过零值的次数，在单位时间内信号穿过零值的次数即过零率，定义第n个语音帧信号x_n(m)的短时过零率为ZCR(n)，其计算公式如下：其中sgn为符号函数，定义如下：首先，设置一个较高的短时能量阈值T₁，通过该阈值来对语音段进行初始判定，此时判定的语音段为能量较强的浊音段；接着根据背景噪声的短时能量确定另一个短时能量阈值T₂，此时划分的语音段为第一级判别的语音段信号，其次，根据背景噪声的短时过零率设置另一个阈值T₃，利用该阈值判断语音中的清音和尾音段，进而完成端点检测的二级判断，最终根据两级判断结果，完成语音的端点检测。

7.根据权利要求1所述的一种可植入式离线声纹识别系统，其特征在于，所述声纹注册模块的注册过程是：用户在第一次使用过程中，通过录入自己的声音，形成自己独一无二的声纹模型，并保存下来，进而完成真个注册过程，声纹注册过程中，不需要连网，声纹模型保存到本地，保存本地的声纹模型通过程序进行加密后进行保存，由于保存用户声纹模型时，只保存用户声纹特征，不保存用户语音相关信息，即使在用户得到解密方法，对声纹模型进行解密得到的文件，也不能进行反编译，并且不能够转换成可播放音频。

8.根据权利要求1所述的一种可植入式离线声纹识别系统，其特征在于，所述声纹验证具体是：通过对用户录入的语音文件进行特征向量的提取，跟对应声纹模型提取的注册模型声纹特征向量进行模式匹配，从而得到匹配结果，模式匹配的方法是应用概率最大化匹配算法来实现的，识别函数如下：通过对待识别的语音信号提取出的特征参数，将其与声纹模型特征向量进行特征概率匹配，匹配结果超过设定阈值，即判断录入语音的用户跟比对模型对应的用户是同一个人，否则认为不是同一个人，设定的阈值范围为-15至+15。