CN113113022A

CN113113022A - 一种基于说话人声纹信息的自动识别身份的方法

Info

Publication number: CN113113022A
Application number: CN202110406400.2A
Authority: CN
Inventors: 吴春国; 陈亮; 吕民轩; 陈心悦; 李世龙
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-13

Abstract

本发明公开了一种基于说话人声纹信息的自动识别身份的方法和存储方法，会议开始前，语音降噪模块录制一段环境音作为会议的背景噪声；语音分割模块将连续的会议录音分隔根据发言间隔分割为录音片段；声纹识别模块以所述语音片段作为输入，输出一段固定长度的向量作为该语音片段的声纹向量；会议说话人识别模块将所述声纹向量和本地声纹库中所有的声纹向量进行比对，选取本地声纹库中相似度最高的一条声纹，根据相似度，判断说话人是否为已注册人；若两条声纹向量的相似度大于阈值0.7，则判断两条声纹属于同一说话人，为已注册人；反之则不属于同一说话人，为未注册人。

Description

一种基于说话人声纹信息的自动识别身份的方法

技术领域

本发明涉及多媒体技术领域，更具体的是，本发明涉及用于说话人声纹信息自动识别身份的方法和存储方法。

背景技术

每个人的声音都有自己的生物特征。声纹识别是一种利用说话人的声音来识别说话人身份的技术。声纹识别技术像指纹识别一样具有高度的安全性和可靠性，可以在任何场合做身份识别。如在刑事调查、银行、证券、保险等金融领域。与传统的识别技术相比，声纹识别的优点是声纹提取过程简单，成本低，具有独特性，不易伪造和造假。

目前常见的会议记录软件专注于录音与语音识别，均未做到说话人识别的功能，往往是只进行会议内容的记录，并不进行说话人的标记。在做会议记录时，通常需要对会议进行录音，由后期的会议整理人员进行手动标记，这样的方式费时费力，而且容易疏漏。

发明内容

本发明设计开发了一种说话基于说话人声纹信息的自动识别身份的方法，自动识别会议中的发言人身份。

本发明的另一个技术问题是，对说话人的身份进行标记，并且声纹识别陌生人并进行存储。

一种基于说话人声纹信息的自动识别身份的方法，

会议开始前，语音降噪模块录制一段环境音作为会议的背景噪声；

语音分割模块将连续的会议录音分隔根据发言间隔分割为录音片段；

声纹识别模块以所述语音片段作为输入，输出一段固定长度的向量作为该语音片段的声纹向量；

会议说话人识别模块将所述声纹向量和本地声纹库中所有的声纹向量进行比对，选取本地声纹库中相似度最高的一条声纹，根据相似度，判断说话人是否为已注册人；

其中，比较两条声纹向量a,b的相似度：

若两条声纹向量的相似度大于阈值0.7，则判断两条声纹属于同一说话人，为已注册人；反之则不属于同一说话人，为未注册人。

作为一种优选，利用说话人发言的间隙将会议录音分割为录音片段。

作为一种优选，会议过程中持续录音，当检测到的分贝数大于背景噪声分贝数的1.5倍时，判定当前有发言人正在发言，当检测到分贝数小于背景噪声分贝数的1.5倍并且持续大于200毫秒时，判定说话人的间隙，进行语音切割。

作为一种优选，所述声纹识别模块提取语音片段的MFCC作为语音特征，将语音特征输入时延神经网络的深度神经网络模型提取第一个全连接层的输出作为声纹向量；

其中，时延神经网络包括：第一时延神经网络层，跨度[-2,2]；第二时延神经网络层，跨度[-1,2]；第三时延神经网络层，跨度[-3,3]；第四时延神经网络层，跨度[7,2]；统计池化层；全连接层；

输入参数为长度为256的23维MFCC语音特征，输出为第一个全连接层的输出，为一个512维向量作为该语音片段的声纹向量。

作为一种优选，当最大相似度小于阈值，认为该段录音片段属于陌生说话人，会将该录音片段标记为陌生人并编号后加入本地声纹库。

作为一种优选，还包括：声纹特征存储与更新模块，用于在运行系统与物理介质间进行声纹特征的读取与存储，声纹特征由身份信息和一条或多条声纹向量构成，以JSON格式存储在物理介质上。

本发明所述的有益效果：自动识别会议中的发言人身份，识别陌生人并标注在会议记录文档中，无需后期人工标注说话人身份，实现会议记录的完全自动化。

附图说明

图1为本发明实施例的工作流程图。

图2为本发明声纹比对和更新算法的流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明技术方案包括：声纹信息读取模块，语音降噪模块，语音分割模块，声纹识别模块，会议说话人识别模块，声纹特征的更新存储模块和会议文档的生成模块。

声纹信息读取模块：作为一种优选，读取声纹信息的方式有两种，分别是从物理介质上直接导入和通过自动会议记录系统实时录制获取。

若选择从物理介质上直接导入，则通过用户指定存储位置上的声纹信息文件导入，系统读取文件中的身份以及对应的声纹向量，在内部声纹库中形成一个说话人身份对应一条或多条声纹向量的映射关系，内部声纹库中的说话人身份是彼此不同的，作为一种优选，可以使用说话人姓名加编号的方式来表示身份。

若选择通过自动会议记录软件实时录制获取声纹信息，首先需要手动输入说话人身份标识例如姓名或者工号，系统会确认本地声纹库中没有重名的身份标识。系统会显示一段文字要求用户朗读并录制一段音频，随后利用声纹识别算法获取该段音频中的声纹作为该用户的声纹信息加入本地声纹库。

语音降噪模块：认为会议中存在的噪声都是平稳的缓慢变化的，这包括会议环境的噪声和麦克风的信道噪声，假设语音中的噪声都是加性噪声，作为优选，使用谱减法进行语音降噪。系统在会议开始前会要求用户录制一段环境音作为会议的背景噪声。

作为一种优选，使用如下谱减算法进行去噪：

D(w)＝P_S(w)-αP_n(w)

with α≥1，and 0＜β＜1

其中D(w)为差值频谱，Ps(w)为带噪语音频谱，Pn(w)为背景噪声频谱。

P′_s(w)为经过谱减法去噪后的音频频谱。α为相减因子，β为频谱下限阈值参数。本实施例中α确定为2，β确定为0.2。

语音分割模块：该模块将连续的会议录音分隔根据发言间隔分割为录音片段。作为一种优选，使用语音活动检测(VAD)方法实时利用说话人发言的间隙将录音分段。

会议过程中系统持续录音，当分贝数大于背景噪声分贝数的α倍时，系统判定当前有发言人正在发言，当分贝数小于背景噪声分贝数的α倍并且持续大于t毫秒时，系统判定发言人停止一段发言，进行语音切割。这里的α和t均为系统内预设好的参数，作为一种优选，分别为1.5和200毫秒。

声纹比对和更新算法的流程图如图2所示。

声纹识别模块：声纹识别模块以语音分割模块输出的一定长度的语音片段作为输入，输出一段固定长度的向量作为该语音片段的声纹信息。

声纹向量是由端到端的声纹识别模型如X-Vector，CTDNN等生成，具体方法是将一段语音片段经过短时傅里叶变换后生成的梅尔倒谱图输入模型，在前向传播的过程中截取中间输出固定位置的参数作为该段语音的声纹向量。

作为一种优选，该声纹识别模块首先提取语音片段的梅尔倒谱系数(MFCC)作为语音特征，将语音特征输入训练好的基于时延神经网络(TDNN)的深度神经网络模型提取第一个全连接层的输出作为声纹信息。

尽管声纹识别是一种现有技术，但是作为一种优选，本发明可以使用的神经网络模型(共八层)每层参数如下：

1.时延神经网络层，跨度[-2，2]

2.时延神经网络层，跨度[-1，2]

3.时延神经网络层，跨度[-3，3]

4.时延神经网络层，跨度[7,2]

5.统计池化层

6.全连接层

7.全连接层

8.Softmax输出层

在训练声纹识别网络时使用完整的网络，而实际提取声纹时仅使用到前6层网络，第七层和第八层的输出被舍弃。

作为一种优选，网络使用了Dropout方法进行训练，具体来说，第一层网络的dropout保留比例设置为1以保留输入特征不变以外，其他网络层均设置dropout保留比例为0.5作为网络参数的正则化。

在一次前向传播的过程中，网络参数根据dropout保留比例随机置零。

P(c)为该神经网络层Dropout保留比例，

为第i层神经网络的第j个参数。

每层网络之前额外加入批量归一化(Batch Normalization)层进行输入数据的归一化。记给定的批量数据集为B，则归一化函数如下所示：

其中

表示归一化后的数据，

和

分别为该批量数据B每一维度对应的均值和方差，∈为平滑指数，设置为0.000001。

网络在训练时输入参数为长度为256的23维MFCC特征，输出为对应说话人的概率，基于开源的VoxCeleb1说话人识别数据集，使用交叉熵作为分类损失进行训练。

网络在实际提取声纹时输入参数为长度为256的23维MFCC特征，输出为第一个全连接层的输出，为一个512维向量作为该语音片段的声纹信息。

系统利用正规化余弦相似度比较两条声纹向量a，b的相似度：

其中a,b是给定的声纹向量，a_i表示向量a第i个维度的数值，b_i表示向量b第i个维度的数值。

该相似度函数的输出的值域为[0,1]。

若两条声纹向量的相似度大于系统设置的阈值0.7，则判断两条声纹属于同一说话人，反之则不属于同一说话人。

会议说话人识别模块：该模块用于在会议进行中实时识别录音片段的说话人身份。

对于一条录音片段，其输入声纹识别模块得到该条语音的声纹向量，将提取到的声纹向量和本地声纹库中所有的声纹向量进行比对，选取本地声纹库中相似度最高的一条声纹，根据相似度是否高于系统设置的阈值分为两种情况：

第一种情况是本地声纹库中最大相似度大于阈值，此时是在会议场景中识别已经注册身份的说话人，就以本地声纹库中该条声纹的身份作为该段录音片段的身份。

第二种情况是本地声纹库中的最大相似度小于阈值，此时认为该段录音片段属于陌生说话人，会将该录音片段标记为陌生人并编号后加入本地声纹库。后续再有与该录音片段属于同一说话人的录音进入系统时，系统会将其识别为同一说话人。

声纹特征存储与更新模块：本模块用于在运行系统与物理介质间进行声纹特征的读取与存储，声纹特征由身份信息和一条或多条声纹向量构成，以JSON格式存储与物理介质上。

系统可以主动注册新的说话人，要求用户输入说话人标识符，并录制一段音频，系统将该段音频输入声纹识别模块后生成的声纹向量和说话人标识符组合成一条新的声纹特征加入声纹库中。

在会议过程中已注册说话人的声纹特征也会得到实时更新来获得更准确的说话人识别结果。

具体来说，当一条录音片段的声纹的身份被识别为某一注册说话人后，其声纹向量将和该注册说话人身份对应的所有声纹向量进行相似度计算并替换掉声纹库中存在的相似度最低的声纹向量，可以增强未来同一个说话人的语音声纹识别功能的准确性与敏感性。

JSON格式的声纹特征独立于系统，作为优选，可以是独立的文件，可以在不同的终端间流通，可以被不同设备上的自动会议记录系统读取。

会议文档生成模块：系统会实时记录会议内容，将说话人身份和当前语音片段语音识别的结果显示在同一行。不同的发言内容按照时间顺序实时显示在系统界面上。作为一种优选，对于系统中存储的经过语音识别和声纹识别的会议录音片段，按照时间顺序在屏幕上依次显示说话人姓名和发言内容。

系统的操作员可以实时修改已经识别的语音内容来修正语音识别和声纹识别可能出现的差错。在会议结束后，系统将完整的会议记录内容保存在存储介质上供读取和编辑。

如图1所示，系统启动时从物理介质上导入存储好的说话人声纹信息加入本地声纹库；系统在会议过程中进行实时录音并根据说话人对会议录音进行分段；系统对会议录音分段进行降噪处理；系统对录音分段进行语音识别，并记录结果；系统对录音分段利用深度学习模型进行声纹识别，输出该条录音的声纹信息并和本地声纹库中的声纹信息进行比对，若无法匹配则更新本地声纹库；系统将说话人身份和其发言内容整理，同时显示在系统显示屏上；系统在会议结束后，对会议内容进行整理，输出完整会议记录文档；系统在系统关闭前，保存更新后的本地声纹库到物理介质上。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于说话人声纹信息的自动识别身份的方法，其特征在于，

其中，比较两条声纹向量a,b的相似度：

2.如权利要求1所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，利用说话人发言的间隙将会议录音分割为录音片段。

3.如权利要求2所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，会议过程中持续录音，当检测到的分贝数大于背景噪声分贝数的1.5倍时，判定当前有发言人正在发言，当检测到分贝数小于背景噪声分贝数的1.5倍并且持续大于200毫秒时，判定说话人的间隙，进行语音切割。

4.如权利要求1或3所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，所述声纹识别模块提取语音片段的MFCC作为语音特征，将语音特征输入时延神经网络的深度神经网络模型提取第一个全连接层的输出作为声纹向量；

5.如权利要求1所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，当最大相似度小于阈值，认为该段录音片段属于陌生说话人，会将该录音片段标记为陌生人并编号后加入本地声纹库。

6.如权利要求5所述的基于说话人声纹信息的自动识别身份的方法，其特征在于，还包括：

声纹特征存储与更新模块，用于在运行系统与物理介质间进行声纹特征的读取与存储，声纹特征由身份信息和一条或多条声纹向量构成，以JSON格式存储在物理介质上。