CN111312256B

CN111312256B - 语音身份识别的方法、装置及计算机设备

Info

Publication number: CN111312256B
Application number: CN201911054125.1A
Authority: CN
Inventors: 顾艳梅; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2024-05-10
Anticipated expiration: 2039-10-31
Also published as: CN111312256A

Abstract

本申请公开了一种语音身份识别的方法、装置及计算机设备，涉及计算机技术领域，可以解决对多个说话者的语音识别能力差，无法获取到相关说话人身份信息的问题。其中方法包括：基于待识别语音数据的谐波能量将所述待识别语音数据切割成多个待识别语音片段；将各个所述待识别语音片段输入训练好的神经网络模型中，提取对应的语音特征向量；根据所述语音特征向量对各个所述待识别语音片段进行类别划分，以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息。本申请适用于对语音身份的识别。

Description

语音身份识别的方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及到一种语音身份识别的方法、装置及计算机设备。

背景技术

随着移动互联网的发展，语音识别作为实现人机自由交互的关键技术越来越受到重视，特别是目前已经进入大数据时代，海量语音数据的获取已经成为可能，如何利用这些未经标注的原始数据成为当前语音识别领域的一个研究热点，与此同时，深度学习模型凭借着其对海量数据的强大建模能力，能够直接对这些未经标注的数据进行处理，识别获取得到相应的文本信息。

目前的语音识别对于一段语音数据中仅有一位说话者的识别效果较佳，但是对于一段语音数据中有两位及以上的说话者，将无法区分说话者的身份信息、进而导致语音识别的效果较差。

发明内容

有鉴于此，本申请提供了一种语音身份识别的方法、装置及计算机设备，能够解决对多个说话者的语音识别能力差，无法获取到相关说话人身份信息的问题。

根据本申请的一个方面，提供了一种语音身份识别的方法，该方法包括：

基于待识别语音数据的谐波能量将所述待识别语音数据切割成多个待识别语音片段；

将各个所述待识别语音片段输入训练好的神经网络模型中，提取对应的语音特征向量；

根据所述语音特征向量对各个所述待识别语音片段进行类别划分，以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息。

根据本申请的另一个方面，提供了一种语音身份识别的装置，该装置包括：

切割模块，用于基于待识别语音数据的谐波能量将所述待识别语音数据切割成多个待识别语音片段；

提取模块，用于将各个所述待识别语音片段输入训练好的神经网络模型中，提取对应的语音特征向量；

划分模块，用于根据所述语音特征向量对各个所述待识别语音片段进行类别划分，以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，程序被处理器执行时实现上述语音身份识别的方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，处理器执行程序时实现上述语音身份识别的方法。

借由上述技术方案，本申请提供的一种语音身份识别的方法、装置及计算机设备，与目前语音识别的方式相比，本申请可通过将待识别语音数据切分成多个适用于语音特征提取的语音片段，提取各个语音片段的语音特征向量，并分析任意两个语音片段对应语音特征向量间的相似度，利用相似度判定该两个语音片段是否来自于同一个说话者，故可基于语音特征向量相似度的计算，将语音片段进行不同说话者的类别划分，在划分成不同类别后，再分别识别不同类别对应的语音文本信息，依据语音文本信息确定具体的语音身份，即说话者的真实身份，如坐席服务人员、用户等。在本申请中，能够较好的处理说话者身份未知的情况，能够准确的分割出每个说话者的语音片段的时间戳，丰富语音识别功能，提高语音识别的准确性以及多样性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种语音身份识别的方法的流程示意图；

图2示出了本申请实施例提供的另一种语音身份识别的方法的流程示意图；

图3示出了本申请实施例提供的一种语音身份识别的工作流程图；

图4示出了本申请实施例提供的一种语音身份识别的装置的结构示意图；

图5示出了本申请实施例提供的另一种语音身份识别的装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前对多个说话者的语音识别能力差，无法获取到相关说话人身份信息的问题，本申请实施例提供了一种语音身份识别的方法，如图1所示，该方法包括：

101、基于待识别语音数据的谐波能量将待识别语音数据切割成多个待识别语音片段。

其中，待识别语音数据为需要进行语音识别检测的数据信息，可以包括完整的语音文件以及语音文件对应的语音频谱图，在具体的应用场景中，由于语音频谱图能够直观显示出谐波能量的分布情况，故可利用待识别语音数据对应的语音频谱图提取出谐波能量，利用谐波能量准确定位语音信号的强弱，进而实现对各个待识别语音语音片段的切割。待识别语音数据可从电话平台中获取，电话平台发送来的语音数据是单通道语音数据，且一个通道中含有不同说话者。语音信号的谐波成分是人类发音的一个基本特点，也是语音信号和非语音信号的一个明显的特征，而且在复杂恶劣的噪声背景下也具有很强的鲁棒性，因此通过对谐波能量的提取，就可准确判断出语音信号的存在与否。在本方案中，端点检测是指通过检测语音信号中的谐波能量，来将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

102、将各个待识别语音片段输入训练好的神经网络模型中，提取对应的语音特征向量。

其中，卷积神经网络CNN通过对输入数据的逐层非线性处理，能够得到对非常复杂的数据分布更加抽象有效的描述信息，进而从中得到数据的深层特征。在本方案中，可利用卷积神经网络CNN来提取各个待识别语音片段的语音特征，CNN在对语谱图进行分析时，其卷积滤波器是对局部时间上若干子带进行分析的，这样会保留语谱图的局部结构图，而滤波器在整个语谱图上进行遍历，最终覆盖整个语谱图，实现对整个时长信号的综合分析。在本方案中，输入数据为待识别语音片段，输出数据为各个待识别语音片段对应的语音特征。

103、根据语音特征向量对各个待识别语音片段进行类别划分，以便获取得到待识别语音数据中包含的各个语音身份以及语音身份对应的语音文本信息。

对于本实施例，在具体的应用场景中，可利用聚类模块根据语音特征向量对各个待识别语音片段进行类别划分，根据说话者个数(假设说话者有m位，m>＝2)聚成m类，并按照聚类后的结果为各个待识别语音片段配置标签Label。之后可分别对各个类别中的语音片段进行统一分析识别，获取对应语音文本信息，基于语音文本信息中的关键词或者依据语义分析判定出对应的语音身份，如坐席或客服等。

通过本实施例中语音身份识别的方法，可在获取到待识别语音数据后，通过计算谐波能量，来将待识别语音数据切割成多个待识别语音片段；再将各个待识别语音片段输入训练好的神经网络模型中，利用神经网络模型提取出对应的语音特征向量；根据语音特征向量对各个待识别语音片段进行类别划分；按照类别划分结果判定待识别语音数据中包含的语音身份以及语音身份对应的语音文本信息。在本申请中，能够较好的处理说话者身份未知的情况，能够准确的分割出每个说话者的语音片段的时间戳，提高语音识别的准确性以及多样性。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种语音身份识别的方法，如图2所示，该方法包括：

201、计算待识别语音数据对应的谐波能量。

对于本实施例，在具体的应用场景中，待识别语音数据中包含语音频谱图，实施例步骤201具体可以包括：利用sobel算子计算语音频谱图的方向场；通过Gabor滤波器增强语音频谱图中的谐波区域，以便获取得到增强型语音频谱图；对增强型语音频谱图进行图像二值化处理，以便得到二值化图；依据二值化图筛选出滤波分布区域；计算滤波分布区域内的谐波能量。

其中，对语音频谱图进行分块，为了便于以后的处理，其实也是保留了时频空间上各个点的相关性，因为各个语音数据的能量不同，对各个小块作调整，使之具有统一的均值和方差，即：

其中，M和V是均值和方差的估计，M0和V0是希望转换成的均值和方差。

通过对各个小块进行sobel算子运算得到本地方向场。

sobel算子为：

和/>

相应的，二维Gabor滤波器是一个带有特定方向和频率、被高斯表面调制的正弦平面波。偶对称的Gabor滤波器是Gabor函数的实部，表现为被高斯表面调制后的余弦波，用数学定义为：

x_θ＝x cos θ+y sin θ

y_θ＝-x sin θ+y cos θ

其中，θ为Gabor滤波器的方向，f是余弦波的频率，δ_x和δ_y是高斯表面沿着x轴、y轴的标准差，x_θ和y_θ分别定义了滤波器坐标的x、y轴。

Gabor滤波过程是通过Gabor滤波器和语音频谱图进行空间卷积得到，得到增强后的语音频谱图。计算公式为：

其中，E(i，j)就是增强之后的语谱图，其中O(i，j)为通过Nobel算子计算窄带语谱图的方向场，F(i，j)为空间频率场，N(i，j)为第二步得到规划后的语谱图，ω_x和ω_y分别为Gabor滤波器的长和宽。

相应的，δ_x和δ_y分别由下面公式得到：

δ_x＝k_xF(i，j)

δ_y＝k_yF(i，j)

其中，k_x和k_y是常量，ω_x和ω_y分别由下列公式求得：

ω_x＝6δ_x；ω_y＝6δ_y。

对于本实施例，在具体的应用场景中，图像二值化的作用就是对语音频谱图进行分类，用0、1表示，0表示背景、1表示谐波成分分布区域，Gabor滤波器的一个性质时其直流成分为0，如果一个像素点的值大于0，则设置为1，否则设置为0。

相应的，在筛选滤波分布区域时，需要进行后处理操作，即去除方向大于45度和依赖度低的点，得到连续水平方向的带状分布，即滤波分布区域；其中，去除方向大于45度和依赖度低的点的目的是去除一些不满足谐波成分特性的一些，保留相对高能量和变化缓慢的(同一类内)的点的集合，进而得到包含谐波成分的分布区域。

202、依据谐波能量进行门限判决，以便依据门限判决结果将待识别语音数据划分成多个第一语音片段。

对于本实施例，在具体的应用场景中，实施例步骤202具体可以包括：获取待识别语音数据中各个语音信号帧对应的谐波能量值，并按照待识别语音数据的顺序进行识别检测；将谐波能量值等于预设门限值的语音信号帧标记为语音端点；识别各个语音端点对应的能量变化趋势；若确定能量变化趋势为递增趋势，则判定对应的语音端点为第一语音片段的起点；若确定能量变化趋势为递减趋势，则判定对应的语音端点为第一语音片段的终点；按照第一语音片段的起点以及第一语音片段的终点截取第一语音片段。

对于本实施例，在具体的应用场景中，当判定语音信号帧对应的短时能量连续高于预先设定的预设门限值时，则把等于预设门限值的第一个语音信号帧确定为第一语音片段的起点；当判定语音信号帧对应的短时能量连续低于预先设定的预设门限值时，则把等于预设门限值的第一个语音信号帧确定为第一语音片段的终点，以此提取出语音数据中包含的所有第一语音片段。

203、获取各个第一语音片段的片段时长。

其中，语音特征的提取与选择是语音识别的一个重要环节。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。故在本方案中，需要获取各个第一语音片段的片段时长，以便对片段时长较长的第一语音片段进行二次切分，切分得到多个适用于语音特征提取的第二语音片段。

204、将片段时长大于或等于第一预设阈值的第一语音片段切割成多个符合预定片段标准的第二语音片段。

其中，预定片段标准为根据时间戳对第一语音片段利用平滑方式再次切分成多个预设长度的第二语音片段，每两个相邻个第二语音片段之间有50％的重叠率，小于预设长度的第一语音片段不做切分处理。在本实施例中，基于实验结果得出，预设长度优选为1.5s。相应的，第一预设阈值也可设定为1.5s。

例如，将待识别语音数据共划分成A、B、C、D四个第一语音片段，获取到A、B、C、D的片段时长分别为3s、5s、1s、1.5s，设定的第一预设阈值为1.5s，则经过第一语音片段与第一预设阈值的对比，可确定第一语音片段A、B需要进行切割处理，故按照预定片段标准，可将第一语音片段A划分为：0～1.5s、0.75s～2.25s、1.5s～3s共三个第二语音片段；将第一语音片段B划分为：0～1.5s、0.75s～2.25s、1.5s～3s、2.25s～3.75s、3s～4.5s、3.75s～5s共六个第二语音片段。

205、依据语料库中的语音片段训练符合预设标准的神经网络模型。

对于本实施例，为了训练得到符合预设标准的神经网络模型，实施例步骤205具体可以包括：获取训练集中的样本语音片段；预先标记样本语音片段对应的语音特征；将标记好的样本语音片段输入神经网络模型中，提取对应的语音特征；根据提取出的语音特征与标记的语音特征计算损失函数值；若确定损失函数值小于第二预设阈值，则判定神经网络模型训练成功；若确定损失函数值大于或等于第二预设阈值，则判定神经网络模型未通过训练，利用标记好的样本语音片段对神经网络模型进一步训练修正，直至神经网络模型符合预设标准。

对于本实施例，在进行神经网络模型训练时，必须要有不同范围的优质的语料库。语音识别本质是模式识别，需要一定的学习提取出关键的特征参数，然后利用这些参数在识别时进行匹配。因此，提供学习(训练)的语料非常重要。例如，想要识别北方人说的话，就需要利用包含北方男人、女人、老人和小孩的语音片段按一定比例搭配来进行训练。如果识别的对象包括北方人和南方人，那么在训练模型时就要将包括北方人和南方人的语音片段作为输入数据。

206、将片段时长小于第一预设阈值的第一语音片段以及各个第二语音片段输入训练成功的神经网络模型中，获取得到各个语音片段对应的语音特征向量。

对于本实施例，当判定训练的神经网络模型符合预设标准时，可向训练好的神经网络模型中输入片段时长小于第一预设阈值的第一语音片段以及各个第二语音片段，以便得到对应的语音特征向量。

207、计算任意两个语音特征向量之间的相似度。

在本方案中，计算每两个语音特征向量之间的相似度可通过计算各个特征向量之间的欧式距离来实现；

两个n维语音特征向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离公式为：

其中，x1i为语音片段的特征向量，x2i为另一个语音片段的特征向量，N为特征向量的维度，在本方案中，特征向量的维度为：(N-1)*(N-1)，N对应语音片段的数量。

208、若判定相似度大于第三预设阈值，则将对应的第一语音片段或第二语音片段按照第一标识标记为同一类别。

其中，第三预设阈值为能够判定出对应的第一语音片段或第二语音片段是同一类型的最小相似度值；第一标识Label的功能是定义变量或标号的类型。例如，根据语音片段进行类别划分，共获取到两个类别，则可为这两个类别中的各个第二语音片段随机配置标签，例如，第一类语音片段配置标签为0，第二类语音片段配置标签为1；或第一类语音片段配置标签为A，第二类语音片段配置标签为B等。也可以用其他的字母或者数字代替，这个是程序的中间结果，最后需要根据ASR文本翻转成具体的语音身份信息。

209、在完成对所有语音片段的类别划分后，识别划分为同一类别的语音片段的语音文本信息。

例如，配置的第一标识为大写英文字母，语音片段共划分为A、B、C三个类别，每个类别终包含不同的语音片段，可通过识别出A类别中包含的所有语音文本信息来确定A类别对应的真实身份标签；通过识别出B类别中包含的所有语音文本信息来确定B类别对应的真实身份标签；通过识别出C类别中包含的所有语音文本信息来确定C类别对应的真实身份标签。

210、基于语音文本信息判定各个第一标识对应的语音身份信息。

对于本实施例，在具体的应用场景中，可预先设定不同语音身份对应的预设关键词，每个预设关键词与一个语音身份标识对应，当获取到语音文本信息后，可分别与各个预设关键词进行匹配，将匹配度最高的预设关键词对应的语音身份标识确定为基于语音文本信息确定出的语音身份信息。

211、将第一标识更新为对应的语音身份信息。

例如，若获取标签A及B的语音文本输出结果，根据语义分析，判定标签A对应的身份信息为工作人员，判定标签B对应的身份信息为客户，则可将标签A替换更新为工作人员标签，将标签B替换更新为客户标签。

在具体的应用场景中，语音身份识别的具体过程如图3所示，电话平台将语音数据发送至服务引擎，引擎接收数据后先送入到VAD(Voice Activity Detection,语音活动检测，又称语音端点检测)模块，检测出每段语音片段的开始时间和结束时间，并将该时间戳保存成文件输入至角色分离模块中。角色分离模块将经过VAD后的语音文件，并根据其时间戳对语音片段进行二次切割，将细化后的语音片段输入至神经网络中，提取其语音特征，计算语音片段特征两两之间的相似性，得到相似度矩阵，送入聚类模块中获取聚类结果，根据聚类后的结果配置标签Label，并按照时间戳保存成文件，输入至ASR模块中。利用ASR模块识别出该片段的文本内容，并将文本内容传输至结果输出模块，根据ASR输出的文本，通过时间戳作为参考标准，确定不同类别的最终身份及该时间段内文本内容。

通过上述语音身份识别的方法，可通过计算待识别语音数据对应的谐波能量来进行门限判决，采用门限判别的方法检测出各个第一语音片段的开始和结束时间，并且将片段时长大于或等于第一预设阈值的第一语音片段切割成多个符合预定片段标准的第二语音片段，将符合预设条件的各个语音片段输入训练好的神经网络模型中，可保证特征提取的准确性，获取得到各个语音片段对应的语音特征向量，基于欧氏距离判定对各个语音片段进行聚类分析，确定不同聚类对应的语音身份信息。在本申请中，根据角色分离的时间切割语音片段，并进行聚类分析，将角色分离模块细化后的时间戳作为语音识别的输入时间点，将避免多个说话者在同一语音片段的情况，能够有效提升语音识别的准确性。能够较好的处理说话者身份未知的情况，准确地分割出每个说话者的语音片段的时间戳，并确定出语音身份信息。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种语音身份识别的装置，如图4所示，该装置包括：切割模块31、提取模块32、划分模块33。

切割模块31，用于基于待识别语音数据的谐波能量将待识别语音数据切割成多个待识别语音片段；

提取模块32，用于将各个待识别语音片段输入训练好的神经网络模型中，提取对应的语音特征向量；

划分模块33，用于根据语音特征向量对各个待识别语音片段进行类别划分，以便获取得到待识别语音数据中包含的各个语音身份以及语音身份对应的语音文本信息。

在具体的应用场景中，为了实现对待识别语音数据的有效切割，如图5所示，切割模块31，具体包括：计算单元311、划分单元312、获取单元313、切割单元314。

计算单元311，可用于计算待识别语音数据对应的谐波能量；

划分单元312，可用于依据谐波能量进行门限判决，以便依据门限判决结果将待识别语音数据划分成多个第一语音片段；

获取单元313，可用于获取各个第一语音片段的片段时长；

切割单元314，可用于将片段时长大于或等于第一预设阈值的第一语音片段切割成多个符合预定片段标准的第二语音片段。

相应的，待识别语音数据中可包含语音频谱图，计算单元311，具体可用于利用sobel算子计算语音频谱图的方向场；通过Gabor滤波器增强语音频谱图中的谐波区域，以便获取得到增强型语音频谱图；对增强型语音频谱图进行图像二值化处理，以便得到二值化图；依据二值化图筛选出滤波分布区域；计算滤波分布区域内的谐波能量。

在具体的应用场景中，为了将待识别语音数据划分成多个第一语音片段，划分单元312，具体可用于获取待识别语音数据中各个语音信号帧对应的谐波能量值，并按照待识别语音数据的顺序进行识别检测；将谐波能量值等于预设门限值的语音信号帧标记为语音端点；识别各个语音端点对应的能量变化趋势；若确定能量变化趋势为递增趋势，则判定对应的语音端点为第一语音片段的起点；若确定能量变化趋势为递减趋势，则判定对应的语音端点为第一语音片段的终点；按照第一语音片段的起点以及第一语音片段的终点截取第一语音片段。

在具体的应用场景中，为了基于神经网络模型提取对应的语音特征向量，如图5所示，提取模块32，具体包括：训练单元321、获取单元322。

训练单元321，可用于依据语料库中的语音片段训练符合预设标准的神经网络模型；

获取单元322，可用于将片段时长小于第一预设阈值的第一语音片段以及各个第二语音片段输入训练成功的神经网络模型中，获取得到各个语音片段对应的语音特征向量。

相应的，为了将神经网络模型训练达到预设标准，训练单元321，具体可用于获取训练集中的样本语音片段；预先标记样本语音片段对应的语音特征；将标记好的样本语音片段输入神经网络模型中，提取对应的语音特征；根据提取出的语音特征与标记的语音特征计算损失函数值；若确定损失函数值小于第二预设阈值，则判定神经网络模型训练成功；若确定损失函数值大于或等于第二预设阈值，则判定神经网络模型未通过训练，利用标记好的样本语音片段对神经网络模型进一步训练修正，直至神经网络模型符合预设标准。

在具体的应用场景中，为了根据语音特征向量对各个待识别语音片段进行类别划分，如图5所示，划分模块33，具体包括：计算单元331、标记单元332、识别单元333、判定单元334、更新单元335。

计算单元331，可用于计算任意两个语音特征向量之间的相似度；

标记单元332，可用于若判定相似度大于第三预设阈值，则将对应的第一语音片段或第二语音片段按照第一标识标记为同一类别；

识别单元333，用于识别划分为同一类别的语音片段的语音文本信息；

判定单元334，用于基于语音文本信息判定各个第一标识对应的语音身份信息；

更新单元335，用于将第一标识更新为对应的语音身份信息。

需要说明的是，本实施例提供的一种语音身份识别的装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的语音身份识别的方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图4、图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的语音身份识别的方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是用于语音身份识别的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可通过计算待识别语音数据对应的谐波能量来进行门限判决，采用门限判别的方法检测出各个第一语音片段的开始和结束时间，并且将片段时长大于或等于第一预设阈值的第一语音片段切割成多个符合预定片段标准的第二语音片段，将符合预设条件的各个语音片段输入训练好的神经网络模型中，可保证特征提取的准确性，获取得到各个语音片段对应的语音特征向量，基于欧氏距离判定对各个语音片段进行聚类分析，确定不同聚类对应的语音身份信息。在本申请中，根据角色分离的时间切割语音片段，并进行聚类分析，将角色分离模块细化后的时间戳作为语音识别的输入时间点，将避免多个说话者在同一语音片段的情况，能够有效提升语音识别的准确性。能够较好的处理说话者身份未知的情况，准确地分割出每个说话者的语音片段的时间戳，并确定出语音身份信息。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种语音身份识别的方法，其特征在于，包括：

根据所述语音特征向量对各个所述待识别语音片段进行类别划分，以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息；

所述基于待识别语音数据的谐波能量将所述待识别语音数据切割成多个待识别语音片段，具体包括：

计算所述待识别语音数据对应的谐波能量；

依据所述谐波能量进行门限判决，以便依据门限判决结果将所述待识别语音数据划分成多个第一语音片段；

获取各个第一语音片段的片段时长；

将所述片段时长大于或等于第一预设阈值的所述第一语音片段切割成多个符合预定片段标准的第二语音片段；

所述依据所述谐波能量进行门限判决，以便依据门限判决结果将所述待识别语音数据划分成多个第一语音片段，具体包括：

获取所述待识别语音数据中各个语音信号帧对应的谐波能量值，并按照所述待识别语音数据的顺序进行识别检测；

将所述谐波能量值等于预设门限值的语音信号帧标记为语音端点；

识别各个所述语音端点对应的能量变化趋势；

若确定所述能量变化趋势为递增趋势，则判定对应的所述语音端点为第一语音片段的起点；

若确定所述能量变化趋势为递减趋势，则判定对应的所述语音端点为第一语音片段的终点；

按照所述第一语音片段的起点以及所述第一语音片段的终点截取所述第一语音片段；

所述将各个所述待识别语音片段输入训练好的神经网络模型中，提取对应的语音特征向量，具体包括：

依据语料库中的语音片段训练符合预设标准的神经网络模型；

将所述片段时长小于所述第一预设阈值的所述第一语音片段以及各个所述第二语音片段输入训练成功的神经网络模型中，获取得到各个语音片段对应的语音特征向量；

所述依据语料库中的语音片段训练符合预设标准的神经网络模型，具体包括：

获取训练集中的样本语音片段；

预先标记所述样本语音片段对应的语音特征；

将标记好的所述样本语音片段输入神经网络模型中，提取对应的语音特征；

根据提取出的语音特征与标记的语音特征计算损失函数值；

若确定所述损失函数值小于第二预设阈值，则判定所述神经网络模型训练成功；

若确定所述损失函数值大于或等于所述第二预设阈值，则判定所述神经网络模型未通过训练，利用标记好的所述样本语音片段对所述神经网络模型进一步训练修正，直至所述神经网络模型符合所述预设标准。

2.根据权利要求1所述的方法，其特征在于，所述待识别语音数据中包含语音频谱图；

所述计算所述待识别语音数据对应的谐波能量，具体包括：

利用sobel算子计算所述语音频谱图的方向场；

通过Gabor滤波器增强所述语音频谱图中的谐波区域，以便获取得到增强型语音频谱图；

对所述增强型语音频谱图进行图像二值化处理，以便得到二值化图；

依据所述二值化图筛选出滤波分布区域；

计算所述滤波分布区域内的谐波能量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音特征向量对各个所述待识别语音片段进行类别划分，以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息，具体包括：

计算任意两个语音特征向量之间的相似度；

若判定所述相似度大于第三预设阈值，则将对应的第一语音片段或第二语音片段按照第一标识标记为同一类别；

在完成对所有语音片段的类别划分后，识别划分为同一类别的语音片段的语音文本信息；

基于所述语音文本信息判定各个所述第一标识对应的语音身份信息；

将所述第一标识更新为对应的语音身份信息。

4.一种语音身份识别的装置，其特征在于，包括：

划分模块，用于根据所述语音特征向量对各个所述待识别语音片段进行类别划分，以便获取得到所述待识别语音数据中包含的各个语音身份以及所述语音身份对应的语音文本信息；

切割模块，包括：计算单元、划分单元、第一获取单元、切割单元，其中，

计算单元，用于计算待识别语音数据对应的谐波能量；

划分单元，用于依据谐波能量进行门限判决，以便依据门限判决结果将待识别语音数据划分成多个第一语音片段；

第一获取单元，用于获取各个第一语音片段的片段时长；

切割单元，用于将片段时长大于或等于第一预设阈值的第一语音片段切割成多个符合预定片段标准的第二语音片段；

划分单元，还用于获取待识别语音数据中各个语音信号帧对应的谐波能量值，并按照待识别语音数据的顺序进行识别检测；将谐波能量值等于预设门限值的语音信号帧标记为语音端点；识别各个语音端点对应的能量变化趋势；若确定能量变化趋势为递增趋势，则判定对应的语音端点为第一语音片段的起点；若确定能量变化趋势为递减趋势，则判定对应的语音端点为第一语音片段的终点；按照第一语音片段的起点以及第一语音片段的终点截取第一语音片段；

提取模块，包括：训练单元、第二获取单元，其中，

训练单元，用于依据语料库中的语音片段训练符合预设标准的神经网络模型；

第二获取单元，用于将片段时长小于第一预设阈值的第一语音片段以及各个第二语音片段输入训练成功的神经网络模型中，获取得到各个语音片段对应的语音特征向量；

训练单元，还用于获取训练集中的样本语音片段；预先标记样本语音片段对应的语音特征；将标记好的样本语音片段输入神经网络模型中，提取对应的语音特征；根据提取出的语音特征与标记的语音特征计算损失函数值；若确定损失函数值小于第二预设阈值，则判定神经网络模型训练成功；若确定损失函数值大于或等于第二预设阈值，则判定神经网络模型未通过训练，利用标记好的样本语音片段对神经网络模型进一步训练修正，直至神经网络模型符合预设标准。

5.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，程序被处理器执行时实现权利要求1至3中任一项的语音身份识别的方法。

6.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现权利要求1至3中任一项的语音身份识别的方法。