CN112992175A

CN112992175A - 一种语音区分方法及其语音记录装置

Info

Publication number: CN112992175A
Application number: CN202110154978.3A
Authority: CN
Inventors: 陈文明; 陈新磊; 张洁; 张世明
Original assignee: Shenzhen Emeet Tech Co ltd
Current assignee: Shenzhen Emeet Tech Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-18
Anticipated expiration: 2041-02-04
Also published as: WO2022166219A1; CN112992175B

Abstract

一种语音区分方法及其语音记录装置。其包括：从多通道音频数据中获取单人声学特征；采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。本申请提供的方案的方便对聚类过程进行优化，提升区分准确率。

Description

一种语音区分方法及其语音记录装置

技术领域

本发明涉及音频技术领域，尤其涉及一种语音区分的技术领域。

背景技术

随着深度学习的兴起，越来越多的移动便携式设备加入了智能化的浪潮。在众多嵌入式智能设备中，语音往往是开启智能世界的钥匙，不论是在家庭生活场景中还是在公司的会议场景中，语音是很多智能设备的输入，通过对说话人语音的分析，智能设备可以捕获到说话人的指令以便进行下一步操作。

但是在这类场景中，说话人往往不止一个，如何把不同的说话人的语音分离，成为了语音领域需要解决的问题。说话人区分(Speaker Diarization)就是其中一个值得深入研究的问题。不同于语音识别以及语音分离，说话人区分不关注说话人是谁，也不关注说话人说了什么，而是聚焦“谁在什么时间说话了”这个问题，侧重点在于不同的说话人的差异。当用户得到了区分后的来自不同说话人的语音后，可进行语音识别等操作，以提高相应的准确率。

传统的说话人区分方法以聚类为主，这类算法大多是离线模式，即需要获取到完整的一段语音，先对该段语音使用滑动的窗口进行分片(或分帧)，然后在片内做傅里叶变换，提取梅尔倒谱系数(MFCC)特征或者频谱特征，然后将该特征映射到高维空间。之后移动窗口，采用一定比例的重叠窗长，尽可能保证每一个窗口内只含有一个说话人的语音，然后再计算下一窗口内语音特征在高维空间的嵌入。通过对比不同片段语音嵌入特征的差异，来判断两段语音是否属于同一个说话人，一般衡量这种差异的方法是计算两者的余弦相似度或者多维空间中的欧氏距离，当余弦相似度或欧氏距离大于某阈值时，认为两者不同，即两段语音属于不同的说话人；若小于阈值，则认为两段语音属于同一个说话人，阈值的设置往往根据经验或者使用一些标记数据进行测试得到。

但是，聚类算法使用的语音特征如频谱、幅度谱特征等，在对说话人的特征进行建模时，并不能很好地体现不同的说话人的差异性。并且，当聚类达到一定程度时，无论模型再怎么增加数据训练，聚类准确率提升都很有限。从而影响语音区分的准确性。

发明内容

本申请提供一种可提升区分准确性的语音区分方法及其语音记录装置。

本申请提供以下技术方案：

一方面，提供一种语音分析方法，其包括：从多通道音频数据中获取单人声学特征；采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

另一方面，提供一种语音记录设备，其包括：声学特征获取单元，从多通道音频数据中提取单人声学特征；中间状态缓存单元，采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

本申请的有益效果在于，通过已经训练好的训练神经网络，预测单人的语音数据的中间状态，再将该中间状态送入状态缓冲区进行聚类计算，确定相应的聚类标签。由此，将聚类过程和神经网络分离，方便对聚类过程进行优化，提升区分准确性。

附图说明

图1为本申请实施方式一提供的一种语音区分方法的流程图。

图2为本申请实施方式一中S110的具体流程示意图。

图3为本申请实施方式一中循环递归神经网络的监督训练过程流程图。

图4为本申请实施方式一中循环递归神经网络的监督训练过程的示意图。

图5为本申请实施方式一中循环递归神经网络的测试过程的示意图。

图6为本申请实施方式一中状态缓冲区中更新过程的示意图。

图7为本申请实施方式二提供的一种语音记录装置的方框示意图。

图8本申请实施方式三提供的一种语音记录装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施方式，对本申请进行进一步详细说明。应当理解，此处所描述的实施方式仅用以解释本申请，并不用于限定本申请。但是，本申请可以以多种不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本实用新型的公开内容的理解更加透彻全面。

除非另有定义，本文所实用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本申请。

应理解，本文中术语“系统”或“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例可以应用于各种带有语音区分功能的各种语音记录装置。例如：录音笔、音频会议终端、智能会议记录装置或者有录音功能的智能电子设备等。以下将通过具体的实施方式对本申请的技术方案进行阐述。

实施方式一

请参看图1，为本申请实施方式一提供的一种语音区分方法。其中，语音区分是指对语音信息对应的说话人进行判断，即，区分不同的声源发出的语音信息。声源区分可以不需要获取到声源发出的完整语音，只需获取其中一部分即可，如一句话，甚至是一句话中的一个单词或片段。

该语音区分方法100包括：

S110，从多通道音频数据中获取单人声学特征；可选的，所述单人声学特征为高维向量特征；

S120，采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；

S130，在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；

S140，计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；

S150，确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

可选的，请参见图2，S110，从多通道音频数据中获取单人声学特征，包括如下S111至S117：

S111，语音记录设备内置的麦克风阵列采集按数据块实时读取录音数据，并保存该录音数据；其中，该录音数据为实时波形数据；可选的，可根据实时性要求设置该数据块的大小长度，一般设置为100到500毫秒；可选的，该录音数据保存在该语音记录设备内的存储器中，用于辅助校验说话人区分结果或者留作他用。

S112，语音检测模块对该数据块中的录音数据进行检测，确定数据块中的录音数据。

该语音检测模块包括一个已训练好的神经网络，该语音检测模块输入的是录音数据的波形时域序列，输出的是一个概率值，若此概率值大于预先设置的阈值，则神经网络判断数据块内的数据是语音数据，否则丢弃该数据块的录音数据，等待下一个数据块。

S113，临时数据缓冲区接收该录音数据。

为了提高说话人区分的准确度，在语音检测模块后还设置了一个临时数据缓冲区，用以接收语音检测模块的输出。临时数据缓冲区的大小也可以自行设置，缓冲区越大，积累的语音数据流越多，提取特征后进行说话人区分可以使区分准确率提升，但缓冲区设置过大，需要等待足够长时间的语音填充缓冲区，会影响实时性的要求，因此实际应用中可以根据实时性以及准确率的需求设置缓冲区大小，通常缓冲区长度不超过3秒。

S114，确定临时数据缓冲区中的数据块数量是否达到指定容量；若达到指定容量，则执行S115；否则，执行S111。

S115，将临时数据缓冲区内的数据块送入说话人数量判断模块，判断该数据块中的说话人数量是否大于1；是则执行S116，否则执行S117；

由于实时的语音数据是麦克风阵列采集的多通道数据，可以应用麦克风阵列算法，判断多通道语音数据中含有几个说话人。但是，在实际家用生活场景以及会议场景中，不同的说话人有可能会同时说话，产生重叠的语音，因此说话人数量判断模块需要判断临时数据缓冲区内的语音数据包含几个说话人。此为一个二分类任务，语音数据要么就是单人语音，不存在重叠部分；要么就是多人说话，有重叠语音。但是S115中，说话人数量判断模块并不关心重叠部分到底有几个说话人，它只需判断说话人数量是否大于1即可。如果判断该语音数据中说话人大于一个，则执行S116，，否则，该语音数据为单声道语音数据，可直接执行S117。

S116，将说话人数量大于一的语音数据送入阵列算法模块处理重叠语音，获得单声道的语音数据。

可选的，该阵列算法判断说话人数量时，使用扫描法，即将空间平面划分为不同的角度区域，分别对每个区域进行探测，如果探测到不同的角度区域内都存在语音数据，那么说明同一时间段内有多个说话人同时说话，则对每个方向区域内分别使用波束形成(Beamforming)算法对该方向的语音进行增强，对其他方向的声音进行抑制。通过这种方法，将不同的说话人的语音提取出来并做增强，形成该单声道的语音数据。

S117，根据单声道的语音数据提取单个说话人的声学特征；可选的，该声学特征是高维向量特征，能够区分不同说话人；可选的，采用特征提取模块提取该声学特征。

具体而言，先对语音数据做短时傅里叶变换，将时域的波形信号转换到频域，然后提取出频谱的幅值和相位组成一个输入向量，送入训练好的神经网络，输出一个固定维度的高维特征向量，该高维特征向量表征的是该语音数据内说话人的声学特征。传统的声学算法常采用梅尔倒谱系数(MFCC)或者i-vector模型作为说话人声学特征的表示，但这些特征都是基于数学模型计算获得，而为了满足数学模型的运算要求，通常还需设定一系列的前提假设条件，但是在实际场景应用中并不总是能符合这些前提假设条件。因此，传统的声学特征在表示说话人独特性方面存在一定瓶颈。使用神经网络就不存在这些问题，没有预先假设条件的限制，在对语音数据做完短时傅里叶变换，提取出相关的信息后直接送入神经网络，输出表示说话人特征的高维向量，过程中避免了人为因素的影响，可以提高说话人区分的准确度。

可选的，所述循环递归神经网络采用监督式学习训练方式获得。所谓监督式学习是使用神经网络对模型进行训练的时候，会提供参考标签作为对照，告诉模型训练目标要和标签尽可能接近。

可选的，请参见图3及图4，图3为循环递归神经网络的监督训练过程，图4为循环递归神经网络的测试过程，即其使用过程。所述循环递归神经网络采用监督式学习训练方式获得，包括：

S121，为语音信号分配一个说话人标签，并记录所述说话人标签对应的语音信号的起止时间；如图4所述，说话人1单人的语音数据和说话人2的单人的语音数据，中均包含其各自的语音数据及其对应说话人标签；在训练过程中，输入的语音或语音片段是可以明确其说话人身份的，因此，根据此语音获得的语音片段对应的语音信息，也是可以明确的知道其说话人的；

S122，提取所述语音信号的声学特征；继续参看图4，特征提取模块分别提取说话人1的声学特征，以及说话人2的声学特征，此时，说话人1的声学特征和说话人2得声学特征对应的说话人标签依然不变，为S121中为其分配的说话人标签；

S123，将所述声学特征及其所述说话人标签，送入循环递归神经网络中，使用损失函数以及优化器对所述循环递归神经网络进行优化。

上述S121至S123为循环递归神经网络的监督训练阶段。训练完成后，请参见图5，在使用的过程中，即测试阶段中，则输入的语音是不清楚其说话人是谁的，而是需要训练好的模型对其进行聚类运算后，如S120至S140所述，为其分配说话人标签。

可选的，S120，采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区，具体包括：

采用循环递归神经网络，获取无说话人标记的所述单人声学特征的中间状态。此时，并不会直接给出该段语音对应的特征向量归属于哪个说话人。

可选的，S130，在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类，包括：

对状态缓冲区中维护的所有中间状态运行聚类算法；虽然每一段语音数据中仅包含一个说话人，但是整个音频时序序列中，却可能存在多个说话人交叉轮流说话的情形，因此，聚类后的状态缓冲区状态可能包含至少一个类别，即至少一个聚类，每一个聚类表示一个说话人；

可选的，S140，计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；

S141，计算每个聚类的聚类中心；每一个聚类都有一个聚类中心，它是该聚类中所有中间状态的均值；

S142，计算该中间状态和每一聚类中心的加权均方误差；其中，加权均方误差也可以称之为加权欧式距离。

可选的，S150，确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签，包括：

选取加权均方误差最小的聚类中心的聚类标签作为该中间状态的聚类标签；其中，聚类标签即说话人编号；可选的，确认完该中间状态的聚类标签之后，更新聚类中心。

可选的，S150，所述确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签，包括：

S151，若最小的所述加权均方差对应的聚类已有标签，则确定所述已有标签为所述单中间状态的聚类标签；

S152，若最小的所述加权均方差对应的聚类没有标签，则给所述最小的所述加权均方差对应的聚类分配新的标签，并确定所述新的标签为所述中间状态的聚类标签。

具体而言，所述加权均方差即为加权欧式距离，其可以表征待测的中间状态与该之间的距离，距离越近，属于该聚类的可能性越高，距离越远，数据该聚类的可能性约定；在待测的中间状态与所有聚类中心之间的加权欧式距离中，最小的那个，说明该该待测的中间状态与该聚类最近，因此，可以认定该待测的中间状态是属于该聚类，并给该待测的中间状态分类该聚类的聚类标签。但是，如果该中间状态是之前已经出现过的说话人的，那么在先前的序列中已有该聚类标签(即说话人标签)，直接将该聚类标签分配给该中间状态即可；如果该中间状态并不是之前已经出现过的说话人的，那么在先前的序列中并没有该聚类标签(即说话人标签)，那么需要给当前说话人设置一个新的聚类标签，然后将新的聚类标签分配给该中间状态。

其中，状态序列缓冲区是专门用来存放神经网络输出的中间状态的。但由于语音数据是时序数据，随着时间的推移，语音数据会越来越多，对应神经网络输出的中间状态也会增加，那么更新维护缓冲区时计算开销也会增加，在录音时间足够长的情况下，运行聚类算法、计算加权均方误差、更新聚类中心这些步骤所花费的时间会越来越长，实时性要求就会大打折扣。此即为时延累积问题，即在使用聚类算法对说话人的语音帧进行分类时，由于聚类方法多数是通过遍历运算得出结果，随着录音时间的延长，说话人的语音帧不断增加，遍历运算时产生的时延会越来越高。使用过程中，可能出现的情况是，在录音最开始的时候，系统可以很快地给出说话人区分结果，但是随着录音时间的推移，系统给出区分结果的响应越来越慢，从而影响实时效果。

因此，请参见图6，可选的，可根据需求对状态缓冲区的大小设置一个预设容量值。当状态缓冲区还有空间时，把神经网络输出的中间状态存入缓冲区中，若状态缓冲区满，则按照一定策略更新缓冲区使得缓冲区大小保持不变。图6中圆环或椭圆环代表一个聚类，实心圆形图形表示每一聚类的聚类中心，实心三角形图形为当前预测的中间状态，实心菱形是待丢弃的中间状态。

此时，则所述语音区分方法100还更新状态缓冲区的策略，具体包括：

S161，若所述状态序列缓冲区的空间大小达到所述预设容量值，在用于存放中间状态的状态序列缓冲区中，计算至少一个所述聚类中所有的中间状态和所述聚类的聚类中心之间的欧氏距离；

S162，移除最小的所述欧氏距离对应的中间状态。

可选的，S161和S162之后，所述方法还包括：

S163，加入新的中间状态；

S164，重新计算所述状态序列缓冲区中的聚类的聚类中心。

上述状态缓冲区的更新策略可以概括为“最近越最先出”策略。即当新的中间状态已分配聚类标签时，计算该类内所有中间状态和聚类中心的欧氏距离并排序。丢弃欧式距离最小的中间状态，然后把新状态加入该聚类中，重新计算聚类中心。通过这种策略，可以维持缓冲区大小不变，因此不管录音时间怎么延长，当缓冲区满以后系统对说话人区分的响应时间整体上可以保持不变，减少因计算量增加而导致的响应延迟累积的问题。采用“最近越最先出”的策略，可以保证区分准确率不会有较大差异，因为距离聚类中心越近，代表中间状态越有可能归属于该类别，不确定性越低，其留在状态缓冲区中做进一步判断的价值就越低，因此可以选择丢弃；反之，距离聚类中心越远，则说明其不确定性越大，留在状态缓冲区中做进一步判断的价值就越高，因此，需要保留。

本申请的实施方式，通过监督学习训练神经网络，可以使用大量标记数据提升说话人区分准确度，标记训练数据越多，算法区分准确率越高。然后，使用通过监督学习训练后的循环递归神经网络，预测单人的语音数据的中间状态，在将该中间状态送入状态缓冲区进行聚类计算，确定相应的聚类标签。由此，将聚类过程和神经网络分离，方便对聚类过程进行优化。另一方面，本申请实施例提供的方案还按照“最近最先出”策略来维护和更新该状态缓冲区，以保证状态换冲过区不会因为时延积累，而使系统运行越来越慢，从而解决了实时聚类算法在运行过程中的时延累积问题，以达到实时说话人区分的效果，提升了运行该语音区分方法的设备或系统的实时性。所谓实时说话人区分即不需要获取到完整的语音文件，以低延迟的形式在说话人说话的同时给出上一时刻对说话人身份的判断结果。

实施方式二

请参看图7，为本申请实施方式二提供的一种语音记录装置200。该语音记录装置200包括但不限于录音笔、音频会议终端、或者有录音功能的智能电子设备等中任意一种，也可以是不包含语音拾取功能，仅包含语音区分功能，可实现该功能的电脑或其他智能电子设备，对此在本实施方式二中不做限定。

该语音记录装置200包括：

声学特征获取单元210，从多通道音频数据中提取单人声学特征；

中间状态缓存单元220，采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

可选的，所述循环递归神经网络采用监督式学习训练方式获得。可选的，所述语音记录装置还包括，循环递归神经网络获得单元230，用于为语音信号分配一个说话人标签，并记录所述说话人标签对应的语音信号的起止时间；提取所述语音信号的声学特征；将所述声学特征及其所述说话人标签，送入循环递归神经网络中，使用损失函数以及优化器对所述循环递归神经网络进行优化。

可选的，所述状态序列缓冲区的空间大小为一预设容量值；则所述中间状态缓存单元220，还用于若所述状态序列缓冲区的空间大小达到所述预设容量值，在存放中间状态的状态序列缓冲区中，计算至少一个所述聚类中所有的中间状态和所述聚类的聚类中心之间的欧氏距离；移除最小的所述欧氏距离对应的中间状态。

可选的，所述中间状态缓存单元220，还包括：加入新的中间状态；重新计算所述状态序列缓冲区中的聚类的聚类中心。

可选的，所述中间状态缓存单元220，用于确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签，具体包括：

所述中间状态缓存单元220，具体用于若最小的所述加权均方差对应的聚类已有标签，则确定所述已有标签为所述中间状态的聚类标签；若最小的所述加权均方差对应的聚类没有标签，则给所述最小的所述加权均方差对应的聚类分配新的标签，并确定所述新的标签为所述中间状态的聚类标签。

本实施方式二中有不详尽之处、或优化方案、或者具体的实例，请参见上述实施方式一中相同或对应的部分，在此不做重复赘述。

实施方式三

请参看图8，本申请实施方式三提供的一种语音记录装置300的结构示意图。该视频处理装置300包括：处理器310以及存储器320。处理器310、存储器320之间通过总线系统实现相互的通信连接。处理器310调用存储器320中的程序，执行上述实施方式一提供的任意一种语音分析方法。

该处理器310可以是一个独立的元器件，也可以是多个处理元件的统称。例如，可以是CPU，也可以是ASIC，或者被配置成实施以上方法的一个或多个集成电路，如至少一个微处理器DSP，或至少一个可编程门这列FPGA等。存储器320为一计算机可读存储介质，其上存储可在处理器310上运行的程序。

可选的，该语音处理装置300还包括：声音拾取装置330用于获取语音信息。处理器310、存储器320、声音拾取装置330之间通过总线系统实现相互的通信连接。处理器310调用存储器320中的程序，执行上述实施方式一提供的任意一种语音分析方法，处理该声音拾取装置330获取的多通道语音信息。

本实施方式三中有不详尽之处，请参见上述实施方式一中相同或对应的部分，在此不做重复赘述。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请具体实施方式所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成。软件模块可以被存放于计算机可读存储介质中，所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid StateDisk，SSD))等。所述计算机可读存储介质包括但不限于随机存取存储器(Random AccessMemory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质。一种示例性的计算机可读存储介质耦合至处理器，从而使处理器能够从该计算机可读存储介质读取信息，且可向该计算机可读存储介质写入信息。当然，计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备、目标网络设备或核心网设备中。当然，处理器和计算机可读存储介质也可以作为分立组件存在于接入网设备、目标网络设备或核心网设备中。当使用软件实现时，也可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机或芯片上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请具体实施方式所述的流程或功能，该芯片可包含有处理器。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在上述计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

上述实施方式说明但并不限制本发明，本领域的技术人员能在权利要求的范围内设计出多个可代替实例。所属领域的技术人员应该意识到，本申请并不局限于上面已经描述并在附图中示出的精确结构，对在没有违反如所附权利要求书所定义的本发明的范围之内，可对具体实现方案做出适当的调整、修改、、等同替换、改进等。因此，凡依据本发明的构思和原则，所做的任意修改和变化，均在所附权利要求书所定义的本发明的范围之内。

Claims

1.一种语音区分方法，其特征在于，所述方法包括：

从多通道音频数据中获取单人声学特征；

采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；

在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；

计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；

确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

2.如权利要求1所述的方法，其特征在于，所述循环递归神经网络采用监督式学习训练方式获得。

3.如权利要求2所述的方法，其特征在于，所述循环递归神经网络采用监督式学习训练方式获得，包括：

为语音信号分配一个说话人标签，并记录所述说话人标签对应的语音信号的起止时间；

提取所述语音信号的声学特征；

将所述声学特征及其所述说话人标签，送入循环递归神经网络中，使用损失函数以及优化器对所述循环递归神经网络进行优化。

4.如权利要求1至3中任意一项所述的方法，其特征在于，所述状态序列缓冲区的空间大小为一预设容量值，所述方法还包括：

若所述状态序列缓冲区的空间大小达到所述预设容量值，在用于存放中间状态的状态序列缓冲区中，计算至少一个所述聚类中所有的中间状态和所述聚类的聚类中心之间的欧氏距离；

移除最小的所述欧氏距离对应的中间状态。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

加入新的中间状态；

重新计算所述状态序列缓冲区中的聚类的聚类中心。

6.如权利要求1所述的方法，其特征在于，所述确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签，包括：

若最小的所述加权均方差对应的聚类已有标签，则确定所述已有标签为所述中间状态的聚类标签；

若最小的所述加权均方差对应的聚类没有标签，则给所述最小的所述加权均方差对应的聚类分配新的标签，并确定所述新的标签为所述中间状态的聚类标签。

7.一种语音记录装置，其特征在于，所述语音记录包括：

声学特征获取单元，从多通道音频数据中提取单人声学特征；

中间状态缓存单元，采用预设的循环递归神经网络获取所述单人声学特征的中间状态，并将所述中间状态存入状态序列缓冲区；在所述状态序列缓冲区中，对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类；计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差；确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

8.如权利要求7所述的语音记录装置，其特征在于，所述循环递归神经网络采用监督式学习训练方式获得。

9.如权利要求8所述的语音记录装置，其特征在于，所述语音记录装置还包括，循环递归神经网络获得单元，用于为语音信号分配一个说话人标签，并记录所述说话人标签对应的语音信号的起止时间；提取所述语音信号的声学特征；将所述声学特征及其所述说话人标签，送入循环递归神经网络中，使用损失函数以及优化器对所述循环递归神经网络进行优化。

10.如权利要求7至9中任意一项所述的语音记录装置，其特征在于，所述状态序列缓冲区的空间大小为一预设容量值；

则所述中间状态缓存单元，还用于若所述状态序列缓冲区的空间大小达到所述预设容量值，在存放中间状态的状态序列缓冲区中，计算至少一个所述聚类中所有的中间状态和所述聚类的聚类中心之间的欧氏距离；移除最小的所述欧氏距离对应的中间状态。

11.如权利要求10所述的语音记录装置，其特征在于，所述中间状态缓存单元，还包括：加入新的中间状态；重新计算所述状态序列缓冲区中的聚类的聚类中心。

12.如权利要求7所述的语音记录装置，其特征在于，所述中间状态缓存单元，用于确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签，具体包括：

所述中间状态缓存单元，具体用于若最小的所述加权均方差对应的聚类已有标签，则确定所述已有标签为所述中间状态的聚类标签；若最小的所述加权均方差对应的聚类没有标签，则给所述最小的所述加权均方差对应的聚类分配新的标签，并确定所述新的标签为所述中间状态的聚类标签。

13.一种语音记录设备，其特征在于，所述语音记录设备包括：处理器以及存储器；所述处理器调用所述存储器中的程序，执行上述权利要求1至6中任意一项所述的语音区分方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音分析方法的程序，所述语音分析方法的程序被处理器执行时实现上述权利要求1至6中任意一项所述的语音区分方法。