CN113470698B

CN113470698B - 一种说话人转换点检测方法、装置、设备及存储介质

Info

Publication number: CN113470698B
Application number: CN202110745056.XA
Authority: CN
Inventors: 董林昊; 范志赟; 马泽君
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-08-08
Anticipated expiration: 2041-06-30
Also published as: US20240135933A1; WO2023273984A1; CN113470698A; US12039981B2; US20240331706A1

Abstract

本申请公开了一种说话人转换点检测方法、装置、设备及存储介质，该方法包括：首先获取待检测的目标语音数据；并从其中提取表征其声学信息的声学特征，然后对该声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量，接着，基于CIF对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列，进而可以根据该说话人表征序列，确定说话人转换点对应的时间戳。可见，由于本申请是模拟人脑对信息处理的方式，利用CIF对目标语音数据中逐帧累积的说话人表征向量进行充分整合发放，从而能够有效提高交互类型的目标语音数据中说话人转换点检测结果的准确性。

Description

一种说话人转换点检测方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种说话人转换点检测方法、装置、设备及存储介质。

背景技术

随着移动互联网、物联网和人工智能(Artificial Intelligence，简称AI)技术的快速发展，语音交互作为下一代人机交互方式，能够为人们的生活带来极大的便利，但其中也需要对交互语音段中的说话人转换点进行准确检测。例如，在教学评价及学生课后复习的过程中，老师在课堂上所讲述的内容往往都是关键内容。但是课堂中不可避免的会出现学生发言、师生交流、自由讨论等语音交互环节，如果不对这些环节产生的交互语音段中的不同说话人转换点进行准确检测，来确定出不同人的说话时间区域，以便从中找出老师在课堂上讲述的关键内容，而是将这些环节产生的交互语音段不加筛选的输入到教学评价系统或学生复习资料中，将会浪费大量的人力、物力、时间等资源，才能找出课堂上的关键内容。基于此，为了提高对交互语音的处理效率并降低功耗，需要对其进行快速、准确的说话人转换点检测。

目前，说话人转换点检测的方法通常有：基于说话人分类器的检测方法，由于该方法是多步骤串联的管道式方案，导致整个检测方案的实现相对复杂，不能实现各个部分的整体优化，同时，由于该方法需要预先将交互语音切割成固定长度的语音段，这使得转换点检测的精度受限于语音段的切割长度，此外，该方法也无法检测出同一个音频段内部中说话人快速转换的时间点，导致检测结果不够准确。

发明内容

本申请实施例的主要目的在于提供一种说话人转换点检测方法、装置、设备及存储介质，能够有效提高交互语音中说话人转换点检测结果的准确性。

第一方面，本申请实施例提供了一种说话人转换点检测方法，包括：

获取待检测的目标语音数据；并从所述目标语音数据中，提取表征所述目标语音数据的声学信息的声学特征；

对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量；

基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列；

根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳。

第二方面，本申请实施例提供一种说话人转换点检测装置，所述装置包括：

第一获取单元，用于获取待检测的目标语音数据；并从所述目标语音数据中，提取表征所述目标语音数据的声学信息的声学特征；

编码单元，用于对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量；

发放单元，用于基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列；

确定单元，用于根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括：处理器和存储器；

所述存储器，用于存储指令或计算机程序；

所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行上述说话人转换点检测方法中的任意一种实现方式。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述说话人转换点检测方法中的任意一种实现方式。

本申请实施例提供的一种说话人转换点检测方法、装置、存储介质及设备，首先获取待检测的目标语音数据；并从目标语音数据中提取表征目标语音数据的声学信息的声学特征，然后对该声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量，接着，基于CIF对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列，进而可以根据该说话人表征序列，确定说话人转换点对应的时间戳。可见，由于本申请实施例是模拟人脑对信息处理的方式，利用CIF对目标语音数据中逐帧累积的说话人表征向量进行充分整合发放，从而能够有效提高交互类型的目标语音数据中说话人转换点检测结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种说话人转换点检测方法的流程示意图；

图2为本申请实施例提供的基于CIF对目标语音数据的语音帧级别的说话人表征向量进行整合发放的结构示意图；

图3为本申请实施例提供的说话人转换点检测模型的结构示意图；

图4为本申请实施例提供的构建说话人转换点检测模型的流程示意图；

图5为本申请实施例提供的验证说话人转换点检测模型的流程示意图；

图6为本申请实施例提供的一种说话人转换点检测装置的组成示意图；

图7为本申请实施例提供的一种电子设备的基本结构的示意图。

具体实施方式

随着网络技术的快速发展，以及各种智能终端设备和应用软件的日益普及，语音交互作为下一代人机交互方式，能够为人们的生活带来极大的便利，但其中也需要对交互语音段中的说话人转换点进行准确检测。目前说话人转换点检测的方法通常包括以下两种：

第一种是基于说话人分类器的检测方法。具体为：首先利用说话人分类的方式训练一个说话人的特征提取器；然后，将一段长时间的、具有多个说话人的语音切割成固定窗长的多个语音段；接着，利用已经预训练完成的说话人特征提取器提取出每一个语音段的说话人的表征向量，进而可以通过比较相邻语音段的说话人表征的差异来判断是否发生了说话人转换，比如，当相邻两个语音段的说话人表征的差异超过某个阈值，则可以认为在这两个语音段之间发生说话人转换。可见，由于该检测方法是多步骤串联的管道式方案，导致整个检测方案的实现相对复杂，不能实现各个部分的整体优化，同时，由于该检测方法需要预先将语音切割成多个固定长度的语音段，这使得说话人转换点检测的精度受限于语音段的切割长度，此外，该方法也无法检测出同一个音频段内部中说话人快速转换的时间点，导致检测结果不够准确。

第二种检测方法是将说话人转换点检测任务转换为语音帧级别的二分类任务，其中，对于每一帧语音的检测结果(包括0和1)，‘0’代表非转换点，‘1’代表转换点，由此，可以通过端到端的方式完成说话人转换点检测任务的训练和推理过程，该检测方法虽然能实现语音帧级别的转换点检测，但该检测方法的缺点是在检测过程中，没有模拟人脑对信息处理的方式，从而无法实现对语音信息的累积过程的处理，进而也会导致检测结果不够准确。

为解决上述缺陷，本申请提供了一种说话人转换点检测方法，首先获取待检测的目标语音数据；并从目标语音数据中提取表征目标语音数据的声学信息的声学特征，然后对该声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量，接着，基于CIF对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列，进而可以根据该说话人表征序列，确定说话人转换点对应的时间戳。可见，由于本申请实施例是模拟人脑对信息处理的方式，利用CIF对目标语音数据中逐帧累积的说话人表征向量进行充分整合发放，从而能够有效提高交互类型的目标语音数据中说话人转换点检测结果的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种说话人转换点检测方法的流程示意图，该方法包括以下步骤：

S101：获取待检测的目标语音数据；并从目标语音数据中，提取表征目标语音数据的声学信息的声学特征。

在本实施例中，将采用本实施例进行说话人转换点检测的任一具有多个说话人的交互语音数据定义为目标语音数据。并且，本实施例不限制目标语音数据的语种类型，比如，目标语音数据可以是中文语音数据、或英文语音数据等；同时，本实施例也不限制目标语音数据的长度，比如，目标语音数据可以是一段话、或多段话等。

可以理解的是，目标语音数据可以根据实际需要，通过录音等方式获得，例如，人们日常生活中的电话通话语音、或者会议录音等均可作为目标语音数据，在获取到目标语音数据后，可以利用本实施例提供的方案实现对该目标语音数据中说话人转换点的检测。

进一步的，在获取到待检测的目标语音数据后，为了准确检测出目标语音中说话人转换点对应的时间戳，需要利用特征提取方法，提取出表征目标语音数据的声学信息的声学特征，并将该声学特征作为检测依据，用以通过后续步骤S102-S104，实现对目标语音中说话人转换点的有效检测。

具体来讲，在提取目标语音数据的声学特征时，首先需要对目标语音数据进行分帧处理，得到对应的语音帧序列，然后再对分帧后的语音帧序列进行预加重；进而再依次提取出每一语音帧的声学特征，其中，该声学特征指的是用于表征对应语音帧的声学信息的特征数据，比如，可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)特征或感知线性预测(Perceptual Linear Predictive，简称PLP)特征等。

需要说明的是，本申请实施例并不限定目标语音的声学特征的提取方法，也不限定具体的提取过程，可根据实际情况选择适当的提取方法，以及进行相应的特征提取操作。

S102：对目标语音数据的声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量。

在本实施例中，通过步骤S101获取到待检测的目标语音数据并提取出其对应的声学特征后，为了准确确定出目标语音数据中的说话人转换点，进一步还需要对目标语音数据的声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量，用以通过后续步骤S103-S104，实现对目标语音数据中的说话人转换点的准确检测。

其中，一种可选的实现方式是，本步骤S102的实现过程具体可以包括：将目标语音数据的声学特征输入双向长短期记忆网络(Bi-directional Long Short-Term Memory，简称BiLSTM)进行编码处理，得到表征目标语音数据的上下文语音信息的语音帧级别的说话人表征向量，此处将其定义为H，并将其中每一语音帧级别的说话人表征向量定义为h。

在本实现方式中，利用Bi-LSTM对目标语音数据的声学特征(如MFCC)进行编码处理，能够利用Bi-LSTM的网络特性，在对目标语音数据中每一帧语音数据的声学特征进行编码时，充分考虑到该帧语音数据的上下文各语音帧对其的影响，并将Bi-LSTM的最后一层隐层输出的特征向量作为目标语音数据对应的说话人表征向量，来表征目标语音数据包含的上下文语音信息。从而得到了表征目标语音数据的上下文语音信息的语音帧级别的说话人表征向量H，用以执行后续步骤S103。

S103：基于连续整合发放机制CIF，对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列。

在本实施例中，通过步骤S102对目标语音数据的声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量H后，为了准确确定出目标语音数据中的说话人转换点，可以通过模拟人脑对信息处理的方式，利用连续整合发放机制(ContinuousIntegrate-and-Fire，简称CIF)对目标语音数据中逐帧累积的说话人表征向量进行充分整合发放，以确定出得到目标语音数据中以说话人转换点为边界的说话人表征序列(此处将其定义为E)，即，在确定出有说话人转换时，以该时刻对应的说话人转换点为边界，将累积的说话人表征向量构成的说话人表征序列进行发放。

在本申请实施例的一种可能的实现方式中，本步骤S103的具体实现过程可以包括下述步骤S1031-S1033：

步骤S1031：基于连续整合发放机制CIF，计算当前时刻目标语音数据的语音帧级别的说话人表征向量与前一时刻整合后得到的说话人表征序列之间的差异量，并将当前时刻得到的差异量与前一时刻得到的差异量进行求和计算，得到当前时刻差异量的总和。

在本实现方式中，如图2所示，将当前时刻定义为第t时刻，并将当前时刻目标语音数据的语音帧级别的说话人表征向量定义为h_t，以及将前一时刻整合后得到的说话人表征序列定义为e_t-1，则基于CIF，可以计算出当前时刻目标语音数据的语音帧级别的说话人表征向量h_t与前一时刻(即第t-1时刻)整合后得到的说话人表征序列e_t-1之间的差异量为w_t，具体计算公式如下：

w_t＝[1-cos(h_t,e_t-1)]/2 (1)

其中，前一时刻(即第t-1时刻)整合后得到的说话人表征序列e_t-1的计算结果可根据第t-2时刻整合后得到的说话人表征序列e_t-2，利用后续计算公式(3)计算得到。可以理解的是，若当前时刻为初始时刻，即第t时刻为初始时刻，则e_t-1为0向量。

同理，利用相同的计算方式，可以得到第t-1时刻及之前任意时刻的差异量，在此基础上，可以将逐一时刻得到的差异量进行累加求和，得到差异量的总和，并将其定义为w^a，可以理解的是，差异量的初始值为0，即，在初始时刻，通过逐一时刻的累加后，可以得到第t-1时刻的差异量总和为/>第t时刻(即当前时刻)的差异量总和为/>具体计算公式如下：

其中，表示第t时刻的差异量总和；/>表示第t-1时刻的差异量总和；w_t表示第t时刻目标语音数据的语音帧级别的说话人表征向量h_t与第t-1时刻整合后得到的说话人表征序列e_t-1之间的差异量，具体取值可根据上述公式(1)得到；α指的是一个大于0小于1的标量，作为调整系数，用于泄露整合过程中的无效差异量，防止将整合过程中出现积少成多的无效差异量，这是因为在对目标语音数据进行整合时，即使没有说话人转换，在每一时刻也还是能够累积少量的差异信息，只要时间足够长，使得差异量达到预设阈值，则一定会将该时刻目标语音数据对应的说话人表征序列作为以说话人转换点为边界的说话人表征序列进行发放，但这种发放是无效的发放，进而导致得到错误的说话人转的，所以需要通过调整系数α将整合过程中的无效差异量泄露，避免产生错误的检测结果。

步骤S1032：基于连续整合发放机制CIF，根据差异大少整合、差异小多整合的原则，利用当前时刻目标语音数据的语音帧级别的说话人表征向量和前一时刻整合后得到的说话人表征序列，计算得到当前时刻目标语音数据对应的说话人表征序列。

在本实现方式中，如图2所示，为了确定出更为准确的说话人转换点，需要利用CIF发放更为准确的说话人表征序列，由此，为了提高累积的说话人表征序列的准确性，可以根据差异大少整合，差异小多整合的原则，基于CIF，利用当前时刻(即第t时刻)目标语音数据的语音帧级别的说话人表征向量h_t与前一时刻(第t-1时刻)整合后得到的说话人表征序列e_t-1，计算出得到当前时刻(即第t时刻)目标语音数据对应的说话人表征序列，具体计算公式如下：

其中，e_t表示第t时刻目标语音数据对应的说话人表征序列；w_t表示第t时刻目标语音数据的语音帧级别的说话人表征向量h_t与第t-1时刻整合后得到的说话人表征序列e_t-1之间的差异量，具体取值可根据上述公式(1)得到；e_t-1表示第t-1时刻整合后得到的说话人表征序列，具体结果可根据第t-2时刻整合后得到的说话人表征序列e_t-2得到，可以理解的是，若当前时刻为初始时刻，即第t时刻为初始时刻，则e_t-1为0向量，且w_t为0，e_t即为h_t。

这样，通过上述公式(3)可以逐一时刻对目标语音数据对应的说话人表征序列进行更新，其中，1-w_t作为调整系数，充分体现了差异大少整合、差异小多整合的整合原则，具体的，若第t时刻得到差异量w_t较大，则表明h_t和e_t很大可能不属于一个说话人，此时，很可能是检测到的说话人转换点，为了保证累积的说话人表征序列e_t的准确性，应该尽量减少将h_t整合到e_t中；反之，若第t时刻得到差异量w_t较小，则表明h_t和e_t很大可能是属于一个说话人的，且此时并不是检测到的说话人转换点，由此，为了保证累积的说话人表征序列e_t的准确性，应该尽可能的将h_t整合到e_t中。

需要说明的是，如图2所示，上述公式(3)分母中的部分以及e_t-1的系数作为冲量系数，用于实现归一化，以防止说话人表征序列的波动过大。

步骤S1033：判断当前时刻差异量的总和是否超过预设阈值，若是，则将当前时刻目标语音数据对应的说话人表征序列作为以说话人转换点为边界的说话人表征序列进行发放。

在本实现方式中，通过步骤S1031确定出当前时刻(即第t时刻)的差异量总和为后，进一步可以判断出/>是否超过预设阈值(具体取值可根据实际情况和经验值进行设定，本申请实施例对此不进行限定，比如可将该预设阈值设定为1等)，若是，则将通过步骤S1032确定出的当前时刻目标语音数据对应的说话人表征序列e_t作为以说话人转换点为边界的说话人表征序列进行发放，并在发放后，将当前时刻目标语音数据对应的说话人表征序列e_t置为零，重新进行下一次的整合发放，以确定下一个以说话人转换点为边界的说话人表征序列e。

或者，一种可选的实现方式是，若判断出未超过预设阈值，则重新执行基于CIF计算下一时刻目标语音数据的语音帧级别的说话人表征向量h_t+1与当前时刻整合后得到的说话人表征序列e_t之间的差异量w_t+1及后续步骤，直至得到超过预设阈值的差异量的总和w^a以及对应时刻以说话人转换点为边界的说话人表征序列e进行发放。

S104：根据目标语音数据中以说话人转换点为边界的说话人表征序列，确定说话人转换点对应的时间戳。

在本实施例中，通过步骤S103得到目标语音数据中以说话人转换点为边界的说话人表征序列后，进一步可以对目标语音数据中以说话人转换点为边界的说话人表征序列进行解码处理，以根据解码结果预测出各个说话人转换点对应的时间戳和对应的说话人。

举例说明：假设通过步骤S103得到的目标语音数据(时长为60秒)中以说话人转换点为边界的说话人表征序列E包括了4个表征向量，分别为e₁、e₂、e₃、e₄，在将这四个表征向量组成的表征序列E输入解码器(或分类器)后，将根据解码结果预测出发放e₁的时间戳(如目标语音数据的第10秒)作为第一个说话人转换点，且e₁对应的说话人为第一说话人(此处将其定义为S1)；将根据解码结果预测出发放e₂的时间戳(如目标语音数据的第17秒)作为第二个说话人转换点，且e₂对应的说话人为第二说话人(此处将其定义为S2)、将根据解码结果预测出发放e₃的时间戳(如目标语音数据的第44秒)作为第三个说话人转换点，且e₃对应的说话人为第三说话人(此处将其定义为S3)、以及将根据解码结果预测出发放e₄的时间戳为目标语音数据的结束时刻(即目标语音数据结束的后1秒)，且e₄对应的说话人为第一说话人(即S1)。

可见，上述示例中包含了3个说话人转换点对应的时间戳，分别为目标语音数据的第10秒、目标语音数据的第17秒、目标语音数据的第44秒，且对应的三个说话人分别为S1、S2、S3，这三个说话人在60秒的目标语音数据中的语音交互顺序分别为S1、S2、S3、S1，即第10秒由S1转换为S2，第17秒由S2转换为S3，第44秒由S3转换为S1，直至结束。

需要说明的是，在本实施例的一种可能的实现方式中，在通过上述步骤S101获取到待检测的目标语音数据并提取出其对应的声学特征后，还可以利用预先构建说话人转换点检测模型对目标语音数据的声学特征进行检测处理，得到目标语音数据中说话人转换点对应的时间戳，具体实现过程请参见第二实施例。

需要说明的是，对于说话人转换点检测模型的具体构建过程，也可参见后续第二实施例的相关介绍。

综上，本实施例提供的一种说话人转换点检测方法，首先获取待检测的目标语音数据；并从目标语音数据中提取表征目标语音数据的声学信息的声学特征，然后对该声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量，接着，基于CIF对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列，进而可以根据该说话人表征序列，确定说话人转换点对应的时间戳。可见，由于本申请实施例是模拟人脑对信息处理的方式，利用CIF对目标语音数据中逐帧累积的说话人表征向量进行充分整合发放，从而能够有效提高交互类型的目标语音数据中说话人转换点检测结果的准确性。

第二实施例

本实施例首先将对第一实施例中提及的利用预先构建的说话人转换点检测模型对目标语音数据的声学特征进行检测处理，得到目标语音数据中说话人转换点对应的时间戳的具体实施方式进行介绍，该实现流程包括以下步骤A-C：

步骤A：利用预先构建的说话人转换点检测模型中的BiLSTM模块，对目标语音数据的声学特征进行编码处理，得到目标语音数据的语音帧级别的说话人表征向量。

在本实施例中，在提取出目标语音数据的声学特征后，首先可以利用预先构建的说话人转换点检测模型中的BiLSTM模块，对目标语音数据的声学特征进行编码处理，并将Bi-LSTM模块的最后一层隐层输出的特征向量作为目标语音数据对应的说话人表征向量，来表征目标语音数据包含的上下文语音信息。从而得到了表征目标语音数据的上下文语音信息的语音帧级别的说话人表征向量H，并进一步将其输入至说话人转换点检测模型中的CIF模块。

其中，预先构建的说话人转换点检测模型的组成结构如图3所示，该检测模型包括BiLSTM模块、CIF模块、分类器(Classifier)以及图3中未示出的全连接层(fullyconnected layer)和输出层。

步骤B：利用预先构建的说话人转换点检测模型中的CIF模块，对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列。

在本实施例中，通过步骤A得到说话人转换点检测模型中的BiLSTM模块输出的目标语音数据的语音帧级别的说话人表征向量H，并将其输入至说话人转换点检测模型中的CIF模块后，可以利用该CIF模块对目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到目标语音数据中以说话人转换点为边界的说话人表征序列E，并将其输入至说话人转换点检测模型中的分类器(即如图3中所示的Classifier模块)。其中，具体的整合发放过程可以参见上述步骤S103的详细介绍，在此不再赘述。

步骤C：将目标语音数据中以说话人转换点为边界的说话人表征序列，输入预先构建的说话人转换点检测模型中的分类器进行解码，以根据解码结果预测出各个说话人转换点对应的时间戳和对应的说话人。

在本实施例中，通过步骤B得到目标语音数据中以说话人转换点为边界的说话人表征序列E，并将其输入至说话人转换点检测模型中的分类器(即如图3中所示的Classifier模块)后，可以利用该分类器对目标语音数据中以说话人转换点为边界的说话人表征序列E进行解码，得到解码结果，并根据解码结果预测出各个说话人转换点对应的时间戳和对应的说话人(即如图3中所示的Sequence of Speakers)。

接下来，本实施例将对上述实施例中提及的说话人转换点检测模型的构建过程进行介绍。

参见图4，其示出了本实施例提供的构建说话人转换点检测模型的流程示意图，该流程包括以下步骤：

S401：获取样本语音数据；并从样本语音数据中，提取表征样本语音数据的声学信息的声学特征。

在本实施例中，为了构建说话人转换点检测模型，需要预先进行大量的准备工作，首先，需要收集大量具有多个说话人的交互语音数据，比如，可以通过麦克风阵列拾音，拾音设备可以是平板电脑，亦或是智能硬件设备，如智能音响、电视和空调等，通常需要收集至少数千小时的交互语音数据，并对其进行降噪处理，这些交互语音数据可覆盖多种应用场景(如电话沟通、课堂交流等)，进而可以将收集到的具有多个说话人的各条交互语音数据分别作为样本语音数据，同时，预先通过人工标注出这些样本语音数据对应的说换人转点对应的时间戳，用以训练说话人转换点检测模型。

并且，在本实施例中，在获取到样本语音数据后，并不能直接用于训练生成说话人转换点检测模型，而是需要采用与第一实施例步骤S101中提及的提取目标语音数据的声学特征类似的方法，将目标语音数据对替换为样本语音数据，即可提取出各条样本语音数据的声学特征，相关之处请参见第一实施例的介绍，在此不再赘述。

S402：根据样本语音数据的声学特征以及样本语音数据对应的说话人检测标签对初始说话人转换点检测模型进行训练，生成说话人转换点检测模型。

在本实施例中，通过步骤S401获取到样本语音数据并从中提取出声学特征后，在进行本轮训练时，可以将第一实施例中目标语音数据替换为本轮获取的样本语音数据，通过当前的初始说话人转换点检测模型，按照上述步骤A-C中的执行过程，便可以输出该样本语音数据对应的说话人转换点检测结果。

具体地，按照上述步骤A-C，便可以在提取出样本语音数据的声学特征后，通过初始说话人转换点检测模型确定出样本语音数据对应的说话人转换点检测结果。然后，可以将该检测结果与样本语音数据对应的人工标注的说换人转点对应的时间戳进行比较，并根据二者的差异对模型参数进行更新，直至满足预设的条件，比如达到预设训练次数，则停止模型参数的更新，完成说话人转换点检测模型的训练，生成一个训练好的说话人转换点检测模型。

需要说明的是，为了提高模型的检测准确率，在训练过程中，一种可选的实现方式是，可以利用给定的目标函数，来构建说话人转换点检测模型，并更新模型的网络参数，以提高模型的检测准确率。其中，目标函数用于降低多个说话人的多标签分类(即每一说话人对应一类标签，则多个说话人对应了多标签分类)的损失、且用于降低CIF模块发放数量的数量损失、以及用于增强语音帧级别的说话人表征向量的深度聚类损失。从而可以在设定了目标函数后，通过对模型进行多轮训练，并在每轮训练后根据目标函数的取值，更新模型的网络参数，直至目标函数的取值最小且基本不变时，表明模型已训练完成，此时即可停止对模型网络参数的更新。

具体来讲，为了训练出检测效果更为准确的说话人转换点检测模型，在训练过程中，对于模型的训练，本实施例采用的目标函数如下：

L＝L_bce+L_count+L_dpcl (4)

其中，L表示在模型训练过程中本实施例采用的目标函数；L_bce表示在模型训练过程中多个说话人的多标签分类(即每一说话人对应一类标签)的损失；L_count表示在模型训练过程中CIF模块发放数量的数量损失；L_dpcl表示在模型训练过程中语音帧级别的说话人表征向量的深度聚类损失。

在使用上述公式(4)中的目标函数对说话人转换点检测模型进行训练时，可以根据L值的变化，对模型参数进行不断更新，直至L值满足要求，比如变化幅度很小，则停止模型参数的更新，完成说话人转换点检测模型的训练。

上述公式(4)中多标签分类的损失L_bce的具体计算公式如下：

其中，C表示在模型训练过程中包含的说话人个数(即说话人的类别数量)；y表示标签对应的0或1两个取值，且0或1分别表示是否包含对应的说话人；p表示模型的输出概率，且p_i表示对应的样本语音数据属于第i个说话人的概率；ω_i表示第i个说话人在整个多标签分类的损失L_bce中所占的比重，具体取值可根据实际情况和经验值来设定，本申请实施例对此不进行设定，比如，可将其默认设置为1等。

上述公式(4)中CIF模块发放数量的数量损失L_count的具体计算公式如下：

L_count＝|N-sum_a| (6)

其中，N表示在模型训练过程时样本语音数据中说话人转换的数量；sum_a表示对样本语音数据的语音帧级别的说话人表征向量进行整合发放的整个处理过程中差异量的累积和。

上述公式(4)中语音帧级别的说话人表征向量的深度聚类损失L_dpcl的具体计算公式如下：

v_t＝Normalize(Tanh(Linear(h_t))) (8)

其中，h_t表示在模型训练过程时样本语音数据的语音帧级别的说话人表征向量；Linear()表示经过一个线性放射层的处理；Tanh()表示经过双曲正切的处理；Normalize()表示是归一化操作；l表示说话人的标签，可取值为0或1，并分别表示是否包含对应的说话人。

通过上述实施例，可以根据样本语音数据训练生成说话人转换点检测模型，进一步的，还可以利用验证语音数据对生成的说话人转换点检测模型进行验证。具体验证过程可以包括下述步骤S501-S503：

S501：获取验证语音数据；并从验证语音数据中，提取表征验证语音数据的声学信息的声学特征。

在本实施例中，为了实现对说话人转换点检测模型进行验证，首先需要获取验证语音数据，其中，验证语音数据指的是可以用来进行说话人转换点检测模型验证的音频信息，在获取到这些验证语音数据后，并不能直接用于验证说话人转换点检测模型，而是需要先提取出表征验证语音数据的声学信息的声学特征(如MFCC)，然后再根据该验证语音数据的声学特征，验证得到的说话人转换点检测模型。

S502：将验证语音数据的声学特征输入说话人转换点检测模型，获得验证语音数据的说话人转换点检测结果。

在本实施例中，通过步骤S501获取到验证语音数据并提取出验证语音数据的声学特征后，进一步的，可以将验证语音数据的声学特征输入说话人转换点检测模型，获得验证语音数据的说话人转换点检测结果，用以执行后续步骤S503。

S503：当验证语音数据的说话人转换点检测结果与验证语音数据对应的说话人转换点标记结果不一致时，将验证语音数据重新作为样本语音数据，对说话人转换点检测模型进行更新。

在本实施例中，通过步骤S502获得验证语音数据的说话人转换点检测结果后，若验证语音数据的说话人转换点检测结果与验证语音数据对应的人工标注的转换点(对应的时间戳)标记结果不一致，则可以将验证语音数据重新作为样本语音数据，对说话人转换点检测模型进行参数更新。

通过上述实施例，可以利用验证语音数据对说话人转换点检测模型进行有效验证，当验证语音数据的说话人转换点检测结果与验证语音数据对应的人工标注的转换点(对应的时间戳)标记结果不一致时，可以及时调整更新说话人转换点检测模型，进而有助于提高检测模型的检测精度和准确性。

综上，利用本实施例训练而成的说话人转换点检测模型，可以模拟人脑对信息处理的方式，对交互语音数据中逐帧累积的说话人表征向量进行充分整合发放，从而能够有效提高交互语音数据中说话人转换点检测结果的准确性。

第三实施例

本实施例将对一种说话人转换点检测装置进行介绍，相关内容请参见上述方法实施例。

参见图6，为本实施例提供的一种说话人转换点检测装置的组成示意图，该装置600包括：

第一获取单元601，用于获取待检测的目标语音数据；并从所述目标语音数据中，提取表征所述目标语音数据的声学信息的声学特征；

编码单元602，用于对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量；

发放单元603，用于基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列；

确定单元604，用于根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳。

在本实施例的一种实现方式中，所述编码单元602具体用于：

将所述目标语音数据的声学特征输入双向长短期记忆网络BiLSTM进行编码处理，得到表征所述目标语音数据的上下文语音信息的语音帧级别的说话人表征向量。

在本实施例的一种实现方式中，所述发放单元603包括：

第一计算子单元，用于基于连续整合发放机制CIF，计算当前时刻所述目标语音数据的语音帧级别的说话人表征向量与前一时刻整合后得到的说话人表征序列之间的差异量，并将当前时刻得到的差异量与前一时刻得到的差异量进行求和计算，得到当前时刻差异量的总和；

第二计算子单元，用于基于连续整合发放机制CIF，根据差异大少整合、差异小多整合的原则，利用当前时刻所述目标语音数据的语音帧级别的说话人表征向量和前一时刻整合后得到的说话人表征序列，计算得到当前时刻所述目标语音数据对应的说话人表征序列；

第一发放子单元，用于判断当前时刻差异量的总和是否超过预设阈值，若是，则将当前时刻所述目标语音数据对应的说话人表征序列作为以说话人转换点为边界的说话人表征序列进行发放。

在本实施例的一种实现方式中，所述发放单元603还包括：

第二发放子单元，用于判断当前时刻差异量的总和是否超过预设阈值，若否，则重新调用第一计算子单元和第二计算子单元，执行基于连续整合发放机制CIF，计算下一时刻所述目标语音数据的语音帧级别的说话人表征向量与当前时刻整合后得到的说话人表征序列之间的差异量及后续步骤，直至得到超过预设阈值的差异量的总和以及对应时刻以说话人转换点为边界的说话人表征序列。

在本实施例的一种实现方式中，所述确定单元604具体用于：

对所述目标语音数据中以说话人转换点为边界的说话人表征序列进行解码处理，以根据解码结果预测出各个说话人转换点对应的时间戳和对应的说话人。

在本实施例的一种实现方式中，所述编码单元602具体用于：

利用预先构建的说话人转换点检测模型中的BiLSTM模块，对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量。

在本实施例的一种实现方式中，所述发放单元603具体用于：

利用预先构建的说话人转换点检测模型中的CIF模块，对所述目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列。

在本实施例的一种实现方式中，所述确定单元604具体用于：

将所述目标语音数据中以说话人转换点为边界的说话人表征序列，输入预先构建的说话人转换点检测模型中的分类器进行解码，以根据解码结果预测出各个说话人转换点对应的时间戳和对应的说话人。

在本实施例的一种实现方式中，所述装置还包括：

第二获取单元，用于获取样本语音数据；并从所述样本语音数据中，提取表征所述样本语音数据的声学信息的声学特征；

训练单元，用于根据所述样本语音数据的声学特征以及所述样本语音数据对应的说话人检测标签对初始说话人转换点检测模型进行训练，生成所述说话人转换点检测模型。

在本实施例的一种实现方式中，所述装置还包括：

第三获取单元，用于获取验证语音数据；并从所述验证语音数据中，提取表征所述验证语音数据的声学信息的声学特征；

获得单元，用于将所述验证语音数据的声学特征输入所述说话人转换点检测模型，获得所述验证语音数据的说话人转换点检测结果；

更新单元，用于当所述验证语音数据的说话人转换点检测结果与所述验证语音数据对应的说话人转换点标记结果不一致时，将所述验证语音数据重新作为所述样本语音数据，对所述说话人转换点检测模型进行更新。

在本实施例的一种实现方式中，所述说话人转换点检测模型是采用目标函数训练得到的，所述目标函数用于降低多个说话人的多标签分类的损失、且用于降低CIF模块发放数量的数量损失、以及用于增强语音帧级别的说话人表征向量的深度聚类损失。

进一步地，本申请实施例还提供了一种电子设备，所述电子设备包括：处理器和存储器；

所述存储器，用于存储指令或计算机程序；

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述说话人转换点检测方法的任意一种实现方法。

下面参考图7，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，也可以包括服务器设备。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

根据本公开的一个或多个实施例，【示例一】提供了一种说话人转换点检测方法，所述方法包括：

根据本公开的一个或多个实施例，【示例二】提供了一种说话人转换点检测方法，所述对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量，包括：

根据本公开的一个或多个实施例，【示例三】提供了一种说话人转换点检测方法，所述基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列，包括：

基于连续整合发放机制CIF，计算当前时刻所述目标语音数据的语音帧级别的说话人表征向量与前一时刻整合后得到的说话人表征序列之间的差异量，并将当前时刻得到的差异量与前一时刻得到的差异量进行求和计算，得到当前时刻差异量的总和；

基于连续整合发放机制CIF，根据差异大少整合、差异小多整合的原则，利用当前时刻所述目标语音数据的语音帧级别的说话人表征向量和前一时刻整合后得到的说话人表征序列，计算得到当前时刻所述目标语音数据对应的说话人表征序列；

判断当前时刻差异量的总和是否超过预设阈值，若是，则将当前时刻所述目标语音数据对应的说话人表征序列作为以说话人转换点为边界的说话人表征序列进行发放。

根据本公开的一个或多个实施例，【示例四】提供了一种说话人转换点检测方法，所述方法还包括：

判断当前时刻差异量的总和是否超过预设阈值，若否，则重新执行基于连续整合发放机制CIF，计算下一时刻所述目标语音数据的语音帧级别的说话人表征向量与当前时刻整合后得到的说话人表征序列之间的差异量及后续步骤，直至得到超过预设阈值的差异量的总和以及对应时刻以说话人转换点为边界的说话人表征序列。

根据本公开的一个或多个实施例，【示例五】提供了一种说话人转换点检测方法，所述根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳，包括：

根据本公开的一个或多个实施例，【示例六】提供了一种说话人转换点检测方法，所述对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量，包括：

根据本公开的一个或多个实施例，【示例七】提供了一种说话人转换点检测方法，所述基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列，包括：

根据本公开的一个或多个实施例，【示例八】提供了一种说话人转换点检测方法，所述根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳，包括：

根据本公开的一个或多个实施例，【示例九】提供了一种说话人转换点检测方法，所述说话人转换点检测模型的构建方式如下：

获取样本语音数据；并从所述样本语音数据中，提取表征所述样本语音数据的声学信息的声学特征；

根据所述样本语音数据的声学特征以及所述样本语音数据对应的说话人检测标签对初始说话人转换点检测模型进行训练，生成所述说话人转换点检测模型。

根据本公开的一个或多个实施例，【示例十】提供了一种说话人转换点检测方法，所述方法还包括：

获取验证语音数据；并从所述验证语音数据中，提取表征所述验证语音数据的声学信息的声学特征；

将所述验证语音数据的声学特征输入所述说话人转换点检测模型，获得所述验证语音数据的说话人转换点检测结果；

当所述验证语音数据的说话人转换点检测结果与所述验证语音数据对应的说话人转换点标记结果不一致时，将所述验证语音数据重新作为所述样本语音数据，对所述说话人转换点检测模型进行更新。

根据本公开的一个或多个实施例，【示例十一】提供了一种说话人转换点检测方法，所述说话人转换点检测模型是采用目标函数训练得到的，所述目标函数用于降低多个说话人的多标签分类的损失、且用于降低CIF模块发放数量的数量损失、以及用于增强语音帧级别的说话人表征向量的深度聚类损失。

根据本公开的一个或多个实施例，【示例十二】提供了一种说话人转换点检测装置，所述装置包括：

根据本公开的一个或多个实施例，【示例十三】提供了一种说话人转换点检测装置，所述编码单元具体用于：

根据本公开的一个或多个实施例，【示例十四】提供了一种说话人转换点检测装置，所述发放单元包括：

根据本公开的一个或多个实施例，【示例十五】提供了一种说话人转换点检测装置，所述发放单元还包括：

根据本公开的一个或多个实施例，【示例十六】提供了一种说话人转换点检测装置，所述确定单元具体用于：

根据本公开的一个或多个实施例，【示例十七】提供了一种说话人转换点检测装置，所述编码单元具体用于：

根据本公开的一个或多个实施例，【示例十八】提供了一种说话人转换点检测装置，所述发放单元具体用于：

根据本公开的一个或多个实施例，【示例十九】提供了一种说话人转换点检测装置，所述确定单元具体用于：

根据本公开的一个或多个实施例，【示例二十】提供了一种说话人转换点检测装置，所述装置还包括：

根据本公开的一个或多个实施例，【示例二十一】提供了一种说话人转换点检测装置，所述装置还包括：

根据本公开的一个或多个实施例，【示例二十二】提供了一种说话人转换点检测装置，所述说话人转换点检测模型是采用目标函数训练得到的，所述目标函数用于降低多个说话人的多标签分类的损失、且用于降低CIF模块发放数量的数量损失、以及用于增强语音帧级别的说话人表征向量的深度聚类损失。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人转换点检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合发放，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述目标语音数据的声学特征进行编码处理，得到所述目标语音数据的语音帧级别的说话人表征向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于连续整合发放机制CIF，对所述目标语音数据的语音帧级别的说话人表征向量进行整合，得到所述目标语音数据中以说话人转换点为边界的说话人表征序列，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标语音数据中以说话人转换点为边界的说话人表征序列，确定所述说话人转换点对应的时间戳，包括：

9.根据权利要求8所述的方法，其特征在于，所述说话人转换点检测模型的构建方式如下：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.根据权利要求6-10任一项所述的方法，其特征在于，所述说话人转换点检测模型是采用目标函数训练得到的，所述目标函数用于降低多个说话人的多标签分类的损失、且用于降低CIF模块发放数量的数量损失、以及用于增强语音帧级别的说话人表征向量的深度聚类损失。

12.一种说话人转换点检测装置，其特征在于，所述装置包括：

13.一种电子设备，所述电子设备包括：处理器和存储器；

所述存储器，用于存储指令或计算机程序；

所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-11任一项所述的方法。