CN112735384B

CN112735384B - 应用于说话人分离的转折点检测方法、装置以及设备

Info

Publication number: CN112735384B
Application number: CN202011581942.5A
Authority: CN
Inventors: 王泽玉; 高天; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-07-05
Anticipated expiration: 2040-12-28
Also published as: CN112735384A

Abstract

本发明公开了一种应用于说话人分离的转折点检测方法、装置以及设备，本发明的构思在于为转折点检测网络引入文本信息，尤其是引入辅助检测信息，从而减少不合理预测，特别是能够在保证语义连贯性和停顿合理的同时，对说话人转折点进行更为精准且更贴近自然语言的检测，会使得转折点检测结果在主观感受上的效果更优，进而可以有效改善用户体验。尤其地，通过文本及标点所蕴含的语义信息和断句信息，并结合声学层面的声纹特征共同对基于文本的转折点位置进行甄别，能够为转折点检测网络起到更佳的状态控制作用，使得最终输出的检测结果在综合了多角度的参考后预测精度更高，且更适应于各种复杂场景。

Description

应用于说话人分离的转折点检测方法、装置以及设备

技术领域

本发明涉及语音处理领域，尤其涉及一种应用于说话人分离的转折点检测方法、装置以及设备。

背景技术

近年来，随着语音识别技术的逐渐发展，除了获得音频的识别文本之外，获得识别文本对应的说话人角色信息也成为了自动语音识别技术中一个重要的需求点。

说话人分离技术是为了解决“何人在何时说话”这一问题的，即把混合多个说话人的音频切分成只包含单一说话人的语音片段并确认说话人角色信息。在实际操作中，说话人分离技术可以作为语音识别的预处理过程，将属于同一人的音频抽取出来之后再进行转写，以提高识别效果；也可以作为语言识别的后处理过程，对识别结果进行说话人角色信息标注，例如电话客服场景对客户和客服角色的标注等。

而转折点则是说话人分离技术的一个重要的组成部分，是为了寻找语音流中说话人发生切换的时间点。当确认了说话人转折点之后，就可以对混合多个说话人的音频进行分割，通过对分割音频进行声纹提取以及比对操作即可获得对应的说话人角色信息。当然，对于说话人转折点检测，在基于说话人分离该技术前提下，也可以单独使用转折点将语言识别的混合多个说话人的文本进行区分展示或归档等。

转折点检测的常规方式是基于BIC准则的经典分割方法，并且随着技术更迭到目前已有多种相应的改进算法，其核心构思是计算“存在转折点”和“不存在转折点”两种模型假设的BIC距离。例如基于变窗的BIC分割方法，初始化一个窗并计算两个模型的BIC距离，如果BIC距离超过阈值则认为窗内存在转折点，否则就增加窗长直到检测到转折点。

该普遍采用的BIC分割构思是基于单高斯模型假设，通过简单的BIC距离度量，判断在滑窗区间内是否存在说话人转折点，该方式仅针对纯音频在时间域上进行划分，对齐到字域常常会出现精度问题，而且在噪声等复杂场景进行检测会过于敏感，导致虚警较高。

发明内容

鉴于上述，本发明旨在提供一种应用于说话人分离的转折点检测方法、装置以及设备，以及相应地提供了一种计算机可读存储介质和计算机程序产品，用以解决在字域进行转折点定位时精度不高、缺乏语义连贯性的问题。

本发明采用的技术方案如下：

第一方面，本发明提供了一种应用于说话人分离的转折点检测方法，其中，包括：

获取说话人的音频数据以及相应的转写文本；

根据所述音频数据和/或转写文本，得到辅助检测信息；

结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略，确定出所述转写文本中转折点的位置。

在其中至少一种可能的实现方式中，所述得到辅助检测信息包括：

利用所述转写文本以及预设的标点检测策略，得到对应于所述转写文本的标点信息。

在其中至少一种可能的实现方式中，所述利用所述转写文本以及预设的标点检测策略，得到对应于所述转写文本的标点信息包括：

将所述转写文本分词后输入至采用特定网络结构的标点检测模型；

将对应于各分词的所述标点检测模型的输出向量及其相应的中间状态向量进行融合，得到所述标点信息。

在其中至少一种可能的实现方式中，所述结合所述转写文本、所述音频数据以及所述辅助检测信息包括：

将所述转写文本与所述音频数据对齐，并从所述音频数据中提取到对应文本的声学特征；

根据所述声学特征以及预训练的声纹检测策略获取相应的声纹信息；

提取所述转写文本的文本信息；

将所述文本信息、所述声纹信息以及所述标点信息作为所述转折点检测策略的输入变量。

在其中至少一种可能的实现方式中，所述方法还包括：

根据人工经验或所述辅助检测信息的获取过程，预设所述辅助检测信息的信任度；

基于所述信任度确定输入至所述转折点检测策略的所述转写文本、所述音频数据以及所述辅助检测信息的权重。

在其中至少一种可能的实现方式中，所述转折点检测策略采用基于长短期记忆神经网络架构的转折点检测网络；

所述方法还包括：

将所述音频数据的信息作为所述长短期记忆神经网络的原始输入门，将所述转写文本的信息和所述辅助检测信息作为所述长短期记忆神经网络的两个辅助控制门；或者，

将所述音频数据与所述转写文本的信息结合，作为所述长短期记忆神经网络的原始输入门，将所述辅助检测信息作为所述长短期记忆神经网络的辅助控制门。

第二方面，本发明提供了一种应用于说话人分离的转折点检测装置，其中，包括：

音频及文本获取模块，用于获取说话人的音频数据以及相应的转写文本；

辅助检测信息获取模块，用于根据所述音频数据和/或转写文本，得到辅助检测信息；

转折点检测模块，用于结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略，确定出所述转写文本中转折点的位置。

在其中至少一种可能的实现方式中，所述辅助检测信息获取模块包括标点信息检测单元；

所述标点信息检测单元，用于利用所述转写文本以及预设的标点检测策略，得到对应于所述转写文本的标点信息。

在其中至少一种可能的实现方式中，所述标点信息检测单元包括：

标点检测组件，用于将所述转写文本分词后输入至采用特定网络结构的标点检测模型；

标点信息确定组件，用于将对应于各分词的所述标点检测模型的输出向量及其相应的中间状态向量进行融合，得到所述标点信息。

在其中至少一种可能的实现方式中，所述转折点检测模块包括：

声学特征提取单元，用于将所述转写文本与所述音频数据对齐，并从所述音频数据中提取到对应文本的声学特征；

声纹信息检测单元，用于根据所述声学特征以及预训练的声纹检测策略获取相应的声纹信息；

文本信息提取单元，用于提取所述转写文本的文本信息；

网络输入确定单元，用于将所述文本信息、所述声纹信息以及所述标点信息作为所述转折点检测网络的输入变量。

在其中至少一种可能的实现方式中，所述装置还包括：输入变量权重确定模块，所述输入变量权重确定模块具体包括：

信任度预设单元，用于根据人工经验或所述辅助检测信息的获取过程，预设所述辅助检测信息的信任度；

权重确定单元，用于基于所述信任度确定输入至所述转折点检测策略的所述转写文本、所述音频数据以及所述辅助检测信息的权重。

所述装置还包括输入门划分模块；

所述输入门划分模块，用于将所述音频数据的信息作为所述长短期记忆神经网络的原始输入门，将所述转写文本的信息和所述辅助检测信息作为所述长短期记忆神经网络的两个辅助控制门；或者，将所述音频数据与所述转写文本的信息结合，作为所述长短期记忆神经网络的原始输入门，将所述辅助检测信息作为所述长短期记忆神经网络的辅助控制门。

第三方面，本发明提供了一种应用于说话人分离的转折点检测设备，其中，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的至少一种可能的实现方式中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于为转折点检测网络引入文本信息，尤其是引入辅助检测信息，从而减少不合理预测，特别是能够在保证语义连贯性和停顿合理的同时，对说话人转折点进行更为精准且更贴近自然语言的检测，会使得转折点检测结果在主观感受上的效果更优，进而可以有效改善用户体验。

进一步地，通过文本及标点所蕴含的语义信息和断句信息，并结合声学层面的声纹特征共同对基于文本的转折点位置进行甄别，能够为转折点检测网络起到更佳的状态控制作用，使得最终输出的检测结果在综合了多角度的参考后预测精度更高，且更适应于各种复杂场景。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的应用于说话人分离的转折点检测方法的实施例的流程图；

图2为本发明提供的应用于说话人分离的转折点检测装置的实施例的示意图；

图3为本发明提供的应用于说话人分离的转折点检测设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在对本发明具体技术方案介绍之前，先对发明人的处理及推导思路进行如下说明。发明人摒弃常规的BIC分割思路，尝试采用神经网络对转折点进行检测，最初是通过有监督的循环神经网络，将说话人转折点检测任务转换成一个序列标注任务。即输入为语音流提取到的声学特征，输出为0-1标签，有说话人转变的标注为1，没有说话人转变的则标注为0。通过循环神经网络的记忆及序列学习能力，使该网络可以自动学习到转折点位置。但此尝试所依据的仍然是纯音频，并且输出也只是在帧级别的时间域上进行转折点检测，经测试发现，该方式在转折点处切分音频时会导致语义不连贯等新问题的出现。

有鉴于此，发明人考虑在此技术尝试基础上作出进一步改进。具体地，提出了一种应用于说话人分离的转折点检测方法的实施例，参照图1所示，可以包括：

步骤S1、获取说话人的音频数据以及相应的转写文本；

步骤S2、根据所述音频数据和/或转写文本，得到辅助检测信息；

步骤S3、结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略，确定出所述转写文本中转折点的位置。

具体来说，结合说话人分离场景，获取到的说话人音频较佳地可以是指包含多个说话人的混合音频，当然本发明并不排除音频数据仅包含单一说话人，也即是说，在实际测试及运行阶段，可以无需关注所述音频数据中的说话人数量，具体到分出一个或多个说话人是由本发明提出的方案以及后续分离规则等环节实现的。

关于对接收到的音频数据进行语音转写已有大量成熟的语音识别技术可供参考，此处不作赘述；但需要说明的是，本发明的站位点是对文本化的语音内容进行转折点甄别，因而该过程实际目的是为了获得与音频内容对应的文本数据，也即是说在实际操作中，也可以直接输入已然转写完毕的文本数据，而是否需要接收音频数据则可不做限定。

再者，本发明的目的是融合多种信息共同参与对转折点的预测，因而在本实施例中提及要结合转写文本、音频数据，尤其是辅助检测信息，以此三者共同作为用于预测的输入素材。这里的音频数据在前文介绍过，可以站位于发音层面获取相应的声学特征或者更进一步的声纹信息，后文将对此进行具体说明；这里的转写文本可以为转折点检测提供文本层面的基本信息，例如但不限于文本浅层信息、深层的语义信息等，而如何从转写文本提取相应的文本信息已有成熟技术供实施参考，例如通过全连接层将文本映射为多维向量等，此处不作赘述；而关于这里提及的辅助检测信息，顾名思义，则是指在基本的声学以及传统的文本信息之外，额外提供检测辅助的补充信息，对此可以说明如下：

发明人在考虑具体选取何种辅助检测信息作为对转折点检测的补充要素时，分析到识别文本的断句信息可能是一个非常重要的语义信息，因为断句是对句子自然停顿的一种分割，而说话人发生转变切换的位置也多与此特点相关。因而，为了取得更好的检测效果，以满足用户对说话人区分的主观感受，优选考虑但不限于将诸如转写文本的标点信息、VAD结束信息以及发音韵律信息作为转折点检测的补充要素，这些信息可以源自于转写文本、也可以源自于输入音频。通常而言，文本的标点信息其用途是预测出连续文本的标点符号位置所在，VAD结束信息其作用是判断出语音结束的端点位置，而发音韵律信息则主要用来辨识出语音(说话人)的发音特点，本发明在进行上述分析后，考虑将上述几种信息应用在说话人分离的转折点检测上，这样，当采用上述补充要素辅佐转折点检测时，会使得检测出的转折点位置更倾向于出现在语句自然停顿的地方，相比基于时间域及声学角度进行划分的现有方案，本发明提供的解决方案的错误率会明显降低并且在说话人分离后的用户主观感受上更为自然。并且，还可以指出的是，本发明并不排除共同使用上述辅助信息参与转折点检测，当然也可以仅采用其中一种辅助信息参与检测，对此本发明不作限定，但需要提及的是，由于本发明的初衷是站位在字域层面进行转折点检测，因而在某些实施方式中若是利用音频数据获取到辅助检测信息，则需要将音频数据或者是相应得到的辅助检测信息与转写文本进行尺度统一。因此，为了便于对本发明思想进行说明，下文中选择前述基于文本的标点信息作为示意性介绍，但并排除利用音频数据或者利用音频+文本获取辅助检测信息的方式。

关于标点信息的获取方式则可以借鉴多种相关技术，例如，在本发明的其他一些实施例中可以利用前述转写文本以及预设的标点检测策略，得到对应于所述转写文本的标点信息。同时，本领域技术人员可以理解的是，针对前述不同的辅助检测信息，可以相应地采用各自的检测模型，例如但不限于VAD端点检测网络、韵律预测模型等，对此本发明不作限定。

例如，在实际操作中可以采用特定网络结构的所述标点检测模型，例如具有学习历史信息能力的网络结构(BERT或其他结构)预训练一个标点检测模型，利用分词后的转写文本预测当前输入的文本单位之后是否存在标点符号。这里关于分词需要说明的是，基于不同的需求，相应于转折点预测所需场景，可以将转写文本拆分成以字、词、短句等文本单位。

在具体实现中，标点预测模型输出的可以是向量化的标点信息，其包含了特定的语义信息，即前文分析出的断句信息，因而在一些实施例中可以直接将标点预测模型的输出结果作为前述辅助检测信息。但本发明考虑到不仅标点预测模型的最终输出，其中间运算过程中的输出同样包含了断句等语义信息，这对后续转折点检测也具有正面作用，因此在本发明的一些优选实施例中将所述标点检测模型针对每一个文本单位的预测输出向量及其相应的中间状态向量进行融合，得到所述标点信息，从而可以进一步提高后续转折点的检测效果。

举例来说，标点信息集合D＝(d₁，d₂，…，d_k，…，d_K)，其中K为文本序列长度；表示基于当前文本单位可以使用y_k和h_k的拼接来表征标点信息以参与后续转折点检测。其中，y_k可以是1维变量，表征所述标点预测模型针对当前文本单位的输出，和分别表征所述标点预测模型针对当前文本单位的前向及后向的中间隐藏状态。

在获得辅助检测信息(以标点信息为例)后，便可以将所述转写文本、所述音频数据以及所述辅助检测信息作为所述转折点检测策略的输入变量。这其中关于从转写文本中提取文本信息，本发明不作限定，而对于如何将音频数据作为策略输入，则可以具体说明如下：

本发明是将转折点检测任务定性为一个序列标注任务，也即是对于转写文本中的每个文本单位(以字为例)，预测出在该字处发生说话人变化的概率，也即是可以在预建的转折点检测网络的训练阶段标注出0-1序列(即0:该字处不发生说话人转变、1：该字处发生说话人转变)，该输出序列长度是与输入的转写文本长度相一致的，例如输入的转写文本为“起立同学们好老师好”转折点预测结果为001000100，那么就可以认为转折点在“同”字以及“老”字处，由此示例可见，本发明所述检测转折点，实质上是可以确定出转写文本中转折点的所在位置，为后续具体依据特定规则进行说话人分离的环节提供了可靠的参考基础。

那么基于此构思，前述声学层面的音频数据则需要与文本数据相结合，也即是将帧级别的声学特征与字级别的文本特征进行尺度统一，在实际操作中可以使用forcealignment(FA)将所述转写文本与所述音频数据对齐，也即是从音频数据中提取的声学特征，诸如但不限于MFCC特征与文本单位一一对应上，表征出各文本单位对应的发声特点。在一些实施例中可以直接将与各文本对应的声学信息作为输入变量，但结合说话人分离场景而言，优选地，可以根据提取到的各文本单位的声学特征后，再利用预训练的声纹检测模型获取到相应于各文本单位的声纹信息，关于声纹提取的具体手段已有成熟技术可供参考，这里本发明不作限定。而可以进一步指出的是，在本发明的一些较佳实施方式中，还可考虑到转折点的检测结果可以反向指导声纹检测模型的参数调整，在一些优选实施例中，由于声纹检测模型与转折点检测网络为串联结构，所以可以单独更新转折点检测网络，也可以联合更新转折点检测网络和声纹检测模型，从而也能提升声纹检测模型的性能，进而进一步使得转折点检测网络的输出结果更为精准可靠。

由前述各项实施例及其优选方式可以获得每个字的声纹信息、再与前文提及的文本信息、标点信息进行融合，共同输入至转折点检测网络进行后续检测操作。由于在本发明设计中引入了多项输入信息，因而进一步地可以考虑转折点检测网络在利用这些输入变量时的结合方式及权重分配。

其一、输入变量的结合方式

第一种方式，声学、文本及辅助三路信息，可以独立地参与到转折点检测网络的处理过程，也即是三者不作拼接等融合，分别影响预测过程；第二种方式，可以将转写文本以及源于文本的辅助检测信息融合，与声学信息形成两路控制信息参与预测，这是考虑到输入信息属性的接近度；第三种方式，也可以将声学信息及文本信息融合，与辅助检测信息形成两路控制信息参与预测，这是考虑到声学及文本信息提供的是具有普遍性的特点，而辅助检测信息则是衍生出能够提供额外辅佐参考的信息源；第四种方式，则是将三者融合为一体作为统一的输入变量带入转折点检测网络之中，该方式的优点在于简化多信息输入的检测网络处理逻辑，即可以使转折点检测网络保持原有的计算更新方式等。

其二、输入变量的权重分配

如前文所述，除了将输入的三路信息整合的第四种方式之外，对于其他的输入信息结合方式，便可以因需调整不同信息对转折点检测的影响程度。这里以前文提及第三种结合方式为例，本发明在一些较佳的实施例中，提出了预设所述辅助检测信息的信任度，并基于所述信任度确定输入至所述转折点检测网络的所述转写文本、所述音频数据以及所述辅助检测信息的权重的方案。

这里关于设定信任度的方式可以具体参考如下：

1)采用固定的人工经验阈值，即所谓的超参，例如可以通过多次实验验证或者基于专家知识选取合理的经验值设定辅助检测信息的信任程度值；

2)结合辅助检测信息的提取过程，也即是得到目标辅助检测信息的过程，来设定所述信任度，这里仅以前文提及的标点检测模型举例，可将标检测任务视为是一种多分类问题，即针对每个输入的文本单位，其对应输出为其中n为标点个数(当然，在实际操作中，无标点也可算作其中一类，具体可以参考标点检测技术，本发明不作赘述)。接着，可选取作为所述信任度α，即概率最大的标签相对应的概率值作为前述标点信息的信任程度值。如果采用VAD及韵律等其他辅助信息也同理，即输出的概率越高，则表明其置信度越大，也就是越信任的辅助检测信息。相对于前述人工经验设定，本方式使得信任度的计算更加合理，但另一方面，信任度的计算效果会更为依赖于辅助信息预测模型的性能，为了避免单纯以辅助信息检测模型的输出作为信任度时可能产生的合理性问题，本发明在此实施例基础上提出，也可在上乘以一个顺滑系数β(0＜β＜1)，用以约束所述信任度的数值上限，从而规避辅助检测信息对转折点检测网络的影响过大。

前文提及的输入变量的不同结合方式及权重分配，与具体的转折点检测网络架构可以相互结合，这里需指出的是本发明所述的转折点检测网络的具体架构可以有多种选择，例如神经网络便是可选之一，而神经网络也包含多种不同的形式，为了便于说明以及理解前述构思，本发明在至少一种可能的实现方式中采用了长短期记忆神经网络作为该转折点检测网络，因而，结合前述输入信息分配策略，便可以将所述音频数据的信息作为所述长短期记忆神经网络的原始输入门，将所述转写文本的信息和所述辅助检测信息作为所述长短期记忆神经网络的两个辅助控制门(第二种方式)；或者，也可以将所述音频数据与所述转写文本的信息结合，作为所述长短期记忆神经网络的原始输入门，将所述辅助检测信息作为所述长短期记忆神经网络的辅助控制门(第三种方式)。当然，第一种方式以及第四种方式也同样适用，这里不做赘述。

进一步地，结合第三种方式，前述实施例可以具体说明如下：输入的文本信息以及声纹信息拼接为统一的输入特征X＝(x₁，x₂，…，x_k，…，x_K)以及标点特征D＝(d₁，d₂，…，d_k，…，d_K)，则针对LSTM网络的更新计算公式参考如下(为了直观，此示例未写出偏置bias)：

输入门：i_k＝σ(W_i·[h_k-1，x_k])

遗忘门：f_k＝σ(W_f·[h_k-1，x_k])

输出门：o_k＝σ(W_o·[h_k-1，x_k])

辅助控制门：d_k＝σ(W_o·[d_k])

细胞状态更新：

输出：

h_k＝o_k*tanh(C_k)

上述内容与LSTM的常规原理相近，而其中的差异在于引入了辅助控制门，并在计算某文本单位的细胞状态时，辅助控制门d_k参与到对细胞状态的更新，这里的α即是前文所述信任度，本领域技术人员可以理解的是，若α为0，则表明退化为不使用辅助检测信息的原始LSTM网络。

综上所述，本发明的构思在于为转折点检测网络引入文本信息，尤其是引入辅助检测信息，从而减少不合理预测，特别是能够在保证语义连贯性和停顿合理的同时，对说话人转折点进行更为精准且更贴近自然语言的检测，会使得转折点检测结果在主观感受上的效果更优，进而可以有效改善用户体验。

相应于上述各实施例及优选方案，本发明还提供了一种应用于说话人分离的转折点检测装置的实施例，如图2所示，具体可以包括如下部件：

音频及文本获取模块1，用于获取说话人的音频数据以及相应的转写文本；

辅助检测信息获取模块2，用于根据所述音频数据和/或转写文本，得到辅助检测信息；

转折点检测模块3，用于结合所述转写文本、所述音频数据以及所述辅助检测信息以及预设的转折点检测策略，确定出所述转写文本中转折点的位置。

标点检测组件，用于将所述转写文本分词后输入至采用特定网络结构的所述标点检测模型；

文本信息提取单元，用于提取所述转写文本的文本信息；

权重确定单元，用于基于所述信任度确定输入至所述转折点检测网络的所述转写文本、所述音频数据以及所述辅助检测信息的权重。

所述装置还包括输入门划分模块；

应理解以上图2所示的应用于说话人分离的转折点检测装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明所涉及的技术构思可适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种应用于说话人分离的转折点检测设备。该设备具体可以包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或者等效实施方式的步骤/功能。

图3为本发明提供的应用于说话人分离的转折点检测设备的实施例的结构示意图，其中，该设备可以为服务器、台式PC、笔记本电脑、智能终端等(例如但不限于手机、平板、阅读器、学习机、录音笔、音箱、阅读灯、手表、眼镜等)。

具体如图3所示，应用于说话人分离的转折点检测设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得应用于说话人分离的转折点检测设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，该设备900中的各个部件的操作和/或功能，具体可参见前文中关于方法、系统等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图3所示的应用于说话人分离的转折点检测设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics ProcessingUnit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的应用于说话人分离的转折点检测方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种应用于说话人分离的转折点检测方法，其特征在于，包括：

获取说话人的音频数据以及相应的转写文本；

根据所述音频数据和/或转写文本，得到辅助检测信息，所述辅助检测信息包括转写文本的标点信息；

结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略，确定出所述转写文本中转折点的位置以用于从所述音频数据中分离说话人，包括：基于音频数据获取相应的声纹信息；提取转写文本的文本信息；将文本信息、声纹信息及标点信息作为转折点检测策略的输入变量。

2.根据权利要求1所述的应用于说话人分离的转折点检测方法，其特征在于，所述得到辅助检测信息包括：

3.根据权利要求2所述的应用于说话人分离的转折点检测方法，其特征在于，所述利用所述转写文本以及预设的标点检测策略，得到对应于所述转写文本的标点信息包括：

4.根据权利要求1～3任一项所述的应用于说话人分离的转折点检测方法，其特征在于，所述方法还包括：

5.根据权利要求1～3任一项所述的应用于说话人分离的转折点检测方法，其特征在于，所述转折点检测策略采用基于长短期记忆神经网络架构的转折点检测网络；

所述方法还包括：

6.一种应用于说话人分离的转折点检测装置，其特征在于，包括：

辅助检测信息获取模块，用于根据所述音频数据和/或转写文本，得到辅助检测信息，所述辅助检测信息包括转写文本的标点信息；

转折点检测模块，用于结合所述转写文本、所述音频数据、所述辅助检测信息以及预设的转折点检测策略，确定出所述转写文本中转折点的位置以用于从所述音频数据中分离说话人，包括：基于音频数据获取相应的声纹信息；提取转写文本的文本信息；将文本信息、声纹信息及标点信息作为转折点检测策略的输入变量。

7.根据权利要求6所述的应用于说话人分离的转折点检测装置，其特征在于，所述辅助检测信息获取模块包括标点信息检测单元；

8.根据权利要求6或7所述的应用于说话人分离的转折点检测装置，其特征在于，所述装置还包括：输入变量权重确定模块，所述输入变量权重确定模块具体包括：

9.一种应用于说话人分离的转折点检测设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行权利要求1～5任一项所述的应用于说话人分离的转折点检测方法。