CN112201275A

CN112201275A - 声纹分割方法、装置、设备及可读存储介质

Info

Publication number: CN112201275A
Application number: CN202011072873.5A
Authority: CN
Inventors: 谭聪慧
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-08

Abstract

本发明公开了一种声纹分割方法、装置、设备及可读存储介质，所述方法包括：对目标语音帧进行语音识别得到目标语音帧对应的目标文本；分别计算所述目标文本中各个词作为说话人分界词的概率，并基于所述概率从所述各个词中确定说话人分界词；基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点。本发明能够将说话人有变化的语音帧也准确地分割开来，提高了声纹分割的准确率。

Description

声纹分割方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种声纹分割方法、装置、设备及可读存储介质。

背景技术

声纹分割是指将一个含有多个说话人发言的音频，按照不同的说话人分割成若干段，每段包含同一个说话人连续说话的录音。声纹分割在许多应用场景下的应用有重要的作用，例如有多人发言的会议记录的整理等。

目前声纹分割的做法是将音频分成固定大小的帧，然后利用声纹识别算法识别每一帧的说话人是谁，最后再将属于相同说话人的连续帧拼接在一起。但这种做法有个巨大的问题：为了保证说话人识别的准确率，帧大小需要足够大，目前技术通常需要至少2-3秒以上，而这就会导致在说话人发生变化处切分错误，即前一个说话人结尾的若干个词与后一个说话人开头的词会因为分在了同一帧中从而混淆在一起无法准确的切分开。

例如，假设A、B两人进行了对话“你中午吃什么了？”、“还没吃，正准备去……”。一个可能的情况是，前一个说话人A的“么了”和后者B的“还没吃”被划分到了同一帧，无论是将该帧划分给A还是B都会导致分割错误。因此，目前的声纹分割方案对于一帧内部说话人有变化的情况，无法分割开。

发明内容

本发明的主要目的在于提供一种声纹分割方法、装置、设备及可读存储介质，旨在目前的声纹分割方案对于一帧内部说话人有变化的情况，无法分割开的问题。

为实现上述目的，本发明提供一种声纹分割方法，所述方法包括以下步骤：

对目标语音帧进行语音识别得到目标语音帧对应的目标文本；

分别计算所述目标文本中各个词作为说话人分界词的概率，并基于所述概率从所述各个词中确定说话人分界词；

基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点。

可选地，所述分别计算所述目标文本中各个词作为说话人分界词的概率的步骤之前，还包括：

获取训练语料库，其中，所述训练语料库包括多条包含不同说话人发言的对话文本；

采用所述训练语料库训练得到目标文本模型；

所述分别计算所述目标文本中各个词作为说话人分界词的概率的步骤包括：

基于所述目标文本模型计算得到所述目标文本中各个词分别作为说话人分界词的概率。

可选地，所述采用所述训练语料库训练得到目标文本模型的步骤包括：

分别统计所述训练语料库中各个词作为发言开始词的开始概率和作为发言结束词的结束概率，并将统计结果作为目标文本模型；

所述基于所述目标文本模型计算得到所述目标文本中各个词分别作为说话人分界词的概率的步骤包括：

依次将所述目标文本中的各个词作为目标词；

从所述目标文本模型中获取所述目标词对应的结束概率和所述目标文本中所述目标词的下一个词对应的开始概率；

将所述目标词对应的结束概率和所述下一个词对应的开始概率相乘，得到所述目标词作为说话人分界词的概率。

可选地，所述对目标语音帧进行语音识别得到目标语音帧对应的目标文本的步骤包括：

将所述目标语音帧输入预设语音识别模型进行识别，得到所述目标语音帧对应的目标文本以及得到所述目标文本中各个词对应的发声时间，其中，所述发声时间包括发声开始时间点和发声结束时间点；

所述基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点的步骤包括：

基于所述说话人分界词对应的发声结束时间点和所述目标文本中所述说话人分界词的下一个词对应的发声开始时间点，确定所述目标语音帧的说话人切割点。

可选地，所述对目标语音帧进行语音识别得到目标语音帧对应的目标文本的步骤之前，还包括：

对待分割语音进行分帧得到各个语音帧；

对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人，并将说话人不同的相邻两个语音帧作为目标语音帧。

可选地，当所述目标语音帧中在前的语音帧对应第一说话人，在后的语音帧对应第二说话人时，所述基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点的步骤之后，还包括：

基于所述说话人切割点对所述目标语音帧进行切割，得到在前的第一切割帧和在后的第二切割帧；

将所述第一说话人作为所述第一切割帧的说话人，将所述第二说话人作为所述第二切割帧的说话人；

将各帧片段中对应相同说话人的帧片段按照时间顺序进行拼接，得到所述待分割语音对应的声纹分割结果，其中，所述各帧片段包括所述第一切割帧、第二切割帧和所述待分割语音对应的除所述目标语音帧外的各所述语音帧。

可选地，所述对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人的步骤包括：

对所述语音帧进行声纹特征提取，得到所述语音帧对应的声纹特征向量；

将所述语音帧的声纹特征向量分别与各说话人的声纹特征向量进行相似度匹配，得到所述语音帧分别与各说话人之间的匹配度；

将匹配度最高的说话人作为所述语音帧对应的说话人。

为实现上述目的，本发明提供一种声纹分割装置，所述装置包括：

识别模块，用于对目标语音帧进行语音识别得到目标语音帧对应的目标文本；

计算模块，用于分别计算所述目标文本中各个词作为说话人分界词的概率，并基于所述概率从所述各个词中确定说话人分界词；

确定模块，用于基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点。

为实现上述目的，本发明还提供一种声纹分割设备，所述声纹分割设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹分割程序，所述声纹分割程序被所述处理器执行时实现如上所述的声纹分割方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有声纹分割程序，所述声纹分割程序被处理器执行时实现如上所述的声纹分割方法的步骤。

本发明中，通过将目标语音帧进行语音识别转换为目标文本，分别计算目标文本中各个词作为说话人分界词的概率，并基于概率从各个词中确定说话人分界词，根据说话人分界词的发声时间确定目标语音帧的说话人切割点。相比于现有的声纹分割方法将音频划分为多个语音帧，对每个语音帧进行说话人识别，无法对内部说话人有变化的语音帧进行分割，本发明通过将目标语音帧转换为文本，借助文本来确定说话人分界词，进而基于说话人分界词的发声时间来确定语音帧中的说话人切割点，能够将说话人有变化的语音帧也准确地分割开来，提高了声纹分割的准确率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明声纹分割方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种声纹分割流程示意图；

图4为本发明声纹分割装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例声纹分割设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该声纹分割设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对声纹分割设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及声纹分割程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持声纹分割程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于服务器建立通信连接；处理器1001可以用于调用存储器1005中存储的声纹分割程序，并执行以下操作：

进一步地，所述分别计算所述目标文本中各个词作为说话人分界词的概率的步骤之前，处理器1001还可以用于调用存储器1005中存储的声纹分割程序，并执行以下操作：

采用所述训练语料库训练得到目标文本模型；

进一步地，所述采用所述训练语料库训练得到目标文本模型的步骤包括：

依次将所述目标文本中的各个词作为目标词；

进一步地，所述对目标语音帧进行语音识别得到目标语音帧对应的目标文本的步骤包括：

进一步地，所述对目标语音帧进行语音识别得到目标语音帧对应的目标文本的步骤之前，处理器1001还可以用于调用存储器1005中存储的声纹分割程序，并执行以下操作：

对待分割语音进行分帧得到各个语音帧；

进一步地，当所述目标语音帧中在前的语音帧对应第一说话人，在后的语音帧对应第二说话人时，所述基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点的步骤之后，处理器1001还可以用于调用存储器1005中存储的声纹分割程序，并执行以下操作：

将各帧片段中对应相同说话人的帧片段进行按照时间顺序拼接，得到所述待分割语音对应的声纹分割结果，其中，所述各帧片段包括所述第一切割帧、第二切割帧和所述待分割语音对应的除所述目标语音帧外的各所述语音帧。

进一步地，所述对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人的步骤包括：

将匹配度最高的说话人作为所述语音帧对应的说话人。

基于上述的结构，提出声纹分割方法的各实施例。

参照图2，图2为本发明声纹分割方法第一实施例的流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明声纹分割方法执行主体可以是智能手机、个人计算机和服务器等设备，以下各个实施例中省略执行主体进行描述。在本实施例中，声纹分割方法包括：

步骤S10，对目标语音帧进行语音识别得到目标语音帧对应的目标文本；

在本实施例中，若在进行声纹分割时，一帧语音帧可能包括多个说话人的发言，则可以将该语音帧作为目标语音帧。对该目标语音帧进行语音识别得到该目标语音帧对应的文本，以下称为目标文本。其中，语音识别可以采用常用的语音识别方法，在本实施例中不作限制。

步骤S20，分别计算所述目标文本中各个词作为说话人分界词的概率，并基于所述概率从所述各个词中确定说话人分界词；

目标文本中包括多个词。需要说明的是，若目标文本是中文，则可以将一个字作为一个词，或者将目标文本进行分词处理得到各个词。分别计算目标文本中各个词作为说话人分界词的概率。其中，说话人分界词可以是指一句话的第一个词(发言开始词)或者一句话的最后一个词(发言结束词)。计算目标文本中的词作为说话人分界词的概率的方式有多种，例如，当说话人分界词是指一句话的最后一个词时，可以预先训练一个文本模型，该文本模型用于预测文本中各个词是属于一句话的最后一个词的概率，那么将该目标文本输入该文本模型，即可得到该目标文本中各个词作为说话人分界词的概率。其中，文本模型可采用循环神经网络、深度神经网络等模型结构来实现。

在计算得到各个词作为说话人分界词的概率后，可基于各个词对应的概率从各个词中确定说话人分界词。具体地，可以选择最大概率的词作为说话人分界词。或者，由于在某种情况下，目标语音帧中可能包括多个说话人分界点，所以也可以将各个词对应的概率分别与一个预设概率进行比较，将对应的概率大于该预设概率的词作为说话人分界词。其中，预设概率可以是根据需要进行设置的。

步骤S30，基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点。

基于说话人分界词对应的发声时间确定目标语音帧的说话人切割点。其中，可先确定说话人分界词对应的发声时间。具体地，目标语音帧是一个时间序列数据，在将目标语音帧识别为目标文本的过程中，语音序列数据与文本序列存在一一的映射关系，那么可根据该映射关系，确定目标文本中的说话人分界词对应语音序列数据中的哪一部分，进而确定说话人分界词的发声时间。需要说明的是，在语音序列数据中，说话人分界词对应的是一个时间片段的序列数据，那么发声时间可以是该时间片段的开始时间点，也可以是该时间片段的结束时间点，也可以是既包括开始时间点也包括结束时间点。

再根据发声时间确定目标语音帧的说话人切割点，具体地，当说话人分界词是指一句话的第一个词时，发声时间可以是开始时间点，则可以将该发声时间直接作为目标语音帧的说话人切割点，也即，以该开始时间点作为目标语音帧的说话人切割点，该开始时间点之前的语音数据是属于一个说话人，之后的语音数据则属于另一个说话人。当说话人分界词是指一句话的最后一个词时，发声时间可以是结束时间点，则可以将该发声时间直接作为目标语音帧的说话人切割点，也即，以该结束时间点作为目标语音帧的说话人切割点，该结束时间点之前的语音数据是属于一个说话人，之后的语音数据则属于另一个说话人。进而实现了将内部说话人有变化的语音帧分割开来。

在本实施例中，通过将目标语音帧进行语音识别转换为目标文本，分别计算目标文本中各个词作为说话人分界词的概率，并基于概率从各个词中确定说话人分界词，根据说话人分界词的发声时间确定目标语音帧的说话人切割点。相比于现有的声纹分割方法将音频划分为多个语音帧，对每个语音帧进行说话人识别，无法对内部说话人有变化的语音帧进行分割，本实施例通过将目标语音帧转换为文本，借助文本来确定说话人分界词，进而基于说话人分界词的发声时间来确定语音帧中的说话人切割点，能够将说话人有变化的语音帧也准确地分割开来，提高了声纹分割的准确率。

进一步地，基于上述第一实施例，提出本发明声纹分割方法第二实施例，在本实施例中，所述方法包括：

步骤S40，获取训练语料库，其中，所述训练语料库包括多条包含不同说话人发言的对话文本；

在本实施例中，可以训练一个文本模型，再采用文本模型来计算目标文本中各个词分别作为说话人分界词的概率。具体地，可采集多条对话文本，每条对话文本都包含不同说话人的发言。并可以预先标注每条对话文本中的说话人分界词。

步骤S50，采用所述训练语料库训练得到目标文本模型；

采用训练语料库进行训练，得到目标文本模型。其中，当文本模型采用循环神经网络、深度神经网络等机器学习模型来实现时，可以预先设置一个初始的文本模型，该模型的输入为文本，输出可以设置为文本中各个词作为说话人分界词的概率。采用机器学习模型的训练方法来训练该初始文本模型，经过多轮的迭代训练，直到满足结束条件时，得到目标文本模型。具体的训练过程可参照现有的机器学习模型训练方法，在此不进行详细赘述。

所述步骤S20包括：

步骤S201，基于所述目标文本模型计算得到所述目标文本中各个词分别作为说话人分界词的概率。

在训练得到目标文本模型后，基于目标文本模型计算目标文本中各个词分别作为说话人分界词的概率。具体地，当文本模型采用循环神经网络、深度神经网络等机器学习模型来实现时，在训练得到目标文本模型后，可直接将目标文本输入该目标文本模型进行预测，得到该目标文本中各个词分别作为说话人分界词的概率。

进一步地，所述步骤S50包括：

步骤S501，分别统计所述训练语料库中各个词作为发言开始词的开始概率和作为发言结束词的结束概率，并将统计结果作为目标文本模型；

在本实施例中，文本模型也可以是一个统计模型，说话人分界词可以是指发言结束词。那么，文本模型的训练过程可以是：统计训练语料库中各个词作为发言开始词的概率(以下称为开始概率)和作为发言结束词的(以下结束概率)，将统计结果作为目标文本模型，也即将这些词的开始概率和结束概率作为目标文本模型。具体地，对于训练语料库中的每条对话文本，预先可标注该对话文本中所包含的发言，以及发言的开始词和结束词。在训练时，统计开始概率和结束概率的方式可以是：统计训练语料库中发言的总数量：对于训练语料库中出现的每一个词，统计该词作为发言开始词的总次数和作为发言结束词的总次数；采用该词作为发言开始词的总次数除以发言的总数量，得到的结果作为该词的开始概率；采用该词作为发言结束词的总次数除以发言的总数量，得到的结果作为该词的结束概率。

需要说明的是，训练语料库中的对话文本数量可以不断更新，更新后需要重新统计各个词的开始概率和结束概率，以更新目标文本模型，使得目标文本模型中包含更多的词，也使得各个词的开始概率和结束概率也更加准确。

所述步骤S201包括：

步骤S2011，依次将所述目标文本中的各个词作为目标词；

步骤S2012，从所述目标文本模型中获取所述目标词对应的结束概率和所述目标文本中所述目标词的下一个词对应的开始概率；

步骤S2013，将所述目标词对应的结束概率和所述下一个词对应的开始概率相乘，得到所述目标词作为说话人分界词的概率。

在采用上述方法训练得到目标文本模型后，可依次将目标文本中的各个词作为目标词。对于目标词，可从目标文本模型中获取该词对应的结束概率，以及从目标文本模型中获取在目标文本中该词的下一个词对应的开始概率；将目标词的结束概率和下一个词的开始概率相乘，将结果作为目标词作为说话人分界词的概率；依次对目标文本中的每一个词进行上述处理后，即可得到每个词分别作为说话人分界词的概率。需要说明的是，可以预先设置一个概率值，作为当目标词是目标文本中的最后一个词时，该目标词的下一个词对应的开始概率，例如设置为0或0.5。

那么，某个词对应的概率越大，说明该词越可能是发言结束词，而该词的下一个词越可能是发言开始词。那么，可从各个词中选取对应的概率最大的词作为说话人分界词。在本实施例中，通过将目标文本中的词的结束概率与该词的下一个词的开始概率的乘积作为该词作为说话人分界词的概率，提高了确定说话人分界词的标准，也即既要满足该词是发言结束词，又要满足该词的下一个词是发言开始词，才能将该词作为说话人分界词，从而提高了定位说话人分界词的准确率，进而提高了定位语音帧说话人切割点的准确率。

进一步地，在一实施方式中，所述步骤S10包括：

步骤S101，将所述目标语音帧输入预设语音识别模型进行识别，得到所述目标语音帧对应的目标文本以及得到所述目标文本中各个词对应的发声时间，其中，所述发声时间包括发声开始时间点和发声结束时间点；

在本实施例中，可采用预设语音识别模型来进行语音识别，其中，预设语音识别模型可采用常用的语音识别模型。

将目标语音帧输入预设语音识别模型进行识别，得到目标语音帧对应的目标文本，同时得到目标文本中各个词对应的发声时间。其中，发声时间包括发声开始时间点和发声结束时间点。具体地，在语音识别模型将目标语音帧识别为目标文本的过程中，会记录语音序列数据与文本序列之间的映射关系，进而根据该映射关系，可确定目标文本中的每个词所对应的语音片段，语音片段的起始时间点即对应的词的发声开始时间点，语音片段的结束时间点击对应的词的发声结束时间点。

所述步骤S30包括：

步骤S301，基于所述说话人分界词对应的发声结束时间点和所述目标文本中所述说话人分界词的下一个词对应的发声开始时间点，确定所述目标语音帧的说话人切割点。

为提高根据说话人分界词的发声时间确定说话人切割点的准确率，可获取说话人分界词对应的发声结束时间点，以及获取目标文本中说话人分界词的下一个词对应的发声开始时间点，根据该发声结束时间点和该发声开始时间点确定目标语音帧的说话人切割点。具体地，可选取发声结束时间点与发声开始时间点的中间点作为说话人切分点，也即，说话人分界词是一句话的结束，下一个词是另一句话的开始，则从说话人分界词和下一个词的中间进行切分是最准确的。

进一步地，在一实施方式中，当时间单位划分较粗时，一个词可能只对应一个发声时间点，则可以获取说话人分界词的发声时间点和说话人分界词的下一个词的发声时间点，计算两个发声时间点的中点作为说话人切割点。

进一步地，基于上述第一和/或第二实施例，提出本发明声纹分割方法第三实施例，在本实施例中，所述方法还包括：

步骤S60，对待分割语音进行分帧得到各个语音帧；

在本实施例中，在对一段语音进行声纹分割时，可仍然以现有的声纹分割方法为主。具体地，将需要进行声纹分割的语音作为待分割语音，将该待分割语音进行分帧，得到各个语音帧。具体地，分帧可以是分为固定长度的语音帧，即每段语音帧的长度相同。为了保证声纹识别的准确率，语音帧不宜设置的较短，例如，可设置为2～3秒。

步骤S70，对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人，并将说话人不同的相邻两个语音帧作为目标语音帧。

对各个语音帧分别进行声纹识别，得到各个语音帧对应的说话人。其中，进行声纹识别的方法可采用现有的声纹分割方法中常用的声纹识别方法，在此不进行详细赘述。

在确定各个语音帧对应的说话人后，由于待分割语音中包括多个人的对话内容，因此，一定存在两个相邻的语音帧，其对应的说话人不同，也即，这两帧属于边界帧，那么，这两个语音帧中，可能会存在一个语音帧包含了这两个说话人的发言内容，而被识别为了一个说话人。在本实施例中，为将该语音帧准确地分割开来，可将这两个语音帧作为目标语音帧。具体地，可将两个语音帧分别作为一个目标语音帧，也可以将两个语音帧合并作为一个目标语音帧。再对目标语音帧进行语音识别的目标文本，对目标文本确定说话人分界词，根据说话人分界词的发声时间确定目标语音帧的说话人分割点。

在本实施例中，对于需要进行声纹分割的语音，仍然以现有的声纹分割方法为主进行声纹分割，确定各个语音帧的说话人，对于可能存在多个说话人发言的语音帧，再将其作为目标语音帧，采用本发明实施例的方案确定说话人分割点。两种方案结合，即利用了现有声纹分割方法的优势，例如能够保护语音中的隐私内容，又能够实现将语音准确地从说话人切换的位置分割开，提高了声纹分割的准确率。

在一实施方式中，可按照如图3所示的流程进行声纹分割。其中，原始录音即待分割语音。

进一步地，所述方法还包括：

步骤A10，基于所述说话人切割点对所述目标语音帧进行切割，得到在前的第一切割帧和在后的第二切割帧；

进一步地，在本实施例中，当将两个语音帧合并作为目标语音帧时，将在前的语音帧对应的说话人称为第一说话人，将在后的语音帧对应的说话人称为第二说话人，可知，第一说话人与第二说话人是不同的说话人。

在确定目标语音帧中的说话人切割点后，基于说话人切割点对应目标语音帧进行切割，也即，在说话人切割点处进行切割，得到在前的第一切割帧和在后的第二切割帧。

步骤A20，将所述第一说话人作为所述第一切割帧的说话人，将所述第二说话人作为所述第二切割帧的说话人；

可知，目标语音帧中包含第一说话人的发言和第二说话人的发言，且第一说话人的发言在前，第二说话人的发言在后，那么，可将第一说话人作为第一切割帧的说话人，将第二说话人作为第二切割帧的说话人。

步骤A30，将各帧片段中对应相同说话人的帧片段按照时间顺序进行拼接，得到所述待分割语音对应的声纹分割结果，其中，所述各帧片段包括所述第一切割帧、第二切割帧和所述待分割语音对应的除所述目标语音帧外的各所述语音帧。

将各帧片段中对应相同说话人的帧片段按照时间顺序进行拼接，即可得到各个说话人的连续的语音，也即得到了待分割语音的声纹分割结果。其中，各帧片段包括了第一切割帧、第二切割帧和待分割语音帧对应的除目标语音帧外的各语音帧。

进一步地，所述步骤S70中对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人的步骤包括：

步骤S701，对所述语音帧进行声纹特征提取，得到所述语音帧对应的声纹特征向量；

在本实施例中，声纹识别的方法可以是：对语音帧进行声纹特征提取，得到该语音帧对应的声纹特征向量，声纹特征提取的方法可以采用常用的声纹特征提取方法，例如，可采用深度神经网络或卷积神经网络等模型来提取。

步骤S702，将所述语音帧的声纹特征向量分别与各说话人的声纹特征向量进行相似度匹配，得到所述语音帧分别与各说话人之间的匹配度；

预先采集了各个说话人的语音，并对各个说话人的语音进行声纹特征提取，得到各个说话人的声纹特征向量。将语音帧对应的声纹特征向量分别与各个说话人的声纹特征向量进行相似度匹配，得到语音帧与各个说话人之间的匹配度。其中，将两个声纹特征向量进行相似度匹配的方式可以是计算两个向量之间的距离，例如欧式距离。

步骤S703，将匹配度最高的说话人作为所述语音帧对应的说话人。

在得到语音帧与各个说话人之间的匹配度后，将匹配度最高的说话人作为该语音帧对应的说话人。对每个语音帧均按照上述方法进行声纹识别，即可得到每个语音帧对应的说话人。

此外本发明实施例还提出一种声纹分割装置，参照图4，所述装置包括：

识别模块10，用于对目标语音帧进行语音识别得到目标语音帧对应的目标文本；

计算模块20，用于分别计算所述目标文本中各个词作为说话人分界词的概率，并基于所述概率从所述各个词中确定说话人分界词；

确定模块30，用于基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点。

进一步地，所述装置还包括：

获取模块，用于获取训练语料库，其中，所述训练语料库包括多条包含不同说话人发言的对话文本；

训练模块，用于采用所述训练语料库训练得到目标文本模型；

所述计算模块20还用于基于所述目标文本模型计算得到所述目标文本中各个词分别作为说话人分界词的概率。

进一步地，所述训练模块包括：

统计单元，用于分别统计所述训练语料库中各个词作为发言开始词的开始概率和作为发言结束词的结束概率，并将统计结果作为目标文本模型；

所述计算模块20包括：

第一确定单元，用于依次将所述目标文本中的各个词作为目标词；

获取单元，用于从所述目标文本模型中获取所述目标词对应的结束概率和所述目标文本中所述目标词的下一个词对应的开始概率；

计算单元，用于将所述目标词对应的结束概率和所述下一个词对应的开始概率相乘，得到所述目标词作为说话人分界词的概率。

进一步地，所述识别模块10还用于：将所述目标语音帧输入预设语音识别模型进行识别，得到所述目标语音帧对应的目标文本以及得到所述目标文本中各个词对应的发声时间，其中，所述发声时间包括发声开始时间点和发声结束时间点；

所述确定模块30还用于：基于所述说话人分界词对应的发声结束时间点和所述目标文本中所述说话人分界词的下一个词对应的发声开始时间点，确定所述目标语音帧的说话人切割点。

进一步地，所述装置还包括：

分帧模块，用于对待分割语音进行分帧得到各个语音帧；

所述识别模块10还用于：对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人，并将说话人不同的相邻两个语音帧作为目标语音帧。

进一步地，当所述目标语音帧中在前的语音帧对应第一说话人，在后的语音帧对应第二说话人时，所述装置还包括：

切割模块，用于基于所述说话人切割点对所述目标语音帧进行切割，得到在前的第一切割帧和在后的第二切割帧；

所述确定模块30还用于将所述第一说话人作为所述第一切割帧的说话人，将所述第二说话人作为所述第二切割帧的说话人；

拼接模块，用于将各帧片段中对应相同说话人的帧片段按照时间顺序进行拼接，得到所述待分割语音对应的声纹分割结果，其中，所述各帧片段包括所述第一切割帧、第二切割帧和所述待分割语音对应的除所述目标语音帧外的各所述语音帧。

进一步地，所述识别模块10包括：

提取单元，用于对所述语音帧进行声纹特征提取，得到所述语音帧对应的声纹特征向量；

匹配单元，用于将所述语音帧的声纹特征向量分别与各说话人的声纹特征向量进行相似度匹配，得到所述语音帧分别与各说话人之间的匹配度；

第二确定单元，用于将匹配度最高的说话人作为所述语音帧对应的说话人。

本发明声纹分割装置的具体实施方式的拓展内容与上述声纹分割方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有声纹分割程序，所述声纹分割程序被处理器执行时实现如下所述的声纹分割方法的步骤。

本发明声纹分割设备和计算机可读存储介质的各实施例，均可参照本发明声纹分割方法各实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种声纹分割方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的声纹分割方法，其特征在于，所述分别计算所述目标文本中各个词作为说话人分界词的概率的步骤之前，还包括：

采用所述训练语料库训练得到目标文本模型；

3.如权利要求2所述的声纹分割方法，其特征在于，所述采用所述训练语料库训练得到目标文本模型的步骤包括：

依次将所述目标文本中的各个词作为目标词；

4.如权利要求1所述的声纹分割方法，其特征在于，所述对目标语音帧进行语音识别得到目标语音帧对应的目标文本的步骤包括：

5.如权利要求1至4任一项所述的声纹分割方法，其特征在于，所述对目标语音帧进行语音识别得到目标语音帧对应的目标文本的步骤之前，还包括：

对待分割语音进行分帧得到各个语音帧；

6.如权利要求5所述的声纹分割方法，其特征在于，当所述目标语音帧中在前的语音帧对应第一说话人，在后的语音帧对应第二说话人时，所述基于所述说话人分界词对应的发声时间确定所述目标语音帧的说话人切割点的步骤之后，还包括：

7.如权利要求5所述的声纹分割方法，其特征在于，所述对各所述语音帧分别进行声纹识别得到各所述语音帧对应的说话人的步骤包括：

将匹配度最高的说话人作为所述语音帧对应的说话人。

8.一种声纹分割装置，其特征在于，所述装置包括：

9.一种声纹分割设备，其特征在于，所述声纹分割设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的声纹分割程序，所述声纹分割程序被所述处理器执行时实现如权利要求1至7中任一项所述的声纹分割方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有声纹分割程序，所述声纹分割程序被处理器执行时实现如权利要求1至7中任一项所述的声纹分割方法的步骤。