CN111739539B

CN111739539B - 确定说话人数量的方法、装置及存储介质

Info

Publication number: CN111739539B
Application number: CN202010525658.XA
Authority: CN
Inventors: 杨朔; 王欣; 蔡国都
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-01-17
Anticipated expiration: 2040-06-10
Also published as: CN111739539A

Abstract

本公开涉及一种确定说话人数量的方法、装置及存储介质，包括：获取目标音频的多个语音片段；对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系；根据所述目标声纹特征连通图，确定所述目标音频中说话人的数量。这样，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

Description

确定说话人数量的方法、装置及存储介质

技术领域

本公开涉及语音识别技术领域，具体地，涉及一种确定说话人数量的方法、装置及存储介质。

背景技术

近年来，基于语音的信息处理技术得到了迅猛的发展并具有广泛的应用。其中比较重要的是基于语音对说话人进行识别的技术，被称为说话人识别，也被称为声纹识别。说话人识别可应用于对说话人的身份进行确认的场合，如法院审理、远程金融服务、安保，在语音检索、反恐、军事等领域亦有应用。

相关技术中，可以通过聚类算法对语音中的说话人进行识别，例如k-均值聚类算法。但是，使用k-均值聚类算法时，需要预先设定聚类的数量，针对语音识别，即需要预先设置该语音中说话人的数量。基于此，在预先设置的说话人的数量不准确的情况下，也会导致针对该语音的识别及分类的准确率较低。

发明内容

为克服相关技术中存在的问题，本公开提供一种确定说话人数量的方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种确定说话人数量的方法，所述方法包括：

获取目标音频的多个语音片段；

对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系；

根据所述目标声纹特征连通图，确定所述目标音频中说话人的数量。

采用上述方法，本公开实施例可以对目标音频中的多个语音片段进行相似声纹特征处理，得到特征相似的相似声纹特征，根据该相似声纹特征可以初步确定属于相同说话人的语音片段。进一步地，再根据该相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，根据该目标声纹特征连通图中各个声纹特征的连接关系，可以确定相同说话人的语音片段，进而确定该目标音频中说话人的数量。这样，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

可选地，所述相似声纹特征提取处理包括：

获取所述目标音频中每个所述语音片段对应的声纹特征；

计算所述声纹特征中每两个声纹特征的相似度；

将所述相似度大于预设相似度阈值的声纹特征，作为所述相似声纹特征。

采用上述方式，可以得到目标音频中每个语音片段的声纹特征，并确定该声纹特征中的相似声纹特征。

可选地，所述获取所述目标音频中每个所述语音片段对应的声纹特征包括：

将每个所述语音片段输入预先训练的声纹特征模型，得到每个所述语音片段对应的声纹特征。

采用上述方式，可以通过预先训练的声纹特征模型获取每个语音片段对应的声纹特征，该声纹特征是根据目标音频中所有的语音片段获取的，使得该声纹特征的准确率更高。

可选地，所述声纹特征模型通过以下方式预先训练：

获取语音样本片段和预先设置的梅尔频率倒谱系数；

将所述梅尔频率倒谱系数和所述语音样本片段作为模型训练的样本进行训练，以得到所述声纹特征模型。

采用上述方式，可以预先训练得到声纹特征模型，以便在目标音频识别过程中，可以根据该声纹特征模型获取该目标音频中每个语音片段对应的声纹特征。

可选地，所述特征图确定处理包括：

根据所述相似声纹特征，生成待定声纹特征连通图；

将所述待定声纹特征连通图和所述声纹特征作为图卷积神经网络的输入，以修正所述待定声纹特征连通图，得到所述目标声纹特征连通图。

采用上述方式，在根据相似声纹特征生成待定声纹特征连通图之后，可以通过图卷积神经网络对该待定声纹特征连通图进行修正，得到更准确的目标声纹特征连通图，从而使得根据该目标声纹特征连通图得到的目标音频中的说话人的数量更为准确。

可选地，所述根据所述相似声纹特征，生成待定声纹特征连通图包括：

建立所述相似声纹特征的连接关系，以生成所述待定声纹特征连通图。

采用上述方式，可以根据相似声纹特征生成待定声纹特征连通图。

可选地，所述对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系包括：

将多个所述语音片段输入语音处理模型，以对多个所述语音片段进行所述相似声纹特征提取处理和所述特征图确定处理，得到所述目标声纹特征连通图。

采用上述方式，可以将相似声纹特征提取处理和特征图确定处理进行融合，仅通过一个模型对语音片段进行处理，即可得到目标声纹特征连通图，从而使得语音识别的流程更为简单。

根据本公开实施例的第二方面，提供一种确定说话人数量的装置，所述装置包括：

获取模块，被配置为获取目标音频的多个语音片段；

处理模块，被配置为对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系；

确定模块，被配置为根据所述目标声纹特征连通图，确定所述目标音频中说话人的数量。

可选地，所述处理模块包括：

声纹特征获取子模块，被配置为获取所述目标音频中每个语音片段对应的声纹特征；

计算子模块，被配置为计算所述声纹特征中每两个声纹特征的相似度；

相似声纹特征确定子模块，被配置为将所述相似度大于预设相似度阈值的声纹特征，作为所述相似声纹特征。

可选地，所述声纹特征获取子模块具体被配置为：

获取语音样本片段和预先设置的梅尔频率倒谱系数；

可选地，所述处理模块还包括：

生成子模块，被配置为根据所述相似声纹特征，生成待定声纹特征连通图；

连通图修正子模块，被配置为将所述待定声纹特征连通图和所述声纹特征作为图卷积神经网络的输入，以修正所述待定声纹特征连通图，得到所述目标声纹特征连通图。

可选地，所述生成子模块具体被配置为：

可选地，所述处理模块包括：

连通图确定子模块，被配置为将多个所述语音片段输入语音处理模型，以对多个所述语音片段进行所述相似声纹特征提取处理和所述特征图确定处理，得到所述目标声纹特征连通图。

根据本公开实施例的第三方面，提供一种确定说话人数量的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取目标音频的多个语音片段；

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。

本公开的实施例提供的技术方案至少可以达到以下有益效果：

在目标音频识别过程中，无需预先设置说话人的预设数量，可以根据目标声纹特征连通图，直接得到该目标音频中说话人的真实数量。由于预设数量一般是根据经验值设置，因此该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种确定说话人数量的方法的流程图；

图2是根据一示例性实施例示出的第二种确定说话人数量的方法的流程图；

图3是根据一示例性实施例示出的一种声纹特征模型的结构示意图；

图4是根据一示例性实施例示出的一种待定声纹特征连通图的示意图；

图5是根据一示例性实施例示出的一种目标声纹特征连通图的示意图；

图6是根据一示例性实施例示出的第三种确定说话人数量的方法的流程图；

图7是根据一示例性实施例示出的一种确定说话人数量的装置的框图；

图8是根据一示例性实施例示出的一种确定说话人数量的装置的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

首先，对本公开的应用场景进行说明。本公开可以应用于说话人分段与聚类的场景，在一段目标音频中区分出不同说话人的语音片段，并将其一一标注出来。由于收音场景和麦克风的限制，一般无法从物理上分离不同说话人的语音片段，因此只能通过算法将目标音频中不同说话人的语音片段分离出来。

相关技术中，可以通过分段聚类算法获取目标音频中不同说话人的说话片段，例如，k-均值聚类算法。但是，使用k-均值聚类算法对目标音频进行分段时，需要预先设置该目标音频中说话人的数量，根据该数量进行聚类，示例地，若该目标音频是一段电话会议的录音，则可以预先获取在整个会议过程中说话人的数量，根据该说话人的数量对该目标音频进行分段聚类，得到每个说话人对应的语音片段。例如，若该目标音频的说话人的数量是5，则通过k-均值聚类算法将该目标音频聚类为5个部分，每个部分包含的语音片段对应一个说话人。基于此，若预先设置的说话人的数量准确，则最终得到的每个说话人对应的语音片段也是准确的；若预先设置的说话人的数量不准确，则最终得到的每个说话人对应的语音片段也是不准确的。

但是，在目标音频的说话人较多时，往往无法预先获取准确的说话人的数量，因此，直接通过分段聚类算法获取的该目标音频中不同说话人的说话片段的准确率也较低。

为了解决上述问题，本公开提供一种确定说话人数量的方法、装置及存储介质，通过获取目标音频的多个语音片段，对该多个语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据该相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，并根据该目标声纹特征连通图，确定该目标音频中说话人的数量。这样，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

图1是根据一示例性实施例示出的一种确定说话人数量的方法的流程图。如图1所示，该方法包括：

S101、获取目标音频的多个语音片段。

其中，该语音片段可以是目标音频中的语音帧。

在本步骤中，可以先确定该目标音频中的语音帧和静音帧，获取该语音帧和该静音帧之间的转换点，根据该转换点划分该目标音频，以将语音帧和静音帧区分开，并删除该目标音频中的静音帧，保留语音帧，从而得到多个语音片段。

其中，语音帧可以为该目标音频中包括说话人声音的帧，该静音帧可以为该目标音频中不包括说话人声音的帧。

示例地，可以通过语音活性检测技术获取目标音频中的多个语音片段，先获取该目标音频中每一帧语音的语音能量，在语音能量大于或者等于预先设置的能量阈值的情况下，可以确定该帧语音为语音帧；在语音能量小于该能量阈值的情况下，可以确定该帧语音为静音帧。

S102、对多个语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据该相似声纹特征进行特征图确定处理，得到目标声纹特征连通图。

其中，该特征连通图用于表征该相似声纹特征的连接关系。

在本步骤中，在获取目标音频的多个语音片段后，可以获取该多个语音片段中每个语音片段的声纹特征，并获取该声纹特征中的相似声纹特征，该相似声纹特征对应的语音片段可能是属于相同说话人的语音片段。进一步地，可以根据相似声纹特征进行特征图确定处理，得到目标声纹特征连通图。

S103、根据该目标声纹特征连通图，确定该目标音频中说话人的数量。

在本步骤中，在得到目标声纹特征连通图后，可以提取出该目标声纹特征连通图中相互连接的声纹特征子连通图，该声纹特征子连通图中的声纹特征是属于同一个说话人的声纹特征。基于此，最终提取出的声纹特征子连通图的数量即为目标音频中说话人的数量。

采用上述方法，可以对目标音频中的多个语音片段进行相似声纹特征处理，得到特征相似的相似声纹特征，根据该相似声纹特征可以初步确定属于相同说话人的语音片段。进一步地，再根据该相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，根据该目标声纹特征连通图中各个声纹特征的连接关系，可以确定相同说话人的语音片段，进而确定该目标音频中说话人的数量。这样，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

图2是根据一示例性实施例示出的第二种确定说话人数量的方法的流程图。如图2所示，该方法包括：

S201、采集目标音频。

其中，该目标音频可以是包括多个说话人对应的多个语音片段的音频，例如，电话会议的录音。

S202、获取目标音频的多个语音片段。

S203、获取目标音频中每个语音片段对应的声纹特征。

在本步骤中，可以将每个语音片段输入预先训练的声纹特征模型，得到每个语音片段对应的声纹特征。

示例地，在目标音频包括20个语音片段的情况下，可以将该20个语音片段全部输入预先训练的声纹特征模型，最终可以输出该20个语音片段中每个语音片段对应的声纹特征。其中，该声纹特征模型是利用全部语音片段提取每个语音片段对应的声纹特征，示例地，该声纹特征模型可以先分别提取该20个语音片段中每个语音片段对应的声纹特征，然后再对该20个语音片段对应的声纹特征进行融合，最终得到的该20个语音片段对应的声纹特征更加准确。

其中，该声纹特征模型可以是基于CNN(Convolutional Neural Networks，卷积神经网络)训练得到的模型，图3是根据一示例性实施例示出的一种声纹特征模型的结构示意图，如图3所示，该声纹特征模型可以包括输入层、隐藏层以及输出层，每一层有若干个节点，在输入层输入多个语音片段后，经过隐藏层的神经网络节点运算，最终通过输出层输出不同说话人对应的声纹特征。本公开中仅需获取每个语音片段对应的声纹特征，因此，可以获取隐藏层的最后一层输出的特征向量，将该特征向量作为声纹特征。

为了确保获取的声纹特征的准确性，需要对该声纹特征模型进行训练，该声纹特征模型训练的方法可以包括：

S1、获取语音样本片段和预先设置的梅尔频率倒谱系数。

其中，梅尔频率倒谱系数是在梅尔标度频率域提取出来的倒谱参数，广泛应用于语音分类模型的训练和语音识别。预先设置的梅尔频率倒谱系数的帧长可以是25ms，帧移可以是10ms，该语音样本片段可以是长度为3s的语音片段。另外，该语音样本片段可以是相同说话人在同一时间段内的语音片段，例如连续获取说话人十分钟之内的语音片段；也可以是相同说话人在不同时间段的语音片段，例如，一部分语音样本片段可以是说话人在上午时间段的语音片段，另一部分语音样本片段可以是该说话人在晚上时间段的语音片段，以避免同一个说话人在一天之内不同时间段的说话声音有细微偏差；还可以是不同说话人的语音片段，本公开对此不作限定。

S2、将该梅尔频率倒谱系数和该语音样本片段作为模型训练的样本进行训练，以得到该声纹特征模型。

在实际训练场景中，可以先构建模型训练的训练集和测试集，该训练集中的语音样本片段用于训练该声纹特征模型，该测试集中的语音样本片段用于测试该声纹特征模型的准确率，并根据获取的声纹特征的准确率对该声纹特征模型进行优化。示例地，可以将训练集中的语音样本片段和梅尔频率倒谱系数作为输入，获取该声纹特征模型的隐藏层的最后一层的特征向量，确定该特征向量与该语音样本片段对应的声纹特征是否相同。若该特征向量与该语音样本片段对应的声纹特征相同，则表示该声纹特征模型的准确率较高；若该特征向量与该语音样本片段对应的声纹特征不同，则表示该声纹特征模型的准确率较低，需要根据该语音样本片段对应的声纹特征对该声纹特征模型的参数进行调整。

S204、计算声纹特征中每两个声纹特征的相似度。

在本步骤中，在获取目标音频中每个语音片段对应的声纹特征后，可以计算该声纹特征中每两个声纹特征的相似度。

示例地，该相似度可以是余弦相似度，可以通过公式(1)计算两个声纹特征之间的余弦相似度：

其中，A和B分别为两个声纹特征，cosθ为声纹特征A和声纹特征B的余弦相似度。

这里，可以将目标音频的多个语音片段中任一语音片段对应的声纹特征，作为目标声纹特征，计算该目标声纹特征与该目标音频的其它语音片段对应的声纹特征的余弦相似度。示例地，若目标音频包括10个语音片段，则将该10个语音片段中的任一语音片段对应的声纹特征作为目标声纹特征，计算该目标声纹特征与其它9个语音片段对应的声纹特征的余弦相似度，得到9个余弦相似度；类似地，可以计算得到该目标音频的10个语音片段中每两个语音片段对应的声纹特征之间的余弦相似度，最终可以得到90个余弦相似度。

需要说明的是，本公开也可以通过相关技术的方法获取该目标音频的多个语音片段对应的声纹特征的相似声纹特征，本公开对此不作限定。

S205、将相似度大于预设相似度阈值的声纹特征，作为相似声纹特征。

其中，该预设相似度阈值可以是根据经验预先设置的。

在本步骤中，在计算得到每两个声纹特征的相似度之后，可以将该相似度大于预设相似度阈值的声纹特征，作为该相似声纹特征。示例地，以上述目标音频包括10个语音片段为例，若该10个语音片段对应的声纹特征分别是A、B、C、D、E、F、G、H、X以及Y，若计算得到A的9个余弦相似度中，A与D之间的余弦相似度、A与E之间的余弦相似度以及A与F之间的余弦相似度大于预设相似度阈值，则可以确定A与D、A与E以及A与F均是相似声纹特征；若计算得到B的9个余弦相似度中，B与C之间的余弦相似度大于预设相似度阈值，则可以确定B与C是相似声纹特征；若计算得到C的9个余弦相似度中，C与B之间的余弦相似度以及C与F之间的余弦相似度大于预设相似度阈值，则可以确定C与B、C与F是相似声纹特征；以此类推，可以在最终计算得到的90个余弦相似度中，确定相似度大于预设相似度阈值的声纹特征，作为该相似声纹特征。

S206、根据该相似声纹特征，生成待定声纹特征连通图。

在本步骤中，可以建立该相似声纹特征的连接关系，以生成该待定声纹特征连通图。其中，待定声纹特征连通图可以是将该目标音频中的多个语音片段对应的相似声纹特征连接后得到的。示例地，图4是根据一示例性实施例示出的一种待定声纹特征连通图的示意图，如图4所示，若确定A与D、A与E以及A与F均是相似声纹特征，则可以将A分别与D、E、F连接；若确定B与C是相似声纹特征，则可以将B与C连接；若确定C与B、C与F是相似声纹特征，则可以将C分别与B、F连接；以此类推，可以根据所有相似声纹特征将对应的声纹特征连接起来。

S207、将该待定声纹特征连通图和该声纹特征作为图卷积神经网络的输入，以修正该待定声纹特征连通图，得到目标声纹特征连通图。

需要说明的是，由于相似声纹特征是根据预设相似度阈值确定的，而该预设相似度阈值只是经验值，因此会存在一定偏差，导致根据相似声纹特征生成的该待定声纹特征连通图也会存在偏差。如图4所示，其中的声纹特征C和声纹特征B属于同一个说话人的声纹特征，声纹特征C和声纹特征F不属于同一个说话人的声纹特征，但是，由于该预设相似度阈值的偏差导致生成的待定声纹特征连通图不够准确。

在本步骤中，可以将该待定声纹特征连通图和该目标音频中的多个语音片段对应的声纹特征作为图卷积神经网络的输入，这里，可以用邻接矩阵的形式表示该待定声纹特征连通图，通过该目标音频中的多个语音片段对应的声纹特征，对该待定声纹特征连通图进行修正，得到更准确的目标声纹特征连通图。图5是根据一示例性实施例示出的一种目标声纹特征连通图的示意图，如图5所示，通过图卷积神经网络对该待定声纹特征连通图进行修正，改正了图4中声纹特征C的错误连接关系。

其中，该图卷积神经网络可以是预先训练的，本公开可以使用相关技术的方法，将已知语音音频对应的声纹特征连通图作为模型训练的样本进行训练，得到图卷积神经网络。

S208、根据该目标声纹特征连通图，确定目标音频中说话人的数量。

在本步骤中，在得到目标声纹特征连通图后，可以根据该目标声纹特征连通图中声纹特征的连接关系，确定目标音频中说话人的数量。这里，可以确定该目标声纹特征连通图中相互连接的声纹特征是相同说话人的声纹特征。示例地，如图5所示，目标音频包括的10个语音片段对应的声纹特征分别是A、B、C、D、E、F、G、H、X以及Y。图5中A、D、E以及F相互连接，B和C连接，G、H、X以及Y相互连接，基于此，可以确定A、D、E以及F对应的语音片段是相同说话人的语音片段，B和C对应的语音片段是相同说话人的语音片段，G、H、X以及Y对应的语音片段是相同说话人的语音片段，从而可以确定该目标音频中说话人的数量是3。

需要说明的是，该目标声纹特征连通图中相互连接的声纹特征对应的语音片段是属于同一个说话人的语音片段，因此，根据该目标声纹特征连通图确定该目标音频中说话人的数量后，也随即得到了不同说话人对应的语音片段。

采用上述方法，可以通过预先训练的声纹特征模型，获取该目标音频中多个语音片段对应的声纹特征，该声纹特征的准确度更高，之后，可以根据该目标音频中多个语音片段对应的声纹特征获取相似声纹特征，根据该相似声纹特征生成待定声纹特征连通图，并通过图卷积神经网络对该待定声纹特征连通图进行修正，得到目标声纹特征连通图，并根据该目标声纹特征连通图确定该目标音频中说话人的数量。这样，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

图6是根据一示例性实施例示出的第三种确定说话人数量的方法的流程图。如图6所示，该方法包括：

S601、获取目标音频的多个语音片段。

S602、将多个语音片段输入语音处理模型，以对多个语音片段进行相似声纹特征提取处理和特征图确定处理，得到目标声纹特征连通图。

在本步骤中，该语音处理模型可以是预先训练的模型，本公开可以将多个语音样本片段作为模型训练的样本进行训练，得到该语音处理模型。另外，该语音处理模型内部处理逻辑与声纹特征模型和图卷积神经网络类似，也是先获取该目标音频的多个语音片段对应的声纹特征，在计算该多个语音片段对应的声纹特征的相似声纹特征后，根据该相似声纹特征生成待定声纹特征连通图，并通过图卷积神经网络对该待定声纹特征连通图进行修正，得到该目标音频对应的目标声纹特征连通图。

在本步骤中，可以将多个语音片段输入语音处理模型，该语音处理模型对该多个语音片段进行相似声纹特征提取处理和特征图确定处理后，直接输出该目标音频对应的目标声纹特征连通图。

S603、根据该目标声纹特征连通图，确定目标音频中说话人的数量。

在本步骤中，在得到目标声纹特征连通图后，可以根据该目标声纹特征连通图中声纹特征的连接关系，确定目标音频中说话人的数量。这里，可以确定该目标声纹特征连通图中相互连接的声纹特征是相同说话人的声纹特征。

采用上述方法，可以在获取目标音频的多个语音片段后，将该多个语音片段输入语音处理模型，直接得到该目标音频对应的目标声纹特征连通图，使得获取目标声纹特征连通图的方式更为简便。另外，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

图7是根据一示例性实施例示出的一种确定说话人数量的装置的框图。如图7所示，该装置包括获取模块701，处理模块702以及确定模块703。

获取模块701，被配置为获取目标音频的多个语音片段；

处理模块702，被配置为对多个语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据该相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，该特征连通图用于表征该相似声纹特征的连接关系；

确定模块703，被配置为根据该目标声纹特征连通图，确定该目标音频中说话人的数量。

通过上述装置，可以对目标音频中的多个语音片段进行相似声纹特征处理，得到特征相似的相似声纹特征，根据该相似声纹特征可以初步确定属于相同说话人的语音片段。进一步地，再根据该相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，根据该目标声纹特征连通图中各个声纹特征的连接关系，可以确定相同说话人的语音片段，进而确定该目标音频中说话人的数量。这样，在目标音频识别过程中，无需预先设置说话人的预设数量，可以直接得到该目标音频中说话人的真实数量，该真实数量比预设数量更为准确，从而使得根据该真实数量对目标音频进行识别和分类的准确率更高。

可选地，该处理模块702包括：

声纹特征获取子模块，被配置为获取目标音频中每个语音片段对应的声纹特征；

计算子模块，被配置为计算该声纹特征中每两个声纹特征的相似度；

相似声纹特征确定子模块，被配置为将相似度大于预设相似度阈值的声纹特征，作为该相似声纹特征。

可选地，该声纹特征获取子模块具体被配置为：

将每个语音片段输入预先训练的声纹特征模型，得到每个语音片段对应的声纹特征。

可选地，该声纹特征获取子模块具体被配置为：

获取语音样本片段和预先设置的梅尔频率倒谱系数；

将该梅尔频率倒谱系数和该语音样本片段作为模型训练的样本进行训练，以得到该声纹特征模型。

可选地，该处理模块702还包括：

生成子模块，被配置为根据相似声纹特征，生成待定声纹特征连通图；

连通图修正子模块，被配置为将该待定声纹特征连通图和该声纹特征作为图卷积神经网络的输入，以修正该待定声纹特征连通图，得到目标声纹特征连通图。

可选地，该生成子模块具体被配置为：

建立该相似声纹特征的连接关系，以生成该待定声纹特征连通图。

可选地，该处理模块702包括：

连通图确定子模块，被配置为将多个语音片段输入语音处理模型，以对多个语音片段进行相似声纹特征提取处理和特征图确定处理，得到目标声纹特征连通图。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例还提供一种确定说话人数量的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，该处理器被配置为执行本公开上述任一方法实施例提供的确定说话人数量的方法的步骤。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开上述任一方法实施例提供的确定说话人数量的方法的步骤。

图8是根据一示例性实施例示出的一种确定说话人数量的装置800的框图。如图8所示，该装置800可以包括：处理器801，存储器802。该装置800还可以包括多媒体组件803，输入/输出(I/O)接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该装置800的整体操作，以完成上述的确定说话人数量的方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该装置800的操作，这些数据例如可以包括用于在该装置800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该装置800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件805可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，装置800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的确定说话人数量的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的确定说话人数量的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由装置800的处理器801执行以完成上述的确定说话人数量的方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的确定说话人数量的方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种确定说话人数量的方法，其特征在于，所述方法包括：

获取目标音频的多个语音片段；

获取所述目标音频中每个所述语音片段对应的声纹特征；

根据多个所述声纹特征，对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系；

根据所述目标声纹特征连通图，确定所述目标音频中说话人的数量；

所述特征图确定处理包括：

根据所述相似声纹特征，生成待定声纹特征连通图；

2.根据权利要求1所述的方法，其特征在于，所述相似声纹特征提取处理包括：

计算所述声纹特征中每两个声纹特征的相似度；

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标音频中每个所述语音片段对应的声纹特征包括：

4.根据权利要求3所述的方法，其特征在于，所述声纹特征模型通过以下方式预先训练：

获取语音样本片段和预先设置的梅尔频率倒谱系数；

5.根据权利要求1所述的方法，其特征在于，所述根据所述相似声纹特征，生成待定声纹特征连通图包括：

6.根据权利要求1所述的方法，其特征在于，所述对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系包括：

7.一种确定说话人数量的装置，其特征在于，所述装置包括：

获取模块，被配置为获取目标音频的多个语音片段；

声纹特征获取子模块，被配置为获取所述目标音频中每个所述语音片段对应的声纹特征；

处理模块，被配置为根据多个所述声纹特征，对多个所述语音片段进行相似声纹特征提取处理，得到特征相似的相似声纹特征，并根据所述相似声纹特征进行特征图确定处理，得到目标声纹特征连通图，所述特征连通图用于表征所述相似声纹特征的连接关系；

确定模块，被配置为根据所述目标声纹特征连通图，确定所述目标音频中说话人的数量；

所述处理模块还包括：

8.根据权利要求7所述的装置，其特征在于，所述处理模块包括：

9.根据权利要求8所述的装置，其特征在于，所述声纹特征获取子模块被配置为：

获取语音样本片段和预先设置的梅尔频率倒谱系数；

将所述梅尔频率倒谱系数和所述语音样本片段作为模型训练的样本进行训练，以得到声纹特征模型；

将每个所述语音片段输入预先训练的所述声纹特征模型，得到每个所述语音片段对应的声纹特征。

10.根据权利要求7所述的装置，其特征在于，所述处理模块包括：

11.一种确定说话人数量的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取目标音频的多个语音片段；

获取所述目标音频中每个所述语音片段对应的声纹特征；

所述特征图确定处理包括：

根据所述相似声纹特征，生成待定声纹特征连通图；

12.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。