CN114822511A

CN114822511A - 语音检测方法、电子设备及计算机存储介质

Info

Publication number: CN114822511A
Application number: CN202210745641.4A
Authority: CN
Inventors: 郑斯奇
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-07-29

Abstract

本申请实施例提供了一种语音检测方法、电子设备及计算机存储介质，其中，语音检测方法包括：获取待检测的音频数据对应的多个音频帧向量，其中，所述音频数据中包含有至少一个说话人对应的语音数据；对所述多个音频帧向量进行聚类，获得特征聚类结果；从所述特征聚类结果中确定出目标说话人对应的特征向量，并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述目标说话人的音频帧向量。通过本申请实施例，使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音，实现目标说话人音频的精准分离。

Description

语音检测方法、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种语音检测方法、电子设备及计算机存储介质。

背景技术

随着智能语音技术的发展，越来越多的领域和服务将其作为基础功能加以使用。在智能语音技术中，说话人日志(Speaker Diarization)技术是其中的一个重要组成部分。说话人日志技术是给定一段多人交流的音频(通常为单通道口语对话语音，有较多的多人混叠片段)，由计算机自动地识别出音频中有几个说话人，并检测出音频中每个说话人发言的起止时间戳，解决“谁在什么时候说话”的问题的一种技术。在一种应用场景中，希望通过说话人日志技术，将会议或多人说话的一段音频中，每个说话人的声音和说话内容区分出来，为后续应用提供基础。

传统方式中，多采用将一个完整音频切分为多个音频分段，然后针对每一个音频分段，利用预先训练好的机器学习模型进行说话人特征提取的方式。但在实际应用中，一个音频片段中可能包含多个说话人的声音和噪声。因此，在某个音频片段中提取出的说话人特征难以代表真实的说话人声音，导致将不同说话人，尤其是目标说话人的音频分离出来的效果很差。

发明内容

有鉴于此，本申请实施例提供一种语音检测方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种语音检测方法，包括：获取待检测的音频数据对应的多个音频帧向量，其中，所述音频数据中包含有至少一个说话人对应的语音数据；对所述多个音频帧向量进行聚类，获得特征聚类结果；从所述特征聚类结果中确定出目标说话人对应的特征向量，并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述目标说话人的音频帧向量。

根据本申请实施例的第二方面，提供了另一种语音检测方法，包括：获取待检测的会议音频数据对应的多个音频帧向量，其中，所述会议音频数据中包含有会议发言人对应的语音数据；对所述多个音频帧向量进行聚类，获得特征聚类结果；从所述特征聚类结果中确定出所述会议发言人对应的特征向量，并基于所述会议发言人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述会议发言人的音频帧向量；基于所述会议发言人的音频帧向量进行语音识别，根据语音识别结果生成会议记录文本。

根据本申请实施例的第三方面，提供了又一种语音检测方法，包括：获取待检测的第一音频数据对应的多个第一音频帧向量和第二音频数据对应的多个第二音频帧向量；分别获得所述第一音频帧向量对应的第一主说话人音频帧向量和所述第二音频帧向量对应的第二主说话人音频帧向量；其中，所述第一主说话人音频帧向量和所述第二主说话人音频帧向量均通过以下方式获得：分别对多个第一或第二音频帧向量进行聚类，获得对应的特征聚类结果；从所述特征聚类结果中确定出对应的第一主说话人或第二主说话人对应的特征向量，并基于所述特征向量对多个第一或第二音频帧向量进行掩码，根据掩码结果获得第一主说话人或第二主说话人的音频帧向量；根据所述第一主说话人音频帧向量和所述第二主说话人音频帧向量，确定所述第一音频数据和所述第二音频数据是否为同一说话人的音频数据。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面或第三方面所述方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的方法。

根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面或第二方面或第三方面所述方法对应的操作。

根据本申请实施例提供的方案，一方面，可以无需对待检测的音频数据进行分段或者简单分为几个大段即可，无需切分为较小的音频片段，从而在一定程度上节省了音频数据的处理成本，提高了处理效率。另一方面，针对待检测的音频数据，通过特征聚类的方式可以简单且高效地从音频中筛选出目标说话人，即主说话人的特征向量；进而，以此为依据对待检测的音频数据对应的多个音频帧向量进行掩码，可以有效过滤掉非目标说话人的音频帧向量。由此，使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音，实现目标说话人音频的精准分离。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例的语音检测方案的示例性系统的示意图；

图2A为根据本申请实施例的一种语音检测方法的步骤流程图；

图2B为图2A所示实施例中的一种示例性模型结构的示意图；

图2C为图2A所示实施例中的一种场景示例的示意图；

图2D为图2A所示实施例中的另一种场景示例的示意图；

图3为根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例的语音检测方案的示例性系统。如图1所示，该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，在一些实施例中，云服务端102可以用于从音频数据中获得目标说话人对应的那部分数据。作为可选的示例，在一些实施例中，云服务端102可以被用于根据待检测的音频数据对应的多个音频帧向量，通过聚类来获得目标说话人对应的特征向量，进而根据该目标说话人对应的特征向量，通过对多个音频帧向量进行掩码的方式，获得目标说话人的音频帧向量。作为另一示例，在一些实施例中，云服务端102可以被用于接收用户设备发送的待检测的音频数据，或者，接收用户设备发送的语音检测请求，基于该请求获得待检测的音频数据，并基于聚类和掩码方式，获得音频数据中的目标说话人的音频帧向量及其对应的音频帧数据。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于与用户交互并呈现相应信息的任何一个或多个用户设备。在一些实施例中，用户设备106可以向云服务端102发送语音检测请求，以请求云服务端102基于待检测的音频数据，确定其中的目标说话人的音频帧向量，进而确定目标说话人的音频帧数据。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

基于上述系统，本申请实施例提供了一种语音检测方法，以下通过实施例进行说明。

参照图2A，示出了根据本申请实施例的一种语音检测方法的步骤流程图。

本实施例的语音检测方法包括以下步骤：

步骤S202：获取待检测的音频数据对应的多个音频帧向量。

其中，该音频数据中包含有至少一个说话人对应的语音数据。

本申请实施例中，待检测的音频数据可以是任意适当的包含有至少一个说话人的语音数据的音频数据。该音频数据可以是完整的音频，也可以是音频片段，一个待检测的音频数据中通常包含多帧音频帧。示例性地，待检测的音频数据可以为包含有多个说话人的发言的会议音频数据，或者为包含一个说话人的发言和背景声音（如背景音乐、背景雨声，等等）的音频数据。本申请实施例中，对待检测的音频数据的具体形式不作限制。

在确定了待检测的音频数据后，需要对其进行特征提取，以获得其包含的多个音频帧中的每个音频帧对应的音频帧向量。在一种可行方式中，可以使用D-TDNN（密集连接的时延神经网络）网络模型对待检测的音频数据进行特征提取，获得对应的多个音频帧向量。D-TDNN对每个隐层的输出都在时域进行扩展，即每个隐层接收到的输入不仅是前一层在当前时刻的输出，还有前一层在之前和之后的某些时刻的输出，由此，能够提取到更为准确的音频帧特征向量。但不限于此，其它可进行音频帧的特征向量提取的网络模型，包括但不限于CNN（卷积神经网络模型）网络模型等均可适用于本申请实施例的方案。

需要说明的是，本申请实施例中，“多帧”、“多个”、“多种”等与“多”有关的数量，均意指两个及两个以上。

步骤S204：对多个音频帧向量进行聚类，获得特征聚类结果。

在获得了待检测的音频数据中的多个音频帧分别对应的音频帧向量后，即可基于这些音频帧向量进行特征聚类，并获得相应的特征聚类结果。

其中，对特征进行聚类的具体实现可采用相关技术中的方式实现，如，K-means方式、k-medoids方式等，本申请实施例对特征聚类的具体实现也不作限制。

在进行具体特征聚类时，可根据聚类方式的不同获得具体的聚类结果，如，聚类为N个类别，N大于或等于2等。但为了提高聚类效率，降低语音检测的整体成本，在一种可行方式中，可以对多个音频帧向量进行两分类聚类，获得主说话人特征聚类结果和非主说话人特征聚类结果。也即，可以根据聚类结果，将特征区分为包含最多特征的一个类别（即主说话人特征聚类结果）和包含不属于前述类别的其它特征的类别（可能为其它说话人的特征也可能为噪声特征）。由此，可以快速、高效、低成本地获得目标说话人对应的那部分特征。

步骤S206：从特征聚类结果中确定出目标说话人对应的特征向量，并基于目标说话人对应的特征向量对多个音频帧向量进行掩码，根据掩码结果获得目标说话人的音频帧向量。

进行特征聚类后，会获得多个聚类结果，继而，可将包含特征向量最多的那个结果作为目标说话人对应的结果。即，从特征聚类结果中筛选出最大类别的特征聚类结果，将最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量。由此，实现快速、高效的目标说话人特征向量的定位。例如，通过聚类，获得了第1、2、3、4、5个共五个特征聚类簇，其中第1个特征聚类簇最大、包含的特征向量数量最多，则该第1个特征聚类簇中的特征向量即将被作为目标说话人对话的特征向量。

当特征聚类采用前述两分类聚类时，将获得两个聚类簇，也即主说话人特征聚类结果和非主说话人特征聚类结果，则其中较大的那个聚类簇为主说话人特征聚类结果，可将该主说话人特征聚类结果对应的特征向量即作为目标说话人对应的特征向量。

此外，在具体实现时，还可对最大类别的特征聚类结果对应的特征向量进行平均池化，根据平均池化结果获得目标说话人对应的特征向量。由此，使得获得的目标说话人对应的特征向量更为客观，更能代表目标说话人的声音特征。

在获得了目标说话人对应的特征向量后，可以其为依据，对待检测的音频数据对应的多个音频帧向量进行掩码。在一种示例性方案中，可以将目标说话人对应的特征向量和待检测的音频数据对应的多个音频帧向量输入掩码预测网络，获得掩码预测网络输出的、针对每个音频帧的掩码标签；根据掩码标签对多个音频帧向量进行掩码，获得掩码结果。其中，掩码标签可以用于指示每个音频帧对应的特征向量是否与目标说话人对应的特征向量匹配；或者，掩码标签也可以用于指示每个音频帧对应的特征向量与目标说话人对应的特征向量的匹配概率。

其中，掩码预测网络可以为具有任意适当结构的、可预测多个音频帧中的哪些音频帧属于目标说话人的机器学习模型。其输出的掩码标签可以分为两种类型，一种是可直接指示每个音频帧对应的特征向量是否与目标说话人对应的特征向量匹配，也称为硬标签，例如，输出0和1，其中1代表当前音频帧属于目标说话人，0代表当前音频帧不属于目标说话人。另一种可指示每个音频帧对应的特征向量与目标说话人对应的特征向量的匹配概率，也称为软标签，例如，输出一个0-1之间的概率，若当前音频帧对应的概率值越大，其属于目标说话人的可能性也越大。

基于该掩码标签，即可对多个音频帧向量进行掩码处理。例如，假设有5个音频帧向量，分别对应于音频帧1、2、3、4、5。若经掩码预测网络输出的对应的掩码标签分别为【1、1、0、0、1】，则对第3、4音频帧对应的音频帧向量进行掩码处理。再例如，假设经掩码预测网络输出的、与前述5个音频帧对应的掩码标签分别为【0.9、0.9、0.1、0.2、0.7】，则以这些概率值为权重，与各自对应的音频帧向量进行权重处理，如音频帧向量乘以该权重等，同样可实现对这些音频帧向量的掩码处理。

根据掩码标签对多个音频帧向量进行掩码后，可获得掩码结果即多个音频帧向量对应的掩码向量。因可认为该掩码向量为对非目标说话人进行了滤除后的向量，则基于该掩码向量即可获得目标说话人的音频帧向量。为了使获得的目标说话人的音频帧向量更为客观和准确，可选地，可以对获得的掩码结果即掩码向量进行权重平均池化，以获得目标说话人的音频帧向量。

在获得了目标说话人的音频帧向量后，即可进行后续的应用处理。例如，对目标说话人的音频帧向量对应的音频帧进行语音识别；或者，将其与之前获得的另一目标说话人的音频帧向量进行比较，以确定两者是否为同一目标说话人，等等。

上述语音检测过程可采用相应的机器学习模型实现，一种示例性的机器学习模型结构如图2B所示，其包括：D-TDNN网络部分、聚类部分、平均池化部分、掩码预测网络部分、掩码部分和权重平均池化部分。

在通过图2B中所示的机器学习模型进行语音检测的示例中，假设输入一段包含2个说话人的音频数据（也可以是更多个说话人的音频数据或者一个说话人的音频数据），该音频数据先经过D-TDNN网络部分，获得帧级隐藏层向量（即音频帧向量），如图中㳀灰色帧代表说话人A的音频帧向量，深灰色帧代表说话人B的音频帧向量。将所有音频帧向量通过聚类部分进行一个固定类别数=2的聚类，获得两个类别，如图中两个虚线框分别框出的类别。其中，较大的类别代表该音频数据的主说话人。因此，将图中所有㳀灰色帧通过平均池化部分进行平均池化(Mean Pooling)，获得目标说话人的特征向量(Target Embedding)。

再将该目标说话人的特征向量与聚类前得的所有帧级隐藏层向量，共同输入掩码预测网络(Mask Prediction)部分。掩码预测网络部分将预测其中的哪些帧属于目标说话人（本示例中为说话人A）。掩码预测网络部分可输出两种类型的掩码标签，一种是硬标签（即，0或1，代表该帧是否属于目标说话人），一种是软标签（即，0-1之间的概率）。在获得概率后，可基于该概率通过掩码部分对帧级隐藏层向量进行掩码处理，获得掩码向量（图中被掩码的向量部分示意为白色）。然后，再将获得的概率与掩码向量通过权重平均池化部分进行权重平均池化，获得最终的目标说话人的音频帧向量并输出。

由此，不管待检测的音频数据中包含有多少说话人的声音，都会将非目标说话人的声音过滤掉，尽可能保证最终提取的音频帧向量能够有效代表音频数据中目标说话人的声音。也正是因此，可将音频数据对应的音频长度增加到3秒甚至4秒甚至更长时间，可有效保障目标说话人的音频帧向量的稳定性。

通过本实施例，一方面，可以无需对待检测的音频数据进行分段或者简单分为几个大段即可，无需切分为较小的音频片段，从而在一定程度上节省了音频数据的处理成本，提高了处理效率。另一方面，针对待检测的音频数据，通过特征聚类的方式可以简单且高效地从音频中筛选出目标说话人，即主说话人的特征向量；进而，以此为依据对待检测的音频数据对应的多个音频帧向量进行掩码，可以有效过滤掉非目标说话人的音频帧向量。由此，使得提取出的目标说话人的音频帧向量能够准确地代表目标说话人的声音，实现目标说话人音频的精准分离。

上述语音检测过程可应用于任意适当的下游任务场景中，一个示例性的场景为会议转写场景。

该场景下的语音检测方案的应用包括：获取待检测的会议音频数据对应的多个音频帧向量，其中，会议音频数据中包含有会议发言人对应的语音数据；对多个音频帧向量进行聚类，获得特征聚类结果；从特征聚类结果中确定出会议发言人对应的特征向量，并基于会议发言人对应的特征向量对多个音频帧向量进行掩码，根据掩码结果获得会议发言人的音频帧向量；基于会议发言人的音频帧向量进行语音识别，根据语音识别结果生成会议记录文本。

如图2C所示，假设待检测的会议音频数据中除包含有发言人A的语音数据外，还包含有说话人B（非发言人）的语音数据，再简单假设这段音频数据包括有15帧音频帧。首先，将这15帧音频帧通过诸如TDNN网络模型的处理，获得对应的15帧音频帧向量。接着，对这15帧音频帧向量进行特征聚类，获得一个包含10帧音频帧向量的聚类簇和一个包含5帧音频帧向量的聚类簇。因发言人A为会议的发言人，因此，将包含10帧音频帧向量的聚类簇确定为发言人A对应的聚类簇，其中的10帧音频帧向量即为发言人A对应的特征向量。将该10帧音频帧向量进行平均池化处理，获得最终的发言人A的特征向量。将该发言人A的特征向量和前述15帧音频帧向量一起输入掩码预测网络，假设掩码预测网络输出对应的掩码标签，如【1，1，1，1，1，0，0，0，1，1，1，0，0，1，1】。基于该掩码标签，对15帧音频帧向量进行掩码处理，获得掩码向量，简单示意为【音频帧1向量，音频帧2向量，音频帧3向量，音频帧4向量，音频帧5向量，MASK码，MASK码，MASK码，音频帧9向量，音频帧10向量，音频帧11向量，MASK码，MASK码，音频帧14向量，音频帧15向量】。对该掩码向量进行权重平均池化，即可获得最终的发言人A的音频帧向量，即权重平均池化后的【音频帧1向量，音频帧2向量，音频帧3向量，音频帧4向量，音频帧5向量，音频帧9向量，音频帧10向量，音频帧11向量，音频帧14向量，音频帧15向量】。进而，基于该发言人A的音频帧向量进行语音识别，即可获得发言人A的发言内容文本。根据发言人A在会议中的所有发言内容文本，可生成相对应的会议记录文本。

由此，在可能包含超过一个说话人的声音的音频数据（也即，不纯的音频数据）中，通过上述过程对非主要说话人或非主要发言人的声音进行过滤，可以得到更为纯粹的目标说话人的声音，保证声音特征的鲁棒性，提升目标说话人的音频分离效果。

另一个示例性的场景为语音比对场景，该场景下的语音检测方案的应用包括：获取待检测的第一音频数据对应的多个第一音频帧向量和第二音频数据对应的多个第二音频帧向量；分别获得第一音频帧向量对应的第一主说话人音频帧向量和第二音频帧向量对应的第二主说话人音频帧向量；其中，第一主说话人音频帧向量和第二主说话人音频帧向量均通过以下方式获得：分别对多个第一或第二音频帧向量进行聚类，获得对应的特征聚类结果；从特征聚类结果中确定出对应的第一主说话人或第二主说话人对应的特征向量，并基于特征向量对多个第一或第二音频帧向量进行掩码，根据掩码结果获得第一主说话人或第二主说话人的音频帧向量；根据第一主说话人音频帧向量和第二主说话人音频帧向量，确定第一音频数据和第二音频数据是否为同一说话人的音频数据。

如图2D所示，假设有第一音频片段A和第二音频片段B，需要比较两个音频片段中的说话人是否为同一发言人，则需要获取这两个音频片段分别对应的说话人的音频帧向量。其中，该两个音频片段分别对应的说话人的音频帧向量在具体获取时无顺序要求，也即，可以先获取第一音频片段A的说话人的音频帧向量，也可以先获取第二音频片段B的说话人的音频帧向量，还可以两者并行进行。本示例中，以先对第一音频片段A进行处理再对第二音频片段B进行处理为示例。

假设第一音频片段包括有15帧音频帧则，首先，将这15帧音频帧通过诸如TDNN网络模型的处理，获得对应的15帧音频帧向量。接着，对这15帧音频帧向量进行特征聚类，获得一个包含10帧音频帧向量的聚类簇和一个包含5帧音频帧向量的聚类簇。将包含10帧音频帧向量的聚类簇确定为目标说话人A对应的聚类簇，其中的10帧音频帧向量即为目标说话人A对应的特征向量。将该10帧音频帧向量进行平均池化处理，获得最终的目标说话人A的特征向量。将该目标说话人A的特征向量和前述15帧音频帧向量一起输入掩码预测网络，假设掩码预测网络输出对应的掩码标签，如【1，1，1，1，1，0，0，0，1，1，1，0，0，1，1】。基于该掩码标签，对15帧音频帧向量进行掩码处理，获得掩码向量，简单示意为【音频帧1向量，音频帧2向量，音频帧3向量，音频帧4向量，音频帧5向量，MASK码，MASK码，MASK码，音频帧9向量，音频帧10向量，音频帧11向量，MASK码，MASK码，音频帧14向量，音频帧15向量】。对该掩码向量进行权重平均池化，即可获得最终的目标说话人A的音频帧向量，设定为音频帧向量A，即权重平均池化后的【音频帧1向量，音频帧2向量，音频帧3向量，音频帧4向量，音频帧5向量，音频帧9向量，音频帧10向量，音频帧11向量，音频帧14向量，音频帧15向量】。

假设第二音频片段也包括有15帧音频帧则，首先，将这15帧音频帧通过诸如TDNN网络模型的处理，获得对应的15帧音频帧向量。接着，对这15帧音频帧向量进行特征聚类，获得一个包含9帧音频帧向量的聚类簇和一个包含6帧音频帧向量的聚类簇。将包含9帧音频帧向量的聚类簇确定为目标说话人B对应的聚类簇，其中的9帧音频帧向量即为目标说话人B对应的特征向量。将该9帧音频帧向量进行平均池化处理，获得最终的目标说话人B的特征向量。将该目标说话人A的特征向量和前述15帧音频帧向量一起输入掩码预测网络，假设掩码预测网络输出对应的掩码标签，如【1，1，1，1，1，0，0，0，1，1，1，1，0，0，0】。基于该掩码标签，对15帧音频帧向量进行掩码处理，获得掩码向量，简单示意为【音频帧1向量，音频帧2向量，音频帧3向量，音频帧4向量，音频帧5向量，MASK码，MASK码，MASK码，音频帧9向量，音频帧10向量，音频帧11向量，音频帧12向量，MASK码，MASK码，MASK码】。对该掩码向量进行权重平均池化，即可获得最终的目标说话人B的音频帧向量，设定为音频帧向量B，即权重平均池化后的【音频帧1向量，音频帧2向量，音频帧3向量，音频帧4向量，音频帧5向量，音频帧9向量，音频帧10向量，音频帧11向量，音频帧12向量】。

然后，计算音频帧向量A和音频帧向量B之间的相似度，若该相似度满足预设阈值（如0.7），则认为第一音频片段A和第二音频片段B为同一说话人的音频片段，即目标说话人A和B为同一说话人。反之，则为不同的说话人。本示例中，假设相似度为0.9，判定目标说话人A和B为同一说话人。

由此，在可能包含超过一个说话人的声音的音频数据（也即，不纯的音频数据）中，可以过滤获得目标说话人的声音，有效对不同的音频数据的说话人是否为相同的说话人进行判定和区分。

参照图3，示出了根据本申请实施例的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图3所示，该电子设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：

处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304，用于与其它电子设备或服务器进行通信。

处理器302，用于执行程序310，具体可以执行上述语音检测方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行前述多个方法实施例中任一实施例所描述的语音检测方法对应的操作。

程序310中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一语音检测方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音检测方法，包括：

获取待检测的音频数据对应的多个音频帧向量，其中，所述音频数据中包含有至少一个说话人对应的语音数据；

对所述多个音频帧向量进行聚类，获得特征聚类结果；

从所述特征聚类结果中确定出目标说话人对应的特征向量，并基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述目标说话人的音频帧向量。

2.根据权利要求1所述的方法，其中，所述基于所述目标说话人对应的特征向量对所述多个音频帧向量进行掩码，包括：

将所述目标说话人对应的特征向量和所述多个音频帧向量输入掩码预测网络，获得所述掩码预测网络输出的、针对每个音频帧的掩码标签；

根据所述掩码标签对所述多个音频帧向量进行掩码，获得掩码结果。

3.根据权利要求2所述的方法，其中，所述掩码标签包括：用于指示每个音频帧对应的特征向量是否与所述目标说话人对应的特征向量匹配的掩码标签；或者，用于指示每个音频帧对应的特征向量与所述目标说话人对应的特征向量的匹配概率的掩码标签。

4.根据权利要求1-3任一项所述的方法，其中，所述根据掩码结果获得所述目标说话人的音频帧向量，包括：

对所述掩码结果进行权重平均池化，获得所述目标说话人的音频帧向量。

5.根据权利要求1所述的方法，其中，所述从所述特征聚类结果中确定出目标说话人对应的特征向量，包括：

从所述特征聚类结果中筛选出最大类别的特征聚类结果，将所述最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量。

6.根据权利要求5所述的方法，其中，所述将所述最大类别的特征聚类结果对应的特征向量确定为目标说话人对应的特征向量，包括：

对所述最大类别的特征聚类结果对应的特征向量进行平均池化，根据平均池化结果获得目标说话人对应的特征向量。

7.根据权利要求1、5或6所述的方法，其中，

所述对所述多个音频帧向量进行聚类，获得特征聚类结果，包括：对所述多个音频帧向量进行两分类聚类，获得主说话人特征聚类结果和非主说话人特征聚类结果；

所述从所述特征聚类结果中确定出目标说话人对应的特征向量，包括：将所述主说话人特征聚类结果对应的特征向量确定为目标说话人对应的特征向量。

8.一种语音检测方法，包括：

获取待检测的会议音频数据对应的多个音频帧向量，其中，所述会议音频数据中包含有会议发言人对应的语音数据；

对所述多个音频帧向量进行聚类，获得特征聚类结果；

从所述特征聚类结果中确定出所述会议发言人对应的特征向量，并基于所述会议发言人对应的特征向量对所述多个音频帧向量进行掩码，根据掩码结果获得所述会议发言人的音频帧向量；

基于所述会议发言人的音频帧向量进行语音识别，根据语音识别结果生成会议记录文本。

9.一种语音检测方法，包括：

获取待检测的第一音频数据对应的多个第一音频帧向量和第二音频数据对应的多个第二音频帧向量；

分别获得所述第一音频帧向量对应的第一主说话人音频帧向量和所述第二音频帧向量对应的第二主说话人音频帧向量；其中，所述第一主说话人音频帧向量和所述第二主说话人音频帧向量均通过以下方式获得：分别对多个第一或第二音频帧向量进行聚类，获得对应的特征聚类结果；从所述特征聚类结果中确定出对应的第一主说话人或第二主说话人对应的特征向量，并基于所述特征向量对多个第一或第二音频帧向量进行掩码，根据掩码结果获得第一主说话人或第二主说话人的音频帧向量；

根据所述第一主说话人音频帧向量和所述第二主说话人音频帧向量，确定所述第一音频数据和所述第二音频数据是否为同一说话人的音频数据。

10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的方法对应的操作。

11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

12.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-9中任一所述方法对应的操作。