CN113470624A

CN113470624A - 声音检测方法

Info

Publication number: CN113470624A
Application number: CN202111029142.7A
Authority: CN
Inventors: 张仕良; 郑斯奇; 黄伟隆
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-10-01
Anticipated expiration: 2041-09-03
Also published as: CN113470624B; US20230074906A1

Abstract

本发明公开了一种声音检测方法。其中，该方法包括：获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。本发明解决了对混叠语音检测的准确度较低的技术问题。

Description

声音检测方法

技术领域

本发明涉及声音检测领域，具体而言，涉及一种声音检测方法。

背景技术

目前，语音识别系统可以对场景中出现的语音进行识别并转写为文字形式，但是，一般场景中会存在多个人说话的情况，即，场景中存在有混叠语音，混叠语音的存在会给后续的对说话人分割，语音识别等带来极大的挑战，对于目前的语音识别系统，其难以精确的识别出多个人说话的情况。通常需要先通过混叠语音检测技术，得到混叠语音，然后再利用语音分离技术分离出各个说话人，才能采用通用的语音识别系统进行语音识别。但是目前存在的一个问题是混叠语音检查技术的准确率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种声音检测方法，以至少解决对混叠语音检测的准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种声音检测方法，包括：获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

根据本发明实施例的另一方面，还提供了一种声音检测方法，包括：在会议界面中展示音视频交互界面；在音视频交互界面感应到检测指令的情况下，获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；在音视频交互界面中展示第一声音检测结果，其中，第一声音检测结果为将目标声音片段和空间分布谱片段输入至声音检测模型得到的结果，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

根据本发明实施例的另一方面，还提供了一种声音检测方法，包括：在教学界面中触发教学互动功能，获取教学过程中产生的初始声音信号和初始声音信号的空间分布谱；响应教学界面感应到检测指令，对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；在教学界面中展示第一声音检测结果，其中，第一声音检测结果为将目标声音片段和空间分布谱片段输入至声音检测模型得到的结果，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

根据本发明实施例的另一方面，还提供了一种声音检测装置，包括：第一获取单元，用于获取初始声音信号和初始声音信号的空间分布谱；第一分割单元，用于对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；第二分割单元，用于利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；第一输入单元，用于将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

根据本发明实施例的另一方面，还提供了另一种声音检测装置，包括：第一展示单元，用于在会议界面中展示音视频交互界面；第二获取单元，用于在音视频交互界面感应到检测指令的情况下，获取初始声音信号和初始声音信号的空间分布谱；第四分割单元用于对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；第五分割单元，用于利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；第二展示单元，用于在音视频交互界面中展示第一声音检测结果，其中，第一声音检测结果为将目标声音片段和空间分布谱片段输入至声音检测模型得到的结果，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

在本申请实施例中，首先获取初始声音信号和初始声音信号的空间分布谱，然后对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间，并利用时间戳对空间分布谱进行分割，得到目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音，实现了通过初始声音信号的空间分布谱来提高对初始声音信号中混叠语音的检测的准确度。

容易注意到的是，通过对初始声音信号进行分割得到目标声音片段，可以得到与该目标声音片段对应的空间分布谱片段，通过结合空间分布谱片段可以更加精确的检测到目标声音片段中是否存在混叠语音，若利用声音检测模型检测到目标声音片段中存在混叠语音，则可以对该混叠语音进行处理，以便得到混叠语音中每个对象的语音。

由此，本申请提供的方案解决了相关技术中对混叠语音检测的准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种声音检测方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的一种声音检测方法的流程图；

图3是根据本发明实施例的另一种声音检测方法的流程图；

图4是根据本发明实施例的一种声音检测模型的训练方法的流程图；

图5a是根据本发明实施例的另一种声音检测方法的流程图；

图5b是根据本发明实施例的一种显示界面的示意图；

图6a是根据本发明实施例的另一种声音检测方法的流程图；

图6b是根据本发明实施例的另一种显示界面的示意图；

图7是根据本发明实施例的一种声音检测装置的示意图；

图8是根据本发明实施例的另一种声音检测装置的示意图；

图9是根据本发明实施例的另一种声音检测装置的示意图；

图10是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“原始”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

混叠语音检测，指声音信号中存在多个对象的声音检测技术。

空间特征，指本申请中语音信号在空间的分布。

双流DFSMN（声学模型），用于对混叠语音进行检测的模型。

目前，音视频会议场景是目前智能语音技术解锁的一个新的应用场景，对于音视频会议的一个较大的需求是得到可读性很强的会议纪要。现有的通用语音识别系统只是完成转写任务。但是音视频会议场景中通常是包含多个参会人员，那么可读强的会议纪要就不能只是简单的转写出文字，而是需要进行分角色转写。这过程会面临更多的挑战，第一，如何能够很好的区分说话人，第二，如何处理混叠语音。

但是，会议场景存在10%左右的语音是同时存在多个说话人的，这些语音对于现有的语音识别系统是没办法很好处理的。为了解决上述问题，本申请提供了如下解决方案。

实施例1

根据本发明实施例，还提供了一种声音检测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种声音检测方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个（图中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的声音检测方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

在上述运行环境中，本申请提供了如图2所示的声音检测方法，图2是根据本申请实施例1的一种声音检测方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，获取初始声音信号和初始声音信号的空间分布谱。

上述的初始声音信号可以是待处理的多通道的声音信号，也可以是待处理的单通道的声音信号。其中，多通道的声音信号可以通过多个声音采集装置得到，单通道的声音信号可以通过单个声音采集装置得到。多个声音采集装置可以构成一个包含麦克风阵列的麦克风；单个声音采集装置可以构成一个麦克风。

上述的初始声音信号的空间分布谱可以是初始声音信号在空间中的分布情况。

在一种可选的实施例中，可以从声音采集装置中获取到初始声音信号，然后利用声源定位技术确定出初始声音信号在空间中的分布情况，即可得到初始声音信号的空间分布谱。

上述的初始声音信号可以是从会议场景中所采集到的声音信号，初始声音信号的空间分布谱可以是声音信号在会议室中的分布情况。

上述的初始声音信号可以是教育场景中所采集到的声音信号，初始声音信号的空间分布谱可以是声音信号在教育场景中的分布情况。

步骤S204，对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳。

其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间。

在一种可选的实施例中，可以通过预先训练好的分割模型对初始声音信号进行分割，得到目标声音片段，其中，分割模型可以为基于神经网络的语音活动检测模型（neuralnetwork voice activity detection，简称NN-VAD）。

在另一种可选的实施例中，初始声音信号可以包括有各种类型的声音信号，例如，语音信号、噪声信号环境声音等。可以按照初始声音信号的时间戳对初始声音信号进行分割，具体的，可以检测初始声音信号中各个时间段中是否存在至少一个对象的语音，若在某个时间段中存在至少一个对象的语音，则获取该时间段的开始时间和结束时间，并根据该开始时间和结束时间对初始声音信号进行分割，得到目标声音片段。

上述的时间戳可以为目标声音片段的开始时间点和目标声音片段的结束时间点。

示例性的，若初始声音信号一共持续十分钟，且在第三分钟到第六分钟中存在有至少一个对象的语音，则需要分割的目标声音片段对应的时间戳为第三分钟和第六分钟，此时可以将初始声音信号中从第三分钟到第六分钟的声音信号分割出来，得到包括有至少一个对象的语音的目标声音片段。

上述的时间戳还可以为目标声音片段的开始时间点和目标声音片段的结束时间点。

示例性的，若初始声音信号一共持续十分钟，且在第三分钟到第六分钟中存在有至少一个对象的语音，则需要分割的目标声音片段对应的时间戳为第三分钟到第六分钟，此时可以将初始声音信号中从第三分钟到第六分钟的声音信号分割出来，得到包括有至少一个对象的语音的目标声音片段。

上述的对象可以为场景中任意一个可以发出语音的主体，其中，主体可以为人，主体还可以为设备。

在另一种可选的实施例中，可以先获取初始声音信号的中存在有至少一个对象的语音的声音片段，并确定该声音片段的开始时间和结束时间，然后根据该声音片段的开始时间和结束时间对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的开始时间和结束时间，即该目标声音片段对应的时间戳。

在又一种可选的实施例中，可以先获取初始声音信号中不存在有对象的语音的声音片段，并确定该声音片段的开始时间和结束时间，然后根据该声音片段的开始时间和结束时间对初始声音信号进行分割，得到不包含有对象语音的声音片段，并丢弃该不包含有对象语音的声音片段，由于已经将初始声音信号中不包含有对象语音的声音片段进行丢弃，那么剩余的声音片段中则包含有对象语音的声音片段，此时，可以获取剩余的声音片段，并将其作为目标声音片段。在获取到目标声音片段后，可以获取该目标声音片段的时间戳，以便利用该时间戳对初始声音信号的空间分布谱进行分割。

步骤S206，利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段。

在一种可选的实施例中，目标声音片段中包括至少一个对象的语音，根据目标声音片段的开始时间和结束时间可以对初始声音信号对应的空间分布谱进行分割，以便得到与该目标声音片段对应的空间分布谱片段。需要说明的是，目标声音片段的开始时间和结束时间与空间分布片段的开始时间和结束时间相同。

在另一种可选的实施例中，空间分布频谱片段中显示目标声音片段中至少一个对象的空间分布特征，若目标声音片段中包括多个对象的声音，则空间分布频谱片段中显示多个对象的空间分布特征。

步骤S208，将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果。

其中，第一声音检测结果用于描述初始声音信号中是否同时存在多个对象的声音。

在一种可选的实施例中，可以将目标声音片段和空间分布谱片段输入到声音检测模型中，以检测到目标声音片段中是否包括有多个对象的声音，即，目标声音片段中是否存在混叠语音。

在另一种可选的实施例中，通过结合空间分布谱对目标声音片段中的语音进行检测，可以有效的提高混叠语音的第一声音检测结果，若第一声音检测结果表示该目标声音片段中存在混叠语音，则可以对该混叠语音进行处理之后再进行语音识别，以得到每个对象的语音信息；若第一声音检测结果中表示该目标声音片段中不存在混叠语音，则可以直接对该目标声音片段进行识别，以得到其中包含的对象的语音信息。

在会议场景中，若需要根据参会人员的语音得到文字形式的会议纪要，则可以根据第一声音检测结果确定目标声音片段中是否存在有多个参会人员同时发出语音，若存在多个参会人员同时发出语音的情况，则可以将该目标语音片段进行处理之后得到每个参会人员的语音，并将每个参会人员的语音转化为文字形式，得到本次会议的会议纪要。若根据第一声音检测结果确定目标声音片段中不存在有多个参会人员同时发出语音的情况，则可以直接识别目标语音片段中参会人员的语音，并将该参会人员的语音转化为文字形式，得到本次会议的会议纪要。

本申请上述实施例中，在展示第一声音检测结果之后，该方法还包括：在第一声音检测结果为初始声音信号中存在多个对象的声音的情况下，对初始声音信号中的多个对象的声音进行分离，得到每个对象的独立声音信号。

在一种可选的实施例中，在第一声音检测结果为初始声音信号中存在多个对象的声音的情况下，说明该初始声音信号存在混叠语音，此时，可以将初始声音信号中的多个对象的声音进行分离，得到每个对象的独立声音信号，以便分别对每个对象的独立声音信号进行转化，得到每个对象的独立声音信号的文字形式。

在另一种可选的实施例中，可以通过预先设置的分离模型将初始声音信号中的多个对象的声音进行分离，还可以通过其他方式将初始声音信号中的多个对象的声音进行分离，此处对分离的方式不做任何限定。

通过上述步骤，首先获取初始声音信号和初始声音信号的空间分布谱，然后对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间，并利用时间戳对空间分布谱进行分割，得到目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音，实现了通过初始声音信号的空间分布谱来提高对初始声音信号中混叠语音的检测的准确度。

本申请上述实施例中，获取初始声音信号和初始声音信号的空间分布谱，包括：获取初始声音信号；利用声源定位模块对初始声音信号进行定位，生成初始声音信号的空间分布谱。

在一种可选的实施例中，上述的初始声音信号可能为多通道的声音信号，此时，可以在获取到初始声音信号之后，可以利用声源定位模块对每个通道的声音信号进行定位，从而生成初始声音信号的空间分布谱，其中，空间分布谱包括有每个通道的声音信号的空间分布特征，根据该空间分布特征可以确定每个通道的声音信号在空间中的位置情况。

在另一种可选的实施例中，上述的初始声音信号可能为单通道的声音信号，此时，可以在获取到初始声音信号之后，可以利用声源定位模块对该通道的声音信号进行定位，从而生成初始声音信号的空间分布谱，其中，空间分布谱包括有该通道的声音信号的空间分布特征，根据该空间分布特征可以确定该通道的声音信号在空间中的位置情况。

本申请上述实施例中，对初始声音信号进行分割，得到目标声音片段，包括：利用空间分布谱对初始声音信号进行处理，得到目标声音信号；对目标声音信号进行分割，得到目标声音片段。

在一种可选的实施例中，在获取到初始声音信号和该初始声音信号对应的空间分布谱之后，可以根据空间分布谱来对初始声音信号中各个通道的声音信号进行处理，具体的，由于空间分布谱中存在有各个通道声音信号的空间特征，因此，可以根据空间分布谱针对性的对空间中分布的各个通道的声音信号进行增强，以便得到增强后的声音信号，并将该声音信号作为目标声音信号，在得到目标声音信号之后，可以对该目标声音信号进行分割，从而得到目标声音片段。

本申请上述实施例中，利用空间分布谱对初始声音信号进行处理，得到目标声音信号，包括：利用声音增强模块对初始声音信号进行处理，得到增强后的初始声音信号；利用空间分布谱对增强后的初始声音信号进行处理，得到目标声音信号。

上述的声音增强模块可以是波束形成模块，波束形成模块主要是对初始声音信号中噪声和干扰方向进行抑制，增强目标方向的信号，当初始声音信号为单通道的声音信号时，可以根据单通道的方向增强单通道的声音信号，当初始声音信号为多通道的声音信号时，可以根据多通道的方向增强多通道的声音信号。

在一种可选的实施例中，在通过声音增强模块对初始声音信号进行增强之后，可以得到增强后的初始声音信号，进一步地，可以根据空间分布谱对增强后的初始声音信号继续增强，从而得到信号强度较强的目标信号。

本申请上述实施例中，该方法还包括：通过训练得到声音检测模型，其中，通过训练得到声音检测模型，包括：获取第一样本和第二样本，其中，第一样本为样本声音片段，第二样本为样本声音片段对应的样本空间分布谱片段；利用第一样本和第二样本对初始模型进行训练，得到声音检测模型。

在一种可选的实施例中，可以获取样本声音片段作为第一样本，并标注该样本声音片段是否存在有混叠语音，若样本声音片段存在有混叠语音，则对该样本声音片段标记为１，若样本声音片段不存在有混叠语音，则对该样本声音片段标记为０；在样本声音片段的标记为１时，其样本声音片段对应的样本空间分布谱片段标记为１，在样本声音片段的标记为０时，其样本声音片段对应的样本空间分布谱片段标记为０。

进一步地，可以根据第一样本和对第一样本的标记以及第二样本和对第二样本的标记来对初始模型进行训练，得到声音检测模型。

上述的初始模型可以为神经网络模型。

在另一种可选的实施例中，可以在每次进行声音检测之前，将之前的声音检测模型作为初始模型进行训练，得到训练后的声音检测模型，以便采用更加精准的声音检测模型检测初始声音信号中是否存在有多个对象的声音。

在又一种可选的实施例中，可以只对初始模型训练一次，得到声音检测模型。还可以根据需求来对初始模型进行训练，此处对初始模型训练的次数不做任何限定。

本申请上述实施例中，利用第一样本和第二样本对初始模型进行训练，得到声音检测模型，包括：将第一样本输入至第一特征提取网络，得到样本声音特征向量；将第二样本输入至第二特征提取网络，得到样本空间分布特征向量；将样本声音特征向量和样本空间分布特征向量进行融合，得到第一目标特征向量；利用第一目标特征向量对初始模型进行训练，得到声音检测模型。

在一种可选的实施例中，可以将第一样本与第一样本的标记输入到第一特征提取网络中，以便对第一样本中的声音特征进行提取，得到样本声音特征向量；可以将第二样本与第二样本的标记输入到第二特征提取网络中，以便对第二样本中的空间分布特征进行提取，得到样本空间分布特征向量，之后可以将样本声音特征向量和样本空间分布特征进行融合，得到第一目标特征向量，最后利用第一目标特征向量对初始模型进行训练，得到声音检测模型。

在另一种可选的实施例中，在得到第一目标特征向量之后，可以将第一目标特征输入到多层全连接网络和预测网络中，以便对初始模型进行训练。

上述的第一特征提取网络和第二特征提取网络可以为卷积神经网络。

本申请上述实施例中，该方法还包括：利用目标声音片段的时间戳对初始声音信号进行分割，得到初始声音片段；将目标声音片段、初始声音片段和空间分布谱片段输入至声音检测模型，得到第二声音检测结果，其中，第二声音检测结果用于描述初始声音信号中是否存在多个对象。

在一种可选的实施例中，可以利用目标声音片段的时间戳对初始声音片段进行分割，并将目标声音片段、初始声音片段和空间分布谱片段输入到声音检测模型中，以便利用初始声音片段对目标声音片段缺失的部分进行补偿，从而得到一个精确的第二声音检测结果。需要说明的是，目标声音片段是经过多层处理之后得到声音片段，因此其中的声音信息可能会出现部分缺失，通过将初始声音片段输入到声音检测模型中，可以对缺失的部分信息进行补偿，以便得到的第二声音检测结果更加的准确。

在另一种可选的实施例中，可以将目标声音片段和初始声音片段输入到声音检测模型中，得到第三声音检测结果，其中，第三声音检测结果用于描述初始声音信号中是否存在多个对象。

需要说明的是，用户可以根据需求从目标声音片段、初始声音片段、空间分布谱片段中任选其二输入至声音检测模型中。

本申请上述实施例中，利用第一样本和第二样本对初始模型进行训练，得到声音检测模型，包括：获取第三样本，其中，第三样本为样本声音片段对应的样本初始声音片段；利用第一样本、第二样本和第三样本对初始模型进行训练，得到声音检测模型。

在一种可选的实施例中，可以获取样本初始声音片段作为第三样本，并根据样本声音片段标注该样本初始声音片段中是否存在有混叠语音，在样本声音片段中存在有混叠语音的情况下，可以对样本初始声音片段标记为1，在样本声音片段中不存在有混叠语音的情况下，可以对样本初始声音片段标记为0。

进一步地，可以根据第一样本和第一样本的标记、第二样本和第二样本的标记以及第三样本和第三样本的标记来对初始模型进行训练，得到声音检测模型。

本申请上述实施例中，利用第一目标特征向量对初始模型进行训练，得到声音检测模型，包括：将第三样本输入至第三特征提取网络，得到样本初始声音特征向量；将第一目标特征向量和初始声音特征向量进行融合，得到第二目标特征向量；利用第二目标特征向量对初始模型进行训练，得到声音检测模型。

在一种可选的实施例中，可以将第三样本输入到第三特征提取网络中，以便对第三样本中的初始声音特征进行提取，得到初始声音特征向量，然后可以将第一目标特征向量与初始声音特征向量进行融合，得到第二目标特征向量，最后可以利用第二目标特征向量对初始模型进行训练，得到声音检测模型。其中，得到的声音检测模型可以根据输入的目标声音片段、空间分布谱片段以及初始声音片段来输出得到声音检测结果，以判断初始声音信号中是否存在有混叠语音，以便在检测到初始声音信号中存在有混叠语音的情况下，对初始声音信号进行处理，确定出混叠语音中每个对象的语音，并对每个对象的语音进行识别；若检测到初始声音信号中不存在混叠语音的情况下，可以直接识别出初始声音信号中对象的语音。

下面结合图3和图4对本申请一种优选的实施例进行详细说明，该方法可以由移动终端或服务器执行，在本申请实施例中，以该方法由服务器执行为例进行说明。

步骤S301，采集初始声音信号；

上述的初始声音信号可以为阵列信号，阵列信号可以从多通道中获取，其中，阵列信号可以用

、

、

…

表示。

步骤S302，基于CDDMA（一种新的服务于分布式覆盖网框架的应用层组播树的构建算法）的语音波束形成对初始声音信号进行处理，得到增强后的初始声音信号；

上述增强后的初始声音信号可以为多波束的声音信号。

步骤S303，基于CDDMA的语音声源定位对初始声音信号进行处理，得到该初始声音信号的空间分布谱；

步骤S304，利用空间分布谱对初始声音信号进行增强，得到目标声音信号；

步骤S305，利用基于神经网络的语音活动检测模型对目标声音信号进行分割，得到目标声音片段；

步骤S306，利用基于神经网络的语音活动检测模型对空间分布谱进行分割，得到空间分布谱片段；

步骤S307，利用基于神经网络的语音活动检测模型对初始声音信号进行分割，得到初始声音片段；

步骤S308，将目标声音片段、空间分布谱片段以及初始声音片段输入到声音检测模型中，得到声音检测结果。

如图4所示为声音检测模型的训练方法，该方法包括如下步骤：

步骤S401，将样本声音片段输入到第一特征提取网络中，得到样本声音特征向量；

具体的，可以通过第一特征提取网络中的全连接层提取得到样本声音特征向量。

步骤S402，将样本声音片段对应的样本空间分布谱片段输入到第二特征提取网络中，得到样本空间分布特征向量；

具体的，可以通过第二特征提取网络中的全连接层提取得到样本空间分布特征向量。

步骤S403，将样本声音特征向量和样本空间分布特征向量进行融合后输入到全连接层中，并输出融合后的特征；

步骤S404，将融合后的特征输入到池化层中，利用池化层对融合后的特征进行处理，将处理后的特征输入到预测网络中；

步骤S405，利用预测网络对处理后的特征进行预测，得到输出结果，以完成对初始模型的训练。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁盘、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

实施例2

根据本申请实施例，还提供了一种声音检测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图5a是根据本发明实施例的一种声音检测方法的流程图。如图5a所示，该方法可以包括以下步骤：

步骤S502，在会议界面中展示音视频交互界面。

上述的会议界面可以为计算机终端或者移动终端的显示界面。

上述的音视频交互界面可以是会议界面中会议场景所展示的界面。

上述的会议界面可以为网络会议界面，还可以是通过线缆所展示的会议界面。

步骤S504，在音视频交互界面感应到检测指令的情况下，获取初始声音信号和初始声音信号的空间分布谱。

在一种可选的实施例中，用户可以按下预先设置的控件来触发检测指令，以便获取到初始声音信号和初始声音信号的空间分布谱。

步骤S506，对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳。

步骤S508，利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段。

步骤S510，在音视频交互界面中展示第一声音检测结果。

其中，第一声音检测结果为将目标声音片段和空间分布谱片段输入至声音检测模型得到的结果，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

在一种可选的实施例中，可以在音视频交互界面中展示第一声音检测结果，以便根据第一声音检测结果对存在有混叠语音的初始声音信号进行处理，从而得到初始声音信号中每个对象的语音。

本申请上述实施例中，在音视频交互界面中展示第一声音检测结果之后，该方法还包括：在第一声音检测结果为初始声音信号中存在多个对象的声音的情况下，对初始声音信号中的多个对象的声音进行分离，得到每个对象的独立声音信号；在音视频交互界面中展示每个对象的独立声音信号。

如图5b所示为会议音频播放界面，会议音频播放界面可以显示第一声音检测结果，其中，第一声音检测结果可以显示参会人员A的初始声音信号，其中，前两个分割线为初始声音信号中同时存在参会人员A声音和参会人员B声音的第一部分，后两个分割线为初始声音信号中同时存在参会人员A声音和参会人员C声音的第二部分。

进一步地，可以对第一部分和第二部分的声音进行分离处理，得到第一部分中参会人员A的独立声音信号和参会人员B的独立声音信号，得得到第二部分中参会人员A的独立声音信号和参会人员C的独立声音信号。

进一步地，可以对初始声音信号中参会人员A的声音信号以及参会人员A的独立声音信号进行文本转换，得到参会人员A的文本，即大家保持安静，会议现在开始，今天会议的主题为xxx。可以对初始声音信号中参会人员B的独立声音信号进行文本转换，得到参会人员B的文本，即今天吃什么。可以对初始声音信号中参会人员C的独立声音信号进行文本转换，得到参会人员C的文本，即小声点。

进一步地，还可以将参会人员B和参会人员C的文本信息根据初始声音信号中参会人员B和参会人员C的独立声音信号记载在参会人员A文本信息相应的位置。

本申请上述实施例中，对初始声音信号进行分割，得到目标声音片段,包括：利用空间分布谱对初始声音信号进行处理，得到目标声音信号；对目标声音信号进行分割，得到目标声音片段。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

图6a是根据本发明实施例的一种声音检测方法的流程图。如图6a所示，该方法可以包括以下步骤：

步骤S602，在教学界面中触发教学互动功能，获取教学过程中产生的初始声音信号和初始声音信号的空间分布谱。

上述的教学界面可以移动终端或者计算机终端的教学视频界面。

上述的教学互动功能可以是学生与老师之间的互动交流，具体的，可以通过语音进行交流。

在一种可选的实施例中，在教学界面中触发教学互动功能之后，可以获取教学过程中产生的初始声音信号和初始声音信号的空间分布谱。

步骤S604，响应教学界面感应到检测指令，对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳。

步骤S606，利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段。

步骤S608，在教学界面中展示第一声音检测结果。

在一种可选的实施例中，可以在教学界面中展示第一声音检测结果，以便根据第一声音检测结果对存在有混叠语音的初始声音信号进行处理，从而得到初始声音信号中每个对象的语音。

本申请上述实施例中，在第一声音检测结果为初始声音信号中存在多个对象的声音的情况下，该方法还包括：在音视频交互界面中展示多个对象的目标语音信号，其中，所述目标语音信号由对初始声音信号中的多个对象的声音进行分割得到。

如图6b所示为教学音频播放界面，教学音频播放界面可以显示第一声音检测结果，其中，第一声音检测结果可以显示老师A和学生B和学生C的初始声音信号，其中，前两个分割线为初始声音信号中同时存在老师A声音和学生B声音的第一部分，后两个分割线为初始声音信号中同时存在老师A声音和学生C声音的第二部分。

进一步地，可以对第一部分和第二部分的声音进行分离处理，得到第一部分中老师A的独立声音信号和学生B的独立声音信号，得得到第二部分中老师A的独立声音信号和学生C的独立声音信号。

进一步地，可以对初始声音信号中老师A的声音信号以及老师A的独立声音信号进行文本转换，得到老师A的文本，即这个题采用第一种方式求解，其他同学还有疑问么。可以对初始声音信号中学生B的独立声音信号进行文本转换，得到学生B的文本，即这个题还能用其他方式求解。可以对初始声音信号中学生C的独立声音信号进行文本转换，得到学生C的文本，即可以用其他方式求解。

进一步地，还可以将学生B和学生C的文本信息根据初始声音信号中参会人员B和学生C的独立声音信号记载在老师A文本信息相应的位置。

本申请上述实施例中，响应教学界面感应到的检测指令，对初始声音信号进行分割，得到目标声音片段,包括：响应教学界面感应到的检测指令，利用空间分布谱对初始声音信号进行处理，得到目标声音信号；对目标声音信号进行分割，得到目标声音片段。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及实施过程相同，但不仅限于实施例1所提供的方案。

实施例4

根据本申请实施例，还提供了一种用于实施上述声音检测方法的声音检测装置，如图7所示，该装置700包括：第一获取单元702、第一分割单元704、第二分割单元706、第一输入单元708。

其中，第一获取单元用于获取初始声音信号和初始声音信号的空间分布谱；第一分割单元用于对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；第二分割单元用于利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；第一输入单元用于将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

此处需要说明的是，上述的第一获取单元702、第一分割单元704、第二分割单元706、第一输入单元708对应于实施例1中的步骤S202至步骤S208。四个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中

本申请上述实施例中，第一获取单元包括：第一获取模块、第一定位模块。

其中，第一获取模块用于获取初始声音信号；第一定位模块用于利用声源定位模块对初始声音信号进行定位，生成初始声音信号的空间分布谱。

本申请上述实施例中，第一分割单元包括：第一处理模块、第一分割模块。

其中，第一处理模块用于利用空间分布谱对初始声音信号进行处理，得到目标声音信号；第一分割模块用于对目标声音信号进行分割，得到目标声音片段。

本申请上述实施例中，第一处理模块包括：第一处理子模块、第二处理子模块。

其中，第一处理子模块用于利用声音增强模块对初始声音信号进行处理，得到增强后的初始声音信号；第二处理子模块用于利用空间分布谱对增强后的初始声音信号进行处理，得到目标声音信号。

本申请上述实施例中，该装置包括：第二获取单元、第一训练单元。

其中，第二获取单元用于获取第一样本和第二样本，其中，第一样本为样本声音片段，第二样本为样本声音片段对应的样本空间分布谱片段；第一训练单元用于利用第一样本和第二样本对初始模型进行训练，得到声音检测模型。

本申请上述实施例中，第一训练单元包括：第二输入模块、第三输入模块、第一融合模块、第一训练模块。

其中，第二输入模块，用于将第一样本输入至第一特征提取网络，得到样本声音特征向量；第三输入模块，用于将第二样本输入至第二特征提取网络，得到样本空间分布特征向量；第一融合模块，用于将样本声音特征向量和样本空间分布特征向量进行融合，得到第一目标特征向量；第一训练模块，用于利用第一目标特征向量对初始模型进行训练，得到声音检测模型。

本申请上述实施例中，该装置还包括：第三分割单元、第二输入单元。

其中，第三分割单元用于利用目标声音片段的时间戳对初始声音信号进行分割，得到初始声音片段；第二输入单元用于将目标声音片段、初始声音片段和空间分布谱片段输入至声音检测模型，得到第二声音检测结果，其中，第二声音检测结果用于描述初始声音信号中是否存在多个对象。

本申请上述实施例中，第一训练模块包括：第一获取子模块、第一训练子模块。

其中，第一获取子模块用于获取第三样本，其中，第三样本为样本声音片段对应的样本初始声音片段；第一训练子模块用于利用第一样本、第二样本和第三样本对初始模型进行训练，得到声音检测模型。

本申请上述实施例中，第一训练模块包括：第一输入子模块、第一融合子模块、第二训练子模块。

其中，第一输入子模块用于将第三样本输入至第三特征提取网络，得到样本初始声音特征向量；将第一目标特征向量和初始声音特征向量进行融合，得到第二目标特征向量；利用第二目标特征向量对初始模型进行训练，得到声音检测模型。

实施例5

根据本申请实施例，还提供了一种用于实施上述声音检测方法的声音检测装置，如图8所示，该装置800包括：第一展示单元802、第二获取单元804、第四分割单元806、第五分割单元808、第二展示单元810。

其中，第一展示单元用于在会议界面中展示音视频交互界面；第二获取单元用于在音视频交互界面感应到检测指令的情况下，获取初始声音信号和初始声音信号的空间分布谱；第四分割单元用于对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；第五分割单元用于利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；第二展示单元用于在音视频交互界面中展示第一声音检测结果，其中，第一声音检测结果为将目标声音片段和空间分布谱片段输入至声音检测模型得到的结果，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

此处需要说明的是，上述第一展示单元802、第二获取单元804、第四分割单元806、第五分割单元808、第二展示单元810对应于实施例2中的步骤S502至步骤S510，单个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第四分割单元包括：第四处理模块、第二分割模块。

其中，第四处理模块用于利用空间分布谱对初始声音信号进行处理，得到目标声音信号；第二分割模块用于对目标声音信号进行分割，得到目标声音片段。

本申请上述实施例中，该装置还包括：第一分离单元、第三展示单元。

其中，第一分离单元用于在第一声音检测结果为初始声音信号中存在多个对象的声音的情况下，对初始声音信号中的多个对象的声音进行分离，得到每个对象的独立声音信号；第三展示单元用于在音视频交互界面中展示每个对象的独立声音信号。

实施例6

根据本申请实施例，还提供了一种用于实施上述声音检测方法的声音检测装置，如图9所示，该装置900包括：第三获取单元902、第六分割单元904、第七分割单元906、第二展示单元908。

第三获取单元用于在教学界面中触发教学互动功能，获取教学过程中产生的初始声音信号和初始声音信号的空间分布谱；第六分割单元用于响应教学界面感应到检测指令，对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；第七分割单元用于利用目标声音片段的时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；第二展示单元用于在教学界面中展示第一声音检测结果，其中，第一声音检测结果为将目标声音片段和空间分布谱片段输入至声音检测模型得到的结果，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

此处需要说明的是，上述第三获取单元902、第六分割单元904、第七分割单元906、第二展示单元908对应于实施例3中的步骤S602至步骤S608，单个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第六分割单元包括：第五处理模块、第三分割模块。

其中，第五处理模块用于响应教学界面感应到的检测指令，利用空间分布谱对初始声音信号进行处理，得到目标声音信号；第三分割模块用于对目标声音信号进行分割，得到目标声音片段。

本申请上述实施例中，该装置还包括：第二分离单元、第四展示单元。

其中，第二分离单元用于在第一声音检测结果为初始声音信号中存在多个对象的声音的情况下，对初始声音信号中的多个对象的声音进行分离，得到每个对象的独立声音信号；在教学界面中展示每个对象的独立声音信号。

实施例7

根据本申请实施例，还提供了一种声音检测系统，包括：

处理器；

存储器，与处理器连接，用于获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

实施例8

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行声音检测方法中以下步骤的程序代码：获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示，该计算机终端A可以包括：一个或多个（图中仅示出一个）处理器102、以及存储器104。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的声音检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声音检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

可选地，上述处理器还可以执行如下步骤的程序代码：获取初始声音信号；利用声源定位模块对初始声音信号进行定位，生成初始声音信号的空间分布谱。

可选地，上述处理器还可以执行如下步骤的程序代码：利用空间分布谱对初始声音信号进行处理，得到目标声音信号；对目标声音信号进行分割，得到目标声音片段。

可选地，上述处理器还可以执行如下步骤的程序代码：利用声音增强模块对初始声音信号进行处理，得到增强后的初始声音信号；利用空间分布谱对增强后的初始声音信号进行处理，得到目标声音信号。

可选地，上述处理器还可以执行如下步骤的程序代码：获取第一样本和第二样本，其中，第一样本为样本声音片段，第二样本为样本声音片段对应的样本空间分布谱片段；利用第一样本和第二样本对初始模型进行训练，得到声音检测模型。

可选地，上述处理器还可以执行如下步骤的程序代码：将第一样本输入至第一特征提取网络，得到样本声音特征向量；将第二样本输入至第二特征提取网络，得到样本空间分布特征向量；将样本声音特征向量和样本空间分布特征向量进行融合，得到第一目标特征向量；利用第一目标特征向量对初始模型进行训练，得到声音检测模型。

可选地，上述处理器还可以执行如下步骤的程序代码：利用目标声音片段的时间戳对初始声音信号进行分割，得到初始声音片段；将目标声音片段、初始声音片段和空间分布谱片段输入至声音检测模型，得到第二声音检测结果，其中，第二声音检测结果用于描述初始声音信号中是否存在多个对象。

可选地，上述处理器还可以执行如下步骤的程序代码：获取第三样本，其中，第三样本为样本声音片段对应的样本初始声音片段；利用第一样本、第二样本和第三样本对初始模型进行训练，得到声音检测模型。

可选地，上述处理器还可以执行如下步骤的程序代码：将第三样本输入至第三特征提取网络，得到样本初始声音特征向量；将第一目标特征向量和初始声音特征向量进行融合，得到第二目标特征向量；利用第二目标特征向量对初始模型进行训练，得到声音检测模型。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图10中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例9

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的声音检测方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：获取初始声音信号和初始声音信号的空间分布谱；对初始声音信号进行分割，得到目标声音片段，并获取目标声音片段对应的时间戳，其中，目标声音片段中包括至少一个对象的语音，时间戳用于指示目标声音片段的开始时间和目标声音片段的结束时间；利用时间戳对空间分布谱进行分割，得到与目标声音片段对应的空间分布谱片段；将目标声音片段和空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，第一声音检测结果用于描述初始声音信号中是否存在多个对象的声音。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取初始声音信号；利用声源定位模块对初始声音信号进行定位，生成初始声音信号的空间分布谱。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用空间分布谱对初始声音信号进行处理，得到目标声音信号；对目标声音信号进行分割，得到目标声音片段。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用声音增强模块对初始声音信号进行处理，得到增强后的初始声音信号；利用空间分布谱对增强后的初始声音信号进行处理，得到目标声音信号。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取第一样本和第二样本，其中，第一样本为样本声音片段，第二样本为样本声音片段对应的样本空间分布谱片段；利用第一样本和第二样本对初始模型进行训练，得到声音检测模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将第一样本输入至第一特征提取网络，得到样本声音特征向量；将第二样本输入至第二特征提取网络，得到样本空间分布特征向量；将样本声音特征向量和样本空间分布特征向量进行融合，得到第一目标特征向量；利用第一目标特征向量对初始模型进行训练，得到声音检测模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用目标声音片段的时间戳对初始声音信号进行分割，得到初始声音片段；将目标声音片段、初始声音片段和空间分布谱片段输入至声音检测模型，得到第二声音检测结果，其中，第二声音检测结果用于描述初始声音信号中是否存在多个对象。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取第三样本，其中，第三样本为样本声音片段对应的样本初始声音片段；利用第一样本、第二样本和第三样本对初始模型进行训练，得到声音检测模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将第三样本输入至第三特征提取网络，得到样本初始声音特征向量；将第一目标特征向量和初始声音特征向量进行融合，得到第二目标特征向量；利用第二目标特征向量对初始模型进行训练，得到声音检测模型。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种声音检测方法，其特征在于，包括：

获取初始声音信号和所述初始声音信号的空间分布谱；

对所述初始声音信号进行分割，得到目标声音片段，并获取所述目标声音片段对应的时间戳，其中，所述目标声音片段中包括至少一个对象的语音，所述时间戳用于指示所述目标声音片段的开始时间和所述目标声音片段的结束时间；

利用所述时间戳对所述空间分布谱进行分割，得到与所述目标声音片段对应的空间分布谱片段；

将所述目标声音片段和所述空间分布谱片段输入至声音检测模型，得到第一声音检测结果，其中，所述第一声音检测结果用于描述所述初始声音信号中是否存在多个对象的声音。

2.根据权利要求1所述的方法，其特征在于，获取初始声音信号和所述初始声音信号的空间分布谱，包括：

获取初始声音信号；

利用声源定位模块对所述初始声音信号进行定位，生成所述初始声音信号的空间分布谱。

3.根据权利要求1所述的方法，其特征在于，对所述初始声音信号进行分割，得到目标声音片段，包括：

利用所述空间分布谱对所述初始声音信号进行处理，得到目标声音信号；

对所述目标声音信号进行分割，得到所述目标声音片段。

4.根据权利要求3所述的方法，其特征在于，利用所述空间分布谱对所述初始声音信号进行处理，得到目标声音信号，包括：

利用声音增强模块对所述初始声音信号进行处理，得到增强后的初始声音信号；

利用所述空间分布谱对所述增强后的初始声音信号进行处理，得到所述目标声音信号。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：通过训练得到所述声音检测模型；

其中，通过训练得到所述声音检测模型，包括：

获取第一样本和第二样本，其中，所述第一样本为样本声音片段，所述第二样本为所述样本声音片段对应的样本空间分布谱片段；

利用所述第一样本和所述第二样本对初始模型进行训练，得到所述声音检测模型。

6.根据权利要求5所述的方法，其特征在于，利用所述第一样本和所述第二样本对初始模型进行训练，得到所述声音检测模型，包括：

将所述第一样本输入至第一特征提取网络，得到样本声音特征向量；

将所述第二样本输入至第二特征提取网络，得到样本空间分布特征向量；

将所述样本声音特征向量和所述样本空间分布特征向量进行融合，得到第一目标特征向量；

利用所述第一目标特征向量对所述初始模型进行训练，得到声音检测模型。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

利用所述时间戳对所述初始声音信号进行分割，得到初始声音片段；

将所述目标声音片段、所述初始声音片段和所述空间分布谱片段输入至所述声音检测模型，得到第二声音检测结果，其中，所述第二声音检测结果用于描述所述初始声音信号中是否存在多个所述对象。

8.根据权利要求7所述的方法，其特征在于，利用所述第一样本和所述第二样本对初始模型进行训练，得到所述声音检测模型，包括：

获取第三样本，其中，所述第三样本为所述样本声音片段对应的样本初始声音片段；

利用所述第一样本、第二样本和所述第三样本对初始模型进行训练，得到所述声音检测模型。

9.根据权利要求8所述的方法，其特征在于，利用所述第一目标特征向量对所述初始模型进行训练，得到声音检测模型，包括：

将所述第三样本输入至第三特征提取网络，得到样本初始声音特征向量；

将所述第一目标特征向量和所述初始声音特征向量进行融合，得到第二目标特征向量；

利用所述第二目标特征向量对所述初始模型进行训练，得到声音检测模型。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一声音检测结果为所述初始声音信号中存在多个所述对象的声音的情况下，对所述初始声音信号中的多个所述对象的声音进行分离，得到每个所述对象的独立声音信号。

11.一种声音检测方法，其特征在于，包括：

在会议界面中展示音视频交互界面；

在所述音视频交互界面感应到检测指令的情况下，获取初始声音信号和所述初始声音信号的空间分布谱；

利用所述目标声音片段的时间戳对所述空间分布谱进行分割，得到与所述目标声音片段对应的空间分布谱片段；

在所述音视频交互界面中展示第一声音检测结果，其中，所述第一声音检测结果为将所述目标声音片段和所述空间分布谱片段输入至声音检测模型得到的结果，所述第一声音检测结果用于描述所述初始声音信号中是否存在多个所述对象的声音。

12.一种声音检测方法，其特征在于，包括：

在教学界面中触发教学互动功能，获取教学过程中产生的初始声音信号和所述初始声音信号的空间分布谱；

响应所述教学界面感应到检测指令，对所述初始声音信号进行分割，得到目标声音片段，并获取所述目标声音片段对应的时间戳，其中，所述目标声音片段中包括至少一个对象的语音，所述时间戳用于指示所述目标声音片段的开始时间和所述目标声音片段的结束时间；

在所述教学界面中展示第一声音检测结果，其中，所述第一声音检测结果为将所述目标声音片段和所述空间分布谱片段输入至声音检测模型得到的结果，所述第一声音检测结果用于描述所述初始声音信号中是否存在多个所述对象的声音。