CN116597863A

CN116597863A - 基于人工智能的声音事件检测方法、装置、设备及介质

Info

Publication number: CN116597863A
Application number: CN202310688575.6A
Authority: CN
Inventors: 张之勇; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-15

Abstract

本发明涉及数字医疗技术领域，尤其涉及一种基于人工智能的声音事件检测方法、装置、设备及介质。该方法将混合声音分离为独立声音后输入编码器得到声音特征，将声音特征输入到循环层得到时序特征，使用标签预测模型根据声音特征和时序特征处理预测伪事件标签，将查询到的伪事件标签作为参考标签，由参考标签和独立声音组成训练样本，训练事件检测模型，进而得到事件检测结果，提取声音特征的时序信息，丰富了事件预测的输入，提高了事件预测的准确率，对伪事件标签进行查询筛选确定参考标签，使得事件检测模型更好地适应场景，提高了声音事件检测的准确性，能够辅助医护人员及时发现医疗环境下患者的异常声音事件，从而进行及时应对。

Description

基于人工智能的声音事件检测方法、装置、设备及介质

技术领域

本发明涉及数字医疗技术领域，尤其涉及一种基于人工智能的声音事件检测方法、装置、设备及介质。

背景技术

目前，随着人工智能技术的快速发展，基于人工智能模型的声音事件检测任务已广泛应用于数字医疗平台中，数字医疗平台可以支持疾病辅助诊断、健康管理、远程会诊等功能，从而提高医疗机构的效率，方便居民就医。

现有技术通常采用深度卷积模型实现声音事件检测任务，声音事件检测任务可以用于在复杂的多音源场景下，识别出每个音源的事件，能够从应用场景的混合声音中检测是否存在符合目标事件的声音，例如，通过声音事件检测从嘈杂的病房环境下提取出患者发出呻吟等声音事件，从而便于医护人员及时应对。

但是，深度卷积模型在训练时需要大量的标签数据，而针对混合声音的标注工作是极困难的，训练数据的缺失会导致深度卷积模型在实现声音事件检测时的准确率较低，而且即使具有充足的训练数据，在模型实际应用时，面对实时获取到的混合声音，也难以有效从混合声音中识别出未标记的声音事件，导致事件检测结果存在误检，同样导致声音事件检测的准确率较低，因此，如何提高声音事件检测的准确率成为亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种基于人工智能的声音事件检测方法、装置、设备及介质，以解决声音事件检测的准确率较低的问题。

第一方面，本发明实施例提供一种基于人工智能的声音事件检测方法，所述声音事件检测方法包括：

将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音，N为大于零的整数；

针对每个独立声音，将所述独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将所述声音特征和所述时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应所述独立声音的伪事件标签，遍历所述N个独立语音，得到N个伪事件标签；

在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本，M为大于零且小于N的整数；

对所述编码器进行全连接处理形成事件检测模型，根据所述M个训练样本对所述事件检测模型进行训练，得到训练好的事件检测模型，将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果。

第二方面，本发明实施例提供一种基于人工智能的声音事件检测装置，所述声音事件检测装置包括：

声音分离模块，用于将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音，N为大于零的整数；

标签预测模块，用于针对每个独立声音，将所述独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将所述声音特征和所述时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应所述独立声音的伪事件标签，遍历所述N个独立语音，得到N个伪事件标签；

标签查询模块，用于在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本，M为大于零且小于N的整数；

事件检测模块，用于对所述编码器进行全连接处理形成事件检测模型，根据所述M个训练样本对所述事件检测模型进行训练，得到训练好的事件检测模型，将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果。

第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的声音事件检测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的声音事件检测方法。

本发明实施例与现有技术相比存在的有益效果是：

将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音，针对每个独立声音，将独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将声音特征和时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应独立声音的伪事件标签，遍历N个独立语音，得到N个伪事件标签，在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本，对编码器进行全连接处理形成事件检测模型，根据M个训练样本对事件检测模型进行训练，得到训练好的事件检测模型，将N个独立语音输入训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为混合声音的事件检测结果，通过循环层提取到声音特征的时序信息，丰富了事件标签预测时的输入信息，从而提高了事件标签预测的准确率，而且，对伪事件标签进行查询筛选，确定参考标签，使得基于参考标签训练的事件检测模型能够更好地适应混合声音的场景，避免了因无关标签的干扰导致声音事件检测出现误检，进而提高了声音事件检测的准确性，能够辅助医护人员及时发现医疗环境下患者的异常声音事件，从而进行及时应对。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种基于人工智能的声音事件检测方法的一应用环境示意图；

图2是本发明实施例一提供的一种基于人工智能的声音事件检测方法的流程示意图；

图3是本发明实施例二提供的一种基于人工智能的声音事件检测方法的流程示意图；

图4是本发明实施例三提供的一种基于人工智能的声音事件检测装置的结构示意图；

图5是本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

本发明实施例一提供的一种基于人工智能的声音事件检测方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、云端终端设备、个人数字助理(personal digital assistant，PDA)等计算机设备。服务端可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

客户端和服务端可以部署于数字医疗平台中，数字医疗平台可以支持疾病辅助诊断、健康管理、远程会诊等功能，声音事件检测任务用以辅助数字医疗平台中的医护人员进行及时地进行疾病辅助诊断、健康管理、远程会诊等任务，例如，在嘈杂环境下检测出患者的呻吟声，从而辅助疾病诊断，或是在复杂环境下检测出患者的会诊应答信息，辅助提高远程会诊的准确率等。

参见图2，是本发明实施例一提供的一种基于人工智能的声音事件检测方法的流程示意图，上述声音事件检测方法可以应用于图1中的客户端，客户端对应的计算机设备和服务端连接，以从服务端获取混合声音和目标标签集合，混合声音可以是指需要进行声音事件检测的声音，目标标签集合可以包括预设的至少一个目标标签，客户端对应的计算机设备内部署有训练好的声音分离模型、编码器和循环层，训练好的声音分离模型可以用于将混合声音进行分离为多个独立声音，编码器可以用于提取独立声音的声音特征，循环层可以用于提取声音特征的时序信息。如图2所示，该声音事件检测方法可以包括以下步骤：

步骤S201，将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音。

其中，混合声音可以是指在多音源场景下采集到的声音，在医疗场景下，多音源场景可以是指病房场景、会诊交互场景等，例如，在病房场景中，包括由医疗设备作为音源发出的声音，以及环境作为音源发出的声音、无关人员作为音源发出的声音等，训练好的声音分离可以用于将混合声音按照音源分离为独立声音，独立声音可以是指单一音源发出的声音，预设的音源数量可以用N表示，N为大于零的整数。

具体地，预设音源数量在本实施例中取值为4，也即N取值为4，默认基于先验条件已知混合声音包含4个音源发出的声音，声音分离模型将混合声音分离为4个独立声音，一独立声音对应一音源。

声音分离模型的训练过程可以采用混合声音样本作为训练样本，该混合声音样本由N个初始独立声音样本混合得到，将混合声音样本输入声音分离模型中，得到分离出的N个预测独立声音样本，计算N个预测独立声音样本和N个初始独立声音样本的度量距离，以该度量距离作为预测损失，以预测损失为依据，对声音分离模型的参数进行训练，得到训练好的声音分离模型。

但是，由于声音分离模型在进行声音分离时，所得到的预测独立声音样本并没有顺序，因此在采用N个预测独立声音样本和混合声音样本的标签进行距离度量时，无法确保一预测独立声音样本对应于一初始独立声音样本，混合声音样本的标签即为N个初始独立声音样本，因此，在本实施例中，获取N个预测独立声音样本和N个初始独立声音样本所有可能的配对方式，则共有N！种配对方式，N！可以是指N的阶乘，按照每种配对方式分别进行距离度量，确定得到的度量距离中的最小值作为上述预测损失，在本实施例中，距离度量可以采用欧式距离的计算方式。

上述将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音的步骤，通过声音分离模型对混合声音进行声音分离处理，得到独立声音，便于后续根据单一独立声音预测该独立声音对应的事件信息，从而使得声音事件检测过程中能够避免各个独立声音之间互相干扰，导致声音事件检测的准确率下降的问题，提高了声音事件检测的准确率。

步骤S202，针对每个独立声音，将独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将声音特征和时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应独立声音的伪事件标签，遍历N个独立语音，得到N个伪事件标签。

其中，编码器可以用于提取独立声音的特征信息，声音特征可以用于表征独立声音的特征信息，循环层可以用于提取声音特征中的时序信息，时序特征可以用于表征声音特征中的时序信息，拼接可以采用联结、特征值相加等方式，标签预测模型可以用于根据声音特征和时序特征对独立声音所属的标签进行预测，伪事件标签可以是指标签预测模型预测得到的独立声音所属的标签。

具体地，循环层可以采用门控循环单元实现，在本实施例中，将声音特征输入串联的两个门控循环单元进行特征提取，以充分提取到声音特征的时序特征。

可选的是，编码器包括卷积层和注意力层；

将独立声音输入编码器中进行特征提取，得到声音特征包括：

将独立声音输入卷积层中按照时间帧进行特征提取，得到帧级特征；

将帧级特征输入注意力层进行特征聚合，确定特征聚合结果为声音特征。

其中，卷积层可以用于提取独立声音的深层特征，也即帧级特征，一帧级特征对应于一时间帧，帧级特征中的通道维度包括M个通道，一通道对应一时间帧，时间帧可以是指独立声音分帧的最小单位，在本实施例中，一时间帧为0.25秒，注意力层可以用于提取帧级特征的自注意力信息，起到特征聚合的作用。

本实施例通过注意力层提取帧级特征的自注意力信息，从而在深层特征的基础上，进一步提取有效特征，提高了声音特征的表征能力，从而提高了后续声音事件预测的准确率。

可选的是，注意力层包括全局注意力层和局部注意力层；

将帧级特征输入注意力层进行特征聚合，确定特征聚合结果为声音特征包括：

采用预设卷积核对帧级特征的时间维度进行降维处理，得到降维特征，降维特征的维度为K；

将降维特征输入全局注意力层进行全局上下文建模，得到全局特征，全局特征的维度为K；

将全局特征输入局部注意力层进行局部上下文建模，得到K个局部特征；

将K个局部特征输入全局注意力层再次进行全局上下文建模，得到特征聚合结果，确定特征聚合结果为声音特征。

其中，预设卷积核可以是指1*1尺寸的卷积核，该卷积核可以用于特征降维操作，以起到特征聚合的作用，帧级特征的时间维度也即上述的通道维度，初始帧级特征的通道维度为M，经降维处理后，通道维度为K，K为大于零且小于M的整数。

全局注意力层可以用于提取降维特征所有通道维度之间的全局注意力信息，全局特征可以用于表征该全局注意力信息，局部注意力层可以用于提取全局特征的局部注意力信息，一通道对应一局部特征，则共有K个局部特征。

对K个局部特征再次采用全局注意力层进行聚合，从而得到特征聚合结果作为声音特征。

本实施例中，通过多粒度的注意力机制对降维后的降维特征进行特征聚合，充分挖掘降维特征内部的自注意力信息，从而为后续事件预测提供更丰富、表征能力更强的声音特征，以提高声音事件预测的准确率。

可选的是，将全局特征输入局部注意力层进行局部上下文建模，得到K个局部特征包括：

针对全局特征中的任一维度的子特征，根据子特征的维度确定对应的预设窗口；

将全局特征和预设窗口相乘后，输入局部注意力层进行局部上下文建模，得到对应子特征的局部特征，遍历所有子特征，得到K个局部特征。

其中，全局特征和降维特征的尺寸一致，也即全局特征的通道维度为K，全局特征包括K个对应通道维度的子特征，预设窗口可以用于控制特征交互时所针对子特征的交互对象，交互对象可以是指其他子特征，在本实施例中，预设窗口的尺寸为3，也即所针对子特征仅与其相邻子特征进行特征交互，全局特征和预设窗口相乘可以是指将除预设窗口外的特征值置0，以起到局部交互的目的。

本实施例采用预设窗口的方式控制子特征的交互对象，从而便捷地实现局部特征交互，提高了局部注意力信息提取的效率。

上述针对每个独立声音，将独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将声音特征和时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应独立声音的伪事件标签，遍历N个独立语音，得到N个伪事件标签的步骤，通过循环层额外提取声音特征的时序信息，从而丰富了标签预测模型的输入信息，提高了伪事件标签预测的准确率。

步骤S203，在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本。

其中，目标标签集合可以是指在先验条件下已知混合声音场景下的目标事件标签，例如，在设备监控场景下，目标事件标签可以包括设备报警、设备卡顿等，参考标签可以用于构成训练样本，训练样本可以用于后续对编码器进行训练，M为大于零且小于N的整数。

具体地，标签预测模型为了保证泛化能力，通常不仅只针对单一场景进行预测，导致对混合声音处理后，得到的伪事件标签并非仅针对混合声音所属场景，此时，为了提高后续事件检测模型在混合声音所属场景下的适应能力，对伪事件标签进行筛选，以满足混合声音所属场景的伪事件标签作为后续事件检测模型的训练标签。

上述在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本的步骤，通过伪事件标签筛选的过程，使得后续事件检测模型的训练样本更契合混合声音所属的场景，隔离了无关标签对模型训练的干扰，从而提高了事件检测模型的事件检测准确率。

步骤S204，对编码器进行全连接处理形成事件检测模型，根据M个训练样本对事件检测模型进行训练，得到训练好的事件检测模型，将N个独立语音输入训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为混合声音的事件检测结果。

其中，全连接处理可以是指在编码器后连接全连接层，全连接层可以用于分类任务。

可选的是，根据M个训练样本对事件检测模型进行训练，得到训练好的事件检测模型包括：

将每个训练样本中的独立声音输入事件检测模型，得到每个独立声音对应的初始预测类别；

根据每个独立声音对应的初始预测类别和参考标签，计算得到预测子损失，确定所有预测子损失之和作为预测损失，以预测损失为依据，对事件检测模型进行训练，得到训练好的事件检测模型。

其中，初始预测类别可以是指对事件检测模型输入的独立声音进行预测的结果，预测子损失可以是指独立声音对应的初始预测类别和参考标签的差异量化值，在本实施例中，预测子损失的计算可以采用交叉熵损失函数。

本实施例以M个训练样本同时训练事件检测模型，在M个训练样本同属一应用场景的前提下，提高了训练好的事件检测模型对该应用场景的适应能力，从而提高了声音事件检测的准确率。

可选的是，将N个独立语音输入训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为混合声音的事件检测结果包括：

将N个独立语音输入训练好的事件检测模型中进行事件预测，得到N个对应独立声音的预测事件类别；

对N个对应独立声音的预测事件类别进行统计，得到不重复的至少一个预测事件类别作为混合声音的事件检测结果。

本实施例中，由于混合声音包含的N个独立语音可能对应多个事件，因此，在得到N个独立语音对应的预测事件类别后，对所有预测事件类别进行统计，得到不重复的预测事件类别作为事件检测结果。

上述对编码器进行全连接处理形成事件检测模型，根据M个训练样本对事件检测模型进行训练，得到训练好的事件检测模型，将N个独立语音输入训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为混合声音的事件检测结果的步骤，通过适应场景的训练样本对事件检测模型进行训练，再将该场景下的混合声音输入训练好的事件检测模型，能够有效提高事件检测模型和场景的适应性，提高声音事件检测的准确率。

本实施例能够使得声音事件检测同时获取到多个事件检测结果，避免了漏检情况，从而提高了声音事件检测的准确率。

本实施例通过循环层提取到声音特征的时序信息，丰富了事件标签预测时的输入信息，从而提高了事件标签预测的准确率，而且，对伪事件标签进行查询筛选，确定参考标签，使得基于参考标签训练的事件检测模型能够更好地适应混合声音的场景，避免了因无关标签的干扰导致声音事件检测出现误检，进而提高了声音事件检测的准确性，能够辅助医护人员及时发现医疗环境下患者的异常声音事件，从而进行及时应对。

参见图3，是本发明实施例二提供的一种基于人工智能的声音事件检测方法的流程示意图，该声音事件检测方法中，声音分离模型可以采用排列遍历的方式进行训练，也可以采用样本阶段混合的方式进行训练。

在采用排列遍历的方式进行训练时，训练方法参见实施例一，在此不再赘述。

在采用样本阶段混合的方式进行训练时，声音分离模型的训练过程包括以下步骤：

步骤S301，获取第一混合声音样本和第二混合声音样本，将第一混合声音样本和第二混合声音样本进行混合，得到整体混合声音样本；

步骤S302，将整体混合声音样本输入声音分离模型中，按照音源数量进行声音分离，得到N个独立声音样本；

步骤S303，以可学习的第一矩阵和N个独立声音样本相乘，得到第一重构样本，以可学习的第二矩阵和N个独立声音样本相乘，得到第二重构样本；

步骤S304，根据第一混合声音样本、第一重构样本和预设的重构损失函数，计算第一重构损失，根据第二混合声音样本、第二重构样本和重构损失函数，计算第二重构损失；

步骤S305，以第一重构损失和第二重构损失为依据，对声音分离模型、第一矩阵和第二矩阵进行训练，仅保留训练好的声音分离模型。

其中，第一混合声音样本可以是指由N个初始独立声音样本中的一部分独立声音样本混合得到的，第二混合声音样本可以是指由N个初始独立声音样本中的另一部分独立声音样本混合得到的，需要说明的是，在本实施例中，第一混合声音样本和第二混合声音样本均是由至少两个独立声音样本混合得到，且第一混合声音样本和第二混合声音样本各自对应的独立声音样本之间不存在重复。

整体混合声音样本可以是指第一混合声音样本和第二混合声音样本的混合结果，其本质上仍是N个初始独立声音样本的混合结果。

第一矩阵可以用于对N个预测得到的独立声音样本进行融合，第一重构样本可以是指通过第一矩阵对N个独立声音样本的融合结果，第二矩阵也可以用于对N个预测得到的独立声音样本进行融合，第二重构样本可以是指通过第二矩阵对N个独立声音样本的融合结果。

重构损失函数可以采用欧式距离度量、余弦相似度度量等度量函数，用以获取混合声音样本和重构样本之间的差异，例如，在本实施例中采用欧式距离度量作为重构损失函数，第一重构损失可以是指第一混合声音样本和第一重构样本之间的差异量化值，第二重构损失可以是指第二混合声音样本和第二重构样本之间的差异量化值。

具体地，只有声音分离模型能够有效分离出各个独立声音样本时，基于第一矩阵和第二矩阵得到的混合结果才能够和第一混合声音样本和第二混合声音样本的差异足够相似，因此，采用两阶段的方式对N个初始独立声音样本进行混合，并以第一阶段的混合结果作为标签的方式，能够有效监督声音分离模型的分离效果，其中，第一阶段的混合可以是指将N个初始独立声音样本混合为第一混合声音样本和第二混合声音样本，第二阶段的混合可以是指将第一混合声音样本和第二混合声音样本混合为整体混合声音样本。

而且，第一矩阵和第二矩阵的作用可以是学习第一混合样本和第二混合样本的混合信息，也即学习第一混合样本是基于哪些初始独立声音样本混合得到的，从而无需考虑输出的独立声音样本的排列方式，其排列方式的信息已经由第一矩阵和第二矩阵学习到。

在得到第一重构损失和第二重构损失之后，将第一重构损失和第二重构损失相加，以相加结果作为用于训练的重构损失，以重构损失为依据，对声音分离模型、第一矩阵和第二矩阵进行训练，得到训练好的声音分离模型、训练好的第一矩阵和训练好的第二矩阵，此时，仅保留训练好的声音分离模型即可，因为在实际使用过程中，训练好的声音分离模型仅需要完成声音分离的任务，而无需考虑所分离的声音是否符合某种排列顺序，仅在训练过程中为了便于重构损失的计算，需要学习到初始独立声音样本的排列方式，以将初始独立声音样本和对应的独立声音样本进行差异计算。

本实施例中，采用两阶段混合的方式构建声音分离模型的输入样本，并以第一阶段的混合结果作为标签，额外在声音分离模型之后添加了可学习的第一矩阵和第二矩阵，以用于学习独立声音样本的排列信息，相较于常规训练方式，能够在保证声音分离模型的准确率的同时，极大减少了声音分离模型训练过程中的计算量，从而提高了声音分离模型的训练效率。

对应于上文实施例的基于人工智能的声音事件检测方法，图4示出了本发明实施例三提供的基于人工智能的声音事件检测装置的结构框图，上述声音事件检测装置应用于客户端，客户端对应的计算机设备和服务端连接，以从服务端获取混合声音和目标标签集合，混合声音可以是指需要进行声音事件检测的声音，目标标签集合可以包括预设的至少一个目标标签，客户端对应的计算机设备内部署有训练好的声音分离模型、编码器和循环层，训练好的声音分离模型可以用于将混合声音进行分离为多个独立声音，编码器可以用于提取独立声音的声音特征，循环层可以用于提取声音特征的时序信息。为了便于说明，仅示出了与本发明实施例相关的部分。

参见图4，该声音事件检测装置包括：

声音分离模块41，用于将获取的混合声音输入训练好的声音分离模型中按照预设的音源数量进行声音分离，得到N个独立声音，N为大于零的整数；

标签预测模块42，用于针对每个独立声音，将独立声音输入编码器中进行特征提取，得到声音特征，将声音特征输入到循环层进行时序信息提取，得到时序特征，将声音特征和时序特征拼接，使用标签预测模型对拼接结果进行标签预测，得到对应独立声音的伪事件标签，遍历N个独立语音，得到N个伪事件标签；

标签查询模块43，用于在预设的目标标签集合中查询每个伪事件标签，确定被查询到的伪事件标签为参考标签，得到M个参考标签，将每个参考标签和其对应的独立声音组成训练样本，得到M个训练样本，M为大于零且小于N的整数；

事件检测模块44，用于对编码器进行全连接处理形成事件检测模型，根据M个训练样本对事件检测模型进行训练，得到训练好的事件检测模型，将N个独立语音输入训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为混合声音的事件检测结果。

可选的是，上述声音事件检测装置还包括：

样本混合模块，用于获取第一混合声音样本和第二混合声音样本，将第一混合声音样本和第二混合声音样本进行混合，得到整体混合声音样本；

样本分离模块，用于将整体混合声音样本输入声音分离模型中，按照音源数量进行声音分离，得到N个独立声音样本；

样本重构模块，用于以可学习的第一矩阵和N个独立声音样本相乘，得到第一重构样本，以可学习的第二矩阵和N个独立声音样本相乘，得到第二重构样本；

损失计算模块，用于根据第一混合声音样本、第一重构样本和预设的重构损失函数，计算第一重构损失，根据第二混合声音样本、第二重构样本和重构损失函数，计算第二重构损失；

模型训练模块，用于以第一重构损失和第二重构损失为依据，对声音分离模型、第一矩阵和第二矩阵进行训练，仅保留训练好的声音分离模型。

可选的是，编码器包括卷积层和注意力层；

上述标签预测模块42包括：

特征提取子模块，用于将独立声音输入卷积层中按照时间帧进行特征提取，得到帧级特征；

特征聚合子模块，用于将帧级特征输入注意力层进行特征聚合，确定特征聚合结果为声音特征。

可选的是，注意力层包括全局注意力层和局部注意力层；

上述特征聚合子模块包括：

特征降维单元，用于特征降维采用预设卷积核对帧级特征的时间维度进行降维处理，得到降维特征，降维特征的维度为K，K为大于零的整数；

第一全局建模单元，用于将降维特征输入全局注意力层进行全局上下文建模，得到全局特征，全局特征的维度为K；

局部建模单元，用于将全局特征输入局部注意力层进行局部上下文建模，得到K个局部特征；

第二全局建模单元，用于将K个局部特征输入全局注意力层再次进行全局上下文建模，得到特征聚合结果，确定特征聚合结果为声音特征。

可选的是，上述局部建模单元包括：

窗口确定子单元，用于针对全局特征中的任一维度的子特征，根据子特征的维度确定对应的预设窗口；

特征遍历子单元，用于将全局特征和预设窗口相乘后，输入局部注意力层进行局部上下文建模，得到对应子特征的局部特征，遍历所有子特征，得到K个局部特征。

可选的是，上述事件检测模块44包括：

初始预测子模块，用于将每个训练样本中的独立声音输入事件检测模型，得到每个独立声音对应的初始预测类别；

预测损失计算子模块，用于根据每个独立声音对应的初始预测类别和参考标签，计算得到预测子损失，确定所有预测子损失之和作为预测损失，以预测损失为依据，对事件检测模型进行训练，得到训练好的事件检测模型。

可选的是，上述事件检测模块44包括：

类别预测子模块，用于将N个独立语音输入训练好的事件检测模型中进行事件预测，得到N个对应独立声音的预测事件类别；

类别统计子模块，用于对N个对应独立声音的预测事件类别进行统计，得到不重复的至少一个预测事件类别作为混合声音的事件检测结果。

需要说明的是，上述模块、子模块、单元和子单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图5为本发明实施例四提供的一种计算机设备的结构示意图。如图5所示，该实施例的计算机设备包括：至少一个处理器(图5中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个声音事件检测方法实施例中的步骤。

该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。

所称处理器可以是CPU，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的声音事件检测方法，其特征在于，所述声音事件检测方法包括：

2.根据权利要求1所述的声音事件检测方法，其特征在于，所述的声音分离模型训练过程包括：

获取第一混合声音样本和第二混合声音样本，将所述第一混合声音样本和第二混合声音样本进行混合，得到整体混合声音样本；

将所述整体混合声音样本输入所述声音分离模型中，按照所述音源数量进行声音分离，得到N个独立声音样本；

以可学习的第一矩阵和所述N个独立声音样本相乘，得到第一重构样本，以可学习的第二矩阵和所述N个独立声音样本相乘，得到第二重构样本；

根据所述第一混合声音样本、所述第一重构样本和预设的重构损失函数，计算第一重构损失，根据所述第二混合声音样本、所述第二重构样本和所述重构损失函数，计算第二重构损失；

以所述第一重构损失和所述第二重构损失为依据，对所述声音分离模型、所述第一矩阵和所述第二矩阵进行训练，仅保留所述训练好的声音分离模型。

3.根据权利要求1所述的声音事件检测方法，其特征在于，所述编码器包括卷积层和注意力层；

所述将所述独立声音输入编码器中进行特征提取，得到声音特征包括：

将所述独立声音输入所述卷积层中按照时间帧进行特征提取，得到帧级特征；

将所述帧级特征输入所述注意力层进行特征聚合，确定特征聚合结果为所述声音特征。

4.根据权利要求3所述的声音事件检测方法，其特征在于，所述注意力层包括全局注意力层和局部注意力层；

所述将所述帧级特征输入所述注意力层进行特征聚合，确定特征聚合结果为所述声音特征包括：

采用预设卷积核对所述帧级特征的时间维度进行降维处理，得到降维特征，所述降维特征的维度为K，K为大于零的整数；

将所述降维特征输入所述全局注意力层进行全局上下文建模，得到全局特征，所述全局特征的维度为K；

将所述全局特征输入所述局部注意力层进行局部上下文建模，得到K个局部特征；

将所述K个局部特征输入所述全局注意力层再次进行全局上下文建模，得到所述特征聚合结果，确定所述特征聚合结果为所述声音特征。

5.根据权利要求4所述的声音事件检测方法，其特征在于，所述将所述全局特征输入所述局部注意力层进行局部上下文建模，得到K个局部特征包括：

针对所述全局特征中的任一维度的子特征，根据所述子特征的维度确定对应的预设窗口；

将所述全局特征和所述预设窗口相乘后，输入所述局部注意力层进行局部上下文建模，得到对应所述子特征的局部特征，遍历所有子特征，得到所述K个局部特征。

6.根据权利要求1所述的声音事件检测方法，其特征在于，所述根据所述M个训练样本对所述事件检测模型进行训练，得到训练好的事件检测模型包括：

将每个训练样本中的独立声音输入所述事件检测模型，得到每个独立声音对应的初始预测类别；

根据每个独立声音对应的初始预测类别和参考标签，计算得到预测子损失，确定所有预测子损失之和作为预测损失，以所述预测损失为依据，对所述事件检测模型进行训练，得到所述训练好的事件检测模型。

7.根据权利要求1至6任一项所述的声音事件检测方法，其特征在于，所述将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测，确定得到的N个对应独立声音的预测事件类别为所述混合声音的事件检测结果包括：

将所述N个独立语音输入所述训练好的事件检测模型中进行事件预测，得到N个对应独立声音的预测事件类别；

对所述N个对应独立声音的预测事件类别进行统计，得到不重复的至少一个预测事件类别作为所述混合声音的事件检测结果。

8.一种基于人工智能的声音事件检测装置，其特征在于，所述声音事件检测装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的声音事件检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的声音事件检测方法。