CN109346061A

CN109346061A - 音频检测方法、装置及存储介质

Info

Publication number: CN109346061A
Application number: CN201811137540.9A
Authority: CN
Inventors: 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-02-15
Anticipated expiration: 2038-09-28
Also published as: CN109346061B

Abstract

本发明公开了一种音频检测方法、装置及存储介质，所述方法包括：对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段，并将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果，再根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。本发明实施例通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

Description

音频检测方法、装置及存储介质

技术领域

本发明实施例涉及音频处理领域，具体涉及一种音频检测方法、装置及存储介质。

背景技术

断点是音频中常出现的一种错误，断点会导致音频播放的声音断断续续，或者是声音丢失，对音频的质量造成严重影响，因此，可以对音频进行断点检测，以便对存在的断点进行修复。

目前，在对音频中的断点进行检测时，一般是通过人为的听觉对音频进行试听，主观判定是否存在断点，并进行人工标注，或者通过简单信号特征对断点进行识别。由于人为主观因素的影响，可能会产生较大的偏差，因此，通过该检测方法对音频进行断点检测，得到的检测结果的准确性较低。而有些音频的正常音效具有类似断点的有意设计的音效，使得音频的断点检测难度较大，检测的准确率和召回率较低。

发明内容

本发明实施例提供一种音频检测方法、装置及存储介质，提升了音频的断点检测的准确率和召回率，能够有效检测音频的断点。

本发明实施例提供一种音频检测方法，所述方法包括：

对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段；

将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果；

根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

本发明实施例还提供一种音频检测装置，所述装置包括：

预处理模块，用于对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段；

检测模块，用于将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果；

确定模块，用于根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，执行本发明实施例所提供的任一种所述的音频检测方法中的步骤。

本发明实施例通过对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段，并将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果，再根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。本发明实施例通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频检测装置的系统示意图。

图2为本发明实施例提供的一种音频检测方法的流程示意图。

图3为本发明实施例提供的一种音频检测方法的另一流程示意图。

图4为本发明实施例提供的一种音频波形图。

图5为本发明实施例提供的局部识别模型的网络拓扑结构图。

图6为本发明实施例提供的一种音频检测方法的另一流程示意图。

图7为本发明实施例提供的基本构成单元的网络拓扑结构图。

图8为本发明实施例提供的一种音频检测方法的另一流程示意图。

图9为本发明实施例提供的一种音频检测方法的另一流程示意图。

图10为本发明实施例提供的一种音频检测装置的结构示意图。

图11为本发明实施例提供的一种音频检测装置的另一结构示意图。

图12为本发明实施例提供的一种音频检测装置的另一结构示意图。

图13为本发明实施例提供的一种音频检测装置的另一结构示意图。

图14为本发明实施例提供的一种音频检测装置的另一结构示意图。

图15为本发明实施例提供的一种服务器的结构示意图。

图16为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

断点是音频中常出现的一种错误，断点会导致音频播放的声音断断续续，或者是声音丢失，对影响音频的质量造成严重影响，因此，可以对音频进行断点检测，以便对存在的断点进行修复。然而有些音频的正常音效具有类似断点的有意设计的音效，进一步增大识别难度。

断点检测的主要难点是，无法找出具有明显特异性的断点特征。通过观察多个断点样本可知，断点的主要特征是具有较小的频谱能量或滚降值，以及具有相对平整的时域波形，但这些特征却不构成断点与正常音频的区别，因为，其一，较短的断点会因声谱图粘连而具有一定的能量，其二，某些断点因为频谱阴影而具有很高的滚降值，其三，正常音频也会出现平整的时域区段。综上，断点的最重要特征是断点与上下文之间的不协调性，而不是单纯的某个或某几个信号特征。然而，传统的断点检测方法是基于某个或某几个简单信号特征的规则进行断点检测，往往使得传统断点检测的准确率或召回率较偏低。

因而，本发明实施例提供了一种音频检测方法、装置及存储介质，基于深度学习网络进行模型训练，然后利用训练好的局部识别模型进行音频的断点检测，提升了音频断点检测的准确率和召回率，并提升了对节奏类等音效假断点的识别度。

本发明实施例提供的音频检测方法，可实现在音频检测装置中，该音频检测装置具体可以集成在电子设备或其他具有音视频数据处理功能的设备中，电子设备包括但不限于计算机、智能电视、智能音箱、手机、平板电脑等设备。

请参阅图1，图1为本发明实施例提供的一种音频检测装置的系统示意图。该音频检测装置主要用于模型的训练和模型的检测。本发明实施例提供的模型为深度学习网络模型，该深度学习网络模型可以包括局部识别模型与全局判别模型。在进行模型的训练时，预先获取训练样本，然后通过预筛选处理筛选出训练样本中可能存在断点的候选音频片段，然后根据候选音频片段对局部识别模型与全局判别模型进行学习训练，以得到训练好的局部识别模型与训练好的全局判别模型。在进行模型的检测时，通过预筛选处理筛选出可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测。且当局部识别模型输出的候选音频片段的检测结果对应的置信度低于置信度阈值时，需利用全局判别模型对候选音频片段的检测结果对应的置信度进行训练，以有效判别出断点与节奏类假断点，可以有效提升音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

需要说明的是，深度学习网络模型的训练过程可以在服务器端也可以在电子设备端完成。当深度学习网络模型的训练过程、实际检测过程都在服务器端完成时，需要使用训练后的深度学习网络模型时，可以将待测音频中可能存在断点的候选音频片段输入到服务器，服务器实际检测完成后，将检测结果发送至电子设备端，电子设备再根据检测结果确定待测音频是否具有断点。

当深度学习网络模型的训练过程、实际检测过程都在电子设备端完成时，需要使用训练后的深度学习网络模型时，可以将待测音频中可能存在断点的候选音频片段输入到电子设备，电子设备实际检测完成后，电子设备根据检测结果确定待测音频是否具有断点。

当深度学习网络模型的训练过程在服务器端完成，深度学习网络模型的实际检测过程在电子设备端完成时，需要使用由训练后的深度学习网络模型时，可以将待测音频中可能存在断点的候选音频片段输入到电子设备，电子设备实际检测完成后，电子设备根据检测结果确定待测音频是否具有断点。可选的，可以将训练好的深度学习网络模型文件(model文件)移植到电子设备上，若需要对输入的待测音频进行音频检测，则将待测音频输入到训练好的深度学习网络模型文件(model文件)，通过计算即可得到检测结果。

以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

请参阅图2至图7，其中，图2为本发明实施例提供的一种音频检测方法的流程示意图。所述方法包括：

步骤101，对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段。

例如，断点在音频波形图上具有一定的特征，断点出现在待测音频中的位置、时域长度或者格式可能不同，而且同一个待测音频中可能出现多个断点，因此为了更方便数据的训练及检测，在训练或检测前需对音频原始数据进行预筛选处理，以筛选出音频中有可能具有断点的片段，作为训练样本或者待测音频中的候选音频片段。其中，该音频波形图可以为时域图或者频域图。

在一些实施例中，如果预筛选处理之后未能筛选出任何符合要求的候选音频片段，则直接返回无断点的信号。

在一些实施例中，如图3所示，步骤101可以通过步骤1011至步骤1014来实现，具体为：

步骤1011，按照预设采样率对所述待测音频进行数据规整，并去除所述待测音频的开头以及结尾处的静音片段，以获取首尾无静音片段的待测音频。

例如，可以按照44100Hz的预设采样率对该待测音频进行数据规整，再以-20db为阈值，截掉该待测音频的开头和结尾处的静音区段，以获取首尾无静音片段的待测音频，以免对后续处理产生干扰。例如，该阈值为以音频最大值为标的的-20db。其中，在静音区段被截掉之前，可以先把该待测音频转换为时域图，然后对该待测音频的时域图进行处理，去除该待测音频的时间图上开头以及结尾处的静音片段，以获取首尾无静音片段的待测音频。

步骤1012，将所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧。

在一些实施例中，所述对所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧，包括：

根据预设条件将所述首尾无静音片段的待测音频划分为多个音频帧；

计算所述述多个音频帧中每帧的标准差；

将所述多个音频帧中所述标准差小于阈值的音频帧确定为目标帧。

例如，预筛选处理的主要目的是筛选出待测音频中有可能的具有断点的区段，因此预筛选处理的召回率是需要重点关注的内容之一。比如，该预设条件可以为按照预设帧长以及预设步进值对音频进行分帧。譬如，根据有限次的实验，可以取512为帧长，64为步进值对该首尾无静音片段的待测音频进行分帧，以划分为多个音频帧。一般情况下，断点都具有平直信号的特征，因此可以计算该多个音频帧中每帧的标准差，以得到该多个音频帧对应的帧级标准差向量。然后，将该多个音频帧中标准差小于阈值的音频帧所对应的时间点收集起来，以得到目标帧。其中，每个音频帧有512个点，通过对该512个点的信号方差进行开方，以得到每个音频帧的标准差。例如，断点的标准差的阈值可以设置为0.002，该阈值参数下几乎可以接近100％的召回率将断点筛出，但同时有一定概率会筛出包括非断点的片段。其中，该目标帧为疑似断点的音频帧。

步骤1013，若所述目标帧为多个目标帧，则按照门限值将所述多个目标帧进行合并处理，以得到多个合并区段，其中所述多个合并区段中的任一合并区段的起始时间与结束时间的时间间隔不超过所述门限值。

例如，步骤1012中筛选出的目标帧是帧级的数据，两个目标帧之间相差的时间一般不足2ms。然而，一个断点可能会涵盖几十到几百的帧，因此，需要对上述目标帧进行合并，计算出断点的起始时间和结束时间。比如，以100ms为门限值，将相距不超过100ms的目标帧进行合并处理，以得到多个合并区段，以此可以缩减数据规模。其中，该合并区段为疑似断点的区段。

步骤1014，对所述多个合并区段进行上下文片段的提取，以生成多个候选音频片段。

例如，上述得到的包含疑似断点的合并区段中的该疑似断点的起始时间和结束时间可能有一定误差，该疑似断点的起始时间有可能在真实断点的中部，为了进一步减少疑似断点的区段的数目及包含更完整的上下文，需要一个包含所述疑似断点的上下文的片段，并将所述疑似断点尽量放在上下文的中心位置。

在一些实施例中，所述对所述多个合并区段进行上下文片段的提取，以生成多个候选音频片段，包括：

获取所述待测音频的时域图的时间轴上散布的所述多个合并区段，其中所述多个合并区段互不相交；

根据预设窗长从所述待测音频中截取窗长达到预设窗长的多个片段作为所述多个候选音频片段，其中每一所述候选音频片段的窗长覆盖至少一个所述合并区段，且每一所述候选音频片段的起始点到起始合并区段的起始点的距离与所述候选音频片段的结束点到末尾合并区段的结束点的距离之差不超过一个样本点。

例如，该待测音频的时域图的时间轴上散布着n个互不相交的合并区段，该n个互不相交的合并区段由起始时间(s₁,s₂，……，s_n)和结束时间(e₁，e₂，，e_n)确定。例如，给定预设窗长L，求p个窗位置，该p个窗位置由起始位置(Ws₁，Ws₂，……，Ws_p)和结束位置(We₁，We₂，……，We_p)确定，其中，该p个窗位置用于表示从待测音频的时域图上提取出的包含合并区段上下文的p个候选音频片段，即一个窗涵盖的片段表示一个候选音频片段，使得每个合并区段被且仅被一个窗完全包住，且窗的左边界到窗内最左合并区段的左边界的距离和窗的右边界到窗内最右合并区段的右边界的距离之差最多为1个样本点。即，每一候选音频片段的窗长覆盖至少一个合并区段，且每一候选音频片段的起始点到起始合并区段的起始点的距离与候选音频片段的结束点到末尾合并区段的结束点的距离之差不超过一个样本点，以此对该多个合并区段进行上下文片段的提取，以生成多个候选音频片段。其中，起始点也可以表示为时间轴上的起始位置或者起始时间，结束点也可以表示为时间轴上的结束位置或者结束时间。

其中，区段数目由n变为p，最好情况下p＝1，最坏情况下p＝n，通常p<n。

例如，预设窗长L设置为2.7s，并在计算结束后在窗位置左右两端各补0.15s，形成长为3s的片段信息，随后，按这些片段信息在待测音频的原信号中将数据截取下来并返回，以提出候选音频片段。例如，为了防止内存溢出或超时，限定每个待测音频最多提取m个候选音频片段，当候选音频片段段数超过m时，将随机选取m个，比如m取值为32等。

步骤102，将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果。

例如，为了进行局部识别模型的识别，首先要收集一部分数据，批量通过预筛选处理生成候选音频片段，以筛选出待测音频中有可能具有断点的片段。

其中，考虑到断点在时域上具有很鲜明的特征，则可以设计一个针对时域数据的局部识别模型进行断点识别。其中，典型的断点识别比较容易，而比较复杂的节奏类假断点不容易识别，节奏类假断点为具有鲜明节奏特征的片段，其在信号上与断点具有几乎完全相同的特征，但实际上不是断点，而是有意设计的音效，这些音效听起来节奏感强、没有不协调性。

例如，如图4所示的音频的波形图，波形图中的A位置、B位置、C位置、D位置为类似断点的片段，由A位置、B位置、C位置和D位置的片段组成的音频片段F为具有鲜明节奏特征的片段，构成音频的有意设计音效。

在一些实施例中，如图5所示，所述局部识别模型可以为卷积神经网络模型，所述卷积神经网络模型可以包括依次连接的卷积层、池化层、全连接层和分类器。

如图6所示，步骤102可以通过步骤1021至步骤1024来实现，具体为：

步骤1021，将所述多个候选音频片段输入所述卷积层进行特征提取，以获得所述多个候选音频片段的全局特征。

该卷积层主要用于对输入的多个候选音频片段进行特征提取，即将原始数据映射到隐层特征空间，其中，该多个候选音频片段可以为训练样本或待测音频中预筛选出的候选音频片段，比如，如图5所示，该卷积层具有六层，每一层的卷积为一个基本构成单元，该基本构成单元为带残差结构的门控1D膨胀卷积(ResGCNN1D)，每一层卷积均设有不同的膨胀系数Dialated，比如从第一层卷积至第六层卷积的膨胀系数Dialated依次可以为2、4、8、16、32、64。例如，将该多个候选音频片段输入膨胀卷积ResGCNN1D中进行特征提取，可以更好地抓取每一候选音频片段信号的全局特征。其中，该全局特征用于描述整个候选音频片段的整体特征。

例如，该基本构成单元可以包含有两个卷积核，一个卷积核负责传输数据，另一个卷积核经过sigmoid激活函数映射后成为一张各个点均为0～1之间数值的参数，后一个卷积核的输出值与后一个卷积核的输出值相乘，可以起到有针对性的选择前一个卷积核传输的数据的作用。

在一些实施例中，如图7所示，该基本构成单元可以包括滤波子单元、门控子单元和混合子单元。其中，所述滤波子单元用于对候选音频片段进行数据传输，所述门控子单元用于对候选音频片段进行门控，所述混合子单元用于对所述滤波子单元以及门控子单元输出的数据进行混合处理。

例如，将每一不同位置的候选音频片段作为输入信号，输入信号分别经过滤波子单元和门控子单元处理后得到两张特征图，例如，滤波子单元与门控子单元可以为两个尺寸完全相同的滤波器，输入信号分别经过两个尺寸完全相同的滤波子单元和门控子单元处理后得到两张特征图，负责门控的门控子单元的输出特征图经过sigmoid激活函数后被映射为0～1之间的映射值，这些映射值与负责滤波的滤波子单元的输出特征图逐元素相乘，起到注意力机制的作用。最后，经过相乘后的输出数据再经过混合子单元处理后被混合后得到相应的全局特征，其中，该全局特征用于描述整个候选音频片段的整体特征的特征图。

步骤1022，将所述多个候选音频片段的全局特征输入所述池化层进行特征数据的降维，以获得所述多个候选音频片段降维后的全局特征，其中所述池化层采用平均值池化。

其中，为了进一步减少计算量，还可以在卷积层后进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(maxpooling)或平均值(average pooling)等，其中，该下采样操作层可以称为池化层。为了描述方便，在本发明实施例中，且该下采样操作具体为average pooling为例进行说明。比如，将该多个候选音频片段的全局特征输入该池化层进行特征数据的降维，以获得该多个候选音频片段降维后的全局特征，其中该池化层可以为全局平均值池化层(global averagepooling)。例如，卷积层最后一层输出是n*m的矩阵，其中n是滤波器个数，m是每个滤波器输出的特征向量，则全局平均值池化后所得的是n*1的向量，向量中第i个点的值是第i行的m个元素之均值。

步骤1023，将所述多个候选音频片段降维后的全局特征输入所述全连接层中进行处理，得到所述多个候选音频片段的特征图。

其中，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，比如，全连接层的神经元数量可以设置为512个，或者，也可以设置为128个，等等。

在一些实施例中，如图5所示，可以在该全连接层中添加预设比例的随机失活层，在训练或者检测的过程中随机冻结所述预设比例对应的神经元，以抑制过拟合现象。其中，所述随机失活层可以为Dropout层，例如所述Dropout层的预设比例为0.45，在训练或者应用该局部识别模型的过程中，可以按照0.45的比例随机冻结某些神经元，即随机让全连层中某些隐含层节点的神经元不工作，Dropout层消除减弱了神经元节点间的联合适应性，增强了泛化能力，防止模型过拟合，dropout是可以确保深度学习网络模型在丢失一个个体线索的情况下保持健壮的网络模型，可以减少权重连接，增加网络模型在缺失个体连接信息情况下的鲁棒性。其中，该随机失活层可以设置在池化层与全连接层之间。

在一些实施例中，可以在所述全连接层中添加规范化层，以对所述全连接层进行规范化处理，以加速网络收敛。其中，所述规范化层可以为BatchNormalization层，其在采用梯度下降法训练深度学习网络模型时，对网络层中每个输出的神经元数据进行归一化，使其均值变为0，方差变为1，其主要作用是缓解深度学习网络模型训练中的梯度消失/爆炸现象，加快模型的训练速度。通过规范化层后，所有神经元都规范化到了一种分布，即将神经元的输出规范化到均值为0，方差为1，防止了梯度弥散，加速网络收敛，同时有一定抑制过拟合的作用。

步骤1024，将所述多个候选音频片段的特征图通过分类器进行分类处理，得到所述多个候选音频片段的检测结果。

其中，可以在全连接层中通过加入激活函数来加入非线性因素，进而在整个卷积神经网络中起到分类器的作用，比如，可以加入sigmoid激活函数(S型函数)，sigmoid激活函数可以将全连接层的输出变量映射到0至1之间。将该多个候选音频片段的特征图通过分类器进行分类处理后，得到该多个候选音频片段中每一候选音频片段的检测结果，该检测结果包括0至1之间的检测概率。

其中，检测的过程与训练的过程相似，在检测之前，预先对模型进行训练，训练的过程此处不再详细赘述。在对待测音频进行检测时，通过对待测音频进行预筛选处理，以筛选出该待测音频中的候选音频片段，并将该候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成该候选音频片段的检测结果，再根据该候选音频片段的检测结果确定该待测音频是否具有断点，其中，当检测结果不小于预设阈值时确定该候选音频片段具有断点，当检测结果小于预设阈值时确定该候选音频片段不具有断点。其中，该预设阈值可以人为设定，例如设置sigmoid激活函数的预设阈值为0.5，在网络得到充分训练的情况下一般不会加以调整。在网络训练不是很到位的情况下，例如样本分布不均匀，也可以根据实验结果取一个在验证集上正确率更高的一个阈值，这是在网络训练结束后提高性能的一个诀窍。

在一些实施例中，该局部识别模型也可以为由一维卷积网络与循环神经网络组成，其中，一维卷积网络负责提取每一候选音频片段中的多个局部特征，该局部特征用于描述该候选音频片段中局部区段的特征，例如该局部特征为该候选音频片段中局部3至5帧的特征，然后通过循环神经网络对多个局部特征加以总结，最终形成该局部识别模型的检测结果。

步骤103，根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

其中，分析所述多个候选音频片段的检测结果，当得出至少一个所述候选音频片段具有断点时，确定所述待测音频具有断点；以及

当得出所述多个候选音频片段均无断点时，确定所述待测音频无断点。

例如，在进行断点检测的过程中，当一个待测音频中的任何一处存在断点时，则确定此音频存在断点，否则不存在断点。当对每一个候选音频片段判决都很可靠时，有任何一个候选音频片段出现断点，则可立即中止程序，返回待测音频有断点的结果，当所有的候选音频片段均无断点时，则返回待测音频无断点的结果。

上述所有的技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例通过对待测音频进行预筛选处理，以筛选出该待测音频中的候选音频片段，并将该候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成该候选音频片段的检测结果，再根据该候选音频片段的检测结果确定该待测音频是否具有断点。本发明实施例通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

请参阅图8及图9，图8及图9均为本发明实施例提供的一种音频检测方法的另一流程示意图。所述方法包括：

步骤201，根据训练样本对局部识别模型与全局判别模型进行学习训练，以得到训练好的局部识别模型与所述训练好的全局判别模型。

其中，本发明实施例提供的模型为深度学习网络模型，该深度学习网络模型可以包括局部识别模型与全局判别模型。在利用模型进行检测之前，需预先对模型进行训练，训练的过程与检测的过程相似，训练的过程具体可参上述实施例的描述，此处不再详细赘述。在进行模型的训练时，预先获取训练样本，其中，该训练样本包括已标记的包含有断点、节奏类音效以及无断点的训练样本，然后通过预筛选处理筛选出训练样本中可能存在断点的候选音频片段，然后根据候选音频片段对局部识别模型与全局判别模型进行学习训练，以得到训练好的局部识别模型与训练好的全局判别模型。

步骤202，对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段。

在一些实施例中，如图8所示，步骤202可以通过步骤2021至步骤2025来实现，具体为：

步骤2021，按照预设采样率对所述待测音频进行数据规整，并去除所述待测音频的开头以及结尾处的静音片段，以获取首尾无静音片段的待测音频。

步骤2022，将所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧。

计算所述述多个音频帧中每帧的标准差；

步骤2023，若所述目标帧为多个目标帧，则按照门限值将所述多个目标帧进行合并处理，以得到多个合并区段，其中所述多个合并区段中的任一合并区段的起始时间与结束时间的时间间隔不超过所述门限值。

例如，步骤2022筛选出的目标帧是帧级的数据，两个目标帧之间相差的时间一般不足2ms(毫秒)。然而，一个断点可能会涵盖几十到几百的帧，因此，需要对上述目标帧进行合并，计算出断点的起始和结束时间。比如，以100ms为门限值，将相距不超过100ms的目标帧进行合并处理，以得到多个合并区段，以此可以缩减数据规模。其中，该合并区段为疑似断点的区段。

步骤2024，对所述多个合并区段进行过滤处理，以滤除所述多个合并区段中时长小于第一预设时长以及时长大于第二预设时长的区段。

其中，为了进一步减少预筛选断点的数目，可以对所述多个合并区段进行过滤处理，以滤除时长不合适的合并区段。例如，断点一般不短于20ms，不长于2s(秒)，在留有一定余量情况下，可以将第一预设时长设置为15ms，将第二预设时长设置为2s，可以将时长短于15ms以及长于2s的合并区段滤除。

步骤2025，对所述过滤处理后的多个合并区段进行上下文片段的提取，以生成多个候选音频片段。

例如，上述过滤处理后得到的包含疑似断点的合并区段中的该疑似断点的起始点和结束点可能有一定误差，该疑似断点的起始点有可能在真实断点的中部，为了进一步减少疑似断点的区段的数目及包含更完整的上下文，需要一个包含所述疑似断点的上下文的片段，并将所述疑似断点尽量放在上下文的中心位置。

在一些实施例中，所述对所述过滤处理后的多个合并区段进行上下文片段的提取，以生成多个候选音频片段，包括：

获取所述待测音频的时域图的时间轴上散布的所述过滤处理后的多个合并区段，其中所述多个合并区段互不相交；

步骤203，将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果。

其中，具体描述请参步骤102，此处不再赘述。

步骤204，根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

其中，具体描述请参步骤103，此处不再赘述。

步骤205，获取所述候选音频片段的检测结果对应的置信度。

其中，通过局部识别模型进行断点检测时，因为是对待测音频中的候选音频片段进行检测，而候选音频片段虽然具备一定的长度，但是仍然是待测音频的局部片段，很可能将假断点误判为断点的情况，而假断点通常具有规律的分布特性，且假断点的局部判决置信度不高。因此，但当局部判决断点有一定错误的概率时，即局部识别模型进行局部判决的准确率和召回率不能满足检测需求时，就要综合多个局部判决的检测结果对断点进行再次识别。例如，节奏类的音效通过局部识别模型检测时有可能被检测为断点，但断点是随机发生的，它规律出现的概率非常小，而节奏类音效片段是重复的、有规律的出现，即检测出的断点是有规律的，那可以认为此时有可能出现了局部误检。因此，在通过局部识别模型检测出断点之后，为了更准确的识别断点，可以进一步获取每一所述候选音频片段的检测结果对应的置信度。

步骤206，若所述候选音频片段的检测结果对应的置信度小于置信度阈值，则将所述候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成所述待测音频的全局判别结果。

例如，该置信度阈值可以设置为99％，若候选音频片段的检测结果对应的置信度中出现置信度小于99％的情况，则说明某些局部判决为断点的区段可能是假断点，则将所有局部判决的置信度作为特征向量输入训练好的全局判别模型中进行音频的断点判别，以生成所述待测音频的全局判别结果。

例如，全局判别模型可以为循环神经网络模型(RNN)，可以按照时域上的时间顺序将所有候选音频片段的检测结果对应的置信度输入RNN模型中进行训练并判别。例如，多个连续的候选音频片段检测结果对应的置信度都比较相似，且置信度均低于置信度阈值，且该多个连续的候选音频片段的分布比较有规律，则该RNN模型输出的全局判别结果小于预设阈值，说明该多个连续的候选片段均为假断点。

步骤207，根据所述待测音频的全局判别结果确定所述待测音频是否具有断点。

例如，所有的候选音频片段的检测结果对应的置信度都置信度均低于置信度阈值，且所有的候选音频片段的分布比较有规律，则该RNN模型输出的全局判别结果小于预设阈值，说明所有的候选片段均为假断点，因此可以确定该待测音频无断点。

本发明实施例通过对待测音频进行预筛选处理，以筛选出该待测音频中的候选音频片段，并将该候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成该候选音频片段的检测结果，再根据该候选音频片段的检测结果确定该待测音频是否具有断点，若该候选音频片段的检测结果对应的置信度小于置信度阈值，则将该候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成该待测音频的全局判别结果，再根据该全局判别结果确定该待测音频是否具有断点。本发明实施例通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，在局部识别模型的置信度低于置信度阈值时，引入全局判别模型进行判别，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

本发明实施例还提供一种音频检测装置，如图10至图12所示，图10至图12均为本发明实施例提供的一种音频检测装置的结构示意图。所述音频检测装置40可以包括预处理模块42，检测模块43，以及确定模块44。

其中，所述预处理模块42，用于对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段。

在一些实施例中，如图11所示，所述预处理模块42可以包括规整子模块421，筛选子模块422，合并子模块423和提取子模块425。

其中，所述规整子模块421，用于按照预设采样率对所述待测音频进行数据规整，并去除所述待测音频的开头以及结尾处的静音片段，以获取首尾无静音片段的待测音频。

所述筛选子模块422，用于将所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧。

在一些实施例中，所述筛选子模块422，用于：

计算所述述多个音频帧中每帧的标准差；

所述合并子模块423，用于若所述目标帧为多个目标帧，则按照门限值将所述多个目标帧进行合并处理，以得到多个合并区段，其中所述多个合并区段中的任一合并区段的起始时间与结束时间的时间间隔不超过所述门限值。

所述提取子模块425，用于对所述多个合并区段进行上下文片段的提取，以生成多个候选音频片段。

在一些实施例中，所述提取子模块425，用于：

所述检测模块43，用于将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果。

在一些实施例中，所述局部识别模型为卷积神经网络模型，所述卷积神经网络模型包括依次连接的卷积层、池化层、全连接层和分类器。

其中，如图12所示，所述检测模块43可以包括特征提取子模块431，降维子模块432，处理子模块433和分类子模块434。

其中，所述特征提取子模块431，用于将所述多个候选音频片段输入所述卷积层进行特征提取，以获得所述多个候选音频片段的全局特征；

所述降维子模块432，用于将所述多个候选音频片段的全局特征输入所述池化层进行特征数据的降维，以获得所述多个候选音频片段降维后的全局特征，其中所述池化层采用平均值池化；

所述处理子模块433，用于将所述多个候选音频片段降维后的全局特征输入所述全连接层中进行处理，得到所述多个候选音频片段的特征图；

所述分类子模块434，用于将所述多个候选音频片段的特征图通过分类器进行分类处理，得到所述多个候选音频片段的检测结果。

所述确定模块44，用于根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

其中，所述确定模块44，可以用于分析所述多个候选音频片段中每一所述候选音频片段的检测结果，当得出至少一个所述候选音频片段具有断点时，确定所述待测音频具有断点；以及当得出所述多个候选音频片段均无断点时，确定所述待测音频无断点。

在一些实施例中，如图13至图14所示，图13至图14均为本发明实施例提供的一种音频检测装置的另一结构示意图。所述音频检测装置40可以包括训练模块41，预处理模块42，检测模块43，以及确定模块44，获取模块45，以及判别模块46。

其中，所述训练模块41，用于根据训练样本对所述局部识别模型与全局判别模型进行学习训练，以得到所述训练好的局部识别模型与所述训练好的全局判别模型。

在一些实施例中，如图14所示，所述预处理模块42可以包括规整子模块421，筛选子模块422，合并子模块423，滤除子模块424和提取子模块425。

在一些实施例中，所述筛选子模块422，用于：

计算所述述多个音频帧中每帧的标准差；

所述滤除子模块424，用于对所述多个合并区段进行过滤处理，以滤除所述多个合并区段中时长小于第一预设时长以及时长大于第二预设时长的区段；

所述提取子模块425，用于对所述过滤处理后的多个合并区段进行上下文片段的提取，以生成所述候选音频片段。

所述获取模块45，用于获取所述候选音频片段的检测结果对应的置信度；

所述判别模块46，用于若所述候选音频片段的检测结果对应的置信度小于置信度阈值，则将所述候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成所述待测音频的全局判别结果；

所述确定模块44，还用于根据所述待测音频的全局判别结果确定所述待测音频是否具有断点。

本发明实施例提供的音频检测装置40，通过预处理模块42对待测音频进行预筛选处理，以筛选出该待测音频中的候选音频片段，检测模块43将该候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成该候选音频片段的检测结果，确定模块44再根据该候选音频片段的检测结果确定该待测音频是否具有断点，若获取模块45获取的该候选音频片段的检测结果对应的置信度小于置信度阈值，则判别模块46将该候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成该待测音频的全局判别结果，确定模块44再根据该全局判别结果确定该待测音频是否具有断点。本发明实施例的音频检测装置40通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，在局部识别模型的置信度低于置信度阈值时，引入全局判别模型进行判别，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

本发明实施例还提供一种服务器，如图15所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图15中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

服务器还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段；将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成所述候选音频片段的检测结果；根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

以及，获取所述候选音频片段的检测结果对应的置信度；若所述候选音频片段的检测结果对应的置信度小于置信度阈值，则将所述候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成所述待测音频的全局判别结果；根据所述待测音频的全局判别结果确定所述待测音频是否具有断点。

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的服务器，通过对待测音频进行预筛选处理，以筛选出该待测音频中的候选音频片段，并将该候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成该候选音频片段的检测结果，再根据该候选音频片段的检测结果确定该待测音频是否具有断点，若该候选音频片段的检测结果对应的置信度小于置信度阈值，则将该候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成该待测音频的全局判别结果，再根据该全局判别结果确定该待测音频是否具有断点。本发明实施例通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，在局部识别模型的置信度低于置信度阈值时，引入全局判别模型进行判别，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

相应的，本发明实施例还提供一种终端，如图16所示，该终端可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图16中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图16中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的终端，通过对待测音频进行预筛选处理，以筛选出该待测音频中的候选音频片段，并将该候选音频片段输入训练好的局部识别模型中进行音频的断点检测，以生成该候选音频片段的检测结果，再根据该候选音频片段的检测结果确定该待测音频是否具有断点，若该候选音频片段的检测结果对应的置信度小于置信度阈值，则将该候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成该待测音频的全局判别结果，再根据该全局判别结果确定该待测音频是否具有断点。本发明实施例通过预筛选处理筛选出待测音频中可能存在断点的候选音频片段，然后利用训练好的局部识别模型进行音频的断点检测，在局部识别模型的置信度低于置信度阈值时，引入全局判别模型进行判别，提升了音频断点检测的准确率和召回率，并提升对节奏类假断点的鲁棒性，能够有效检测音频的断点。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频检测方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任音频检测方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频检测方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的音频检测方法，其特征在于，所述对待测音频进行预筛选处理，以筛选出所述待测音频中的候选音频片段，包括：

按照预设采样率对所述待测音频进行数据规整，并去除所述待测音频的开头以及结尾处的静音片段，以获取首尾无静音片段的待测音频；

将所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧；

若所述目标帧为多个目标帧，则按照门限值将所述多个目标帧进行合并处理，以得到多个合并区段，其中所述多个合并区段中的任一合并区段的起始时间与结束时间的时间间隔不超过所述门限值；

对所述多个合并区段进行上下文片段的提取，以生成多个候选音频片段。

3.如权利要求2所述的音频检测方法，其特征在于，所述对所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧，包括：

计算所述述多个音频帧中每帧的标准差；

4.如权利要求2所述的音频检测方法，其特征在于，所述对所述多个合并区段进行上下文片段的提取，以生成多个候选音频片段，包括：

5.如权利要求2所述的音频检测方法，其特征在于，在所述对所述多个合并区段进行上下文片段的提取，以生成所述候选音频片段之前，还包括：

对所述多个合并区段进行过滤处理，以滤除所述多个合并区段中时长小于第一预设时长以及时长大于第二预设时长的区段；

所述对所述多个合并区段进行上下文片段的提取，以生成所述候选音频片段，包括：

对所述过滤处理后的多个合并区段进行上下文片段的提取，以生成所述候选音频片段。

6.如权利要求2所述的音频检测方法，其特征在于，所述局部识别模型为卷积神经网络模型，所述卷积神经网络模型包括依次连接的卷积层、池化层、全连接层和分类器；

所述将所述候选音频片段输入训练好的局部识别模型进行音频的断点检测，以生成所述候选音频片段的检测结果，包括：

将所述多个候选音频片段输入所述卷积层进行特征提取，以获得所述多个候选音频片段的全局特征；

将所述多个候选音频片段的全局特征输入所述池化层进行特征数据的降维，以获得所述多个候选音频片段降维后的全局特征，其中所述池化层采用平均值池化；

将所述多个候选音频片段降维后的全局特征输入所述全连接层中进行处理，得到所述多个候选音频片段的特征图；

将所述多个候选音频片段的特征图通过分类器进行分类处理，得到所述多个候选音频片段的检测结果。

7.如权利要求6所述的音频检测方法，其特征在于，所述根据所述候选音频片段的检测结果确定所述待测音频是否具有断点，包括：

分析所述多个候选音频片段的检测结果，当得出至少一个所述候选音频片段具有断点时，确定所述待测音频具有断点；以及

8.如权利要求1所述的音频检测方法，其特征在于，所述方法还包括：

获取所述候选音频片段的检测结果对应的置信度；

若所述候选音频片段的检测结果对应的置信度小于置信度阈值，则将所述候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成所述待测音频的全局判别结果；

根据所述待测音频的全局判别结果确定所述待测音频是否具有断点。

9.如权利要求8所述的音频检测方法，其特征在于，在所述对待测音频进行预筛选处理之前，还包括：

根据训练样本对所述局部识别模型与全局判别模型进行学习训练，以得到所述训练好的局部识别模型与所述训练好的全局判别模型。

10.一种音频检测装置，其特征在于，所述装置包括：

11.如权利要求10所述的音频检测装置，其特征在于，所述预处理模块，包括：

规整子模块，用于按照预设采样率对所述待测音频进行数据规整，并去除所述待测音频的开头以及结尾处的静音片段，以获取首尾无静音片段的待测音频；

筛选子模块，用于将所述首尾无静音片段的待测音频划分为多个音频帧，并基于所述多个音频帧中每帧的标准差筛选出目标帧；

合并子模块，用于若所述目标帧为多个目标帧，则按照门限值将所述多个目标帧进行合并处理，以得到多个合并区段，其中所述多个合并区段中的任一合并区段的起始时间与结束时间的时间间隔不超过所述门限值；

提取子模块，用于对所述多个合并区段进行上下文片段的提取，以生成多个候选音频片段。

12.如权利要求11所述的音频检测装置，其特征在于，所述筛选子模块，用于：

计算所述述多个音频帧中每帧的标准差；

13.如权利要求11所述的音频检测装置，其特征在于，所述提取子模块，用于：

14.如权利要求11所述的音频检测装置，其特征在于，所述预处理模块，还包括：

滤除子模块，用于对所述多个合并区段进行过滤处理，以滤除所述多个合并区段中时长小于第一预设时长以及时长大于第二预设时长的区段；

所述提取子模块，还用于对所述过滤处理后的多个合并区段进行上下文片段的提取，以生成所述候选音频片段。

15.如权利要求11所述的音频检测装置，其特征在于，所述局部识别模型为卷积神经网络模型，所述卷积神经网络模型包括依次连接的卷积层、池化层、全连接层和分类器；所述检测模块，包括：

特征提取子模块，用于将所述多个候选音频片段输入所述卷积层进行特征提取，以获得所述多个候选音频片段的全局特征；

降维子模块，用于将所述多个候选音频片段的全局特征输入所述池化层进行特征数据的降维，以获得所述多个候选音频片段降维后的全局特征，其中所述池化层采用平均值池化；

处理子模块，用于将所述多个候选音频片段降维后的全局特征输入所述全连接层中进行处理，得到所述多个候选音频片段的特征图；

分类子模块，用于将所述多个候选音频片段的特征图通过分类器进行分类处理，得到所述多个候选音频片段的检测结果。

16.如权利要求15所述的音频检测装置，其特征在于，所述确定模块，用于分析所述多个候选音频片段中每一所述候选音频片段的检测结果，当得出至少一个所述候选音频片段具有断点时，确定所述待测音频具有断点；以及当得出所述多个候选音频片段均无断点时，确定所述待测音频无断点。

17.如权利要求10所述的音频检测装置，其特征在于，所述装置还包括：

获取模块，用于获取所述候选音频片段的检测结果对应的置信度；

判别模块，用于若所述候选音频片段的检测结果对应的置信度小于置信度阈值，则将所述候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别，以生成所述待测音频的全局判别结果；

所述确定模块，还用于根据所述待测音频的全局判别结果确定所述待测音频是否具有断点。

18.如权利要求17所述的音频检测装置，其特征在于，所述装置还包括：

训练模块，用于根据训练样本对所述局部识别模型与全局判别模型进行学习训练，以得到所述训练好的局部识别模型与所述训练好的全局判别模型。

19.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的音频检测方法中的步骤。