CN112669822B

CN112669822B - 音频处理方法、装置、电子设备和存储介质

Info

Publication number: CN112669822B
Application number: CN202011485096.7A
Authority: CN
Inventors: 张坚; 张坤雷
Original assignee: Aiways Automobile Co Ltd
Current assignee: Aiways Automobile Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-11-25
Anticipated expiration: 2040-12-16
Also published as: CN112669822A

Abstract

本申请涉及一种音频处理方法、装置、计算机设备和存储介质。所述方法包括：获取待处理音频；对待处理音频进行划分得到至少一个音频片段；对至少一个音频片段进行初次检测，得到音频片段的初次检测结果；对初次检测结果为语音的音频片段进行二次检测，得到音频片段的二次检测结果；若检测到二次检测结果中存在唤醒词，则根据初次检测结果确定语音起始点和语音结束点。本方法采用两级检测决定检测结果的机制，可以有效提高唤醒词检测的准确度，降低误唤醒的概率。在二次检测结果存在唤醒词的情况下，根据音频片段的初次检测结果确定语音端点，可以在没有增加检测系统复杂性的前提下，同时实现语音端点检测功能。

Description

音频处理方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频处理方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的发展，出现越来越多的智能设备支持语音交互功能，例如，可以在汽车中安装支持语音交互的智能设备，以通过该智能设备识别用户意图。

传统技术中，语音交互方法通常需基于语音唤醒和语音端点检测等实现，而语音唤醒是语音交互所需的核心功能之一。语音唤醒可以采用隐马尔科夫模型或者深度神经网络等对唤醒词进行针对性建模及检测实现。在检测到唤醒词后，再基于语音端点检测技术对音频信号进行识别，以便为语音识别提供语音起始点和语音结束点。

但是，传统技术中的语音交互功能需要在智能设备中部署多种检测方式，随着语音交互功能的快速发展，因此，亟需一种准确且能够高效运行的音频处理方法。

发明内容

基于此，有必要针对上述技术问题，提供一种准确且能够高效运行的音频处理方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种音频处理方法，所述方法包括：

获取待处理音频；

对所述待处理音频进行划分得到至少一个音频片段；

对所述至少一个音频片段进行初次检测，得到音频片段的初次检测结果；

对所述初次检测结果为语音的音频片段进行二次检测，得到所述音频片段的二次检测结果；

若检测到所述二次检测结果中存在唤醒词，则根据所述初次检测结果确定语音起始点和语音结束点。

在其中一个实施例中，所述对所述至少一个音频片段进行初次检测，得到音频片段的初次检测结果，包括：

提取所述音频片段对应的音频特征；

对所述音频特征进行转换，得到对应的语谱图；

通过第一音频检测模型对所述语谱图进行检测，得到所述音频片段的初次检测结果，所述音频片段的初次检测结果为语音和非语音中的其中一个。

在其中一个实施例中，所述对所述初次检测结果为语音的音频片段进行二次检测，得到所述音频片段的二次检测结果，包括：

在对所述音频片段对应的语谱图进行初次检测的过程中，若得到当前音频片段的初次检测结果为语音，则将所述当前音频片段对应的语谱图输入至第二音频检测模型；

通过所述第二音频检测模型对所述当前音频片段对应的语谱图进行检测，得到所述当前音频片段的二次检测结果，所述二次检测结果为唤醒词、非唤醒词和非语音中的其中一个。

在其中一个实施例中，所述方法还包括：

若所述当前音频片段对应的二次检测结果为唤醒词，且对应的概率大于或等于预设阈值，则确定所述当前音频片段的二次检测结果为唤醒词；

若所述当前音频片段对应的二次检测结果为唤醒词，但是对应的概率小于所述预设阈值，则将所述当前音频片段的二次检测结果变更为非唤醒词。

在其中一个实施例中，所述第一音频检测模型和所述第二音频检测模型的模型结构均采用改进后的移动终端神经网络MobileNet模型；

改进的方式包括：

减少所述MobileNet模型中每层网络的输出通道数，和/或，减少所述每层网络的重复次数。

在其中一个实施例中，所述若检测到所述二次检测结果中存在唤醒词，则根据所述初次检测结果确定语音起始点和语音结束点，包括：

在得到所述二次检测结果中存在唤醒词的情况下，若存在连续的音频片段的初次检测结果为语音，则

将所述连续的音频片段中第一个音频片段的起始点作为所述语音起始点；

将所述连续的音频片段中最后一个音频片段的结束点作为所述语音结束点。

在其中一个实施例中，所述获取待处理音频，包括：

获取原始音频；

对所述原始音频进行预处理，得到所述待处理音频；

所述预处理的方式包括以下方式中的至少一种：

对所述原始音频进行降噪处理，将降噪处理后的原始音频的音量调整至第一范围内；

获取参考音频，对原始音频中的所述参考音频进行回声消除；

对所述原始音频进行自动增益控制。

第二方面，本申请实施例提供一种音频处理装置，所述装置包括：

获取模块，用于获取待处理音频；

划分模块，用于对所述待处理音频进行划分得到至少一个音频片段；

初次检测模块，用于对所述至少一个音频片段进行初次检测，得到音频片段的初次检测结果；

二次检测模块，用于对所述初次检测结果为语音的音频片段进行二次检测，得到所述音频片段的二次检测结果；

端点确定模块，用于在检测到所述二次检测结果中存在唤醒词时，则根据所述初次检测结果确定语音起始点和语音结束点。

第三方面，本申请实施例一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的音频处理方法。

第四方面，本申请实施例一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的音频处理方法。

上述音频处理方法、装置、计算机设备和存储介质，对唤醒词采用两级检测决定检测结果的机制，在获取待处理音频，对待处理音频进行划分得到至少一个音频片段后，对至少一个音频片段进行初次检测，得到音频片段是否为语音的初次检测结果；接着，对初次检测结果为语音的音频片段进行二次检测，得到音频片段是否存在唤醒词的二次检测结果。基于二次检测机制可以有效提高唤醒词检测的准确度，降低误唤醒的概率。在二次检测结果存在唤醒词的情况下，继续根据音频片段的初次检测结果确定语音起始点和语音结束点，可以在没有增加检测系统复杂性的前提下，同时实现语音端点检测功能。

附图说明

图1为一个实施例中音频处理方法的应用环境图；

图2为一个实施例中音频处理方法的流程示意图；

图3为一个实施例中初次检测步骤的流程示意图；

图4为一个实施例中二次检测步骤的流程示意图；

图5为一个实施例中语音端点检测步骤的流程示意图；

图6为另一个实施例中音频处理方法的流程示意图；

图7为一个实施例中音频处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，本申请提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备、设置于车辆上的电子设备(例如，车载电子中控台、智能后视镜等)等。二级检测机制可以基于深度学习模型实现。终端110中可以配置有用于初次检测的第一音频检测模型、用于二次检测的第二音频检测模型以及语音端点检测逻辑。第一音频检测模型和第二音频检测模型可以是任一种能够用于音频检测的模型，例如，卷积神经网络模型、循环神经网络模型等。可以理解的是，部署在终端110中的第一音频检测模型和第二音频检测模型是已训练的模型。具体地，终端110获取待处理音频；对待处理音频进行划分得到至少一个音频片段。将至少一个音频片段输入至已训练的第一音频检测模型。通过第一音频检测模型对至少一个音频片段进行初次检测，得到音频片段的初次检测结果。终端110将初次检测结果为语音的音频片段(以下将初次检测结果为语音的音频片段称为语音片段)输入至第二音频检测模型。通过第二音频检测模型对语音片段进行二次检测，得到二次检测结果。若二次检测结果中存在唤醒词的检测结果，则终端110根据音频片段的初次检测结果确定语音起始点和语音结束点。终端110可以将语音起始点和语音结束点之间的音频片段作为语音信号片段。采用语音识别技术对语音信号片段进行识别，得到语音识别结果，并根据语音识别结果进行相应的操作。

在另一个实施例中，本申请提供的音频处理方法可以应用于包括终端和服务器的应用环境中。其中，终端通过网络与服务器进行通信。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备、设置于车辆上的电子设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。第一音频检测模型、第二音频检测模型以及语音端点检测逻辑可以部署在服务器中。由服务器对待处理音频进行处理，得到初次检测结果、二次检测结果、语音端点检测结果(包括语音起始点和语音结束点)等。服务器可以将语音起始点和语音结束点中的音频片段作为语音信号片段。采用语音识别技术对语音信号片段进行识别，得到语音识别结果。将语音识别结果发送至终端，以使终端能够根据语音识别结果进行相应的操作。

在一个实施例中，如图2所示，提供了一种音频处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S210，获取待处理音频。

其中，待处理音频可以是通过音频采集装置实时采集的音频。音频采集装置可以是麦克风等装置，可以内置于终端中，也可以是独立的装置。在终端处于工作的状态下，终端中的音频采集装置实时采集待处理音频。

待处理音频也可以是预先存储在本地数据库或者服务器中的音频。终端可以响应于音频处理指令，从本地数据库或者服务器中获取待处理音频。音频处理指令可以是用户通过预设的控件等形式触发的。

步骤S220，对待处理音频进行划分得到至少一个音频片段。

具体地，终端中配置有音频划分策略。音频划分策略可以是基于时长的划分策略，也可以是基于数量的划分策略等。基于时长的划分策略可以是指终端按照预设时长和预设步长对音频片段进行划分。基于数量的划分策略可以是指终端按照预设数量，将待处理音频均分为预设数量个的音频片段。所得到的音频片段可以携带时间属性。时间属性可以通过音频片段的采集时间、播放时间等表征。

步骤S230，对至少一个音频片段进行初次检测，得到音频片段的初次检测结果。

其中，初次检测可以基于第一音频检测模型实现。第一音频检测模型的初次检测类别可以是语音和非语音等。

具体地，终端在得到至少一个音频片段后，可以按照音频片段携带的时间属性的先后顺序，通过第一音频检测模型对至少一个音频片段进行检测，得到音频片段属于每个初次检测类别的概率。可以将概率大于第一阈值的初次检测类别作为初次检测结果。示例性地，第一阈值为0.8。通过第一音频检测模型得到某个音频片段属于语音的类别为0.9，属于非语音的类别为0.1，则可以认为该音频片段的初次检测结果为语音。若终端获取至少一个音频片段中存在语音片段，那么终端可以继续步骤S240；若终端获取至少一个音频片段的初次检测结果全部为非语音，那么终端可以结束本次检测流程。

步骤S240，对初次检测结果为语音的音频片段进行二次检测，得到音频片段的二次检测结果。

其中，二次检测可以基于第二音频检测模型实现。第二音频检测模型的二次检测类别可以是唤醒词、非唤醒词和非语音等。

具体地，终端获取语音片段。语音片段的数量可以为至少一个。终端通过第二音频检测模型对语音片段进行二次检测，得到语音片段属于每个二次检测类别的概率。可以将概率大于第二阈值的二次检测类别作为二次检测结果。示例性地，第二阈值为0.7。通过第二音频检测模型得到某个语音片段属于唤醒词的概率为0.8，属于非唤醒词的概率为0.1，属于非语音的概率为0.1，则可以认为该语音片段的二次检测结果为唤醒词。若终端获取存在语音片段的二次检测结果为唤醒词，那么终端可以继续步骤S250；若终端获取二次检测结果中不存在唤醒词，那么终端可以结束本次检测流程。

步骤S250，如检测到二次检测结果中存在唤醒词，则根据初次检测结果确定语音起始点和语音结束点。

具体地，终端中可以部署有语音端点检测逻辑。由于音频片段的初次检测结果可以为语音和非语音中的其中一个，因此根据音频片段的初次检测结果可以区分出语音片段和非语音片段。在终端获取二次检测结果中存在唤醒词的结果后，可以通过语音端点检测逻辑从音频片段中得到语音起始点和语音结束点。例如，可以将第一个语音片段的起始点作为语音起始点，将最后一个语音片段的结束点作为语音结束点。

上述音频处理方法中，对唤醒词采用两级检测决定检测结果的机制，在获取待处理音频，对待处理音频进行划分得到至少一个音频片段后，对至少一个音频片段进行初次检测，得到音频片段中的语音片段和非语音片段；接着，对语音片段进行二次检测，得到语音片段是否存在唤醒词的二次检测结果。基于二次检测机制可以有效提高唤醒词检测的准确度，降低误唤醒的概率。在二次检测结果存在唤醒词的情况下，继续根据音频片段的初次检测结果确定语音起始点和语音结束点，可以在没有增加检测系统复杂性的前提下，同时实现语音端点检测功能。

在一个实施例中，如图3所示，步骤S230，对至少一个音频片段进行初次检测，得到音频片段的初次检测结果，包括：

步骤S310，提取音频片段对应的音频特征。

步骤S320，对音频特征进行转换，得到对应的语谱图。

步骤S330，通过第一音频检测模型对语谱图进行检测，得到音频片段的初次检测结果，音频片段的初次检测结果为语音和非语音中的其中一个。

具体地，在对待处理音频进行划分得到至少一个音频片段后，可以使用谱或者倒谱分析等方式得到每个音频片段对应的音频特征，再将音频特征转换为对应的语谱图。所得到的音频特征可以是MFCC(Mel Frequency Cepstral Coefficents，在梅尔标度频率域提取出来的倒谱参数)特征。可以按照音频片段的时间属性的先后顺序，将音频片段的语谱图依次输入至第一音频检测模型。通过第一音频检测模型对每个语谱图进行检测，得到音频片段属于每个初次检测类别的概率。可以将概率大于第一阈值的检测结果作为初次检测结果。

在一个实施例中，如图4所示，步骤S240，对初次检测结果为语音的音频片段进行二次检测，得到初次检测结果为语音的音频片段的二次检测结果，可以通过以下步骤实现：

步骤S410，对音频片段对应的语谱图依次进行初次检测。

步骤S420，若得到当前音频片段为语音片段，则进入步骤S430。继续对当前音频片段的下一个音频片段进行初次检测。

步骤S430，通过第二音频检测模型对当前音频片段对应的语谱图进行检测，若得到当前音频片段的二次检测结果为唤醒词，则进入步骤S440；否则等待下一个语音片段。

步骤S440，输出待处理音频数据存在唤醒词的检测结果。循环上述步骤，直至第一检测模型对所有的音频片段检测完毕，得到至少一个音频片段的初次检测结果，以及至少一个音频片段中语音片段的二次检测结果。

具体地，在本实施例中，第一音频检测模型和第二音频检测模型可以同步运行。在第一音频检测模型依次对每个音频片段对应的语谱图检测的过程中，若获取当前音频片段的为语音片段，那么终端可以将该当前音频片段对应的语谱图输入至第二音频检测模型。与此同时，第一检测模型继续对当前音频片段的下一个音频片段进行检测。通过第二音频检测模型输出当前音频片段的二次检测结果。若当前音频片段的二次检测结果为唤醒词，终端可以获取待处理音频存在唤醒词的检测结果。终端继续获取下一个语音片段进行二次检测。直至对所有的音频片段都检测完毕。

本实施例中，通过对唤醒词采用两级检测决定检测结果的机制，任意一级检测不到相应的信息，都不会触发唤醒信号。而两级唤醒的第一级为检测语音片段，这是出现唤醒词的必备特征，因此通过采用两级检测机制在不增加语音唤醒词确认的耗时的前提下，可以有效提高唤醒词检测的准确度，降低误唤醒的概率；通过同步运行初次检测机制和二级检测机制，有助于加快检测的效率。

在一个实施例中，所述方法还包括：若当前音频片段对应的二次检测结果为唤醒词，且对应的概率大于或等于预设阈值，则确定当前音频片段的二次检测结果为唤醒词；若当前音频片段对应的二次检测结果为唤醒词，但是对应的概率小于预设阈值，则将当前音频片段的二次检测结果变更为非唤醒词。

具体地，在终端中还可以配置二次检测结果的校验策略。具体地，当前音频片段对应的二次检测结果包括每个二次检测类别的概率。当终端获取唤醒词类别对应的概率大于第二阈值时，则判断当前音频片段对应的二次检测结果为唤醒词，并执行二次检测结果的校验策略。终端将该唤醒词类别对应的概率与预设阈值进行比较，若大于等于预设阈值，则确定当前音频片段的二次检测结果为唤醒词。若小于预设阈值，则将当前音频片段的二次检测结果变更为非唤醒词。可以理解的是，预设阈值大于第二阈值。

举例说明，第二阈值可以取0.6～0.99之间的任一数值，以第二阈值为0.7为例；预设阈值为0.9。通过第二音频检测模型得到当前音频片段属于唤醒词的概率为0.8，属于非唤醒词的概率为0.1，属于非语音的概率为0.1，则可以认为该音频片段的二次检测结果为唤醒词。但是，由于属于唤醒词的概率0.8小于预设阈值0.9，因此，终端可以将当前音频片段的二次检测结果变更为非唤醒词。

本实施例中，通过配置二次检测结果的校验策略，对二次检测结果为唤醒词的音频片段进行校验，有助于提高唤醒词的识别精度，从而减少误唤醒的概率。

在一个实施例中，第一音频检测模型和第二音频检测模型的模型结构均采用改进后的移动终端神经网络MobileNet模型；改进的方式包括：减少MobileNet模型中每层网络的输出通道数，和/或，减少每层网络的重复次数。

其中，MobileNet模型主要是为移动终端设备设计的一种轻量化卷积神经网络。MobileNet模型通过采用新的卷积方式，使模型达到参数少、运算速度快等优点。本实施例中，由于第一音频检测模型和第二音频检测模型需要实现二分类或者三分类的功能，且需要分类的语谱图之间差异性较小，因此可以对MobileNet模型的参数进行改进。改进的方式可以为减少MobileNet模型中每层网络的输出通道数、减少每层网络的重复次数等，从而可以使模型占用空间变小，且减少模型的推理耗时。经检测，改进后的MobileNet模型的占用空间可以达到120KB(Kilobyte，千字节)，且通过改进后的MobileNet模型能够实现高准确度的检测。

在一个实施例中，对语音端点的一种检测方式进行说明。如图5所示，步骤S250，若检测到二次检测结果中存在唤醒词，则根据初次检测结果确定语音起始点和语音结束点，包括：

步骤S510，在得到二次检测结果中存在唤醒词的情况下，判断是否存在连续的音频片段的初次检测结果为语音。

步骤S520，若存在连续的音频片段的初次检测结果为语音，则获取连续的音频片段中第一个音频片段的起始点，作为语音起始点。

步骤S530，获取连续的音频片段中最后一个音频片段的结束点，作为语音结束点。

具体地，终端若获取二次检测结果中存在唤醒词，在第一音频检测模型对所有音频片段都检测完毕后，判断是否存在连续的语音片段。连续的语音片段可以是指超过一定数量的音频片段为语音片段。或者，在一定时间段内语音片段的占比超过一定比例，例如，在10秒内语音片段的占比为至少8秒。若存在，终端获取连续的语音片段中第一个语音片段的起始帧，作为语音起始点；获取连续的语音片段中最后一个语音片段的结束帧，作为语音结束点。

进一步地，终端若获取存在连续的语音片段，可以将该连续的语音片段传输至下一级语音识别系统，从而为后续的语音识别功能提供语音音频。

进一步地，还可以将唤醒词之后一定时间长度(比如30秒)内出现的语音片段直接输入至语音识别系统，从而实现了语音对话系统在语音唤醒后的指定时间段内的免唤醒功能。

进一步地，用户的语音指示内容可能出现在唤醒词后，因此，可以只针对二次检测结果为唤醒词之后的音频片段进行判断，从中查找是否存在连续的语音片段。

进一步地，语音端点检测还可以基于二次检测结果实现。在获取二次检测结果为唤醒词的音频片段后，可以判断该音频片段之后是否存在连续的音频片段的检测结果为非唤醒词和唤醒词中的一个。

本实施例中，通过配置语音端点检测逻辑，在二次检测结果中存在唤醒词的情况下，继续根据音频片段的初次检测结果确定语音起始点和语音结束点，可以在没有增加检测系统复杂性的前提下，同时实现语音端点检测功能。

在一个实施例中，待处理音频可以是对原始音频进行预处理后得到的音频。原始音频可以是指未经任何处理的音频。预处理的方式包括以下方式中的至少一种：

(1)对原始音频进行降噪处理，将降噪处理后的原始音频的音量调整至第一范围内。第一范围可以是20dB(分贝)至60dB的音量范围内。

(2)获取参考音频，对原始音频中的参考音频进行回声消除。

具体地，终端的输入音频可以包括通过音频采集设备采集的原始音频以及扬声器设备播放的音频。可以将扬声器设备所产生的回声作为参考音频，对原始音频进行回声消除。回声消除可以采用自适应滤波处理等方式。

(3)对原始音频进行自动增益控制。

具体地，终端对原始音频进行自动增益控制，对原始音频的波形的振幅进行自动调整，使得原始音频的音频振幅在规定范围内。

本实施例中，通过对原始音频进行降噪处理，可以抑制环境噪音的影响；通过采用自动增益控制、自动调节音频音量、回声消除等方式，可以极大地降低环境中的回声的影响，从而能够满足在高噪音环境、唤醒语音音量小等环境中的语音唤醒需求。

在一个实施例中，如图6所示，提供了一种音频处理方法，以该方法应用于终端为例进行说明。终端可以是汽车智能座舱中的智能设备，可以设置有麦克风、扬声器等装置。包括以下步骤：

步骤S602，终端采集用户的原始音频。

步骤S604，终端采集扬声器所产生的回声。将扬声器所产生的回声作为参考音频，对原始音频进行回声消除。

步骤S606，对回声消除后的原始音频进行自动增益控制。

步骤S608，对回声消除和自动增益控制后的原始音频进行降噪处理，并将降噪处理后的原始音频的音量调整至20dB至60dB的音量范围内，得到待处理音频。

其中，回声消除、自动增益控制和降噪处理等预处理方式可以通过DSP(DigitalSignal Process，数字信号处理器)、芯片、FPGA(Field Programmable Gate Array，现场可编程逻辑门阵列)或高性能CPU(Central Processing Unit，中央处理器)等硬件实现。

步骤S610，对待处理音频进行划分得到至少一个音频片段。音频片段的切分时长的长度可以为2秒，切分的步长为500毫秒，从而能够处理2秒左右的音频数据。

步骤S612，提取每个音频片段对应的音频特征，并对音频特征进行转换，得到对应的语谱图。

步骤S614，通过第一音频检测模型依次对每个音频片段对应的语谱图进行初次检测，得到每个音频片段的初次检测结果。音频片段的初次检测结果为语音和非语音中的其中一个。

进一步地，音频片段的初次检测结果可以为唤醒词、非唤醒词和非语音中的其中一个。在这种情况下，可以将初次检测结果为唤醒词的音频片段和初次检测结果为非唤醒词的音频片段都认为是语音片段。

步骤S616，在对每个音频片段对应的语谱图进行初次检测的过程中，若得到当前音频片段为语音片段，则继续步骤S614；同时继续执行步骤S618。

步骤S618，将当前音频片段对应的语谱图输入至第二音频检测模型。

步骤S620，通过第二音频检测模型对当前音频片段对应的语谱图进行二次检测，得到当前音频片段的二次检测结果，二次检测结果为唤醒词、非唤醒词和非语音中的其中一个。

步骤S622，若当前音频片段对应的二次检测结果为唤醒词，且对应的概率大于或等于预设阈值(可以为0.9)，那么输出存在待处理音频中存在唤醒词的检测结果，并继续执行步骤S624。

步骤S624，在第一音频检测模型和第二音频检测模型对相应的所有音频片段都检测完成后，终端判断是否存在连续的语音片段。若存在，则执行步骤S626；否则结束本次流程。

步骤S626，将连续的语音片段中第一个语音片段的起始点作为语音起始点；将连续的语音片段中最后一个语音片段的结束点作为语音结束点。

其中，第一音频检测模型和第二音频检测模型可以运行于CPU或者GPU(GraphicsProcessing Unit，图形处理器)等硬件结构中，两者的模型结构均采用改进后的MobileNet模型。改进的方式包括：减少MobileNet模型中每层网络的输出通道数，和/或，减少每层网络的重复次数。MobileNet模型包括多个版本，可以基于其中的任一个版本进行改进，例如，基于MobileNet第二版进行改进。

进一步地，由于本实施例中将待处理音频分为非语音、非唤醒词及唤醒词等类别，因此，在对模型的训练时，只要使用具备这几个类别的充足的样本，便可对模型进行有效地训练，从而降低了训练难度。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述所述的音频处理方法实施例的描述，本公开还提供音频处理装置。所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思，本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

在一个实施例中，如图7所示，提供了一种音频处理装置700，包括：获取模块710、划分模块720、初次检测模块730、二次检测模块740和端点确定模块750，其中：

获取模块710，用于获取待处理音频；划分模块720，用于对待处理音频进行划分得到至少一个音频片段；初次检测模块730，用于对至少一个音频片段进行初次检测，得到音频片段的初次检测结果；二次检测模块740，用于对初次检测结果为语音的音频片段进行二次检测，得到初次检测结果为语音的音频片段的二次检测结果；端点确定模块750，用于在得到二次检测结果中存在唤醒词的检测结果时，则根据音频片段的初次检测结果确定语音起始点和语音结束点。

在一个实施例中，初次检测模块730，包括：特征提取单元，用于提取音频片段对应的音频特征；转换单元，用于对音频特征进行转换，得到对应的语谱图；初次检测单元，用于通过第一音频检测模型对语谱图进行检测，得到音频片段的初次检测结果，音频片段的初次检测结果为语音和非语音中的其中一个。

在一个实施例中，二次检测模块740，包括：输入单元，用于在对音频片段对应的语谱图进行初次检测的过程中，若得到当前音频片段的初次检测结果为语音，则将当前音频片段对应的语谱图输入至第二音频检测模型；二次检测单元，用于通过第二音频检测模型对当前音频片段对应的语谱图进行检测，得到当前音频片段的二次检测结果，二次检测结果为唤醒词、非唤醒词和非语音中的其中一个。

在一个实施例中，所述装置700还包括：比较模块，用于若当前音频片段对应的二次检测结果为唤醒词，且对应的概率大于或等于预设阈值，则确定当前音频片段的二次检测结果为唤醒词；若当前音频片段对应的二次检测结果为唤醒词，但是对应的概率小于预设阈值，则将当前音频片段的二次检测结果变更为非唤醒词。

在一个实施例中，端点确定模块750，用于在得到二次检测结果中存在唤醒词的情况下，若存在连续的音频片段的初次检测结果为语音，则将连续的音频片段中第一个音频片段的起始点作为语音起始点；将连续的音频片段中最后一个音频片段的结束点作为语音结束点。

在一个实施例中，获取模块710，包括：获取单元，用于获取原始音频；预处理单元，用于对原始音频进行预处理，得到待处理音频；预处理的方式包括以下方式中的至少一种：对原始音频进行降噪处理，将降噪处理后的原始音频的音量调整至第一范围内；获取参考音频，对原始音频中的参考音频进行回声消除；对原始音频进行自动增益控制。

关于音频处理装置的具体限定可以参见上文中对于音频处理方法的限定，在此不再赘述。上述音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理音频；对待处理音频进行划分得到至少一个音频片段；对至少一个音频片段进行初次检测，得到音频片段的初次检测结果；对初次检测结果为语音的音频片段进行二次检测，得到初次检测结果为语音的音频片段的二次检测结果；在得到二次检测结果中存在唤醒词的检测结果时，则根据音频片段的初次检测结果确定语音起始点和语音结束点。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

提取音频片段对应的音频特征；对音频特征进行转换，得到对应的语谱图；通过第一音频检测模型对语谱图进行检测，得到音频片段的初次检测结果，音频片段的初次检测结果为语音和非语音中的其中一个。

在对音频片段对应的语谱图进行初次检测的过程中，若得到当前音频片段的初次检测结果为语音，则将当前音频片段对应的语谱图输入至第二音频检测模型；通过第二音频检测模型对当前音频片段对应的语谱图进行检测，得到当前音频片段的二次检测结果，二次检测结果为唤醒词、非唤醒词和非语音中的其中一个。

若当前音频片段对应的二次检测结果为唤醒词，且对应的概率大于或等于预设阈值，则确定当前音频片段的二次检测结果为唤醒词；若当前音频片段对应的二次检测结果为唤醒词，但是对应的概率小于预设阈值，则将当前音频片段的二次检测结果变更为非唤醒词。

第一音频检测模型和第二音频检测模型的模型结构均采用改进后的移动终端神经网络MobileNet模型；改进的方式包括：减少MobileNet模型中每层网络的输出通道数，和/或，减少每层网络的重复次数。

在得到二次检测结果中存在唤醒词的情况下，若存在连续的音频片段的初次检测结果为语音，则将连续的音频片段中第一个音频片段的起始点作为语音起始点；将连续的音频片段中最后一个音频片段的结束点作为语音结束点。

获取原始音频；对原始音频进行预处理，得到待处理音频；预处理的方式包括以下方式中的至少一种：对原始音频进行降噪处理，将降噪处理后的原始音频的音量调整至第一范围内；获取参考音频，对原始音频中的参考音频进行回声消除；对原始音频进行自动增益控制。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取待处理音频；

对所述待处理音频进行划分得到至少一个音频片段；

通过第一音频检测模型对所述至少一个音频片段进行初次检测，得到音频片段的初次检测结果，所述音频片段的初次检测结果为语音和非语音中的其中一个；

通过第二音频检测模型对所述初次检测结果为语音的音频片段进行二次检测，得到所述音频片段的二次检测结果，所述第二音频检测模型和所述第一音频检测模型同步运行；

在得到所述二次检测结果中存在唤醒词的情况下，若存在连续的音频片段的初次检测结果为语音时，则

2.根据权利要求1所述的方法，其特征在于，所述通过第一音频检测模型对所述至少一个音频片段进行初次检测，得到音频片段的初次检测结果，包括：

提取所述音频片段对应的音频特征；

对所述音频特征进行转换，得到对应的语谱图；

通过所述第一音频检测模型对所述语谱图进行检测，得到所述音频片段的初次检测结果。

3.根据权利要求2所述的方法，其特征在于，所述通过第二音频检测模型对所述初次检测结果为语音的音频片段进行二次检测，得到所述音频片段的二次检测结果，包括：

在对所述音频片段对应的语谱图进行初次检测的过程中，若得到当前音频片段的初次检测结果为语音，则将所述当前音频片段对应的语谱图输入至所述第二音频检测模型；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述第一音频检测模型和所述第二音频检测模型的模型结构均采用改进后的移动终端神经网络MobileNet模型；

改进的方式包括：

6.根据权利要求1所述的方法，其特征在于，所述获取待处理音频，包括：

获取原始音频；

对所述原始音频进行预处理，得到所述待处理音频；

所述预处理的方式包括以下方式中的至少一种：

对所述原始音频进行自动增益控制。

7.一种音频处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理音频；

初次检测模块，用于通过第一音频检测模型对所述至少一个音频片段进行初次检测，得到音频片段的初次检测结果，所述音频片段的初次检测结果为语音和非语音中的其中一个；

二次检测模块，用于通过第二音频检测模型对所述初次检测结果为语音的音频片段进行二次检测，得到所述音频片段的二次检测结果，所述第二音频检测模型和所述第一音频检测模型同步运行；

端点确定模块，用于在得到所述二次检测结果中存在唤醒词的情况下，若存在连续的音频片段的初次检测结果为语音时，则

8.根据权利要求7所述的装置，其特征在于，所述初次检测模块，包括：

特征提取单元，用于提取所述音频片段对应的音频特征；

转换单元，用于对所述音频特征进行转换，得到对应的语谱图；

初次检测单元，用于通过所述第一音频检测模型对所述语谱图进行检测，得到所述音频片段的初次检测结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。