CN114283840B

CN114283840B - 一种指令音频生成方法、系统、装置与存储介质

Info

Publication number: CN114283840B
Application number: CN202111582203.2A
Authority: CN
Inventors: 王伟
Original assignee: iMusic Culture and Technology Co Ltd
Current assignee: iMusic Culture and Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-04-18
Anticipated expiration: 2041-12-22
Also published as: CN114283840A

Abstract

本申请公开了一种指令音频生成方法、系统、装置和存储介质，其中方法包括以下步骤：获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；其中，所述第一音频至少包括指令音频，空白音频和噪声音频；根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频。本方法可以减少需要识别处理的信息量，降低系统识别处理的计算量和时耗，有效提高系统的识别性能。本申请可广泛应用于音频剪切技术领域内。

Description

一种指令音频生成方法、系统、装置与存储介质

技术领域

本申请涉及音频剪辑技术领域，尤其是一种指令音频生成方法、系统、装置和存储介质。

背景技术

在人们进行交互而发生的语音指令中，识别语音指令的时长会长于语音指令的实际时长，在采集的音频首尾部位以及音节之间均会产生一定时间的空白段，且指令员会在突发情况下对语音指令进行停顿，而突发状况容易产生声音，导致背景噪音可能突然增加，并掺杂在语音指令停顿的空白段时间内，产生与指令内容无关的音频信号，需对整体的指令音频内的信息量进行识别，不仅增加了需要识别处理的信息量，还影响整体的识别性能，对主要内容的识别造成干扰，需要对音频信号中的空白段进行处理，因此亟需一种对音频噪声和空白段进行处理的指令音频生成方法。

发明内容

本申请的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本申请实施例的一个目的在于提供一种指令音频生成方法、系统、装置与存储介质，该方法可以根据帧音频能量在音频信号中确定空白音频的位置，通过帧信噪比可以在信号中确定噪声音频的位置，通过对空白音频和噪声音频的剪切，生成对应的有效信号，可以有效对音频信号的空白段和噪声音频进行识别，减少了需要识别处理的信息量，降低系统识别处理的计算量和时耗，有效提高系统的识别性能。

为了达到上述技术目的，本申请实施例所采取的技术方案包括：获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；其中，所述第一音频至少包括指令音频，空白音频和噪声音频；根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到有效信号。

另外，根据本发明中上述实施例的一种指令音频有效信号生成的方法，还可以有以下附加的技术特征：

进一步地，本申请实施例中，所述根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧这一步骤，具体包括：预设低频能量开始门限，低频能量结束门限、高频能量开始门限和高频能量结束门限；根据所述帧音频能量、所述低频能量开始门限和高频能量开始门限，在所述第一音频中确定所述空白音频的第一起点帧；根据所述帧音频能量、所述低频能量结束门限和高频能量结束门限，所述第一音频中确定空白音频的第一终点帧。

进一步地，本申请实施例中，所述根据所述信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧这一步骤，具体包括预设信噪比阈值；历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，在所述第二音频中确定噪声音频的第二起点帧和第二终点帧。

进一步地，本申请实施例中，所述根据所述帧音频能量、所述低频能量开始门限和高频能量开始门限，在所述第一音频中确定所述空白音频的第一起点帧这一步骤，具体包括：比对所述帧音频能量和所述低频能量开始门限，得到低频能量开启帧；比对所述帧音频能量和所述高频能量开始门限，得到高频能量开启帧；若所述高频能量开启帧在所述低频能量开启帧回溯的最短音频信号间隔时间内，则以所述高频能量开启帧为第一起点帧；反之，则以所述低频能量开启帧为第一起点帧。

进一步地，本申请实施例中，所述根据所述帧音频能量、所述低频能量结束门限和高频能量结束门限，所述第一音频中确定空白音频的第一终点帧这一步骤，具体包括：比对所述帧音频能量和所述低频能量结束门限，得到低频能量结束帧；比对所述帧音频能量和所述高频能量结束门限，得到高频能量结束帧；若所述高频能量结束帧在所述低频能量结束帧之后，则以所述高频能量结束帧为第一终点帧；反之，则以所述低频能量结束帧为第一终点帧。

进一步地，本申请实施例中，所述历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，在所述第二音频中确定噪声音频的第二起点帧和第二终点帧这一步骤，具体包括：历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，确定所述第二音频中所有大于所述信噪比阈值的噪声帧；在所述噪声帧中，确定时间最早的帧为第二起点帧，确定时间最晚的帧为第二终点帧。

进一步地，本申请实施例中，所述计算所述第一音频中每一帧的帧音频能量和帧信噪比这一步骤，具体包括：计算所述第一音频中不同音频信号的信号强度；以每一帧中信号强度最大的音频信号作为有效信号，计算每一帧的信噪比；基于matlab程序对所述第一音频中每一帧的帧音频能量进行计算。

另一方面，本申请实施例还提供一种指令音频有效信号生成系统，包括：

获取单元，用于获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；第一处理单元，用于根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；第一剪切单元，用于对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；第二处理单元，用于根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；第二剪切单元，用于对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频。

另一方面，本申请还提供一种指令音频有效信号生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如发明内容中任一项所述一种指令音频生成方法。

此外，本申请还提供一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上述任一项所述一种指令音频生成方法。

本申请的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到：

本申请可以根据帧音频能量在音频信号中确定空白音频的位置，通过帧信噪比可以在信号中确定噪声音频的位置，通过对空白音频和噪声音频的剪切，生成对应的有效信号，可以有效对音频信号的空白段和噪声音频进行识别，减少了需要识别处理的信息量，降低系统识别处理的计算量和时耗，有效提高系统的识别性能。

附图说明

图1为本发明中一种具体实施例中一种指令音频生成方法的步骤示意图；

图2为本发明中一种具体实施例中根据帧音频能量，确定空白音频的第一起点帧和第一终点帧的步骤示意图；

图3为本发明中一种具体实施例中根据信噪比和帧音频能量，在第二音频中确定噪声音频的第二起点帧和第二终点帧的步骤示意图；

图4为本发明中一种具体实施例中一种指令音频有效信号生成系统的结构示意图；

图5为本发明中一种具体实施例中一种指令音频有效信号生成装置的结构示意图。

具体实施方式

下面结合附图详细描述本发明的实施例对本发明实施例中的指令音频生成方法、系统、装置和存储介质的原理和过程作以下说明。

参照图1，本发明一种指令音频生成方法，可以包括以下步骤：

S1、获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；其中，所述第一音频至少包括指令音频，空白音频和噪声音频；

在本申请实施例中，第一音频至少可以包括指令音频，空白音频和噪声音频，其中空白音频可以在第一音频的首端或者尾端，也可以在多段有效音频的间隔出，噪声音频可以是突发的噪声，也可以是持续的噪声，在通过录音设备或缺第一音频后，可以计算出第一音频的每一帧的帧音频能量和帧信噪比。

S2、根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；

在本申请实施例中，帧音频能量为帧的短时能量，设定多个门限阈值，通过双门限法可以在第一音频中确定所述空白音频的第一起点帧和第一终点帧，其中第一起点帧为空白音频的起点，第一终点帧为空白音频的终点帧。

S3、对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；

在本申请实施例中，确定空白音频的起点帧和空白音频的终点帧后，可以对所述第一起点帧和所述第一终点帧之间的空白音频进行剪切，另外当第一音频中含有多个空白音频时，可通过多次剪切得到第二音频，第二音频为噪声音频和指令音频的结合的一段音频。

S4、根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；

在本申请实施例中，可以通过日常的音频测试，确定一个常用的信噪比的阈值，通过帧信噪比和信噪比阈值进行比对，根据比对的结果，在第二音频中确定第二起点帧和第二终点帧，具体地，第二起点帧为噪声音频的起点帧，第二终点帧为噪声音频的终点帧。

S5、对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频；

在本申请实施例中，确定了噪声音频的起点帧和终点帧后，可以通过处理器对第二音频中第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频；此外当第二音频中含有多个噪声视频，可以重复对噪声音频进行起点帧和终点帧的确定过程，并对多个视频进行逐一的剪切。

进一步地，所述计算所述第一音频中每一帧的帧音频能量和帧信噪比这一步骤，具体可以包括：

S11、计算所述第一音频中不同音频信号的信号强度；

在本申请实施例中，在第一音频录入的过程中，指令音频中有可能夹杂着噪声音频，但是由于噪声音频的强度较低，噪声音频不会对指令音频造成影响，而噪声音频中也可能夹杂着指令音频，但是指令音频的强度较低，因此不能将噪声音频中夹杂的指令音频作为录入有效的音频。计算第一音频中不同音频信号的信号强度后，可以将信号强度用于信噪比的计算。

S12、以每一帧中信号强度最大的音频信号作为有效信号，计算每一帧的信噪比；

在本申请实施例中，计算信噪比时需要的信号为有效信号，而由于每一帧中包含的音频信号可能含有多种，因此为了提高计算的便捷性，可以用每一帧音频中强度最大的音频作为有效信号，如指令音频中，指令音频的信号强度大于噪声音频的信号强度。

S13、基于matlab程序对所述第一音频中每一帧的帧音频能量进行计算。

在本申请实施例中，可以通过matlab软件编程对所述第一音频帧能量的计算，matlab是美国MathWorks公司出品的商业数学软件，用于数据分析、无线通信、深度学习、图像处理与计算机视觉、信号处理、量化金融与风险管理、机器人，控制系统等领域。而在本申请中，可以通过matlab实现信号处理功能，通过matlab软件，再构建适当的计算程序，可以计算出第一指令音频中的帧音频能量。

进一步地，参照图2，所述根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧这一步骤，具体可以包括：

S21、预设低频能量开始门限，低频能量结束门限、高频能量开始门限和高频能量结束门限；在本申请实施例中，低频能量开始门限可以反映低频能量有效音频的开始门限；低频能量结束门限可以反映低频能量有效音频的结束门限；高频能量开始门限可以反映高频能量有效音频的开始门限；高频能量结束门限可以反映高频能量有效音频的结束门限。具体地，其设定方法可参照公式T=K*E，其中T为能量门限；K为门限参数；K可以根据不同的门限有不同的值，如设定低频能量开始门限时可以设定K为0.05，设定低频能量结束门限时可以设定K为-0.04，设定高频能量开始门限时可以设定K为0.03，设定高频能量结束门限时可以设定K为-0.02；而E为音频信号的每一帧的平均短时能量，可以通过matlab对有效音频的能量进行计算得到。

S22、根据所述帧音频能量、所述低频能量开始门限和高频能量开始门限，在所述第一音频中确定所述空白音频的第一起点帧；

在本申请实施例中，空白音频的音频能量不会再高于低频的低频能量开始门限和高频能量开始门限，因此通过对每一帧的帧音频能量与低频能量开始门限和高频能量开始门限的比对，可以在第一音频中得到空白音频的起点。

S23、根据所述帧音频能量、所述低频能量结束门限和高频能量结束门限，所述第一音频中确定空白音频的第一终点帧；

在本申请实施例中，空白音频的音频能量不会低于低频能量结束门限和高频能量结束门限，因此通过对帧音频能量与低频能量结束门限和高频能量结束门限的比对，可以在第一音频中得到空白音频的终点帧。

进一步地，参照图3，所述根据所述信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧这一步骤，具体包括：

S31、预设信噪比阈值；

在本申请实施例中，正常语音输入时，指令音频中信号有效功率与噪音信号功率明显，信噪比大，而噪音音频中，信号有效功率较小甚至为0，而突发噪音产生的各个帧的音频信号，其与正常语音输入过程中的音频信号的信噪比具有明显变化，根据信噪比的变化设定信噪比的阈值，使正常语音输入第一音频的过程中有效音频的信噪比大于设定的阈值，而噪音信号的信噪比小于设定的阈值。

S32、历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，在所述第二音频中确定噪声音频的第二起点帧和第二终点帧。

在本申请实施例中，对第二音频的每一帧的帧信噪比与设定的信噪比阈值进行比较，当检测到某一帧的帧信噪比小于信噪比阈值，则确定该帧为噪声音频的第二起点帧，继续对第二起点帧的之后的音频每一帧的信噪比与信噪比阈值进行比较，若检测到某一帧的帧信噪比大于信噪比阈值，则停止比对，以帧信噪比大于信噪比阈值的某一帧之前的一帧作为第二终点帧。

进一步地，所述根据所述帧音频能量、所述低频能量开始门限和高频能量开始门限，在所述第一音频中确定所述空白音频的第一起点帧这一步骤，具体可以包括：

S221、比对所述帧音频能量和所述低频能量开始门限，得到低频能量开启帧；

在本申请实施例中，可以按照时间顺序对第一音频中每一帧音频能量和低频能量开始门限进行对比，当检测到帧音频能量低于低频能量开始门限时，确定该帧为低频能量开启帧。

S222、比对所述帧音频能量和所述高频能量开始门限，得到高频能量开启帧；

在本申请实施例中，可以按照时间顺序对第一音频中每一帧音频能量和高频能量开始门限进行对比，当检测到帧音频能量高于高频能量开始门限时，确定该帧为高频能量开启帧。

S223、若所述高频能量开启帧在所述低频能量开启帧回溯的最短音频信号间隔时间内，则以所述高频能量开启帧为第一起点帧；反之，则以所述低频能量开启帧为第一起点帧；

在本申请实施例中，如果所述高频能量开启帧在所述低频能量开启帧回溯的最短音频信号间隔时间内，则以所述高频能量开启帧为第一起点帧，若所述高频能量开启帧在所述低频能量开启帧回溯的最短音频信号间隔时间以外，则以所述低频能量开启帧为第一起点帧，其中最短音频信号间隔时间为0.25s。

进一步地，与在第一音频中确定空白音频的第一终点帧类似，所述根据所述帧音频能量、所述低频能量结束门限和高频能量结束门限，所述第一音频中确定空白音频的第一终点帧这一步骤，具体可以包括：

S231、比对所述帧音频能量和所述低频能量结束门限，得到低频能量结束帧；

在本申请实施例中，在本申请实施例中，可以按照时间顺序对第一音频中每一帧音频能量和低频能量结束门限进行对比，当检测到帧音频能量高于低频能量结束门限时且介于-0.02*E至0之间时，确定该帧为低频能量结束帧。

S232、比对所述帧音频能量和所述高频能量结束门限，得到高频能量结束帧；

在本申请实施例中，在本申请实施例中，可以按照时间顺序对第一音频中每一帧音频能量和高频能量结束门限进行对比，当检测到帧音频能量高于高频能量结束门限时且介于-0.04*E至0之间时，确定该帧为高频能量结束帧。

S233、若所述高频能量结束帧在所述低频能量结束帧之后，则以所述高频能量结束帧为第一终点帧；反之，则以所述低频能量结束帧为第一终点帧。

在本申请实施例中，如果所述高频能量结束帧在所述低频能量结束帧时间之后的最短音频信号间隔时间内，则以所述高频能量结束帧为第一终点帧，若所述高频能量结束帧在所述低频能量结束帧之前，则以所述低频能量开启帧为第一终点帧。

进一步地，所述历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，在所述第二音频中确定噪声音频的第二起点帧和第二终点帧这一步骤，具体可以包括：

S321、历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，确定所述第二音频中噪声音频的第二起点帧；

在本申请实施例中，历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，当检测到所述帧信噪比小于所述信噪比阈值的帧，则以该帧为第二起点帧；

S322、以所述第二起点帧为起点，对所述第二音频的每一帧进行信噪比继续进行比对，确定第二终点帧；

在本申请实施例中，确定了第二起点帧后，以第二起点帧为起点，继续对所述第二音频的每一帧进行信噪比进行比对，当检测到所述第二音频的中某一帧的信噪比大于设定的信噪比阈值，则停止历遍比对，并确定信噪比大于设定的信噪比阈值的那一帧的前一帧为第二终点帧。

另外，在本申请的一些实施例中，可以采用多组不同的音频信号进行重复试验，若未能将突发噪音去除，即对信噪比阈值进行调整，直至去除突发噪音的准确率较高，通过多组试验，精确中间值，增加分类的准确性。

此外、参照图4，与图1的方法相对应，本申请的实施例中还提供一种指令音频有效信号生成系统，包括：获取单元，用于获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；第一处理单元，用于根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；第一剪切单元，用于对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；第二处理单元，用于根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；第二剪切单元，用于对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频。

与图1的方法相对应，本申请实施例还提供了一种指令音频有效信号生成装置，其具体结构可参照图5。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的指令音频生成方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

与图1的方法相对应，本申请实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的指令音频生成方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本申请的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本申请，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本申请的范围，本申请的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干程序用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行程序的定序列表，可以具体实现在任何计算机可读介质中，以供程序执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统）使用，或结合这些程序执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于所述实施例，熟悉本领域的技术人员在不违背本申请精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种指令音频生成方法，其特征在于，包括以下步骤：

获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；其中，所述第一音频至少包括指令音频，空白音频和噪声音频；

根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；

对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；

根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；

对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频；其中所述根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧这一步骤，具体包括：

预设低频能量开始门限，低频能量结束门限、高频能量开始门限和高频能量结束门限；

根据所述帧音频能量、所述低频能量开始门限和高频能量开始门限，在所述第一音频中确定所述空白音频的第一起点帧；

根据所述帧音频能量、所述低频能量结束门限和高频能量结束门限，在所述第一音频中确定空白音频的第一终点帧；所述根据所述帧音频能量、所述低频能量开始门限和高频能量开始门限，在所述第一音频中确定所述空白音频的第一起点帧这一步骤，具体包括：

比对所述帧音频能量和所述低频能量开始门限，得到低频能量开启帧；

比对所述帧音频能量和所述高频能量开始门限，得到高频能量开启帧；

若所述高频能量开启帧在所述低频能量开启帧回溯的最短音频信号间隔时间内，则以所述高频能量开启帧为第一起点帧；反之，则以所述低频能量开启帧为第一起点帧。

2.根据权利要求1所述一种指令音频生成方法，其特征在于，所述根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧这一步骤，具体包括：

预设信噪比阈值；

历遍比对所述第二音频中每一帧的帧信噪比和所述信噪比阈值，在所述第二音频中确定噪声音频的第二起点帧和第二终点帧。

3.根据权利要求1所述一种指令音频生成方法，其特征在于，所述根据所述帧音频能量、所述低频能量结束门限和高频能量结束门限，在所述第一音频中确定空白音频的第一终点帧这一步骤，具体包括：

比对所述帧音频能量和所述低频能量结束门限，得到低频能量结束帧；

比对所述帧音频能量和所述高频能量结束门限，得到高频能量结束帧；

若所述高频能量结束帧在所述低频能量结束帧之后，则以所述高频能量结束帧为第一终点帧；反之，则以所述低频能量结束帧为第一终点帧。

4.根据权利要求2所述一种指令音频生成方法，其特征在于，所述历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，在所述第二音频中确定噪声音频的第二起点帧和第二终点帧这一步骤，具体包括：

历遍比对所述第二音频中每一帧的所述帧信噪比和所述信噪比阈值，确定所述第二音频中噪声音频的第二起点帧；

以所述第二起点帧为起点，对所述第二音频的每一帧进行信噪比继续进行比对，确定第二终点帧。

5.根据权利要求1所述一种指令音频生成方法，其特征在于，所述计算所述第一音频中每一帧的帧音频能量和帧信噪比这一步骤，具体包括：

计算所述第一音频中不同音频信号的信号强度；

以每一帧中信号强度最大的音频信号作为有效信号，计算每一帧的信噪比；

基于matlab程序对所述第一音频中每一帧的帧音频能量进行计算。

6.一种指令音频生成系统，其特征在于，包括：

获取单元，用于获取第一音频并计算所述第一音频中每一帧的帧音频能量和帧信噪比；其中，所述第一音频至少包括指令音频，空白音频和噪声音频；

第一处理单元，用于根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧；

第一剪切单元，用于对所述第一起点帧和所述第一终点帧之间的音频进行剪切，得到第二音频；

第二处理单元，用于根据所述帧信噪比，在所述第二音频中确定所述噪声音频的第二起点帧和第二终点帧；

第二剪切单元，用于对所述第二起点帧和所述第二终点帧之间的音频进行剪切，得到指令音频；其中所述根据所述帧音频能量，确定所述空白音频的第一起点帧和第一终点帧这一步骤，具体包括：

7.一种指令音频生成装置，其特征在于包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-5任一项所述一种指令音频生成方法。

8.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-5任一项所述一种指令音频生成方法。