CN107928673B

CN107928673B - 音频信号处理方法、装置、存储介质和计算机设备

Info

Publication number: CN107928673B
Application number: CN201711079901.4A
Authority: CN
Inventors: 王辉
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2022-03-29
Anticipated expiration: 2037-11-06
Also published as: CN107928673A

Abstract

本发明涉及一种音频信号处理方法、装置、存储介质和计算机设备，该方法包括：获取采集环境声音得到的音频信号；所述环境声音包括呼吸声音；对所述音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，将所述音频帧序列划分为多个对应单次呼吸的音频帧子序列；过滤掉音频特征与噪声特征匹配的音频帧子序列；根据过滤得到的音频帧子序列的数量得到呼吸频率。本申请提供的方案提高了音频信号处理效率。

Description

音频信号处理方法、装置、存储介质和计算机设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种音频信号处理方法、装置、存储介质和计算机设备。

背景技术

随着计算机技术与互联网的发展，音频信号作为一种信息载体，其所能承载的信息越来越多。从而基于音频信号的处理，从音频信号中获取有用的信息，变得越来越重要。

传统技术中，从音频信号中获取呼吸相关信息时，需要操作人员通过人工监听反复进行手工调整，以从音频信号中准确地分离出呼吸相关信息。然而传统的这种音频信号处理过程，需要大量的人工操作，耗时长，导致音频信号处理效率低。

发明内容

基于此，有必要针对传统技术中对音频信号处理时效率低的问题，提供一种音频信号处理方法、装置、存储介质和计算机设备。

一种音频信号处理方法，包括：

获取采集环境声音得到的音频信号；所述环境声音包括呼吸声音；

对所述音频信号划分音频帧得到音频帧序列；

根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，将所述音频帧序列划分为多个对应单次呼吸的音频帧子序列；

过滤掉音频特征与噪声特征匹配的音频帧子序列；

根据过滤得到的音频帧子序列的数量得到呼吸频率。

一种音频信号处理装置，包括：

获取模块，用于获取采集环境声音得到的音频信号；所述环境声音包括呼吸声音；

划分模块，用于对所述音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，将所述音频帧序列划分为多个对应单次呼吸的音频帧子序列；

过滤模块，用于过滤掉音频特征与噪声特征匹配的音频帧子序列；

计算模块，用于根据过滤得到的音频帧子序列的数量得到呼吸频率。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

对所述音频信号划分音频帧得到音频帧序列；

过滤掉音频特征与噪声特征匹配的音频帧子序列；

根据过滤得到的音频帧子序列的数量得到呼吸频率。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

对所述音频信号划分音频帧得到音频帧序列；

过滤掉音频特征与噪声特征匹配的音频帧子序列；

根据过滤得到的音频帧子序列的数量得到呼吸频率。

上述音频信号处理方法、装置、存储介质和计算机设备，获取采集到的音频数据后，自动对该音频信号划分音频帧得到音频帧序列，即可根据预设的单次呼吸所对应的频谱分布和音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，得到多个单次呼吸的音频信号，进而自动过滤掉音频特征与噪声特征匹配的音频帧子序列，排除噪声影响，再根据过滤后剩余的音频帧子序列的数量即可计算得到呼吸频率，从而提高了音频信号处理效率。

附图说明

图1为一个实施例中音频信号处理方法的应用环境图；

图2为一个实施例中音频信号处理方法的流程示意图；

图3为一个实施例中将音频信号从时域转化至频域的原理示意图；

图4为一个实施例中音频信号处理方法的逻辑框图；

图5为另一个实施例中音频信号处理的流程示意图；

图6为一个实施例中音频信号处理装置的结构框图；

图7为另一个实施例中音频信号处理装置的结构框图；

图8为另一个实施例中音频信号处理装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中音频信号处理方法的应用环境图。参照图1，该应用环境包括用户110、呼吸监测设备120和服务器130，呼吸监测设备120通过网络与服务器130连接。可以理解的是，包括麦克风阵列的电子设备均可作为呼吸检测设备120。比如携带麦克风阵列的智能机器人或者智能音箱等。其中，麦克风阵列用于远场采集环境声音得到音频信号。服务器130具体可以是独立的服务器，也可以是由多个服务器组成的服务器集群。可以理解的是，在呼吸监测设备120具备音频信号处理功能时，该音频信号处理方法可应用于呼吸监测设备120，也可应用于服务器130。在呼吸监测设备120不具备音频信号处理功能时，该音频信号处理方法应用于服务器130，由呼吸监测设备120将采集到的音频信号上传至服务器130进行处理。

图2为一个实施例中音频信号处理方法的流程示意图。本实施例主要以该方法应用于上述图1中的呼吸监测设备120来举例说明。参照图2，该音频信号处理方法具体包括如下步骤：

S202，获取采集环境声音得到的音频信号，该环境声音包括呼吸声音。

其中，音频信号是计算机设备可处理且可还原出声音的数据。环境声音包括现实环境中的各种声音，比如说话声音或者音乐声音等。呼吸声音是自然人呼吸产生的声音。从音频信号中还原出的声音可以是噪声或者呼吸声音等。可以理解的是，本实施例意图进行的是睡眠呼吸监测，因此这里除呼吸声音以为的声音均可以认为是噪音。

具体地，呼吸监测设备可调用本地的麦克风阵列采集当前所处环境中的声音形成音频信号，从而获取到采集的音频信号。其中，麦克风阵列可用于远场采集音频信号。也就是说，用户在使用呼吸监测设备时，无需穿戴该呼吸监测设备或者近距离接触该呼吸监测设备。呼吸监测设备也可接收其他计算机设备在采集形成音频信号后发送的采集得到的音频信号。

在一个实施例中，呼吸监测设备也可在采集环境声音形成音频信号后，将采集得到的音频信号发送至服务器，服务器从而获取到采集环境声音得到的音频信号，进而继续执行音频信号处理方法的后续步骤。S204，对音频信号划分音频帧得到音频帧序列。

其中，音频信号是连续的时域数字信号，音频帧是组成音频信号的单元。具体地，对音频信号划分音频帧就是把连续的若干个数据点设为一帧，每帧长度为预设的帧长度，如20ms-30ms。呼吸监测设备可根据预设的帧长度对原始语音数据进行分帧得到音频帧序列。预设的帧长度可根据需要自定义，如将320 个采样点作为帧长度。

在本实施例中，呼吸监测设备在实时采集音频信号时，可异步获取采集环境声音得到的音频信号，并对当前采集到的音频信号进行分帧得到音频帧序列。

在一个实施例中，呼吸监测设备对当前采集到的音频信号进行分帧，可以是按照预设的帧长度对当前采集到的音频信号进行连续且不重叠地分帧。比如，假设预设的帧长度为1s，那么分帧得到的第一帧音频帧的采集时间区间为[0,1)s，第二帧音频帧的采集时间区间为[1,2)s，第三音频帧的采集时间区间为[2,3)s，以此类推。此时，划分得到的各音频帧间采集时间连续且不重叠。

在一个实施例中，呼吸监测设备对当前采集到的音频信号进行分帧，可以是按照预设的帧长度和移动步长对当前采集到的音频信号进行分帧。比如，假设预设的帧长度为2s，移动步长为1s。那么分帧得到的第一帧音频帧的采集时间区间为[0,2)s，第二帧音频帧的采集时间区间为[1,3)s，第三音频帧的采集时间区间为[2,4)s，以此类推。此时，划分得到的各音频帧间采集时间存在重叠区间。在本实施例中，以下一帧音频帧覆盖上一帧音频帧的部分内容，避免了两帧间严格分界而导致的分界位置信号丢失的情形，从而在一定程度上提高了后续音频信号处理的准确性。

S206，根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列。

其中，频谱分布是音频信号在频域下的特征分布。频谱分布具体可以是音频信号所对应的频率分布和音频信号在该这些频域分布下的幅值分布。音频信号的频谱分布是将音频信号从时域进行变换到频域得到的。在频域中自变量是频率，即横轴是频率，纵轴是该频率信号的幅值。具体的从时域变换到频域的变换算法可根据需要自定义。

具体地，在将音频帧序列划分为多个对应单次呼吸的音频帧子序列之前，需要通过真实的单次呼吸的音频信号，得到预设的单次呼吸所对应的频谱分布。真实的单次呼吸的音频信号，可以是呼吸监测设备在无噪声或者噪声影响较小的环境中采集的真实呼吸的音频信息从划分出的音频信号。一个或多个呼吸监测设备在采集到真实呼吸的音频信息后，可将采集的音频信号发送至服务器，服务器从而根据将接收到的各音频信号从时域转换到频域，分析各频域音频信号在目标频域中表示单次呼吸所对应的频点组合，从而得到反映单次呼吸的频谱分布。服务器可在将该反映单次呼吸的频谱分布发送至呼吸监测设备，呼吸监测设备从而得到预设的单次呼吸所对应的频谱分布。其中，目标频域是理论上呼吸声所在的频率，具体为0-200Hz(赫兹)。

进一步地，呼吸监测设备可通过快速傅里叶变换(Fast Fourier TransformationFFT)得到音频帧所对应的频域语音帧，从而得到各音频帧所对应的频谱分布。具体地，呼吸监测设备可在每次划分得到一帧音频帧时，即将该音频帧由时域转化为频域，得到相应的频谱分布，进而将得到的频谱分布与预设的单次呼吸所对应的频谱分布进行比较，当连续的多个音频帧所对应的频谱分布一起满足单次呼吸所对应的频谱分布时，将这连续的多个音频帧划分为对应单次呼吸的一个音频帧子序列。

在一个实施例中，在根据真实的单次呼吸的音频信号，得到预设的单次呼吸所对应的频谱分布时，可在真实的单次呼吸的音频信号中混入鼾声信号，或者采集携带真实鼾声的真实呼吸的音频信号，得到真实的单次呼吸的音频信号，这样可以提高在存在鼾声时，划分为对应单次呼吸的音频帧子序列的可靠性。

图3示出了一个实施例中将音频信号从时域转化至频域的原理示意图。参考图3，呼吸监测设备在采集到音频后，即得到时域的音频信号。在时域中自变量是时间，即横轴是时间，纵轴是该不同时间点时音频信号的幅值。呼吸监测设备对时域音频信号进行分帧，得到若干时域音频帧，再通过FFT将时域音频帧转换为频域音频帧，得到每帧时域音频帧对应的频谱。在频域中自变量是频率，即横轴是频率，纵轴是该频率信号的幅值。

S208，过滤掉音频特征与噪声特征匹配的音频帧子序列。

其中，音频特征是音频信号固有的特征。比如音频信号所对应的频率或者音频信号在该频域的幅值等。噪声特征是反映噪声的音频特征。当音频信号的音频特征与噪声特征匹配时，计算机设备可将该音频信号判定为噪声信号。噪声是对呼吸声产生干扰的数据。比如，说话声或者音乐声等。在本实施例中，音频特征具体可以是MFCC(Mel-FrequencyCepstral Coefficients梅尔频率倒谱系数)特征。

具体地，在过滤掉音频特征与噪声特征匹配的音频帧子序列之前，需要通过对反映噪声的音频信号样本提取音频特征，形成反映噪声的噪声特征。呼吸监测设备可通过预设规则，配置纯净呼吸声与噪音混合的反映噪声的音频信号作为音频信号样本，提取音频信号样本的MCFF特征，得到多维特征向量，该多维特征向量反映了音频信号样本的音频特征，从而得到反映噪声的噪声特征。

呼吸监测设备可在每划分出一个音频帧子序列后，提取该音频帧子序列的音频特征，将提取的音频特征与预先提取得到的噪声特征进行比较。当音频帧子序列的音频特征与噪声特征匹配时，判定该音频帧子序列是噪声，过滤掉该音频帧子序列。当音频帧子序列的音频特征与噪声特征不匹配时，则判定该音频帧子序列不是噪声，保留该音频帧子序列。

在一个实施例中，判定音频帧子序列的音频特征与噪声特征匹配是否匹配，具体可以是计算音频帧子序列的音频特征和噪声特征之间的相似度。呼吸监测设备具体看可计算音频帧子序列的音频特征和噪声特征之间的差异，特征之间的差异越大则相似度越低，特征之间的差异越小则相似度越高。相似度可采用余弦相似度或者图像间各自感知哈希值的汉明距离。

S210，根据过滤得到的音频帧子序列的数量得到呼吸频率。

在本实施例中，呼吸频率是单位时间内去除携带噪声的呼吸后的呼吸次数。其中单位按时间可根据需要自定义，如30S或者1min等。也就是，单位时间内纯净呼吸的次数。可以理解的是，纯净呼吸并非是完全不携带噪声的呼吸过程。众所周知，噪声在理论上是无法完全去除的，这里的纯净呼吸是在允许的噪声范围内的呼吸过程。若科技发展至能完全去除噪声时，那么这里的纯净呼吸也可以是完全不携带噪声的呼吸过程。

具体地，呼吸监测设备可定期根据当前周期内过滤得到的音频帧子序列的数量计算呼吸频率。其中，定期是周期性的执行某操作，比如每30min或者1h 执行某操作。这里的周期是根据音频信号的采集时间划分的计算周期，也就是说，并非实际进行音频信号处理的时间，而是音频信号采集的时间。

举例说明，呼吸监测设备从2017年9月12日22:00开始采集音频信号，并异步执行该音频信号处理方法。假设预先设置计算呼吸频率的计算周期为 30min，那么2017年9月12日22:00至2017年9月12日22:30时采集的音频信号中，过滤得到的音频帧子序列的数量除以计算周期(30min)，即为第一个计算周期内的呼吸频率。依次类推即可计算其他计算周期的呼吸频率。

上述音频信号处理方法，获取采集到的音频数据后，自动对该音频信号划分音频帧得到音频帧序列，即可根据预设的单次呼吸所对应的频谱分布和音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，得到多个单次呼吸的音频信号，进而自动过滤掉音频特征与噪声特征匹配的音频帧子序列，排除噪声影响，再根据过滤后剩余的音频帧子序列的数量即可计算得到呼吸频率，从而提高了音频信号处理效率。

在一个实施例中，S206包括：根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧；获得由相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧划分出的、且对应单次呼吸的音频帧子序列。

其中，起始音频帧是用于表示一次呼吸开始的音频帧。结束音频帧是用于表示一次呼吸结束的音频帧。在本实施例中，通过相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧即可划分出一个音频帧子序列，划分出的该音频帧子序列对应一次呼吸过程产生的音频信号。可以理解的是，每次以两个相邻的起始音频帧和结束音频帧为划分节点，可划分得到对应一次呼吸的音频帧子序列。这相邻的起始音频帧和结束音频帧中，起始音频帧在前，结束音频帧在后。

在一个实施例中，根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧，包括：在预设的单次呼吸所对应的频谱分布中，确定表示呼吸开始的频谱分布和表示呼吸结束的频谱分布；当音频帧序列中的音频帧所对应的频谱分布与表示呼吸开始的频谱分布匹配时，则获取当前的音频帧为起始音频帧；当音频帧序列中的音频帧所对应的频谱分布与表示呼吸结束的频谱分布匹配时，则获取当前的音频帧为结束音频帧。

其中，预设的单次呼吸所对应的频谱分布，可以由实际单次呼吸的音频信号划分出的多帧音频帧所对应的频谱分布组成。该多帧音频帧中的某一音频帧 (比如首帧音频帧)的频谱分布即表示呼吸开始的频谱分布，该多帧音频帧中的某一音频帧(比如末帧音频帧)的频谱分布即表示呼吸结束的频谱分布。

具体地，呼吸监测设备可在每次划分得到一帧音频帧时，即将该音频帧由时域转化为频域，得到该音频帧相应的频谱分布，进而将得到的频谱分布与表示呼吸开始的频谱分布进行匹配。当两者相匹配时，则确定当前划分得到的音频帧为起始音频帧，再继续将划分得到的下一帧音频帧由时域转化为频域，得到相应的频谱分布，将得到的频谱分布与表示呼吸结束的频谱分布进行匹配，若匹配失败，则继续将下一帧音频帧的频谱分布与表示呼吸结束的频谱分布进行匹配，直至匹配成功时，将匹配成功的音频帧作为结束音频帧。这样在连续得到一帧起始音频帧和一帧结束音频帧时，则通过该起始音频帧和结束音频帧划分得到一个对应单次呼吸的音频帧子序列。呼吸监测设备可继续执行上述步骤划分得到多个对应单次呼吸的音频帧子序列。

在本实施例中，在预设的单次呼吸所对应的频谱分布中，分别确定表示呼吸开始的频谱分布和表示呼吸结束的频谱分布，提高了筛选出表示呼吸开始的起始音频帧和表示呼吸结束的结束音频帧的准确性。

举例说明，在一个具体的实施例中，呼吸监测设备可在预设的单次呼吸所对应的频谱分布中，确定上限阈值和下限阈值。其中，上限阈值是单次呼吸所对应的频谱中幅值最大的频率点所对应的幅值，下限阈值是单次呼吸所对应的频谱中幅值最小的频率点所对应的幅值。具体地，呼吸监测设备可从划分得到的第一帧音频帧所对应的频谱分布开始，逐帧音频帧查看该音频帧所对应的频谱中目标频率区间的幅值是否有大于设定的上限阈值的幅值，若否，则继续查看下一帧音频帧，若是，则判断该音频帧为起始音频帧，并继续查看下一帧音频帧，直至查看至的当前音频帧所对应的频谱中目标频域区间的幅值全部小于设定的下限阈值时，则判断该音频帧为结束音频帧，从而划分得到对应单次呼吸的音频帧子序列。其中，目标频率区间是呼吸声所对应的频率区间，具体可以是0至200赫兹。

上述实施例中，通过将采集的音频帧所对应的频谱分布，与预设的单次呼吸所对应的频谱分布进行匹配，筛选出表示呼吸开始的起始音频帧和表示呼吸结束的结束音频帧，从而根据起始音频帧和结束音频帧来划分对应单次呼吸的音频帧子序列，提高了划分音频帧子序列的准确性。

在一个实施例中，S208包括：分别提取各音频帧子序列所对应的音频特征；将音频特征输入音频识别模型得到识别结果；当识别结果表示输入的音频特征与噪声特征匹配时，则过滤掉输入的音频特征所对应的音频帧子序列。

其中，音频识别模型是经过训练后具有识别能力的机器学习模型。机器学习英文全称为Machine Learning，简称ML。机器学习模型可通过样本学习具备鉴别能力。机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经网络、反向传播神经网络、反馈神经网络、径向基神经网络或者自组织神经网络等。在本实施例中，音频识别模型用于识别输入的音频特征是噪声特征还是非噪声特征。

在一个实施例中，该音频信号处理方法还包括训练音频识别模型的步骤。该步骤具体包括：获取音频样本集；提取音频样本集中各音频样本所对应的音频特征样本；为音频特征样本中表示噪声的音频特征样本添加表示噪声的标签，并为音频特征样本中表示呼吸的音频特征样本添加表示呼吸的标签；根据音频特征样本和相应添加的标签训练音频识别模型。

其中，音频样本集中包括若干音频信号样本。具体地，机器学习模型是一种将音频特征映射到相应添加的标签的函数关系。根据音频样本集训练机器学习模型，就是利用已知映射到相应添加的标签的音频特征，调整机器学习模型内部的参数，使得机器学习模型能够预测新的音频特征所映射到的标签。

具体地，在训练时，机器学习模型可采用有监督的学习方式，对于任意音频特征样本，其标签都是己知的，机器学习模型找到相同标签的样本间的相似性以及不同标签样本间的区别，从而区分出样本类别。机器学习模型的建立需要进行长而复杂的训练过程，对模型中的权值进行一定的学习，使其能够建立起从输入到输出的映射。

本实施例中，利用机器学习模型强大的学习能力，所训练得到的机器学习模型对音频特征进行识别，较传统方法对音频特征进行识别的效果更好。

呼吸监测设备可针对音频帧子序列中的每一帧音频信号提取音频特征，生成相应的音频特征向量，从而得到音频帧子序列对应的音频特征向量序列。呼吸检测设备可将该音频特征向量序列输入训练好的音频识别模型，从而得到该音频识别模型输出为分类结果，其中分类结果包括输入的音频特征与噪声特征匹配，和输入的音频特征与噪声特征不匹配两种类别。

在一个实施例中，音频识别模型输出为噪声置信度，噪声置信度越高，说明输入的音频特征与噪声特征匹配程度越高。呼吸检测设备可设置噪声置信度阈值，在音频识别模型输出噪声置信度超过噪声置信度阈值时，判定输入的音频特征所对应的音频帧子序列表示噪声需要被过滤掉。

在一个实施例中，训练音频识别模型的可在服务器上进行，服务器可在训练完音频识别模型后，将训练得到的音频识别模型下发至呼吸监测设备，使得呼吸监测设备可在本地通过音频识别模型实现表示噪声的音频帧子序列的过滤。

在一个实施例中，音频识别模型的输入可以直接是音频帧子序列，并输出该音频帧子序列是否为噪声的识别结果。此时训练相应的音频识别模型时，音频识别模型主要由特征提取阶段和分类这两个阶段组成，特征提取阶段主要包括多个卷积层和降采样层，且卷积层具有局部接受域和权值共享的结构特征，降采样层具有降采样和权值共享的结构特征，分类器可以为含有一层隐层的全连接神经网络，待训练的卷积神经网络的结构，如卷积层的特征图的提取算法和特征图个数、降采样层与卷积层的连接方式等都可根据需要自定义。

上述实施例中，通过音频识别模型来识别出表示噪声的音频帧子序列并过滤，音频识别模式是根据长期积累的样本数据训练得到的模型，可方便、高效且准确地完成对表示噪声的音频帧子序列的识别过程。

在一个实施例中，S210包括：确定过滤得到的各音频帧子序列的采集时间；按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间；对应每个采集时间区间，统计采集时间落在当前采集时间区间内的音频帧子序列的数量；根据统计得到的各数量相应确定各采集时间区间内的呼吸频率。

其中，音频帧子序列的采集时间，是采集音频帧子序列的时间。预设的时间窗口长度是划分得到的采集时间区间的时长。时间窗口移动步长是划分采集时间区间时，采集时间区间起始时间点移动的时长。

举例说明，呼吸监测设备从2017年9月12日22:00开始采集音频信号，2017 年9月12日23:00结束采集音频信号，那么该音频信号的采集时间为2017年9 月12日22时0分0秒0毫秒至23时0分0秒0毫秒。呼吸监测设备异步执行该音频信号处理方法，那么从音频信号中22时0分1秒0毫秒至22时0分2 秒30毫秒划分出的音频帧子序列，该音频帧子序列的采集时间即为22时0分1 秒0毫秒至22时0分2秒30毫秒。

假设时间窗口长度为10分钟，时间窗口移动步长1分钟。那么将音频信号的采集时间(2017年9月12日22时0分0秒0毫秒至23时0分0秒0毫秒) 划分得到的第一个采集时间区间，是以起始采集时间为起始时间，时间窗口长度为时长的采集时间区间，即2017年9月12日22时0分0秒0毫秒至23时 10分0秒0毫秒。第二个采集时间区间，则为以起始采集时间移动时间窗口移动步长后的时间为起始时间，时间窗口长度为时长的采集时间区间，即2017年 9月12日22时1分0秒0毫秒至23时11分0秒0毫秒，依次类推。

具体地，呼吸监测设备可按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间，再读取过滤得到的各音频帧子序列的采集时间。对应每个采集时间区间，统计采集时间落在当前采集时间区间内的音频帧子序列的数量，将获取的数量除以采集时间区间的时长，即得到该采集时间区间的呼吸频率，从而得到各采集时间区间内的呼吸频率。比如，一个采集时间区间内的音频帧子序列的数量为400，采集时间区间的时长为10 分钟，那么该采集时间区间的呼吸频率为400/10＝40次每分钟。

在本实施例中，提供了按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间，计算各采集时间区间内的呼吸频率的方式，可以根据各采集时间区间的呼吸频率分析呼吸频率的变化继而进行后续的数据处理与分析。

在一个实施例中，S210包括：自过滤得到首个音频帧子序列起，定期统计过滤得到音频帧子序列的数量；将统计的数量添加至缓存队列的队尾，并在缓存队列中缓存的数量的数目超过预设数目时，将缓存队列队首缓存的数量取出；根据缓存队列中队首缓存的数量和队尾缓存的数量得到呼吸频率。

其中，缓存队列是一个单进单出的队列，用于缓存按采集时间过滤得到音频帧子序列的数量。具体地，呼吸监测设备自过滤得到首个音频帧子序列起，按照预设的采集时间周期定期统计过滤得到音频帧子序列的数量，将统计的数量添加至缓存队列的队尾，直至缓存队列中缓存的数量的数目达到预设数目。在缓存队列中缓存的数量的数目达到预设数目后，再将统计过滤得到音频帧子序列的数量添加至缓存队列的队尾时，将缓存队列队首缓存的数量取出，保持缓存队列中缓存的统计过滤得到音频帧子序列的数量的数目保持不变。

预设的采集时间周期是在以采集时间为时间标准下的时间周期。呼吸监测设备可随时统计以当前采集时间点为结束时间点的采集时间周期内的呼吸频率。具体地，呼吸监测设备可获取当前缓存队列中队首缓存的数量和队尾缓存的数量，计算得到两个数量的差值，然后将该差值除以采集时间周期和缓存队列中缓存数量的数目的乘积即可得到呼吸频率。

举例说明，缓存队列可缓存的音频帧子序列的数量的数目为10，预设的采集时间周期为1分钟。也就是说从采集音频信号开始，按音频信号所对应的采集时间，每隔1分钟，统计截止到当前采集时间点所采集到的音频信号中过滤得到音频帧子序列的数量，将统计的数量缓存到缓存队列的队尾，将队首缓存的数量取出。假设获取当前缓存队列中队首缓存的数量为156，队尾缓存的数量为556，那么以当前采集时间点为结束时间点的采集时间周期内的呼吸频率未 (556-156)/(10*1)＝40次每分钟。

在本实施例中，提供了通过队列计算的呼吸频率的方式，可方便直接地实时计算当前呼吸频率，而且还可根据计算得到的不同时期的呼吸频率分析呼吸频率的变化继而进行后续的数据处理与分析。

可以理解的是，上述实施例中，由呼吸检测设备在采集到音频信号后，对音频信号的后续处理均可由服务器进行。

在一个实施例中，在S202之前，该音频信号处理方法还包括：检测睡眠监测开启指令；响应于睡眠监测开启指令采集音频信号。在S210之后，该音频信号处理方法还包括：检测睡眠监测结果获取指令；根据睡眠监测结果获取指令获取由音频信号得到的呼吸频率。

其中，睡眠监测开启指令是用于调用麦克风阵列采集音频信号的计算机程序。睡眠监测结果获取指令是用于获取睡眠监测结果的计算机程序。呼吸频率以及呼吸频率的变化可反映自然人的睡眠质量。在本实施例中，将上述音频信号处理过程应用于睡眠呼吸检测场景中。

具体地，呼吸监测设备可检测预定义的触发操作，在检测到该触发操作时触发相应的睡眠监测开启指令。触发操作可以是对呼吸监测设备显示界面中控件的操作，比如对控件的触控操作或者光标点击操作等。触发操作也可以是对预定义的物理按钮的点击，或者检测到与预设语音指令匹配的语音数据等。

在一个实施例中，呼吸监测设备上可提供音频信号采集按钮，在检测到对该音频信号采集按钮的触发操作时，即判定检测到睡眠监测开启指令，进而响应于睡眠监测开启指令采集音频信号。

在一个实施例中，呼吸监测设备可采集语音数据，在采集到语音数据后，对该语音数据进行语音识别，当识别得到的文本中包括预设的关键字时，则判定检测到睡眠监测开启指令，进而响应于睡眠监测开启指令采集音频信号。预设关键字比如“我要睡觉了”或者“开始采集”等。

可以理解的是，睡眠监测结果获取指令也可通过上述方式触发，比如呼吸监测设备上也可提供睡眠监测结果获取按钮，或者预设的关键字“查看结果”来触发睡眠监测结果获取指令。

举例说明，在一个具体的实施例中，呼吸监测设备可以是具有语音交互功能的智能音箱。用户可通过语音与具有语音交互功能的智能音箱进行交互。比如用户通过语音点歌、通过语音进行智能音箱功能控制或者通过具有语音交互功能的智能音箱语音控制其他电子设备等。本实施例中，具有语音交互功能的智能音箱可配置有麦克风阵列，从而可在检测到用户触发的睡眠监测开启指令时，通过麦克风阵列进行远场环境声音采集，这样用户在使用具有语音交互功能的智能音箱进行睡眠呼吸检测时，无需携带该具有语音交互功能的智能音箱或者近距离接触该具有语音交互功能的智能音箱。具有语音交互功能的智能音箱可在采集到音频信号后，在本机可进行音频信号处理时，在本机进行音频信号处理，或者将音频信号上传至云端服务器处理。

上述实施例中，将音频处理过程应用于睡眠检测场景中，丰富了睡眠检测的方式，而且提供了睡眠质量的检测准确性。

在一个实施例中，根据睡眠监测结果获取指令获取由采集的音频信号得到的呼吸频率，包括：根据睡眠监测结果获取指令，获取由音频信号的采集时间划分得到的各采集时间区间内的呼吸频率。该音频信号处理方法还包括：获取曲线绘制指令；根据曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。

具体地，呼吸监测设备获取到由音频信号的采集时间划分得到的各采集时间区间内的呼吸频率后，即可在获取到曲线绘制指令后，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。呼吸监测设备根据各采集时间区间内的呼吸频率，以采集时间为自变量，以呼吸频率为因变量，绘制呼吸频率随采集时间升序变化的趋势图，从而以可视形式直观反映睡眠质量。其中绘制得到的趋势图可以是折线图或者柱状图等。比如，假设呼吸监测设备按各采集时间区间内的呼吸频率绘制了呼吸频率随采集时间变化的曲线图，如果曲线的波动和周期性较差，则说明睡眠质量较差。若曲线的平滑且周期性强，则说明睡眠质量较好。

在本实施例中，在检测到曲线绘制指令时，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图，通过该趋势图以可视形式展示呼吸频率随采集时间的变化，可直观反映睡眠质量。

图4示出了一个实施例中音频信号处理方法的逻辑框图。本实施例应用于睡眠呼吸检测场景。在本实施例中，呼吸监测设备具体可为具有语音交互功能的智能音箱，该具有语音交互功能的智能音箱配置有麦克风阵列。具有语音交互功能的智能音箱可通过麦克风阵列远距离(比如5米内)检测用户触发的睡眠监测开启指令。其中，该睡眠监测开启指令具体可以是语音指令。比如用户通过语音“我要睡觉了”触发睡眠监测开启指令。

具有语音交互功能的智能音箱在检测到睡眠监测开启指令后，可通过麦克风阵列开始远场采集环境声音得到音频信号，再将采集到的音频信号上传至服务器(云端)。具有语音交互功能的智能音箱可在将音频信号上传至服务器前，对音频信号进行初步去噪处理。

服务器在接收到音频信号后，对该音频信号划分音频帧得到音频帧序列，再根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列。

服务器可再通过训练完成的音频识别模型，过滤掉音频特征与噪声特征匹配的音频帧子序列，再根据过滤后根据过滤得到的音频帧子序列的数量计算呼吸频率。服务器可将计算得到呼吸频率以及根据计算的呼吸频率得到的睡眠呼吸检测结果实时推送至具有语音交互功能的智能音箱，也在在具有语音交互功能的智能音箱向服务器拉取数据时推送。

具有语音交互功能的智能音箱可继续检测睡眠监测结果获取指令，在检测到睡眠监测结果获取指令时，进行结果输出，也就是输出由音频信号的采集时间划分得到的各采集时间区间内的呼吸频率。在具有语音交互功能的智能音箱配置有显示屏时，具有语音交互功能的智能音箱还可在检测到曲线绘制指令时，根据曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图，在具有语音交互功能的智能音箱未配置有显示屏时，具有语音交互功能的智能音箱还可在检测到曲线绘制指令时，将服务器推送的检测结果推送至配置有显示屏的终端(如智能手机或智能手表等)，使得配置有显示屏的终端根据曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。

如图5所示，在一个具体的实施例中，该音频信号处理方法具体包括以下步骤：

S502，检测睡眠监测开启指令；响应于睡眠监测开启指令采集音频信号。

S504，获取采集环境声音得到的音频信号；对音频信号划分音频帧得到音频帧序列，其中，环境声音包括呼吸声音。

S505，在预设的单次呼吸所对应的频谱分布中，确定表示呼吸开始的频谱分布和表示呼吸结束的频谱分布。

S508，当音频帧序列中的音频帧所对应的频谱分布与表示呼吸开始的频谱分布匹配时，则获取当前的音频帧为起始音频帧；当音频帧序列中的音频帧所对应的频谱分布与表示呼吸结束的频谱分布匹配时，则获取当前的音频帧为结束音频帧。

S510，获得由相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧划分出的、且对应单次呼吸的音频帧子序列。

S512，分别提取各音频帧子序列所对应的音频特征；将音频特征输入音频识别模型得到识别结果。

S514，判断识别结果是否表示输入的音频特征与噪声特征匹配；若是，则跳转至步骤S516；若否则跳转至步骤S518。

S516，过滤掉输入的音频特征所对应的音频帧子序列。

S518，保留输入的音频特征所对应的音频帧子序列。

S520，自保留的首个音频帧子序列起，定期统计保留的音频帧子序列的数量；将统计的数量添加至缓存队列的队尾，并在缓存队列中缓存的数量的数目超过预设数目时，将缓存队列队首缓存的数量取出。

S522，定期根据缓存队列中队首缓存的数量和队尾缓存的数量得到呼吸频率。

S524，检测睡眠监测结果获取指令，根据睡眠监测结果获取指令，获取按采集时间定期计算得到的各呼吸频率。

S526，获取曲线绘制指令，根据曲线绘制指令绘制呼吸频率随采集时间变化的趋势图。

S528，获取音频样本集；提取音频样本集中各音频样本所对应的音频特征样本；为音频特征样本中表示噪声的音频特征样本添加表示噪声的标签，并为音频特征样本中表示呼吸的音频特征样本添加表示呼吸的标签；根据音频特征样本和相应添加的标签训练音频识别模型。

其中，S528为训练音频识别模型的过程，在S512之前执行即可。

在本实施例中，获取采集到的音频数据后，自动对该音频信号划分音频帧得到音频帧序列，即可根据预设的单次呼吸所对应的频谱分布和音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，得到多个单次呼吸的音频信号，进而自动过滤掉音频特征与噪声特征匹配的音频帧子序列，排除噪声影响，再根据过滤后剩余的音频帧子序列的数量即可计算得到呼吸频率，从而提高了音频信号处理效率。

应该理解的是，虽然上述实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交底地执行。

如图6所示，在一个实施例中，提供了一种音频信号处理装置600。参照图 6，该音频信号处理装置600包括：获取模块601、划分模块602、过滤模块603 和计算模块604。

获取模块601，用于获取采集环境声音得到的音频信号；该环境声音包括呼吸声音。

划分模块602，用于对音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列。

过滤模块603，用于过滤掉音频特征与噪声特征匹配的音频帧子序列。

计算模块604，用于根据过滤得到的音频帧子序列的数量得到呼吸频率。

上述音频信号处理装置600，获取采集到的音频数据后，自动对该音频信号划分音频帧得到音频帧序列，即可根据预设的单次呼吸所对应的频谱分布和音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，得到多个单次呼吸的音频信号，进而自动过滤掉音频特征与噪声特征匹配的音频帧子序列，排除噪声影响，再根据过滤后剩余的音频帧子序列的数量即可计算得到呼吸频率，从而提高了音频信号处理效率。

在一个实施例中，划分模块602还用于根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧；获得由相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧划分出的、且对应单次呼吸的音频帧子序列。

在一个实施例中，划分模块602还用于在预设的单次呼吸所对应的频谱分布中，确定表示呼吸开始的频谱分布和表示呼吸结束的频谱分布；当音频帧序列中的音频帧所对应的频谱分布与表示呼吸开始的频谱分布匹配时，则获取当前的音频帧为起始音频帧；当音频帧序列中的音频帧所对应的频谱分布与表示呼吸结束的频谱分布匹配时，则获取当前的音频帧为结束音频帧。

在一个实施例中，过滤模块还用于分别提取各音频帧子序列所对应的音频特征；将音频特征输入音频识别模型得到识别结果；当识别结果表示输入的音频特征与噪声特征匹配时，则过滤掉输入的音频特征所对应的音频帧子序列。

如图7所示，在一个实施例中，音频信号处理装置600还包括：训练模块 605。

训练模块605，用于获取音频样本集；提取音频样本集中各音频样本所对应的音频特征样本；为音频特征样本中表示噪声的音频特征样本添加表示噪声的标签，并为音频特征样本中表示呼吸的音频特征样本添加表示呼吸的标签；根据音频特征样本和相应添加的标签训练音频识别模型。

在一个实施例中，计算模块604还用于确定过滤得到的各音频帧子序列的采集时间；按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间；对应每个采集时间区间，统计采集时间落在当前采集时间区间内的音频帧子序列的数量；根据统计得到的各数量相应确定各采集时间区间内的呼吸频率。

在一个实施例中，计算模块604还用于自过滤得到首个音频帧子序列起，定期统计过滤得到音频帧子序列的数量；将统计的数量添加至缓存队列的队尾，并在缓存队列中缓存的数量的数目超过预设数目时，将缓存队列队首缓存的数量取出；根据缓存队列中队首缓存的数量和队尾缓存的数量得到呼吸频率。

如图8所示，在一个实施例中，音频信号处理装置600还包括：检测模块 606。

检测模块606，用于检测睡眠监测开启指令；响应于睡眠监测开启指令采集音频信号；根据过滤得到的音频帧子序列的数量得到呼吸频率之后，检测睡眠监测结果获取指令；根据睡眠监测结果获取指令获取由音频信号得到的呼吸频率。

在一个实施例中，检测模块606还用于根据睡眠监测结果获取指令，获取由音频信号的采集时间划分得到的各采集时间区间内的呼吸频率；获取曲线绘制指令；根据曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的呼吸监测设备120。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、麦克风阵列和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现音频信号处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行音频信号处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器130。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现音频信号处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行音频信号处理方法。本领域技术人员可以理解，图 10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的音频信号处理装置可以实现为一种计算机程序的形式，计算机程序可在如图9或图10所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该音频信号处理装置的各个程序模块，比如，图6所示的获取模块601、划分模块602、过滤模块603和计算模块604等。各个程序模块组成的计算机程序使得计算机设备执行本说明书中描述的本申请各个实施例的音频信号处理方法中的步骤。

例如，图9或图10所示的计算机设备可以通过如图6所示的音频信号处理装置600中的获取模块601获取采集环境声音得到的音频信号，该环境声音包括呼吸声音；通过划分模块602对音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列。通过过滤模块603 过滤掉音频特征与噪声特征匹配的音频帧子序列。通过计算模块604根据过滤得到的音频帧子序列的数量得到呼吸频率。

在一个实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时，使得处理器执行以下步骤：获取采集环境声音得到的音频信号，该环境声音包括呼吸声音；对音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列；过滤掉音频特征与噪声特征匹配的音频帧子序列；根据过滤得到的音频帧子序列的数量得到呼吸频率。

在一个实施例中，根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，包括：根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧；获得由相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧划分出的、且对应单次呼吸的音频帧子序列。

在一个实施例中，过滤掉音频特征与噪声特征匹配的音频帧子序列，包括：分别提取各音频帧子序列所对应的音频特征；将音频特征输入音频识别模型得到识别结果；当识别结果表示输入的音频特征与噪声特征匹配时，则过滤掉输入的音频特征所对应的音频帧子序列。

在一个实施例中，计算机程序还使得处理器执行以下步骤：获取音频样本集；提取音频样本集中各音频样本所对应的音频特征样本；为音频特征样本中表示噪声的音频特征样本添加表示噪声的标签，并为音频特征样本中表示呼吸的音频特征样本添加表示呼吸的标签；根据音频特征样本和相应添加的标签训练音频识别模型。

在一个实施例中，根据过滤得到的音频帧子序列的数量得到呼吸频率，包括：确定过滤得到的各音频帧子序列的采集时间；按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间；对应每个采集时间区间，统计采集时间落在当前采集时间区间内的音频帧子序列的数量；根据统计得到的各数量相应确定各采集时间区间内的呼吸频率。

在一个实施例中，根据过滤得到的音频帧子序列的数量得到呼吸频率，包括：自过滤得到首个音频帧子序列起，定期统计过滤得到音频帧子序列的数量；将统计的数量添加至缓存队列的队尾，并在缓存队列中缓存的数量的数目超过预设数目时，将缓存队列队首缓存的数量取出；根据缓存队列中队首缓存的数量和队尾缓存的数量得到呼吸频率。

在一个实施例中，计算机程序使得处理器在执行获取采集环境声音得到的音频信号之前，还执行以下步骤：检测睡眠监测开启指令；响应于睡眠监测开启指令采集音频信号。在执行根据过滤得到的音频帧子序列的数量得到呼吸频率之后，执行以下步骤：检测睡眠监测结果获取指令；根据睡眠监测结果获取指令获取由音频信号得到的呼吸频率。

在一个实施例中，根据睡眠监测结果获取指令获取由采集的音频信号得到的呼吸频率，包括：根据睡眠监测结果获取指令，获取由音频信号的采集时间划分得到的各采集时间区间内的呼吸频率。计算机程序还使得处理器执行以下步骤：获取曲线绘制指令；根据曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。

上述存储介质，获取采集到的音频数据后，自动对该音频信号划分音频帧得到音频帧序列，即可根据预设的单次呼吸所对应的频谱分布和音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，得到多个单次呼吸的音频信号，进而自动过滤掉音频特征与噪声特征匹配的音频帧子序列，排除噪声影响，再根据过滤后剩余的音频帧子序列的数量即可计算得到呼吸频率，从而提高了音频信号处理效率。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中储存有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：获取采集环境声音得到的音频信号，该环境声音包括呼吸声音；对音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列；过滤掉音频特征与噪声特征匹配的音频帧子序列；根据过滤得到的音频帧子序列的数量得到呼吸频率。

上述计算机设备，获取采集到的音频数据后，自动对该音频信号划分音频帧得到音频帧序列，即可根据预设的单次呼吸所对应的频谱分布和音频帧序列中各音频帧所对应的频谱分布，将音频帧序列划分为多个对应单次呼吸的音频帧子序列，得到多个单次呼吸的音频信号，进而自动过滤掉音频特征与噪声特征匹配的音频帧子序列，排除噪声影响，再根据过滤后剩余的音频帧子序列的数量即可计算得到呼吸频率，从而提高了音频信号处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的实施例中所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路 (Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种音频信号处理方法，包括：

对所述音频信号划分音频帧得到音频帧序列；

根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，将所述音频帧序列划分为多个对应单次呼吸的音频帧子序列；所述频谱分布是音频信号所对应的频率分布和音频信号在所述频率分布下的幅值分布；

分别提取各所述音频帧子序列的音频特征；

将提取的各音频特征分别与预先提取得到的噪声特征进行比较，过滤掉音频特征与噪声特征匹配的音频帧子序列；所述噪声特征是对反映噪声的音频信号样本进行特征提取所得到的多维特征向量，所述反映噪声的音频信号样本包括通过预设规则对纯净呼吸声与噪音进行混合得到的音频信号；

确定过滤得到的各音频帧子序列的采集时间，并按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间；

对应每个采集时间区间，统计采集时间落在当前采集时间区间内的音频帧子序列的数量，并根据统计得到的各数量相应确定各采集时间区间内的呼吸频率。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，将所述音频帧序列划分为多个对应单次呼吸的音频帧子序列，包括：

根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧；

获得由相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧划分出的、且对应单次呼吸的音频帧子序列。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧，包括：

在预设的单次呼吸所对应的频谱分布中，确定表示呼吸开始的频谱分布和表示呼吸结束的频谱分布；

当所述音频帧序列中的音频帧所对应的频谱分布与表示呼吸开始的频谱分布匹配时，则获取当前的音频帧为起始音频帧；

当所述音频帧序列中的音频帧所对应的频谱分布与表示呼吸结束的频谱分布匹配时，则获取当前的音频帧为结束音频帧。

4.根据权利要求1所述的方法，其特征在于，所述将提取的各音频特征分别与预先提取得到的噪声特征进行比较，过滤掉音频特征与噪声特征匹配的音频帧子序列，包括：

将所述音频特征输入音频识别模型得到识别结果；

当所述识别结果表示输入的所述音频特征与噪声特征匹配时，则

过滤掉输入的所述音频特征所对应的音频帧子序列。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取音频样本集；

提取所述音频样本集中各音频样本所对应的音频特征样本；

为所述音频特征样本中表示噪声的音频特征样本添加表示噪声的标签，并为所述音频特征样本中表示呼吸的音频特征样本添加表示呼吸的标签；

根据所述音频特征样本和相应添加的标签训练音频识别模型。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

自过滤得到首个音频帧子序列起，定期统计过滤得到音频帧子序列的数量；

将统计的数量添加至缓存队列的队尾，并在所述缓存队列中缓存的数量的数目超过预设数目时，将所述缓存队列队首缓存的数量取出；

根据所述缓存队列中队首缓存的数量和队尾缓存的数量得到呼吸频率。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述获取采集环境声音得到的音频信号之前，所述方法还包括：

检测睡眠监测开启指令；

响应于所述睡眠监测开启指令采集音频信号；

所述根据过滤得到的音频帧子序列的数量得到呼吸频率之后，所述方法还包括：

检测睡眠监测结果获取指令；

根据所述睡眠监测结果获取指令获取由所述音频信号得到的呼吸频率。

8.根据权利要求7所述的方法，其特征在于，所述根据所述睡眠监测结果获取指令获取由所述音频信号得到的呼吸频率，包括：

根据所述睡眠监测结果获取指令，获取由所述音频信号的采集时间划分得到的各采集时间区间内的呼吸频率；

所述方法还包括：

获取曲线绘制指令；

根据所述曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。

9.一种音频信号处理装置，包括：

划分模块，用于对所述音频信号划分音频帧得到音频帧序列；根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，将所述音频帧序列划分为多个对应单次呼吸的音频帧子序列；所述频谱分布是音频信号所对应的频率分布和音频信号在所述频率分布下的幅值分布；

过滤模块，用于分别提取各所述音频帧子序列的音频特征；将提取的各音频特征分别与预先提取得到的噪声特征进行比较，过滤掉音频特征与噪声特征匹配的音频帧子序列；所述噪声特征是对反映噪声的音频信号样本进行特征提取所得到的多维特征向量，所述反映噪声的音频信号样本包括通过预设规则对纯净呼吸声与噪音进行混合得到的音频信号；

计算模块，用于确定过滤得到的各音频帧子序列的采集时间，并按照预设的时间窗口长度和时间窗口移动步长，将音频信号的采集时间划分为多个采集时间区间；对应每个采集时间区间，统计采集时间落在当前采集时间区间内的音频帧子序列的数量，并根据统计得到的各数量相应确定各采集时间区间内的呼吸频率。

10.根据权利要求9所述的装置，其特征在于，所述划分模块还用于根据预设的单次呼吸所对应的频谱分布，及所述音频帧序列中各音频帧所对应的频谱分布，确定起始音频帧和结束音频帧；获得由相邻且时序靠前的起始音频帧和相邻且时序靠后的结束音频帧划分出的、且对应单次呼吸的音频帧子序列。

11.根据权利要求10所述的装置，其特征在于，所述划分模块还用于在预设的单次呼吸所对应的频谱分布中，确定表示呼吸开始的频谱分布和表示呼吸结束的频谱分布；当所述音频帧序列中的音频帧所对应的频谱分布与表示呼吸开始的频谱分布匹配时，则获取当前的音频帧为起始音频帧；当所述音频帧序列中的音频帧所对应的频谱分布与表示呼吸结束的频谱分布匹配时，则获取当前的音频帧为结束音频帧。

12.根据权利要求9所述的装置，其特征在于，所述过滤模块还用于将所述音频特征输入音频识别模型得到识别结果；当所述识别结果表示输入的所述音频特征与噪声特征匹配时，则过滤掉输入的所述音频特征所对应的音频帧子序列。

13.根据权利要求12所述的装置，其特征在于，所述音频信号处理装置还包括训练模块，用于获取音频样本集；提取所述音频样本集中各音频样本所对应的音频特征样本；为所述音频特征样本中表示噪声的音频特征样本添加表示噪声的标签，并为所述音频特征样本中表示呼吸的音频特征样本添加表示呼吸的标签；根据所述音频特征样本和相应添加的标签训练音频识别模型。

14.根据权利要求9所述的装置，其特征在于，所述计算模块还用于自过滤得到首个音频帧子序列起，定期统计过滤得到音频帧子序列的数量；将统计的数量添加至缓存队列的队尾，并在所述缓存队列中缓存的数量的数目超过预设数目时，将所述缓存队列队首缓存的数量取出；根据所述缓存队列中队首缓存的数量和队尾缓存的数量得到呼吸频率。

15.根据权利要求9至14中任一项所述的装置，其特征在于，所述装置还包括：

检测模块，用于检测睡眠监测开启指令；响应于所述睡眠监测开启指令采集音频信号；在根据过滤得到的音频帧子序列的数量得到呼吸频率之后，检测睡眠监测结果获取指令；根据所述睡眠监测结果获取指令获取由所述音频信号得到的呼吸频率。

16.根据权利要求15所述的装置，其特征在于，所述检测模块还用于根据所述睡眠监测结果获取指令，获取由所述音频信号的采集时间划分得到的各采集时间区间内的呼吸频率；获取曲线绘制指令；根据所述曲线绘制指令，按各采集时间区间内的呼吸频率绘制呼吸频率随采集时间变化的趋势图。

17.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述的方法的步骤。

18.一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述的方法的步骤。