发明内容
为克服相关技术中,在对音频采集设备进行就近唤醒时,由于音频采集设备的硬件性能差异导致所确定出的音频采集设备不准确的问题,本公开提供一种音频处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种音频处理方法,包括:
获取多个音频采集设备从同一声源采集得到的音频信号;
确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标;
基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力。
可选的,所述就近唤醒判断指标包括灵敏度级;所述确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标,包括:
基于多个所述音频采集设备所采集到的所述音频信号的输出电压和多个所述音频采集设备的设定声压之间的比值,得到多个所述音频采集设备分别采集所述音频信号时的灵敏度级;
所述基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力,包括:
基于所述灵敏度级,确定多个所述音频采集设备的距离分辨能力,其中,所述灵敏度级的变化值与所述距离分辨能力负相关。
可选的,所述方法还包括:
基于多个所述音频采集设备所采集到的所述音频信号的频率,确定多个所述音频采集设备的所述频率响应参数。
可选的,所述就近唤醒判断指标包括频响一致性参数;所述确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标,包括:
基于多个所述音频采集设备的频率响应参数分别与设定频率响应参数,确定多个所述音频采集设备分别采集所述音频信号时的频响一致性参数;其中,所述频响一致性参数为对应所述音频采集设备的频率响应参数与所述设定频率响应参数之间的差值;
所述基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力,包括:
基于所述频响一致性参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述频响一致性参数与所述距离分辨能力负相关。
可选的,所述就近唤醒判断指标包括噪声级;所述确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标,包括:
获取多个所述音频采集设备所采集到的噪声信号的电压总能量;
基于多个所述电压总能量,得到多个所述音频采集设备分别采集所述音频信号时的噪声级;
所述基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力,包括:
基于所述噪声级,确定多个所述音频采集设备的所述距离分辨能力;其中,所述噪声级与所述距离分辨能力负相关。
可选的,所述就近唤醒判断指标包括信噪比;所述确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标,包括:
基于多个所述音频采集设备采集的音频信号和多个所述音频采集设备采集的噪声信号之间的比值,得到多个所述音频采集设备分别采集所述音频信号时的信噪比;
所述基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力,包括:
基于所述信噪比,确定多个所述音频采集设备的所述距离分辨能力;其中,所述信噪比与所述距离分辨能力正相关。
可选的,所述就近唤醒判断指标包括谐波失真参数;所述确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标,包括:
确定多个所述音频采集设备所采集的音频信号的输出电压中所包含的谐波分量的电压有效值和包含的基频总电压的有效值;基于所述谐波分量的电压有效值和所述基频总电压的有效值,得到多个所述音频采集设备分别采集所述音频信号时的谐波失真参数;
所述基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力,包括:
基于所述谐波失真参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述谐波失真参数与所述距离分辨能力负相关。
可选的,所述就近唤醒判断指标包括相位一致性参数;所述确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标,包括:
基于多个所述音频采集设备采集到所述音频信号采集时刻,确定每两个音频采集设备采集到的音频信号之间的时延差;
基于所述时延差以及多个所述音频采集设备采集所述音频信号的频率,得到多个所述音频采集设备分别采集所述音频信号时的相位一致性参数;
所述基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力,包括:
基于所述相位一致性参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述相位一致性参数与所述距离分辨能力负相关。
根据本公开实施例的第二方面,提供一种音频处理装置,包括:
第一获取模块,配置为获取多个音频采集设备从同一声源采集得到的音频信号;
第一确定模块,配置为确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标;
第二确定模块,配置为基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力。
可选的,所述就近唤醒判断指标包括灵敏度级;所述第一确定模块,包括:
第一参数确定子模块,配置为基于多个所述音频采集设备所采集到的所述音频信号的输出电压和多个所述音频采集设备的设定声压之间的比值,得到多个所述音频采集设备分别采集所述音频信号时的灵敏度级;
所述第二确定模块,包括:
第一距离确定子模块,配置为基于所述灵敏度级,确定多个所述音频采集设备的距离分辨能力,其中,所述灵敏度级的变化值与所述距离分辨能力负相关。
可选的,所述装置还包括:
第二确定模块,配置为基于多个所述音频采集设备所采集到的所述音频信号的频率,确定多个所述音频采集设备的所述频率响应参数。
可选的,所述就近唤醒判断指标包括频响一致性参数;所述第一确定模块,包括:
第二参数确定子模块,配置为基于多个所述音频采集设备的频率响应参数分别与设定频率响应参数,确定多个所述音频采集设备分别采集所述音频信号时的频响一致性参数;其中,所述频响一致性参数为对应所述音频采集设备的频率响应参数与所述设定频率响应参数之间的差值;
所述第二确定模块,包括:
第二距离确定子模块,配置为基于所述频响一致性参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述频响一致性参数与所述距离分辨能力负相关。
可选的,所述就近唤醒判断指标包括噪声级;所述第一确定模块,包括:
能量获取子模块,配置为获取多个所述音频采集设备所采集到的噪声信号的电压总能量;
第三参数确定子模块,配置为基于多个所述电压总能量,得到多个所述音频采集设备分别采集所述音频信号时的噪声级;
所述第二确定模块,包括:
第三距离确定子模块,配置为基于所述噪声级,确定多个所述音频采集设备的所述距离分辨能力;其中,所述噪声级与所述距离分辨能力负相关。
可选的,所述就近唤醒判断指标包括信噪比;所述第一确定模块,包括:
第四参数确定子模块,配置为基于多个所述音频采集设备采集的音频信号和多个所述音频采集设备采集的噪声信号之间的比值,得到多个所述音频采集设备分别采集所述音频信号时的信噪比;
所述第二确定模块,包括:
第四距离确定子模块,配置为基于所述信噪比,确定多个所述音频采集设备的所述距离分辨能力;其中,所述信噪比与所述距离分辨能力正相关。
可选的,所述就近唤醒判断指标包括谐波失真参数;所述第一确定模块,包括:
第五参数确定子模块,配置为确定多个所述音频采集设备所采集的音频信号的输出电压中所包含的谐波分量的电压有效值和包含的基频总电压的有效值;基于所述谐波分量的电压有效值和所述基频总电压的有效值,得到多个所述音频采集设备分别采集所述音频信号时的谐波失真参数;
所述第二确定模块,包括:
第五距离确定子模块,配置为基于所述谐波失真参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述谐波失真参数与所述距离分辨能力负相关。
可选的,所述就近唤醒判断指标包括相位一致性参数;所述第一确定模块,包括:
时延确定子模块,配置为基于多个所述音频采集设备采集到所述音频信号采集时刻,确定每两个音频采集设备采集到的音频信号之间的时延差;
第六参数确定子模块,配置为基于所述时延差以及多个所述音频采集设备采集所述音频信号的频率,得到多个所述音频采集设备分别采集所述音频信号时的相位一致性参数;
所述第二确定模块,包括:
第六距离确定子模块,配置为基于所述相位一致性参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述相位一致性参数与所述距离分辨能力负相关。
根据本公开实施例的第三方面,提供一种音频处理装置,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述第一方面中的音频处理方法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由音频处理装置的处理器执行时,使得所述装置能够执行上述第一方面中的音频处理方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开在确定各个音频采集设备的距离分辨能力的过程中,充分考虑各个音频采集设备的就近唤醒判断指标和音频采集设备与距离分辨能力之间的关联关系,从而能够精确地确定出各个音频采集设备的距离分辨能力。由于在不确定音频采集设备的距离分辨能力的情况下,会出现确定出错误的音频采集设备的可能,例如,在就近唤醒的过程中,由于音频采集设备可能没有距离分辨能力或者距离分辨能力很弱,例如,音频采集设备的距离分辨能力只有一米或者两米等,这时,可能无法从多个音频采集设备中精确确定出目标音频采集设备,本公开实施例中,在需要对音频采集设备进行唤醒时,能够基于就近唤醒判断指标为就近唤醒提供依据,基于就近唤醒判断指标精确确定出音频采集设备的距离分辨能力,进而提高确定就近唤醒的音频采集设备的精确性,以提升音频采集设备在智能家居环境中进行音频采集的质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例中提供了一种音频处理方法,该方法可以应用于服务器或者终端,终端包括移动终端和固定终端,移动终端包括手机、平板电脑、笔记本电脑等;固定终端包括个人计算机。图1是根据一示例性实施例示出的一种音频处理方法的流程图,如图1所示,该方法主要包括以下步骤:
在步骤S101中,获取多个音频采集设备从同一声源采集得到的音频信号;
在步骤S102中,确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标;
在步骤S103中,基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力。
这里,音频采集设备可以是包括至少一个音频采集组件的电子设备,主要用于进行音频采集,其中,音频采集组件包括麦克风。例如,音频采集组件可以是包含有至少一个麦克风的终端设备等。本公开实施例中,如果在同一音频采集环境中有多个音频采集设备,在多个音频采集设备均能采集到同一声音,且多个音频采集设备能够基于该同一声音得到音频信号,这时,就能够获取多个音频采集设备从同一声源采集得到的音频信号。
例如,当前空间所包含的多个音频采集设备可以为同一类型,也可以为不同类型。如果当前空间所包含的多个音频采集设备是同一类型的音频采集设备,则可以获取同一类型的多个音频采集设备从同一声源采集得到的音频信号,并确定多个音频采集设备分别采集音频信号时的就近唤醒判断指标。
例如,当前空间所包含的多个音频采集设备均为空调,当接收到的语音指令“请打开空调”时,这时,可以获取多个空调采集包含有该语音指令的声音得到音频信号,并基于该音频信号确定出各个空调分别采集该音频信号时的就近唤醒判断指标,进而根据该就近唤醒判断指标,确定出各个空调的距离分辨能力。
如果当前空间所包含的多个音频采集设备是不同类型的音频采集设备,而语音指令不是针对某一类型的音频采集设备,则可以分别获取不同类型的多个音频采集设备从同一声源采集得到的音频信号,并确定不同类型的多个音频采集设备分别采集音频信号时的就近唤醒判断指标,进而确定不同类型的多个音频采集设备的距离分辨能力。例如,当前空间所包含的多个音频采集设备分别为电视、智能音箱、空调,而接收到的语音指令是“请打开”时,这时,可以分别获取电视、智能音箱、空调采集包含有该语音指令的声音得到音频信号,并基于该音频信号确定出电视、智能音箱、空调分别采集该音频信号时的就近唤醒判断指标,进而根据该就近唤醒判断指标,确定出各个音频采集设备的距离分辨能力。
这里,就近唤醒判断指标包括:灵敏度级、频响一致性参数、噪声级、信噪比、谐波失真参数以及相位一致性参数等。以就近唤醒判断指标为多个音频采集设备分别采集音频信号时的信噪比为例,随着声源与音频采集设备之间的距离越远,对信噪比的要求越高,即信噪比的数值越大,且信噪比越高,音频采集设备的距离分辨率越高,即距离分辨能力越强。距离分辨能力用于表征音频采集设备在对应的唤醒判断指标下对距离的分辨能力, 例如,音频采集设备在信噪比是30分贝时,该音频采集设备具有0.8米的距离分辨能力;音频采集设备在频响一致性参数为0.25分贝时,具有1米的距离分辨能力。
本公开实施例中,在确定各个音频采集设备的距离分辨能力的过程中,充分考虑各个音频采集设备的就近唤醒判断指标和音频采集设备与距离分辨能力之间的关联关系,从而能够精确地确定出各个音频采集设备的距离分辨能力。由于在不确定音频采集设备的距离分辨能力的情况下,会出现确定出错误的音频采集设备的可能,例如,在就近唤醒的过程中,由于音频采集设备可能没有距离分辨能力或者距离分辨能力很弱,例如,音频采集设备的距离分辨能力只有一米或者两米等,这时,可能无法从多个音频采集设备中精确确定出目标音频采集设备,本公开实施例中,在需要对音频采集设备进行唤醒时,能够基于就近唤醒判断指标为就近唤醒提供依据,基于就近唤醒判断指标精确确定出音频采集设备的距离分辨能力,进而提高确定就近唤醒的音频采集设备的精确性,以提升音频采集设备在智能家居环境中进行音频采集的质量。
在其他可选的实施例中,就近唤醒判断指标包括灵敏度级;确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标,包括:
基于多个音频采集设备所采集到的音频信号的输出电压和多个音频采集设备的设定声压之间的比值,得到多个音频采集设备分别采集音频信号时的灵敏度级;
基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力,包括:
基于灵敏度级,确定多个音频采集设备的距离分辨能力,其中,灵敏度级的变化值与距离分辨能力负相关。
这里,基于多个音频采集设备所采集到的音频信号的输出电压和多个音频采集设备的设定声压之间的比值,得到多个音频采集设备分别采集音频信号时的灵敏度级,包括:基于多个音频采集设备所采集到的音频信号的输出电压和多个音频采集设备的设定声压之间的比值,得到多个音频采集设备分别采集音频信号时的灵敏度;以10为底,分别计算各个灵敏度的对数与20的乘积,得到多个音频采集设备分别采集音频信号时的灵敏度级。这里,在确定距离分辨能力的过程中,将音频采集设备的灵敏度级差异考虑进去,作为判断音频采集设备距离分辨能力的全部或部分依据。
在实际应用中需要参考音频采集设备距离分辨能力时,例如,根据声源位置确定音频采集设备的安置位置,并确保音频采集设备能够接收到唤醒信号时,能够基于灵敏度级精确确定出音频采集设备的距离分辨能力,进而提高确定音频采集设备被唤醒的精确性,以提升在智能家居环境中通过音频采集设备进行音频采集的质量。
在其他可选的实施例中,方法还包括:基于多个音频采集设备所采集到的音频信号的频率,确定多个音频采集设备的频率响应参数。在其他可选的实施例中,就近唤醒判断指标包括频响一致性参数;确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标,包括:
基于多个音频采集设备的频率响应参数分别与设定频率响应参数,确定多个音频采集设备分别采集音频信号时的频响一致性参数;其中,频响一致性参数为对应音频采集设备的频率响应参数与设定频率响应参数之间的差值;
基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力,包括:
基于频响一致性参数,确定多个音频采集设备的距离分辨能力;其中,频响一致性参数与距离分辨能力负相关。
这里,频率响应是指将一个以恒电压输出的音频信号与系统相连接时,音频采集设备产生的声压随频率的变化而发生增大或衰减、相位随频率而发生变化的现象,这种声压、相位与频率的相关联的变化关系称为频率响应。这里,可以基于多个音频采集设备所采集到的音频信号的频率,确定多个音频采集设备的频率响应参数。
本公开中,确定多个音频采集设备的频率响应参数,包括:根据所有的设定频响曲线,计算每个频点对应的所有频率响应的平均值,得到每一频点的频率响应均值,将该频率响应均值确定为多个音频采集设备的频率响应参数。基于多个音频采集设备的频率响应参数分别与设定频率响应参数,确定多个音频采集设备分别采集音频信号时的频响一致性参数,包括:计算各频响曲线每个频点的设定频率响应参数和对应的频率响应均值之差,得到各频响曲线每个频点的频率响应的均值误差,并将各音频采集设备的频率响应的均值误差随频率变化的曲线生成于同一图像中,得到通道间频响一致性曲线;将通道间频响一致性曲线确定为频响一致性参数。本公开实施例中,频响一致性表示各通道间的频响差异,用于反映各通道间频响特性的偏差。这里,在确定距离分辨能力的过程中,将音频采集设备的频率响应参数考虑进去,作为判断音频采集设备距离分辨能力的全部或部分依据。
在实际应用中需要参考音频采集设备距离分辨能力时,例如,根据声源位置确定音频采集设备的安置位置,并确保音频采集设备能够接收到唤醒信号时,能够基于频率响应参数精确确定出音频采集设备的距离分辨能力,进而提高确定音频采集设备被唤醒的精确性,以提升在智能家居环境中通过音频采集设备进行音频采集的质量。
在其他可选的实施例中,就近唤醒判断指标包括噪声级;确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标,包括:
获取多个音频采集设备所采集到的噪声信号的电压总能量;
基于多个电压总能量,得到多个音频采集设备分别采集音频信号时的噪声级;
基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力,包括:
基于噪声级,确定多个音频采集设备的距离分辨能力;其中,噪声级与距离分辨能力负相关。
这里,基于多个电压总能量,得到多个音频采集设备分别采集音频信号时的噪声级,包括:以10为底,分别计算各个电压总能量的对数与10的乘积,得到多个音频采集设备的全频段总能量,全频段总能量为噪声级,噪声级表示:在安静的环境下,单通道输出的噪声信号的能量,单位为分贝(dB)。则可知,多个音频采集设备的噪声级,即全频段总能量GN可以通过以下公式计算得到:
GN=20lgG (1);
公式(1)中,GN表示全频段总能量(噪声级),G表示单个音频采集设备从采集开始到采集结束这段时间内所输出的电压总能量。
在其他可选的实施例中,需要测量音频采集设备的噪声级时,可以利用音频输出设备经扬声器播放静音信号或停止播放音频信号,以使音频采集设备工作在安静的环境下,并将采集到的噪声信号输入到计算设备中。则计算设备即可对音频采集设备当前采集到的噪声信号进行处理,得到各音频采集设备的噪声级。这里,在确定距离分辨能力的过程中,将音频采集设备的噪声级考虑进去,作为判断音频采集设备距离分辨能力的全部或部分依据。
在实际应用中需要参考音频采集设备距离分辨能力时,例如,根据声源位置确定音频采集设备的安置位置,并确保音频采集设备能够接收到唤醒信号时,能够基于噪声级精确确定出音频采集设备的距离分辨能力,进而提高确定音频采集设备被唤醒的精确性,以进而提升在智能家居环境中通过音频采集设备进行音频采集的质量。
在其他可选的实施例中,就近唤醒判断指标包括信噪比;确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标,包括:
基于多个音频采集设备采集的音频信号和多个音频采集设备采集的噪声信号之间的比值,得到多个音频采集设备分别采集音频信号时的信噪比;
基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力,包括:
基于信噪比,确定多个音频采集设备的距离分辨能力;其中,信噪比与距离分辨能力正相关。这里,在确定距离分辨能力的过程中,将音频采集设备的信噪比考虑进去,作为判断音频采集设备距离分辨能力的全部或部分依据。
在实际应用中需要参考音频采集设备距离分辨能力时,例如,根据声源位置确定音频采集设备的安置位置,并确保音频采集设备能够接收到唤醒信号时,能够基于信噪比精确确定出音频采集设备的距离分辨能力,进而提高确定音频采集设备被唤醒时的精确性,以提升在智能家居环境中通过音频采集设备进行音频采集的质量。
在其他可选的实施例中,就近唤醒判断指标包括谐波失真参数;确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标,包括:
确定多个音频采集设备所采集的音频信号的输出电压中所包含的谐波分量的电压有效值和包含的基频总电压的有效值;基于谐波分量的电压有效值和基频总电压的有效值,得到多个音频采集设备分别采集音频信号时的谐波失真参数;
基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力,包括:
基于谐波失真参数,确定多个音频采集设备的距离分辨能力;其中,谐波失真参数与距离分辨能力负相关。
这里,谐波失真参数表示多个音频采集设备所采集的音频信号的输出电压中的谐波成分的有效值与包含基频成分的总电压的有效值的比值的百分数。谐波失真参数THD可以通过以下公式计算得到:
公式(2)中,THD表示谐波失真参数,U2f表示第2次谐波分量的电压有效值,U3f表示第3次谐波分量的电压有效值,Unf表示第n次谐波分量的电压有效值,Ut表示基频总电压的有效值。这里,由于随着音频采集设备与声源距离的越近,谐波失真要求越严格,即谐波失真参数的值越小。这里,在确定距离分辨能力的过程中,将音频采集设备的谐波失真参数考虑进去,作为判断音频采集设备距离分辨能力的全部或部分依据。
在实际应用中需要参考音频采集设备距离分辨能力时,例如,根据声源位置确定音频采集设备的安置位置,并确保音频采集设备能够接收到唤醒信号时,能够基于谐波失真参数精确确定出音频采集设备的距离分辨能力,进而提高确定音频采集设备被唤醒的精确性,以提升在智能家居环境中通过音频采集设备进行音频采集的质量。
在其他可选的实施例中,就近唤醒判断指标包括相位一致性参数;确定多个音频采集设备分别采集音频信号得到的就近唤醒判断指标,包括:
基于多个音频采集设备采集到音频信号采集时刻,确定每两个音频采集设备采集到的音频信号之间的时延差;
基于时延差以及多个音频采集设备采集音频信号的频率,得到多个音频采集设备分别采集音频信号时的相位一致性参数;
基于就近唤醒判断指标,确定多个音频采集设备的距离分辨能力,包括:
基于相位一致性参数,确定多个音频采集设备的距离分辨能力;其中,相位一致性参数与距离分辨能力负相关。
这里,时延差可以通过以下公式计算得到:
公式(3)中,τ表示时延差,c表示声音的传播速度,可以为340米每秒,θ表示波达方向角。
采样点差的计算公式为:
N=τ×fs (4);
公式(4)中,N表示采样点差,fs表示采样率。
这里,在得到采样点差之后,可以将采样点差确定为相位一致性参数,由于相位一致性参数与各个音频采集设备之间的时延差具有关联关系。这里,在确定距离分辨能力的过程中,将音频采集设备之间的时延考虑进去,能够保证不同音频采集设备之间的一致性,在需要对音频采集设备进行唤醒时,能够基于相位一致性参数为就近唤醒提供依据,基于相位一致性参数精确确定出音频采集设备的距离分辨能力,进而提高确定音频采集设备被唤醒时的精确性,以提升在智能家居环境中通过音频采集设备进行音频采集的质量。
在其他可选的实施例中,可以根据各个音频采集设备的距离分辨能力确定各个音频采集设备在空间中的位置布局,以便对对应唤醒指令进行应答。例如,将距离分辨能力是3 米的第一音频采集设备设置在第一位置,将距离分辨能力是2米的第二音频采集设备设置在第二位置,将距离分辨能力是1米的第三音频采集设备设置在第三位置,将第一位置与声源常在位置之间的距离确定为第一距离,将第二位置与声源常在位置之间的距离确定为第二距离,将第三位置与声源常在位置之间的距离确定为第三距离,其中,第一距离大于第二距离,第二距离大于第三距离。这样,在同一空间中,通过根据各个音频采集设备的距离分辨能力,确定各个音频采集设备的放置位置,在唤醒过程中,由于各个音频采集设备与声源常在位置之间的距离在设定范围内,这样,就能实现各个音频采集设备的精准定位,进而提升音频采集设备在智能家居环境中进行音频采集的质量。
图2是根据一示例性实施例示出的一种音频输出设备和多个音频采集设备之间的位置关系示意图,如图2所示,音频输出设备200与音频采集设备201之间的距离为r1,音频输出设备200与音频采集设备202之间的距离为r2,而音频采集设备201与音频采集设备202之间的距离为Δr。本公开实施例中,可以将声场传播模型设定为自由场下各向同性的球面波模型,实现的过程中,可以基于音频输出设备200所输出的音频信号在音频采集设备201、音频采集设备202处的声压和能量、以及各个音频采集设备与声源之间的距离,确定出就近唤醒指标的范围,其中,声源所处的位置即为音频输出设备200的位置,就近唤醒指标包括就近唤醒判断指标,例如,灵敏度、噪声级、信噪比等。
这里,灵敏度指的是单通道的输出电压与无干扰时校准位置处声压的比值。灵敏度的计算公式为:
公式(5)中,δ表示灵敏度,V表示所采集的音频信号的输出电压有效值,P表示预设的声压有效值,S表示灵敏度级。
灵敏度以10为底的对数乘以20则为灵敏度级S,灵敏度级S的单位为分贝(dB)。灵敏度级的计算公式为:
公式(6)中,S表示灵敏度级,V表示所采集的音频信号的输出电压有效值,P表示预设的声压有效值。
噪声级(底噪)表示输出噪声信号的能量,多个音频采集设备的噪声级GN可以通过以下公式计算得到:
GN=20lgG (7);
公式(7)中,GN表示噪声级,G表示单个音频采集设备从采集开始到采集结束这段时间内所输出的电压总能量。
音频信号到达音频采集设备201处的声压的计算公式为:
公式(8)中,P1表示音频信号到达音频采集设备201处的声压,a表示声压增益,i表示虚数,k=2πf/c,c表示声音的传播速度,f表示音频信号的频率,r1表示音频采集设备与音频输出设备200之间的距离。
音频信号在音频采集设备201处的输出电压的计算公式为:
x1=δ1P1 (9);
公式(9)中,x1表示音频信号在音频采集设备201处的输出电压,δ1表示音频采集设备201的灵敏度,P1表示音频信号到达音频采集设备201处的声压。
音频信号到达音频采集设备201的能量的计算公式为:
E1=|x1|2+G1 (10);
公式(10)中,x1表示音频信号在音频采集设备201处的输出电压,E1表示音频信号到达音频采集设备201的能量,G1表示单个音频采集设备201从采集开始到采集结束这段时间内所输出的电压总能量。
音频信号到达音频采集设备202处的声压的计算公式为:
公式(11)中,P2表示音频信号到达音频采集设备202处的声压,a表示声压增益,i表示虚数,k=2πf/c,c表示声音的传播速度,f表示音频信号的频率,r2表示音频采集设备与音频输出设备200之间的距离。
音频信号在音频采集设备202处的输出电压的计算公式为:
x2=δ2P2 (12);
公式(12)中,x2表示音频信号在音频采集设备202处的输出电压,δ2表示音频采集设备202的灵敏度,P2表示音频信号到达音频采集设备202处的声压。
音频信号到达音频采集设备202的能量的计算公式为:
E2=|x2|2+G2 (13);
公式(13)中,x2表示音频信号在音频采集设备202处的输出电压,E2表示音频信号到达音频采集设备202的能量,G2表示单个音频采集设备202从采集开始到采集结束这段时间内所输出的电压总能量。
在实现的过程中,就近唤醒判别成功需满足以下公式:
E1-E2>0 (14);
公式(14)中,E1表示音频信号到达音频采集设备201的能量,E2表示音频信号到达音频采集设备202的能量。
本公开实施例中,可以基于公式(14)确定出相应的灵敏度级范围。假设音频采集设备201和音频采集设备202的底噪相同,即GN1=GN2,且r2=r1+Δr,则基于公式(14) 可得:
公式(15)中,a表示声压增益,δ1表示音频采集设备201的灵敏度,δ2表示音频采集设备202的灵敏度,r1表示音频采集设备与音频输出设备200之间的距离,r2表示音频采集设备与音频输出设备202之间的距离。
根据公式(15),得到灵敏度和距离的关系:
公式(16)中,Δr表示音频采集设备201与音频采集设备202之间的距离。
根据公式(16),可得在对数域的关系如下:
图3a是根据一示例性实施例示出的灵敏度与距离的三维示意图;图3b是根据一示例性实施例示出的灵敏度与距离的曲线示意图;根据上述计算公式(5)至(17)以及图3a 和图3b可以得到灵敏度范围结论:设备间的距离分辨率越高,灵敏度波动范围越小,其中,距离分辨率是指
噪声级(底噪)表示输出噪声信号的能量,噪声级GN可以通过公式(7)计算得到。这里,假设音频采集设备201和音频采集设备202的灵敏度相同,即δ1=δ2=δ,令 G2=γG1,其中,δ1为音频采集设备201的灵敏度,δ2为音频采集设备202的灵敏度,G1表示单个音频采集设备201从采集开始到采集结束这段时间内所输出的电压总能量,G2表示单个音频采集设备202从采集开始到采集结束这段时间内所输出的电压总能量,则根据公式(7)可得:
ΔGN=GN1-GN2=20log10γ (18);
公式(18)中,ΔGN表示音频采集设备201和音频采集设备202之间的底噪差,GN1表示音频采集设备201的底噪,GN2表示音频采集设备202的底噪。
则基于公式(14)和(18)可得:
公式(19)中,a表示声压增益,r1表示音频采集设备与音频输出设备200之间的距离,r2表示音频采集设备与音频输出设备202之间的距离。
根据公式(19)得到底噪和距离的关系:
根据公式(20),可得在对数域的关系如下:
根据公式(21),可得:
图4a是根据一示例性实施例示出的底噪与距离的三维示意图;图4b是根据一示例性实施例示出的底噪与距离的曲线示意图;根据公式(18)至(22)的计算,以及图4a和图4b可以得到底噪范围结论:设随着声源到音频采集设备之间距离越远,底噪要求越高,即底噪值越小。
根据各个音频采集设备的灵敏度级与噪声级之差,能够得到各个音频采集设备的信噪比(Signal to Noise Ratio,SNR)。根据公式(22)可知:
根据公式(23),可得:
图5a是根据一示例性实施例示出的信噪比与距离的三维示意图;图5b是根据一示例性实施例示出的信噪比与距离的曲线示意图。根据公式(23)至(28)的计算,以及图 5a和图5b可以看出,随着声源到音频采集设备之间距离越远,对信噪比的要求越高,即信噪比值越大。
假设音频输出设备200输出的音频信号的播放声压级增益为a=1KHz,2KHz,3KHz……在音频采集设备处的声压级为
第k个音频采集设备接收的音频信号的输出电压x
k=δ
kP,N个音频采集设备接收到的能量均值的计算公式为:
公式(29)中,
表示N个音频采集设备接收到的能量均值,x
i表示第i个音频采集设备接收到的能量值,δ
i第i个音频采集设备的灵敏度,i和N为正整数。
假设多个音频采集设备在同一频率下能量差异产生的距离差为Δr,分辨距离要求为设定距离ΔR,对于第k个音频采集设备有:
如果要有Δr<ΔR,所以有N个麦克的设备,取第k个麦克的灵敏度做参考,k为正整数,根据公式(30),可得频响一致性范围需要满足以下关系:
图6是根据一示例性实施例示出的频响一致性参数与距离的曲线示意图。根据公式 (29)至(32)的计算,以及图6可以看出,音频采集设备距离声源越近,频响一致性要求越高(频响一致性参数值小)。例如,在设备频率下,音频采集设备与声源距离为3 米,如果想要设备具有1米距离分辨力,频响一致性范围要求小于2.5dB。
根据公式(8)和公式(9),假设谐波失真参数为ξ1,则音频采集设备201处的能量(包括底噪)的计算公式为:
E1=(1+ξ1)|x1|2+G1 (33);
根据公式(14)和(33)可以得到:
(1+ξ1)|x1|2+G1>(1+ξ2)|x2|2+G2 (34);
根据公式(34)可以得到:
假设G1=G2,δ1=δ2,根据公式(35)可以得到:
根据公式(36)可以得到:
图7是根据一示例性实施例示出的谐波失真参数与距离的曲线示意图。根据公式(33) 至(37)的计算,以及图7可以看出,音频采集设备距离声源越近,谐波失真要求越严格(谐波失真参数值小),如下图所示,图中横坐标为距离,纵坐标为谐波失真参数值。
图8是根据一示例性实施例示出的一维线阵麦克风阵列示意图,如图8所述,麦克风 1和麦克等2之间的波达方向角为θ,θ与时延差的关系如下:
公式(38)中,τ表示时延差,c表示声音的传播速度,可以为340米每秒,θ表示波达方向角。
公式(39)中,N表示采样点差,fs表示采样率。
根据公式(39)可以得到:
公式(41)中,d为两个麦克风之间的距离,Δθ为变化角度,N为θ对应的采样点差,ΔN为Δθ变化对应的采样点差。
图9a是根据一示例性实施例示出的角度变化与采样点差的三维示意图一;图9b是根据一示例性实施例示出的角度变化与采样点差的三维示意图二,其中,横坐标为角度变化情况,纵坐标为采样点差值。根据公式(38)至(41)的计算,以及图9a和图9b可知,角度分辨率越高(角度值小),采样点差值要求越小,例如,采样率48000比16000采样点差值要求高3倍。
另外,在确定音频采集设备的距离分辨能力时,可以采用单个就近唤醒判断指标进行判断,也可以根据至少两个就近唤醒指标进行判断,综合进行距离分辨能力的判断,例如:根据不同的就近唤醒判断指标的参考重要程度,给不同的就近唤醒指标赋予不同的权重,或者通过预设算法,综合考虑多个就近唤醒判断指标进行距离分辨能力的判断。
本公开实施例中就近唤醒硬件参数的提出,给出了计算硬件指标的理论依据;为就近唤醒算法参数调优提供理论支持;保证了不同设备间的一致性,并保证了整个智能家居环境麦克风拾音设备的质量。
图10是根据一示例性实施例示出的一种音频处理装置框图。如图10所示,该音频处理装置1000主要包括:
第一获取模块1001,配置为获取多个音频采集设备从同一声源采集得到的音频信号;
第一确定模块1002,配置为确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标;
第二确定模块1003,配置为基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力。
在其他可选的实施例中,所述就近唤醒判断指标包括灵敏度级;所述第一确定模块 1002,包括:
第一参数确定子模块,配置为基于多个所述音频采集设备所采集到的所述音频信号的输出电压和多个所述音频采集设备的设定声压之间的比值,得到多个所述音频采集设备分别采集所述音频信号时的灵敏度级;
所述第二确定模块1003,包括:
第一距离确定子模块,配置为基于所述灵敏度级,确定多个所述音频采集设备的距离分辨能力,其中,所述灵敏度级的变化值与所述距离分辨能力负相关。
在其他可选的实施例中,所述装置1000还包括:
第二确定模块,配置为基于多个所述音频采集设备所采集到的所述音频信号的频率,确定多个所述音频采集设备的所述频率响应参数。
在其他可选的实施例中,所述就近唤醒判断指标包括频响一致性参数;所述第一确定模块1002,包括:
第二参数确定子模块,配置为基于多个所述音频采集设备的频率响应参数分别与设定频率响应参数,确定多个所述音频采集设备分别采集所述音频信号时的频响一致性参数;其中,所述频响一致性参数为对应所述音频采集设备的频率响应参数与所述设定频率响应参数之间的差值;
所述第二确定模块1003,包括:
第二距离确定子模块,配置为基于所述频响一致性参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述频响一致性参数与所述距离分辨能力负相关。
在其他可选的实施例中,所述就近唤醒判断指标包括噪声级;所述第一确定模块1002,包括:
能量获取子模块,配置为获取多个所述音频采集设备所采集到的噪声信号的电压总能量;
第三参数确定子模块,配置为基于多个所述电压总能量,得到多个所述音频采集设备分别采集所述音频信号时的噪声级;
所述第二确定模块1003,包括:
第三距离确定子模块,配置为基于所述噪声级,确定多个所述音频采集设备的所述距离分辨能力;其中,所述噪声级与所述距离分辨能力负相关。
在其他可选的实施例中,所述就近唤醒判断指标包括信噪比;所述第一确定模块1002,包括:
第四参数确定子模块,配置为基于多个所述音频采集设备采集的音频信号和多个所述音频采集设备采集的噪声信号之间的比值,得到多个所述音频采集设备分别采集所述音频信号时的信噪比;
所述第二确定模块1003,包括:
第四距离确定子模块,配置为基于所述信噪比,确定多个所述音频采集设备的所述距离分辨能力;其中,所述信噪比与所述距离分辨能力正相关。
在其他可选的实施例中,所述就近唤醒判断指标包括谐波失真参数;所述第一确定模块1002,包括:
第五参数确定子模块,配置为确定多个所述音频采集设备所采集的音频信号的输出电压中所包含的谐波分量的电压有效值和包含的基频总电压的有效值;基于所述谐波分量的电压有效值和所述基频总电压的有效值,得到多个所述音频采集设备分别采集所述音频信号时的谐波失真参数;
所述第二确定模块1003,包括:
第五距离确定子模块,配置为基于所述谐波失真参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述谐波失真参数与所述距离分辨能力负相关。
在其他可选的实施例中,所述就近唤醒判断指标包括相位一致性参数;所述第一确定模块1002,包括:
时延确定子模块,配置为基于多个所述音频采集设备采集到所述音频信号采集时刻,确定每两个音频采集设备采集到的音频信号之间的时延差;
第六参数确定子模块,配置为基于所述时延差以及多个所述音频采集设备采集所述音频信号的频率,得到多个所述音频采集设备分别采集所述音频信号时的相位一致性参数;
所述第二确定模块1003,包括:
第六距离确定子模块,配置为基于所述相位一致性参数,确定多个所述音频采集设备的所述距离分辨能力;其中,所述相位一致性参数与所述距离分辨能力负相关。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种音频处理装置500的硬件结构框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件 514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500 一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或6G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA) 技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由音频处理装置的处理器执行时,使得音频处理装置能够执行一种音频处理方法,所述方法包括:
获取多个音频采集设备从同一声源采集得到的音频信号;
确定多个所述音频采集设备分别采集所述音频信号得到的就近唤醒判断指标;
基于所述就近唤醒判断指标,确定多个所述音频采集设备的距离分辨能力。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。