CN109979469A - 信号处理方法、设备及存储介质 - Google Patents

信号处理方法、设备及存储介质 Download PDF

Info

Publication number
CN109979469A
CN109979469A CN201910266670.0A CN201910266670A CN109979469A CN 109979469 A CN109979469 A CN 109979469A CN 201910266670 A CN201910266670 A CN 201910266670A CN 109979469 A CN109979469 A CN 109979469A
Authority
CN
China
Prior art keywords
frequency
energy value
frequency point
signal
mapping relations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910266670.0A
Other languages
English (en)
Other versions
CN109979469B (zh
Inventor
王昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Technology Wuhan Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Priority to CN201910266670.0A priority Critical patent/CN109979469B/zh
Publication of CN109979469A publication Critical patent/CN109979469A/zh
Application granted granted Critical
Publication of CN109979469B publication Critical patent/CN109979469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition

Abstract

本公开实施例提供一种信号处理方法、设备及存储介质。该信号处理方法包括:获取待处理音频信号;通过对待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,并计算频域信号中多个频点的能量值,之后,获取预设的映射关系,该映射关系包括各频点在不同能量值下的频响,并根据频点的能量值及上述映射关系,获取该频点对应的归一化后的能量值。本公开实施例基于包含有频点和能量值的两个维度的映射关系,确定该频点对应的归一化后的能量值,可提升使用归一化后的能量值进行分布式语音唤醒决策的精度。

Description

信号处理方法、设备及存储介质
技术领域
本公开涉及信号处理技术,尤其涉及一种信号处理方法、设备及存储介质。
背景技术
随着物联网的快速发展,智能家居多设备互联。该情况下,分布式语音唤醒决策是响应用户需求的第一步。然而,由于各设备厂商在麦克风选型和拾音声学结构上的设计差异,甚至同一款设备都有多家麦克风供应商,因此麦克风的底噪及灵敏度等参数差异较大。另外,麦克风较难满足频响曲线随能量值线性增加的理论,再加上声学结构上的细微差异,频响曲线与能量值的关系在一定程度上是非线性的,导致使用能量值相关参数进行分布式语音唤醒决策的精度下降。
发明内容
为克服相关技术中存在的问题,本公开提供一种信号处理方法、设备及存储介质。所述技术方案如下:
根据本公开实施例的第一方面,提供一种信号处理方法。该信号处理方法包括:获取待处理音频信号;通过对所述待处理音频信号进行时频变换,获取所述待处理音频信号对应的频域信号;计算所述频域信号中多个频点的能量值;获取预设的映射关系,所述映射关系包括各频点在不同能量值下的频响;根据所述频点的能量值及所述映射关系,获取所述频点对应的归一化后的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:对获取的待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,并计算频域信号中多个频点的能量值,之后,获取预设的映射关系,其中映射关系包括各频点在不同能量值下的频响,根据频点的能量值及该映射关系,获取该频点对应的归一化后的能量值。由于麦克风的频响曲线与能量值是非线性的,导致不同麦克风在不同能量值下的频响也有不同,基于此,本实施例在实际应用中基于包含有频点和能量值的两个维度的映射关系确定该频点对应的归一化后的能量值,从而提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
可选地,所述时频变换,包括:快速傅里叶变换FFT或小波变换。
上述实施例提供的技术方案可以包括以下有益效果:提供两种具体的时频转换实现方式:快速傅里叶变换或小波变换,将时域的待处理音频信号变换为频域信号。
可选地,所述计算所述频域信号中多个频点的能量值,包括:计算所述频域信号中前一半频点的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:利用信号在频域上的对称性,仅计算频域信号中前一般频点的能量值,从而可减小计算量,提升效率。
可选地,所述计算所述频域信号中多个频点的能量值,包括:计算去除低频频点后的频域信号中各频点的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:计算去除低频频点后的频域信号中各频点的能量值,一方面,可减少计算量;另一方面,可以降低低频的底噪干扰,进一步提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
可选地,所述根据所述频点的能量值及所述映射关系,获取所述频点对应的归一化后的能量值,包括:在所述映射关系中,确定所述频点下与所述频点的能量值最接近的第一能量值;确定所述频点在所述第一能量值下的频响;将所述频点的能量值与所述频点在所述第一能量值下的频响相乘,获取所述频点对应的归一化后的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:提供一种具体的获取频点对应的归一化后的能量值的实现方式。
可选地,所述映射关系是在消音环境下,根据标准麦克风及拾音设备中的麦克风二者基于测试音频信号的能量值获取的,所述测试音频信号为呈阶梯变化的能量信号。
本公开的实施例提供的技术方案可以包括以下有益效果:一方面,利用消音环境降低周围环境造成的干扰;另一方面,考虑到麦克风频响曲线与能量值的非线性,通过将测试音频信号设置为呈阶梯变化的能量信号,来获取频点在不同能量值下对应的频响,为后续实际应用中获取频点对应的归一化后的能量值提供数据支撑。
根据本公开实施例的第二方面,提供一种信号处理设备。该信号处理设备包括:
第一获取模块,被配置为获取待处理音频信号;
变换模块,被配置为通过对所述待处理音频信号进行时频变换,获取所述待处理音频信号对应的频域信号;
计算模块,被配置为计算所述频域信号中多个频点的能量值;
第二获取模块,被配置为获取预设的映射关系,所述映射关系包括各频点在不同能量值下的频响;
处理模块,被配置为根据所述频点的能量值及所述映射关系,获取所述频点对应的归一化后的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:对获取的待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,并计算频域信号中多个频点的能量值,之后,获取预设的映射关系,该映射关系包括各频点在不同能量值下的频响,并根据频点的能量值及该映射关系,获取该频点对应的归一化后的能量值。由于麦克风的频响曲线与能量值是非线性的,导致不同麦克风在不同能量值下的频响也有不同,基于此,本实施例在实际应用中基于包含有频点和能量值两个维度的映射关系,确定该频点对应的归一化后的能量值,从而提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
可选地,所述时频变换,包括:快速傅里叶变换或小波变换。
上述实施例提供的技术方案可以包括以下有益效果:提供两种具体的时频转换实现方式:快速傅里叶变换或小波变换,将时域的待处理音频信号变换为频域信号。
可选地,所述计算模块被配置为:计算所述频域信号中前一半频点的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:利用信号在频域上的对称性,仅计算频域信号中前一般频点的能量值,从而可减小计算量,提升效率。
可选地,所述计算模块被配置为:计算去除低频频点后的频域信号中各频点的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:计算去除低频频点后的频域信号中各频点的能量值,一方面,可减少计算量;另一方面,可以降低低频的底噪干扰,进一步提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
可选地,所述处理模块被配置为:
在上述映射关系中,确定所述频点下与所述频点的能量值最接近的第一能量值;
确定所述频点在所述第一能量值下的频响;
将所述频点的能量值与所述频点在所述第一能量值下的频响相乘,获取所述频点对应的归一化后的能量值。
本公开的实施例提供的技术方案可以包括以下有益效果:提供一种具体的获取频点对应的归一化后的能量值的实现方式。
可选地,所述映射关系是在消音环境下,根据标准麦克风及拾音设备中的麦克风二者基于测试音频信号的能量值获取的,所述测试音频信号为呈阶梯变化的能量信号。
本公开的实施例提供的技术方案可以包括以下有益效果:一方面,利用消音环境降低周围环境造成的干扰;另一方面,考虑到麦克风频响曲线与能量值的非线性,通过将测试音频信号设置为呈阶梯变化的能量信号,来获取频点在不同能量值下对应的频响,为后续实际应用中获取频点对应的归一化后的能量值提供数据支撑。
根据本公开实施例的第三方面,提供一种信号处理设备。该信号处理设备包括:处理器和用于存储可执行指令的存储器;其中,处理器被配置为执行所述可执行指令,以执行如第一方面任一项所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述的方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种信号处理方法的流程图;
图2是根据另一示例性实施例示出的一种信号处理方法的流程图;
图3是根据一示例性实施例示出的测试音频信号示意图;
图4是根据一示例性实施例示出的映射关系的示例图;
图5是根据一示例性实施例示出的一种信号处理设备的结构示意图;
图6是根据另一示例性实施例示出的一种信号处理设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它单元。
需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
多个,包括两个或者两个以上。
和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
相关技术中,以小型麦克风阵列为例,在计算其能量值时,是将小型麦克风阵列放置于隔音舱或者消音室中,使用标准扬声器播放一个白噪声或者扫频音测试信号,使用小型麦克风阵列和标准麦克风同时采集该白噪声或者扫频音测试信号,通过音频编解码器将该白噪声或者扫频音测试信号转换成一数字序列,之后,将该数字序列做时域至频域的变换,在频域检测变换后得到的信号的频谱特性。
假设小型麦克风阵列中某一麦克风i在t时刻采集到的时域信号为xi(t),标准麦克风采集到的时域信号为xs(t),则时频变换后麦克风i对应的频域信号表示为Xi(k),标准麦克风对应的频域信号表示为Xs(k),其中,k为频点,可以得到频点k下二者的能量比,即频响,表示如下:
实际使用中,将采集到的时域信号变换到频域计算频域能量值时,同款的麦克风可以在每个频点上按照之前采集时计算的频响进行加权。方法如下:
其中,Eweight表示加权后的频域能量值,表示频点k对应的实际频域信号,N表示时频变换的点数。
上述方案中,频响ratioi(k)是一维映射关系,只体现频点k,没有该频点 k下不同能量值的区分。
另外,理想情况下,麦克风的频响曲线与能量值是线性关系,即ratioi(k) 值的大小与能量值应该是无关的。然而,实际受到微型麦克风工艺限制和实际麦克风拾音腔体不同的影响,ratioi(k)的值往往是和能量值有关,且关系是非线性的复杂关系,难以用公式直接描述,所以,导致不同麦克风在不同能量值下的频响也有不同。
基于上述问题,本公开提供一种信号处理方法、设备及存储介质,通过基于包含有频点和能量值的两个维度的映射关系确定该频点对应的归一化后的能量值,以提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
图1是根据一示例性实施例示出的一种信号处理方法的流程图。本实施例提供一种信号处理方法,该方法可以由信号处理设备来执行,该信号处理设备可通过硬件和/或软件的方式实现,并可集成于麦克风或包含有麦克风的设备中,该设备例如为拾音设备等。其中,拾音设备包括但不限于手机、穿戴设备、增强现实(Augmented Reality,简称:AR)设备和虚拟现实 (Virtual Reality,简称:VR)设备。穿戴设备可以为智能手环、智能项链、智能手表等,本公开不予限制。
如图1所示,该信号处理方法包括以下步骤:
在步骤101中,获取待处理音频信号。
实际使用中,当采用带有麦克风i的拾音设备采集到一段音频,即认为该拾音设备获取到待处理音频信号。可以理解,待处理音频信号为时域信号,其对应时间的长短可根据实际需求进行设置,对此,本公开实施例不予限制。例如,将t时刻采集到的待处理音频信号表示为x(t)。
在步骤102中,通过对待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号。
其中,该步骤可通过多种方式实现,以下进行示例说明:
第一种实现方式中,通过对待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,可以包括:通过对待处理音频信号进行快速傅里叶变换(Fast FourierTransform,简称:FFT),获取待处理音频信号对应的频域信号。
第二种实现方式中,通过对待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,可以包括:通过对待处理音频信号进行小波变换,获取待处理音频信号对应的频域信号。
需说明的是,FFT及小波变换中所涉及的参数可根据经验值或实际需求进行设置,对此本公开不进行限制。
通过上述任一实现方式,对x(t)进行时频变换,得到x(t)对应的时域信号X(k),其中,k为频点。
在步骤103中,计算频域信号中多个频点的能量值。
例如,通过以下公式计算频点k的能量值E:
E=|X(k)|2
在步骤104中,获取预设的映射关系。
其中,该映射关系包括各频点在不同能量值下的频响。
例如,频点k在能量值E下的频响表示为ratioE(k),根据频点k的能量值E以及ratioE(k)即可获取频点k对应的归一化后的能量值。由于ratioE(k) 可以体现频点k和频点k的能量值E两个维度的关系,因此,ratioE(k)是二维映射关系。
在步骤105中,根据频点的能量值及上述映射关系,获取频点对应的归一化后的能量值。
该步骤中,根据多个频点对应的归一化后的能量值,可获取待处理音频信号对应的频域能量值。在获取待处理音频信号对应的频域能量值之后,拾音设备可基于该频域能量值进行分布式语音唤醒决策。相比上述相关技术,由于频点对应的归一化后的能量值更准确,因此,可提升分布式语音唤醒决策的精度。
该实施例,通过对获取的待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,并计算频域信号中多个频点的能量值,之后,获取预设的映射关系,其中映射关系包括各频点在不同能量值下的频响,并根据频点的能量值及该映射关系,获取该频点对应的归一化后的能量值。由于麦克风的频响曲线与能量值是非线性的,导致不同麦克风在不同能量值下的频响也有不同,基于此,本实施例在实际应用中基于包含有频点和能量值的两个维度的映射关系,确定该频点对应的归一化后的能量值,从而提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
在上述实施例的基础上,考虑到频域信号的对称性,在计算频域信号中多个频点的能量值时,可以具体为:计算频域信号中前一半频点的能量值。利用信号在频域上的对称性,仅计算频域信号中前一般频点的能量值,从而可减小计算量,提升效率。可选地,在计算频域信号中多个频点的能量值时,也可以具体为:计算频域信号中后一半频点的能量值。
进一步地,步骤103、计算频域信号中多个频点的能量值,可以包括:计算去除低频频点后的频域信号中各频点的能量值。通过计算去除低频频点后的频域信号中各频点的能量值,一方面,可减少计算量;另一方面,可以降低低频的底噪干扰,进一步提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
补充说明的是,一些实施例中,可以结合计算频域信号中前一半频点的能量值,及计算去除低频频点后的频域信号中各频点的能量值,这样,在计算频域信号中前一半频点的能量值之前,首先去除频域信号中的低频频点。
图2是根据另一示例性实施例示出的一种信号处理方法的流程图。如图2所示,在图1所示流程的基础上,步骤105、根据频点的能量值及上述映射关系,获取频点对应的归一化后的能量值,可以包括:
在步骤201中,在映射关系中,确定频点下与该频点的能量值最接近的第一能量值。
实际应用中,映射关系中可能没有与某频点下与该频点的能量值完全相同的能量值,此时,在映射关系先固定频点,之后,在该频点对应的不同能量值中查找与该频点的能量值最接近的能量值,确定该最接近的能量值为第一能量值。
在步骤202中,确定频点在第一能量值下的频响。
在映射关系中,频点和该频点对应的能量值确定后,即可唯一确定一频响,即频点在第一能量值下的频响。
在步骤203中,将频点的能量值与频点在第一能量值下的频响相乘,获取频点对应的归一化后的能量值。
示例地,根据如下公式获取频点k对应的归一化后的能量值E(k):
E(k)=E×ratioE(k)=|X(k)|2×ratioE(k)
进而可获取待处理音频信号对应的频域能量值Eweight
其中,N表示时频变换的点数,例如,N取值为512等。
上述实施例提供一种具体的获取频点对应的归一化后的能量值的实现方式,但本公开不以此为限,可选地,还可以在上述频点对应的归一化后的能量值的基础上进行其他基础运算,来获取该频点对应的最终的归一化后的能量值。
可选地,上述映射关系是在消音环境下,根据标准麦克风及拾音设备中的麦克风二者基于测试音频信号的能量值获取的,该测试音频信号为呈阶梯变化的能量信号。
示例地,消音环境可以为消音室或隔音舱等,测试音频信号的播放采用校准过的B&K人工嘴。测试音频信号可如图3所示,其中,采样率为16KHz,信号峰值按照3dB每个步长递减,最小峰值为-42dB。每个扫频信号持续2s。
在实际应用中,使用512点FFT进行时频变换,即N=512,考虑到信号在频域上的对称特性,只取512点的前一半256个点,并从第三个点开始计算去掉低频频点的底噪干扰。
假设小型麦克风阵列中某一麦克风i在t时刻采集到的时域信号为xi(t),标准麦克风采集到的时域信号为xs(t),则FFT后麦克风i对应的频域信号表示为Xi(k),标准麦克风对应的频域信号表示为Xs(k),其中,k为频点,可以获取在能量值Ei、频点k下麦克风i与标准麦克风二者的频响,表示如下:
其中,i取值为1,2,3,……,M,M表示小型麦克风阵列中麦克风的个数。例如,M取值为15。这样的话,可以得到一个256*15的频域-能量值映射矩阵,即上述映射关系,部分结果如图4所示。
参考图4,横轴为频点,纵轴为频响,不同曲线代表能量值的不同。从图4中可以明显看到映射关系随着能量值变化的差异性。
本公开的实施例提供的技术方案可以包括以下有益效果:一方面,利用消音环境降低周围环境造成的干扰;另一方面,考虑到麦克风频响曲线与能量值的非线性,通过将测试音频信号设置为呈阶梯变化的能量信号,来获取频点在不同能量值下对应的频响,为后续实际应用中获取频点对应的归一化后的能量值提供数据支撑。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种信号处理设备的结构示意图。本公开实施例提供一种信号处理设备,该信号处理设备可通过硬件和/或软件的方式实现,相应描述可参考如图1所示实施例,此处不再赘述。
如图5所示,信号处理设备50包括第一获取模块51、变换模块52、计算模块53、第二获取模块54和处理模块55。其中,
该获取模块51,被配置为获取待处理音频信号。
该变换模块52,被配置为通过对待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号。
该计算模块53,被配置为计算频域信号中多个频点的能量值。
该第二获取模块54,被配置为获取预设的映射关系。其中,该映射关系包括各频点在不同能量值下的频响。
该处理模块55,被配置为根据频点的能量值及第二获取模块54获得的映射关系,获取频点对应的归一化后的能量值。
综上所述,本实施例提供的信号处理设备,通过对获取的待处理音频信号进行时频变换,获取待处理音频信号对应的频域信号,并计算频域信号中多个频点的能量值,之后,获取预设的映射关系,该映射关系包括各频点在不同能量值下的频响,并根据频点的能量值及该映射关系,获取该频点对应的归一化后的能量值。由于麦克风的频响曲线与能量值是非线性的,导致不同麦克风在不同能量值下的频响也有不同,基于此,本实施例在实际应用中基于包含有频点和能量值的两个维度的映射关系确定该频点对应的归一化后的能量值,从而提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
在上述实施例的基础上,时频变换可以包括:FFT或小波变换。
上述提供了两种具体的时频转换实现方式:FFT或小波变换,将时域的待处理音频信号变换为频域信号。
一些实施例中,计算模块53可以被配置为:计算频域信号中前一半频点的能量值。利用信号在频域上的对称性,仅计算频域信号中前一般频点的能量值,从而可减小计算量,提升效率。
进一步地,计算模块53可以被配置为:计算去除低频频点后的频域信号中各频点的能量值。计算去除低频频点后的频域信号中各频点的能量值,一方面,可减少计算量;另一方面,可以降低低频的底噪干扰,进一步提升使用归一化后的能量值进行分布式语音唤醒决策的精度。
可选地,处理模块55可以被配置为:在映射关系中,确定频点下与所述频点的能量值最接近的第一能量值;确定频点在第一能量值下的频响;将频点的能量值与该频点在第一能量值下的频响相乘,获取该频点对应的归一化后的能量值。本实施例提供一种具体的获取频点对应的归一化后的能量值的实现方式。
可选地,上述映射关系是在消音环境下,根据标准麦克风及拾音设备中的麦克风二者基于测试音频信号的能量值获取的,该测试音频信号为呈阶梯变化的能量信号。
该实施例中,一方面,利用消音环境降低周围环境造成的干扰;另一方面,考虑到麦克风频响曲线与能量值的非线性,通过将测试音频信号设置为呈阶梯变化的能量信号,来获取频点在不同能量值下对应的频响,为后续实际应用中获取频点对应的归一化后的能量值提供数据支撑。
图6是根据另一示例性实施例示出的一种信号处理设备的结构示意图。参照图6,该信号处理设备800包括可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/ 输出(input/output,简称:I/O)接口812,传感器组件814,以及通信组件 816。
处理组件802通常控制信号处理设备800的整体操作,诸如与显示,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808 和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在信号处理设备800的操作。这些数据的示例包括用于在信号处理设备800上操作的任何应用程序或方法的指令等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称:SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称:EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称:EPROM),可编程只读存储器(Programmable Red-Only Memory,简称:PROM),只读存储器 (Read-Only Memory,简称:ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为信号处理设备800的各种组件提供电力。电源组件806 可以包括电源管理系统,一个或多个电源,及其他与为信号处理设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述信号处理设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括OLED显示屏和触摸面板 (Touch Panel,简称:TP)。如果OLED显示屏包括触摸面板,OLED显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个扬声器,用于输出音频信号。在一些实施例中,音频组件810还包括一个麦克风(Microphone,简称:MIC)。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为信号处理设备800提供各个方面的状态评估,例如,背包的肩带部分的压力值等。
通信组件816被配置为便于信号处理设备800和其他设备之间有线或无线方式的通信。信号处理设备800可以接入基于通信标准的无线网络,如 Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,所述通信组件816 还包括NFC模块,以促进短程通信。例如,在NFC模块可基于RFID技术,IrDA技术,UWB技术,BT技术和其他技术来实现。
在示例性实施例中,信号处理设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称:ASIC)、数字信号处理器(DigitalSignal Processor,简称:DSP)、数字信号处理设备(Digital Signal Processing Device,简称:DSPD)、可编程逻辑器件(Programmable Logic Device,简称:PLD)、现场可编程门阵列(Field Programmable Gate Array,简称: FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由信号处理设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random AccessMemory,简称:RAM)、只读光盘(Compact Disc Read-Only Memory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。
一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序由处理器执行时实现如上述任一实施例所述的信号处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种信号处理方法,其特征在于,包括:
获取待处理音频信号;
通过对所述待处理音频信号进行时频变换,获取所述待处理音频信号对应的频域信号;
计算所述频域信号中多个频点的能量值;
获取预设的映射关系,所述映射关系包括各频点在不同能量值下的频响;
根据所述频点的能量值及所述映射关系,获取所述频点对应的归一化后的能量值。
2.根据权利要求1所述的方法,其特征在于,所述时频变换包括:快速傅里叶变换FFT或小波变换。
3.根据权利要求1所述的方法,其特征在于,所述计算所述频域信号中多个频点的能量值,包括:
计算所述频域信号中前一半频点的能量值。
4.根据权利要求1所述的方法,其特征在于,所述计算所述频域信号中多个频点的能量值,包括:
计算去除低频频点后的频域信号中各频点的能量值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述频点的能量值及所述映射关系,获取所述频点对应的归一化后的能量值,包括:
在所述映射关系中,确定所述频点下与所述频点的能量值最接近的第一能量值;
确定所述频点在所述第一能量值下的频响;
将所述频点的能量值与所述频点在所述第一能量值下的频响相乘,获取所述频点对应的归一化后的能量值。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述映射关系是在消音环境下,根据标准麦克风及拾音设备中的麦克风二者基于测试音频信号的能量值获取的,所述测试音频信号为呈阶梯变化的能量信号。
7.一种信号处理设备,其特征在于,包括:
第一获取模块,被配置为获取待处理音频信号;
变换模块,被配置为通过对所述待处理音频信号进行时频变换,获取所述待处理音频信号对应的频域信号;
计算模块,被配置为计算所述频域信号中多个频点的能量值;
第二获取模块,被配置为获取预设的映射关系,所述映射关系包括各频点在不同能量值下的频响;
处理模块,被配置为根据所述频点的能量值及所述映射关系,获取所述频点对应的归一化后的能量值。
8.根据权利要求7所述的设备,其特征在于,所述时频变换包括:快速傅里叶变换FFT或小波变换。
9.根据权利要求7所述的设备,其特征在于,所述计算模块被配置为:
计算所述频域信号中前一半频点的能量值。
10.根据权利要求7所述的设备,其特征在于,所述计算模块被配置为:
计算去除低频频点后的频域信号中各频点的能量值。
11.根据权利要求7所述的设备,其特征在于,所述处理模块被配置为:
在所述映射关系中,确定所述频点下与所述频点的能量值最接近的第一能量值;
确定所述频点在所述第一能量值下的频响;
将所述频点的能量值与所述频点在所述第一能量值下的频响相乘,获取所述频点对应的归一化后的能量值。
12.根据权利要求7至11中任一项所述的设备,其特征在于,所述映射关系是在消音环境下,根据标准麦克风及拾音设备中的麦克风二者基于测试音频信号的能量值获取的,所述测试音频信号为呈阶梯变化的能量信号。
13.一种信号处理设备,其特征在于,包括:
处理器和用于存储可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以执行如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201910266670.0A 2019-04-03 2019-04-03 信号处理方法、设备及存储介质 Active CN109979469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910266670.0A CN109979469B (zh) 2019-04-03 2019-04-03 信号处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910266670.0A CN109979469B (zh) 2019-04-03 2019-04-03 信号处理方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109979469A true CN109979469A (zh) 2019-07-05
CN109979469B CN109979469B (zh) 2021-04-23

Family

ID=67082715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266670.0A Active CN109979469B (zh) 2019-04-03 2019-04-03 信号处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109979469B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462784A (zh) * 2020-03-24 2020-07-28 腾讯音乐娱乐科技(深圳)有限公司 确定具有双耳节拍的音频的方法、装置及计算机存储介质
CN112927705A (zh) * 2021-02-09 2021-06-08 Oppo广东移动通信有限公司 频响校准方法及相关产品
CN113709648A (zh) * 2021-08-27 2021-11-26 重庆紫光华山智安科技有限公司 一种麦克风扬声器协同测试方法、系统、介质及电子终端
US11272307B2 (en) 2020-03-10 2022-03-08 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for controlling recording volume, and storage medium
CN115249476A (zh) * 2022-07-15 2022-10-28 北京市燃气集团有限责任公司 一种基于语音识别的智能联动燃气灶具及智能联动方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
CN1971711A (zh) * 2005-06-28 2007-05-30 哈曼贝克自动系统-威美科公司 语音信号自适应增强系统
CN101740033A (zh) * 2008-11-24 2010-06-16 华为技术有限公司 一种音频编码方法和音频编码器
US20100274510A1 (en) * 2004-12-21 2010-10-28 Morrison John L Method of Detecting System Function by Measuring Frequency Response
CN101984680A (zh) * 2010-11-10 2011-03-09 瑞声声学科技(深圳)有限公司 压强麦克风测试装置及其测试方法
CN201928424U (zh) * 2010-10-29 2011-08-10 东莞宇龙通信科技有限公司 音源频率调整系统及终端
US20140161280A1 (en) * 2012-12-11 2014-06-12 Amx, Llc Audio signal correction and calibration for a room environment
CN103888868A (zh) * 2014-03-21 2014-06-25 刘海东 一种基于响度调控的声音还原方法
CN104811155A (zh) * 2015-04-20 2015-07-29 深圳市冠旭电子有限公司 一种均衡器调整方法及装置
CN105004937A (zh) * 2014-04-24 2015-10-28 是德科技股份有限公司 使用窄带补偿的噪声指数测量
CN105187594A (zh) * 2015-07-28 2015-12-23 小米科技有限责任公司 一种消除回声的方法和装置
CN105872753A (zh) * 2016-04-28 2016-08-17 深圳创维-Rgb电子有限公司 一种电视机音效的优化方法、优化系统及电视机
CN106452384A (zh) * 2015-08-10 2017-02-22 西安中兴新软件有限责任公司 一种音频调节方法及终端设备
US9793879B2 (en) * 2014-09-17 2017-10-17 Avnera Corporation Rate convertor
CN107993670A (zh) * 2017-11-23 2018-05-04 华南理工大学 基于统计模型的麦克风阵列语音增强方法
CN108540904A (zh) * 2018-04-24 2018-09-14 深圳市战音科技有限公司 一种改善音箱音效的方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
US20100274510A1 (en) * 2004-12-21 2010-10-28 Morrison John L Method of Detecting System Function by Measuring Frequency Response
CN1971711A (zh) * 2005-06-28 2007-05-30 哈曼贝克自动系统-威美科公司 语音信号自适应增强系统
CN101740033A (zh) * 2008-11-24 2010-06-16 华为技术有限公司 一种音频编码方法和音频编码器
CN201928424U (zh) * 2010-10-29 2011-08-10 东莞宇龙通信科技有限公司 音源频率调整系统及终端
CN101984680A (zh) * 2010-11-10 2011-03-09 瑞声声学科技(深圳)有限公司 压强麦克风测试装置及其测试方法
US20140161280A1 (en) * 2012-12-11 2014-06-12 Amx, Llc Audio signal correction and calibration for a room environment
CN103888868A (zh) * 2014-03-21 2014-06-25 刘海东 一种基于响度调控的声音还原方法
CN105004937A (zh) * 2014-04-24 2015-10-28 是德科技股份有限公司 使用窄带补偿的噪声指数测量
US9793879B2 (en) * 2014-09-17 2017-10-17 Avnera Corporation Rate convertor
CN104811155A (zh) * 2015-04-20 2015-07-29 深圳市冠旭电子有限公司 一种均衡器调整方法及装置
CN105187594A (zh) * 2015-07-28 2015-12-23 小米科技有限责任公司 一种消除回声的方法和装置
CN106452384A (zh) * 2015-08-10 2017-02-22 西安中兴新软件有限责任公司 一种音频调节方法及终端设备
CN105872753A (zh) * 2016-04-28 2016-08-17 深圳创维-Rgb电子有限公司 一种电视机音效的优化方法、优化系统及电视机
CN107993670A (zh) * 2017-11-23 2018-05-04 华南理工大学 基于统计模型的麦克风阵列语音增强方法
CN108540904A (zh) * 2018-04-24 2018-09-14 深圳市战音科技有限公司 一种改善音箱音效的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SRIDHAR JOSHI ET AL.: "《Sliding mode controlled half bridge audio amplifier using single power supply》", 《2014 IEEE ENERGY CONVERSION CONGRESS AND EXPOSITION (ECCE)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11272307B2 (en) 2020-03-10 2022-03-08 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method and device for controlling recording volume, and storage medium
CN111462784A (zh) * 2020-03-24 2020-07-28 腾讯音乐娱乐科技(深圳)有限公司 确定具有双耳节拍的音频的方法、装置及计算机存储介质
CN112927705A (zh) * 2021-02-09 2021-06-08 Oppo广东移动通信有限公司 频响校准方法及相关产品
CN112927705B (zh) * 2021-02-09 2023-08-29 Oppo广东移动通信有限公司 频响校准方法及相关产品
CN113709648A (zh) * 2021-08-27 2021-11-26 重庆紫光华山智安科技有限公司 一种麦克风扬声器协同测试方法、系统、介质及电子终端
CN115249476A (zh) * 2022-07-15 2022-10-28 北京市燃气集团有限责任公司 一种基于语音识别的智能联动燃气灶具及智能联动方法

Also Published As

Publication number Publication date
CN109979469B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN109979469A (zh) 信号处理方法、设备及存储介质
US10510360B2 (en) Enhancing audio signals using sub-band deep neural networks
CN108538311B (zh) 音频分类方法、装置及计算机可读存储介质
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
US11941968B2 (en) Systems and methods for identifying an acoustic source based on observed sound
JP4854533B2 (ja) 音響判定方法、音響判定装置及びコンピュータプログラム
CN106664473A (zh) 信息处理装置、信息处理方法和程序
CN109597022A (zh) 声源方位角运算、定位目标音频的方法、装置和设备
US10430896B2 (en) Information processing apparatus and method that receives identification and interaction information via near-field communication link
WO2019105238A1 (zh) 重构语音信号的方法、终端及计算机存储介质
CN110782911A (zh) 音频信号处理方法、装置、设备和存储介质
CN109994127A (zh) 音频检测方法、装置、电子设备及存储介质
CN108968972B (zh) 柔性疲劳检测装置以及信息处理方法及装置
CN108831508A (zh) 语音活动检测方法、装置和设备
KR20150130854A (ko) 오디오 신호 인식 방법 및 이를 제공하는 전자 장치
CN109308900A (zh) 耳机装置、语音处理系统和语音处理方法
AU2022275486A1 (en) Methods and apparatus to fingerprint an audio signal via normalization
CN109754823A (zh) 一种语音活动检测方法、移动终端
CN109756818A (zh) 双麦克风降噪方法、装置、存储介质及电子设备
Diaconita et al. Do you hear what i hear? using acoustic probing to detect smartphone locations
CN111613246A (zh) 一种音频分类提示方法以及相关设备
US8095373B2 (en) Robot apparatus with vocal interactive function and method therefor
US20210208664A1 (en) Methods and apparatus to detect proximity of objects to computing devices using near ultrasonic sound waves
CN108983976A (zh) 柔性交互装置以及信息交互方法及装置
US20210116983A1 (en) Methods and apparatus for acoustic noise mitigation of electronic noise using adaptive sensing and control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221221

Address after: No. 006, 1st Floor, No. 66, Jiufeng 1st Road, Wuhan East Lake New Technology Development Zone, Wuhan City, Hubei Province, 430000 (Free Trade Zone Wuhan Area)

Patentee after: Xiaomi Technology (Wuhan) Co.,Ltd.

Address before: Room 101-103, 1 / F, unit 2, building F, lin66, Zhufang Road, Haidian District, Beijing 100085

Patentee before: BEIJING XIAOMI INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right