CN112786066B - 音频信号筛选方法、装置及电子设备 - Google Patents

音频信号筛选方法、装置及电子设备 Download PDF

Info

Publication number
CN112786066B
CN112786066B CN202011545460.4A CN202011545460A CN112786066B CN 112786066 B CN112786066 B CN 112786066B CN 202011545460 A CN202011545460 A CN 202011545460A CN 112786066 B CN112786066 B CN 112786066B
Authority
CN
China
Prior art keywords
audio signal
frame
signal
noise
noise reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011545460.4A
Other languages
English (en)
Other versions
CN112786066A (zh
Inventor
刘鲁鹏
元海明
李贝
王晓红
陈佳路
高强
夏龙
郭常圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ape Power Future Technology Co Ltd
Original Assignee
Beijing Ape Power Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ape Power Future Technology Co Ltd filed Critical Beijing Ape Power Future Technology Co Ltd
Priority to CN202011545460.4A priority Critical patent/CN112786066B/zh
Publication of CN112786066A publication Critical patent/CN112786066A/zh
Application granted granted Critical
Publication of CN112786066B publication Critical patent/CN112786066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请是关于一种音频信号筛选方法、装置及电子设备。该方法包括:确定音频信号中每帧音频信号的信噪比;根据音频信号的总帧数和所述每帧音频信号的信噪比,确定每帧音频信号的平均信噪比;根据所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号。本申请提供的方案,能够简单有效地实现筛选出背景噪声小的目标音频信号,具有更好的通用性。

Description

音频信号筛选方法、装置及电子设备
技术领域
本申请涉及语音识别技术领域,尤其涉及一种音频信号筛选方法、装置及电子设备。
背景技术
随着人工智能技术的发展,音频处理技术也在不断发展,其广泛应用于人们的日常生活和工作中,例如在各种智能终端使用语音识别技术。
在语音识别的人工智能领域,需要大量的音频信号样本进行机器学习,音频信号样本的质量会直接影响到机器学习过程中训练模型的准确程度。而日常生活中收集到的音频信号会存在有大量噪声,不利于语音类别的模型训练,因此需要在众多音频信号中筛选出噪声较小的音频信号。相关技术中的音频筛选方法,通过将待筛选的音频的特征和目标音频(满足噪声要求的音频)的特征进行对比,若对比结果满足预设条件,则将待筛选音频作为可用音频或作为训练样本。
但是,相关技术所实施的方案,在进行特征对比之前,需要对每个音频信号进行特征提取,音频特征提取不易,可能因为音频特征提取有误,导致筛选的准确性不高;另外根据不同类别或功能的训练需求,音频特征提取需要设定相应的特征提取模型,特征提取模型的通用性不高,实现的复杂度较大。
发明内容
为克服相关技术中存在的问题,本申请提供一种音频信号筛选方法、装置及电子设备,该音频信号筛选方法能够简单有效地实现筛选出背景噪声小的目标音频信号,具有更好的通用性。
本申请第一方面提供一种音频信号筛选方法,包括:
确定音频信号中每帧音频信号的信噪比;
根据音频信号的总帧数和所述每帧音频信号的信噪比,确定每帧音频信号的平均信噪比;该步骤中,将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比;根据所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号;
所述确定音频信号中每帧音频信号的信噪比,包括:
将所述音频信号进行分帧;
将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比;
所述根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比,包括:
根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;该步骤将降噪前的每帧音频信号的信号能量减去降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据所述降噪后的每帧音频信号的信号能量与所述噪声能量的比值,进行对数运算,确定所述降噪前的每帧音频信号的信噪比。在一种实施方式中,所述根据所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号,包括:
根据所述每帧音频信号的平均信噪比大于所述设定信噪比阈值,确定所述音频信号为目标音频信号。
在一种实施方式中,所述将所述音频信号进行分帧,包括:
按预设时间长度将所述音频信号进行分帧;
其中如果所述音频信号的音频长度未满足所述预设时间长度的整数倍,对所述音频信号尾部进行补零处理使得满足所述预设时间长度的整数倍后,再分进行分帧。
本申请第二方面提供一种音频信号筛选装置,包括:
每帧信噪比模块,用于确定音频信号中每帧音频信号的信噪比;
平均信噪比模块,用于根据音频信号的总帧数和所述每帧信噪比模块确定的所述每帧音频信号的信噪比,确定所述每帧音频信号的平均信噪比;该步骤中,将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比;
筛选模块,用于根据所述平均信噪比模块确定的所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号;
所述每帧信噪比模块包括:
分帧子模块,用于将所述音频信号进行分帧;
降噪子模块,用于将所述分帧子模块得到的每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
确定子模块,用于根据所述降噪子模块得到的降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比;
所述根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比,包括:
根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;该步骤将降噪前的每帧音频信号的信号能量减去降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据所述降噪后的每帧音频信号的信号能量与所述噪声能量的比值,进行对数运算,确定所述降噪前的每帧音频信号的信噪比。
在一种实施方式中,所述分帧子模块按预设时间长度将所述音频信号进行分帧;其中如果所述音频信号的音频长度未满足所述预设时间长度的整数倍,对所述音频信号尾部进行补零处理使得满足所述预设时间长度的整数倍后,再分进行分帧。
本申请第三方面提供一种电子设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当该可执行代码被该处理器执行时,使该处理器执行如上该的方法。
本申请第四方面提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当该可执行代码被电子设备的处理器执行时,使该处理器执行如上该的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请技术方案先确定音频信号(即待筛选音频信号)中每帧音频信号的信噪比;根据音频信号的总帧数和所述每帧音频信号的信噪比,确定每帧音频信号的平均信噪比;然后就可以根据所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号,也即可通过将每帧音频信号的平均信噪比与设定信噪比阈值(即信噪比的经验阈值)的比较来判断待筛选音频信号的背景噪声大小,从而筛选出背景噪声小的目标音频信号。该筛选方法简单有效,通用性强,能够有效降低音频信号筛选的复杂度,提高筛选效率。
本申请技术方案可以将所述音频信号进行分帧处理;再将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请实施例示出的音频信号筛选方法的流程示意图;
图2是本申请实施例示出的音频信号筛选方法的另一流程示意图;
图3是本申请实施例示出的音频信号的分帧处理示意图;
图4是本申请实施例示出的音频信号筛选装置的结构示意图;
图5是本申请实施例示出的音频信号筛选装置的另一结构示意图;
图6是本申请实施例示出的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“该”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在语音识别的人工智能领域,需要大量的音频信号样本进行模型训练,而日常生活中收集到的音频信号会存在有大量噪声,不利于语音类别的模型训练,因此需要在众多音频信号中筛选出噪声较小的音频信号。相关技术中,将待筛选的音频的特征和目标音频(满足噪声要求的音频)的特征进行对比,若对比结果满足预设条件,则将待筛选音频可用音频或作为训练样本。而在进行特征对比之前,需要对每个音频信号进行特征提取,音频特征提取不易,可能因为音频特征提取有误,导致筛选的准确性不高,且筛选效率较低。
针对上述问题,本申请实施例提供一种音频信号筛选方法,能够简单有效地实现筛选出背景噪声小的目标音频信号。
以下结合附图详细描述本申请实施例的技术方案。
图1是本申请实施例示出的音频信号筛选方法的流程示意图。
参见图1,本申请实施例中音频信号筛选方法的一个实施例包括:
步骤101、确定音频信号中每帧音频信号的信噪比。
信噪比(SNR,SIGNAL-NOISE RATIO)是指一个电子设备或者电子系统中信号与噪声的比例。在本申请实施例中,每帧音频信号的信噪比指的是音频信号的每帧音频信号中有效声音信号与背景噪声的比例。
该步骤中,可以将音频信号进行分帧;将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定降噪前的每帧音频信号的信噪比。
在本申请实施例中,对音频信号进行降噪处理的算法,可以为最小值跟踪噪声估计算法,最小值控制的递归平均算法(Minimum Controlled Regressive Averaging,MCRA),或基于维纳过滤的最小值控制递归平均(Improved minimum control recursionaverage,IMCRA)算法。
可以理解的是,本申请实施例对降噪处理算法并不限定,可以为任意能够降低音频信号中背景噪声的算法。
步骤102、根据音频信号的总帧数和每帧音频信号的信噪比,确定每帧音频信号的平均信噪比。
该步骤中,将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比。
步骤103、根据每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定音频信号是否为目标音频信号。
其中,设定信噪比阈值为判断每帧音频信号中背景噪声大小的经验阈值。在本申请实施例中,预设了一个经验阈值,即设定信噪比阈值,如果每帧音频信号的平均信噪比大于该设定信噪比阈值,则确定音频信号为目标音频信号,也即背景噪音较小的干净音频信号。
在实际应用中,可以根据实际需求,设定信噪比阈值的取值范围在15至25dB之间,例如可以为20dB。
本申请技术方案先确定音频信号(即待筛选音频信号)中每帧音频信号的信噪比;根据音频信号的总帧数和每帧音频信号的信噪比,确定每帧音频信号的平均信噪比;然后就可以根据每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定音频信号是否为目标音频信号,也即可通过将每帧音频信号的平均信噪比与设定信噪比阈值(即信噪比的经验阈值)的比较来判断待筛选音频信号的背景噪声大小,从而筛选出背景噪声小的目标音频信号。该筛选方法简单有效,通用性强,能够有效降低音频信号筛选的复杂度,提高筛选效率。
为了便于理解,以下提供了音频信号筛选方法的一个应用实施例进行说明,本申请实施例中音频信号筛选方法的一个实施例包括:
在本申请实施例中,假设语音识别的训练模型需要识别带有环境声音中的说话人声,该训练模型的训练样本需要背景噪声较小(或者说满足低背景噪声要求)的说话人声的音频信号。本申请实施例中待筛选音频信号的背景噪声可以为环境声音,即本申请实施例需要筛选出环境声音符合要求的音频信号,作为训练模型的训练样本。
图2是本申请实施例示出的音频信号筛选方法的另一流程示意图。
参见图2,本申请实施例中音频信号筛选方法的一个实施例包括:
步骤201、将音频信号进行分帧。
在本申请实施例中,假设音频信号为x,也即待筛选的音频信号。
该步骤可以按预设时间长度将音频信号进行分帧;其中如果音频信号的音频长度未满足预设时间长度的整数倍,对音频信号尾部进行补零处理使得满足预设时间长度的整数倍后,再分进行分帧。
例如,对音频信号x进行分帧,每帧长度可以为预设时间长度例如32ms,若音频长度不足32ms的整数倍,可以先对音频信号x尾部补零,使音频信号x的长度达到32ms的整数倍后再进行分帧。分帧的方法可以参见图3所示,帧与帧之间不重叠,可以将分帧后的各帧音频信号记为:
xi,i=1,2,...,n。其中,n为音频信号x的总帧数。需说明的是,32ms为经验值,可根据需要进行调整。
步骤202、将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号。
该步骤对xi进行降噪,得到降噪后的每帧音频信号si
在本申请实施例中,对音频信号进行降噪处理的算法,可以为最小值跟踪噪声估计算法,最小值控制的递归平均算法(Minimum Controlled Regressive Averaging,MCRA),或基于维纳过滤的最小值控制递归平均(Improved minimum control recursionaverage,IMCRA)算法。
需说明的是,其中对音频信号进行降噪处理所选择的算法并不限定,也即降噪算法无限制,只要能够消除音频信号中的背景噪声即可。
步骤203、分别计算每帧音频信号降噪前与降噪后的信号能量,得到降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量。
在本申请实施例中,可以确定降噪前的每帧音频信号xi的M个采样点,根据该降噪前的每帧音频信号xi中M个采样点分别对应的采样值,计算降噪前的每帧音频信号xi的信号能量。示例性的,可以根据以下公式计算该降噪前的每帧音频信号xi的信号能量Ex_i
Figure GDA0004045270550000091
其中,Ex_i为降噪前的每帧音频信号xi的信号能量,M为该降噪前的每帧音频信号xi中的采样点总数,xi,j表示每帧音频信号xi中第j个采样点的取值。
在本申请实施例中,可以确定降噪后的每帧音频信号si与降噪前的每帧音频信号xi对应位置的M个采样点,根据该降噪后的每帧音频信号si中M个采样点分别对应的采样值,计算该降噪后的每帧音频信号si的信号能量。示例性的,可以根据以下公式计算该降噪后的每帧音频信号si的信号能量Es_i
Figure GDA0004045270550000092
其中,Es_i为降噪后的每帧音频信号si的信号能量,M为该降噪后的每帧音频信号si中的采样点总数,si,j表示每帧音频信号si中第j个采样点的取值。
可以理解的是,在实际应用中,对音频信号能量的计算还可以有其他方法实现,以上算法描述仅是示例性,不应作为音频信号能量计算的唯一限定。
步骤204、根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量。
该步骤将降噪前的每帧音频信号的信号能量减去降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量。
该步骤计算降噪前的每帧音频信号的噪声能量,也即计算xi的噪声能量,记为En_
示例性的,可以根据以下公式计算xi的噪声能量En_
En_=Ex_-Es_i
其中,En_为xi的噪声能量,Es_为降噪后的每帧音频信号si的信号能量,Ex_为降噪前的每帧音频信号xi的信号能量。
步骤205、根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定降噪前的每帧音频信号的信噪比。
该步骤根据降噪后的每帧音频信号的信号能量与噪声能量的比值,进行对数运算,确定降噪前的每帧音频信号的信噪比。
记降噪前的每帧音频信号xi的信噪比为snri,示例性的,可以根据以下公式计算该信噪比:
snri=10log10(Es_i/En_)
其中,snri为降噪前的每帧音频信号xi的信噪比,Es_为降噪后的每帧音频信号的信号能量,En_为降噪前的每帧音频信号的噪声能量。
步骤206、根据音频信号的总帧数和降噪前的每帧音频信号的信噪比,确定降噪前的每帧音频信号的平均信噪比。
该步骤中,将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比。
该步骤计算降噪前的每帧音频信号的平均信噪比snr_avg,示例性的,可以根据以下公式计算:
Figure GDA0004045270550000101
其中,snr_avg为每帧音频信号的平均信噪比,n为音频信号x的总帧数。
步骤207、根据每帧音频信号的平均信噪比大于设定信噪比阈值,确定音频信号为目标音频信号。
在本申请实施例中,假设音频信号中snr_avg的经验阈值,即snr_avg的设定信噪比阈值snrthresh为20dB。需说明的是,设定信噪比阈值为20dB只是举例说明但不局限于此,根据需要可调整。若snr_avg>snrthresh,则表示音频信号x的背景噪声较少,确定音频信号x为目标音频信号,可以将该音频信号x选入语音识别模型训练的样本库。反之,则丢弃音频信号x。
在本申请实施例中,假设需要构建样本语音库,其中,样本语音库可以为不同距离和不同方位的周围用户相对于目标用户所发出的历史语音数据以及与历史语音数据相对应的历史文本数据;其中,历史语音数据可以包括常用沟通用语语音数据,历史文本数据包括常用沟通用语文本数据;常用沟通用语包括目标用户的名字、称谓、周围用户与目标用户之间的聊天常用语、周围用户与目标用户之间的打招呼用语等。样本语音库中的音频信号皆为经过本申请实施例中音频信号筛选方法筛选后的背景噪声较小的音频信号,使得使用该样本语音库进行模型训练时,训练效果能够更加优秀。
与前述应用功能实现方法实施例相对应,本申请还提供了一种音频信号筛选装置、电子设备及相应的实施例。
图4是本申请实施例示出的音频信号筛选装置的结构示意图。
参见图4,该音频信号筛选装置包括:每帧信噪比模块401、平均信噪比模块402、筛选模块403。
每帧信噪比模块401,用于确定音频信号中每帧音频信号的信噪比。
平均信噪比模块402,用于根据音频信号的总帧数和每帧信噪比模块401确定的每帧音频信号的信噪比,确定每帧音频信号的平均信噪比。
平均信噪比模块402可以将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比。
筛选模块403,用于根据平均信噪比模块402确定的每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定音频信号是否为目标音频信号。
筛选模块403可以根据每帧音频信号的平均信噪比大于该设定信噪比阈值,则确定音频信号为目标音频信号,也即背景噪音较小的干净音频信号。其中,该设定信噪比阈值为经验阈值。在实际应用中,可以根据实际需求,设定信噪比阈值的取值范围在15至25dB之间,例如可以为20dB。
本申请技术方案先确定音频信号(即待筛选音频信号)中每帧音频信号的信噪比;根据音频信号的总帧数和每帧音频信号的信噪比,确定每帧音频信号的平均信噪比;然后就可以根据每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定音频信号是否为目标音频信号,也即可通过将每帧音频信号的平均信噪比与设定信噪比阈值(即信噪比的经验阈值)的比较来判断待筛选音频信号的背景噪声大小,从而筛选出背景噪声小的目标音频信号。该筛选方法简单有效,通用性强,能够有效降低音频信号筛选的复杂度,提高筛选效率。
图5是本申请实施例示出的音频信号筛选装置的另一结构示意图。
参见图5,该音频信号筛选装置包括:每帧信噪比模块401、平均信噪比模块402、筛选模块403。
其中,每帧信噪比模块401、平均信噪比模块402、筛选模块403的功能可以参见图4中的描述,此处不再赘述。
每帧信噪比模块401还可以包括:分帧子模块4011、降噪子模块4012、确定子模块4013。
分帧子模块4011,用于将音频信号进行分帧。
其中,分帧子模块4011按预设时间长度将音频信号进行分帧;其中如果音频信号的音频长度未满足预设时间长度的整数倍,对音频信号尾部进行补零处理使得满足预设时间长度的整数倍后,再分进行分帧。
降噪子模块4012,用于将分帧子模块4011得到的每帧音频信号进行降噪处理,得到降噪后的每帧音频信号。
降噪子模块4012对音频信号进行降噪处理所选择的算法并不限定,也即降噪算法无限制,只要能够消除音频信号中的背景噪声即可。
确定子模块4013,用于根据降噪子模块4012得到的降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定降噪前的每帧音频信号的信噪比。
确定子模块4013可以根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据降噪后的每帧音频信号的信号能量与噪声能量的比值,进行对数运算,确定降噪前的每帧音频信号的信噪比。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图6是本申请实施例示出的电子设备的结构示意图。该电子设备可以移动终端设备或服务器设备等。
参见图6,电子设备600包括存储器610和处理器620。
处理器620可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器610可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器610可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器610可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器610上存储有可执行代码,当可执行代码被处理器620处理时,可以使处理器620执行上文述及的方法中的部分或全部。
上文中已经参考附图详细描述了本申请的方案。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。本领域技术人员也应该知悉,说明书中所涉及的动作和模块并不一定是本申请所必须的。另外,可以理解,本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当该可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使该处理器执行根据本申请的上述方法的各个步骤的部分或全部。
本领域技术人员还将明白的是,结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本申请的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (7)

1.一种音频信号筛选方法,其特征在于,包括:
确定音频信号中每帧音频信号的信噪比;
根据音频信号的总帧数和所述每帧音频信号的信噪比,确定每帧音频信号的平均信噪比;该步骤中,将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比;
根据所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号;
所述确定音频信号中每帧音频信号的信噪比,包括:
将所述音频信号进行分帧;
将每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比;
所述根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比,包括:
根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;该步骤将降噪前的每帧音频信号的信号能量减去降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据所述降噪后的每帧音频信号的信号能量与所述噪声能量的比值,进行对数运算,确定所述降噪前的每帧音频信号的信噪比。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号,包括:
根据所述每帧音频信号的平均信噪比大于所述设定信噪比阈值,确定所述音频信号为目标音频信号。
3.根据权利要求1所述的方法,其特征在于,所述将所述音频信号进行分帧,包括:
按预设时间长度将所述音频信号进行分帧;
其中如果所述音频信号的音频长度未满足所述预设时间长度的整数倍,对所述音频信号尾部进行补零处理使得满足所述预设时间长度的整数倍后,再分进行分帧。
4.一种音频信号筛选装置,其特征在于,包括:
每帧信噪比模块,用于确定音频信号中每帧音频信号的信噪比;
平均信噪比模块,用于根据音频信号的总帧数和所述每帧信噪比模块确定的所述每帧音频信号的信噪比,确定所述每帧音频信号的平均信噪比;将每帧音频信号的信噪比进行求和运算后,再与音频信号的总帧数进行相除运算,可以得到每帧音频信号的平均信噪比;
筛选模块,用于根据所述平均信噪比模块确定的所述每帧音频信号的平均信噪比与设定信噪比阈值的比较结果,确定所述音频信号是否为目标音频信号;
所述每帧信噪比模块包括:
分帧子模块,用于将所述音频信号进行分帧;
降噪子模块,用于将所述分帧子模块得到的每帧音频信号进行降噪处理,得到降噪后的每帧音频信号;
确定子模块,用于根据所述降噪子模块得到的降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比;
所述根据降噪后的每帧音频信号的信号能量与降噪前的每帧音频信号的噪声能量,确定所述降噪前的每帧音频信号的信噪比,包括:
根据降噪前的每帧音频信号的信号能量与降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;将降噪前的每帧音频信号的信号能量减去降噪后的每帧音频信号的信号能量,得到降噪前的每帧音频信号的噪声能量;
根据所述降噪后的每帧音频信号的信号能量与所述噪声能量的比值,进行对数运算,确定所述降噪前的每帧音频信号的信噪比。
5.根据权利要求4所述的装置,其特征在于:
所述分帧子模块按预设时间长度将所述音频信号进行分帧;其中如果所述音频信号的音频长度未满足所述预设时间长度的整数倍,对所述音频信号尾部进行补零处理使得满足所述预设时间长度的整数倍后,再分进行分帧。
6.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-3中任一项所述的方法。
7.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-3中任一项所述的方法。
CN202011545460.4A 2020-12-24 2020-12-24 音频信号筛选方法、装置及电子设备 Active CN112786066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011545460.4A CN112786066B (zh) 2020-12-24 2020-12-24 音频信号筛选方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011545460.4A CN112786066B (zh) 2020-12-24 2020-12-24 音频信号筛选方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112786066A CN112786066A (zh) 2021-05-11
CN112786066B true CN112786066B (zh) 2023-03-14

Family

ID=75752033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011545460.4A Active CN112786066B (zh) 2020-12-24 2020-12-24 音频信号筛选方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112786066B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496698B (zh) * 2021-08-12 2024-01-23 云知声智能科技股份有限公司 训练数据的筛选方法、装置、设备和存储介质
CN114283840B (zh) * 2021-12-22 2023-04-18 天翼爱音乐文化科技有限公司 一种指令音频生成方法、系统、装置与存储介质
CN115811574B (zh) * 2023-02-03 2023-06-16 合肥炬芯智能科技有限公司 一种声音信号处理方法、装置、主设备和分体式会议系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
CN108597498A (zh) * 2018-04-10 2018-09-28 广州势必可赢网络科技有限公司 一种多麦克风语音采集方法及装置
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN111863008A (zh) * 2020-07-07 2020-10-30 北京达佳互联信息技术有限公司 一种音频降噪方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
CN108597498A (zh) * 2018-04-10 2018-09-28 广州势必可赢网络科技有限公司 一种多麦克风语音采集方法及装置
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN111863008A (zh) * 2020-07-07 2020-10-30 北京达佳互联信息技术有限公司 一种音频降噪方法、装置及存储介质

Also Published As

Publication number Publication date
CN112786066A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112786066B (zh) 音频信号筛选方法、装置及电子设备
JP2006003899A (ja) ゲイン制約ノイズ抑圧
CN106024002B (zh) 时间零收敛单麦克风降噪
CN108806707B (zh) 语音处理方法、装置、设备及存储介质
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
WO2019241608A1 (en) Deep neural network based speech enhancement
CN112802463B (zh) 一种音频信号筛选方法、装置及设备
US20160180155A1 (en) Electronic device and method for processing voice in video
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
US20230162754A1 (en) Automatic Leveling of Speech Content
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
CN113611329A (zh) 一种语音异常检测的方法及装置
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
CN112652323B (zh) 音频信号筛选方法、装置、电子设备及存储介质
CN112750453B (zh) 一种音频信号筛选方法、装置、设备及存储介质
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
US20090150164A1 (en) Tri-model audio segmentation
CN108899041B (zh) 语音信号加噪方法、装置及存储介质
CN115954013A (zh) 一种语音处理的方法、装置、设备和存储介质
CN115171735A (zh) 一种语音活动检测方法、存储介质及电子设备
CN111145770B (zh) 音频处理方法和装置
Lu et al. Temporal modulation normalization for robust speech feature extraction and recognition
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
US20240170004A1 (en) Context aware audio processing
KR100639930B1 (ko) 자동음성인식시스템의 음성 2단 끝점검출 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant