CN110853671A - 一种音频特征提取方法和装置、训练方法及音频分类方法 - Google Patents
一种音频特征提取方法和装置、训练方法及音频分类方法 Download PDFInfo
- Publication number
- CN110853671A CN110853671A CN201911057463.0A CN201911057463A CN110853671A CN 110853671 A CN110853671 A CN 110853671A CN 201911057463 A CN201911057463 A CN 201911057463A CN 110853671 A CN110853671 A CN 110853671A
- Authority
- CN
- China
- Prior art keywords
- audio
- frequency
- extracted
- frequency point
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001228 spectrum Methods 0.000 claims abstract description 102
- 238000013145 classification model Methods 0.000 claims description 38
- 206010011469 Crying Diseases 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 6
- 230000000737 periodic effect Effects 0.000 description 16
- 230000000474 nursing effect Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种音频特征提取方法和装置、训练方法及音频分类方法,提取方法包括:按照预设的窗口长度获取待提取音频;待提取音频包括M帧音频帧;计算每一音频帧对应的频谱,并对每一频谱进行分析,获得每一音频帧对应的基频;计算每一基频的k倍频率;根据每一音频帧对应的所述k倍频率和频谱,确定每一音频帧对应的k倍频率点;根据每一k倍频率点和预设的局部半径,从每一频谱中确定每一音频帧对应的特征频率点;将每一特征频率点对应的频率作为每一音频帧对应的特征频率,并根据M帧音频帧对应的特征频率,提取出待提取音频的音频特征。本发明能够提取出反映音频的周期性特点的音频特征,能用于对具有周期性特点的音频进行识别或分类。
Description
技术领域
本发明涉及音频特征提取技术领域,尤其涉及一种音频特征提取方法和装置、训练方法及音频分类方法。
背景技术
随着社会的发展,人力成本昂贵等问题逐渐涌现,现今婴儿看护方面的消费成本或时间成本越来越高,诸如婴儿看护器等可识别婴儿哭声的看护产品或家用安防产品越来越受到家长的青睐。当看护产品或家用安防产品检测到婴儿哭声后,自动向看护人员或家长发出警示,以便于及时照看婴儿。
婴儿哭声一般具有特定的周期性特点,其他声音难以模仿,可以很好地与其他声音区分开,用于婴儿哭声的检测中。然而,现有技术中还没有关于提取能反映音频的周期性特点的特征提取技术,还未能实现根据婴儿哭声的周期性特点将婴儿哭声与其他声音区分开。
发明内容
本发明实施例所要解决的技术问题在于,提供一种音频特征提取方法和装置、训练方法及音频分类方法,能够提取出反映音频的周期性特点的音频特征,能用于对婴儿哭声等具有周期性特点的音频进行识别或分类。
为了解决上述技术问题,第一方面,本发明提供了一种音频特征提取方法,所述方法包括:
按照预设的窗口长度获取待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定,所述待提取音频包括M帧音频帧,M>1;
计算每一所述音频帧对应的频谱,并对每一所述频谱进行分析,获得每一所述音频帧对应的基频;
计算每一所述基频的k倍频率,k≥1;
根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点;
根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点;其中,所述特征频率点为在所述k倍频率点的局部半径内,幅值最大且离所述k倍频率点最近的频率点;
将每一所述特征频率点对应的频率作为每一所述音频帧对应的特征频率,并根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征。
进一步的,所述频谱包括n个高频分量频谱,n>1,1≤k≤n;则所述根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点具体包括:
选取出每一所述频谱中的第k次高频分量频谱;
从每一所述第k次高频分量频谱中确定出每一所述音频帧对应的k倍频率点;其中,所述k倍频率点的频率与对应的所述k倍频率相同。
进一步的,所述根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点具体包括:
根据每一所述第k次高频分量频谱,获取在每一所述k倍频率点的局部半径内的所有邻近频率点的幅值;
对于每一所述第k次高频分量频谱,根据对应的所有所述邻近频率点的幅值,确定出所有的最大幅值频率点;
计算每一所述最大幅值频率点的频率与所述k倍频率的差值绝对值,并确定所有所述差值绝对值中的最小差值绝对值;
根据与所述最小差值绝对值对应的所述最大幅值频率点,从每一所述第k次高频分量频谱中确定每一所述音频帧对应的特征频率点。
进一步的,所述根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征具体包括:
将M帧所述音频帧对应的所述特征频率作为M个元素构建初始数组;
检测所述初始数组的首端或尾端是否包括若干个零元素;
若所述初始数组的首端或尾端包括若干个所述零元素,则采用插值算法对所述初始数组进行插值处理,并剔除所述首端和所述尾端的零元素,获得所述待提取音频的音频特征;
若所述初始数组的首端和尾端均不包括若干个零元素,则将所述初始数组作为所述待提取音频的音频特征。
进一步的,所述对每一所述频谱进行分析,获得每一所述音频帧对应的基频具体包括:
根据预设的基音估计器,获得每一所述音频帧对应的基频;其中,所述基音估计器为基于梳状滤波器的基音估计器、基于谐波正弦波语言模型的基音估计器或者基于频谱能量分析的基音估计器中的任意一种。
进一步的,所述待提取音频的所属目的类别为婴儿哭声类别。
为了解决相应的技术问题,第二方面,本发明还提供了一种音频特征提取装置,所述装置包括:
第一获取模块,用于按照预设的窗口长度获取待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定,所述待提取音频包括M帧音频帧,M>1;
第二获取模块,用于计算每一所述音频帧对应的频谱,并对每一所述频谱进行分析,获得每一所述音频帧对应的基频;
计算模块,用于计算每一所述基频的k倍频率,k≥1;
第一确定模块,用于根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点;
第二确定模块,用于根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点;其中,所述特征频率点为在所述k倍频率点的局部半径内,幅值最大且离所述k倍频率点最近的频率点;
提取模块,用于将每一所述特征频率点对应的频率作为每一所述音频帧对应的特征频率,并根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征。
为了解决相应的技术问题,第三方面,本发明还提供了一种音频分类模型的训练方法,所述方法包括:
构建音频分类初始模型;其中,所述音频分类初始模型对应的N种分类结果;
按照所述音频分类初始模型所属目的类别对应的音频最大周期,获取每一所述分类结果对应的若干个训练音频;其中,每一所述训练音频预先分配有与对应的所述分类结果相匹配的分类标识;
将所述训练音频作为所述待提取音频,根据如上述第一方面提供的任意一项所述的音频特征提取方法,提取每一所述训练音频对应的音频特征;
根据每一所述训练音频对应的音频特征和匹配的所述分类标识构建训练样本集;
根据所述训练样本集对所述音频分类初始模型进行训练,获得音频分类模型。
进一步的,所述音频分类初始模型所属目的类别为婴儿哭声分类模型;N取值为2,所述分类结果包括婴儿哭声和非婴儿哭声。
为了解决相应的技术问题,第四方面,本发明还提供了一种音频分类方法,所述方法包括:
获取待测音频,按照预设的窗口长度将所述待测音频划分为若干个待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定;
对于每一个所述待提取音频,根据如上述第一方面提供的任意一项所述的音频特征提取方法,提取出每一个所述待提取音频的音频特征;
将每一所述待提取音频的音频特征输入预先构建的音频分类模型,获得每一所述待提取音频对应的分类结果;其中,所述音频分类模型是根据上述第三方面提供的所述的音频分类模型的训练方法训练获得的。
上述提供的一种音频特征提取方法和装置能够提取出反映音频的周期性特点的音频特征,能用于婴儿哭声等具有周期性特点的音频的识别或分类中。上述提供的一种音频分类模型的训练方法,能够提取出反映训练音频的周期性特点的音频特征,训练出能够根据待测音频的周期性特点进行分类的音频分类模型。上述提供的一种音频分类方法,能够提取出反映待测音频的周期性特点的音频特征,能根据音频分类模型对待测音频进行分类。
附图说明
图1是本发明提供的一种音频特征提取方法的一个优选实施例的流程示意图;
图2是本发明提供的一种音频特征提取装置的一个优选实施例的结构示意图;
图3是本发明提供的一种音频分类模型的训练方法的一个优选实施例的流程示意图;
图4是本发明提供的一种音频分类方法的一个优选实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种音频特征提取方法,请参阅图1,图1是本发明提供的一种音频特征提取方法的一个优选实施例的流程示意图;具体的,所述方法包括:
S11、按照预设的窗口长度获取待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定,所述待提取音频包括M帧音频帧,M>1;
S12、计算每一所述音频帧对应的频谱,并对每一所述频谱进行分析,获得每一所述音频帧对应的基频;
S13、计算每一所述基频的k倍频率,k≥1;
S14、根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点;
S15、根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点;其中,所述特征频率点为在所述k倍频率点的局部半径内,幅值最大且离所述k倍频率点最近的频率点;
S16、将每一所述特征频率点对应的频率作为每一所述音频帧对应的特征频率,并根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征。
需要说明的是,待提取音频的所属目的类别是指需对待提取音频进行识别或分类的目的类别,例如若是将本申请的音频特征提取方法提取音频特征用于识别待提取音频是否为婴儿哭声,则待提取音频的所属目的类别为婴儿哭声类别;若是将本申请的音频特征提取方法提取音频特征用于识别待提取音频是否为黄鹂鸟声音,则待提取音频的所属目的类别为黄鹂鸟声音类别。本申请的音频特征提取方法可以用于提取任何适合的音频的目的类别中,在本发明的实施例中,以待提取音频的所属目的类别为婴儿哭声类别为例对本发明的技术方案进行阐述,但并不是限定本发明技术方案的运用范围。
具体实施时,在一定测试条件下获知婴儿哭声的最大持续时间为3秒,则音频最大周期对应为3秒,则按照3秒时间长度作为一个窗口长度,获取3秒的待提取音频;将3秒的待提取音频划分为M帧音频帧,每一帧音频帧的长度相同,可选的,每一帧音频帧的时间长度为10ms~30ms之间。对每一帧音频帧进行离散傅里叶变换计算或者快速傅里叶变换计算,获得每一帧音频帧的频谱。分别对每一帧音频帧对应的频谱进行分析,获得每一帧音频帧对应的基频,并任意选取一个k值,计算每一基频的k倍频率。在每一频谱中确定频率为k倍频率的k倍频率点。在每一频谱中,以k倍频率点为基准,确定在其局部半径内的所有邻近频率点,并确定所有邻近频率点的幅值。需要说明的是,每一频谱都有若干个邻近频率点。比较每一频谱的若干个邻近频率点的幅值大小,确定出幅值最大且离k倍频率点最近的频率点,以此频率点作为音频帧的特征频率点,获得M帧音频帧的M个特征频率点。将M个特征频率点对应的频率作为M个特征频率,按照M个音频帧的时间排列顺序对所述M个特征频率进行排布,获得待提取音频的音频特征。
需要说明的是,每一待提取音频由若干个时域点构成,可按照一定的音频采样率进行时域点的采集。例如,音频采样率为8KHz,窗口长度为3秒,则一个窗口长度的待提取音频含有24000个时域点。进一步将每一帧音频帧的时域点转换成频域点,获得每一帧音频帧的频谱。需要说明的是,待提取音频的所属目的类别为婴儿哭声类别时,上述实施例中最大持续时间为3秒,对应的音频最大周期为3秒,是本申请的发明人在一定条件下测得的,并不是待提取音频的所属目的类别为婴儿哭声类别时,对音频最大周期的取值的限定,本领域技术人员可以采用现有技术获知相应的音频最大周期。
需要说明的是,k的取值数量可以是一个或一个以上,当k的取值数量预设有一个以上时,则对于每一个k的取值,均提取k倍频率点,获得待提取音频的多个音频特征。例如,k的取值预设为3、4和5,则提取3倍频率点,从3倍频率点的局部半径内获取特征频率点,获得待提取音频第一个的音频特征;再提取4倍频率点,从4倍频率点的局部半径内获取特征频率点,获得待提取音频第二个的音频特征;进一步提取5倍频率点,从5倍频率点的局部半径内获取特征频率点,获得待提取音频第三个的音频特征。由此,一个待提取音频能提取出三个音频特征,后续可以综合这三个音频特征进行音频识别或分类。
需要说明的是,频谱可以是未进行谐波分量分析的频谱;也可以是包括若干条高频分量频谱的频谱,具体包括基频频谱和若干条谐波分量频谱,第1次高频分量频谱为基频频谱,第2次高频分量频谱为第2次谐波分量频谱,依次类推。K倍频率点可以是跟踪基频频谱确定的,也是是跟踪某次谐波分量频谱确定的。
本发明实施例提供的一种音频特征提取方法,能选取出待提取音频中每一帧音频帧的特征频率点,确定每一帧音频帧的特征频率;由于特征频率点是根据基频、k倍频率点局部半径内的最大幅值频率点确定的,每一帧音频帧的特征频率均与音频帧的基频、幅值相关联,通过M帧音频帧的特征频率便能反映待提取音频在基频、幅值上的周期性特点,能提取出反映音频周期性特点的音频特征,便于用于对具有周期性特点的声音进行识别或分类。
优选地,所述频谱包括n个高频分量频谱,n>1,1≤k≤n;则所述根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点具体包括:
选取出每一所述频谱中的第k次高频分量频谱;
从每一所述第k次高频分量频谱中确定出每一所述音频帧对应的k倍频率点;其中,所述k倍频率点的频率与对应的所述k倍频率相同。
在本优选实施例中,频谱包括n个高频分量频谱,既包括基频频谱,又包括各次的高频谐波分量频谱。k倍频率点为在第k次高频分量频谱中频率为k倍频率的频率点。例如,当k=1时,在基频谱线中跟踪确定k倍频率点,对应的k倍频率即为基频;当k=5时,在第5次高频分量频谱(第5次高频谐波分量频谱)中跟踪确定k倍频率点,对应的k倍频率即为基频的5倍。可选的,若k=1时,检测到基频的干扰较大,可以选择其他k值,进行k倍频率点的获取,提高音频特征的准确度。
优选地,所述根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点具体包括:
根据每一所述第k次高频分量频谱,获取在每一所述k倍频率点的局部半径内的所有邻近频率点的幅值;
对于每一所述第k次高频分量频谱,根据对应的所有所述邻近频率点的幅值,确定出所有的最大幅值频率点;
计算每一所述最大幅值频率点的频率与所述k倍频率的差值绝对值,并确定所有所述差值绝对值中的最小差值绝对值;
根据与所述最小差值绝对值对应的所述最大幅值频率点,从每一所述第k次高频分量频谱中确定每一所述音频帧对应的特征频率点。
具体的,对于每一第k次高频分量频谱,确定第k次高频分量频谱中的k倍频率点,以k倍频率点为基准,获取在局部半径内所有的邻近频率点以及每一邻近频率点的幅值,确定出所有的邻近频率点中幅值最大的最大幅值点。有可能在局部半径内,存在多个邻近频率点的幅值同时时最大的,即可能有多个最大幅值频率点。计算每一个最大幅值频率点的频率与k倍频率的差值绝对值,即确定了每一最大幅值频率点到k倍频率点的距离,选取差值绝对值中最小值作为最小差值绝对值,确定出离k倍频率点最近的最大幅值频率点,将最小差值绝对值对应的最大幅值点作为特征频率点。
需要说明的是,若无法在局部半径内搜到最大幅值频率点,则默认将特征频率设为0。可选的,局部半径的取值为1或2,局部半径的取值也可根据实际运用情况进行设置。
优选地,所述根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征具体包括:
将M帧所述音频帧对应的所述特征频率作为M个元素构建初始数组;
检测所述初始数组的首端或尾端是否包括若干个零元素;
若所述初始数组的首端或尾端包括若干个所述零元素,则采用插值算法对所述初始数组进行插值处理,并剔除所述首端和所述尾端的零元素,获得所述待提取音频的音频特征;
若所述初始数组的首端和尾端均不包括若干个零元素,则将所述初始数组作为所述待提取音频的音频特征。
具体的,由于获取的待提取音频时,刚开始获取的若干帧音频帧或最后获取的若干帧可能不存在基频,例如清音,即基频为0。则初始数组的首端和尾端可能包括若干个0。以T(i)表示第i帧音频帧的特征频率,T为初始数组,假设初始数组T=[0,0,30,33,33,36,36,39,39,39,36,36,30,0,0,0],首端和尾端存在0元素,则对初始数组T进行插值处理,从初始数组T中部的某些位置进行拉伸并插值,并将首端和尾端存在的0元素删除,保持一个窗口长度对应的特征频率数量,初始数组T可能为变T’=[30,31,32,33,36,36,39,39,39,39,36,36,35,33,30,30],则将数组T’作为待提取音频的音频特征。
优选地,所述对每一所述频谱进行分析,获得每一所述音频帧对应的基频具体包括:
根据预设的基音估计器,获得每一所述音频帧对应的基频;其中,所述基音估计器为基于梳状滤波器的基音估计器、基于谐波正弦波语言模型的基音估计器或者基于频谱能量分析的基音估计器中的任意一种。
本发明采用基于梳状滤波器的基音估计器、基于谐波正弦波语言模型的基音估计器或者基于频谱能量分析的基音估计器中的任意一种均可以获得音频帧的基频。本发明的基频还可以根据其他现有的方法获取基频。
优选地,所述待提取音频的所属目的类别为婴儿哭声类别。
具体实施时,在一定测试条件下获知待提取音频所属目的类别的音频最大周期,则按照音频最大周期作为一个窗口长度,按照窗口长度获取待提取音频,待提取音频包括M帧音频帧,M>1;计算每一音频帧对应的频谱,并对每一频谱进行分析,获得每一音频帧对应的基频;计算每一基频的k倍频率,k≥1;根据每一音频帧对应的k倍频率和频谱,确定每一音频帧对应的k倍频率点;根据每一k倍频率点和预设的局部半径,从每一频谱中确定每一音频帧对应的特征频率点;将每一特征频率点对应的频率作为每一音频帧对应的特征频率,并根据M帧音频帧对应的特征频率,提取出待提取音频的音频特征。
本发明实施例提供的一种音频特征提取方法,能选取出待提取音频中每一帧音频帧的特征频率点,确定每一帧音频帧的特征频率;由于特征频率点是根据基频、k倍频率点局部半径内的最大幅值频率点确定的,每一帧音频帧的特征频率均与音频帧的基频、幅值相关联,通过M帧音频帧的特征频率便能反映待提取音频在基频、幅值上的周期性特点,能提取出反映音频周期性特点的音频特征,便于用于对具有周期性特点的声音进行识别或分类。
本发明实施例还提供了一种音频特征提取装置,请参阅图2,图2是本发明提供的一种音频特征提取装置的一个优选实施例的结构示意图;具体的,所述装置包括:
第一获取模块11,用于按照预设的窗口长度获取待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定,所述待提取音频包括M帧音频帧,M>1;
第二获取模块12,用于计算每一所述音频帧对应的频谱,并对每一所述频谱进行分析,获得每一所述音频帧对应的基频;
计算模块13,用于计算每一所述基频的k倍频率,k≥1;
第一确定模块14,用于根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点;
第二确定模块15,用于根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点;其中,所述特征频率点为在所述k倍频率点的局部半径内,幅值最大且离所述k倍频率点最近的频率点;
提取模块16,用于将每一所述特征频率点对应的频率作为每一所述音频帧对应的特征频率,并根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征。
优选地,所述频谱包括n个高频分量频谱,n>1,1≤k≤n;则第一确定模块14具体包括:
选取单元,用于选取出每一所述频谱中的第k次高频分量频谱;
确定单元,用于从每一所述第k次高频分量频谱中确定出每一所述音频帧对应的k倍频率点;其中,所述k倍频率点的频率与对应的所述k倍频率相同。
优选地,所述第二确定模块15具体用于:
获取单元,用于根据每一所述第k次高频分量频谱,获取在每一所述k倍频率点的局部半径内的所有邻近频率点的幅值;
最大幅值频率点确定单元,用于对于每一所述第k次高频分量频谱,根据对应的所有所述邻近频率点的幅值,确定出所有的最大幅值频率点;
最小差值绝对值确定单元,用于计算每一所述最大幅值频率点的频率与所述k倍频率的差值绝对值,并确定所有所述差值绝对值中的最小差值绝对值;
特征频率点确定单元,用于根据与所述最小差值绝对值对应的所述最大幅值频率点,从每一所述第k次高频分量频谱中确定每一所述音频帧对应的特征频率点。
优选地,当所述提取模块16根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征时,所述提取模块16具体用于:
将M帧所述音频帧对应的所述特征频率作为M个元素构建初始数组;
检测所述初始数组的首端或尾端是否包括若干个零元素;
若所述初始数组的首端或尾端包括若干个所述零元素,则采用插值算法对所述初始数组进行插值处理,并剔除所述首端和所述尾端的零元素,获得所述待提取音频的音频特征;
若所述初始数组的首端和尾端均不包括若干个零元素,则将所述初始数组作为所述待提取音频的音频特征。
优选地,当所述第二获取模块12对每一所述频谱进行分析,获得每一所述音频帧对应的基频时,所述第二获取模块12具体用于:
根据预设的基音估计器,获得每一所述音频帧对应的基频;其中,所述基音估计器为基于梳状滤波器的基音估计器、基于谐波正弦波语言模型的基音估计器或者基于频谱能量分析的基音估计器中的任意一种。
优选地,所述待提取音频的所属目的类别为婴儿哭声类别。
本发明实施例提供的一种音频特征提取装置,能选取出待提取音频中每一帧音频帧的特征频率点,确定每一帧音频帧的特征频率;由于特征频率点是根据基频、k倍频率点局部半径内的最大幅值频率点确定的,每一帧音频帧的特征频率均与音频帧的基频、幅值相关联,通过M帧音频帧的特征频率便能反映待提取音频在基频、幅值上的周期性特点,能提取出反映音频周期性特点的音频特征,便于用于对具有周期性特点的声音进行识别或分类。
需要说明的是,本发明实施例提供的所述音频特征提取装置用于执行上述实施例所述的音频特征提取方法的步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本领域技术人员可以理解,所述音频特征提取装置的示意图仅仅是音频特征提取装置的示例,并不构成对音频特征提取装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述音频特征提取装置还可以包括输入输出设备、网络接入设备、总线等。
本发明实施例提供了一种音频分类模型的训练方法,请参阅图3,图3是本发明提供的一种音频分类模型的训练方法的一个优选实施例的流程示意图;具体的,所述方法包括:
S21、构建音频分类初始模型;其中,所述音频分类初始模型对应的N种分类结果;
S22、按照所述音频分类初始模型所属目的类别对应的音频最大周期,获取每一所述分类结果对应的若干个训练音频;其中,每一所述训练音频预先分配有与对应的所述分类结果相匹配的分类标识;
S23、将所述训练音频作为所述待提取音频,根据如上述实施例提供的任意一项所述的音频特征提取方法,提取每一所述训练音频对应的音频特征;
S24、根据每一所述训练音频对应的音频特征和匹配的所述分类标识构建训练样本集;
S25、根据所述训练样本集对所述音频分类初始模型进行训练,获得音频分类模型。
优选地,所述音频分类初始模型所属目的类别为婴儿哭声分类模型;N取值为2,所述分类结果包括婴儿哭声和非婴儿哭声。
本发明提供的音频分类模型的训练方法,对每一分类结果对应的所有训练音频按照上述实施例提供的音频特征提取方法进行音频特征提取,获得能反映训练音频的周期性特点的音频特征,并将每一训练音频的音频特征和分类标识对预先构建的音频分类初始模型进行训练,通过训练学习后获得音频分类模型,该音频分类模型便能用于分析获取待测音频的分类结果,本发明提供的音频分类模型的训练方法能够训练出用于根据音频的周期性特点对待测音频进行识别或分类的模型。当音频分类模型为婴儿哭声分类模型时,能训练出用于识别待测音频是否为婴儿哭声的模型。
需要说明的是,本发明实施例提供的所述一种音频分类模型的训练方法,其训练音频的音频特征根据上述实施例所述的音频特征提取方法提取,提取音频特征的具体原理和有益效果与上述实施例所述的音频特征提取方法相对应,因而不再赘述。
本发明实施例还提供了一种音频分类方法,请参阅图4,图4是本发明提供的一种音频分类方法的一个优选实施例的流程示意图;具体的,所述方法包括:
S31、获取待测音频,按照预设的窗口长度将所述待测音频划分为若干个待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定;
S32、对于每一个所述待提取音频,根据如上述实施例提供的任意一项所述的音频特征提取方法,提取出每一个所述待提取音频的音频特征;
S33、将每一所述待提取音频的音频特征输入预先构建的音频分类模型,获得每一所述待提取音频对应的分类结果;其中,所述音频分类模型是根据如上述实施例提供的任意一项所述的音频分类模型的训练方法训练获得的。
本发明提供的一种音频分类方法,采用实施例提供的任意一项所述的音频特征提取方法,提取出每一个待提取音频的音频特征,输入通过上述实施例提供的任意一项所述的音频分类模型的训练方法训练获得的音频分类模型,获得每一待测音频的分类结果。若音频分类模型为婴儿哭声分类模型,获得每一待测音频的分类结果后,便识别出待测音频中是否含有婴儿哭声。本发明提供的一种音频分类方法能够根据待测音频的周期性特点对待测音频进行分类。
需要说明的是,本发明实施例提供的所述一种音频分类方法,其待测音频的音频特征根据上述实施例所述的音频特征提取方法提取,提取音频特征的具体原理和有益效果与上述实施例所述的音频特征提取方法相对应,因而不再赘述。其音频分类模型根据上述实施例所述的一种音频分类模型的训练方法训练获得,训练音频分类模型的具体原理和有益效果与上述实施例提供的一种音频分类模型的训练方法相对应,故在此不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种音频特征提取方法,其特征在于,所述方法包括:
按照预设的窗口长度获取待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定,所述待提取音频包括M帧音频帧,M>1;
计算每一所述音频帧对应的频谱,并对每一所述频谱进行分析,获得每一所述音频帧对应的基频;
计算每一所述基频的k倍频率,k≥1;
根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点;
根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点;其中,所述特征频率点为在所述k倍频率点的局部半径内,幅值最大且离所述k倍频率点最近的频率点;
将每一所述特征频率点对应的频率作为每一所述音频帧对应的特征频率,并根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征。
2.如权利要求1所述的音频特征提取方法,其特征在于,所述频谱包括n个高频分量频谱,n>1,1≤k≤n;则所述根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点具体包括:
选取出每一所述频谱中的第k次高频分量频谱;
从每一所述第k次高频分量频谱中确定出每一所述音频帧对应的k倍频率点;其中,所述k倍频率点的频率与对应的所述k倍频率相同。
3.如权利要求2所述的音频特征提取方法,其特征在于,所述根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点具体包括:
根据每一所述第k次高频分量频谱,获取在每一所述k倍频率点的局部半径内的所有邻近频率点的幅值;
对于每一所述第k次高频分量频谱,根据对应的所有所述邻近频率点的幅值,确定出所有的最大幅值频率点;
计算每一所述最大幅值频率点的频率与所述k倍频率的差值绝对值,并确定所有所述差值绝对值中的最小差值绝对值;
根据与所述最小差值绝对值对应的所述最大幅值频率点,从每一所述第k次高频分量频谱中确定每一所述音频帧对应的特征频率点。
4.如权利要求1所述的音频特征提取方法,其特征在于,所述根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征具体包括:
将M帧所述音频帧对应的所述特征频率作为M个元素构建初始数组;
检测所述初始数组的首端或尾端是否包括若干个零元素;
若所述初始数组的首端或尾端包括若干个所述零元素,则采用插值算法对所述初始数组进行插值处理,并剔除所述首端和所述尾端的零元素,获得所述待提取音频的音频特征;
若所述初始数组的首端和尾端均不包括若干个零元素,则将所述初始数组作为所述待提取音频的音频特征。
5.如权利要求1所述的音频特征提取方法,其特征在于,所述对每一所述频谱进行分析,获得每一所述音频帧对应的基频具体包括:
根据预设的基音估计器,获得每一所述音频帧对应的基频;其中,所述基音估计器为基于梳状滤波器的基音估计器、基于谐波正弦波语言模型的基音估计器或者基于频谱能量分析的基音估计器中的任意一种。
6.如权利要求1所述的音频特征提取方法,其特征在于,所述待提取音频的所属目的类别为婴儿哭声类别。
7.一种音频特征提取装置,其特征在于,所述装置包括:
第一获取模块,用于按照预设的窗口长度获取待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定,所述待提取音频包括M帧音频帧,M>1;
第二获取模块,用于计算每一所述音频帧对应的频谱,并对每一所述频谱进行分析,获得每一所述音频帧对应的基频;
计算模块,用于计算每一所述基频的k倍频率,k≥1;
第一确定模块,用于根据每一所述音频帧对应的所述k倍频率和所述频谱,确定每一所述音频帧对应的k倍频率点;
第二确定模块,用于根据每一所述k倍频率点和预设的局部半径,从每一所述频谱中确定每一所述音频帧对应的特征频率点;其中,所述特征频率点为在所述k倍频率点的局部半径内,幅值最大且离所述k倍频率点最近的频率点;
提取模块,用于将每一所述特征频率点对应的频率作为每一所述音频帧对应的特征频率,并根据M帧所述音频帧对应的所述特征频率,提取出所述待提取音频的音频特征。
8.一种音频分类模型的训练方法,其特征在于,所述方法包括:
构建音频分类初始模型;其中,所述音频分类初始模型对应的N种分类结果;
按照所述音频分类初始模型所属目的类别对应的音频最大周期,获取每一所述分类结果对应的若干个训练音频;其中,每一所述训练音频预先分配有与对应的所述分类结果相匹配的分类标识;
将所述训练音频作为所述待提取音频,根据如权利要求1~6任意一项所述的音频特征提取方法,提取每一所述训练音频对应的音频特征;
根据每一所述训练音频对应的音频特征和匹配的所述分类标识构建训练样本集;
根据所述训练样本集对所述音频分类初始模型进行训练,获得音频分类模型。
9.如权利要求8所述的音频分类模型的训练方法,其特征在于,所述音频分类初始模型所属目的类别为婴儿哭声分类模型;N取值为2,所述分类结果包括婴儿哭声和非婴儿哭声。
10.一种音频分类方法,其特征在于,所述方法包括:
获取待测音频,按照预设的窗口长度将所述待测音频划分为若干个待提取音频;其中,所述窗口长度根据所述待提取音频所属目的类别对应的音频最大周期确定;
对于每一个所述待提取音频,根据如权利要求1~6任意一项所述的音频特征提取方法,提取出每一个所述待提取音频的音频特征;
将每一所述待提取音频的音频特征输入预先构建的音频分类模型,获得每一所述待提取音频对应的分类结果;其中,所述音频分类模型是根据如权利要求8或9所述的音频分类模型的训练方法训练获得的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911057463.0A CN110853671B (zh) | 2019-10-31 | 2019-10-31 | 一种音频特征提取方法和装置、训练方法及音频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911057463.0A CN110853671B (zh) | 2019-10-31 | 2019-10-31 | 一种音频特征提取方法和装置、训练方法及音频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853671A true CN110853671A (zh) | 2020-02-28 |
CN110853671B CN110853671B (zh) | 2022-05-06 |
Family
ID=69599346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911057463.0A Active CN110853671B (zh) | 2019-10-31 | 2019-10-31 | 一种音频特征提取方法和装置、训练方法及音频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853671B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833714A (en) * | 1983-09-30 | 1989-05-23 | Mitsubishi Denki Kabushiki Kaisha | Speech recognition apparatus |
US20020133333A1 (en) * | 2001-01-24 | 2002-09-19 | Masashi Ito | Apparatus and program for separating a desired sound from a mixed input sound |
US20060224382A1 (en) * | 2003-01-24 | 2006-10-05 | Moria Taneda | Noise reduction and audio-visual speech activity detection |
CN102842305A (zh) * | 2011-06-22 | 2012-12-26 | 华为技术有限公司 | 一种基音检测的方法和装置 |
US20160019878A1 (en) * | 2014-07-21 | 2016-01-21 | Matthew Brown | Audio signal processing methods and systems |
CN109003621A (zh) * | 2018-09-06 | 2018-12-14 | 广州酷狗计算机科技有限公司 | 一种音频处理方法、装置及存储介质 |
CN109065068A (zh) * | 2018-08-17 | 2018-12-21 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置及存储介质 |
US10225643B1 (en) * | 2017-12-15 | 2019-03-05 | Intel Corporation | Secure audio acquisition system with limited frequency range for privacy |
-
2019
- 2019-10-31 CN CN201911057463.0A patent/CN110853671B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833714A (en) * | 1983-09-30 | 1989-05-23 | Mitsubishi Denki Kabushiki Kaisha | Speech recognition apparatus |
US20020133333A1 (en) * | 2001-01-24 | 2002-09-19 | Masashi Ito | Apparatus and program for separating a desired sound from a mixed input sound |
US20060224382A1 (en) * | 2003-01-24 | 2006-10-05 | Moria Taneda | Noise reduction and audio-visual speech activity detection |
CN102842305A (zh) * | 2011-06-22 | 2012-12-26 | 华为技术有限公司 | 一种基音检测的方法和装置 |
US20160019878A1 (en) * | 2014-07-21 | 2016-01-21 | Matthew Brown | Audio signal processing methods and systems |
US10225643B1 (en) * | 2017-12-15 | 2019-03-05 | Intel Corporation | Secure audio acquisition system with limited frequency range for privacy |
CN109065068A (zh) * | 2018-08-17 | 2018-12-21 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置及存储介质 |
CN109003621A (zh) * | 2018-09-06 | 2018-12-14 | 广州酷狗计算机科技有限公司 | 一种音频处理方法、装置及存储介质 |
Non-Patent Citations (4)
Title |
---|
RODICA ILEANA TUDUCE ET AL.: "《Automated Baby Cry Classification on a Hospital-acquired Baby Cry Database》", 《2019 42ND INTERNATIONAL CONFERENCE ON TELECOMMUNICATIONS AND SIGNAL PROCESSING (TSP)》 * |
张立华等: "《情感语音变化规律的特征分析》", 《清华大学学报(自然科学版)》 * |
陶峻等: "参数音频编码中的正弦波参数提取", 《数据采集与处理》 * |
陶峻等: "参数音频编码算法的改进", 《通信技术》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110853671B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
WO2017088364A1 (zh) | 动态选择语音模型的语音识别方法及装置 | |
CN109409308A (zh) | 一种基于鸟类鸣声的鸟类物种识别的方法 | |
KR20140059754A (ko) | 스펙트럼 모션 변환을 구현하는 사운드 신호 처리 시스템 및 방법 | |
Jiang et al. | Clicks classification of sperm whale and long-finned pilot whale based on continuous wavelet transform and artificial neural network | |
Huang et al. | Intelligent feature extraction and classification of anuran vocalizations | |
CN112786057B (zh) | 一种声纹识别方法、装置、电子设备及存储介质 | |
CN102982351A (zh) | 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法 | |
CN107871499A (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
CN110992985A (zh) | 识别跑步机异音的识别模型确定方法、识别方法、系统 | |
CN108447503A (zh) | 基于Hilbert-Huang变换的电机异音检测方法 | |
CN109631104A (zh) | 油烟机的风量自动调节方法、装置、设备及存储介质 | |
CN109061591A (zh) | 一种基于序贯聚类的时频线谱检测方法 | |
CN105916090A (zh) | 一种基于智能化语音识别技术的助听器系统 | |
CN110458071B (zh) | 一种基于dwt-dfpa-gbdt的光纤振动信号特征提取与分类方法 | |
CN115510909A (zh) | 一种dbscan进行异常声音特征的无监督算法 | |
CN109002810A (zh) | 模型评价方法、雷达信号识别方法及对应装置 | |
Delphin-Poulat et al. | Comparative assessment of data augmentation for semi-supervised polyphonic sound event detection | |
CN110853671B (zh) | 一种音频特征提取方法和装置、训练方法及音频分类方法 | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
CN107894837A (zh) | 动态情感分析模型样本处理方法及装置 | |
Chaves et al. | Katydids acoustic classification on verification approach based on MFCC and HMM | |
Chen et al. | Underwater acoustic target classification with joint learning framework and data augmentation | |
CN117116290A (zh) | 基于多维特征的数控机床部件缺陷定位方法和相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220610 Address after: Floor 12-17, unit 1, building 2, No. 466, Xinyu Road, high tech Zone, Chengdu, Sichuan 610000 Patentee after: Chengdu Lianzhou International Technology Co.,Ltd. Address before: 518000 the 1st and 3rd floors of the south section of building 24 and the 1st-4th floor of the north section of building 28, Shennan Road Science and Technology Park, Nanshan District, Shenzhen City, Guangdong Province Patentee before: TP-LINK TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |