CN107204193B - 基于直方图统计和池化算法的音频场景识别方法及装置 - Google Patents
基于直方图统计和池化算法的音频场景识别方法及装置 Download PDFInfo
- Publication number
- CN107204193B CN107204193B CN201710438695.5A CN201710438695A CN107204193B CN 107204193 B CN107204193 B CN 107204193B CN 201710438695 A CN201710438695 A CN 201710438695A CN 107204193 B CN107204193 B CN 107204193B
- Authority
- CN
- China
- Prior art keywords
- audio
- document
- training set
- test
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 63
- 238000011176 pooling Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 149
- 238000012360 testing method Methods 0.000 claims abstract description 88
- 238000013507 mapping Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 241000820057 Ithone Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于直方图统计和池化算法的音频场景识别方法及装置,该方法包括通过训练音频文档创建音频字典;通过直方图统计表征训练集和测试集中的音频文档;通过池化算法增加训练集中各个音频场景的多样性,以及最后通过匹配识别判定测试音频文档的音频场景类别。本发明创新性地提出通过池化算法增加训练集中各个音频场景的多样性;音频场景多样性的增加可以使其涵盖面更广,进而减少训练集和测试集中同一音频场景的差异,提高识别准确率。
Description
技术领域
本发明属于音频场景识别领域,尤其涉及基于直方图统计和池化算法的音频场景识别方法及装置。
背景技术
音频场景识别技术因其能通过音频信号感知周围环境而广受关注。与视频信号相比,音频信号可以不受光照和遮挡的影响,且能很好地保护个人隐私,因此其具有非常广泛的应用价值。音频场景识别技术可以用于智能机器人,以帮助机器人更好地感知周围环境,进而做出正确的决策;音频场景识别技术还可以用于老年人家居监护和安全监控等诸多领域。
音频场景识别过程中面临的一个技术难题是同一音频场景下的音频文档之间可能存在较大差异,进而增加了识别难度。比如,在办公室场景下,在某些时刻可能有较多的说话声;而在其他时刻可能没有说话声,主要是由静音组成。因此,在同一音频场景下,在不同时刻采集的音频文档可能会有较大差异,这为音频场景的识别增加了难度。假设某一音频场景的训练音频文档和测试音频文档之间存在较大差异,则音频场景的识别准确率必然会较低。
发明内容
本发明的目的就是为了解决上述问题,提供基于直方图统计和池化算法的音频场景识别方法及装置,通过直方图统计来表征音频场景,同时通过池化算法来增加训练集中各个音频场景的多样性。
为了实现上述目的,本发明采用如下技术方案:
基于直方图统计和池化算法的音频场景识别方法,包括:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
所述步骤(1)创建音频字典的具体过程包括:
步骤(1.1):对训练音频文档进行分帧处理。根据经验法则,将帧长设定为30毫秒,将音频文档分割成30毫秒长的互不重叠的帧;
步骤(1.2):对训练音频文档的每个帧提取39维MFCC特征,用MFCC特征表征音频帧;
步骤(1.3):对训练集中的所有用MFCC特征表征的帧进行k均值聚类,聚类后取簇质心组成音频字典,所述簇质心称为音频字典的音频字。
所述步骤(2)的步骤为:
步骤(2.1):根据音频字典将训练集中所有帧映射成音频字,映射的方法是:对每个帧,基于欧氏距离从音频字典中找出与其最近邻的音频字,用最近邻的音频字来表示该帧;
步骤(2.2):统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;
步骤(2.3):对统计直方图进行归一化,用归一化直方图来表征每个音频文档。
所述步骤(3)的步骤为:
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图。对训练集中的每一类音频场景,通过以下具体步骤增加多样性:
步骤(3.1):采用最小池化算法得到音频文档minx:
min x=min[x1,x2,…,xM] (1)
其中,min[﹒]表示对集合中的音频文档的每一维求最小值。
步骤(3.2):采用最大池化算法得到音频文档maxx:
max x=max[x1,x2,…,xM] (2)
其中,max[﹒]表示对集合中的音频文档的每一维求最大值。
步骤(3.3):采用平均池化算法得到音频文档avex:
avex=ave[x1,x2,…,xM] (3)
其中,ave[﹒]表示对集合中的音频文档的每一维求平均值。
步骤(3.4):将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。
所述步骤(4)的步骤为:
步骤(4.1):对测试音频文档进行分帧处理。和对训练音频文档的处理相同,将帧长设定为30毫秒,将测试音频文档分割成30毫秒长的互不重叠的帧;
步骤(4.2):对测试音频文档的每个帧提取39维MFCC特征,用所述MFCC特征来表征每个帧;
步骤(4.3):根据音频字典将测试音频文档的用MFCC特征表征的帧映射成音频字,映射的方法是:对每个帧,基于欧氏距离从音频字典中找出与其最近邻的音频字,用最近邻的音频字来表示该帧;
步骤(4.4):统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;
步骤(4.5):对统计直方图进行归一化,用归一化直方图来表征每个测试音频文档。
所述步骤(5)的步骤为:
步骤(5.1):对测试音频文档,采用KL散度算法,求出测试音频文档和训练集中每个音频文档的差异程度;
步骤(5.2):将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别。
基于直方图统计和池化算法的音频场景识别装置,包括:
音频字典创建模块;
训练集中音频文档表征模块:根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
训练集中音频场景多样化模块:通过池化算法增加训练集中各个音频场景的多样性;
测试集中音频文档表征模块:根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
匹配识别模块:基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
基于直方图统计和池化算法的音频场景识别系统,包括:
存储器,用于存储有用于音频场景识别的计算机程序;
处理器,与存储器相连,用于执行存储器上的计算机程序;所述处理器执行所述程序时实现以下步骤:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
一种计算机可读存储介质,其上存储有用于音频场景识别的计算机程序,当处理器执行时使得处理器执行以下步骤:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
本发明的有益效果:
(1)本发明提出通过直方图统计来表征音频场景。用直方图统计方法表征音频场景比较直观,而且运算简单,运算速度快,易于满足日常家居监护设备等对算法运算效率的要求。
(2)本发明提出通过池化算法增加训练集中各个音频场景的多样性,音频场景多样性的增加可以使其涵盖面更广,进而减少训练集和测试集中同一音频场景的差异,提高识别准确率。
(3)本发明提出的通过池化算法增加训练集中各个音频场景多样性的方法并不局限于音频场景识别技术,其可以广泛地推广到各个分类识别领域,为其它分类识别领域提供方法借鉴。
附图说明
图1是本发明提出的基于直方图统计和池化算法的音频场景识别方法示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,本发明提出的音频场景识别方法主要分为两大模块:训练过程和识别过程。其中,训练过程包括创建音频字典、通过直方图统计表征训练集中各个音频文档、通过池化算法增加训练集中各个音频场景的多样性三部分;识别过程包括通过直方图统计表征测试集中各个音频文档、匹配识别两部分。以下将对各个部分做详细介绍。
首先介绍训练过程:
(一)创建音频字典
对训练音频文档进行分帧处理。根据经验法则,本发明将帧长设定为30毫秒,将音频文档分割成30毫秒长的互不重叠的帧。表征音频信号最常用的特征是39维MFCC特征,因此本申请对每个帧提取39维MFCC特征,用此特征来表征音频帧。对训练集中的所有用MFCC特征表征的帧进行k均值聚类,聚类后取簇质心组成音频字典,这些簇质心称为音频字典的音频字。
(二)通过直方图统计表征训练集中各个音频文档
首先根据音频字典将训练集中所有帧映射成音频字,映射的方法是:对每个帧,从音频字典中找出与其最近邻(基于欧氏距离)的音频字,用此音频字来表示该帧;其次,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图,对统计直方图进行归一化,用归一化直方图来表征每个音频文档。
(三)通过池化算法增加训练集中各个音频场景的多样性
在识别阶段,如果测试音频文档和训练音频文档有较大差异,则音频场景识别结果往往较差。为了减少这种差异,使得训练音频文档集尽可能多地覆盖测试集中所出现的各种音频文档类型,本发明提出通过池化算法增加训练集中各个音频场景的多样性。
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图。本申请分别采用最小池化算法、最大池化算法和平均池化算法对训练集进行扩容,以增加音频场景的多样性。
假设采用最小池化算法得到的音频文档记为minx,则最小池化求算公式为:
min x=min[x1,x2,…,xM] (1)
其中min[﹒]表示对集合中的音频文档的每一维求最小值,因此求得的minx是和训练音频文档维度相同的向量。
假设采用最大池化算法得到的音频文档记为maxx,则最大池化求算公式为:
max x=max[x1,x2,…,xM] (2)
其中max[﹒]表示对集合中的音频文档的每一维求最大值,因此求得的maxx是和训练音频文档维度相同的向量。
假设采用平均池化算法得到的音频文档记为avex,则平均池化求算公式为:
avex=ave[x1,x2,…,xM] (3)
其中ave[﹒]表示对集合中的音频文档的每一维求平均值,因此求得的avex是和训练音频文档维度相同的向量。
将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。最小池化算法能重点突出那些在各个音频文档中都频繁出现的音频字,而忽略那些只在个别音频文档中出现的音频字;最大池化算法在突出强调那些在各个音频文档中都频繁出现的音频字的同时,能兼顾那些只在个别音频文档中出现的音频字;平均池化算法可以实现对音频文档中的噪声进行平滑处理,以减少噪声的干扰。
以下介绍识别过程:
(一)通过直方图统计表征测试集中各个音频文档
通过直方图统计表征测试集中各个音频文档的方法和通过直方图统计表征训练集中各个音频文档的方法相同,即:首先对音频文档进行分帧处理和提取MFCC特征,对音频文档的每个帧,从音频字典中找出与其最近邻(基于欧氏距离)的音频字,用此音频字来表示该帧;其次,统计测试集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;最后,对直方图进行归一化,用归一化直方图来表征每个测试音频文档。
(二)匹配识别
对测试音频文档,采用KL散度求其和训练集中每个音频文档的差异程度,将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别。
基于直方图统计和池化算法的音频场景识别装置,包括:
音频字典创建模块;
训练集中音频文档表征模块:根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
训练集中音频场景多样化模块:通过池化算法增加训练集中各个音频场景的多样性;
测试集中音频文档表征模块:根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
匹配识别模块:基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
基于直方图统计和池化算法的音频场景识别系统,包括:
存储器,用于存储有用于音频场景识别的计算机程序;
处理器,与存储器相连,用于执行存储器上的计算机程序;所述处理器执行所述程序时实现以下步骤:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
一种计算机可读存储介质,其上存储有用于音频场景识别的计算机程序,当处理器执行时使得处理器执行以下步骤:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.基于直方图统计和池化算法的音频场景识别方法,其特征是,包括:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别;
所述步骤(5)的步骤为:
步骤(5.1):对测试音频文档,采用KL散度算法,求出测试音频文档和训练集中每个音频文档的差异程度;
步骤(5.2):将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别;
所述步骤(3)的步骤为:
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图;对训练集中的每一类音频场景,通过以下具体步骤增加多样性:
步骤(3.1):采用最小池化算法得到音频文档minx:
minx=min[x1,x2,…,xM] (1)
其中,min[﹒]表示对集合中的音频文档的每一维求最小值;
步骤(3.2):采用最大池化算法得到音频文档maxx:
maxx=max[x1,x2,…,xM] (2)
其中,max[﹒]表示对集合中的音频文档的每一维求最大值;
步骤(3.3):采用平均池化算法得到音频文档avex:
avex=ave[x1,x2,…,xM] (3)
其中,ave[﹒]表示对集合中的音频文档的每一维求平均值;
步骤(3.4):将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。
2.如权利要求1所述的方法,其特征是,所述步骤(1)创建音频字典的具体过程包括:
步骤(1.1):对训练音频文档进行分帧处理;
步骤(1.2):对训练音频文档的每个帧提取39维MFCC特征,用MFCC特征表征音频帧;
步骤(1.3):对训练集中的所有用MFCC特征表征的帧进行k均值聚类,聚类后取簇质心组成音频字典,所述簇质心称为音频字典的音频字。
3.如权利要求1所述的方法,其特征是,所述步骤(2)的步骤为:
步骤(2.1):根据音频字典将训练集中所有帧映射成音频字,映射的方法是:对每个帧,基于欧氏距离从音频字典中找出与其最近邻的音频字,用最近邻的音频字来表示该帧;
步骤(2.2):统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;
步骤(2.3):对统计直方图进行归一化,用归一化直方图来表征每个音频文档。
4.如权利要求1所述的方法,其特征是,所述步骤(4)的步骤为:
步骤(4.1):对测试音频文档进行分帧处理;
步骤(4.2):对测试音频文档的每个帧提取39维MFCC特征,用所述MFCC特征来表征每个帧;
步骤(4.3):根据音频字典将测试音频文档的用MFCC特征表征的帧映射成音频字,映射的方法是:对每个帧,基于欧氏距离从音频字典中找出与其最近邻的音频字,用最近邻的音频字来表示该帧;
步骤(4.4):统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;
步骤(4.5):对统计直方图进行归一化,用归一化直方图来表征每个测试音频文档。
5.如权利要求2所述的方法,其特征是,对训练音频文档进行分帧处理是将帧长设定为30毫秒,将音频文档分割成30毫秒长的互不重叠的帧。
6.基于直方图统计和池化算法的音频场景识别装置,其特征是,包括:
音频字典创建模块;
训练集中音频文档表征模块:根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
训练集中音频场景多样化模块:通过池化算法增加训练集中各个音频场景的多样性;
测试集中音频文档表征模块:根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
匹配识别模块:基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别;
所述匹配识别模块具体工作过程为:
对测试音频文档,采用KL散度算法,求出测试音频文档和训练集中每个音频文档的差异程度;
将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别;
所述通过池化算法增加训练集中各个音频场景的多样性的具体过程为:
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图;对训练集中的每一类音频场景,通过以下具体步骤增加多样性:
步骤(3.1):采用最小池化算法得到音频文档minx:
minx=min[x1,x2,…,xM] (1)
其中,min[﹒]表示对集合中的音频文档的每一维求最小值;
步骤(3.2):采用最大池化算法得到音频文档maxx:
maxx=max[x1,x2,…,xM] (2)
其中,max[﹒]表示对集合中的音频文档的每一维求最大值;
步骤(3.3):采用平均池化算法得到音频文档avex:
avex=ave[x1,x2,…,xM] (3)
其中,ave[﹒]表示对集合中的音频文档的每一维求平均值;
步骤(3.4):将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。
7.基于直方图统计和池化算法的音频场景识别系统,包括:
存储器,用于存储有用于音频场景识别的计算机程序;
处理器,与存储器相连,用于执行存储器上的计算机程序;其特征是,所述处理器执行所述程序时实现以下步骤:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别;
所述步骤(5)的步骤为:
步骤(5.1):对测试音频文档,采用KL散度算法,求出测试音频文档和训练集中每个音频文档的差异程度;
步骤(5.2):将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别;
所述步骤(3)的步骤为:
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图;对训练集中的每一类音频场景,通过以下具体步骤增加多样性:
步骤(3.1):采用最小池化算法得到音频文档minx:
minx=min[x1,x2,…,xM] (1)
其中,min[﹒]表示对集合中的音频文档的每一维求最小值;
步骤(3.2):采用最大池化算法得到音频文档maxx:
maxx=max[x1,x2,…,xM] (2)
其中,max[﹒]表示对集合中的音频文档的每一维求最大值;
步骤(3.3):采用平均池化算法得到音频文档avex:
avex=ave[x1,x2,…,xM] (3)
其中,ave[﹒]表示对集合中的音频文档的每一维求平均值;
步骤(3.4):将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。
8.一种计算机可读存储介质,其上存储有用于音频场景识别的计算机程序,其特征是,当处理器执行时使得处理器执行以下步骤:
步骤(1):创建音频字典;
步骤(2):根据音频字典将训练集中所有帧映射成音频字,统计训练集里每个音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征训练集中各个音频文档;
步骤(3):通过池化算法增加训练集中各个音频场景的多样性;
步骤(4):根据音频字典将测试音频文档的帧映射成音频字,统计测试音频文档中各个音频字的出现次数,得到音频文档和音频字之间的统计直方图;对统计直方图进行归一化,用归一化直方图表征测试集中各个音频文档;
步骤(5):基于训练集中各个音频文档,对测试集中各个音频文档进行匹配识别;
所述步骤(5)的步骤为:
步骤(5.1):对测试音频文档,采用KL散度算法,求出测试音频文档和训练集中每个音频文档的差异程度;
步骤(5.2):将差异最小的训练音频文档所属的音频场景作为测试音频文档的音频场景类别;
所述步骤(3)的步骤为:
假设训练集中某一音频场景的音频文档共有M个,记各个音频文档的归一化直方图为xi,i=1,2,...,M,xi表示该音频场景训练音频文档中的第i个音频文档的归一化直方图;对训练集中的每一类音频场景,通过以下具体步骤增加多样性:
步骤(3.1):采用最小池化算法得到音频文档minx:
minx=min[x1,x2,…,xM] (1)
其中,min[﹒]表示对集合中的音频文档的每一维求最小值;
步骤(3.2):采用最大池化算法得到音频文档maxx:
maxx=max[x1,x2,…,xM] (2)
其中,max[﹒]表示对集合中的音频文档的每一维求最大值;
步骤(3.3):采用平均池化算法得到音频文档avex:
avex=ave[x1,x2,…,xM] (3)
其中,ave[﹒]表示对集合中的音频文档的每一维求平均值;
步骤(3.4):将求得的minx、maxx和avex分别进行归一化并放入训练集中以增加该类音频场景的多样性;类似地,对训练集中的每一类音频场景都如此操作,以增加训练集中每一类音频场景的多样性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710438695.5A CN107204193B (zh) | 2017-06-12 | 2017-06-12 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710438695.5A CN107204193B (zh) | 2017-06-12 | 2017-06-12 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107204193A CN107204193A (zh) | 2017-09-26 |
CN107204193B true CN107204193B (zh) | 2020-05-29 |
Family
ID=59907453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710438695.5A Expired - Fee Related CN107204193B (zh) | 2017-06-12 | 2017-06-12 | 基于直方图统计和池化算法的音频场景识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107204193B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563209B (zh) * | 2019-01-29 | 2023-06-30 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332263A (zh) * | 2011-09-23 | 2012-01-25 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
WO2014028286A1 (en) * | 2012-08-15 | 2014-02-20 | Qualcomm Incorporated | Method and apparatus for facial recognition |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
CN104731890A (zh) * | 2015-03-16 | 2015-06-24 | 山东师范大学 | 一种结合plsa和at的音频事件分类方法 |
CN104850845A (zh) * | 2015-05-30 | 2015-08-19 | 大连理工大学 | 一种基于非对称卷积神经网络的交通标志识别方法 |
CN106205609A (zh) * | 2016-07-05 | 2016-12-07 | 山东师范大学 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679378B (zh) * | 2013-12-20 | 2016-08-31 | 北京航天测控技术有限公司 | 基于遥测数据评估航天器健康状态的方法及装置 |
CN103729648B (zh) * | 2014-01-07 | 2017-01-04 | 中国科学院计算技术研究所 | 领域自适应模式识别方法及系统 |
CN105528419B (zh) * | 2015-11-30 | 2017-05-17 | 合肥工业大学 | 一种考虑用户‑作者关系建模的个性化搜索方法 |
CN106202155B (zh) * | 2016-06-23 | 2018-02-23 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置 |
-
2017
- 2017-06-12 CN CN201710438695.5A patent/CN107204193B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332263A (zh) * | 2011-09-23 | 2012-01-25 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
WO2014028286A1 (en) * | 2012-08-15 | 2014-02-20 | Qualcomm Incorporated | Method and apparatus for facial recognition |
CN104268568A (zh) * | 2014-09-17 | 2015-01-07 | 电子科技大学 | 基于独立子空间网络的行为识别方法 |
CN104731890A (zh) * | 2015-03-16 | 2015-06-24 | 山东师范大学 | 一种结合plsa和at的音频事件分类方法 |
CN104850845A (zh) * | 2015-05-30 | 2015-08-19 | 大连理工大学 | 一种基于非对称卷积神经网络的交通标志识别方法 |
CN106205609A (zh) * | 2016-07-05 | 2016-12-07 | 山东师范大学 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107204193A (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN104882144B (zh) | 基于声谱图双特征的动物声音识别方法 | |
CN106653047A (zh) | 一种音频数据的自动增益控制方法与装置 | |
CN108615532B (zh) | 一种应用于声场景的分类方法及装置 | |
CN102682273A (zh) | 嘴唇运动检测设备和方法 | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
WO2013060079A1 (zh) | 一种基于信道模式噪声的录音回放攻击检测方法和系统 | |
CN113889138A (zh) | 一种基于双麦克风阵列的目标语音提取方法 | |
US9218540B2 (en) | Apparatus and computer readable medium for signal classification using spectrogram and templates | |
KR102580828B1 (ko) | 멀티 채널 보이스 활동 검출 | |
CN112906544A (zh) | 一种适用于多目标的基于声纹和人脸的匹配方法 | |
CN110988137A (zh) | 一种基于时频域特征的异音检测系统及方法 | |
CN107204193B (zh) | 基于直方图统计和池化算法的音频场景识别方法及装置 | |
CN114627899A (zh) | 声音信号检测方法及装置、计算机可读存储介质、终端 | |
CN118248177B (zh) | 基于近似最近邻搜索算法的语音情感识别系统及方法 | |
US8326457B2 (en) | Apparatus for detecting user and method for detecting user by the same | |
CN107369451A (zh) | 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法 | |
CN112151054A (zh) | 音频降噪处理方法、装置、服务器及存储介质 | |
CN117198324A (zh) | 一种基于聚类模型的鸟声识别方法、装置和系统 | |
CN114997266B (zh) | 一种面向语音识别的特征迁移学习方法及系统 | |
Luque et al. | Audio, video and multimodal person identification in a smart room | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
Lu et al. | Sparse representation with temporal max-smoothing for acoustic event detection. | |
WO2019183747A1 (zh) | 语音检测的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200529 |
|
CF01 | Termination of patent right due to non-payment of annual fee |