CN110853672B - 一种用于音频场景分类的数据扩充方法及装置 - Google Patents

一种用于音频场景分类的数据扩充方法及装置 Download PDF

Info

Publication number
CN110853672B
CN110853672B CN201911088131.9A CN201911088131A CN110853672B CN 110853672 B CN110853672 B CN 110853672B CN 201911088131 A CN201911088131 A CN 201911088131A CN 110853672 B CN110853672 B CN 110853672B
Authority
CN
China
Prior art keywords
audio
key
document
words
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201911088131.9A
Other languages
English (en)
Other versions
CN110853672A (zh
Inventor
冷严
赵玮玮
林婵
齐广慧
王荣燕
李登旺
华庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201911088131.9A priority Critical patent/CN110853672B/zh
Publication of CN110853672A publication Critical patent/CN110853672A/zh
Application granted granted Critical
Publication of CN110853672B publication Critical patent/CN110853672B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出了一种用于音频场景分类的数据扩充方法及装置,该数据扩充方法首先基于LDA挖掘音频文档中的关键音频事件;其次,对每类音频场景,分别统计类内关键音频事件出现次数的概率分布、在每一出现次数下关键音频事件出现位置的概率分布以及在每一出现次数下,关键音频事件持续时长的概率分布;最后,根据统计得到的概率分布生成新音频文档。本公开提出的数据扩充方法由关键音频事件和非关键音频事件根据训练集中关键音频事件的概率分布生成新数据,这种方法生成的新数据能很好地模拟真实环境下的音频场景,因而能有效地提高模型的分类性能,在不同的网络结构下和不同的数据集上都具有良好的稳定性。

Description

一种用于音频场景分类的数据扩充方法及装置
技术领域
本公开涉及音频识别相关技术领域,具体的说,是涉及一种用于音频场景分类的数据扩充方法及装置。
背景技术
音频场景分类是指通过音频感知周围环境,其在近十年得到广泛关注。音频场景分类具有广阔的应用前景,可广泛用于人机交互、智能穿戴和上下文感知计算等。近几年,随着深度学习技术的快速发展,传统的分类模型逐渐被深度神经网络所取代,深度神经网络提取的信号特征具有更强的表达能力,因而能获得更好的分类性能,但是深度神经网络的参数众多,需要大量的训练数据才能获得良好的泛化能力,在训练数据量不足时会因为过拟合而导致分类性能下降。音频场景的类内样本通常会存在较大差异,比如,对于公园场景,在周末和工作日所采集的样本就会差别很大。为了使采集的音频场景样本覆盖各种情形下的音频场景特性,音频样本往往要采取在不同位置、不同时间段分别进行采集,这就意味着数据的采集会耗费大量的时间和精力,因而导致采集的音频场景训练样本相对于深度神经网络庞大的参数来说往往显得不足。
为了解决音频领域深度神经网络的训练样本不足问题,目前已经提出了不少数据扩充办法,比如音高偏移法、时间拉伸法、添加左声道信息法和添加右声道信息法等等。发明人发现,目前常用的这些数据扩充方法存在以下问题:
1)音高偏移法、时间拉伸法在不同的数据集上具有不稳定性,其在某些数据集上新生成的数据能很好地帮助提高网络的分类性能,但是在其它的数据集上,其新生成的数据对分类性能的提高不大,甚至有的反而会引起分类性能的下降。实验发现,在采用VGG网络作为分类模型时,在国际DCASE2016挑战赛的音频场景识别数据库的evaluation数据集上,音高偏移法和时间拉伸法能很好地帮助提高网络的分类性能,而在development数据集上,音高偏移法和时间拉伸法会引起分类性能下降。
2)添加左声道信息法和添加右声道信息法在不同的网络结构上具有不稳定性,其新生成的数据对于某些网络结构能很好地帮助提高网络的分类性能,但是对其它的网络结构,其对分类性能的提高不大,甚至有的反而会引起分类性能的下降;实验发现,添加左声道信息法和添加右声道信息法在VGG网络结构上能很好地帮助提高网络的分类性能,但是在LSTM网络结构上,添加左声道信息法会引起分类性能的下降,而添加右声道信息法虽然对网络的分类性能有所提高,但提高地很少。
3)添加左声道信息法和添加右声道信息法只适用于多声道数据集,对于单声道数据集,由于数据集内的音频数据没有左声道信息和右声道信息,因而添加左声道信息法和添加右声道信息法无法应用于单声道数据集。
因此,现有的数据扩充方法在不同的网络结构上或者在不同的数据集上具有不稳定性,不具有普适性,不能很好的提高分类性能。
发明内容
本公开为了解决上述问题,提出了一种用于音频场景分类的数据扩充方法及装置,该数据扩充方法基于隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)挖掘音频文档中的关键音频事件,并统计每个音频场景类中关键音频事件的一系列概率分布,最后根据统计得到的概率分布生成新数据。
为了实现上述目的,本公开采用如下技术方案:
一个或多个实施例提供了一种用于音频场景分类的数据扩充方法,包括如下步骤:
获取训练集;所述训练集包括多个音频文档以及音频文档所属的音频场景;
采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件;
针对每类音频场景,分别统计关键音频事件的概率分布;
根据关键音频事件的概率分布生成新音频文档即为新数据。
一个或多个实施例提供了一种用于音频场景分类的数据扩充装置,包括:
获取模块:用于获取训练集;所述训练集包括多个音频文档以及音频文档所属的音频场景;
第一提取模块:用于采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件;
概率分布统计模块:用于针对每类音频场景,分别统计关键音频事件的概率分布;
新数据生成模块:用于根据关键音频事件的概率分布生成新音频文档即为新数据。
本公开还提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
本公开还提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
与现有技术相比,本公开的有益效果为:
(1)本公开设计的数据扩充方法由训练集中的关键音频事件和非关键音频事件根据训练集中关键音频事件的概率分布生成新数据,用以扩充训练集。本公开设计的数据扩充方法生成的新数据能很好地模拟真实环境下的音频场景,因而生成的新数据非常有效,在扩充到训练集后能有效地提高模型的分类性能。
(2)本公开设计的数据扩充方法在不同的网络结构上具有良好的稳定性,其新生成的数据对于不同的网络结构都能很好地帮助提高网络的分类性能。
(3)本公开设计的数据扩充方法在不同的数据集上具有良好的稳定性,其在不同的数据集上生成的新数据都能很好地帮助提高网络的分类性能。
(4)与目前在音频领域中常用的添加左声道信息法、添加右声道信息法等数据扩充方法相比,本公开设计的数据扩充方法可以生成多于原始训练数据两倍数据量的新数据,使用户可以根据需求生成所需数据量的新数据。
(5)本公开提出的基于LDA提取音频流中的关键音频事件的方法适用性广,其不但可以用于生成新数据,还可以用于音频主题分析、音频摘要等众多音频分析领域。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。
图1是本公开实施例1的一种用于音频场景分类的数据扩充方法流程图;
图2是本公开实施例1的提取关键音频事件和非关键音频事件的过程图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
实施例1
在一个或多个实施方式中公开的技术方案中,如图1所示,一种用于音频场景分类的数据扩充方法,包括如下步骤:
S1、获取训练集;所述训练集包括多个音频文档以及音频文档所属的音频场景;可以采用音频数据采集器采集的数据。
S2、采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件;
S3、针对每类音频场景,分别统计关键音频事件的概率分布;
S4、根据关键音频事件的概率分布生成新音频文档即为新数据。
下面对上述步骤进行具体说明。
1、提取关键音频事件和非关键音频事件
提取关键音频事件和非关键音频事件的过程图如图2所示,主要包括以下步骤:(1)生成音频字;(2)基于LDA提取音频字的主题分布和音频文档的主题分布;(3)提取关键音频事件和非关键音频事件。
(1)生成音频字
在一些实施例中,可选的,生成音频字的步骤包括:
101)、将训练集中的每个音频文档进行分帧处理;可以按照设定的帧长和设定的帧移对音频文档进行分帧处理,如帧长设定为40毫秒,帧移设定为20毫秒。
102)、提取每个帧的频谱特征数据;可以对每个帧提取40维的log-mel频谱特征;
103)、将训练集中所有帧的频谱特征数据进行聚类,聚类得到M个簇,将簇中心作为音频字,M个簇共得到M个音频字,此M个音频字组成音频字典,将每个簇中的帧表示成该帧所在簇对应的音频字。
(2)基于LDA提取音频字的主题分布和音频文档的主题分布;
201)根据获得的音频字,统计每个音频文档中每个音频字的出现次数,建立“音频文档-音频字”共现矩阵;
可选的,具体的可以采用建立音频字的直方图方法,假设训练集中共有N个音频文档,在生成音频字以后,训练集中的每个音频文档都是由一系列音频字组成的。针对每个音频文档,统计音频字的直方图;将训练集中所有音频文档的音频字直方图按列堆叠起来,组成“音频文档-音频字”共现矩阵D:
Figure GDA0003344874270000071
其中,d表示训练集中的第d个音频文档(d=1,…,N),wi表示第i个音频字(i=1,…,M),
Figure GDA0003344874270000072
表示音频文档d中音频字wi的出现次数,M表示音频字的个数。
202)设定主题的个数为K,根据共现矩阵D,通过LDA学习得到每个音频文档在每个主题上的概率值,从而获得音频文档的主题分布;根据共现矩阵D,通过LDA学习得到每个主题在每个音频字上的概率值,根据每个音频文档在每个主题上的概率值和每个主题在每个音频字上的概率值,获得音频字的主题分布;
设定主题的个数为K,通过LDA学习每个音频文档在每个主题上的概率值和每个主题在每个音频字上的概率值,分别组成“音频文档-主题”矩阵θ和“主题-音频字”矩阵
Figure GDA0003344874270000073
Figure GDA0003344874270000074
Figure GDA0003344874270000075
其中,表示
Figure GDA0003344874270000076
表示音频文档d在第k(k=1,…,K)个主题上的概率值,“音频文档-主题”矩阵θ的每一列θ(d)(d=1,…,N)即表示每个音频文档的主题分布。
Figure GDA0003344874270000077
表示第k个主题在第i个音频字wi上的概率值。
音频字wi在第k(k=1,…,K)个主题上的概率值
Figure GDA0003344874270000078
可以由下式求得:
Figure GDA0003344874270000079
音频字wi(i=1,…,M)的主题分布即为
Figure GDA00033448742700000710
其中,
Figure GDA0003344874270000081
表示第i个音频字wi的主题分布,
Figure GDA0003344874270000082
表示第i个音频字wi在第k个主题上的概率值,k=1,…,K,zi表示第i个音频字wi的主题,i=1,…,M,M表示音频字的个数,
Figure GDA0003344874270000083
表示音频文档d在第k个主题上的概率值,d=1,…,N,N表示训练集中音频文档的个数,
Figure GDA0003344874270000084
表示第k个主题在第i个音频字wi上的概率值。
(3)提取关键音频事件和非关键音频事件
具体包括如下步骤:
301)设定相似度阈值,计算音频字的主题分布和音频文档的主题分布的相似度;
302)对于音频文档d,(d=1,…,N),将与该音频文档的相似度大于设定的阈值的音频字作为该音频文档的关键音频字,其余的音频字为该音频文档的非关键音频字;
303)对于音频文档d,(d=1,…,N),其内连续的关键音频字组成关键音频事件,其内连续的非关键音频字组成非关键音频事件。
本实施例中,可选的,对于每个音频文档d(d=1,…,N),通过下式求音频文档d的主题分布θ(d)和音频字wi(i=1,…,M)的主题分布
Figure GDA0003344874270000085
的相似性
Figure GDA0003344874270000086
Figure GDA0003344874270000087
设定相似度阈值T,将满足
Figure GDA0003344874270000088
的音频字wi作为音频文档d的关键音频字,将不满足
Figure GDA0003344874270000089
的音频字wi作为音频文档d的非关键音频字。对于音频文档d,其内连续的关键音频字组成关键音频事件,其内连续的非关键音频字组成非关键音频事件。
2、针对每类音频场景,统计关键音频事件的概率分布
步骤S3中,可选的,可以采用归一化直方图的方法统计关键音频事件的概率分布,所述关键音频事件的概率分布至少包括:针对每类音频场景,关键音频事件出现次数的概率分布,在每一出现次数下关键音频事件出现位置的概率分布和在每一出现次数下关键音频事件持续时长的概率分布。
在一些实施例中,关键音频事件出现位置可以以关键音频事件发生的起始位置到所在音频文档的起始位置之间的距离,作为关键音频事件的出现位置。
本实施例中,对于训练集中的每类音频场景,收集同一音频场景内所包含的每个音频文档中的关键音频事件片段和非关键音频事件片段,并记录音频文档内每个关键音频事件的出现位置和持续时长,记录同一音频场景内每个音频文档中关键音频事件的出现次数。
通过归一化直方图的方法统计同一音频场景内关键音频事件出现次数的概率分布P(num),num表示关键音频事件的出现次数。
同一音频场景内,收集关键音频事件出现次数相同的音频文档,通过归一化直方图的方法统计同一音频场景内在每一出现次数下,关键音频事件出现位置的概率分布P(loc|num),loc表示关键音频事件的出现位置。
收集同一音频场景内关键音频事件出现次数相同的音频文档,通过归一化直方图的方法统计同一音频场景内在每一出现次数下,关键音频事件持续时长的概率分布P(dur|num),dur表示关键音频事件的持续时长。
3、对于每类音频场景,根据概率分布生成新数据
对于每类音频场景,根据所述概率分布生成新音频文档,具体为:
31、根据概率分布,通过轮盘赌方法,获得待生成新音频文档中关键音频事件的出现次数、每个关键音频事件的出现位置和持续时长;
32、根据获得的出现次数、出现位置及持续时长,针对每个关键音频事件的出现位置和持续时长,选取该类音频场景内持续时长与获取的持续时长最相近的关键音频事件,置于新音频文档中对应的关键音频事件的出现位置处;
33、根据新音频文档中两个关键音频事件之间的间隔,从该类音频场景内的非关键音频事件中选择持续时长最接近间隔时长的片段,置于间隔位置处;
34、如果新音频文档中第一个关键音频事件的出现位置值不等于0,则从该类音频场景内的非关键音频事件片段中,选取持续时长最接近第一个关键音频事件的出现位置值的非关键音频事件片段,放置在第一个关键音频事件出现位置前面的位置。
本实施例中,对于每类音频场景,根据其类内关键音频事件出现次数的概率分布P(num)、在每一出现次数下关键音频事件出现位置的概率分布P(loc|num)和在每一出现次数下关键音频事件持续时长的概率分布P(dur|num),按照以下步骤生成新音频文档:
(1)根据概率分布P(num),通过轮盘赌方法生成关键音频事件的出现次数numi,numi表示生成的第i个新音频文档中关键音频事件的出现次数;
(2)根据概率分布P(loc|numi),通过轮盘赌方法生成关键音频事件的出现位置locj(j=1,…,numi),locj表示新生成的音频文档中第j个关键音频事件的出现位置;
(3)根据概率分布P(dur|numi),通过轮盘赌方法生成关键音频事件的持续时长durj(j=1,…,numi),durj表示新生成的音频文档中第j个关键音频事件的持续时长;
(4)对于每个关键音频事件j(j=1,…,numi),从类内的关键音频事件片段中选取持续时长最接近durj的片段,将其置于locj位置处;
(5)对于相邻的两个关键音频事件之间的间隔,从类内的非关键音频事件片段中选择持续时长最接近间隔时长的片段,将其置于间隔位置处;
(6)对于第一个关键音频事件,如果其出现位置loc1≠0,则从类内的非关键音频事件片段中选择持续时长最接近loc1值的片段,将其置于第一个关键音频事件的前面;
(7)重复步骤(1)~(6)以生成更多的新音频文档。
实施例2
本实施例提供一种用于音频场景分类的数据扩充装置,包括:
获取模块:用于获取训练集;所述训练集包括多个音频文档以及音频文档所属的音频场景;
第一提取模块:用于采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件;
概率分布统计模块:用于针对每类音频场景,分别统计关键音频事件的概率分布;
新数据生成模块:用于根据关键音频事件的概率分布生成新音频文档,生成的新音频文档即为新数据。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
实施例4
本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。
本公开所提出的电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(Smart Phone,如Android手机、IOS手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。
应理解,在本公开中,该处理器可以是中央处理单元CPU,该处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (6)

1.一种用于音频场景分类的数据扩充方法,其特征是,包括如下步骤:
S1、获取训练集;所述训练集包括多个音频文档以及音频文档所属的音频场景;
S2、采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件;所述LDA为隐狄利克雷分配模型;
步骤S2包括:
S201、根据训练集中音频数据生成音频字;
所述根据训练集中音频数据生成音频字,具体为:
将训练集中的每个音频文档进行分帧处理;
提取每个帧的频谱特征数据;
将训练集中所有帧的频谱特征数据进行聚类,聚类得到M个簇,将簇中心作为音频字,M个簇共得到M个音频字,M个音频字组成音频字典,将每个簇中的帧表示成该帧所在簇对应的音频字;
S202、根据获得的音频字,统计每个音频文档中每个音频字的出现次数,建立“音频文档-音频字”共现矩阵;
设定主题的个数,根据共现矩阵,通过LDA方法学习得到每个音频文档在每个主题上的概率值,从而获得音频文档的主题分布;根据共现矩阵,通过LDA方法学习得到每个主题在每个音频字上的概率值;根据每个音频文档在每个主题上的概率值和每个主题在每个音频字上的概率值,获得音频字的主题分布;
所述根据每个音频文档在每个主题上的概率值和每个主题在每个音频字上的概率值,获得音频字的主题分布,具体为:
Figure FDA0003344874260000021
Figure FDA0003344874260000022
其中,
Figure FDA0003344874260000023
表示第i个音频字wi的主题分布,
Figure FDA0003344874260000024
表示第i个音频字wi在第k个主题上的概率值,k=1,…,K,zi表示第i个音频字wi的主题,i=1,…,M,M表示音频字的个数,
Figure FDA0003344874260000025
表示音频文档d在第k个主题上的概率值,d=1,…,N,N表示训练集中音频文档的个数,
Figure FDA0003344874260000026
表示第k个主题在第i个音频字wi上的概率值;
S203、通过计算音频字的主题分布和音频文档的主题分布的相似度,获得训练集中的关键音频事件和非关键音频事件;具体为:
设定相似度阈值,计算音频字的主题分布和音频文档的主题分布的相似度;
对于音频文档d,将与该音频文档的相似度大于设定的阈值的音频字作为该音频文档的关键音频字,其余的音频字为该音频文档的非关键音频字;
对于音频文档d,音频文档d内连续的关键音频字组成关键音频事件,音频文档d内连续的非关键音频字组成非关键音频事件;
S3、针对每类音频场景,分别统计关键音频事件的概率分布;
S4、根据关键音频事件的概率分布生成新音频文档即为新数据;
对于每类音频场景,根据所述关键音频事件的概率分布生成新音频文档,具体为:
根据关键音频事件的概率分布,通过轮盘赌方法,获得待生成新音频文档中关键音频事件的出现次数、每个关键音频事件的出现位置和持续时长;
根据获得的出现次数、出现位置及持续时长,针对每个关键音频事件的出现位置和持续时长,选取该类音频场景内持续时长与获取的持续时长最相近的关键音频事件,置于新音频文档中对应的关键音频事件的出现位置处;
根据新音频文档中两个关键音频事件之间的间隔,从该类音频场景内的非关键音频事件中选择持续时长最接近间隔时长的片段,置于间隔位置处;
如果新音频文档中第一个关键音频事件的出现位置值不等于0,则从该类音频场景内的非关键音频事件片段中,选取持续时长最接近第一个关键音频事件的出现位置值的非关键音频事件片段,放置在第一个关键音频事件出现位置前面的位置。
2.如权利要求1所述的一种用于音频场景分类的数据扩充方法,其特征是:针对每类音频场景,分别统计关键音频事件的概率分布:采用归一化直方图的方法统计关键音频事件的概率分布。
3.如权利要求1所述的一种用于音频场景分类的数据扩充方法,其特征是:所述关键音频事件的概率分布至少包括:针对每类音频场景,关键音频事件出现次数的概率分布,在每一出现次数下关键音频事件出现位置的概率分布和在每一出现次数下关键音频事件持续时长的概率分布。
4.一种用于音频场景分类的数据扩充装置,其特征是,包括:
获取模块:用于获取训练集;所述训练集包括多个音频文档以及音频文档所属的音频场景;
第一提取模块:用于采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件;所述LDA为隐狄利克雷分配模型;
所述采用基于LDA的方法提取训练集中的关键音频事件和非关键音频事件的方法包括:
S201、根据训练集中音频数据生成音频字;
所述根据训练集中音频数据生成音频字,具体为:
将训练集中的每个音频文档进行分帧处理;
提取每个帧的频谱特征数据;
将训练集中所有帧的频谱特征数据进行聚类,聚类得到M个簇,将簇中心作为音频字,M个簇共得到M个音频字,M个音频字组成音频字典,将每个簇中的帧表示成该帧所在簇对应的音频字;
S202、根据获得的音频字,统计每个音频文档中每个音频字的出现次数,建立“音频文档-音频字”共现矩阵;
设定主题的个数,根据共现矩阵,通过LDA方法学习得到每个音频文档在每个主题上的概率值,从而获得音频文档的主题分布;根据共现矩阵,通过LDA方法学习得到每个主题在每个音频字上的概率值;根据每个音频文档在每个主题上的概率值和每个主题在每个音频字上的概率值,获得音频字的主题分布;
所述根据每个音频文档在每个主题上的概率值和每个主题在每个音频字上的概率值,获得音频字的主题分布,具体为:
Figure FDA0003344874260000041
Figure FDA0003344874260000042
其中,
Figure FDA0003344874260000043
表示第i个音频字wi的主题分布,
Figure FDA0003344874260000044
表示第i个音频字wi在第k个主题上的概率值,k=1,…,K,zi表示第i个音频字wi的主题,i=1,…,M,M表示音频字的个数,
Figure FDA0003344874260000051
表示音频文档d在第k个主题上的概率值,d=1,…,N,N表示训练集中音频文档的个数,
Figure FDA0003344874260000052
表示第k个主题在第i个音频字wi上的概率值;
S203、通过计算音频字的主题分布和音频文档的主题分布的相似度,获得训练集中的关键音频事件和非关键音频事件;具体为:
设定相似度阈值,计算音频字的主题分布和音频文档的主题分布的相似度;
对于音频文档d,将与该音频文档的相似度大于设定的阈值的音频字作为该音频文档的关键音频字,其余的音频字为该音频文档的非关键音频字;
对于音频文档d,音频文档d内连续的关键音频字组成关键音频事件,音频文档d内连续的非关键音频字组成非关键音频事件;
概率分布统计模块:用于针对每类音频场景,分别统计关键音频事件的概率分布;
新数据生成模块:用于根据关键音频事件的概率分布生成新音频文档即为新数据;
对于每类音频场景,根据所述关键音频事件的概率分布生成新音频文档,具体为:
根据关键音频事件的概率分布,通过轮盘赌方法,获得待生成新音频文档中关键音频事件的出现次数、每个关键音频事件的出现位置和持续时长;
根据获得的出现次数、出现位置及持续时长,针对每个关键音频事件的出现位置和持续时长,选取该类音频场景内持续时长与获取的持续时长最相近的关键音频事件,置于新音频文档中对应的关键音频事件的出现位置处;
根据新音频文档中两个关键音频事件之间的间隔,从该类音频场景内的非关键音频事件中选择持续时长最接近间隔时长的片段,置于间隔位置处;
如果新音频文档中第一个关键音频事件的出现位置值不等于0,则从该类音频场景内的非关键音频事件片段中,选取持续时长最接近第一个关键音频事件的出现位置值的非关键音频事件片段,放置在第一个关键音频事件出现位置前面的位置。
5.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-3任一项方法所述的步骤。
6.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-3任一项方法所述的步骤。
CN201911088131.9A 2019-11-08 2019-11-08 一种用于音频场景分类的数据扩充方法及装置 Expired - Fee Related CN110853672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088131.9A CN110853672B (zh) 2019-11-08 2019-11-08 一种用于音频场景分类的数据扩充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088131.9A CN110853672B (zh) 2019-11-08 2019-11-08 一种用于音频场景分类的数据扩充方法及装置

Publications (2)

Publication Number Publication Date
CN110853672A CN110853672A (zh) 2020-02-28
CN110853672B true CN110853672B (zh) 2022-04-01

Family

ID=69600163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088131.9A Expired - Fee Related CN110853672B (zh) 2019-11-08 2019-11-08 一种用于音频场景分类的数据扩充方法及装置

Country Status (1)

Country Link
CN (1) CN110853672B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750462B (zh) * 2020-08-07 2024-06-21 腾讯科技(深圳)有限公司 一种音频处理方法、装置及设备
CN112530399A (zh) * 2020-11-30 2021-03-19 上海明略人工智能(集团)有限公司 一种语音数据的扩充方法、系统、电子设备及存储介质
CN113220932B (zh) * 2021-04-02 2022-06-10 山东师范大学 一种基于多任务学习的音频场景识别方法及装置
CN117373488B (zh) * 2023-12-08 2024-02-13 富迪科技(南京)有限公司 一种音频实时场景识别系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094233A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Modeling Topics Using Statistical Distributions
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106205609A (zh) * 2016-07-05 2016-12-07 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094233A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Modeling Topics Using Statistical Distributions
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法
CN104850650A (zh) * 2015-05-29 2015-08-19 清华大学 基于类标关系的短文本扩充方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN106205609A (zh) * 2016-07-05 2016-12-07 山东师范大学 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法

Also Published As

Publication number Publication date
CN110853672A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110853672B (zh) 一种用于音频场景分类的数据扩充方法及装置
US10943582B2 (en) Method and apparatus of training acoustic feature extracting model, device and computer storage medium
CN101894548B (zh) 一种用于语种识别的建模方法及装置
US20210097159A1 (en) Electronic device, method and system of identity verification and computer readable storage medium
CN106528532A (zh) 文本纠错方法、装置及终端
CN109271641B (zh) 一种文本相似度计算方法、装置及电子设备
US20110150328A1 (en) Apparatus and method for blockiing objectionable image on basis of multimodal and multiscale features
CN111508524B (zh) 语音来源设备的识别方法和系统
CN108241856B (zh) 资讯信息生成方法及设备
WO2019184517A1 (zh) 一种音频指纹提取方法及装置
CN106681716A (zh) 智能终端及其应用程序的自动分类方法
CN102236717A (zh) 一种基于草图特征提取的图像检索方法
CN112883734A (zh) 区块链安全事件舆情监测方法及系统
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN113111889A (zh) 用于边缘计算端的目标检测网络处理方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN113409827B (zh) 基于局部卷积块注意力网络的语音端点检测方法及系统
CN108564967B (zh) 面向哭声检测系统的Mel能量声纹特征提取方法
CN110889010A (zh) 音频匹配方法、装置、介质和电子设备
Zamzami et al. Probabilistic modeling for frequency vectors using a flexible shifted-scaled Dirichlet distribution prior
CN111898559A (zh) 一种提升人脸识别速度的方法、装置及电子设备
CN112289311B (zh) 语音唤醒方法、装置、电子设备及存储介质
CN106910494B (zh) 一种音频识别方法和装置
CN117057349A (zh) 新闻文本关键词抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220401