CN111079794A - 一种基于类别间相互融合的声音数据增强方法 - Google Patents
一种基于类别间相互融合的声音数据增强方法 Download PDFInfo
- Publication number
- CN111079794A CN111079794A CN201911146569.8A CN201911146569A CN111079794A CN 111079794 A CN111079794 A CN 111079794A CN 201911146569 A CN201911146569 A CN 201911146569A CN 111079794 A CN111079794 A CN 111079794A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- label
- cut
- spliced
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000004927 fusion Effects 0.000 title claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 3
- 101100008044 Caenorhabditis elegans cut-1 gene Proteins 0.000 claims description 12
- 101100008046 Caenorhabditis elegans cut-2 gene Proteins 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000002708 enhancing effect Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 11
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于类别之间相互融合的声音数据增强方法,包括将数据集向下聚类,利用聚类的大类结果辅助选择要拼接的频谱图的小类别,随后选出要拼接的频谱图;分别在选出的频谱图时域上截取连续的α、1‑α比例面积的频谱图,然后将截取出的频谱图在时域上进行拼接,并为拼接后的频谱图打上相应的标签;将拼接的频谱图和相应标签加入增强后的频谱图集中。利用增强后的频谱图训练神经网络,以达到更优的声音识别性能。本发明利用向下聚类,可控的选择出要拼接的频谱图类别,保证了数据分布的可控性;提出在时域上融合两张频谱图的方法,高效的利用了数据的信息,达到了增强数据的效果,进而提升了声音识别性能。
Description
技术领域
本发明属于深度学习的技术领域,具体涉及一种基于类别间相互融合的声音数据增强方法。
背景技术
在机器学习和深度学习中经常遇到的一个难点是:可用的训练数据数量较少,这在一定程度上会导致模型的过拟合。常用的解决过拟合的方法有:DropOut、BatchNormalization、L1/L2正则化和数据增强等。
在数据增强领域近几年涌现了许多不错的方法:文献1(Sebastien C.Wong,AdamGatt,Victor Stamatescu and Mark D.McDonnell.Understanding data augmentationfor classification:when to warp?[C].DICTA 2016.)对比了在数据空间和特征空间进行数据增强的结果,得出了在标签确定的情况下数据空间进行数据增强较好的结论。文献2(Justin Salamon and Juan Pablo Bello.Deep Convolutional Neural Networks andData Augmentation for Environmental Sound Classification[J].IEEE SignalProcessing Letters,2017,24:279-283)介绍了Time stretching、Pitch shifting、Pitchshifting、Dynamic range compression和Background noise这些在音频上进行数据增强的传统方法。文献3(Zhun Zhong,Liang Zheng,Guoliang Kang,Shaozi Li and YiYang.Random Erasing Data Augmentation[C].CVPR,2017.)采用类似于DropOut的方法,随机擦除掉训练集图像的一部分,而保持标签不变,从而达到数据增强的目的。文献4(Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe and JonathonShlens.Rethinking the Inception Architecture for Computer Vision[C].CVPR,2016.)提出了标签平滑的方法,通过标签平滑可以让一张图像以不同权重对应不同类别的标签,这在一定程度上降低了模型过拟合的风险。
受文献4启发,本发明提出一种基于类别间相互融合的声音数据增强方法:将不同类别的频谱图融合,同时标签随之平滑;这样使得数据的分布更加宽广和均匀,以达到较好的数据增强效果。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于类别间相互融合的声音数据增强方法,利用向下聚类,可控的选择出要拼接的频谱图,保证了数据分布的可控性,随后利用选择出的频谱图在时域上进行融合,得到增强后的频谱图。
为了达到上述目的,本发明采用以下技术方案:
一种基于类别间相互融合的声音数据增强方法,包括下述步骤:
S1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;
S2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;
S3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
S4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签;
S5:将(SP,Label)加入增强后的频谱图集中;
S6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。
作为优选的技术方案,步骤S2中,根据设定的频谱图选择算法具体为:
S21:将频谱图集进行向下谱聚类,设聚类前共有N个类别{1,2,…,N},聚类后的大类别数为M(M<N),则聚类后M个大类可表示为形如{C1=[2,3,6],C2=[1,7,5],…,CM=[8,4]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);
S22:以概率p选择一个小类别j,j≠i,p表示类别j跟类别i同属于一个大类的概率,p的公式如下:
并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。
作为优选的技术方案,步骤S3中,α∈U(0.7,0.9)。
作为优选的技术方案,步骤S4中,将CUT_1,CUT_2在时域上拼接在一起,具体拼接方法如下:
S41:分别将CUT_1、CUT_2转换成二维矩阵array1M×N、array2 M×K;
S42:从第一列开始,依次将array2的列并入array1最后一列后面,使得array1变成M行N+K列的矩阵array1M×(N+K);
S43:将array1M×(N+K)转换成图片,作为CUT_1、CUT_2拼接后的图片。
作为优选的技术方案,步骤S5中,将(SP,Label)加入增强后的频谱图集中,具体步骤如下:
S51:将SP存储到增强后的频谱图集合中,将Label存储到增强后的标签集合中;
S52:为SP和Label建立一个映射,使得在训练神经网络之前读入SP时,也读入相应的Label。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明将不同类别的频谱图进行融合,同时融合后的图像标签进行相应的平滑,使得数据在空间的分布向周围扩散,与现有技术相比,这样会使得数据覆盖更广,增强效果更佳。
2、本发明通过向下聚类,将原来多个小类别聚成数量更少的大类别,通过大类别选择需要融合的频谱图,这样可控的选择信息更加相似或者不相似的两张频谱图。相比现有技术,这样可以控制数据在空间扩散的方向,达到更好的增强效果。
附图说明
图1是基于类别间相互融合的声音数据增强方法的总体流程图;
图2是谱聚类的流程图;
图3是实施例步骤S412中的网络模型结构,采用的是改进的VGG网络模型;
图4是增强前频谱图样例;
图5是增强后的频谱图样例。
图6是用验证集得到的混淆矩阵W的图,混淆矩阵反应了预测结果跟真实结果的差异,W中第i行j列的元素Wij的值表示真实类别为j,但是预测类别为i的频谱图张数。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例一种基于类别间相互融合的声音数据增强方法,包括下述内容:
(1)将待增强频谱图集中两个不同类别(设为i,j)的频谱图SP_1、SP_2融合在一起,使得融合后的频谱图SP同时带有这两个类别的信息,并为SP打上相应的标签Label,使得频谱图信息和标签信息都进行了相应的平滑,让数据空间更加扩散。
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
(⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签)
(2)将待增强的频谱图集进行向下聚类(设聚成M个大类),这时在同一个大类中各个小类别(频谱图集对应的原始类别)相似度会比不同大类间小类别的相似度高。利用这个信息,我们将聚成的大类辅助选择SP_2,使得SP_2以一定的概率跟SP_1出现在同一个大类中。这样可控的调整SP_1和SP_2的相似度,将不同相似度的频谱图进行融合,以达到更好的数据增强效果。
本实施例以增强DCASE2017声音场景识别的数据为例,增强过程具体包括下述步骤:
步骤S1:本实施例使用的数据集包括DCASE2017 task1声音场景识别的Development音频集与Evaluation音频集,其中每个音频的长度都为10秒,每个音频对应一个场景标签,共有[beach,bus,car,city_center,forest_path,grocery_store,home,library,metro_station,office,park,residential_area,train,tram]15个类别,为方便训练,将场景标签分别用[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]代替,这样每个音频对应[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]中的一个标签;取Development音频集的90%做为训练集Tr,其余10%做为验证集Vl,将Evaluation音频集做为测试集Te。
步骤S2:从Tr中逐个取出音频文件,通过预加重、分帧、加窗、短时傅立叶变换(STFT)等操作后得到时频特征图(STFT的窗长为706,步长为276),将多个帧的时频特征图组织连接起来可得到一个音频对应的大频谱图;接着按照一定的重叠度和宽度,将大频谱图切成若干小频谱图(本例中一个音频生成30张小频谱图,每张小频谱图大小为143*143像素大小,频谱图样例如图4所示),并为每张频谱图打上相应音频的类别标签,最后将带标签的所有小频谱图作为训练频谱图集TrSTFT;类似的可以得到验证频谱图集VlSTFT,测试频谱图集TeSTFT。
步骤S3:从训练频谱图集TrSTFT中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其类别为i(i∈{1,2,…,14})。
步骤S4:根据设定的频谱图选择算法,从训练频谱图集TrSTFT中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j(j∈{1,2,…,14},j≠i),具体选择的步骤如下:
步骤S41:将VlSTFT进行向下谱聚类,如图2,具体步骤如下:
步骤S411:用TrSTFT训练一个深度神经网络模型model(model的结构如图3所示,训练的batchsize为512,epoch为200);
步骤S412:将VlSTFT通过model前向传播,并保存下相应的混淆矩阵W(如图6所示),混淆矩阵反应了预测结果跟真实结果的差异,W中第i行j列的元素Wij的值表示真实类别为j,但是预测类别为i的频谱图张数。
步骤S413:如图2所示,对混淆矩阵W进行计算对角矩阵、计算拉普拉斯矩阵、归一化、求特征值矩阵、kmeans聚类步骤(此例中聚为3类),得到聚类的结果,聚类前共有15个类别{0,1,2,…,14},聚类后得到的结果为:{C1=[1,3,13,14],C2=[0,4,5,11,12],C3=[2,6,7,8,9,10]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);
步骤S42:以概率p选择一个小类别j(j≠i),p表示类别j跟类别i同属于一个大类的概率,p的公式如下(此例中M=3):
并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2;
步骤S5:分别将SP_1、SP_2在时域上截取α(α∈U(0.7,0.9))、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
步骤S6:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP(SP样例如图5所示),将onehot标签Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签(Label[i]、Label[j]值分别为α,1-α,其余值均为0),这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
(⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签)
步骤S7:将(SP,Label)加入增强后的频谱图集中。
步骤S8:重复步骤S3-S7,得到大量的增强频谱图。
将增强的频谱图和原频谱图用图3的网络结构训练一个模型model2(训练的batchsize为512,epoch为200),再用测试频谱图集Te通过model2前向传播,以测试集准确率TEST ACC(%)为评价标准,其他条件不变的情况下,频谱图增强前后的实验结果如表1所示:
表1
通过上述实验可以看出,本发明利用向下聚类,可控的选择出要拼接的频谱图类别,保证了数据分布的可控性;提出在时域上融合两张频谱图的方法,高效的利用了数据的信息,达到了增强数据的效果,进而提升了声音识别性能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于类别间相互融合的声音数据增强方法,其特征在于,包括下述步骤:
S1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;
S2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;
S3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
S4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签
S5:将(SP,Label)加入增强后的频谱图集中;
S6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。
2.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S2中,根据设定的频谱图选择算法具体为:
S21:将频谱图集进行向下谱聚类,设聚类前共有N个类别{1,2,…,N},聚类后的大类别数为M(M<N),则聚类后M个大类可表示为形如{C1=[2,3,6],C2=[1,7,5],…,CM=[8,4]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);
S22:以概率p选择一个小类别j,j≠i,p表示类别j跟类别i同属于一个大类的概率,p的公式如下:
并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。
3.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S3中,α∈U(0.7,0.9)。
4.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S4中,将CUT_1,CUT_2在时域上拼接在一起,具体拼接方法如下:
S41:分别将CUT_1、CUT_2转换成二维矩阵array1M×N、array2M×K;
S42:从第一列开始,依次将array2的列并入array1最后一列后面,使得array1变成M行N+K列的矩阵array1M×(N+K);
S43:将array1M×(N+K)转换成图片,作为CUT_1、CUT_2拼接后的图片。
5.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S5中,将(SP,Label)加入增强后的频谱图集中,具体步骤如下:
S51:将SP存储到增强后的频谱图集合中,将Label存储到增强后的标签集合中;
S52:为SP和Label建立一个映射,使得在训练神经网络之前读入SP时,也读入相应的Label。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146569.8A CN111079794B (zh) | 2019-11-21 | 2019-11-21 | 一种基于类别间相互融合的声音数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146569.8A CN111079794B (zh) | 2019-11-21 | 2019-11-21 | 一种基于类别间相互融合的声音数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079794A true CN111079794A (zh) | 2020-04-28 |
CN111079794B CN111079794B (zh) | 2023-02-28 |
Family
ID=70311453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911146569.8A Active CN111079794B (zh) | 2019-11-21 | 2019-11-21 | 一种基于类别间相互融合的声音数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079794B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653290A (zh) * | 2020-05-29 | 2020-09-11 | 北京百度网讯科技有限公司 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
CN111696579A (zh) * | 2020-06-17 | 2020-09-22 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN113241091A (zh) * | 2021-05-28 | 2021-08-10 | 思必驰科技股份有限公司 | 声音分离的增强方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105652476A (zh) * | 2016-04-01 | 2016-06-08 | 华南师范大学 | 一种内禀稳定的光强调制系统及调制方法 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
-
2019
- 2019-11-21 CN CN201911146569.8A patent/CN111079794B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105652476A (zh) * | 2016-04-01 | 2016-06-08 | 华南师范大学 | 一种内禀稳定的光强调制系统及调制方法 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
Non-Patent Citations (1)
Title |
---|
郑伟平: "基于局部供求平衡的P2P流媒体数据缓存", 《华南师范大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111653290A (zh) * | 2020-05-29 | 2020-09-11 | 北京百度网讯科技有限公司 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
CN111653290B (zh) * | 2020-05-29 | 2023-05-02 | 北京百度网讯科技有限公司 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
CN111696579A (zh) * | 2020-06-17 | 2020-09-22 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN111696579B (zh) * | 2020-06-17 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN113241091A (zh) * | 2021-05-28 | 2021-08-10 | 思必驰科技股份有限公司 | 声音分离的增强方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111079794B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679643B2 (en) | Automatic audio captioning | |
CN111079794B (zh) | 一种基于类别间相互融合的声音数据增强方法 | |
WO2021036471A1 (zh) | 样本生成方法、装置、计算机设备及存储介质 | |
Li et al. | Multilabel SVM active learning for image classification | |
US20140067735A1 (en) | Computer-implemented deep tensor neural network | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
US20140172643A1 (en) | System and method for categorizing an image | |
US20230077849A1 (en) | Content recognition method and apparatus, computer device, and storage medium | |
CN109711874A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
WO2021046957A1 (zh) | 一种视频分类方法、设备及系统 | |
CN111563422B (zh) | 基于双模态情绪识别网络的服务评价获取方法及其装置 | |
Kanwal et al. | Digital image splicing detection technique using optimal threshold based local ternary pattern | |
KR20040008792A (ko) | 얼굴/유사얼굴 영상으로 학습된 패턴 분류기를 이용한얼굴 검출 방법 및 시스템 | |
US20230169554A1 (en) | System and method for automated electronic catalogue management and electronic image quality assessment | |
CN113935365B (zh) | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 | |
CN114332544B (zh) | 一种基于图像块评分的细粒度图像分类方法和装置 | |
Chen et al. | Integrating information theory and adversarial learning for cross-modal retrieval | |
CN111341294A (zh) | 将文本转换为指定风格语音的方法 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Matsumoto et al. | Supervised fractional-order embedding multiview canonical correlation analysis via ordinal label dequantization for image interest estimation | |
CN112861580A (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
Ye et al. | A multi-attribute controllable generative model for histopathology image synthesis | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
US20210073591A1 (en) | Robustness estimation method, data processing method, and information processing apparatus | |
US10978049B2 (en) | Audio segmentation method based on attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |