CN111079794B - 一种基于类别间相互融合的声音数据增强方法 - Google Patents

一种基于类别间相互融合的声音数据增强方法 Download PDF

Info

Publication number
CN111079794B
CN111079794B CN201911146569.8A CN201911146569A CN111079794B CN 111079794 B CN111079794 B CN 111079794B CN 201911146569 A CN201911146569 A CN 201911146569A CN 111079794 B CN111079794 B CN 111079794B
Authority
CN
China
Prior art keywords
spectrogram
label
spliced
cut
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911146569.8A
Other languages
English (en)
Other versions
CN111079794A (zh
Inventor
蒋大灿
郑伟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201911146569.8A priority Critical patent/CN111079794B/zh
Publication of CN111079794A publication Critical patent/CN111079794A/zh
Application granted granted Critical
Publication of CN111079794B publication Critical patent/CN111079794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类别之间相互融合的声音数据增强方法,包括将数据集向下聚类,利用聚类的大类结果辅助选择要拼接的频谱图的小类别,随后选出要拼接的频谱图;分别在选出的频谱图时域上截取连续的α、1‑α比例面积的频谱图,然后将截取出的频谱图在时域上进行拼接,并为拼接后的频谱图打上相应的标签;将拼接的频谱图和相应标签加入增强后的频谱图集中。利用增强后的频谱图训练神经网络,以达到更优的声音识别性能。本发明利用向下聚类,可控的选择出要拼接的频谱图类别,保证了数据分布的可控性;提出在时域上融合两张频谱图的方法,高效的利用了数据的信息,达到了增强数据的效果,进而提升了声音识别性能。

Description

一种基于类别间相互融合的声音数据增强方法
技术领域
本发明属于深度学习的技术领域,具体涉及一种基于类别间相互融合的声音数据增强方法。
背景技术
在机器学习和深度学习中经常遇到的一个难点是:可用的训练数据数量较少,这在一定程度上会导致模型的过拟合。常用的解决过拟合的方法有:DropOut、BatchNormalization、L1/L2正则化和数据增强等。
在数据增强领域近几年涌现了许多不错的方法:文献1(Sebastien C.Wong,AdamGatt,Victor Stamatescu and Mark D.McDonnell.Understanding data augmentationfor classification:when to warp?[C].DICTA 2016.)对比了在数据空间和特征空间进行数据增强的结果,得出了在标签确定的情况下数据空间进行数据增强较好的结论。文献2(Justin Salamon and Juan Pablo Bello.Deep Convolutional Neural Networks andData Augmentation for Environmental Sound Classification[J].IEEE SignalProcessing Letters,2017,24:279-283)介绍了Time stretching、Pitch shifting、Pitchshifting、Dynamic range compression和Background noise这些在音频上进行数据增强的传统方法。文献3(Zhun Zhong,Liang Zheng,Guoliang Kang,Shaozi Li and YiYang.Random Erasing Data Augmentation[C].CVPR,2017.)采用类似于DropOut的方法,随机擦除掉训练集图像的一部分,而保持标签不变,从而达到数据增强的目的。文献4(Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe and JonathonShlens.Rethinking the Inception Architecture for Computer Vision[C].CVPR,2016.)提出了标签平滑的方法,通过标签平滑可以让一张图像以不同权重对应不同类别的标签,这在一定程度上降低了模型过拟合的风险。
受文献4启发,本发明提出一种基于类别间相互融合的声音数据增强方法:将不同类别的频谱图融合,同时标签随之平滑;这样使得数据的分布更加宽广和均匀,以达到较好的数据增强效果。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于类别间相互融合的声音数据增强方法,利用向下聚类,可控的选择出要拼接的频谱图,保证了数据分布的可控性,随后利用选择出的频谱图在时域上进行融合,得到增强后的频谱图。
为了达到上述目的,本发明采用以下技术方案:
一种基于类别间相互融合的声音数据增强方法,包括下述步骤:
S1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;
S2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;
S3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
S4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签;
S5:将(SP,Label)加入增强后的频谱图集中;
S6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。
作为优选的技术方案,步骤S2中,根据设定的频谱图选择算法具体为:
S21:将频谱图集进行向下谱聚类,设聚类前共有N个类别{1,2,…,N},聚类后的大类别数为M(M<N),则聚类后M个大类可表示为形如{C1=[2,3,6],C2=[1,7,5],…,CM=[8,4]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);
S22:以概率p选择一个小类别j,j≠i,p表示类别j跟类别i同属于一个大类的概率,p的公式如下:
Figure BDA0002282364030000031
并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。
作为优选的技术方案,步骤S3中,α∈U(0.7,0.9)。
作为优选的技术方案,步骤S4中,将CUT_1,CUT_2在时域上拼接在一起,具体拼接方法如下:
S41:分别将CUT_1、CUT_2转换成二维矩阵array1M×N、array2 M×K
S42:从第一列开始,依次将array2的列并入array1最后一列后面,使得array1变成M行N+K列的矩阵array1M×(N+K)
S43:将array1M×(N+K)转换成图片,作为CUT_1、CUT_2拼接后的图片。
作为优选的技术方案,步骤S5中,将(SP,Label)加入增强后的频谱图集中,具体步骤如下:
S51:将SP存储到增强后的频谱图集合中,将Label存储到增强后的标签集合中;
S52:为SP和Label建立一个映射,使得在训练神经网络之前读入SP时,也读入相应的Label。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明将不同类别的频谱图进行融合,同时融合后的图像标签进行相应的平滑,使得数据在空间的分布向周围扩散,与现有技术相比,这样会使得数据覆盖更广,增强效果更佳。
2、本发明通过向下聚类,将原来多个小类别聚成数量更少的大类别,通过大类别选择需要融合的频谱图,这样可控的选择信息更加相似或者不相似的两张频谱图。相比现有技术,这样可以控制数据在空间扩散的方向,达到更好的增强效果。
附图说明
图1是基于类别间相互融合的声音数据增强方法的总体流程图;
图2是谱聚类的流程图;
图3是实施例步骤S412中的网络模型结构,采用的是改进的VGG网络模型;
图4是增强前频谱图样例;
图5是增强后的频谱图样例。
图6是用验证集得到的混淆矩阵W的图,混淆矩阵反应了预测结果跟真实结果的差异,W中第i行j列的元素Wij的值表示真实类别为j,但是预测类别为i的频谱图张数。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例一种基于类别间相互融合的声音数据增强方法,包括下述内容:
(1)将待增强频谱图集中两个不同类别(设为i,j)的频谱图SP_1、SP_2融合在一起,使得融合后的频谱图SP同时带有这两个类别的信息,并为SP打上相应的标签Label,使得频谱图信息和标签信息都进行了相应的平滑,让数据空间更加扩散。
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
(⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签)
(2)将待增强的频谱图集进行向下聚类(设聚成M个大类),这时在同一个大类中各个小类别(频谱图集对应的原始类别)相似度会比不同大类间小类别的相似度高。利用这个信息,我们将聚成的大类辅助选择SP_2,使得SP_2以一定的概率跟SP_1出现在同一个大类中。这样可控的调整SP_1和SP_2的相似度,将不同相似度的频谱图进行融合,以达到更好的数据增强效果。
本实施例以增强DCASE2017声音场景识别的数据为例,增强过程具体包括下述步骤:
步骤S1:本实施例使用的数据集包括DCASE2017 task1声音场景识别的Development音频集与Evaluation音频集,其中每个音频的长度都为10秒,每个音频对应一个场景标签,共有[beach,bus,car,city_center,forest_path,grocery_store,home,library,metro_station,office,park,residential_area,train,tram]15个类别,为方便训练,将场景标签分别用[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]代替,这样每个音频对应[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14]中的一个标签;取Development音频集的90%做为训练集Tr,其余10%做为验证集Vl,将Evaluation音频集做为测试集Te。
步骤S2:从Tr中逐个取出音频文件,通过预加重、分帧、加窗、短时傅立叶变换(STFT)等操作后得到时频特征图(STFT的窗长为706,步长为276),将多个帧的时频特征图组织连接起来可得到一个音频对应的大频谱图;接着按照一定的重叠度和宽度,将大频谱图切成若干小频谱图(本例中一个音频生成30张小频谱图,每张小频谱图大小为143*143像素大小,频谱图样例如图4所示),并为每张频谱图打上相应音频的类别标签,最后将带标签的所有小频谱图作为训练频谱图集TrSTFT;类似的可以得到验证频谱图集VlSTFT,测试频谱图集TeSTFT
步骤S3:从训练频谱图集TrSTFT中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其类别为i(i∈{1,2,…,14})。
步骤S4:根据设定的频谱图选择算法,从训练频谱图集TrSTFT中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j(j∈{1,2,…,14},j≠i),具体选择的步骤如下:
步骤S41:将VlSTFT进行向下谱聚类,如图2,具体步骤如下:
步骤S411:用TrSTFT训练一个深度神经网络模型model(model的结构如图3所示,训练的batchsize为512,epoch为200);
步骤S412:将VlSTFT通过model前向传播,并保存下相应的混淆矩阵W(如图6所示),混淆矩阵反应了预测结果跟真实结果的差异,W中第i行j列的元素Wij的值表示真实类别为j,但是预测类别为i的频谱图张数。
步骤S413:如图2所示,对混淆矩阵W进行计算对角矩阵、计算拉普拉斯矩阵、归一化、求特征值矩阵、kmeans聚类步骤(此例中聚为3类),得到聚类的结果,聚类前共有15个类别{0,1,2,…,14},聚类后得到的结果为:{C1=[1,3,13,14],C2=[0,4,5,11,12],C3=[2,6,7,8,9,10]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);
步骤S42:以概率p选择一个小类别j(j≠i),p表示类别j跟类别i同属于一个大类的概率,p的公式如下(此例中M=3):
Figure BDA0002282364030000071
并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2;
步骤S5:分别将SP_1、SP_2在时域上截取α(α∈U(0.7,0.9))、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
步骤S6:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP(SP样例如图5所示),将onehot标签Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签(Label[i]、Label[j]值分别为α,1-α,其余值均为0),这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
(⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签)
步骤S7:将(SP,Label)加入增强后的频谱图集中。
步骤S8:重复步骤S3-S7,得到大量的增强频谱图。
将增强的频谱图和原频谱图用图3的网络结构训练一个模型model2(训练的batchsize为512,epoch为200),再用测试频谱图集Te通过model2前向传播,以测试集准确率TEST ACC(%)为评价标准,其他条件不变的情况下,频谱图增强前后的实验结果如表1所示:
表1
Figure BDA0002282364030000081
通过上述实验可以看出,本发明利用向下聚类,可控的选择出要拼接的频谱图类别,保证了数据分布的可控性;提出在时域上融合两张频谱图的方法,高效的利用了数据的信息,达到了增强数据的效果,进而提升了声音识别性能。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于类别间相互融合的声音数据增强方法,其特征在于,包括下述步骤:
S1:从待增广集中随机选择一张频谱图作为待拼接的频谱图,记为SP_1,设其所属类别为i,i∈{1,2,…,N},N是频谱图集中类别个数;
S2:根据设定的频谱图选择算法,从频谱图集中选择另外一张频谱图作为待拼接的频谱图,记为SP_2,设其类别为j,j∈{1,2,…,N},j≠i;
S3:分别将SP_1、SP_2在时域上截取α、1-α比例面积的图像,记截取后的图像分别为CUT_1,CUT_2;
S4:将CUT_1,CUT_2在时域上拼接在一起,记拼接后的图像为SP,将Label(0,…,α,…,1-α,…)作为SP的标签,其中Label是同时带有类别i、类别j的标签,Label[i]、Label[j]值分别为α,1-α,其余值均为0,这时SP、Label可以表示为:
SP=α⊙SP_1⊕(1-α)⊙SP_2
Label=α×label_1+(1-α)×label_2
⊙表示在时域上截取相应面积,⊕表示在时域上拼接,label_1、label_2分别是SP_1、SP_2对应的onehot标签
S5:将(SP,Label)加入增强后的频谱图集中;
S6:重复步骤S1-S5,得到大量的增强频谱图,利用增强的频谱图提升声音数据识别准确率。
2.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S2中,根据设定的频谱图选择算法具体为:
S21:将频谱图集进行向下谱聚类,设聚类前共有N个类别{1,2,…,N},聚类后的大类别数为M(M<N),则聚类后M个大类可表示为形如{C1=[2,3,6],C2=[1,7,5],…,CM=[8,4]}(即每个大类都包含若干个小类),其中Ck表示第k个大类,这时每一张频谱图都对应一个大类的标签Ck和一个小类标签i(聚类前的标签);
S22:以概率p选择一个小类别j,j≠i,p表示类别j跟类别i同属于一个大类的概率,p的公式如下:
Figure FDA0002282364020000021
并在小类别j中随机选择一张频谱图作为待拼接频谱图SP_2。
3.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S3中,α∈U(0.7,0.9)。
4.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S4中,将CUT_1,CUT_2在时域上拼接在一起,具体拼接方法如下:
S41:分别将CUT_1、CUT_2转换成二维矩阵array1M×N、array2M×K
S42:从第一列开始,依次将array2的列并入array1最后一列后面,使得array1变成M行N+K列的矩阵array1M×(N+K)
S43:将array1M×(N+K)转换成图片,作为CUT_1、CUT_2拼接后的图片。
5.根据权利要求1所述基于类别间相互融合的声音数据增强方法,其特征在于,步骤S5中,将(SP,Label)加入增强后的频谱图集中,具体步骤如下:
S51:将SP存储到增强后的频谱图集合中,将Label存储到增强后的标签集合中;
S52:为SP和Label建立一个映射,使得在训练神经网络之前读入SP时,也读入相应的Label。
CN201911146569.8A 2019-11-21 2019-11-21 一种基于类别间相互融合的声音数据增强方法 Active CN111079794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911146569.8A CN111079794B (zh) 2019-11-21 2019-11-21 一种基于类别间相互融合的声音数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911146569.8A CN111079794B (zh) 2019-11-21 2019-11-21 一种基于类别间相互融合的声音数据增强方法

Publications (2)

Publication Number Publication Date
CN111079794A CN111079794A (zh) 2020-04-28
CN111079794B true CN111079794B (zh) 2023-02-28

Family

ID=70311453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911146569.8A Active CN111079794B (zh) 2019-11-21 2019-11-21 一种基于类别间相互融合的声音数据增强方法

Country Status (1)

Country Link
CN (1) CN111079794B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653290B (zh) * 2020-05-29 2023-05-02 北京百度网讯科技有限公司 音频场景分类模型生成方法、装置、设备以及存储介质
CN111696579B (zh) * 2020-06-17 2022-10-28 厦门快商通科技股份有限公司 一种语音情感识别方法、装置、设备和计算机存储介质
CN113241091B (zh) * 2021-05-28 2022-07-12 思必驰科技股份有限公司 声音分离的增强方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105652476A (zh) * 2016-04-01 2016-06-08 华南师范大学 一种内禀稳定的光强调制系统及调制方法
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105652476A (zh) * 2016-04-01 2016-06-08 华南师范大学 一种内禀稳定的光强调制系统及调制方法
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于局部供求平衡的P2P流媒体数据缓存;郑伟平;《华南师范大学学报(自然科学版)》;20130430;第45卷(第4期);第1-2页 *

Also Published As

Publication number Publication date
CN111079794A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
WO2021036471A1 (zh) 样本生成方法、装置、计算机设备及存储介质
CN111079794B (zh) 一种基于类别间相互融合的声音数据增强方法
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN107239786B (zh) 一种字符识别方法和装置
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
Kanwal et al. Digital image splicing detection technique using optimal threshold based local ternary pattern
CN111563422B (zh) 基于双模态情绪识别网络的服务评价获取方法及其装置
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
CN114596566B (zh) 文本识别方法及相关装置
US20220335950A1 (en) Neural network-based signal processing apparatus, neural network-based signal processing method, and computer-readable storage medium
CN110827793A (zh) 一种语种识别方法
Chen et al. Integrating information theory and adversarial learning for cross-modal retrieval
Chen et al. Visual domain adaptation using weighted subspace alignment
US20210365836A1 (en) Methods and systems for pre-optimizing input data for an ocr engine or other computer-implemented analysis process
Ustubioglu et al. Detection of audio copy-move-forgery with novel feature matching on Mel spectrogram
CN111666996A (zh) 一种基于attention机制的高精度设备源识别方法
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
Matsumoto et al. Supervised fractional-order embedding multiview canonical correlation analysis via ordinal label dequantization for image interest estimation
CN114299944B (zh) 视频处理方法、系统、装置及存储介质
CN116012841A (zh) 一种基于深度学习的开集图像场景匹配方法及装置
CN115188039A (zh) 一种基于图像频域信息的深度伪造视频技术溯源方法
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)
CN111914850B (zh) 图片特征提取方法、装置、服务器和介质
CN113591857A (zh) 字符图像处理方法、装置及古代汉籍图像的识别方法
Jing et al. Statistical classification for E-glass fiber fabric defects based on sparse coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant