CN108053836A - 一种基于深度学习的音频自动化标注方法 - Google Patents

一种基于深度学习的音频自动化标注方法 Download PDF

Info

Publication number
CN108053836A
CN108053836A CN201810050808.9A CN201810050808A CN108053836A CN 108053836 A CN108053836 A CN 108053836A CN 201810050808 A CN201810050808 A CN 201810050808A CN 108053836 A CN108053836 A CN 108053836A
Authority
CN
China
Prior art keywords
audio
sound spectrograph
mask method
deep learning
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810050808.9A
Other languages
English (en)
Other versions
CN108053836B (zh
Inventor
尹学渊
江天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Potential Artificial Intelligence Technology Co ltd
Original Assignee
Chengdu Hi Turn House Culture Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Hi Turn House Culture Communication Co Ltd filed Critical Chengdu Hi Turn House Culture Communication Co Ltd
Priority to CN201810050808.9A priority Critical patent/CN108053836B/zh
Publication of CN108053836A publication Critical patent/CN108053836A/zh
Application granted granted Critical
Publication of CN108053836B publication Critical patent/CN108053836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。一种基于深度学习的音频自动化标注方法,包括以下实现步骤:输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。本发明利用卷积神经网络训练音频深度学习网络,实现音频自动化标注方法,相比于传统的人工标注方式,提高了标注准确率,提升了音频标注效率。

Description

一种基于深度学习的音频自动化标注方法
技术领域
本发明涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。
背景技术
音频的结构化表示是MIR(Music Information Retrieval音乐信息检索)中的重要问题,它主要是从音频信号本身提取特征,实现对音频的检索。传统的依靠专家只是提取音色、旋律、节奏的方式不能够完整描绘音频细节,无法实现自动标注,准确率较低。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注方法。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于深度学习的音频自动化标注方法,包括以下实现步骤:
S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;
S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;
S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;
S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。
作为本发明实施例的优选,所述原始音频文件为现有曲库音频文件。
作为本发明实施例的优选,步骤S1和S3所述的音频预处理的实现步骤为:
S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;
S200、将所述初始音频文件进行分帧、加窗;
S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换,然后按照时间t顺序拼接,得到二维矩阵;
S400、将所述二维矩阵的频率轴刻转换为梅尔刻度;
S500、将所述二维矩阵中的能量值取对数,并归一化到分贝刻度,通过取整,负数值变为0,得到梅尔语谱图;
S600、将所述梅尔语谱图切片,得到若干语图谱片段。
作为本发明实施例的优选,步骤S200中,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧。
作为本发明实施例的优选,步骤S600中将所述梅尔语谱图切片,得到若干语图谱片段的过程为:所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵。
作为本发明实施例的优选,步骤S2的实现步骤为:
S21、将所述原始语谱图片段进行卷积、规则化和最大池化;
S22、在时域上求得全局时域最大值、全局时域均值,并输入全连接层,对卷积神经网络输出值进行汇总;
S23、将输出值输入Dropout层,设置参数为0.5;
S24、将所述输出值输入输出层,利用损失函数,输出N个音频标签;所述损失函数为sigmoid交叉熵函数。
作为本发明实施例的优选,所述全连接层层数为2,每层全连接层的神经元个数为2048。
作为本发明实施例的优选,步骤S21的实现步骤为:
S211、将所述语谱图片段输入卷积层在时域方向卷积,得到矩阵A;
S212、将所述矩阵A输入Normalization层进行规则化操作,将输出值的均值归一化至为0,方差为1;
S213、将所述输出值输入Activation层,利用激活函数ReLU激活;
S214、通过Max Pooling层对输出值进行最大池化操作。
作为本发明实施例的优选,步骤S21中所述卷积、规则化和最大池化的操作依次循环进行3次。
作为本发明实施例的优选,步骤S4的实现过程为:
S41、基于所述深度学习模型,对N个所述待标注语谱图片段进行标注,得到每个所述待标注语谱图片段对应的标注结果C={C1,C2,C3,…,Ck};k为标注类别的数量;
S42、设置第i个所述待标注语谱图片段的标注结果为C[i],其最终标注结果为:
S43、选取最终标注结果数值最大的前n个作为音频标注输出。
与现有技术相比,本发明的有益效果:本发明基于深度学习技术,利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注,相比于传统的人工标注方式,提高了标注准确率,提升了音频标注效率。
附图说明:
图1为本发明的原理框图。
图2为本发明的音频预处理的流程框图。
图3为构建深度学习模型的流程框图。
图4为本发明梅尔语谱图片段进行卷积、规则化、最大池化的流程框图。
图5为本发明进行音频标注的流程框图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
参见图1,一种基于深度学习的音频自动化标注方法,包括以下实现步骤:
S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;
S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;
S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;
S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。
优选地,步骤S1中所述原始音频文件为现有曲库中的音频文件。
参见图2,具体地,步骤S1和S3所述的音频预处理的实现步骤为:
S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;
S200、将所述初始音频文件进行分帧、加窗;通过此操作,可以减少在非整数个周期上进行快速傅里叶变换(FFT)产生的误差,优选加窗为汉明窗;
具体地,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧;
优选地,本发明实施例中,所述帧大小a=2048,帧移b=512。
S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换(FFT),然后按照时间t顺序拼接,得到二维矩阵;所述二维矩阵中的每一个值表示时间为t及频率为f的对应的能量值;
S400、将所述二维矩阵的频率轴刻度转换为梅尔刻度(梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度);具体地,将原始频率通过梅尔滤波器(即,三角重叠窗口)从而得到梅尔刻度,变换后的梅尔刻度频率轴取值为0-128,通过将频率轴刻度缩小,减少了计算量;
S500、将所述二维矩阵中的能量值取对数,并归一化到分贝(db)刻度,通过取整,负数值变为0,得到梅尔语谱图;
S600、将所述梅尔语谱图切片,得到若干语图谱片段;具体地,所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵;
参见图3,具体地,步骤S2的实现步骤为:
S21、将所述原始语谱图片段进行卷积、规则化和最大池化操作;
优选地,所述卷积、规则化和最大池化依次循环进行3次,可以有效识别音频类别并且具有较小的计算量。
S22、在时域上求得全局时域最大值、全局时域均值,并输入全连接层,对卷积神经网络输出值进行汇总;
优选地,本发明实施例的所述全连接层层数为2,每层全连接层的神经元个数为2048。
S23、将输出值输入Dropout层,设置参数为0.5;所述参数0.5表示每个神经元节点以50%的概率停止激活;
S24、将所述输出值输入输出层,利用损失函数,输出N个音频标签;所述损失函数为sigmoid交叉熵函数。
参见图4,具体地,步骤S21的实现步骤为:
S211、将所述语谱图片段输入卷积层在时域方向卷积,得到矩阵A;
梅尔语谱图时间长度为T,频率长度为F,深度为H。梅尔语谱图表示为X,其中x[i,j]表示语谱图中第i行、第j列的元素值,对于卷积filter的每个权重进行编号,w[m,n]表示第m行、第n列的权重,wb表示权重的偏置项,卷积结果Feature Map表示为矩阵A,a[i,j]表示矩阵A中第i行、第j列的元素值,则有:
S212、将所述矩阵A输入Normalization层进行规则化操作,将输出值的均值归一化至为0,方差为1,提高训练速度。
具体计算方式如下:
其中,xi表示第i个输出值,μ表示所有输出值的均值,σ2表示输出值的方差,表示第i个输出值变换后的值,yi表示最终第i个输出值规则化后的值;
S213、将所述输出值输入Activation层,利用激活函数ReLU(Rectified LinearUnit,线性整流函数)激活;具体的,对于每一个神经元节点输出值x,ReLU激活函数表示为f(x)=max(0,x);
S214、通过Max Pooling层对输出值进行最大池化操作;最大化幅度为2,即在相邻输出xi-1,xi中取最大值,减少输入维度,提高训练速度。
参见图5,步骤S4的实现步骤为:
S41、基于所述深度学习模型,对N个所述待标注语谱图片段进行标注,得到每个所述待标注语谱图片段对应的标注结果C={C1,C2,C3,…,Ck};k为标注类别的数量;
S42、设置第i个所述待标注语谱图片段的标注结果为C[i],其最终标注结果为:
S43、选取最终标注结果数值最大的前n个作为音频标注输出;本实施例优选,一般取值n=3。
具体地,例如以音乐风格的标注为例,将音乐分为爵士、蓝调、流行、电子乐、古典乐和摇滚:
假设将待标注音频文件通过音频预处理,得到10个待标注语谱图片段;
基于所述深度学习模型,得到其与6种音乐风格对应的标注值分别为5,0,2,2,0,1;
选取最大的前3个,也就是爵士、流行和电子乐。
综上所述,本发明基于深度学习技术,利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注,相比于传统的人工标注方式,提高了标注准确率,提升了音频标注效率。
本发明实施例中,步骤S4进行音频标注的算法优选为最大投票算法,其标注效果最好,应当理解,该步骤进行音频标注的过程还可以简化为直接音频标注,也可通过取均值进行音频标注,其算法的替换均应包含在本发明的保护范围之内。
应当理解,本发明的具体实施方式中所表述的步骤顺序,是不定的,其可以根据实际使用本发明方法时更改,例如步骤S3可以在步骤S1之前进行,并不以步骤的数字大小限定本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的音频自动化标注方法,其特征在于,包括以下实现步骤:
S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;
S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;
S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;
S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。
2.根据权利要求1所述的音频自动化标注方法,其特征在于,所述原始音频文件为现有曲库音频文件。
3.根据权利要求1所述的音频自动化标注方法,其特征在于,步骤S1和S3所述的音频预处理的实现步骤为:
S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;
S200、将所述初始音频文件进行分帧、加窗;
S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换,然后按照时间t顺序拼接,得到二维矩阵;
S400、将所述二维矩阵的频率轴刻转换为梅尔刻度;
S500、将所述二维矩阵中的能量值取对数,并归一化到分贝刻度,通过取整,负数值变为0,得到梅尔语谱图;
S600、将所述梅尔语谱图切片,得到若干语图谱片段。
4.根据权利要求3所述的音频自动化标注方法,其特征在于,步骤S200中,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧。
5.根据权利要求3所述的音频自动化标注方法,其特征在于,步骤S600中将所述梅尔语谱图切片,得到若干语图谱片段的过程为:所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵。
6.根据权利要求1所述的音频自动化标注方法,其特征在于,步骤S2的实现步骤为:
S21、将所述原始语谱图片段进行卷积、规则化和最大池化;
S22、在时域上求得全局时域最大值、全局时域均值,并输入全连接层,对卷积神经网络输出值进行汇总;
S23、将输出值输入Dropout层,设置参数为0.5;
S23、将所述输出值输入输出层,利用损失函数,输出N个音频标签;所述损失函数为sigmoid交叉熵函数。
7.根据权利要求6所述的音频自动化标注方法,其特征在于,所述全连接层层数为2,每层全连接层的神经元个数为2048。
8.根据权利要求6所述的音频自动化标注方法,其特征在于,步骤S21的实现步骤为:
S211、将所述语谱图片段输入卷积层在时域方向卷积,得到矩阵A;
S212、将所述矩阵A输入Normalization层进行规则化操作,将输出值的均值归一化至为0,方差为1;
S213、将所述输出值输入Activation层,利用激活函数ReLU激活;
S214、通过Max Pooling层对输出值进行最大池化操作。
9.根据权利要求6或8所述的音频自动化标注方法,其特征在于,步骤S21中所述卷积、规则化和最大池化的操作依次循环进行3次。
10.根据权利要求1所述的音频自动化标注方法,其特征在于,步骤S4的实现过程为:
S41、基于所述深度学习模型,对N个所述待标注语谱图片段进行标注,得到每个所述待标注语谱图片段对应的标注结果C={C1,C2,C3,…,Ck};k为标注类别的数量;
S42、设置第i个所述待标注语谱图片段的标注结果为C[i],其最终标注结果为:
S43、选取最终标注结果数值最大的前n个作为音频标注输出。
CN201810050808.9A 2018-01-18 2018-01-18 一种基于深度学习的音频自动化标注方法 Active CN108053836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810050808.9A CN108053836B (zh) 2018-01-18 2018-01-18 一种基于深度学习的音频自动化标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810050808.9A CN108053836B (zh) 2018-01-18 2018-01-18 一种基于深度学习的音频自动化标注方法

Publications (2)

Publication Number Publication Date
CN108053836A true CN108053836A (zh) 2018-05-18
CN108053836B CN108053836B (zh) 2021-03-23

Family

ID=62127462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810050808.9A Active CN108053836B (zh) 2018-01-18 2018-01-18 一种基于深度学习的音频自动化标注方法

Country Status (1)

Country Link
CN (1) CN108053836B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN109065076A (zh) * 2018-09-05 2018-12-21 深圳追科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN109165558A (zh) * 2018-07-26 2019-01-08 浙江大学 一种基于深度学习的电梯内异常行为检测系统
CN109190482A (zh) * 2018-08-06 2019-01-11 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109817192A (zh) * 2019-01-21 2019-05-28 深圳蜜蜂云科技有限公司 一种智能陪练方法
CN109918535A (zh) * 2019-01-18 2019-06-21 华南理工大学 基于标签深度分析的音乐自动标注方法
CN109977255A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN110008372A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN110634475A (zh) * 2019-09-17 2019-12-31 北京声智科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN111128131A (zh) * 2019-12-17 2020-05-08 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111192601A (zh) * 2019-12-25 2020-05-22 厦门快商通科技股份有限公司 音乐标注方法、装置、电子设备及介质
CN111312224A (zh) * 2020-02-20 2020-06-19 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN111312223A (zh) * 2020-02-20 2020-06-19 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
CN111782863A (zh) * 2020-06-30 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 音频分段方法、装置、存储介质及电子设备
CN111916064A (zh) * 2020-08-10 2020-11-10 北京睿科伦智能科技有限公司 一种端到端的神经网络语音识别模型的训练方法
CN111938654A (zh) * 2020-07-06 2020-11-17 华南师范大学 足态测试方法、系统、可穿戴设备及存储介质
CN112420070A (zh) * 2019-08-22 2021-02-26 北京峰趣互联网信息服务有限公司 自动标注方法、装置、电子设备及计算机可读存储介质
CN112562647A (zh) * 2020-11-24 2021-03-26 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
WO2023245026A1 (en) * 2022-06-15 2023-12-21 NETFLIX Inc. Systems and methods for classifying music from heterogenous audio sources

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080072741A1 (en) * 2006-09-27 2008-03-27 Ellis Daniel P Methods and Systems for Identifying Similar Songs
US20090293104A1 (en) * 2003-11-04 2009-11-26 Levi Andrew E System and method for comprehensive management of company equity structures and related company documents withfinancial and human resource system integration
CN102822862A (zh) * 2010-04-01 2012-12-12 高通股份有限公司 计算装置接口
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
US20150161993A1 (en) * 2013-12-06 2015-06-11 International Business Machines Corporation Systems and methods for applying speaker adaption techniques to correlated features
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106297772A (zh) * 2016-08-24 2017-01-04 武汉大学 基于扬声器引入的语音信号失真特性的回放攻检测方法
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN107077625A (zh) * 2014-10-27 2017-08-18 电子湾有限公司 分层深卷积神经网络
CN107195295A (zh) * 2017-05-04 2017-09-22 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107238507A (zh) * 2017-06-20 2017-10-10 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的工业设备故障预测方法
CN107393542A (zh) * 2017-06-28 2017-11-24 北京林业大学 一种基于双通道神经网络的鸟类物种识别方法
CN107437100A (zh) * 2017-08-08 2017-12-05 重庆邮电大学 一种基于跨模态关联学习的图像位置预测方法
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090293104A1 (en) * 2003-11-04 2009-11-26 Levi Andrew E System and method for comprehensive management of company equity structures and related company documents withfinancial and human resource system integration
US20080072741A1 (en) * 2006-09-27 2008-03-27 Ellis Daniel P Methods and Systems for Identifying Similar Songs
CN102822862A (zh) * 2010-04-01 2012-12-12 高通股份有限公司 计算装置接口
US20150161993A1 (en) * 2013-12-06 2015-06-11 International Business Machines Corporation Systems and methods for applying speaker adaption techniques to correlated features
CN107077625A (zh) * 2014-10-27 2017-08-18 电子湾有限公司 分层深卷积神经网络
CN104517122A (zh) * 2014-12-12 2015-04-15 浙江大学 一种基于优化卷积架构的图像目标识别方法
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106297772A (zh) * 2016-08-24 2017-01-04 武汉大学 基于扬声器引入的语音信号失真特性的回放攻检测方法
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
CN107195295A (zh) * 2017-05-04 2017-09-22 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107238507A (zh) * 2017-06-20 2017-10-10 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的工业设备故障预测方法
CN107393542A (zh) * 2017-06-28 2017-11-24 北京林业大学 一种基于双通道神经网络的鸟类物种识别方法
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN107437100A (zh) * 2017-08-08 2017-12-05 重庆邮电大学 一种基于跨模态关联学习的图像位置预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUSTIN SALAMON: ""Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification"", 《IEEE》 *
QIUQIANG KONG: ""Joint detection and classification convolutional neural network on weakly labelled bird audio detection "", 《2017 25TH EUROPEAN SIGNAL PROCESSING CONFERENCE》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985293A (zh) * 2018-06-22 2018-12-11 深源恒际科技有限公司 一种基于深度学习的图像自动化标注方法及系统
CN108766461A (zh) * 2018-07-17 2018-11-06 厦门美图之家科技有限公司 音频特征提取方法及装置
CN109165558A (zh) * 2018-07-26 2019-01-08 浙江大学 一种基于深度学习的电梯内异常行为检测系统
CN109165558B (zh) * 2018-07-26 2022-03-25 浙江大学 一种基于深度学习的电梯内异常行为检测系统
CN109190482A (zh) * 2018-08-06 2019-01-11 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置
CN109065076A (zh) * 2018-09-05 2018-12-21 深圳追科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN109446369A (zh) * 2018-09-28 2019-03-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109446369B (zh) * 2018-09-28 2021-10-08 武汉中海庭数据技术有限公司 图像半自动标注的交互方法及系统
CN109918535A (zh) * 2019-01-18 2019-06-21 华南理工大学 基于标签深度分析的音乐自动标注方法
CN109817192A (zh) * 2019-01-21 2019-05-28 深圳蜜蜂云科技有限公司 一种智能陪练方法
CN109977255A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN110008372A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN112420070A (zh) * 2019-08-22 2021-02-26 北京峰趣互联网信息服务有限公司 自动标注方法、装置、电子设备及计算机可读存储介质
CN110634475A (zh) * 2019-09-17 2019-12-31 北京声智科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN111128131A (zh) * 2019-12-17 2020-05-08 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111128131B (zh) * 2019-12-17 2022-07-01 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111192601A (zh) * 2019-12-25 2020-05-22 厦门快商通科技股份有限公司 音乐标注方法、装置、电子设备及介质
CN111312223A (zh) * 2020-02-20 2020-06-19 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN111312224A (zh) * 2020-02-20 2020-06-19 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN111312224B (zh) * 2020-02-20 2023-04-21 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
CN111723239B (zh) * 2020-05-11 2023-06-16 华中科技大学 一种基于多模态的视频标注方法
CN111782863A (zh) * 2020-06-30 2020-10-16 腾讯音乐娱乐科技(深圳)有限公司 音频分段方法、装置、存储介质及电子设备
CN111938654A (zh) * 2020-07-06 2020-11-17 华南师范大学 足态测试方法、系统、可穿戴设备及存储介质
CN111916064A (zh) * 2020-08-10 2020-11-10 北京睿科伦智能科技有限公司 一种端到端的神经网络语音识别模型的训练方法
CN112562647A (zh) * 2020-11-24 2021-03-26 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN112562647B (zh) * 2020-11-24 2022-09-06 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
WO2023245026A1 (en) * 2022-06-15 2023-12-21 NETFLIX Inc. Systems and methods for classifying music from heterogenous audio sources

Also Published As

Publication number Publication date
CN108053836B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN108053836A (zh) 一种基于深度学习的音频自动化标注方法
CN107578775B (zh) 一种基于深度神经网络的多分类语音方法
CN106847309A (zh) 一种语音情感识别方法
CN108899051A (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN110085263B (zh) 一种音乐情感分类和机器作曲方法
CN109918535A (zh) 基于标签深度分析的音乐自动标注方法
CN111400540B (zh) 一种基于挤压和激励残差网络的歌声检测方法
CN111341294B (zh) 将文本转换为指定风格语音的方法
Chaudhary et al. Development of music emotion classification system using convolution neural network
Tang et al. Improved convolutional neural networks for acoustic event classification
Nugroho et al. Enhanced Indonesian ethnic speaker recognition using data augmentation deep neural network
CN115565540B (zh) 一种侵入式脑机接口汉语发音解码方法
Uddin et al. Gender and region detection from human voice using the three-layer feature extraction method with 1D CNN
CN112259119A (zh) 基于堆叠沙漏网络的音乐源分离方法
Tiple et al. Multi-label emotion recognition from Indian classical music using gradient descent SNN model
CN114299995A (zh) 一种用于情绪评估的语言情感识别方法
Tubaro et al. A dynamical system as the source of augmentation in a deep learning problem
Wu et al. A Characteristic of Speaker's Audio in the Model Space Based on Adaptive Frequency Scaling
CN114764575B (zh) 基于深度学习和时序注意力机制的多模态数据分类方法
Deng et al. Large vocabulary automatic chord estimation using bidirectional long short-term memory recurrent neural network with even chance training
CN113282718B (zh) 一种基于自适应中心锚的语种识别方法及系统
Wang et al. A hierarchical birdsong feature extraction architecture combining static and dynamic modeling
Mishra et al. Improvement of emotion classification performance using multi-resolution variational mode decomposition method
CN113744759A (zh) 音色模板定制方法及其装置、设备、介质、产品
CN113707172A (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 1201, 12 / F, unit 1, building 1, No. 722, middle Yizhou Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan 610000

Applicant after: CHENGDU HIFIVE TECHNOLOGY Co.,Ltd.

Address before: 610000 Huayang Avenue Section 117 and 119, Huayang Street, Tianfu New District, Chengdu City, Sichuan Province

Applicant before: CHENGDU HIFIVE CULTURE COMMUNICATION Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230621

Address after: Room 1210, 12 / F, unit 1, building 1, No. 722, middle section of Yizhou Avenue, high tech Zone, Chengdu, Sichuan 610000

Patentee after: Chengdu potential Artificial Intelligence Technology Co.,Ltd.

Address before: No. 1201, 12 / F, unit 1, building 1, No. 722, middle Yizhou Avenue, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan 610000

Patentee before: CHENGDU HIFIVE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right