CN112562726B - 一种基于mfcc相似矩阵的语音音乐分离方法 - Google Patents
一种基于mfcc相似矩阵的语音音乐分离方法 Download PDFInfo
- Publication number
- CN112562726B CN112562726B CN202011161333.4A CN202011161333A CN112562726B CN 112562726 B CN112562726 B CN 112562726B CN 202011161333 A CN202011161333 A CN 202011161333A CN 112562726 B CN112562726 B CN 112562726B
- Authority
- CN
- China
- Prior art keywords
- voice
- background music
- music
- segment
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 69
- 238000000926 separation method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于MFCC相似矩阵的语音音乐分离方法,属于语音音频处理领域。传统的语音参数一般为39维MFCC参数。在带背景音乐的讲话环境下,说话人的语音信息在相邻帧之间是不连续的,而背景音乐的相邻帧之间的语音信息变化是连续且缓慢的。该方法在此规律的基础上,对39维MFCC参数求解相似矩阵SMFCC,获取语音相邻帧之间的相关性,根据统计规律区分出讲话语音段和纯背景音乐段并将其切割分离,然后分别将背景音乐段和语音段输入7层双向LSTM神经网络进行数据分离,最后再对分离的数据进行整合,得到分离的说话人声音和背景音乐声音。经过测试,该方法可以提高整体的语音段和非语音段的识别准确率,且运算速度快、计算量较小。
Description
技术领域
本发明涉及一种基于MFCC相似矩阵的语音音乐分离方法,本发明属于音频信号处理技术领域。
背景技术
近年来语音识别得到了迅速发展,在国际化浪潮以及多民族和多文化的相互交织的大背景下,语音识别越来越受到人们的关注。一直以来,语音分离在音视频领域一直是一个比较重要的研究话题,尤其是在含有背景音乐环境下的人话分离,也一直是一个难点。随着研究的不断深入,语音识别、语音信号处理也取得了不少进展,但是在复杂背景音乐环境下的分析、研究还很局限,且分离后的效果也有待提升。
发明内容
本发明要解决的技术问题在于提出一种基于MFCC相似矩阵的语音、音乐区分方法,引入MFCC相似矩阵、构造矩阵,得到每条语音数据帧与帧之间的关联矩阵,通过柱形图对统计结果进行分析,返回区分的音乐段和讲话段,然后将其转换成时间刻度,将标注后的语音信息,输入到7层双向LSTM神经网络(Bi-LSTM)分离模型,分别将讲话段分离为说话者声音+背景音乐1,将音乐段分离为静音+背景音乐2,最后再将分离的说话者声音+静音整合到一起形成分离出来的说话人语音信息,将背景音乐1+背景音乐2整合到一起形成分离出来的背景音乐信息。此方法通过仿真软件对语音样本进行测试,达到了较好的区分结果。为解决上述技术问题,本发明采用如下技术方案;一种基于MFCC相似矩阵的语音音乐分离方法。
附图说明
图1是本发明流程图
图2是三种不同情况下的MFCC相似矩阵图
图3是相似矩阵SMFCC1
图4是相似矩阵SMFCC2
图5是语音文件的频率分布直方图
图6是音频标注流程图
图7是分离模型的网络结构图
图8是本发明详细流程图
具体实施方式
S1.测试音频数据的获取:
使用在喜马拉雅电台下载的任意几段带有背景音乐的说话人的语音文件,使用adobe audition软件将语音文件转码为wav文件,采样率为16k,双声道数据。
S2.提取语音信号的MFCC参数:
其步骤包括预加重、分帧、加窗、FFT变换、梅尔滤波器组、对数变换、DCT、动态差分参数。
S2.1预加重:
为了避免在做FFT变换的时候出现数值问题,需要加强一下高频信息,因为一般高频能量比低频小;
S2.2分帧:
为了保证帧与帧之间的平滑,一般我们设置每一帧的前N个采样点数据与前一帧的后N个采样点数据一致,也就是帧移的概念,帧的长度一般设置为10ms-25ms,测试音频采用的帧长为1024,帧移为512;
S2.3加窗:
加窗是对每一帧加窗的,常见的窗的类型有汉明窗、汉宁窗,测试音频采用的是汉宁窗;
S2.4 FFT变换:
利用FFT变换对每一帧的语音信号进行快速傅里叶变换,得到语音信号的频谱信号;
S2.5梅尔滤波器组:
相比于正常的频率机制,梅尔值更加接近于人耳的听觉机制,其在低频范围内增长速度很快,但在高频范围内,梅尔值的增长速度很慢;
S2.6对数运算:
因为人耳听到的声音与信号本身的大小是幂次方关系,所以要对经过了梅尔滤波器组的每一帧数据进行对数运算,这样更加贴近于人耳的听觉机制;
S2.7 DCT:
升倒谱运算,因为大部分的信号数据一般集中在变换后的低频区,一般选用前13维数据作为变换后的数据返回(第一维为能量信息,后12维为梅尔系数),此处对能量的对数做离散余弦变换就可以得到MFCC参数:
其中H为矩阵;M代表梅尔滤波器的个数;i代表第几帧数据;n代表第i帧的第n列。
S2.8动态差分参数:
对离散余弦变换后的参数,先进行升倒谱运算,再进行一阶差分、二阶差分,然后拼接到一起,形成一个39维的参数矩阵。
如上公式(2)是进行升倒谱运算公式,目的是提升MFCC参数。其中L为升倒谱系数,i为经验数值。然后再分别对MFCC系数进行一阶、二阶差分,目的是增强帧与帧之间的关联性,其差分公式如公式(3)所示:
df(i,j)=f(i+1,j)-f(i-1,j)+2·f(i+2,j)-2·f(i-2,j) 公式(3)
i=1,2,3,……,n;j=1,2,3,……,13;
其中i表示第i帧语音数据,j代表第j个梅尔滤波器系数,f代表得到的13维的MFCC系数,df代表f的一阶差分,n代表语音总帧数。
S3求取MFCC相似矩阵
原理:
在带背景音乐的讲话环境下,说话人的语音信息在相邻帧之间是不连续的,而背景音乐的相邻帧之间的语音信息变化是连续且缓慢的,而每一帧之间的相似关系又可以由相似矩阵来描述。相似矩阵的计算公式如下所示:
其中n代表矩阵维数,C代表MFCC系数矩阵,i代表第i帧MFCC系数,ja、jb分别代表当前帧的第a列、第b列,SMFCC代表MFCC矩阵的相似矩阵。
S4绘制相似矩阵图像
S4.1原理:
对于生成的相似矩阵,每一个元素代表了第i帧和第j帧之间的相似关系,当i=j时,则关联关系表示为1,而如果两帧之间的关联性很低,其值很低甚至为负数。基于这个规律,本发明将不同的数值表示为不同的颜色,从而更加直观的展现各帧之间的关系。
4.2绘制不同情况下的相似矩阵
本发明将分别展示三种不同情况下的MFCC相似矩阵的绘制出来的图2所示:
图2标示的序号1、2、3、4表示在该区域内只包含背景音乐的信息,此区域内的帧与帧之间的联系性较强,颜色较单一;而其余未标示部分相邻帧之间的关联性则较差,颜色变化较大。本发明认为引起该差异的原因是,在含有背景音乐环景下的说话人信息,在前后帧之间的关联性较差,而只含有背景音乐的区间段帧与帧之间的关联性则较强,这也就导致了本发明在以上列出的不同环境背景下的语音文件MFCC相似矩阵的差别。
S5点乘构造矩阵
S5.1原理:
考虑到相似矩阵的对角相似性,在实际分析中不需要对全部数据进行处理,所以本发明对相似矩阵进行了预处理,从而得到相邻帧之间的关联关系:
SMFCC1=SMFCC·*M1 公式(5)
上式(5)中M1代表与SMFCC同等大小的上三角矩阵,SMFCC1代表点乘后的新相似矩阵。为进一步减小本方法的计算量且突出相邻帧之间的相似关系,本发明提出的方法中又在生成的SMFCC1的基础上继续对相似矩阵进行处理:
SMFCC2=SMFCC1·*M2 公式(6)
上式(6)中M2代表与SMFCC1同等大小的构造矩阵,SMFCC2代表该发明中最终使用的相似矩阵。
S5.2绘制
为了达到上面分析的效果,根据上边提出的公式(5)、公式(6)本发明对相似矩阵进行了预处理(点乘构造矩阵),这里分两步进行:
Step1:先将相似矩阵SMFCC点乘一个上三角矩阵M1,得到矩阵SMFCC1;如图3所示。
Step2:SMFCC1点乘构造矩阵M2,得到相似矩阵SMFCC2,如图4所示。
这样一来本发明提出的基于MFCC相似矩阵的语音音乐分离方法既可以保留需要的相邻帧之间的关联关系也可以减小计算量。
S6对相邻帧之间的相似系数进行统计
统计相似矩阵的中大于阈值a(经验参数)的元素所在的行和列,形成一个新的参数矩阵D,用来分析各帧出现的次数及频率。
S7绘制频率分布直方图且求其均值
7.1原理
在本发明的上一节可以得到预处理后的相似矩阵,分别统计相似矩阵非零元素个数C1和超过阈值b(经验参数)的个数C2:如满足条件(其中d为通过大量实验获得的经验参数)则判别该语音段全部为音乐,如不满足,则对相似矩阵内各帧出现的次数及频率进行统计,且以每个柱形图代表相邻M帧出现的次数c(i),其计算公式如公式(7)所示:
其中frame(t)为各帧出现的次数,n为语音数据的总帧数。然后求取各个柱形图区间内各帧出现次数的均值,其计算公式(8)所示:
其中n为语音数据的总帧数,为c(i)相邻M帧出现的次数。要以该公式中提到的mean作为区分音乐段和含语音段的依据。如果柱状图统计的个数多于这个数值,则判别其为音乐段,如果低于该数值,则判别为含语音段。此步骤提出的每个柱形图代表相邻M帧出现次数的总和,一定程度上提高了该方法的自适应性和可变性。
S7.2频率分布直方图且求其均值
根据上边提到的原理,对任意一个语音数据都可得到这样一个柱状统计图,横坐标代表的是帧区间,纵坐标表示的是出现的次数,如图5所示。并且再在此处对频率分布直方图统计出来的结果进行求均值操作,利用此值来区分讲话段和音乐段;
S8返回背景音乐所在的帧区间
综合本发明提出的所有步骤,随机选取一个语音音频进行测试,完成以上所提的1-7步,将MFCC系数传入判别算法,得到判别区间,然后即可根据该判别区间对音频文件进行标注。这里对权利要求书的1-8步进行一下画图介绍,如图6所示.
按照权利要求书的要求,返回背景音乐所在的帧区间并将区间转换为时间刻度,并且完成对语音文件的标注。
S9语音分离模型
本发明提出的一种基于MFCC相似矩阵的语音、音乐分离方法,对要分离的语音文件进行区间标注,这样在进行语音分离的时候就可以不再去对检测出的背景音乐段进行分离,而只需对含语音段进行分离,而后再分别对分离的背景音乐和说话人信息进行整合,即可得到分离后的语音数据。
分离模型采用双向长短时神经网络(Bi-LSTM)训练,因为该模型在处理序列问题时表现突出,但也容易出现梯度消失的情况,为了解决这一问题,在分离模型中提出了使用残差连接(Residual connections),可以有效的解决在训练过程中的梯度消失问题。
本发明所提出一种基于MFCC相似矩阵的语音音乐分离方法中的分离模型采用了7层双向LSTM,其中前六层均为双向长短时神经网络(Bi-LSTM),且每一层的输入、输出状态数均不尽相同,第七层采用单向的LSTM网络,该分离模型网络结构如下所示。将前一步获得的音频标注文件读入到音频输入端,在模型内通过不断的迭代最后输出分离后的背景音乐和讲话信息。
图7是本发明提出的分离模型的网络结构。
经过以上步骤,即可实现对于带背景音乐环境下的语音、音乐分离任务。
S10本发明方法简单应用实例
随机采用任意一段25s音频文件,针对本发明所提到的一种基于MFCC相似矩阵的语音音乐分离方法进行实验,按照发明内容中的步骤介绍,检测该语音段的背景音乐段和含讲话段,其表现结果如表1所示。
通过表1的检测结果可以看到,通过本发明提到的方法,检测出的背景语音段的信息全部正确,可见本发明在区分讲话着信息和背景音乐方面还是有较为突出的表现。
表1返回结果判别
帧区间/帧 | 时间段/秒 | 真实结果 |
26帧-56帧 | 0.832s-1.792s | √ |
111帧-131帧 | 3.552s-4.192s | √ |
146帧-221帧 | 4.672s-7.072s | √ |
390帧-450帧 | 12.48s-14.4s | √ |
520帧-550帧 | 16.64s-17.6s | √ |
570帧-615帧 | 18.24s-19.68s | √ |
Claims (3)
1.一种基于MFCC相似矩阵的语音音乐分离方法,包括以下步骤:
S1求取MFCC相似矩阵:根据相似矩阵计算公式,求得其相似矩阵;
S2绘制相似矩阵图像:绘制该相似矩阵的图像,相似度越高,颜色越亮;
S3点乘构造矩阵:将得到的相似矩阵点乘构造矩阵,只保留相邻帧之间的相似系数;
S4对相邻帧之间的相似系数进行统计:统计相似矩阵的中大于阈值a的元素所在的行和列;
S5统计各帧出现的次数:对相似矩阵内各帧出现的次数及频率进行统计;
S6绘制频率分布直方图且求其均值:每相邻M帧数据绘制一个直方图,并求取分布直方图的均值,利用此值来区分讲话段和音乐段;所述讲话段为包含背景音乐和语音的音频段,所述音乐段为不包含语音的纯背景音乐;
如不满足,则对相似矩阵内各帧出现的次数及频率进行统计且以每个柱形图代表相邻M帧出现的次数c(i);具体计算公式为:
其中frame(i·j)为各帧出现的次数,n为语音数据的总帧数;i为第i帧,j为第j帧;
求取各个柱形图区间内各帧出现次数的均值,具体计算公式为:
其中c(m)为相邻M帧出现的次数;mean作为区分音乐段和含语音段的依据;柱状图统计的个数多于这个数值,则判别其为音乐段,如果低于该数值,则判别为含语音段;所述每个柱形图代表相邻M帧出现次数的总和;
S8时间尺度变换:将得到的帧数,根据分帧公式再次转换到时间尺度上,从而将含有背景音乐的说话人信息区分为背景音乐段和说话段;所述背景音乐段为不包含语音的纯背景音乐,所述说话段为包含语音和背景音乐的音频段;
S9音频分离:分离模型采用的是7层的双向LSTM网络(Bi-LSTM)进行训练,每一层的输入、输出层均不完全相同,且为了解决训练过程中的梯度消失情况,在部分层之间加入了残差连接;所述所分析的音频段在所述时间尺度变换阶段区分、标注完成背景音乐段和说话段后,获得音频标注文件;所述音频标注文件在音频分离模型的输入端读入,通过在模型内不断的迭代后得到分离后的背景音乐和分离后的讲话信息;所述分离后的背景音乐和分离后的讲话信息在整合后,通过分离模型的输出端输出,得到背景音乐和语音;所述音频分离不再对已检测出的背景音乐段进行分离,只需对说话段进行分离。
2.根据权利要求1所述的一种基于MFCC相似矩阵的语音音乐分离方法,其特征在于:求取MFCC相似矩阵:对音频数据提取39维的MFCC参数,再根据相似矩阵计算公式,求得其相似矩阵SMFCC。
3.根据权利要求1所述的一种基于MFCC相似矩阵的语音音乐分离方法,其特征在于:绘制相似矩阵图像:绘制该相似矩阵的图像,相似度越高,颜色越亮。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011161333.4A CN112562726B (zh) | 2020-10-27 | 2020-10-27 | 一种基于mfcc相似矩阵的语音音乐分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011161333.4A CN112562726B (zh) | 2020-10-27 | 2020-10-27 | 一种基于mfcc相似矩阵的语音音乐分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562726A CN112562726A (zh) | 2021-03-26 |
CN112562726B true CN112562726B (zh) | 2022-05-27 |
Family
ID=75042850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011161333.4A Expired - Fee Related CN112562726B (zh) | 2020-10-27 | 2020-10-27 | 一种基于mfcc相似矩阵的语音音乐分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562726B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
EP3010017A1 (en) * | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
CN109192196A (zh) * | 2018-08-22 | 2019-01-11 | 昆明理工大学 | 一种抗噪的svm分类器的音频特征选择方法 |
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111179947A (zh) * | 2020-01-06 | 2020-05-19 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424960B1 (en) * | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
CN110197665B (zh) * | 2019-06-25 | 2021-07-09 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110600055B (zh) * | 2019-08-15 | 2022-03-01 | 杭州电子科技大学 | 一种使用旋律提取与语音合成技术的歌声分离方法 |
CN111179962B (zh) * | 2020-01-02 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 语音分离模型的训练方法、语音分离方法及装置 |
-
2020
- 2020-10-27 CN CN202011161333.4A patent/CN112562726B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3010017A1 (en) * | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
CN109192196A (zh) * | 2018-08-22 | 2019-01-11 | 昆明理工大学 | 一种抗噪的svm分类器的音频特征选择方法 |
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111179947A (zh) * | 2020-01-06 | 2020-05-19 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
Non-Patent Citations (6)
Title |
---|
"A simple music voice separation method based on the extraction of the repeating musical structure";Zafar Rafii;《ICASSP 2011》;20110527;全文 * |
"Automatic music summarization via similarity analysis";Mattew Cooper;《Proc Ismir》;20021231;全文 * |
"Music/singing voice separation based on repeating pattern extraction technique and robust principal component analysis";S.M.Dogan;《ICEEE 2018》;20180505;全文 * |
"基于音频特征的乐器分类研究";龙华 等;《软件导刊》;20180529;全文 * |
"多反复结构模型的精确音乐分离方法";张天骐;《声学学报》;20160130;全文 * |
"音乐信号中的人声伴奏分离研究";熊梅;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20200115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112562726A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
CN108564942A (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN108369813A (zh) | 特定声音识别方法、设备和存储介质 | |
CN110033756B (zh) | 语种识别方法、装置、电子设备及存储介质 | |
Deshmukh et al. | Speech based emotion recognition using machine learning | |
CN111653289B (zh) | 一种回放语音检测方法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
US20110246205A1 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN112712824A (zh) | 一种融合人群信息的语音情感识别方法和系统 | |
Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
CN113889090A (zh) | 一种基于多任务学习的多语种识别模型的构建和训练方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN113539293A (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
CN112562726B (zh) | 一种基于mfcc相似矩阵的语音音乐分离方法 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN115064175A (zh) | 一种说话人识别方法 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
CN114267361A (zh) | 一种高识别度的说话人识别系统 | |
Camarena-Ibarrola et al. | Speaker identification using entropygrams and convolutional neural networks | |
Chelali et al. | Speaker identification system using LPC-Application on Berber language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220527 |