CN106548786A - 一种音频数据的检测方法及系统 - Google Patents
一种音频数据的检测方法及系统 Download PDFInfo
- Publication number
- CN106548786A CN106548786A CN201510600668.4A CN201510600668A CN106548786A CN 106548786 A CN106548786 A CN 106548786A CN 201510600668 A CN201510600668 A CN 201510600668A CN 106548786 A CN106548786 A CN 106548786A
- Authority
- CN
- China
- Prior art keywords
- data
- voice data
- user
- voice
- speech data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000010801 machine learning Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012360 testing method Methods 0.000 claims abstract description 11
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 230000008447 perception Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013481 data capture Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 239000004744 fabric Substances 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了音频数据的检测方法及系统,应用于信息处理技术领域。音频数据的检测系统会获取第一用户的音频数据中的第一语音数据的音色特征训练成的机器学习模型,然后根据第二用户的音频数据中的第二语音数据的音色特征与机器学习模型,就可以确定该第二用户的音频数据是否为敏感数据,是否可以发布该第二用户的音频数据,实现了由音频数据的检测系统自动对第二用户的音频数据进行检测,从而确定该第二用户的音频数据是否能发布,和现有技术中需要通过人工对音频数据进行检测相比,本实施例的方法成本低,效率高,且避免了由于人工检测造成的检测结果不确定的因素。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种音频数据的检测方法及系统。
背景技术
现有技术中,用户可以通过用户终端录制音频数据,并上传到服务器,这样服务器就可以将这些音频数据分享给其它用户终端。为了防止人们恶意使用名人或敏感人群的音频传播违法或敏感内容,需要先对上传到服务器的音频数据进行检测,然后服务器会发布检测通过的音频数据。
现有技术中对于音频数据的检测是人工进行检测,然而人工检测的成本较高,效率低,且不同的检测任用在不同场景下,得到的检测结论不尽相同。
发明内容
本发明实施例提供一种音频数据的检测方法及系统,实现了由音频数据的检测系统自动对音频数据进行检测。
本发明实施例提供一种音频数据的检测方法,包括:
获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型;
获取第二用户的音频数据中所包含的第二语音数据;
提取所述第二语音数据的音色特征;
根据所述第二语音数据的音色特征与所述机器学习模型的匹配度,确定所述第二用户的音频数据的发布信息,将所述发布信息作为所述音频数据的检测结果。
本发明实施例还提供一种音频数据的检测系统,包括:
模型获取单元,用于获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型;
数据获取单元,用于获取第二用户的音频数据中所包含的第二语音数据;
音色提取单元,用于提取所述数据获取单元获取的第二语音数据的音色特征;
信息确定单元,用于根据所述音色提取单元提取的第二语音数据的音色特征与所述模型获取单元获取的机器学习模型的匹配度,确定所述第二用户的音频数据的发布信息,将所述发布信息作为所述音频数据的检测结果。
可见,在本实施例的方法中,音频数据的检测系统会获取第一用户的音频数据中的第一语音数据的音色特征训练成的机器学习模型,然后根据第二用户的音频数据中的第二语音数据的音色特征与机器学习模型,就可以确定该第二用户的音频数据是否为敏感数据,是否可以发布该第二用户的音频数据,实现了由音频数据的检测系统自动对第二用户的音频数据进行检测,从而确定该第二用户的音频数据是否能发布,和现有技术中需要通过人工对音频数据进行检测相比,本实施例的方法成本低,效率高,且避免了由于人工检测造成的检测结果不确定的因素。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种音频数据的检测方法的流程图;
图2是本发明实施例中获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型的方法流程图;
图3是本发明实施例中从第一有效数据中提取PLP特征的示意图;
图4是本发明实施例中获取第二用户的音频数据中所包含的第二语音数据的方法流程图;
图5是本发明实施例中从第二有效数据中提取MFCC特征的示意图
图6是本发明实施例中根据第二语音数据的音色特征与机器学习模型的匹配度,确定第二用户的音频数据的发布信息的方法流程图;
图7是本发明实施例提供的一种音频数据的检测系统的结构示意图;
图8是本发明实施例提供的另一种音频数据的检测系统的结构示意图;
图9是本发明实施例提供的另一种音频数据的检测系统的结构示意图;
图10是本发明实施例提供的另一种音频数据的检测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种音频数据的检测方法,主要是当用户使用用户终端上传音频数据到服务器后,且在服务器发布该音频数据之前,由音频数据的检测系统对该音频数据的检测,方法流程图如图1所示,包括:
步骤101,获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型,这里机器学习模型可以通过对第一语音数据的音色特征训练得到。
可以理解,这里第一用户的音频数据可以指名人或敏感人群的音频数据,具体可以从新闻或任务演讲中截取得到;第一语音数据是指第一用户的音频数据中第一用户的声音数据;本实施例中音色特征可以采用感知线性预测(Perceptual Linear Predictive,PLP)特征,PLP特征是一种基于听觉模型的特征参数,该特征参数是全极点模型预测多项式的一组系数,PLP技术将人耳听觉试验获得的一些结论,通过近似计算的方法进行了工程化处理,应用到频谱分析中,主要是将输入的语音数据经听觉模型处理,经过这样处理后的语音频谱考虑到了人耳的听觉特点,因而有利于抗噪语音特征提取。
步骤102,获取第二用户的音频数据中所包含的第二语音数据,这里第二用户的音频数据主要是指用户采用用户终端录制的音频数据,音频数据的检 测系统获取本步骤的第二语音数据时,具体可以将第二用户的音频数据中的噪声、静音和非语音数据去掉后即可得到第二语音数据。
步骤103,提取第二语音数据的音色特征,该音色特征可以是PLP等特征,具体提取方法可以如上述步骤101中得到第一语音数据的音色特征的方法,在此不进行赘述。
步骤104,根据步骤103得到的第二语音数据的音色特征与步骤101中得到的机器学习模型的匹配度,确定第二用户的音频数据的发布信息,将发布信息作为音频数据的检测结果。具体地,音频数据的检测系统会先计算第二语音数据的音色特征与机器学习模型的匹配度,然后将该匹配度与预置的一个门限进行比较,这样就可以根据比较结果确定该第二语音数据的音色与上述第一语音数据的音色是否接近,如果不接近,则确定该第二用户的音频数据能发布,如果接近,则确定该第二用户的音频数据不能发布,需要对该第二用户的音频数据进行进一步地其它审核。
可见,在本实施例的方法中,音频数据的检测系统会获取第一用户的音频数据中的第一语音数据的音色特征训练成的机器学习模型,然后根据第二用户的音频数据中的第二语音数据的音色特征与机器学习模型,就可以确定该第二用户的音频数据是否为敏感数据,是否可以发布该第二用户的音频数据,实现了由音频数据的检测系统自动对第二用户的音频数据进行检测,从而确定该第二用户的音频数据是否能发布,和现有技术中需要通过人工对音频数据进行检测相比,本实施例的方法成本低,效率高,且避免了由于人工检测造成的检测结果不确定的因素。
参考图2所示,在一个具体的实施例中,音频数据的检测系统在执行上述步骤101时,具体可以通过如下步骤来实现:
步骤A1,提取第一用户的音频数据中包含的第一有效数据,这里的第一有效数据是指第一用户的音频数据中除去噪声和静音的数据,该第一有效数据中包括第一语音数据。
具体地,音频数据的检测系统可以先将采集到的第一用户的音频数据经过模数转换,转换成二进制序列;然后对该二进制序列采用端点检测(Voice Activity Detection,VAD)技术进行分段,并将各分段中第一有效数据提取出 来。其中端点检测技术按照特征选取的不同可以分为多种类型,比如时域算法,频域算法,基于过零率的算法和基于模型的算法等等。其中,为了简化音频数据的检测系统的处理,在采集第一用户的音频数据时,需要排除第一用户的音频数据是非人类的声音数据,则采集到的第一用户的音频数据都为语音数据,则当提取了第一有效数据后,可以直接执行步骤B1和C1,最终得到的高斯混合模型(Gaussian mixture model,GMM)是关于语音数据的音色模型。
步骤B1,提取第一有效数据的感知线性预测特征,即PLP特征,具体一帧的第一有效数据可以提取出n个特征,这样形成了n维的PLP特征。
PLP特征的提取主要包括三个层次的技术:临界频带分析处理,等响度曲线预加重和信号强度-听觉响度变换,其中,临界频带的划分反映了人耳听觉的掩蔽效应,是人耳听觉模型的体现;等响度曲线预加重是用模拟人耳大约40dB(分贝)等响曲线进行等响度曲线预加重;信号强度-听觉响度变换是为了近似模拟声音的强度与人耳感受的响度间的非线性关系,进行强度-响度转换。
具体地,可以采用如图3所示的流程实现PLP特征的提取,具体包括:离散傅里叶变换,计算频谱,临界带分析,等响度预加重,强度响度变换,傅里叶逆变换,全极点模型和计算倒谱的处理。
步骤C1,根据步骤B1中提取的PLP特征,采用最大期望(Expectation Maximization Algorithm,EM)算法确定第一用户的高斯混合模型(Gaussian mixture model,GMM)。
具体地,音频数据的检测系统可以直接利用PLP特征,并采用EM算法训练GMM,或者,为了更好的反映PLP特征的动态变化,音频数据的检测系统可以先计算PLP特征的至少一阶差分计算得到的PLP差分特征,然后利用计算得到的PLP差分特征,并采用EM算法训练GMM,该GMM为第一语音数据的基于音色特征的机器学习模型。
其中,音频数据的检测系统在计算PLP差分特征时,对于一阶差分特征,是对原有PLP特征的计算,对于二阶差分特征,是对一阶差分特征的计算,以此类推。任何一阶差分特征都可以通过如下公式(1)来实现:
Y[n]=3*(X[n+2]+X[n+1]-X[n-1]-X[n-2])/10 (1)
其中,Y[n]表示计算得到的差分特征,X[n-2]到X[n+2]表示计算差分特征所需的相邻的四个特征。
考图4所示,在另一个具体的实施例中,音频数据的检测系统在执行上述步骤102时,可以通过如下的步骤A2和B2来实现:
步骤A2,提取第二用户的音频数据中包含的第二有效数据,具体可以采用端点检测技术提取得到第二有效数据,与上述从第一用户的音频数据中提取第一有效数据的方法类似,在此不进行赘述。
在具体实现时,音频数据的检测系统可以采用四门限的端点检测技术提取第二有效数据,具体可以通过如下步骤A21到A23来实现:
步骤A21,确定四个门限值,这四个门限值是根据部分第二用户的音频数据的聚类信息确定的,聚类信息包括噪声能量、有效声音能量及噪声和有效声音的平均能量。
可以理解,音频数据的检测系统可以将第二用户的音频数据分帧,每帧可以包括25毫秒(ms),以10ms作为移帧;然后对分帧后的音频数据进行降噪处理后,可以取部分的第二用户的音频数据,比如取50帧的音频数据,对这部分的第二用户的音频数据进行聚类计算,主要聚类成两类,即噪声和有效声音,聚类计算后得到聚类信息;最后可以根据聚类信息中的噪声能量、有效声音能量及噪声和有效声音的平均能量计算得到四个门限值。
步骤A22,根据四个门限值及第二用户的音频数据的能量信息,将第二用户的音频数据分为多段音频数据,并确定多段音频数据中每段音频数据为噪声或为有效声音的属性。
音频数据的检测系统可以针对分帧后的音频数据,计算得到每帧音频数据的能量;然后将每帧音频数据的能量与四个门限值进行比较,将第二用户的音频数据分为多段音频数据;最后根据每段音频数据与这四个门限值的关系,确定每段音频数据为噪声还是有效声音的属性。
具体地,每帧音频数据的能量E可以为:其中,xi为一帧音频数据的采样点的振幅,N为一帧音频数据的采样点个数。
步骤A23,将多段音频数据中属性为有效声音的音频数据段提取出来作为 第二有效数据。
步骤B2,去除第二有效数据中包含的非语音数据得到第二语音数据。
在具体实施例中,音频数据的检测系统在去除非语音数据时,具体可以通过如下步骤B21到B23来实现:
步骤B21,提取第二有效数据的梅尔频率倒谱系统(Mel Frequency Cepstrum Coefficient,MFCC)特征。该MFCC特征是一种听觉感知频域倒谱参数,主要从人耳对声音频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征,具体地,可以采用如图5所示的流程实现MFCC特征的提取,主要是对第二有效数据进行离散傅里叶变换,取模平方运算,三角滤波函数组,取对数运算和离散余弦变换之后,即可得到MFCC特征向量序列。
步骤B22,将MFCC特征放入支持向量机(Support Vector Machine,SVM)分类模型中对第二有效数据中的语音数据和非语音数据进行分类。
其中,SVM分类模型是音频数据的检测系统根据语音样本数据和非语音样本数据的MFCC特征训练得到的,语音样本数据主要包括人类的声音数据,非语音数据可以包括纯音乐和噪声等非人类的声音数据。且该SVM分类模型可以由音频数据的检测系统事先采集到语音样本数据和非语音样本数据,然后分别得到语音样本数据和非语音样本数据的MFCC特征,最后根据得到的MFCC特征训练即可得到SVM分类模型,并预置到音频数据的检测系统中。
步骤B23,根据步骤B22的分类去除第二有效数据中的非语音数据得到第二语音数据。
考图6所示,在另一个具体的实施例中,如果音频数据的检测系统获取的机器学习模型为GMM,则音频数据的检测系统在执行上述步骤104时,可以通过如下的步骤来实现:
步骤A3,计算的第二语音数据的音色特征在高斯混合模型GMM的似然概率,该似然概率可以表示第二语音数据的音色特征与GMM的匹配度。
假设GMM有M(比如256)个单高斯表示,即:
其中:
表示每个高斯的权重;
表示第j个单高斯似然值估计。
如果第二语音数据的音色特征由N个特征序列(比如N个39维特征)组成,则第二语音数据的音色特征在GMM的似然概率为:
其中,参数:
θj=(αj,μj,∑j),Θ=(θi,...,θM)T
步骤B3,判断似然概率是否小于预置的值比如0.3,如果小于,则说明该第二语音数据与第一语音数据的音色近似的概率较小,执行步骤C3;如果大于或等于,则说明该第二语音数据与第一语音数据的音色近似的概率较大,则需要对第二用户的音频数据进行进一步地检测。
步骤C3,确定第二用户的音频数据的发布信息为能发布。
本发明实施例还提供一种语音数据的评价系统,其结构示意图如图7所示,具体可以包括:
模型获取单元10,用于获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型;
数据获取单元11,用于获取第二用户的音频数据中所包含的第二语音数据;
音色提取单元12,用于提取所述数据获取单元11获取的第二语音数据的 音色特征;
信息确定单元13,用于根据所述音色提取单元12提取的第二语音数据的音色特征与所述模型获取单元10获取的机器学习模型的匹配度,确定所述第二用户的音频数据的发布信息,将所述发布信息作为所述音频数据的检测结果。
具体地,该信息确定单元13可以先计算第二语音数据的音色特征与机器学习模型的匹配度,然后将该匹配度与预置的一个门限进行比较,这样就可以根据比较结果确定该第二语音数据的音色与上述第一语音数据的音色是否接近,如果不接近,则确定该第二用户的音频数据能发布,如果接近,则确定该第二用户的音频数据不能发布,需要对该第二用户的音频数据进行进一步地其它审核。
可见,在本实施例的方法中,音频数据的检测系统的模型获取单元10会获取第一用户的音频数据中的第一语音数据的音色特征训练成的机器学习模型,然后信息确定单元13就可以根据第二用户的音频数据中的第二语音数据的音色特征与机器学习模型,就可以确定该第二用户的音频数据是否为敏感数据,是否可以发布该第二用户的音频数据,实现了由音频数据的检测系统自动对第二用户的音频数据进行检测,从而确定该第二用户的音频数据是否能发布,和现有技术中需要通过人工对音频数据进行检测相比,本实施例的实现的成本低,效率高,且避免了由于人工检测造成的检测结果不确定的因素。
参考图8所示,在一个具体的实施例中,音频数据的检测系统的模型获取单元10具体可以通过有效数据提取单元110,PLP特征单元210和模型确定单元310来实现,具体地:
有效数据提取单元110,用于提取所述第一用户的音频数据中包含的第一有效数据,所述第一有效数据中包含所述第一语音数据;该有效数据提取单元110可以先将采集到的第一用户的音频数据经过模数转换,转换成二进制序列;然后对该二进制序列采用端点检测技术进行分段,并将各分段中第一有效数据提取出来。
PLP特征单元210,用于提取所述有效数据提取单元110得提取的第一有效 数据的感知线性预测PLP特征。
模型确定单元310,用于根据所述PLP特征单元210提取的感知线性预测PLP特征,采用最大期望EM算法确定所述第一用户的高斯混合模型GMM,所述GMM为所述第一语音数据的基于音色特征的机器学习模型。
具体地,模型确定单元310,具体用于直接利用所述感知线性预测PLP特征,采用最大期望EM算法训练所述高斯混合模型GMM;或,所述模型确定单元310用于利用所述感知线性预测PLP特征的至少一阶差分计算得到的感知线性预测PLP差分特征,采用最大期望EM算法训练所述高斯混合模型GMM。
参考图9所示,在另一个具体的实施例中,音频数据的检测系统的数据获取单元11具体可以通过提取单元111和非语音去除单元112来实现,且如果模型获取单元10获取的机器学习模型为高斯混合模型GMM,则信息确定单元13具体通过概率计算单元131和发布确定单元132来实现,具体地:
提取单元111,用于提取所述第二用户的音频数据中包含的第二有效数据。
所述提取单元111,具体用于根据部分所述第二用户的音频数据的聚类信息确定四个门限值,所述聚类信息包括噪声能量、有效声音能量及噪声和有效声音的平均能量;根据所述四个门限值及所述第二用户的音频数据的能量,将所述第二用户的音频数据分为多段音频数据,确定所述多段音频数据中每段音频数据为噪声或为有效声音的属性;将所述多段音频数据中属性为有效声音的音频数据段提取出来作为所述第二有效数据。
非语音去除单元112,用于去除所述提取单元111提取的第二有效数据中包含的非语音数据得到所述第二语音数据,之后音色提取单元12会提取该非语音去除单元112得到的第二语音数据的音色特征。
所述非语音去除单元112,具体用于提取所述第二有效数据的梅尔频率倒谱系统MFCC特征;将所述MFCC特征放入支持向量机SVM分类模型中对所述第二有效数据中的语音数据和非语音数据进行分类;根据所述分类去除所述第二有效数据中的非语音数据得到所述第二语音数据;
其中,所述SVM分类模型是根据语音样本数据和非语音样本数据的MFCC特征训练得到的。
概率计算单元131,用于计算音色提取单元12提取的所述第二语音数据的 音色特征在所述模型获取单元10获取的高斯混合模型GMM的似然概率,该似然概率可以表示第二语音数据的音色特征与GMM的匹配度。
发布确定单元132,用于如果所述概率计算单元131计算的似然概率小于预置的值,则确定所述第二用户的音频数据的发布信息为能发布;如果似然概率大于或等于预置的值,则确定第二用户的音频数据的发布信息为不能发布。
本发明实施例还提供一种音频数据的检测系统,其结构示意图如图10所示,该音频数据的检测系统可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)20(例如,一个或一个以上处理器)和存储器21,一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中,存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对音频数据的检测系统中的一系列指令操作。更进一步地,中央处理器30可以设置为与存储介质22通信,在音频数据的检测系统上执行存储介质22中的一系列指令操作。
音频数据的检测系统还可以包括一个或一个以上电源23,一个或一个以上有线或无线网络接口24,一个或一个以上输入输出接口25,和/或,一个或一个以上操作系统223,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述方法实施例中所述的由音频数据的检测系统所执行的步骤可以基于该图10所示的音频数据的检测系统的结构。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。
以上对本发明实施例所提供的音频数据的检测方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会 有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种音频数据的检测方法,其特征在于,包括:
获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型;
获取第二用户的音频数据中所包含的第二语音数据;
提取所述第二语音数据的音色特征;
根据所述第二语音数据的音色特征与所述机器学习模型的匹配度,确定所述第二用户的音频数据的发布信息,将所述发布信息作为所述音频数据的检测结果。
2.如权利要求1所述的方法,其特征在于,所述获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型,具体包括:
提取所述第一用户的音频数据中包含的第一有效数据,所述第一有效数据中包含所述第一语音数据;
提取所述第一有效数据的感知线性预测PLP特征;
根据所述感知线性预测PLP特征,采用最大期望EM算法确定所述第一用户的高斯混合模型GMM,所述GMM为所述第一语音数据的基于音色特征的机器学习模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述感知线性预测PLP特征,采用最大期望EM算法确定所述第一用户的高斯混合模型GMM,具体包括:
直接利用所述感知线性预测PLP特征,采用最大期望EM算法训练所述高斯混合模型GMM;
或,利用所述感知线性预测PLP特征的至少一阶差分计算得到的感知线性预测PLP差分特征,采用最大期望EM算法训练所述高斯混合模型GMM。
4.如权利要求1至3任一项所述的方法,其特征在于,所述获取第二用户的音频数据中所包含的第二语音数据,具体包括:
提取所述第二用户的音频数据中包含的第二有效数据;
去除所述第二有效数据中包含的非语音数据得到所述第二语音数据。
5.如权利要求4所述的方法,其特征在于,所述提取所述第二用户的音频数据中包含的第二有效数据,具体包括:
根据部分所述第二用户的音频数据的聚类信息确定四个门限值,所述聚类信息包括噪声能量、有效声音能量及噪声和有效声音的平均能量;
根据所述四个门限值及所述第二用户的音频数据的能量,将所述第二用户的音频数据分为多段音频数据,确定所述多段音频数据中每段音频数据为噪声或为有效声音的属性;
将所述多段音频数据中属性为有效声音的音频数据段提取出来作为所述第二有效数据。
6.如权利要求4所述的方法,其特征在于,所述去除所述第二有效数据中包含的非语音数据得到所述第二语音数据,具体包括:
提取所述第二有效数据的梅尔频率倒谱系统MFCC特征;
将所述MFCC特征放入支持向量机SVM分类模型中对所述第二有效数据中的语音数据和非语音数据进行分类;
根据所述分类去除所述第二有效数据中的非语音数据得到所述第二语音数据;
其中,所述SVM分类模型是根据语音样本数据和非语音样本数据的MFCC特征训练得到的。
7.如权利要求1至3任一项所述的方法,其特征在于,所述机器学习模型为高斯混合模型GMM,则所述根据所述第二语音数据的音色特征与所述机器学习模型的匹配度,确定所述第二用户的音频数据的发布信息,具体包括:
计算的所述第二语音数据的音色特征在所述高斯混合模型GMM的似然概率;
如果所述似然概率小于预置的值,则确定所述第二用户的音频数据的发布信息为能发布。
8.一种音频数据的检测系统,其特征在于,包括:
模型获取单元,用于获取第一用户的音频数据中所包含第一语音数据的基于音色特征的机器学习模型;
数据获取单元,用于获取第二用户的音频数据中所包含的第二语音数据;
音色提取单元,用于提取所述数据获取单元获取的第二语音数据的音色特征;
信息确定单元,用于根据所述音色提取单元提取的第二语音数据的音色特征与所述模型获取单元获取的机器学习模型的匹配度,确定所述第二用户的音频数据的发布信息,将所述发布信息作为所述音频数据的检测结果。
9.如权利要求8所述的系统,其特征在于,所述模型获取单元具体包括:
有效数据提取单元,用于提取所述第一用户的音频数据中包含的第一有效数据,所述第一有效数据中包含所述第一语音数据;
PLP特征单元,用于提取所述有效数据提取单元提取的第一有效数据的感知线性预测PLP特征;
模型确定单元,用于根据所述PLP特征单元提取的感知线性预测PLP特征,采用最大期望EM算法确定所述第一用户的高斯混合模型GMM,所述GMM为所述第一语音数据的基于音色特征的机器学习模型。
10.如权利要求9所述的系统,其特征在于,
所述模型确定单元,具体用于直接利用所述感知线性预测PLP特征,采用最大期望EM算法训练所述高斯混合模型GMM;
或,所述模型确定单元,具体用于利用所述感知线性预测PLP特征的至少一阶差分计算得到的感知线性预测PLP差分特征,采用最大期望EM算法训练所述高斯混合模型GMM。
11.如权利要求8至10任一项所述的系统,其特征在于,所述数据获取单元具体包括:
提取单元,用于提取所述第二用户的音频数据中包含的第二有效数据;
非语音去除单元,用于去除所述提取单元提取的第二有效数据中包含的非语音数据得到所述第二语音数据。
12.如权利要求11所述的系统,其特征在于,
所述提取单元,具体用于根据部分所述第二用户的音频数据的聚类信息确定四个门限值,所述聚类信息包括噪声能量、有效声音能量及噪声和有效声音的平均能量;根据所述四个门限值及所述第二用户的音频数据的能量,将所述第二用户的音频数据分为多段音频数据,确定所述多段音频数据中每段音频数据为噪声或为有效声音的属性;将所述多段音频数据中属性为有效声音的音频数据段提取出来作为所述第二有效数据。
13.如权利要求11所述的系统,其特征在于,
所述非语音去除单元,具体用于提取所述第二有效数据的梅尔频率倒谱系统MFCC特征;将所述MFCC特征放入支持向量机SVM分类模型中对所述第二有效数据中的语音数据和非语音数据进行分类;根据所述分类去除所述第二有效数据中的非语音数据得到所述第二语音数据;
其中,所述SVM分类模型是根据语音样本数据和非语音样本数据的MFCC特征训练得到的。
14.如权利要求8至10任一项所述的系统,其特征在于,所述模型获取单元获取的机器学习模型为高斯混合模型GMM;
则所述信息确定单元具体包括:
概率计算单元,用于计算所述第二语音数据的音色特征在所述高斯混合模型GMM的似然概率;
发布确定单元,用于如果所述概率计算单元计算的似然概率小于预置的值,则确定所述第二用户的音频数据的发布信息为能发布。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510600668.4A CN106548786B (zh) | 2015-09-18 | 2015-09-18 | 一种音频数据的检测方法及系统 |
PCT/CN2016/083044 WO2017045429A1 (zh) | 2015-09-18 | 2016-05-23 | 一种音频数据的检测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510600668.4A CN106548786B (zh) | 2015-09-18 | 2015-09-18 | 一种音频数据的检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106548786A true CN106548786A (zh) | 2017-03-29 |
CN106548786B CN106548786B (zh) | 2020-06-30 |
Family
ID=58288092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510600668.4A Active CN106548786B (zh) | 2015-09-18 | 2015-09-18 | 一种音频数据的检测方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106548786B (zh) |
WO (1) | WO2017045429A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885845A (zh) * | 2017-11-10 | 2018-04-06 | 广州酷狗计算机科技有限公司 | 音频分类方法及装置、计算机设备及存储介质 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN110033785A (zh) * | 2019-03-27 | 2019-07-19 | 深圳市中电数通智慧安全科技股份有限公司 | 一种呼救识别方法、装置、可读存储介质及终端设备 |
CN110277106A (zh) * | 2019-06-21 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声去除方法 |
CN112017694A (zh) * | 2020-08-25 | 2020-12-01 | 天津洪恩完美未来教育科技有限公司 | 语音数据的评测方法和装置、存储介质和电子装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883106B (zh) * | 2020-07-27 | 2024-04-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1692403A (zh) * | 2002-10-04 | 2005-11-02 | 皇家飞利浦电子股份有限公司 | 具有个人化语音段的语音合成设备 |
CN101872614A (zh) * | 2009-04-24 | 2010-10-27 | 韩松 | 混合型语音合成系统 |
CN104361891A (zh) * | 2014-11-17 | 2015-02-18 | 科大讯飞股份有限公司 | 特定人群的个性化彩铃自动审核方法及系统 |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6411930B1 (en) * | 1998-11-18 | 2002-06-25 | Lucent Technologies Inc. | Discriminative gaussian mixture models for speaker verification |
WO2002029785A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) |
CN101241699B (zh) * | 2008-03-14 | 2012-07-18 | 北京交通大学 | 一种远程汉语教学中的说话人确认方法 |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN101419797A (zh) * | 2008-12-05 | 2009-04-29 | 无敌科技(西安)有限公司 | 一种提高语音辨识效率的方法及其语音辨识装置 |
CN104301561A (zh) * | 2014-09-30 | 2015-01-21 | 成都英博联宇科技有限公司 | 一种智能会议电话机 |
CN204231479U (zh) * | 2014-09-30 | 2015-03-25 | 成都英博联宇科技有限公司 | 一种智能会议电话机 |
-
2015
- 2015-09-18 CN CN201510600668.4A patent/CN106548786B/zh active Active
-
2016
- 2016-05-23 WO PCT/CN2016/083044 patent/WO2017045429A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1692403A (zh) * | 2002-10-04 | 2005-11-02 | 皇家飞利浦电子股份有限公司 | 具有个人化语音段的语音合成设备 |
CN101872614A (zh) * | 2009-04-24 | 2010-10-27 | 韩松 | 混合型语音合成系统 |
CN104361891A (zh) * | 2014-11-17 | 2015-02-18 | 科大讯飞股份有限公司 | 特定人群的个性化彩铃自动审核方法及系统 |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885845A (zh) * | 2017-11-10 | 2018-04-06 | 广州酷狗计算机科技有限公司 | 音频分类方法及装置、计算机设备及存储介质 |
CN107885845B (zh) * | 2017-11-10 | 2020-11-17 | 广州酷狗计算机科技有限公司 | 音频分类方法及装置、计算机设备及存储介质 |
CN108766459A (zh) * | 2018-06-13 | 2018-11-06 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN108766459B (zh) * | 2018-06-13 | 2020-07-17 | 北京联合大学 | 一种多人语音混合中目标说话人估计方法及系统 |
CN110033785A (zh) * | 2019-03-27 | 2019-07-19 | 深圳市中电数通智慧安全科技股份有限公司 | 一种呼救识别方法、装置、可读存储介质及终端设备 |
CN110277106A (zh) * | 2019-06-21 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110277106B (zh) * | 2019-06-21 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声去除方法 |
CN110933235B (zh) * | 2019-11-06 | 2021-07-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声识别方法 |
CN112017694A (zh) * | 2020-08-25 | 2020-12-01 | 天津洪恩完美未来教育科技有限公司 | 语音数据的评测方法和装置、存储介质和电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106548786B (zh) | 2020-06-30 |
WO2017045429A1 (zh) | 2017-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106548786A (zh) | 一种音频数据的检测方法及系统 | |
US11386916B2 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN109767785A (zh) | 基于卷积神经网络的环境噪声识别分类方法 | |
CN109599120B (zh) | 一种基于大规模养殖场厂哺乳动物异常声音监测方法 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN108281146A (zh) | 一种短语音说话人识别方法和装置 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
Pillos et al. | A Real-Time Environmental Sound Recognition System for the Android OS. | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN107274911A (zh) | 一种基于声音特征的相似度分析方法 | |
CN111696580A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN115081473A (zh) | 一种多特征融合的制动噪声分类识别方法 | |
WO2018095167A1 (zh) | 声纹识别方法和声纹识别系统 | |
CN107945793A (zh) | 一种语音激活检测方法及装置 | |
CN109473102A (zh) | 一种机器人秘书智能会议记录方法及系统 | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
CN115510909A (zh) | 一种dbscan进行异常声音特征的无监督算法 | |
Murugaiya et al. | Probability enhanced entropy (PEE) novel feature for improved bird sound classification | |
Chu et al. | A noise-robust FFT-based auditory spectrum with application in audio classification | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
CN104318931B (zh) | 一种音频文件的情绪活跃度获取方法及分类方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 510000 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17 Applicant after: Guangzhou KuGou Networks Co., Ltd. Address before: 510000 Guangzhou, Tianhe District branch Yun Yun Road, No. 16, self built room 2, building 1301 Applicant before: Guangzhou KuGou Networks Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |