CN111554273B - 一种语音关键词识别中扩增语料的选取方法 - Google Patents
一种语音关键词识别中扩增语料的选取方法 Download PDFInfo
- Publication number
- CN111554273B CN111554273B CN202010347536.6A CN202010347536A CN111554273B CN 111554273 B CN111554273 B CN 111554273B CN 202010347536 A CN202010347536 A CN 202010347536A CN 111554273 B CN111554273 B CN 111554273B
- Authority
- CN
- China
- Prior art keywords
- voice
- gmm
- keyword
- model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 238000000926 separation method Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 239000000203 mixture Substances 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 8
- 238000000691 measurement method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036992 cognitive tasks Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音关键词识别中扩增语料的选取方法,步骤包括:对含关键词的原始语音进行语音转化,得到同一语义但不同说话人信息的语音;对原始语音进行语音端点检测去除静音部分,再获取原始语音和生成语音中的关键词片段;将原始语音关键词片段分为男女两类样本,分别训练UBMM、UBMF,用第i个关键词的男女两类原始语音关键词片段分别训练GMM(M,i)、GMM(F,i);采用GMM分离度度量判断GMM分量距离,将分离度较小的设为相似GMM分量,去除GMM(M,i)、GMM(F,i)中相似GMM分量,剩下分离度较大分量形成新的GMM′(M,i)、GMM′(F,i),用GMM′(b,i)、GMM′(g,i)对生成语音关键词片段进行性别分类;采用改进后的评价系数对生成语音进行评价,选取训练样本。本发明能在存在样本较少或不均衡的情况下更高效地训练模型。
Description
技术领域
本发明涉及连续语音关键词识别技术领域,具体涉及一种语音关键词识别中扩增语料的选取方法。
背景技术
关键词识别(Keyword Recognition,KWS)是指在连续的、无限制的自然语音流中识别出预先设定的一个或多个关键词,随着人工智能的发展,KWS也越来越受到重视,其应用范围也越来越广,当前主流的应用有语音质检、音频监控、音频审核、音频检索等。在公检法机构、机场、铁路、银行等一些领域,越来越多的安防工程需要清晰、逼真的影音同步监控系统,音频监控领域已经成为安防行业的新亮点。音频监控已经成为安防行业的重要组成部分,音频监控在城市安防系统中应用的越来越多,以弥补视频监控的不足。关键词识别的应用,能够在所监听环境下发生异常行为时快速实时响应。
近年来,深度学习算法取得了快速发展,在分类、语音识别等多种认知任务中接近甚至超越了人类的识别准度。在基于深度学习的语音识别技术的推动下,语音逐渐成为用户和电子设备之间最自然的交互方式,例如亚马逊的Echo,苹果的Siri和谷歌的GoogleHome等。基于深度神经网络的关键词识别系统已被证明在模型计算量、内存占用、识别精度等方面优于基于隐马尔可夫模型系统的传统关键词识别系统。但现有的语音关键词识别中存在样本较少或不均衡的问题。本发明提出在电话监控中,关键词识别系统的训练样本较少或样本说话人信息不均衡的一些处理方法。
发明内容
为了克服现有技术存在的缺陷与不足,为了在基于神经网络的语音关键词识别中存在样本较少或不均衡问题时能更高效的训练模型,本发明提供一种语音关键词识别中扩增语料的选取方法,本发明对现有语音(原始语音样本)使用语音转换技术,生成大量不确定说话人信息的语音(生成语音),再用原始语音样本中关键词所在的语音片段对每一个关键词训练一个UBM-GMM系统,由于生成语音不确定说话人信息,且伴随有一定的失真,使用一种新的通过GMM模型进行二分类的方法确定说话人性别,借用轮廓系数评价思想对生成语音进行评价并选取部分作为训练样本,在存在样本较少或不均衡的情况下能更高效地训练模型。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种语音关键词识别中扩增语料的选取方法,包括下述步骤:
采用语音转换技术对含关键词的原始语音进行语音转化,得到生成语音,所述生成语音包括多个同一语义但不同说话人信息的语音;
对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,分别表示为原始语音关键词片段和生成语音中关键词片段;
利用原始语音关键词片段分为男女两类样本,分别训练通用背景混合高斯模型UBMM、UBMF,再用第i个关键词的男女两类原始语音关键词片段分别训练混合高斯模型GMM(M,i)、GMM(F,i);
采用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类:
采用GMM分离度度量方法判断GMM分量距离,将分离度较小的设为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,使用剩下的分离度较大的分量形成新的混合高斯模型GMM′(M,i)、GMM′(F,i),用新生成的混合高斯模型GMM′(b,i)、GMM′(g,i)对生成语音关键词片段进行男女分类,进而得到生成语音的性别信息;
借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,选取满足设定条件的生成语音作为训练样本。
作为优选的技术方案,所述采用语音转换技术对含关键词的原始语音进行语音转化,具体步骤包括:
根据语音转换原理,音调变化在4到8个大调可以改变语音说话人性别,对男性语音进行-2到+8个大调的转换,女性语音进行-8到+2个大调的转换,使每一句含关键词语音得到多个同一语义但不同说话人信息的语音。
作为优选的技术方案,所述对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,具体步骤包括:
采用语音端点检测方法去除原始语音样本中的静音部分,再提取语音中关键词所在的语音片段,提取的语音片段时间为:
其中,设语音语义为Lz个字,总时长为Ls,关键词有a个字,关键词为第d到d+a-1个字。
作为优选的技术方案,所述采用GMM分离度度量方法判断GMM分量距离,GMM分离度度量公式如下:
其中,∑(ui,j-uk,l)2为对模型Gi的第j个高斯函数和模型Gk的第l个高斯函数各维度均值的平方和,Πσi,j是指对模型Gi的第j个高斯函数各维度方差的积,Πσk,l是指对模型Gk的第l个高斯函数各维度方差的积。
作为优选的技术方案,所述借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,具体采用GMM的后验概率代替样本与类之间的距离,后验概率越大,代表距离越小,修改后的表达式如下:
若计算类的轮廓系数,P(i)表示第i类样本在该类GMM模型中的后验概率的平均值,P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值;
若计算单个样本的轮廓系数,P(i)表示第i个样本在该类GMM模型中后验概率,P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值,S(i)取值在[-1,1]之间,S越接近1,代表效果越好;
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在使用传统深度神经网络方法的情况下,使用了扩增语料的方法,能有效缓解因数据不平衡或太少造成的训练效果差或无法训练等问题,也能在不缺少数据时提升训练效果,提高系统识别鲁棒性。
(2)本发明在语料说话人性别信息不均衡的情况下,能通过语音转换的方法扩增不同说话人性别信息的语料,能有效缓解数据说话人性别信息不均衡导致的识别性能下降,提高系统识别鲁棒性。
(3)本发明采用GMM分离度度量方法判断对应的混合GMM中GMM分量距离,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,消除相似的GMM分量会对语音的分类造成的不良影响,提高语音分类的准确度。
附图说明
图1为本发明中各语音名称的关系图;
图2为本发明中由原始语音训练GMM到识别生成语音性别的流程图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例以RNN-CTC模型作为关键词检出模型,以AiShell语料库中的部分开源数据作为实验数据,其中关键词为:产品、城市、发展、公司、记者、企业、市场、投资、项目、政策,10个关键词进行关键词检出,每个关键词只使用500句含关键词语句,然后使用SoundTouch生成其他语句,然后用本方法对生成的语音进行筛选,训练两个关键词检出模型,一个只用原始语音作为训练集,另一个用原始语音加生成语音作为训练集,对同一个测试集进行识别,根据两模型的识别结果作为本方法效果的判别依据。
本实施例提供了一种语音关键词识别中扩增语料的选取方法,对现有语音(原始语音)使用语音转换技术,生成大量不确定说话人信息的语音(生成语音),再用原始语音样本中关键词所在的语音片段对每一个关键词训练一个高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,UBM-GMM)系统,由于生成语音不确定说话人信息,且伴随有一定的失真,使用一种凸显说话人信息的GMM模型对生成语音进行性别分类,借用轮廓系数评价思想对生成语音进行评价并选取部分语音作为训练样本。
具体步骤包括:
S1、利用语音转换工具SoundTouch对AiShell语料库中含关键词的原始语音样本进行语音转化,得到大量同一语义但不同说话人信息的含关键词语音(年龄、性别信息不同,但生成语音不能确定年龄、性别);
在本实施例步骤S1中,根据语音转换原理,音调变化在4到8个大调可以改变语音说话人性别,利用语音转换工具SoundTouch对含关键词语音进行语音转化时(本实施例也可使用其他语音转换工具),对男性语音进行-2到+8个大调的转换(-表示降低,+表示增加),女性语音进行-8到+2个大调的转换,即SoundTouch中的pitch参数男性取值为[-2,8],女性取值为[-8,2],经过SoundTouch转换后,一个原始语音得到10个同一语义但不同说话人信息的语音(年龄、性别信息不同,但转换后的语音不能确定年龄、性别);
S2、使用webRTCvad对语音样本进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段(原始语音片段和生成语音片段);
在本实施例步骤S2中,使用webRTCvad语音端点检测方法(Voice ActivityDetector,VAD)去除原始语音样本中的静音部分,其中灵敏度设置为2,对去除静音后的语音再提取中关键词所在的语音片段,如图1所示,图中可知各个语音之间的关系,具体提取语音中关键词所在的语音片段方法为:设语音语义为Lz个字,总时长为Ls,关键词有a个字,关键词为第d到d+a-1个字,提取的语音片段时间为:
本实施例都是2字的关键词,所以a的值取2,当关键词在句首或句尾时比在句中要少提取部分语音;
S3、利用原始语音关键词片段分为男女两类样本,分别训练一个通用背景混合高斯模型UBMM、UBMF,再用第i个关键词的男女两类原始语音片段分别训练混合高斯模型GMM(M,i)、GMM(F,i);
在本实施例步骤S3中,利用10个关键词中的原始语音片段中男女两类样本,分别训练一个通用背景混合高斯模型UBMM、UBMF,UBMM为男性通用背景模型,UBMF为女性通用背景模型,再用第i个关键词的男女两类原始语音片段分别训练混合高斯模型GMM(M,i)、GMM(F,i),这样每个关键词都有两个混合GMM模型,分别表示男性、女性语音;
S4、使用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类:由于训练混合GMM所使用语料的语义中所含关键词相同,两个混合GMM含部分相似的GMM分量,而相似的GMM分量会对语音的分类造成不好影响,使用一种GMM分离度度量方法判断GMM分量距离,距离较近的为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,使用剩下的相差较大的分量形成新的GMM′(M,i)、GMM′(F,i),对生成语音片段进行男女分类,进而得到生成语音的性别信息;
在本实施例步骤S4中,使用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类,如图2所示,其中根据分离度生成新GMM模型的方法如下:
使用混合高斯模型GMM(M,i)、GMM(F,i)对生成语音片段进行性别区分,由于训练混合GMM所使用语料的语义中所含关键词相同,两个混合GMM可能含部分相似的GMM分量,而相似的GMM分量会对语音的分类造成不好影响,对生成的混合高斯模型GMM(M,i)、GMM(F,i)使用一种GMM分离度度量方法判断对应的混合GMM中GMM分量距离,距离较近(分离度较小)的为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,GMM分离度度量公式如下:
上式中,∑(ui,j-uk,l)2为对模型Gi的第j个高斯函数和模型Gk的第l个高斯函数各维度均值的平方和;Πσi,j是指对模型Gi的第j个高斯函数各维度方差的积,Πσk,l是指对模型Gk的第l个高斯函数各维度方差的积;
利用剩下的相差较大的分量形成新的GMM′(b,i)、GMM′(g,i),如此每个关键词都会得到一对混合GMM模型,再用这对混合GMM模型对该关键词生成语音片段进行男女分类,进而得到生成语音的性别信息;
S5、借用轮廓系数评价思想对生成语音进行评价,轮廓系数是类的密集与分散程度的评价指标,进行适合GMM模型的修改后,用它对生成语音片段进行评价,并根据评价筛选出适合的训练样本。
在本实施例步骤S5中,借用轮廓系数评价思想对生成语音进行评价,轮廓系数是类的密集与分散程度的评价指标,进行适合GMM模型的修改,用GMM的后验概率代替样本与类之间的距离,后验概率越大,代表距离越小,修改后其表达式如下:
若计算类的轮廓系数,P(i)表示第i类样本在该类GMM模型中的后验概率的平均值,P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值(不包含其本身所在类的GMM模型);
若计算单个样本的轮廓系数,P(i)表示第i个样本在该类GMM模型中后验概率,P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值(不包含其本身所属类的GMM模型),S(i)取值在[-1,1]之间,S越接近1,代表效果越好。
本实施例在语料说话人性别信息不均衡的情况下,能通过语音转换的方法扩增不同说话人性别信息的语料,能有效缓解数据说话人性别信息不均衡导致的识别性能下降,提高系统识别鲁棒性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种语音关键词识别中扩增语料的选取方法,其特征在于,包括下述步骤:
采用语音转换技术对含关键词的原始语音进行语音转化,得到生成语音,所述生成语音包括多个同一语义但不同说话人信息的语音;
对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,分别表示为原始语音关键词片段和生成语音中关键词片段;
利用原始语音关键词片段分为男女两类样本,分别训练通用背景混合高斯模型UBMM、UBMF,再用第i个关键词的男女两类原始语音关键词片段分别训练混合高斯模型GMM(M,i)、GMM(F,i);
采用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类:
采用GMM分离度度量方法判断GMM分量距离,将分离度较小的设为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,使用剩下的分离度较大的分量形成新的混合高斯模型GMM′(M,i)、GMM′(F,i),用新生成的混合高斯模型GMM′(b,i)、GMM′(g,i)对生成语音关键词片段进行男女分类,进而得到生成语音的性别信息;
借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,选取满足设定条件的生成语音作为训练样本。
2.根据权利要求1所述的语音关键词识别中扩增语料的选取方法,其特征在于,所述采用语音转换技术对含关键词的原始语音进行语音转化,具体步骤包括:
根据语音转换原理,音调变化在4到8个大调可以改变语音说话人性别,对男性语音进行-2到+8个大调的转换,女性语音进行-8到+2个大调的转换,使每一句含关键词语音得到多个同一语义但不同说话人信息的语音。
5.根据权利要求1所述的语音关键词识别中扩增语料的选取方法,其特征在于,所述借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,具体采用GMM的后验概率代替样本与类之间的距离,后验概率越大,代表距离越小,修改后的表达式如下:
若计算类的轮廓系数,P(i)表示第i类样本在该类GMM模型中的后验概率的平均值,P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值;
若计算单个样本的轮廓系数,P(i)表示第i个样本在该类GMM模型中后验概率,P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值,S(i)取值在[-1,1]之间,S越接近1,代表效果越好;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010347536.6A CN111554273B (zh) | 2020-04-28 | 2020-04-28 | 一种语音关键词识别中扩增语料的选取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010347536.6A CN111554273B (zh) | 2020-04-28 | 2020-04-28 | 一种语音关键词识别中扩增语料的选取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111554273A CN111554273A (zh) | 2020-08-18 |
CN111554273B true CN111554273B (zh) | 2023-02-10 |
Family
ID=72008253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010347536.6A Active CN111554273B (zh) | 2020-04-28 | 2020-04-28 | 一种语音关键词识别中扩增语料的选取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554273B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744737B (zh) * | 2021-09-09 | 2024-06-11 | 广东电网有限责任公司 | 语音识别模型的训练、人机交互方法、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091864A (ja) * | 2004-08-26 | 2006-04-06 | Asahi Kasei Corp | 音声認識装置、音声認識方法、及び、プログラム |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN103559881A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词识别方法及系统 |
CN104077382A (zh) * | 2014-06-27 | 2014-10-01 | 德州学院 | 一种用于提高音频分类器的gdm特征选择方法 |
CN107301858A (zh) * | 2017-05-31 | 2017-10-27 | 华南理工大学 | 基于音频特征空间分层描述的音频分类方法 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120310864A1 (en) * | 2011-05-31 | 2012-12-06 | Shayok Chakraborty | Adaptive Batch Mode Active Learning for Evolving a Classifier |
-
2020
- 2020-04-28 CN CN202010347536.6A patent/CN111554273B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091864A (ja) * | 2004-08-26 | 2006-04-06 | Asahi Kasei Corp | 音声認識装置、音声認識方法、及び、プログラム |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN103559881A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词识别方法及系统 |
CN104077382A (zh) * | 2014-06-27 | 2014-10-01 | 德州学院 | 一种用于提高音频分类器的gdm特征选择方法 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN107301858A (zh) * | 2017-05-31 | 2017-10-27 | 华南理工大学 | 基于音频特征空间分层描述的音频分类方法 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
Non-Patent Citations (1)
Title |
---|
基于改进PNCC特征和两步区分性训练的录音设备识别方法;贺前华;《电子学报》;20140131;第42卷(第1期);第191-198页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111554273A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022134833A1 (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
WO2017088364A1 (zh) | 动态选择语音模型的语音识别方法及装置 | |
CN102201237B (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN104464724A (zh) | 一种针对刻意伪装语音的说话人识别方法 | |
CN108831506B (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN109360554A (zh) | 一种基于语深度神经网络的语言识别方法 | |
CN106910495A (zh) | 一种应用于异常声音检测的音频分类系统和方法 | |
CN110009025A (zh) | 一种用于语音测谎的半监督加性噪声自编码器 | |
CN111128128A (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN111554273B (zh) | 一种语音关键词识别中扩增语料的选取方法 | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
Gupta et al. | Deep learning and sociophonetics: Automatic coding of rhoticity using neural networks | |
JP4219539B2 (ja) | 音響分類装置 | |
Khanum et al. | Speech based gender identification using feed forward neural networks | |
CN111681674A (zh) | 一种基于朴素贝叶斯模型的乐器种类识别方法和系统 | |
Hidayat | Frequency domain analysis of MFCC feature extraction in children’s speech recognition system | |
Siyad et al. | Spoken Indian Language Identification using MFCC and Vowel Onset Points | |
CN115630160B (zh) | 一种基于半监督共现图模型的争议焦点聚类方法及系统 | |
CN116756324B (zh) | 基于庭审音频的关联度挖掘方法、装置、设备及存储介质 | |
Deka et al. | An analysis of an isolated assamese digit recognition using MFCC and DTW | |
CN114267361A (zh) | 一种高识别度的说话人识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |