CN111554273B - 一种语音关键词识别中扩增语料的选取方法 - Google Patents

一种语音关键词识别中扩增语料的选取方法 Download PDF

Info

Publication number
CN111554273B
CN111554273B CN202010347536.6A CN202010347536A CN111554273B CN 111554273 B CN111554273 B CN 111554273B CN 202010347536 A CN202010347536 A CN 202010347536A CN 111554273 B CN111554273 B CN 111554273B
Authority
CN
China
Prior art keywords
voice
gmm
keyword
model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010347536.6A
Other languages
English (en)
Other versions
CN111554273A (zh
Inventor
贺前华
汪星
严海康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010347536.6A priority Critical patent/CN111554273B/zh
Publication of CN111554273A publication Critical patent/CN111554273A/zh
Application granted granted Critical
Publication of CN111554273B publication Critical patent/CN111554273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音关键词识别中扩增语料的选取方法,步骤包括:对含关键词的原始语音进行语音转化,得到同一语义但不同说话人信息的语音;对原始语音进行语音端点检测去除静音部分,再获取原始语音和生成语音中的关键词片段;将原始语音关键词片段分为男女两类样本,分别训练UBMM、UBMF,用第i个关键词的男女两类原始语音关键词片段分别训练GMM(M,i)、GMM(F,i);采用GMM分离度度量判断GMM分量距离,将分离度较小的设为相似GMM分量,去除GMM(M,i)、GMM(F,i)中相似GMM分量,剩下分离度较大分量形成新的GMM′(M,i)、GMM′(F,i),用GMM′(b,i)、GMM′(g,i)对生成语音关键词片段进行性别分类;采用改进后的评价系数对生成语音进行评价,选取训练样本。本发明能在存在样本较少或不均衡的情况下更高效地训练模型。

Description

一种语音关键词识别中扩增语料的选取方法
技术领域
本发明涉及连续语音关键词识别技术领域,具体涉及一种语音关键词识别中扩增语料的选取方法。
背景技术
关键词识别(Keyword Recognition,KWS)是指在连续的、无限制的自然语音流中识别出预先设定的一个或多个关键词,随着人工智能的发展,KWS也越来越受到重视,其应用范围也越来越广,当前主流的应用有语音质检、音频监控、音频审核、音频检索等。在公检法机构、机场、铁路、银行等一些领域,越来越多的安防工程需要清晰、逼真的影音同步监控系统,音频监控领域已经成为安防行业的新亮点。音频监控已经成为安防行业的重要组成部分,音频监控在城市安防系统中应用的越来越多,以弥补视频监控的不足。关键词识别的应用,能够在所监听环境下发生异常行为时快速实时响应。
近年来,深度学习算法取得了快速发展,在分类、语音识别等多种认知任务中接近甚至超越了人类的识别准度。在基于深度学习的语音识别技术的推动下,语音逐渐成为用户和电子设备之间最自然的交互方式,例如亚马逊的Echo,苹果的Siri和谷歌的GoogleHome等。基于深度神经网络的关键词识别系统已被证明在模型计算量、内存占用、识别精度等方面优于基于隐马尔可夫模型系统的传统关键词识别系统。但现有的语音关键词识别中存在样本较少或不均衡的问题。本发明提出在电话监控中,关键词识别系统的训练样本较少或样本说话人信息不均衡的一些处理方法。
发明内容
为了克服现有技术存在的缺陷与不足,为了在基于神经网络的语音关键词识别中存在样本较少或不均衡问题时能更高效的训练模型,本发明提供一种语音关键词识别中扩增语料的选取方法,本发明对现有语音(原始语音样本)使用语音转换技术,生成大量不确定说话人信息的语音(生成语音),再用原始语音样本中关键词所在的语音片段对每一个关键词训练一个UBM-GMM系统,由于生成语音不确定说话人信息,且伴随有一定的失真,使用一种新的通过GMM模型进行二分类的方法确定说话人性别,借用轮廓系数评价思想对生成语音进行评价并选取部分作为训练样本,在存在样本较少或不均衡的情况下能更高效地训练模型。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种语音关键词识别中扩增语料的选取方法,包括下述步骤:
采用语音转换技术对含关键词的原始语音进行语音转化,得到生成语音,所述生成语音包括多个同一语义但不同说话人信息的语音;
对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,分别表示为原始语音关键词片段和生成语音中关键词片段;
利用原始语音关键词片段分为男女两类样本,分别训练通用背景混合高斯模型UBMM、UBMF,再用第i个关键词的男女两类原始语音关键词片段分别训练混合高斯模型GMM(M,i)、GMM(F,i)
采用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类:
采用GMM分离度度量方法判断GMM分量距离,将分离度较小的设为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,使用剩下的分离度较大的分量形成新的混合高斯模型GMM′(M,i)、GMM′(F,i),用新生成的混合高斯模型GMM′(b,i)、GMM′(g,i)对生成语音关键词片段进行男女分类,进而得到生成语音的性别信息;
借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,选取满足设定条件的生成语音作为训练样本。
作为优选的技术方案,所述采用语音转换技术对含关键词的原始语音进行语音转化,具体步骤包括:
根据语音转换原理,音调变化在4到8个大调可以改变语音说话人性别,对男性语音进行-2到+8个大调的转换,女性语音进行-8到+2个大调的转换,使每一句含关键词语音得到多个同一语义但不同说话人信息的语音。
作为优选的技术方案,所述对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,具体步骤包括:
采用语音端点检测方法去除原始语音样本中的静音部分,再提取语音中关键词所在的语音片段,提取的语音片段时间为:
Figure BDA0002470704320000031
其中,设语音语义为Lz个字,总时长为Ls,关键词有a个字,关键词为第d到d+a-1个字。
作为优选的技术方案,所述采用GMM分离度度量方法判断GMM分量距离,GMM分离度度量公式如下:
Figure BDA0002470704320000041
其中,∑(ui,j-uk,l)2为对模型Gi的第j个高斯函数和模型Gk的第l个高斯函数各维度均值的平方和,Πσi,j是指对模型Gi的第j个高斯函数各维度方差的积,Πσk,l是指对模型Gk的第l个高斯函数各维度方差的积。
作为优选的技术方案,所述借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,具体采用GMM的后验概率代替样本与类之间的距离,后验概率越大,代表距离越小,修改后的表达式如下:
Figure BDA0002470704320000042
若计算类的轮廓系数,P(i)表示第i类样本在该类GMM模型中的后验概率的平均值,P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值;
若计算单个样本的轮廓系数,P(i)表示第i个样本在该类GMM模型中后验概率,P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值,S(i)取值在[-1,1]之间,S越接近1,代表效果越好;
使用原始语音关键词片段得到第i个关键词类的轮廓系数Si,对单个生成语音片段x°(i,j)计算轮廓系数
Figure BDA0002470704320000043
Figure BDA0002470704320000044
则将该语音作为第i个关键词训练样本,反之则舍弃,其中,αi根据不同关键词类进行取值。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在使用传统深度神经网络方法的情况下,使用了扩增语料的方法,能有效缓解因数据不平衡或太少造成的训练效果差或无法训练等问题,也能在不缺少数据时提升训练效果,提高系统识别鲁棒性。
(2)本发明在语料说话人性别信息不均衡的情况下,能通过语音转换的方法扩增不同说话人性别信息的语料,能有效缓解数据说话人性别信息不均衡导致的识别性能下降,提高系统识别鲁棒性。
(3)本发明采用GMM分离度度量方法判断对应的混合GMM中GMM分量距离,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,消除相似的GMM分量会对语音的分类造成的不良影响,提高语音分类的准确度。
附图说明
图1为本发明中各语音名称的关系图;
图2为本发明中由原始语音训练GMM到识别生成语音性别的流程图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例以RNN-CTC模型作为关键词检出模型,以AiShell语料库中的部分开源数据作为实验数据,其中关键词为:产品、城市、发展、公司、记者、企业、市场、投资、项目、政策,10个关键词进行关键词检出,每个关键词只使用500句含关键词语句,然后使用SoundTouch生成其他语句,然后用本方法对生成的语音进行筛选,训练两个关键词检出模型,一个只用原始语音作为训练集,另一个用原始语音加生成语音作为训练集,对同一个测试集进行识别,根据两模型的识别结果作为本方法效果的判别依据。
本实施例提供了一种语音关键词识别中扩增语料的选取方法,对现有语音(原始语音)使用语音转换技术,生成大量不确定说话人信息的语音(生成语音),再用原始语音样本中关键词所在的语音片段对每一个关键词训练一个高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,UBM-GMM)系统,由于生成语音不确定说话人信息,且伴随有一定的失真,使用一种凸显说话人信息的GMM模型对生成语音进行性别分类,借用轮廓系数评价思想对生成语音进行评价并选取部分语音作为训练样本。
具体步骤包括:
S1、利用语音转换工具SoundTouch对AiShell语料库中含关键词的原始语音样本进行语音转化,得到大量同一语义但不同说话人信息的含关键词语音(年龄、性别信息不同,但生成语音不能确定年龄、性别);
在本实施例步骤S1中,根据语音转换原理,音调变化在4到8个大调可以改变语音说话人性别,利用语音转换工具SoundTouch对含关键词语音进行语音转化时(本实施例也可使用其他语音转换工具),对男性语音进行-2到+8个大调的转换(-表示降低,+表示增加),女性语音进行-8到+2个大调的转换,即SoundTouch中的pitch参数男性取值为[-2,8],女性取值为[-8,2],经过SoundTouch转换后,一个原始语音得到10个同一语义但不同说话人信息的语音(年龄、性别信息不同,但转换后的语音不能确定年龄、性别);
S2、使用webRTCvad对语音样本进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段(原始语音片段和生成语音片段);
在本实施例步骤S2中,使用webRTCvad语音端点检测方法(Voice ActivityDetector,VAD)去除原始语音样本中的静音部分,其中灵敏度设置为2,对去除静音后的语音再提取中关键词所在的语音片段,如图1所示,图中可知各个语音之间的关系,具体提取语音中关键词所在的语音片段方法为:设语音语义为Lz个字,总时长为Ls,关键词有a个字,关键词为第d到d+a-1个字,提取的语音片段时间为:
Figure BDA0002470704320000071
本实施例都是2字的关键词,所以a的值取2,当关键词在句首或句尾时比在句中要少提取部分语音;
S3、利用原始语音关键词片段分为男女两类样本,分别训练一个通用背景混合高斯模型UBMM、UBMF,再用第i个关键词的男女两类原始语音片段分别训练混合高斯模型GMM(M,i)、GMM(F,i)
在本实施例步骤S3中,利用10个关键词中的原始语音片段中男女两类样本,分别训练一个通用背景混合高斯模型UBMM、UBMF,UBMM为男性通用背景模型,UBMF为女性通用背景模型,再用第i个关键词的男女两类原始语音片段分别训练混合高斯模型GMM(M,i)、GMM(F,i),这样每个关键词都有两个混合GMM模型,分别表示男性、女性语音;
S4、使用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类:由于训练混合GMM所使用语料的语义中所含关键词相同,两个混合GMM含部分相似的GMM分量,而相似的GMM分量会对语音的分类造成不好影响,使用一种GMM分离度度量方法判断GMM分量距离,距离较近的为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,使用剩下的相差较大的分量形成新的GMM′(M,i)、GMM′(F,i),对生成语音片段进行男女分类,进而得到生成语音的性别信息;
在本实施例步骤S4中,使用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类,如图2所示,其中根据分离度生成新GMM模型的方法如下:
使用混合高斯模型GMM(M,i)、GMM(F,i)对生成语音片段进行性别区分,由于训练混合GMM所使用语料的语义中所含关键词相同,两个混合GMM可能含部分相似的GMM分量,而相似的GMM分量会对语音的分类造成不好影响,对生成的混合高斯模型GMM(M,i)、GMM(F,i)使用一种GMM分离度度量方法判断对应的混合GMM中GMM分量距离,距离较近(分离度较小)的为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,GMM分离度度量公式如下:
Figure BDA0002470704320000081
上式中,∑(ui,j-uk,l)2为对模型Gi的第j个高斯函数和模型Gk的第l个高斯函数各维度均值的平方和;Πσi,j是指对模型Gi的第j个高斯函数各维度方差的积,Πσk,l是指对模型Gk的第l个高斯函数各维度方差的积;
利用剩下的相差较大的分量形成新的GMM′(b,i)、GMM′(g,i),如此每个关键词都会得到一对混合GMM模型,再用这对混合GMM模型对该关键词生成语音片段进行男女分类,进而得到生成语音的性别信息;
S5、借用轮廓系数评价思想对生成语音进行评价,轮廓系数是类的密集与分散程度的评价指标,进行适合GMM模型的修改后,用它对生成语音片段进行评价,并根据评价筛选出适合的训练样本。
在本实施例步骤S5中,借用轮廓系数评价思想对生成语音进行评价,轮廓系数是类的密集与分散程度的评价指标,进行适合GMM模型的修改,用GMM的后验概率代替样本与类之间的距离,后验概率越大,代表距离越小,修改后其表达式如下:
Figure BDA0002470704320000091
若计算类的轮廓系数,P(i)表示第i类样本在该类GMM模型中的后验概率的平均值,P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值(不包含其本身所在类的GMM模型);
若计算单个样本的轮廓系数,P(i)表示第i个样本在该类GMM模型中后验概率,P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值(不包含其本身所属类的GMM模型),S(i)取值在[-1,1]之间,S越接近1,代表效果越好。
使用原始语料片段得到第i个关键词类的轮廓系数Si,对单个生成语音片段x′(i,j)计算轮廓系数
Figure BDA0002470704320000092
Figure BDA0002470704320000093
则该语音片段可作为第i个关键词训练样本,反之则舍弃,其中αi可根据不同关键词类进行取值。
本实施例在语料说话人性别信息不均衡的情况下,能通过语音转换的方法扩增不同说话人性别信息的语料,能有效缓解数据说话人性别信息不均衡导致的识别性能下降,提高系统识别鲁棒性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种语音关键词识别中扩增语料的选取方法,其特征在于,包括下述步骤:
采用语音转换技术对含关键词的原始语音进行语音转化,得到生成语音,所述生成语音包括多个同一语义但不同说话人信息的语音;
对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,分别表示为原始语音关键词片段和生成语音中关键词片段;
利用原始语音关键词片段分为男女两类样本,分别训练通用背景混合高斯模型UBMM、UBMF,再用第i个关键词的男女两类原始语音关键词片段分别训练混合高斯模型GMM(M,i)、GMM(F,i)
采用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x(i,j)进行性别分类:
采用GMM分离度度量方法判断GMM分量距离,将分离度较小的设为相似GMM分量,去除混合高斯模型GMM(M,i)、GMM(F,i)中相似的GMM分量,使用剩下的分离度较大的分量形成新的混合高斯模型GMM′(M,i)、GMM′(F,i),用新生成的混合高斯模型GMM′(b,i)、GMM′(g,i)对生成语音关键词片段进行男女分类,进而得到生成语音的性别信息;
借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,选取满足设定条件的生成语音作为训练样本。
2.根据权利要求1所述的语音关键词识别中扩增语料的选取方法,其特征在于,所述采用语音转换技术对含关键词的原始语音进行语音转化,具体步骤包括:
根据语音转换原理,音调变化在4到8个大调可以改变语音说话人性别,对男性语音进行-2到+8个大调的转换,女性语音进行-8到+2个大调的转换,使每一句含关键词语音得到多个同一语义但不同说话人信息的语音。
3.根据权利要求1所述的语音关键词识别中扩增语料的选取方法,其特征在于,所述对原始语音进行语音端点检测,去除静音部分,再获取原始语音和生成语音中含关键词的语音片段,具体步骤包括:
采用语音端点检测方法去除原始语音样本中的静音部分,再提取语音中关键词所在的语音片段,提取的语音片段时间为:
Figure FDA0002470704310000021
其中,设语音语义为Lz个字,总时长为Ls,关键词有a个字,关键词为第d到d+a-1个字。
4.根据权利要求1所述的语音关键词识别中扩增语料的选取方法,其特征在于,所述采用GMM分离度度量方法判断GMM分量距离,GMM分离度度量公式如下:
Figure FDA0002470704310000022
其中,∑(ui,j-uk,l)2为对模型Gi的第j个高斯函数和模型Gk的第l个高斯函数各维度均值的平方和,Πσi,j是指对模型Gi的第j个高斯函数各维度方差的积,Πσk,l是指对模型Gk的第l个高斯函数各维度方差的积。
5.根据权利要求1所述的语音关键词识别中扩增语料的选取方法,其特征在于,所述借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后,形成改进后的评价系数对生成语音中关键词片段进行评价,具体采用GMM的后验概率代替样本与类之间的距离,后验概率越大,代表距离越小,修改后的表达式如下:
Figure FDA0002470704310000031
若计算类的轮廓系数,P(i)表示第i类样本在该类GMM模型中的后验概率的平均值,P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值;
若计算单个样本的轮廓系数,P(i)表示第i个样本在该类GMM模型中后验概率,P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值,S(i)取值在[-1,1]之间,S越接近1,代表效果越好;
使用原始语音关键词片段得到第i个关键词类的轮廓系数Si,对单个生成语音片段x′(i,j)计算轮廓系数
Figure FDA0002470704310000032
Figure FDA0002470704310000033
则将该语音作为第i个关键词训练样本,反之则舍弃,其中,αi根据不同关键词类进行取值。
CN202010347536.6A 2020-04-28 2020-04-28 一种语音关键词识别中扩增语料的选取方法 Active CN111554273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010347536.6A CN111554273B (zh) 2020-04-28 2020-04-28 一种语音关键词识别中扩增语料的选取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010347536.6A CN111554273B (zh) 2020-04-28 2020-04-28 一种语音关键词识别中扩增语料的选取方法

Publications (2)

Publication Number Publication Date
CN111554273A CN111554273A (zh) 2020-08-18
CN111554273B true CN111554273B (zh) 2023-02-10

Family

ID=72008253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010347536.6A Active CN111554273B (zh) 2020-04-28 2020-04-28 一种语音关键词识别中扩增语料的选取方法

Country Status (1)

Country Link
CN (1) CN111554273B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744737B (zh) * 2021-09-09 2024-06-11 广东电网有限责任公司 语音识别模型的训练、人机交互方法、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006091864A (ja) * 2004-08-26 2006-04-06 Asahi Kasei Corp 音声認識装置、音声認識方法、及び、プログラム
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN104077382A (zh) * 2014-06-27 2014-10-01 德州学院 一种用于提高音频分类器的gdm特征选择方法
CN107301858A (zh) * 2017-05-31 2017-10-27 华南理工大学 基于音频特征空间分层描述的音频分类方法
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN109360658A (zh) * 2018-11-01 2019-02-19 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109712609A (zh) * 2019-01-08 2019-05-03 华南理工大学 一种解决关键词识别样本不均衡的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120310864A1 (en) * 2011-05-31 2012-12-06 Shayok Chakraborty Adaptive Batch Mode Active Learning for Evolving a Classifier

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006091864A (ja) * 2004-08-26 2006-04-06 Asahi Kasei Corp 音声認識装置、音声認識方法、及び、プログラム
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN104077382A (zh) * 2014-06-27 2014-10-01 德州学院 一种用于提高音频分类器的gdm特征选择方法
CN107342077A (zh) * 2017-05-27 2017-11-10 国家计算机网络与信息安全管理中心 一种基于因子分析的说话人分段聚类方法及系统
CN107301858A (zh) * 2017-05-31 2017-10-27 华南理工大学 基于音频特征空间分层描述的音频分类方法
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN109360658A (zh) * 2018-11-01 2019-02-19 北京航空航天大学 一种基于词向量模型的疾病模式挖掘方法及装置
CN109712609A (zh) * 2019-01-08 2019-05-03 华南理工大学 一种解决关键词识别样本不均衡的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进PNCC特征和两步区分性训练的录音设备识别方法;贺前华;《电子学报》;20140131;第42卷(第1期);第191-198页 *

Also Published As

Publication number Publication date
CN111554273A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
WO2022134833A1 (zh) 语音信号的处理方法、装置、设备及存储介质
WO2017088364A1 (zh) 动态选择语音模型的语音识别方法及装置
CN102201237B (zh) 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN106782603B (zh) 智能语音评测方法及系统
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN104464724A (zh) 一种针对刻意伪装语音的说话人识别方法
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN109360554A (zh) 一种基于语深度神经网络的语言识别方法
CN106910495A (zh) 一种应用于异常声音检测的音频分类系统和方法
CN110009025A (zh) 一种用于语音测谎的半监督加性噪声自编码器
CN111128128A (zh) 一种基于互补模型评分融合的语音关键词检测方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN111554273B (zh) 一种语音关键词识别中扩增语料的选取方法
Birla A robust unsupervised pattern discovery and clustering of speech signals
Gupta et al. Deep learning and sociophonetics: Automatic coding of rhoticity using neural networks
JP4219539B2 (ja) 音響分類装置
Khanum et al. Speech based gender identification using feed forward neural networks
CN111681674A (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
Hidayat Frequency domain analysis of MFCC feature extraction in children’s speech recognition system
Siyad et al. Spoken Indian Language Identification using MFCC and Vowel Onset Points
CN115630160B (zh) 一种基于半监督共现图模型的争议焦点聚类方法及系统
CN116756324B (zh) 基于庭审音频的关联度挖掘方法、装置、设备及存储介质
Deka et al. An analysis of an isolated assamese digit recognition using MFCC and DTW
CN114267361A (zh) 一种高识别度的说话人识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant