CN113870844A - 语音识别模型的训练方法、装置和计算机设备 - Google Patents

语音识别模型的训练方法、装置和计算机设备 Download PDF

Info

Publication number
CN113870844A
CN113870844A CN202111020511.6A CN202111020511A CN113870844A CN 113870844 A CN113870844 A CN 113870844A CN 202111020511 A CN202111020511 A CN 202111020511A CN 113870844 A CN113870844 A CN 113870844A
Authority
CN
China
Prior art keywords
training
model
corpus
command word
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111020511.6A
Other languages
English (en)
Inventor
李�杰
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202111020511.6A priority Critical patent/CN113870844A/zh
Publication of CN113870844A publication Critical patent/CN113870844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语音识别模型的训练方法、装置和计算机设备,训练系统首先使用通用语料进行模型训练,获得的基础模型对所有的音素具有一定的区分能力,为后续特定的命令词识别的实现提供基础,同时也保证了最终训练得到语音识别模型具有较低的误唤醒率,不需要额外负样本的训练。然后,在基础模型的基础上使用用户自定义的命令词语料(或是用户自定义的命令词语料混合通用语料)进行再训练,从而快速完成对最终的语音识别模型的训练,使得语音识别模型即具有对命令词较高的识别准确率,同时也能降低误唤醒率(或者说是对非命令词的误识别率)。

Description

语音识别模型的训练方法、装置和计算机设备
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音识别模型的训练方法、装置和计算机设备。
背景技术
在低功耗、内存受限的设备上,现有的命令词识别一般采用分类的方式实现,且只能识别预先设定好的命令词汇。对新增的词汇,需要重新训练模型更新后才能识别,即使可以联网更新,由于模型的训练周期较长,不能同步进行更新,用户体验较差。
发明内容
本申请的主要目的为提供一种语音识别模型的训练方法、装置和计算机设备,旨在解决现有低功耗、内存受限的设备更换命令词后语音识别模型重新训练的周期较长的弊端。
为实现上述目的,本申请提供了一种语音识别模型的训练方法,所述语音识别模型应用于嵌入式设备,所述训练方法包括:
获取通用语料;
使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型再训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
本申请还提供了另一种语音识别模型的训练方法,所述语音识别模型应用于嵌入式设备,所述训练方法包括:
获取通用语料;
使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
本申请还提供了一种语音识别模型的训练装置,所述语音识别模型应用于嵌入式设备,所述训练装置包括:
第一获取模块,用于获取通用语料;
第一训练模块,用于使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
第二训练模块,用于调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
本申请还提供了另一种语音识别模型的训练装置,所述语音识别模型应用于嵌入式设备,所述训练装置包括:
第二获取模块,用于获取通用语料;
第三训练模块,用于使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
组合模块,用于调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
第四训练模块,用于使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种语音识别模型的训练方法、装置和计算机设备,训练系统获取通用语料,然后使用通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型。再调取命令词语料,并使用命令词语料对基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型训练,得到第一语音识别模型,其中,第二预设条件为模型的损失函数/字错率下降至阈值范围,第三预设条件为测试集的误识别率开始增大或者误识别率超过误识别率阈值。或者,在得到基础模型后,训练系统调取命令词语料,并在每一批次的训练数据中,将命令词语料和通用语料按照预设比例或随机比例进行组合,得到混合语料。然后使用混合语料对基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。本申请中,训练系统首先使用通用语料进行模型训练,获得的基础模型对所有的音素具有一定的区分能力,为后续特定的命令词识别的实现提供基础,同时也保证了最终训练得到语音识别模型具有较低的误唤醒率,不需要额外负样本的训练。然后,在基础模型的基础上使用用户自定义的命令词语料(或是用户自定义的命令词语料混合通用语料)进行再训练,从而快速完成对最终的语音识别模型的训练,使得语音识别模型即具有对命令词较高的识别准确率,同时也能降低误唤醒率(或者说是对非命令词的误识别率)。
附图说明
图1是本申请一实施例中语音识别模型的训练方法的步骤示意图;
图2是本申请另一实施例中语音识别模型的训练方法的步骤示意图;
图3是本申请一实施例中语音识别模型的训练装置的整体结构框图;
图4是本申请另一实施例中语音识别模型的训练装置的整体结构框图;
图5是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种语音识别模型的训练方法,所述语音识别模型应用于嵌入式设备,所述训练方法包括:
S1:获取通用语料;
S2:使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
S3:调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型再训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
本实施例中,训练好的语音识别模型应用于嵌入式设备,嵌入式设备的功耗较低、内存较小,比如运行内存只有几百KB的耳机、电视机、空调机等设备,其本身所具有的数据处理资源受限,因而要求部署于嵌入式设备上的语音识别模型既要有较高的识别准确率,同时模型的体量也不能太大。模型训练的第一阶段,训练系统获取通用语料(通用语料包含各类型词语的文本数据和对应的语音数据,不需要局限在特定的应用领域或场景),然后使用通用语料对语音识别网络进行模型训练,直至符合第一预设条件则停止模型训练,得到基础模型。其中,第一预设条件可以是模型的训练次数达到次数阈值,或者模型的字错率/损失函数不再下降,即判定为符合第一预设条件。使用通用语料进行模型训练获得的基础模型对所有的音素具有一定的区分能力,为后续特定的命令词识别的实现提供基础,同时也保证了最终训练得到语音识别模型具有较低的误唤醒率,不需要额外负样本的训练。并且,基础模型一旦训练好后,可快速实现产品的迁移。比如A客户需要定制具有识别a1、a2、a3命令词列表的产品,B客户需要定制具有识别b1、b2、b3命令词列表的产品,可在训练不同支持命令词列表模型的时候,复用基础模型,大大缩短了产品的开发周期。具体地,在第二阶段,训练系统调取命令词语料(该命令词语料对应最终训练得到的语音识别模型所应用的嵌入式设备制定的命令词列表,比如嵌入式设备为耳机,则命令词语料可以为:暂停播放,调高音量,调低音量等自定义命令词),然后使用命令词语料对基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率(或者非命令词的误识别率)符合第三预设条件,则训练系统停止对基础模型进行模型再训练,得到第一语音识别模型。其中,第二预设条件为损失函数/字错率下降至阈值范围(比如损失函数/字错率下降至10%以下),第三预设条件为测试集的误识别率开始增大或者误识别率超过预设的误识别率阈值。模型再训练时设定的第二预设条件和第三预设条件为早停策略,在基础模型的基础上使用特定数据(即命令词语料)进行训练,需要设计早停策略,让模型对设定的命令词有高识别率的同时,具有对集外词(即非命令词)的分辨能力,从而对集外词的误识别率。
本实施例中,通过使用分步训练的方式,使得语音识别模型可以设计的非常轻量(比如小于100kb),在资源受限设备(即嵌入式设备)上可部署,并且准确度达到产品使用要求。而在用户更换命令词后,只需要在基础模型的基础上使用更换后的命令词语料进行再训练,即可快速完成最终的语音识别模型的训练,训练周期短,更新快,且对自定义的命令词具有较高的识别准确率,同时也能降低误唤醒率(或者说是对非命令词的误识别率)。
参照图2,本申请一实施例还提供了另一种语音识别模型的训练方法,所述语音识别模型应用于嵌入式设备,所述训练方法包括:
A1:获取通用语料;
A2:使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
A3:调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
A4:使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
本实施例还提供了另一种语音识别模型的训练方法,训练后的语音识别模型同样应用于功耗低、内存小的嵌入式设备。模型训练的第一阶段,训练系统获取通用语料(通用语料包含各类型词语的文本数据和对应的语音数据,不需要局限在特定的应用领域或场景),然后使用通用语料对语音识别网络进行模型训练,直至符合第一预设条件则停止模型训练,得到基础模型。其中,第一预设条件可以是模型的训练次数达到次数阈值,或者模型的字错率/损失函数不再下降,即判定为符合第一预设条件。使用通用语料进行模型训练获得的基础模型对所有的音素具有一定的区分能力,为后续特定的命令词识别的实现提供基础,同时也保证了最终训练得到语音识别模型具有较低的误唤醒率,不需要额外负样本的训练。并且,基础模型一旦训练好后,可快速实现产品的迁移。比如A客户需要定制具有识别a1、a2、a3命令词列表的产品,B客户需要定制具有识别b1、b2、b3命令词列表的产品,可在训练不同支持命令词列表模型的时候,复用基础模型,大大缩短了产品的开发周期。具体地,在第二阶段,训练系统调取命令词语料,该命令词语料为用户自定义命令词的文本数据和语音数据对应组成,在每一批次的训练数据中,训练系统将命令词语料和通用语料按照预设比例或随机比例进行组成,得到混合语料。其中,随机比例由训练系统从预设的比例集合中随机选择得到,并且命令词语料对应的比例大于通用语料的比例;混合语料为模型再训练所需的一个批次的训练数据,每个批次的混合语料中,命令词语料和通用语料的比例可以相同,也可以不同。训练系统使用混合语音对基础模型进行模型再训练,直至符合第四预设条件,则停止模型再训练,得到第二语音识别模型。其中,第四预设条件可以是模型的训练次数达到次数阈值,或者模型的字错率/损失函数不再下降,即判定为符合第四预设条件。本实施例的语音识别模型的训练方法,相对于步骤S1—S3所公开的方案,在对基础模型进行模型再训练时,由于使用的是命令词语料和通用语料组合的混合语料作为训练数据,因为不需要设置早停策略,可以进行更多次数的模型再训练,提高最终的语音识别模型对自定义的命令词具有较高的识别准确率;同时由于混合语料中包含有通用语料,也能降低语音识别模型的误唤醒率(或者说是对非命令词的误识别率)。
进一步的,所述获取通用语料的步骤,包括:
S101:调取语料数据,并对所述语料数据进行短语句处理,得到预处理语料;
S102:对所述预处理语料进行数据增强,得到二次处理语料;
S103:对所述二次处理语料和所述预处理语料进行特征提取,得到所述通用语料。
本实施例中,本实施例中,由于命令词识别属于短语音识别(通常命令词的语音数据不会超过3s),因此需要对通用语料中的长语句进行短语句处理(即将时长超过时长阈值的长语句进行分割或者直接剔除),在处理后得到预处理语料。然后,识别系统对预处理语料进行数据增强(比如使用改变语速、改变音量、加噪、SpecAug、pitch等数据增强手段),得到二次处理语料,以提高训练数据的多样化。其中,在对预处理语料进行数据增强时,单份的预处理语料只做一种类型的数据增强,并不将多种类型的数据增强方法叠加在同一份预处理语料上。识别系统对二次处理语料和预处理语料(即未进行数据增强的语料)的音频数据进行特征提取(使用常规的特征提取,比如使用MFCC(mel-frequency cepstralcoefficient)、FBANK(Filter Banks)、LOGFBANK等特征),得到模型训练所需的通用语料。
进一步的,所述使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型的步骤,包括:
S201:使用所述通用语料对所述语音识别网络进行模型训练,并定义模型的损失函数使用序列损失函数,模型的建模单元为音素,直至训练次数达到次数阈值,则停止模型训练,得到所述基础模型。
本实施例中,步骤S1—S3所对应的语音识别模型的训练方法,和步骤A1—A4所对应的语音识别模型的训练方法中,训练系统使用通用语料对语音识别网络进行模型训练,并定义模型训练的损失函数使用CTC(Connectionist temporal classification)loss,并且定义模型的建模单元为音素,提高训练后模型识别的准确度。其中,音素包括拼音(拼音可分为带声调和不带声调)、声韵母、汉字以及单个字符;语音识别网络的体量较小,其具体的网络层数和卷积通道数根据具体部署的嵌入式设备的内存大小进行相应设置,具体地,训练后的语音识别模型部署在嵌入式设备,神经网络会做量化压缩,因此,需要保证量化压缩后的语音识别网络的大小小于嵌入式设备的限制(比如嵌嵌入式设备提供的模型可用空间只有150kb,则开发人员设计的语音识别网络在量化压缩后需要小于150kb,语音识别网络的网络层数和每层的卷积通道数则据此进行对应设置)。当训练次数达到次数阈值(比如训练次数达到20次,其中,本实施例所描述的训练次数是指epoch,即使用整个训练数据进行模型训练的次数,比如训练次数达到20次是指训练20个epoch,即需要使用全部的训练数据训练20轮)时,训练系统则停止模型训练,得到基础模型。
优先的,步骤S1—S3和步骤A1—A4所对应的语音识别模型的训练方法中,在对基础模型进行模型再训练时,同样定义模型训练的损失函数使用CTC(Connectionisttemporal classification)loss,并且定义模型的建模单元为音素,以提高训练后语音识别模型识别的准确度。
进一步的,所述调取命令词语料的步骤之前,包括:
S4:获取若干个命令词语音数据和若干个命令词文本数据,其中,各所述命令词语音数据均由所述嵌入式设备录制得到;
S5:将各所述命令词语音数据和各所述命令词文本数据按照预设对应关系进行对应关联,得到所述命令词语料。
本实施例中,命令词语料可以从公共语料中搜索得到,也可以通过TTS(Text-to-Speech)技术合成,作为冷启动时的最初数据比如拼接的方式、AI合成的方式等。优选的,训练系统获取开发人员或者用户输入的若干个命令词语音数据和若干个命令词文本数据,其中,各个命令词语音数据均由嵌入式设备录制得到,保证采集的命令词语音数据用于训练模型时跟实际产品使用时的硬件环境是一致的,从而提高训练后得到的语音识别模型部署在嵌入式设备后,具有更高的识别准确率。训练系统将各个命令词语音数据和各个命令词文本数据按照设定的对应关系进行对应关联,得到模型再训练所需的命令词语料。
进一步的,所述在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料的步骤,包括:
A301:从预设的比例集合中随机选择一个比例值作为所述随机比例,并获取一个批次的训练数据所包含的数据总量;
A302:根据所述数据总量和所述随机比例,分别计算得到第一数据量和第二数据量;
A303:从同一批次的所述命令词语料中选取与所述第一数据量对应的第一训练子数据,并从同一批次的所述通用语料中选取与所述第二数据量对应的第二训练子数据,所述第一训练子数据和所述第二训练子数据属于同一批次的训练数据;
A304:将所述第一训练子数据和所述第二训练子数据进行组合,得到所述混合语料,所述混合语料为模型再训练时一个批次所需的训练数据。
本实施例中,在使用每一批次的训练数据时,训练系统从预设的比例集合中随机选择一个比例值作为当前批次的训练数据对应的随机比例,并获取一个批次的训练数据所包含的数据总量。其中,比例集合优选为(5:5,6:4,7:3,8:2),比例集合中比例值的第一个值对应命令词语料,第二个值对应通用语料,比如选择的随机比例为6:4时,则一个批次的训练数据中,命令词语料与通用语料之间的比例为6:4。训练系统根据数据总量和当前批次的随机比例,分别计算得到第一数据量和第二数据量,然后从同一批次的命令词语料中选取与第一数据量对应的第一训练数据,并从同一批次的通用语料中选取与第二数据量对应的第二训练子数据(比如随机比例为6:4,每个批次的训练数据的数据总量为100,则从命令词语料中选取的第一训练数据为60个命令词语料,从通用语料中选取的第二训练数据为40个通用语料)。训练系统将第一训练子数据和第二训练子数据进行组合,得到混合语料,该混合语料即为模型再训练时一个批次所需的训练数据。
参照图3,本申请一实施例中还提供了一种语音识别模型的训练装置,所述语音识别模型应用于嵌入式设备,所述训练装置包括:
第一获取模块1,用于获取通用语料;
第一训练模块2,用于使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
第二训练模块3,用于调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
参照图4,本申请一实施例还提供了另一种语音识别模型的训练装置,所述语音识别模型应用于嵌入式设备,所述训练装置包括:
第二获取模块4,用于获取通用语料;
第三训练模块5,用于使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
组合模块6,用于调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
第四训练模块7,用于使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
进一步的,所述第一获取模块1,包括:
处理单元,用于调取语料数据,并对所述语料数据进行短语句处理,得到预处理语料;
增强单元,用于对所述预处理语料进行数据增强,得到二次处理语料;
提取单元,用于对所述二次处理语料和所述预处理语料进行特征提取,得到所述通用语料。
进一步的,所述第一训练模块2,包括:
训练单元,用于使用所述通用语料对所述语音识别网络进行模型训练,并定义模型的损失函数使用序列损失函数,模型的建模单元为音素,直至训练次数达到次数阈值,则停止模型训练,得到所述基础模型。
进一步的,所述训练装置,还包括:
第三获取模块8,用于获取若干个命令词语音数据和若干个命令词文本数据,其中,各所述命令词语音数据均由所述嵌入式设备录制得到;
关联模块9,用于将各所述命令词语音数据和各所述命令词文本数据按照预设对应关系进行对应关联,得到所述命令词语料。
进一步的,所述组合模块6,包括:
选择单元,用于从预设的比例集合中随机选择一个比例值作为所述随机比例,并获取一个批次的训练数据所包含的数据总量;
计算单元,用于根据所述数据总量和所述随机比例,分别计算得到第一数据量和第二数据量;
选取单元,用于从同一批次的所述命令词语料中选取与所述第一数据量对应的第一训练子数据,并从同一批次的所述通用语料中选取与所述第二数据量对应的第二训练子数据,所述第一训练子数据和所述第二训练子数据属于同一批次的训练数据;
组合单元,用于将所述第一训练子数据和所述第二训练子数据进行组合,得到所述混合语料,所述混合语料为模型再训练时一个批次所需的训练数据。
本实施例中,语音识别模型的训练装置中各模块、单元用于对应执行与上述语音识别模型的训练方法中的各个步骤,其具体实施过程在此不做详述。
本实施例提供的一种语音识别模型的训练装置,训练系统获取通用语料,然后使用通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型。再调取命令词语料,并使用命令词语料对基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型训练,得到第一语音识别模型,其中,第二预设条件为模型的损失函数/字错率下降至阈值范围,第三预设条件为测试集的误识别率开始增大或者误识别率超过误识别率阈值。或者,在得到基础模型后,训练系统调取命令词语料,并在每一批次的训练数据中,将命令词语料和通用语料按照预设比例或随机比例进行组合,得到混合语料。然后使用混合语料对基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。本申请中,训练系统首先使用通用语料进行模型训练,获得的基础模型对所有的音素具有一定的区分能力,为后续特定的命令词识别的实现提供基础,同时也保证了最终训练得到语音识别模型具有较低的误唤醒率,不需要额外负样本的训练。然后,在基础模型的基础上使用用户自定义的命令词语料(或是用户自定义的命令词语料混合通用语料)进行再训练,从而快速完成对最终的语音识别模型的训练,使得语音识别模型即具有对命令词较高的识别准确率,同时也能降低误唤醒率(或者说是对非命令词的误识别率)。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储命令词语料等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的训练方法,所述语音识别模型应用于嵌入式设备。
上述处理器执行上述语音识别模型的训练方法的步骤:
S1:获取通用语料;
S2:使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
S3:调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型再训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
上述处理器执行上述另一种语音识别模型的训练方法的步骤:
A1:获取通用语料;
A2:使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
A3:调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
A4:使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
进一步的,所述获取通用语料的步骤,包括:
S101:调取语料数据,并对所述语料数据进行短语句处理,得到预处理语料;
S102:对所述预处理语料进行数据增强,得到二次处理语料;
S103:对所述二次处理语料和所述预处理语料进行特征提取,得到所述通用语料。
进一步的,所述使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型的步骤,包括:
S201:使用所述通用语料对所述语音识别网络进行模型训练,并定义模型的损失函数使用序列损失函数,模型的建模单元为音素,直至训练次数达到次数阈值,则停止模型训练,得到所述基础模型。
进一步的,所述调取命令词语料的步骤之前,包括:
S4:获取若干个命令词语音数据和若干个命令词文本数据,其中,各所述命令词语音数据均由所述嵌入式设备录制得到;
S5:将各所述命令词语音数据和各所述命令词文本数据按照预设对应关系进行对应关联,得到所述命令词语料。
进一步的,所述在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料的步骤,包括:
A301:从预设的比例集合中随机选择一个比例值作为所述随机比例,并获取一个批次的训练数据所包含的数据总量;
A302:根据所述数据总量和所述随机比例,分别计算得到第一数据量和第二数据量;
A303:从同一批次的所述命令词语料中选取与所述第一数据量对应的第一训练子数据,并从同一批次的所述通用语料中选取与所述第二数据量对应的第二训练子数据,所述第一训练子数据和所述第二训练子数据属于同一批次的训练数据;
A304:将所述第一训练子数据和所述第二训练子数据进行组合,得到所述混合语料,所述混合语料为模型再训练时一个批次所需的训练数据。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音识别模型的训练方法,所述语音识别模型应用于嵌入式设备,所述语音识别模型的训练方法具体为:
S1:获取通用语料;
S2:使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
S3:调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型再训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
另一种语音识别模型的训练方法的步骤:
A1:获取通用语料;
A2:使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
A3:调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
A4:使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
进一步的,所述获取通用语料的步骤,包括:
S101:调取语料数据,并对所述语料数据进行短语句处理,得到预处理语料;
S102:对所述预处理语料进行数据增强,得到二次处理语料;
S103:对所述二次处理语料和所述预处理语料进行特征提取,得到所述通用语料。
进一步的,所述使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型的步骤,包括:
S201:使用所述通用语料对所述语音识别网络进行模型训练,并定义模型的损失函数使用序列损失函数,模型的建模单元为音素,直至训练次数达到次数阈值,则停止模型训练,得到所述基础模型。
进一步的,所述调取命令词语料的步骤之前,包括:
S4:获取若干个命令词语音数据和若干个命令词文本数据,其中,各所述命令词语音数据均由所述嵌入式设备录制得到;
S5:将各所述命令词语音数据和各所述命令词文本数据按照预设对应关系进行对应关联,得到所述命令词语料。
进一步的,所述在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料的步骤,包括:
A301:从预设的比例集合中随机选择一个比例值作为所述随机比例,并获取一个批次的训练数据所包含的数据总量;
A302:根据所述数据总量和所述随机比例,分别计算得到第一数据量和第二数据量;
A303:从同一批次的所述命令词语料中选取与所述第一数据量对应的第一训练子数据,并从同一批次的所述通用语料中选取与所述第二数据量对应的第二训练子数据,所述第一训练子数据和所述第二训练子数据属于同一批次的训练数据;
A304:将所述第一训练子数据和所述第二训练子数据进行组合,得到所述混合语料,所述混合语料为模型再训练时一个批次所需的训练数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型应用于嵌入式设备,所述训练方法包括:
获取通用语料;
使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型再训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述获取通用语料的步骤,包括:
调取语料数据,并对所述语料数据进行短语句处理,得到预处理语料;
对所述预处理语料进行数据增强,得到二次处理语料;
对所述二次处理语料和所述预处理语料进行特征提取,得到所述通用语料。
3.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型的步骤,包括:
使用所述通用语料对所述语音识别网络进行模型训练,并定义模型的损失函数使用序列损失函数,模型的建模单元为音素,直至训练次数达到次数阈值,则停止模型训练,得到所述基础模型。
4.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述调取命令词语料的步骤之前,包括:
获取若干个命令词语音数据和若干个命令词文本数据,其中,各所述命令词语音数据均由所述嵌入式设备录制得到;
将各所述命令词语音数据和各所述命令词文本数据按照预设对应关系进行对应关联,得到所述命令词语料。
5.一种语音识别模型的训练方法,其特征在于,所述语音识别模型应用于嵌入式设备,所述训练方法包括:
获取通用语料;
使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型
6.根据权利要求5所述的语音识别模型的训练方法,其特征在于,所述在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料的步骤,包括:
从预设的比例集合中随机选择一个比例值作为所述随机比例,并获取一个批次的训练数据所包含的数据总量;
根据所述数据总量和所述随机比例,分别计算得到第一数据量和第二数据量;
从同一批次的所述命令词语料中选取与所述第一数据量对应的第一训练子数据,并从同一批次的所述通用语料中选取与所述第二数据量对应的第二训练子数据,所述第一训练子数据和所述第二训练子数据属于同一批次的训练数据;
将所述第一训练子数据和所述第二训练子数据进行组合,得到所述混合语料,所述混合语料为模型再训练时一个批次所需的训练数据。
7.一种语音识别模型的训练装置,其特征在于,所述语音识别模型应用于嵌入式设备,所述训练装置包括:
第一获取模块,用于获取通用语料;
第一训练模块,用于使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
第二训练模块,用于调取命令词语料,并使用所述命令词语料对所述基础模型进行模型再训练,直至模型的损失函数/字错率符合第二预设条件,并且测试集的误识别率符合第三预设条件,则停止模型训练,得到第一语音识别模型,其中,所述第二预设条件为所述损失函数/字错率下降至阈值范围,所述第三预设条件为所述误识别率开始增大或者所述误识别率超过误识别率阈值。
8.一种语音识别模型的训练装置,其特征在于,所述语音识别模型应用于嵌入式设备,所述训练装置包括:
第二获取模块,用于获取通用语料;
第三训练模块,用于使用所述通用语料对语音识别网络进行模型训练,直至符合第一预设条件,得到基础模型;
组合模块,用于调取命令词语料,并在每一批次的训练数据中,将所述命令词语料和所述通用语料按照预设比例或随机比例进行组合,得到混合语料;
第四训练模块,用于使用所述混合语料对所述基础模型进行模型再训练,直至符合第四预设条件,得到第二语音识别模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202111020511.6A 2021-09-01 2021-09-01 语音识别模型的训练方法、装置和计算机设备 Pending CN113870844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111020511.6A CN113870844A (zh) 2021-09-01 2021-09-01 语音识别模型的训练方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111020511.6A CN113870844A (zh) 2021-09-01 2021-09-01 语音识别模型的训练方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN113870844A true CN113870844A (zh) 2021-12-31

Family

ID=78989258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111020511.6A Pending CN113870844A (zh) 2021-09-01 2021-09-01 语音识别模型的训练方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN113870844A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360522A (zh) * 2022-03-09 2022-04-15 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN114360521A (zh) * 2022-03-09 2022-04-15 深圳市友杰智新科技有限公司 语音识别模型的训练方法、语音误识别的检测方法及设备
CN114783427A (zh) * 2022-06-20 2022-07-22 成都启英泰伦科技有限公司 基于命令词的语音识别模型压缩方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360522A (zh) * 2022-03-09 2022-04-15 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN114360521A (zh) * 2022-03-09 2022-04-15 深圳市友杰智新科技有限公司 语音识别模型的训练方法、语音误识别的检测方法及设备
CN114360522B (zh) * 2022-03-09 2022-08-02 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN114360521B (zh) * 2022-03-09 2022-08-19 深圳市友杰智新科技有限公司 语音识别模型的训练方法、语音误识别的检测方法及设备
CN114783427A (zh) * 2022-06-20 2022-07-22 成都启英泰伦科技有限公司 基于命令词的语音识别模型压缩方法

Similar Documents

Publication Publication Date Title
KR102401512B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN113870844A (zh) 语音识别模型的训练方法、装置和计算机设备
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
CN109473106A (zh) 声纹样本采集方法、装置、计算机设备及存储介质
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
CN108447471A (zh) 语音识别方法及语音识别装置
CN113506574A (zh) 自定义命令词的识别方法、装置和计算机设备
CN112634867A (zh) 模型训练方法、方言识别方法、装置、服务器及存储介质
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
CN111710337B (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111968645B (zh) 一种个性化的语音控制系统
CN111833844A (zh) 用于语音识别和语种分类的混合模型的训练方法及系统
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
CN112802461A (zh) 语音识别方法和装置、服务器、计算机可读存储介质
CN113450757A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
CN111613219B (zh) 语音数据识别方法、设备及介质
CN114783407B (zh) 语音合成模型训练方法、装置、计算机设备及存储介质
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN112669836A (zh) 命令的识别方法、装置及计算机可读存储介质
JPH0823758B2 (ja) 話者適応形音声認識装置
CN111210830B (zh) 基于拼音的语音唤醒方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination