CN117975942A - 语音识别模型的训练方法、语音识别方法及相关装置 - Google Patents
语音识别模型的训练方法、语音识别方法及相关装置 Download PDFInfo
- Publication number
- CN117975942A CN117975942A CN202311483688.9A CN202311483688A CN117975942A CN 117975942 A CN117975942 A CN 117975942A CN 202311483688 A CN202311483688 A CN 202311483688A CN 117975942 A CN117975942 A CN 117975942A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- target language
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 203
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000002372 labelling Methods 0.000 claims abstract description 153
- 230000003190 augmentative effect Effects 0.000 claims abstract description 20
- 238000013434 data augmentation Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 19
- 238000002156 mixing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供一种语音识别模型的训练方法、语音识别方法以及相关装置,涉及语音识别技术领域,一些实施例的语音识别模型的训练方法包括:获取目标语种的无标注数据以及目标语种的标注数据;基于无标注数据和标注数据对跨语种的预训练模型进行调整,获得目标语种的初始语音识别模型;通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对标注数据进行数据增广获得增广数据,并将具有第一伪标签的无标注数据和增广数据作为训练数据;基于训练数据对初始语音识别模型进行训练,获得语音识别模型。基于本申请实施例方案,可以通过少量的目标语种的标注数据训练获得目标语种的语音识别模型,训练效果佳且成本低。
Description
技术领域
本申请涉及语音识别技术领域,特别是涉及一种语音识别模型的训练方法、语音识别方法以及相关装置,其中,相关装置包括语音识别模型的训练装置、语音识别装置、计算机设备及计算机可读存储介质。
背景技术
随着自然语言技术的发展,自动语音识别(ASR,Auto Speech Recognition)也得到了日益广泛的应用,例如可广泛服务于搜索、推荐、客服、语音助手、自动字幕等场景。在进行语音识别时,通常会采用语音识别模型进行语音识别,为了能够使得自动语音识别的结果能够具有较高的准确性,通常会通过模型训练的方式得到语音识别模型,再将训练得到的语音识别模型用到具体的语音识别业务中。
目前在训练获得语音识别模型时,通常需要大量标注数据进行模型训练,然而,在标注数据的数量较少的情况下,即低资源场景下,会使得训练获得语音识别模型的成本变得很高。
发明内容
基于此,有必要针对上述技术问题,提供一种训练成本低的语音识别模型的训练方法、语音识别方法及相关装置。
第一方面,本申请提供了一种语音识别模型的训练方法,所述方法包括:
获取目标语种的无标注数据以及所述目标语种的标注数据;
基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
通过所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
基于本申请实施例提供的语音识别模型的训练方法,其在训练获得语音识别模型时,通过获得目标语种的无标注数据以及目标语种的标注数据,在此基础上先对跨语种的预训练模型进行调整,得到目标语种的初始语音识别模型,再通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,并对目标语种的标注数据进行数据增广获得的增广数据,以提升真实数据的比重,且能够在一定程度上平衡第一伪标签的标注误差,并将具有第一伪标签的无标注数据和增广数据作为训练数据,通过混合大量的伪标签数据,进一步增加了数据的多样性,在此基础上对初始语音识别模型进行训练,也提高了得到的语音识别模型的泛化能力和鲁棒性,且通过获得少量的目标语种的标注数据也能够训练获得目标语种的语音识别模型,训练效果佳且成本低。
第二方面,本申请提供了一种语音识别方法,所述方法包括:
获取待识别语音数据;
语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如上所述的任一实施例中的语音识别模型的训练方法训练得到的。
第三方面,本申请提供了一种语音识别模型的训练装置,所述装置包括:
获取模块,用于获取目标语种的无标注数据以及所述目标语种的标注数据;
所述获取模块,还用于基于所述无标注数据和标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
添加模块,用于基于所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据;
所述获取模块,还用于对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
训练模块,用于基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
第四方面,本申请提供了一种语音识别装置,所述装置包括:
语音数据获取模块,用于获取待识别语音数据;
识别模块,用于语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如上所述的任一实施例中的语音识别模型的训练方法训练得到的。
第五方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的任一实施例中的方法的步骤。
第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的任一实施例中的方法的步骤。
第七方面,本申请提供了一种计算机程序产品,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述的任一实施例中的方法的步骤。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读对下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在全部附图中,用相同的附图标号表示相同的部件。在附图中:
图1为本申请一些实施例的语音识别模型的训练方法和语音识别方法的应用环境示意图;
图2为本申请一些实施例的语音识别模型的训练方法的流程示意图;
图3为本申请另一些实施例的语音识别模型的训练方法的流程示意图;
图4为本申请另一些实施例的语音识别模型的训练方法的流程示意图;
图5为本申请一些实施例的语音识别模型以及语言模型为目标语种的无标注数据添加伪标签的流程示意图;
图6为本申请一些实施例的语音识别模型的训练方法的原理示意图;
图7为本申请一些实施例的语音识别方法的流程示意图;
图8为本申请一些实施例中的语音识别模型的训练装置的结构框图;
图9为本申请一些实施例的语音识别装置的结构框图;
图10为本申请一些实施例的计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,除非另有明确的规定和限定,技术术语 “连接”等术语应做广义理解,例如,可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请实施例中的具体含义。
目前,在进行语音识别的场景中,通常会通过模型训练的方式得到语音识别模型,再将训练得到的语音识别模型用到具体的语音识别业务中。在训练获得语音识别模型时,通常需要大量标注数据进行模型训练。对于使用比较广泛的语言而言,使用该语言的用户众多,相对比较容易获得大量的标注数据,即获取该语种的标注数据相对比较容易,能够较容易地获得大量的标注数据,从而能够有大量的标注数据进行模型训练。然而,对于使用量相对不是很广泛的语言,由于使用该语言的用户相对较少,例如对于一些小语种,能够获得的标注数据也相对较少,即只能获得较少的标注数据。若仅仅只用这些少量的标注数据直接进行模型训练,会影响到获得的语音识别模型的性能,若要达到较好的训练效果,则需要进一步获得更多的标注数据,然而这又会造成训练成本的大量增加。
基于此,本申请实施例提供一种低资源场景下的语音识别模型的训练方法,其通过少量的目标语种的标注数据,并结合跨语种的预训练模型,即能够训练获得目标语种的语音识别模型,训练效果佳且成本低。并在此基础上提供了一种语音识别方法。
本申请实施例提供的语音识别模型的训练方法和语音识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以基于终端102的指令,或者基于服务器104的内部触发指令,结合目标语种的无标注数据以及目标语种的少量的标注数据,基于跨语种的预训练模型进行训练,以获得目标语种的语音识别模型。获得的语音识别模型,可以部署在终端102或者服务器104上,也可以部署在其他需要进行语音识别的终端上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
其中,在其他的应用实施例的环境中,该训练获得目标语种的语音识别模型的过程,也可以是由终端102来执行,也可以基于一个或多个终端102与服务器104的配合来执行,本申请实施例对此不做限定。
参考图2所示,本申请实施例提供一种语音识别模型的训练方法,其中,所述方法包括:
步骤S101:获取目标语种的无标注数据以及目标语种的标注数据。
其中,目标语种是指训练获得的语音识别模型所期望能够正确识别的语种,在本申请实施例中,目标语种可以是小语种,例如可获取的标注数据的资源较少的语种。应当理解的是,目标语种也可以是使用较广泛的语种。
目标语种的无标注数据,是指目标语种的语音数据中,未能正确标注这些语音数据的正确内容的语音数据。可以通过各种可能的方式获得目标语种的无标注数据,例如通过爬虫的方式获取目标语种的无标注数据。通过爬虫的方式获取目标语种的无标注数据,获取方式简单便捷,且成本低。其中,获取的目标语种的无标注数据的数量可以比较多,具体可以基于实际需要确定,例如可以爬取几千个小时的目标语种的无标注数据。
目标语种的标注数据,是指目标语种的语音数据中,已经正确标注了这些语音数据的正确内容的语音数据。其中,获取目标语种的标注数据的方式不限,例如获取开源的目标语种的标注数据,或者通过获取终端上传的目标语种的标注数据,或者获取一定数量的目标语种的语音数据后,通过人工标注的方式,标注这些语音数据的正确内容,以获得目标语种的标注数据。其中,获取的目标语种的标注数据可以是少量的标注数据,具体可以基于实际需要确定,例如可以获取几十个小时的目标语种的标注数据。
需要说明的是,一个语音数据所标注的正确内容可以是指该语音数据对应的文本内容,或者还可以是指该语音数据中的关键词,或者还可以是指该语音数据的意图等等,在实际应用中,根据应用场景不同,应用产品不同,对语音数据的标注要求也不相同,本申请实施例只是列举了几种可能的实现方式,对于为语音数据标注的正确内容不做具体限定。
步骤S102:基于无标注数据和标注数据,对跨语种的预训练模型进行调整,获得目标语种的初始语音识别模型。
跨语种的预训练模型可以是不同于目标语种的其他语种的语音模型,其通常是通过对大量的无标注数据进行自监督学习得到的。通常情况下,跨语种的预训练模型可以是基于一堆没有标签的样本,通过对抗学习、聚类等方法,提取出一些高效、鲁棒、通用的特征,然后通过少量有监督的数据进行微调获得的模型。
其中,获取跨语种的预训练模型的方式不限,例如,可以通过获取开源的自监督预训练模型,作为该跨语种的预训练模型。通过选用开源的自监督预训练模型作为跨语种的预训练模型,易获取且成本低。
通过基于目标语种的无标注数据和标注数据对跨语种的预训练模型进行调整,能够使得调整后得到的初始语音识别模型提取的特征能够更符合目标语种的特征分布,且能够在一定程度上对目标语种的语音数据进行识别。
步骤S103:通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对标注数据进行数据增广获得增广数据,并将具有第一伪标签的无标注数据和增广数据作为训练数据。
通过基于目标语种的无标注数据和标注数据对跨语种的预训练模型进行调整,能够使得调整后得到的初始语音识别模型提取的特征能够更符合目标语种的特征分布,且能够在一定程度上对目标语种的语音数据进行识别,因此,通过得到的初始语音模型能够对无标注数据进行语音识别,并基于语音识别的结果为无标注数据添加标签。由于是基于初始语音模型的识别结果对无标注数据添加标签,该标签在一定程度上并未得到验证,因此,为其添加的标签称之为伪标签,通过初始语音识别模型添加了伪标签后的无标注数据,称之为具有第一伪标签的无标注数据伪标签数据。
数据增广是一种扩充数据规模的技术,通过对目标语种的标注数据进行数据增广,能够获得大量的标注数据,通常可以是成倍地增长。数据增广的方式不限,例如可以是混噪、速度扰动、音量扰动等等,本申请实施例对此不做具体限制,只要能够扩充目标语种的标注的数量即可。
通过将具有第一伪标签的无标注数据和数据增广后的标注数据进行混合,可以获得大量的具有第一伪标签的无标注数据和大量的具有验证后的正确标签的标注数据,将具有第一伪标签的无标注数据和所述增广数据作为训练数据,可以有助于获得大量具有标签的训练数据,有助于提高后续训练过程得到的语音识别模型的泛化能力和鲁棒性。
步骤S105:基于训练数据对初始语音识别模型进行训练,获得语音识别模型。
基于训练数据对初始语音识别模型进行训练的方式不限,例如可以通过端到端的方式对初始语音识别模型进行训练,以获得语音识别模型。
基于本申请实施例提供的语音识别模型的训练方法,其在训练获得语音识别模型时,通过获得目标语种的无标注数据以及目标语种的标注数据,在此基础上先对跨语种的预训练模型进行调整,得到目标语种的初始语音识别模型,再通过初始语音识别模型为无标注数据添加伪标签,获得具有第一伪标签的无标注数据,并对目标语种的标注数据进行数据增广获得的增广数据,以提升真实数据的比重,且能够在一定程度上平衡第一伪标签的标注误差,并将具有第一伪标签的无标注数据和增广数据作为训练数据,通过混合大量的伪标签数据,进一步增加了数据的多样性,在此基础上对初始语音识别模型进行训练,也提高了得到的语音识别模型的泛化能力和鲁棒性,且通过获得少量的目标语种的标注数据也能够训练获得目标语种的语音识别模型,训练效果佳且成本低。
在一些实施例中,参考图3所示,上述步骤S102的基于无标注数据和标注数据,对跨语种的预训练模型进行调整,获得目标语种的初始语音识别模型,可以包括:
步骤S1021:基于无标注数据对跨语种的预训练模型进行训练以学习目标语种的特征分布,获得目标语种预训练模型。
其中,基于无标注数据对跨语种的预训练模型进行训练的方式不限,例如,基于无标注数据对跨语种的预训练模型进行finetune清洗,获得目标语种预训练模型。
其中,finetune是指神经网络模型微调, 通过对跨语种的预训练模型进行调整,可以利用目标语种的无标注数据作为样本,对语音识别领域具有丰富数据和模型参数的跨语种的预训练模型的一小部分参数进行更新,来提高模型的性能。本申请实施例中,通过对多个语种混合的跨语种的预训练模型使用单个语种(目标语种)的无标注数据进行调整,能够学习目标语种的特征分布,使得得到的目标语种预训练模型的模型参数更符合目标语种的特征分布。
应当理解的是,在其他实施例中,也可以采用其他方式,来基于无标注数据对跨语种的预训练模型进行训练,本申请实施例对此不做限制。
步骤S202:采用目标语种的标注数据,对目标语种预训练模型进行调整,获得目标语种的初始语音识别模型。
其中,基于目标语种的标注数据对目标语种预训练模型进行调整的方式不限。例如,基于目标语种的标注数据对目标语种预训练模型进行CTC-finetune处理,获得目标语种的初始语音识别模型。
其中,CTC-finetune 作为自监督模型如wav2vec2.0模型的一部分,用于语音识别任务的微调过程。CTC-finetune 过程中,使用 CTC(Connectionist TemporalClassification)作为语音识别解码器,并使用少量的文本标注数据微调自监督模型。微调过程中,CTC-loss作为监督信号,鼓励模型在语音特征表示向语音标注之间建立正确的映射,从而提高语音识别的精度。
应当理解的是,在其他实施例中,也可以采用其他方式,来基于目标语种的标注数据对目标语种预训练模型进行调整,本申请实施例对此不做限制。
从而,在基于无标注数据和标注数据对跨语种的预训练模型进行调整的过程中,先基于无标注数据对跨语种的预训练模型进行调整,从而能够学习目标语种的特征分布,使得得到目标语种预训练模型能够满足目标语种的特征分布,再基于目标语种的标注数据,对目标语种预训练模型进行调整以获得目标语种的初始语音识别模型,从而能够提高语音识别的精度。
在一些实施例中,参考图4所示,所述方法还可以包括:
步骤S105:语音识别模型对测试数据集进行语音识别,获得测试识别结果。
测试数据集是用以测试和判断语音识别模型的识别效果的数据集,其可以是目标语种的标注数据。其中,可以通过各种可能方式获得测试数据集,例如,在获得目标语种的标注数据后,将其中的一部分标注数据作为测试数据集,而其他的标注数据用于上述实施例中的语音识别模型的训练过程。再例如,将上述包含具有第一伪标签的无标注数据和增广数据的训练数据中的一部分作为测试数据集,而其他的训练数据用于上述实施例中的语音识别模型的训练过程。在其他实施例中,也可以采用其他的方式获得测试数据集,本申请实施例对此不做具体限制。
通过语音识别模型对测试数据集进行语音识别,可以获得测试数据集的语音识别结果,并将该语音识别结果与测试数据集的标签进行分析,可以获得测试识别结果,具体的分析方式本申请实施例不做具体限制。
步骤S106:若测试识别结果不满足预期测试结果,则语音识别模型以及语言模型为目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据;语言模型是基于目标语种的文本训练获得。
判定测试识别结果是否满足预期测试结果的方式不限,例如语音识别结果与测试数据集的标签的错误率小于某个预设的错误率阈值的情况下,可以确定满足预期测试结果,在大于该预设的错误率阈值的情况下,可以确定不满足预期测试结果,具体的预设错误率阈值的设定方式和具体值不限。
其中,语言模型可以是预先基于目标语种的文本训练获得的,也可以是基于目标语种的文本实时训练获得的。其中,目标语种的文本是指用目标语种的语言表达的文本,基于目标语种的文本进行训练,可以获得目标语种的语言模型。该语言模型能够识别出输入该语言模型的句子在目标语种的表达方式中出现的概率。
在一些实施例中基于目标语种的文本训练获得的语言模型的获取方式,可以包括:
获取目标语种的文本;
基于目标语种的文本对预设语言模型进行训练,获得语言模型。
其中,获取目标语种的文本的方式不限,例如通过获取开源的目标语种的文本。基于目标语种的文本对预设语言模型进行训练的方式不限,本申请实施例对此不做限制。
由于目标语种的文本较易获得,从而通过获取目标语种的文本,并利用目标语种的文本对预设语言模型进行训练,获得语言模型,收集目标语种的文本的成本低,从而能够低成本地提高训练得到的语音识别模型的准确性。
基于语音识别模型,可以识别出目标语种的无标注数据(语音数据)的可能的文本内容,结合语言模型的处理,可以确定更符合该目标语种的语言习惯的文本内容,从而可以据此为目标语种的无标签数据添加伪标签,添加的伪标签可称之为第二伪标签,从而得到具有第二伪标签的无标注数据。
步骤S107:基于无标注数据的第一伪标签和第二伪标签对无标注数据进行筛选,得到筛选后的无标注数据。
其中,基于无标注数据的第一伪标签和第二伪标签,对无标注数据进行筛选的方式不限,例如,可以将第一伪标签和第二伪标签中可信度最高的伪标签,作为筛选后的无标注数据的伪标签。
步骤S108:将筛选后的无标注数据与所述目标语种的标注数据混合,并利用混合后数据替换所述标注数据,并返回执行采用目标语种的标注数据,对目标语种预训练模型进行调整,获得目标语种的初始语音识别模型的步骤。
从而,在获得语音识别模型后,语音识别模型对测试数据集进行语音识别,获得测试识别结果,以对获得的语音识别模型进行测试,若测试识别结果不满足预期测试结果,则说明获得的语音识别模型不符合预期,则通过语音识别模型以及语言模型为无标注数据添加第二伪标签,由于语言模型能够从语义信息上矫正识别结果,通过结合语言模型的处理添加第二伪标签,并基于第一伪标签和第二伪标签对无标注数据进行筛选,使得将筛选后的无标注数据与目标语种的标注数据混合后,在后续阶段对目标语种预训练模型进行调整的过程中,能够为模型训练过程带来更多标注数据以外的语义信息,能够进一步提高训练得到的语音识别模型的准确性,且有助于提高训练效率。
在一些实施例中,参考图5所示,步骤S106中的语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据,可以包括:
步骤S1061:获取语音识别模型对目标语种的无标注数据进行语音识别获得的识别文本,并确定识别文本对应的语音识别概率;其中,语音识别概率表征了识别出的识别文本在无标注数据中出现的概率,获得的识别文本可能有多个;
步骤S1062:获取语言模型对识别文本进行语言识别获得的语言文本的语言识别概率;其中,语言识别概率表征了识别文本在目标语种的语言表述习惯中出现的概率;
步骤S1063:基于识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签,并对目标语种的无标注数据添加确定的第二伪标签。
从而,通过将语音识别模型与语言模型的识别概率相结合,能够获得符合该目标语种的语言习惯的文本内容,从而可以据此为目标语种的无标签数据添加第二伪标签。
其中,在一些实施例中,在基于各识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签时,可以是对识别文本对应的语音识别概率和语言识别概率进行加权求和,并将加权求和后的最大值对应的识别文本,作为目标语种的无标签数据的第二伪标签。
举例来说,假设其中一条目标语种的无标注数据为S,语音识别模型对语音数据S进行语音识别,获得3条备选的识别文本S1、S2、S3,识别文本S1、S2、S3的语音识别概率分别为g1、g2、g3。然后语言模型分别对识别文本S1、S2、S3进行语言识别,获得识别文本S1、S2、S3的语言识别概率分别为y1、y2、y3。通过加权求和处理后,识别文本S1、S2、S3的加权求和后的概率分别为:a*g1+b*y1、a*g2+b*y2、 a*g3+b*y3,其中,a*g2+b*y2的值最大,则将识别文本S2添加为语音数据S的伪标签。其中,a、b为加权系数。
在其他实施例中,基于识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签时,也可以结合其他的方式对语音识别概率和语言识别概率进行综合处理,以确定目标语种的无标注数据的第二伪标签,本申请实施例对此不做具体限制。
在一些实施例中,所述步骤S107中的基于无标注数据的第一伪标签和第二伪标签对无标注数据进行筛选,得到筛选后的无标注数据,包括:
针对每个无标注数据,确定无标注数据对应的第一伪标签和第二伪标签之间的词错误率;
若词错误率大于第一错误率阈值,则将无标注数据删除。
其中,第一伪标签和第二伪标签之间的词错误率,表征了第一伪标签与第二伪标签之间的差异化程度,或者说不相似的程度。第一伪标签和第二伪标签之间的词错误率越小,说明第一伪标签和第二伪标签之间越相似,差异也越小。第一伪标签和第二伪标签之间的词错误率越大,说明第一伪标签和第二伪标签之间越不相似,差异也越大。
确定第一伪标签和第二伪标签之间的词错误率的方式不限,可以采用任何能够确定两条文本之间的差异概率的方式来实现,或者任何能够确定两条文本之间的相似度之后,结合相似度来确定词错误率。
在词错误率大于第一错误率阈值的情况下,说明目标语种的初始语音识别模型对无标注数据识别出的文本,与端对端训练得到的语音识别模型结合语言模型对无标注数据识别的文本,差异很大,因此,丢弃该条无标注数据,能够同时兼容这两个模型的优势,且能够加速收敛,提高模型训练效率。
从而,针对每个无标签数据,通过确定无标注数据对应的第一伪标签和第二伪标签之间的词错误率,并删除词错误率大于第一错误率阈值的无标注数据,即保留词错误率低的无标注数据,使得最终筛选后获得的无标注数据为高质量的无标注数据,能够融合对初始语音识别模型进行训练获得的语音识别模型和训练得到的目标语种的初始语音识别模型的结果,有助于提高训练获得的模型的精度。
在一些实施例中,所述步骤S107中的基于无标注数据的第一伪标签和第二伪标签对无标注数据进行筛选,得到筛选后的无标注数据,还包括:
若词错误率小于或等于第一错误率阈值,则保留无标注数据,即获得筛选后的无标签数据,且无标签数据具有第一伪标签和第二伪标签中的一个。
其中,词错误率小于或等于第一错误率阈值,说明无标注数据的第一伪标签和第二伪标签之间比较相似。因此在一些实施例中,在保留该无标注数据时,可以将第一伪标签和第二伪标签中的任意一个,作为保留下来的无标注数据的伪标签。鉴于第二伪标签是基于端对端训练得到的语音识别模型结合语言模型得到的伪标签,因此,在本申请的一些实施例中,在词错误率小于或等于第一错误率阈值时,可以是将第二伪标签作为保留下来的无标注数据的伪标签,即筛选后的无标签数据具有第二伪标签。
从而,通过将第一伪标签和第二伪标签对应的词错误率与第一错误率阈值比较,删除词错误率大于第一错误率阈值的无标注数据,保留词错误率小于或等于第一错误率阈值的无标注数据,且保留下来的无标签数据(即筛选后的无标签数据)具有第二伪标签,使得最终筛选后的无标签数据具有高质量的第二伪标签,既能够融合目标语种的初始语音识别模型和对初始语音识别模型进行训练获得的语音识别模型的结果,又能够结合语言模型的语言识别性能,有助于提高训练获得的模型的精度。且筛选后的无标签数据是具有第二伪标签,使得将筛选后的无标注数据与目标语种的标注数据混合后,在后续阶段对目标语种预训练模型进行调整的过程中,能够为模型训练过程带来更多标注数据以外的语义信息,能够进一步提高训练得到的语音识别模型的准确性,且有助于提高训练效率。
在一些实施例中,上述方法还可以包括:若测试识别结果满足预期测试结果,结束训练过程,获得语音识别模型。
在一些具体示例中,可以是在对测试数据集进行语音识别获得的语音识别结果与测试数据集的标签的错误率小于某个预设的错误率阈值,例如第二错误率阈值的情况下,可以确定满足预期测试结果。其中,第二错误率阈值与上述第一错误率阈值可以相同,也可以不同。
从而,在测试识别结果满足预期测试结果的情况下,结束训练过程,既满足了错误率低的需求,也能够满足实时性的需求。
基于如上所述的实施例,以下结合一些具体的语音识别模型的训练方式进行举例说明。
本申请实施例提供的语音识别模型的训练方法,具体可以是一种低资源小语种场景下的语音识别模型的训练方法,其能够解决小语种低资源领域,端到端训练的标注成本大、自监督预训练模型大、以及节省人力成本等问题。
参考图6所示,具体示例中的获取语音数据模型的过程可以是如下所述。
首先,获取目标语种的无标注数据(可称之为数据一)。其中,可以通过爬虫的方式获取大量的目标语种的无标注数据,例如,可以获取大概几千小时的目标语种的无标注的语音数据。
其次,获取跨语种的预训练模型(可称之为模型一)。其中,可以获取开源的自监督预训练模型作为模型一,例如huggingface社区开源了几十种语言语料训练的自监督模型,可以从中选择其中一种作为本申请实施例中的模型一。可以理解的是,也可以通过其他的平台获取开源的自监督预训练模型。
然后,通过无标注数据(数据一)对跨语种的预训练模型(模型一)进行调整,获得目标语种预训练模型(可称之为模型二)。其中,可以通过爬取到的大量的目标语种的无标注数据(数据一),对跨语种的预训练模型(模型一)做finetune清洗,得到目标语种预训练模型(模型二)。其中,由于模型一是通过对大量无标注数据学习到的,可以理解为一个特征提取器,通过用爬虫得到的目标语种的无标注数据(数据一)对模型一进行finetune清洗,能够使得到的目标语种预训练模型(模型二)的特征提取更符合目标语种的分布。
随后,获取目标语种的标注数据(可称之为数据二)。其中,获取的数据二,可以是少量的开源的目标语种的标注数据,例如可以获取几十小时的开源的目标语种的标注数据。若无法获得开源的目标语种的标注数据,也可以通过对几十小时的目标语种的语音数据进行人工标注,得到目标语种的标注数据(数据二)。
随后,使用目标语种的标注数据(数据二)对目标语种预训练模型(模型二)进行调整,获得目标语种的初始语音识别模型(可称之为模型三)。例如,可以使用数据二对模型二进行CTC-ctcfinetune清洗处理,得到初始语音识别模型(模型三)。通过对目标语种预训练模型(模型二)进行CTC-finetune处理,可以实现用几十小时的数据就能达到上万小时的数据端到端模型的效果。
接下来,使用目标语种的初始语音识别模型(模型三),对目标语种的无标注数据(数据一)添加第一伪标签,获得目标语种的具有第一伪标签的无标注数据(可称之为数据三)。具体地,可以通过初始语音识别模型(模型三)对爬取到的几千小时的无标注数据(数据一)进行语音识别,获得语音识别结果,并将错误率低于某个错误率阈值(例如10%)的语音识别结果,作为无标注数据的第一伪标签,从而获得数据三。通过为无标注数据(数据一)添加第一伪标签,进一步增加了无标注数据的可用性。
接下来,进行数据增广与数据混合,获得训练数据(可称之为数据四)。具体地,通过对几十小时的目标语种的标注数据(数据二)做数据增广,例如通过对数据二进行混噪、速度扰动、音量扰动等处理,使其数量级扩充几倍,得到数据增广后的标注数据。然后将数据增广后的标注数据与几千小时的具有第一伪标签的无标注数据(数据三)进行混合,得到带标签的混合数据,并将该混合数据作为训练数据(数据四)。通过对带有真实标签的标注数据(数据二)进行数据增广,能够提升真实数据的比重,在训练过程中能够在一定程度上平衡第一伪标签的标注误差;而混合大量的具有第一伪标签的无标注数据(数据三),也进一步增加了数据的多样性,提高了模型的泛化能力和鲁棒性。
随后,用获得的训练数据(数据四)对初始语音识别模型(模型三)进行端到端训练,得到目标语种的语音识别模型(模型四)。
在一些应用场景中,在用训练数据(数据四)对初始语音识别模型(模型三)进行端到端训练,得到目标语种的语音识别模型(模型四)之后,可以将得到的语音识别模型(模型四)作为最终得到的语音识别模型。
在本申请的一些实施例中,还可以结合语言模型对该语音识别模型(模型四)进行进一步的训练处理。
具体地,先搜集目标语种的开源文本,使用该开源文本对语言模型进行训练,获得目标语种的语言模型。其中,可以从网络上爬虫或者github开源项目中收集到目标语种的文本,因此收集开源文本的程度很低,收集开源文本的过程不会造成成本的大量增加。
然后,基于语音识别模型(模型四)以及语言模型,对目标语种的无标注数据(数据一)添加第二伪标签,获得具有目标语种的第二伪标签的无标注数据(可称之为数据五)。在一些具体示例中,可以获取通过语音识别模型(模型四)对目标语种的无标注数据(数据一)进行语音识别获得的识别文本,并确定识别文本对应的语音识别概率;获取语言模型对识别文本进行语言识别获得的语言文本的语言识别概率,并对语音识别概率和语言识别概率进行加权求和,将加权求和后的最大值对应的语言文本作为无标注数据的第二伪标签。其中,由于语音识别模型(模型四)对无标注数据(数据一)进行语音识别时的语义信息不足,将其识别结果直接作为伪标签,会使得伪标签的质量不如标注数据,而语言模型能够从语义信息上矫正识别结果,通过加入语言模型进行语言识别,能够为端到端模型带来了更多标注数据以外的语义信息,有助于提高最终得到的识别结果的准确性。
随后,基于具有第一伪标签的无标注数据(数据三)和具有第二伪标签的无标注数据(数据五),进行筛选获得高质量的无标签数据(数据六),即基于无标注数据的第一伪标签和第二伪标签对无标注数据进行筛选,得到筛选后的无标注数据(数据六)。具体地,确定无标注数据的第一伪标签和第二伪标签之间的词错误率;若词错误率大于第一错误率阈值,则删除无标注数据,若词错误率小于或等于第一错误率阈值,则保留无标注数据以及第二伪标签。通过该处理方式,能够保留质量较高的无标注数据。基于该处理方式,能够融合初始语音识别模型(模型二)和端到端训练得到的语音识别模型(模型三)的结果,语音识别模型(模型三)结合语言模型得到的第二伪标签具有丰富的文本信息,而初始语音识别模型(模型二)是直接用标注语料得到的一手模型,其对声学的建模最为直接和准确,基于该方式筛选出的无标注数据,能够同时满足两个模型的需求,兼容了两个模型的优势。
然后,将带有真实标签的标注数据(数据二)与筛选后的具有第二伪标签的无标注数据(数据六)进行混合,并利用混合后数据替换标注数据,跳转至循环点,即使用混合后数据对初始语音识别模型(模型二)进行调整,获得目标语种的初始语音识别模型(模型三)的步骤。相比于循环点原有的少量的标注数据,由于语言模型的作用,在对初始语音识别模型(模型二)进行调整时,获得的语料文本信息也得到不断的丰富。
随后,循环执行自循环点开始的后续过程,直至达到循环结束条件。其中,可以通过得到的语音识别模型(模型三)在测试数据集上的表现确定是否跳出循环过程。例如,如果语音识别模型对测试数据集进行语音识别获得的测试识别结果满足预期测试结果,如对测试数据集进行语音识别获得的语音识别结果与测试数据集的标签的错误率小于第二错误率阈值,结束循环过程,并将此时的语音识别模型作为最终的语音识别模型。
其中,在获得最终的语音识别模型后,可将语音识别模型部署到需要进行语音识别的技术场景中。部署语音识别模型的方式不限,例如,可以将语音识别模型人工或者自动部署到需要进行对目标语种进行语音识别的场景,例如搜索、推荐、客服、语音助手、自动字幕等。也可以是将语音识别模型存储在服务器上,在终端有对目标语种进行语音识别的需求时,再从服务器下载获得该语音识别模型并部署到该终端中。
参考图7所示,本申请实施例提供一种语音识别方法,以应用于部署了基于如上所述的任一实施例中的语音识别模型的训练方法得到的语音识别模型的设备为例进行说明。其中,所述方法包括:
步骤S701:获取待识别语音数据;
待识别语音数据可以是任意场景中产生的语音数据,比如在智能客服应用场景中,待识别语音数据可以是用户通过与智能客户的对方输入的通话语音;又如,在机器人对话场景中,待识别语音数据可以是用户向聊天机器人输入的对话语音;再如,在知识图谱问答场景中,待识别语音数据可以是用户输入的问题语音等等。
其中,获取待识别语音数据的方式不限,例如可以是通过音频采集设备(如麦克风)采集得到的,也可以是经由其他设备转发的,本申请实施例对此不做限制。
步骤S702:语音识别模型对待识别语音数据进行语音识别,获得语音识别结果。
其中,语音识别模型是采用如上所述的任一实施例中的语音识别模型的训练方法训练得到的。具体训练过程可参见前述图2-图6所示的语音识别模型的训练方法实施例,此处不再赘述。
在不同场景中,语音识别结果不尽相同,比如,在智能客服应用场景中,语音识别结果可以是用户通话语音对应的文本内容;在聊天机器人应用场景中,语音识别结果可以是用户对话语音的关键词或者文本内容;再如,在知识图谱问答场景中,语音识别结果可以是用户问题语音对应的关键词或者意图等等。
在获得语音识别结果之后,可以根据语音识别结果做出与用户的互动响应,比如当语音识别结果是关键词时,可以根据关键词为用户提供推荐内容或者相应服务,再如当语音识别结果为意图时,可以根据意图为用户提供对应问题语音的答案。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音识别模型的训练方法的语音识别模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音识别模型的训练装置实施例中的具体限定,可以参见上文中对于语音识别模型的训练方法的限定,在此不再赘述。
本申请还提供一种语音识别模型的训练装置,其中,参考图7所示,一些实施例中的语音识别模型的训练装置包括获取模块701、添加模块702 和训练模块703。其中:
获取模块701,用于获取目标语种的无标注数据以及所述目标语种的标注数据;
所述获取模块701,还用于基于所述无标注数据和标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
添加模块702,用于基于所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据;
所述获取模块701,还用于对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
训练模块703,用于基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
在一些实施例中,获取模块701,还用于基于所述无标注数据对跨语种的预训练模型进行训练以学习所述目标语种的特征分布,获得目标语种预训练模型;采用所述目标语种的标注数据,对所述目标语种预训练模型进行调整,获得所述目标语种的初始语音识别模型。
在一些实施例中,所述装置还包括测试模块:
测试模块,用于语音识别模型对测试数据集进行语音识别,获得测试识别结果;
添加模块702,还用于若所述测试识别结果不满足预期测试结果,则所述语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据;所述语言模型是基于目标语种的文本训练获得;
获取模块701,还用于基于所述无标注数据的第一伪标签和第二伪标签对所述无标注数据进行筛选,得到筛选后的无标注数据;所述筛选后的无标签数据具有第二伪标签;将所述筛选后的无标注数据与所述目标语种的标注数据混合,并利用混合后数据替换标注数据;
此时,获取模块701,还用于采用替换后的目标语种的标注数据,对所述目标语种预训练模型进行调整,获得所述目标语种的初始语音识别模型。
在一些实施例中,获取模块701,还用于语音识别模型对所述目标语种的无标注数据进行语音识别获得识别文本,并确定所述识别文本对应的语音识别概率;所述语言模型对所述识别文本进行语言识别,获得所述识别文本的语言识别概率;基于所述识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签。
在一些实施例中,获取模块701,还用于针对每个无标注数据,确定所述无标注数据对应的第一伪标签和第二伪标签之间的词错误率;若所述词错误率大于第一错误率阈值,则将所述无标注数据删除。
上述语音识别模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音识别装置实施例中的具体限定,可以参见上文中对于语音识别方法的限定,在此不再赘述。
本申请还提供一种语音识别装置,其中,参考图8所示,一些实施例中的语音识别装置包括语音数据获取模块801和识别模块802。其中:
语音数据获取模块801,用于获取待识别语音数据;
识别模块802,用于语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如上所述的任一实施例中的语音识别模型的训练方法得到的。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练获得目标语种的语音识别模型过程中需要使用到的各种数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的训练方法或者语音识别方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如上所述的任一实施例中的语音识别模型的训练方法或者语音识别方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上所述的任一实施例中的语音识别模型的训练方法或者语音识别方法的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例的语音识别模型的训练方法或者语音识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特征均可以任意方式组合起来。本申请并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。
Claims (11)
1.一种语音识别模型的训练方法,其特征在于,所述方法包括:
获取目标语种的无标注数据以及所述目标语种的标注数据;
基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
通过所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据,以及对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述无标注数据和所述标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型,包括:
基于所述无标注数据对跨语种的预训练模型进行训练以学习所述目标语种的特征分布,获得目标语种预训练模型;
采用所述目标语种的标注数据,对所述目标语种预训练模型进行调整,获得所述目标语种的初始语音识别模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述语音识别模型对测试数据集进行语音识别,获得测试识别结果;
若所述测试识别结果不满足预期测试结果,则所述语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据;所述语言模型是基于目标语种的文本训练获得;
基于所述无标注数据的第一伪标签和第二伪标签对所述无标注数据进行筛选,得到筛选后的无标注数据;所述筛选后的无标签数据具有第二伪标签;
将所述筛选后的无标注数据与所述目标语种的标注数据混合,并利用混合后数据替换所述标注数据,并返回执行采用所述目标语种的标注数据,对所述目标语种预训练模型进行调整,获得所述目标语种的初始语音识别模型的步骤。
4.根据权利要求3所述的方法,其特征在于,所述语音识别模型以及语言模型为所述目标语种的无标注数据添加伪标签,获得具有第二伪标签的无标注数据,包括:
所述语音识别模型对所述目标语种的无标注数据进行语音识别获得识别文本,并确定所述识别文本对应的语音识别概率;
所述语言模型对所述识别文本进行语言识别,获得所述识别文本的语言识别概率;
基于所述识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签。
5.根据权利要求3所述的方法,其特征在于,所述基于所述识别文本对应的语音识别概率和语言识别概率,确定目标语种的无标注数据的第二伪标签,包括:
对识别文本对应的语音识别概率和语言识别概率进行加权求和;
将加权求和后的最大值对应的识别文本,作为目标语种的无标签数据的第二伪标签。
6.根据权利要求3所述的方法,其特征在于,所述基于所述无标注数据的第一伪标签和第二伪标签对所述无标注数据进行筛选,包括:
针对每个无标注数据,确定所述无标注数据对应的第一伪标签和第二伪标签之间的词错误率;
若所述词错误率大于第一错误率阈值,则将所述无标注数据删除。
7.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音数据;
语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如权利要求1至6中任意一项中所述的方法得到的。
8.一种语音识别模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取目标语种的无标注数据以及所述目标语种的标注数据;
所述获取模块,还用于基于所述无标注数据和标注数据,对跨语种的预训练模型进行调整,获得所述目标语种的初始语音识别模型;
添加模块,用于基于所述初始语音识别模型为所述无标注数据添加伪标签,获得具有第一伪标签的无标注数据;
所述获取模块,还用于对所述标注数据进行数据增广获得增广数据,并将所述具有第一伪标签的无标注数据和所述增广数据作为训练数据;
训练模块,用于基于所述训练数据对所述初始语音识别模型进行训练,获得语音识别模型。
9.一种语音识别装置,其特征在于,所述装置包括:
语音数据获取模块,用于获取待识别语音数据;
识别模块,用于语音识别模型对所述待识别语音数据进行语音识别,获得语音识别结果;其中,所述语音识别模型是采用如权利要求1至6中任意一项中所述的方法得到的。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311483688.9A CN117975942A (zh) | 2023-11-07 | 2023-11-07 | 语音识别模型的训练方法、语音识别方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311483688.9A CN117975942A (zh) | 2023-11-07 | 2023-11-07 | 语音识别模型的训练方法、语音识别方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117975942A true CN117975942A (zh) | 2024-05-03 |
Family
ID=90848444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311483688.9A Pending CN117975942A (zh) | 2023-11-07 | 2023-11-07 | 语音识别模型的训练方法、语音识别方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975942A (zh) |
-
2023
- 2023-11-07 CN CN202311483688.9A patent/CN117975942A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364146B (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN109800414A (zh) | 语病修正推荐方法及系统 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
Dinkov et al. | Predicting the leading political ideology of YouTube channels using acoustic, textual, and metadata information | |
CN111210842A (zh) | 语音质检方法、装置、终端及计算机可读存储介质 | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN110909768A (zh) | 一种标注数据获取方法及装置 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN114282513A (zh) | 文本语义相似度的匹配方法、系统、智能终端及存储介质 | |
CN111736804B (zh) | 一种基于用户评论识别App关键功能的方法及装置 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111462762A (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN117975942A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN115019295A (zh) | 模型训练方法、文本行确定方法及装置 | |
CN111159403B (zh) | 一种智能课堂感知的方法及系统 | |
CN115687910A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN114328902A (zh) | 文本标注模型构建方法和装置 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN114049885B (zh) | 标点符号识别模型构建方法和装置 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |