CN115512696A - 模拟训练方法及车辆 - Google Patents

模拟训练方法及车辆 Download PDF

Info

Publication number
CN115512696A
CN115512696A CN202211145146.6A CN202211145146A CN115512696A CN 115512696 A CN115512696 A CN 115512696A CN 202211145146 A CN202211145146 A CN 202211145146A CN 115512696 A CN115512696 A CN 115512696A
Authority
CN
China
Prior art keywords
data
target
voice data
voice
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211145146.6A
Other languages
English (en)
Inventor
王艺蒙
吕颖
高延熹
韩佳琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN202211145146.6A priority Critical patent/CN115512696A/zh
Publication of CN115512696A publication Critical patent/CN115512696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种模拟训练方法及车辆。其中,该方法包括:采集车辆环境中的第一语音数据;利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果;基于第一识别结果确定第一语音数据的分类结果;基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据;基于第一训练数据对目标语音识别模型的模型参数进行更新。本发明解决了相关技术中语音数据的识别准确率低的技术问题。

Description

模拟训练方法及车辆
技术领域
本发明涉及智能汽车领域,具体而言,涉及一种模拟训练方法及车辆。
背景技术
目前,语音识别技术迅速发展,语音识别技术被广泛地应用在各个领域。人机交互是智能驾驶领域中一个重要的部分,但是,由于语言的多样性和语音数据的复杂性,不同领域间的训练模型和数据无法通用,而且,由于驾驶环境的复杂度,对用户语音的干扰较大,导致车载语音系统无法有效识别语句,进而导致用户驾驶体验感较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种模拟训练方法及车辆,以至少解决相关技术中语音数据的识别准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种模型训练方法,包括:采集车辆环境中的第一语音数据;利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果;基于第一识别结果确定第一语音数据的分类结果,其中,分类结果用于表示第一识别结果的识别准确度或第一语音数据是否识别成功;基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据;基于第一训练数据对目标语音识别模型的模型参数进行更新。
可选地,基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据,包括:基于分类结果删除第一语音数据中的第一类型数据,得到目标语音数据,其中,第一类型数据用于表示第一语音数据中识别成功的语音数据,第一类型数据对应的识别准确度大于或等于第一预设阈值;获取目标语音数据对应的目标标签;基于目标标签对目标语音数据进行标注,生成标注结果;基于目标语音数据和标注结果生成第一训练数据。
可选地,目标语音数据包括:第二类型数据,目标标签包括:目标伪标签,获取目标语音数据对应的目标标签,包括:在目标语音数据为第二类型数据的情况下,根据第一识别结果确定第二类型数据对应的第一伪标签,其中,第二类型数据用于表示目标语音数据中识别成功的语音数据,第二类型数据对应的识别准确度小于第一预设阈值;根据第一伪标签和目标数据库中多个语音数据的第二伪标签确定目标伪标签。
可选地,目标语音数据还包括:第三类型数据,目标标签还包括:人工标签,获取目标语音数据对应的目标标签,包括:在目标语音数据为第三类型数据的情况下,获取第三类型数据对应的人工标签,其中,第三类型数据用于表示目标语音数据中未识别成功的语音数据。
可选地,根据第一伪标签和目标数据库中多个语音数据的第二伪标签确定目标伪标签,包括:比对第二类型数据和目标数据库中的多个语音数据,得到第二语音数据,其中,第二语音数据为多个语音数据中与第二类型数据相似度大于相似度阈值的数据;根据多个语音数据的第二伪标签确定第二语音数据对应的第三伪标签;获取第一伪标签对应的第一标签向量和第三伪标签对应的第二标签向量;根据第一标签向量和第二标签向量的平均值,确定目标伪标签。
可选地,基于目标标签对第二类型数据进行标注,生成标注结果,包括:在目标标签为目标伪标签,且目标语音数据为第二类型数据的情况下,获取第二类型数据的第一词向量和第二语音数据的第二词向量;根据第一词向量和第二词向量的平均值,确定第三语音数据;基于目标伪标签对第三语音数据进行标注,生成标注结果。
可选地,该方法还包括:获取第一训练数据集和第二训练数据集,其中,第一训练数据集和第二训练数据集中的样本类型不同利用第一训练数据集对第一语音识别模型进行训练,得到第二语音识别模型;基于第二训练数据集对第二语音识别模型进行微调,得到目标语音识别模型。
可选地,基于第一识别结果对第一语音数据进行分类,得到分类结果,包括:在交互界面上显示第一语音数据和第一识别结果;响应作用于交互界面上的操作指令,获取第一语音数据对应的分类结果。
可选地,该方法还包括:基于预设周期利用目标语音识别模型对目标数据库中的多个语音数据进行识别,得到的第二识别结果;基于第二识别结果更新目标数据库中的多个语音数据的第二伪标签。
根据本发明实施例的另一方面,还提供了一种模拟训练方法的处理装置,包括:获取模块,用于利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果;识别模块,用于基于第一识别结果确定第一语音数据的分类结果,其中,分类结果用于表示第一识别结果的识别准确度或第一语音数据是否识别成功;确定模块,用于基于第一识别结果确定第一语音数据的分类结果,其中,分类结果用于表示第一识别结果的识别准确度或第一语音数据是否识别成功;标注模块,用于基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据;更新模块,用于基于第一训练数据对目标语音识别模型的模型参数进行更新。
根据本发明实施例的另一方面,还提供了一种目标车辆,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器执行上述实施例中任意一项的模型训练方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的模型训练方法。
在本发明实施例中,采集车辆环境中的第一语音数据;进一步利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果;进一步基于第一识别结果确定第一语音数据的分类结果;进一步基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据;进一步基于第一训练数据对目标语音识别模型的模型参数进行更新。容易注意到的是,由于目标语音识别模型的识别精度有限,可以基于第一识别结果对第一语音数据进行分类,可以从第一语音数据中筛选出部分语音数据进行重新标注,并用于模型参数的更新,从而达到提升目标语音识别模型的识别精度,使语音识别系统准确识别用户语言的技术效果,进而解决了相关技术中语音数据的识别准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种模型训练方法的流程图;
图2是根据本发明实施例的一种可选的语音识别系统的示意图;
图3是根据本发明实施例的一种模型训练方法处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种模型训练方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种模型训练方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,采集车辆环境中的第一语音数据。
上述的车辆环境可以是车辆内部或车辆外部四周的环境。第一语音数据可以是用户与用户之间互相交流所产生的语音数据,也可以是用户对车辆发出的控制语音。
在一种可选的实施例中,当车辆启动后,在交互界面获取驾驶员和乘坐者的语音采集的允许后,主动通过车载语音系统收集用户之间交流产生的语音数据,或者驾驶者和乘坐者可以激活语音助手,利用语音助手主动收集用户之间交流所产生的语音数据。
步骤S104,利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果。
上述的目标语音识别模型可以是经过微调后得到的能够对不同地方方言进行识别的语音模型。第一识别结果可以是把获取到的用户语音数据输入到目标语音模型中,目标语音模型对用户语音数据进行识别得到识别结果。
在一种可选的实施例中,把收集到的用户语音数据输入到目标语音识别模型中,即微调后得到的针对不同地方方言的语音模型,目标语音识别模型对实时获取到的用户语音数据进行识别并返回识别结果,得到第一识别结果。
需要说明的是,本发明中涉及到的目标语音识别模型可以是Chinese-BERT(Chinese-Bidirectional Encoder Representation from Transformers,互感器的双向编码器表示)、GMM-HMM(Gaussian Mixture Model-Hidden Markov Models,高斯混合模型-隐马尔科夫模型)、DNN-HMM(Deep Neural Networks-Hidden Markov Models,深度神经网络-隐马尔科夫模型)等语音识别模型,这些语音识别模型可以对获取到的语音数据进行训练、识别。
步骤S106,基于第一识别结果确定第一语音数据的分类结果,其中,分类结果用于表示第一识别结果的识别准确或第一语音数据是否识别成功。
上述的分类结果可以分为但不仅限于:简单数据,即该语音数据可以由目标语音识别模型进行识别,且识别得到的第一识别结果准确,也即,用户对第一识别结果满意;不准确数据,即该语音数据可以由目标语音识别模型进行识别,但识别得到的第一识别结果不准确,也即,用户对第一识别结果不满意;困难数据,即该语音数据无法由目标语音识别模型进行识别。
在一种可选的实施例中,在车辆的交互界面上显示第一语音数据及第一识别结果,用户根据交互界面上显示的操作指令,对第一语音数据及第一识别结果进行判断,判断第一识别结果是否准确,进一步根据用户的判断结果对数据进行分类,从而获取第一语音数据的分类结果。
在另一种可选的实施例中,在通过目标语音识别模型识别出第一识别结果的同时,可以通过ASR(Automatic Speech Recognition,自动语音识别)等语音识别模型对第一语音数据再次进行识别,得到另外一个识别结果,通过比较两个识别结果,即可确定第一识别结果是否准确。
需要说明的是,由于车载语音系统中的语音识别模型的训练样本有限,而且无法涵盖所有语言类型、各地方言的语音数据,导致模型识别精度有限,进而无法识别到所有的语言信息,导致识别结果存在一定的误差,语音识别模型对语音数据进行识别,得到的识别结果可能与用户原来的语意不相符合,而且,目前数据库中普通话的语音数据量大,且标注数据较多,因此,目前语音模型训练样本通常采用普通话语音数据,但是,仅仅采用普通话训练出来的模型,无法服务到大众用户,导致无法准确识别到用户语音数据,进而不能让车辆操作系统做出准确的操作,从而降低用户的驾驶的体验感。
步骤S108,基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据。
由于简单数据的第一识别结果准确,为了节省模型训练时间,上述的目标语音数据可以是把第一语音数据中的简单数据删除后得到的语音数据,其中,目标语音数据可以包括但不仅限于:不准确数据和困难数据。
在一种可选的实施例中,可以根据分类结果,将简单数据删除得到目标语音数据,并通过人工标注正确标签或通过其他语音识别模型进行再次识别的方式,获取目标语音数据对应的真实识别结果,作为目标语音数据的目标标签,进而将标注了目标标签的目标语音数据作为最终的第一训练数据。其中,对于目标语音数据中的不准确数据,可以根据第一识别结果确定不准确数据对应的第一伪标签,例如,可以将不准确数据中识别准确度小于预设准确度的数据的标签确定为与第一识别结果相似度较高的数据的标签,即第一伪标签,将不准确数据与目标数据库中的多个语音数据进行比对,其中,目标数据库可以是语音系统模型中已标注好的语音数据,将目标数据库中多个语音数据中与不准确数据相似度大的数据确定为第二语音数据,并根据多个语音数据的第二伪标签确定第二语音数据对应的第三伪标签,并获取第一伪标签和第三伪标签的标签向量及两个标签向量的平均值,利用平均值确定目标伪标签,即可以提高伪标签的准确度,从而生成最终的目标标签,可以利用准确度较高的伪标签对未标记的数据进行标注,给一个近似的标签。当目标标签为目标伪标签,且目标语音数据为不准确数据时,获取第二类型数据和第二语音数据的词向量及两种词向量的平均值,根据平均值确定与平均值相对应的语音数据,并归为第三语音数据,利用目标伪标签对第三语音数据进行标注,生成标注结果,并将标注了语音数据作为第一训练数据的一部分;对于目标语音数据中的困难数据,则利用人工获取人工标签,再对语音数据进行标注,生成标注结果,进而将标注了语音数据作为第一训练数据的一部分。
需要说明的是,目标标签可以是对语音数据进行标记得到的标记结果,包括但不限于:标签和伪标签;伪标签技术是利用在已标注数据所训练的模型上,在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程,该类技术一般为半监督学习的算法,无需再手工标注不精确数据中无标签数据,只需要基于有标签数据的技术来给一个近似的标签,也即,将标签数据和新生成的伪标签数据结合起来作为新的训练数据。
另外,对当前的伪标签和之前存储的伪标签进行平均,来确定目标伪标签,可以提高伪标签的准确度。
步骤S110,基于第一训练数据对目标语音识别模型的模型参数进行更新。
在一种可选的实施例中,在生成第一训练数据之后,可以利用第一训练数据对目标语音识别模型进行再次训练,对目标语音识别模型的模型参数进行更新,提升目标语音识别模型的识别精度。不准确数据以获取时间为识别点,定期重新参与到模型的训练中,随着模型不断地训练,时间点较为靠前的数据可能会产生新的伪标签,从而可以更好的服务于模型的训练。
需要说明的是,由于模型训练需要一定时间,如果每次出现目标语音数据都重新对目标语音识别模型的模型参数进行更新,则影响目标语音识别模型的正常使用,为了减少对目标语音识别模型的影响,可以按照预先由用户设定的更新周期,对目标语音识别模型的模型参数进行更新。
通过上述步骤,可以实现采集车辆环境中的第一语音数据;进一步利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果;进一步基于第一识别结果确定第一语音数据的分类结果;进一步基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据;进一步基于第一训练数据对目标语音识别模型的模型参数进行更新。容易注意到的是,由于目标语音识别模型的识别精度有限,可以基于第一识别结果对第一语音数据进行分类,可以从第一语音数据中筛选出部分语音数据进行重新标注,并用于模型参数的更新,从而达到提升目标语音识别模型的识别精度,使语音识别系统准确识别用户语言的技术效果,进而解决了相关技术中语音数据的识别准确率低的技术问题。
在本发明上述实施例中,基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据,包括:基于分类结果删除第一语音数据中的第一类型数据,得到目标语音数据,其中,第一类型数据用于表示第一语音数据中识别成功的语音数据,第一类型数据对应的识别准确度大于或等于第一预设阈值;获取目标语音数据对应的目标标签;基于目标标签对目标语音数据进行标注,生成标注结果;基于目标语音数据和标注结果生成第一训练数据。
上述标注结果可以是用来表示语音数据类别的结果;第一类型数据可以是简单数据,即用户输入语音后可以轻松识别且返回结果准确的数据;识别准确度可以是在与语音数据比对时,对比结果的准确率;第一预设阈值可以是预先设定的识别准确度的最小值;标注结果可以是目标标签对目标语音数据进行标注得到结果,其中,标注结果可以分为标注成功、标注不成功。
具体地,基于分类结果,把第一语音数据中的简单数据删除得到仅含有不精确数据和困难数据的目标语音数据,进而通过人工标注正确标签或通过其他语音识别模型进行识别的方式,获取目标语音数据对应的正确的识别结果,从而对目标语音数据进行进一步标注得到目标语音数据的目标标签,并将标注了目标标签的目标语音数据作为最终的第一训练数据。
进一步地,目标语音数据包括:第二类型数据,目标标签包括:目标伪标签,获取目标语音数据对应的目标标签,包括:在目标语音数据为第二类型数据的情况下,根据第一识别结果确定第二类型数据对应的第一伪标签,其中,第二类型数据用于表示目标语音数据中识别成功的语音数据,第二类型数据对应的识别准确度小于第一预设阈值;根据第一伪标签和目标数据库中多个语音数据的第二伪标签确定目标伪标签。
上述的目标伪标签可以是给没有标记的语音数据进行分类标记的伪标签,也可以是第一标签向量和第二标签向量的平均值的伪标签;语音数据可以是采集到的语音数据;第二类型数据可以是不准确数据,即系统可以轻松识别出来的语音数据,给予用户返回结果后用户对识别结果不满意的数据;第一伪标签可以是对不精确数据中的未标记数据进行分类后的目标类;第二伪标签可以是目标数据库中与第一伪标签中语音数据相似度较高的语音数据的标签。
具体地,当目标语音数据为不精确数据时,为不准确数据中识别准确度小于预设准确度的数据的标签确定为与第一识别结果准确的数据相对应的标签,即第一伪标签;同时,将第一伪标签与目标数据库中标记的语音数据相比对,将与目标数据库中标记的数据相似度高的数据的标签为第一伪标签进行确定,即记录为第二伪标签,从而得到目标伪标签。
进一步地,目标语音数据还包括:第三类型数据,目标标签还包括:人工标签,获取目标语音数据对应的目标标签,包括:在目标语音数据为第三类型数据的情况下,获取第三类型数据对应的人工标签,其中,第三类型数据用于表示目标语音数据中未识别成功的语音数据。
上述的第三类型数据可以是困难数据,即系统识别无法识别出来的语音数据;人工标签可以是人工对语音数据进行标注分类得到的标签。
具体地,当该语音数据系统无法成功识别,则让专家对困难数据进行整理,对这些数据进行标注,并将标注好的数据上传到系统中,相关的工作人员再根据数据对车载语音系统进行修改和提升,从而系统可以直接获取专家人工标注好的人工标签进行训练。
需要说明的是,并不是所有的困难数据都需要专家进行人工,根据系统反馈,删掉过于模糊及语句不完整的语音数据,在剩下的困难数据中随机选取一部分让专家进行人工标注,再根据人工标注的语音数据放入模型中进行训练,再根据训练的结果与剩下为训练的困难数据相对比,相似度较高的标注相应的标签。
可选地,根据第一伪标签和目标数据库中多个语音数据的第二伪标签确定目标伪标签,包括:比对第二类型数据和目标数据库中的多个语音数据,得到第二语音数据,其中,第二语音数据为多个语音数据中与第二类型数据相似度大于相似度阈值的数据;根据多个语音数据的第二伪标签确定第二语音数据对应的第三伪标签;获取第一伪标签对应的第一标签向量和第三伪标签对应的第二标签向量;根据第一标签向量和第二标签向量的平均值,确定目标伪标签。
上述的第二语音数据可以是根据不精确数据集与目标数据库中多个语音数据进行比对,相似度较高的数据集;第三伪标签可以是第二语音数据中与第二伪标签数据相似度较高的语音数据的标签;第一标签向量可以是第一伪标签中语音数据之间的相似度;第二标签向量可以是第三伪标签中语音数据之间的相似度。
具体地,将不精确数据和目标数据库中的多个语音数据相比对,将不精确数据中相似度大于相似度阈值的数据确定为第二语音数据,并将第二语音数据与第二伪标签中的多个语音数据相比对,将与第二伪标签语音数据相似度较高的数据标签确定为第三伪标签,对第一伪标签和第三伪标签中的语音数据放入训练模型中进行相互比对,得到第一标签向量和第二标签向量,同时得到第一标签向量与第二标签向量之间的平均值,根据平均值确定与平均值相对应语音数据的标签,即确定为目标伪标签。
进一步地,基于目标标签对第二类型数据进行标注,生成标注结果,包括:在目标标签为目标伪标签,且目标语音数据为第二类型数据的情况下,获取第二类型数据的第一词向量和第二语音数据的第二词向量;根据第一词向量和第二词向量的平均值,确定第三语音数据;基于目标伪标签对第三语音数据进行标注,生成标注结果。
上述的第一词向量可以是不精确数据中词与词之间的相似度;第二词向量可以是第二语音数据中词与词之间的相似度;第三语音数据可以是根据第一词向量和第二词向量平均值的语音数据。
具体地,目标伪标签对不精确数据进行标注时,将不精确数据和第二语音数据放入监督训练模型中获取第一词向量和第二词向量,同时计算第一词向量和第二词向量的平均值,把第一词向量与第二词向量平均值对应的语音数据确定为第三语音数据,从而目标伪标签对第三语音数据进行标注得到标注结果。
可选地,该方法还包括:获取第一训练数据集和第二训练数据集,其中,第一训练数据集和第二训练数据集中的样本类型不同;利用第一训练数据集对第一语音识别模型进行训练,得到第二语音识别模型;基于第二训练数据集对第二语音识别模型进行微调,得到目标语音识别模型。
上述的第一训练数据集可以是大规模的中文语音数据;第二训练数据集可以是不同地方方言的语音数据集;第一语音识别模型可以是预训练模型;第二语音识别模型可以是微调模型。
具体地,车辆可以从车联网中下载大量中文语音数据集以及不同地方方言数据集并保存到车载语音系统中,把收集到的大量的中文数据放进预训练模型中进行训练得到微调模型,再把获得的不同地方方言数据集放入微调模型中对微调模型进行微调得到目标语音识别模型。
可选地,基于第一识别结果对第一语音数据进行分类,得到分类结果,包括:在交互界面上显示第一语音数据和第一识别结果;响应作用于交互界面上的操作指令,获取第一语音数据对应的分类结果。
上述的操作指令可以是引导用户对识别结果进行确认的指令。
具体地,在车载触摸屏上显示第一语音数据和第一识别结果,用户通过点击触摸屏的识别成功按键和识别不成功按键来对第一语音数据识别结果进行确认,从而获取分类结果;也可以通过用户的手势对识别结果进行确定,例如,用手势OK表示识别成功,用手势1表示识别失败。
需要说明的是,车辆可以在检测到用户在车辆内且没有在驱动过程时,可以提示用户是否进行语音识别结果确定,或者可以将识别结果发送至用户手机中,用户可以随时对识别结果进行确认。
可选地,该方法还包括:基于预设周期利用目标语音识别模型对目标数据库中的多个语音数据进行识别,得到的第二识别结果;基于第二识别结果更新目标数据库中的多个语音数据的第二伪标签。
上述的预设周期可以是用户预先设定的识别周期;第二识别结果可以是在周期内利用目标语音识别模型对目标数据库中的多个语音数据进行识别得到的结果。
具体地,在生成第一训练数据后,可以利用第一训练数据对目标语音识别模型进行再次训练,将不准确数据以获取时间为识别点,定期重新参与到模型的训练中,进而对目标语音识别模型中的模型参数进行更新,提升模型识别的精确度,更贴合驾驶员的语言习惯。
下面结合图2对本发明的一种优选实施例进行详细的说明,如图2所示,训练方法具体包括预训练、微调、主动学习及增量式学习,其中,车辆利用车联网下载大量的中文语音数据21及不同地方方言数据集22,把收集到的大量的中文数据放进预训练模型中进行训练得到微调模型,再把获得的不同地方方言数据集放入微调模型中对微调模型进行微调得到目标语音识别模型;主动学习模块是可以获取收集用户语音数据23的允许后,通过车载语音系统获取用户语音数据,或者在驾驶者和乘坐车激活语音助手后,通过语音助手实时收集用户语音数据,再利用车载语音识别系统中的目标语音识别模型对用户语音数据进行识别得到第一识别结果,通过交互界面显示用户语音数据及第一识别结果,用户通过交互界面上的操作指令对识别结果进行确认,从而确定分类结果,并对第一语音数据中的简单数据不再进行训练,对剩下的不精确数据及困难数据进一步训练,若目标标签对应的是不精确数据,进行伪标签标注,若目标标签对应的是困难数据,选取一部分让专家进行人工标注,得到对应的人工标签;对这些数据进行进一步训练,进而对剩下的语音数据进行标注,得到标注结果,生成第一训练数据,根据需求设定更新周期,利用第一训练数据对目标语音识别模型进行再次训练,更新目标语音识别模型中的模型参数,从而提升语音识别的精确度,其中,在训练语音识别模型的过程中,所产生的各种标注都可以用于其他任务。
实施例2
根据本发明实施例的另一方面,还提供了一种模拟训练方法的控制装置,该装置可以执行上述实施例中自动驾驶车辆的控制方法,具体实现方式和优选应用场景与上述实施例相同,在此不做赘述。
图3是根据本发明实施例的一种模拟训练方法的控制装置,如图3所示,该装置包括如下部分:获取模块30、识别模块32、确定模块34、标注模块36、更新模块38。
其中,获取模块30,用于采集车辆环境中的第一语音数据;
识别模块32,用于利用目标语音识别模型对第一语音数据进行识别,得到第一识别结果;
确定模块34,用于基于第一识别结果确定第一语音数据的分类结果,其中,分类结果用于表示第一识别结果的识别准确度或第一语音数据是否识别成功;
标注模块36,用于基于分类结果对第一语音数据中的目标语音数据进行标注,得到第一训练数据;
更新模块38,用于基于第一训练数据对目标语音识别模型的模型参数进行更新。
可选地,标注模块包括:第一获取单元,用于基于分类结果删除第一语音数据中的第一类型数据,得到目标语音数据,其中,第一类型数据用于表示第一语音数据中识别成功的语音数据,第一类型数据对应的识别准确度大于或等于第一预设阈值;第二获取单元,用于获取目标语音数据对应的目标标签;第一标注单元,用于基于目标标签对目标语音数据进行标注,生成标注结果;第一生成单元,用于基于目标语音数据和标注结果生成第一训练数据。
可选地,标注模块还包括:第一确定单元,用于在目标语音数据为第二类型数据的情况下,根据第一识别结果确定第二类型数据对应的第一伪标签,其中,第二类型数据用于表示目标语音数据中识别成功的语音数据,第二类型数据对应的识别准确度小于第一预设阈值;第二确定单元,用于根据第一伪标签和目标数据库中多个语音数据的第二伪标签确定目标伪标签;
可选地,标注模块还包括:第三获取单元,用于在目标语音数据为第三类型数据的情况下,获取第三类型数据对应的人工标签,其中,第三类型数据用于表示目标语音数据中未识别成功的语音数据。
可选地,第二确定单元包括:比对子单元,用于比对第二类型数据和目标数据库中的多个语音数据,得到第二语音数据,其中,第二语音数据为多个语音数据中与第二类型数据相似度大于相似度阈值的数据;第一确定子单元,用于根据多个语音数据的第二伪标签确定第二语音数据对应的第三伪标签;第一获取子单元,用于获取第一伪标签对应的第一标签向量和第三伪标签对应的第二标签向量;第二确定子单元,用于根据第一标签向量和第二标签向量的平均值,确定目标伪标签。
可选地,第一标注单元包括:第二获取子单元,用于在目标标签为目标伪标签,且目标语音数据为第二类型数据的情况下,获取第二类型数据的第一词向量和第二语音数据的第二词向量;第三确定子单元,用于根据第一词向量和第二词向量的平均值,确定第三语音数据;第一生成子单元,用于基于目标伪标签对第三语音数据进行标注,生成标注结果。
可选地,获取模块包括:第四获取单元,用于获取第一训练数据集和第二训练数据集,其中,第一训练数据集和第二训练数据集中的样本类型不同;训练单元,用于利用第一训练数据集对第一语音识别模型进行训练,得到第二语音识别模型;微调单元;用于基于第二训练数据集对第二语音识别模型进行微调,得到目标语音识别模型。
可选地,确定模块包括:显示单元,用于在交互界面上显示第一语音数据和第一识别结果;第五获取单元,用于响应作用于交互界面上的操作指令,获取第一语音数据对应的分类结果。
可选地,更新模块包括:识别单元,用于基于预设周期利用目标语音识别模型对目标数据库中的多个语音数据进行识别,得到的第二识别结果;更新单元,用于基于第二识别结果更新目标数据库中的多个语音数据的第二伪标签。
实施例3
根据本发明实施例的另一方面,还提供了一种目标车辆,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器执行上述实施例中任意一项的模型训练方法。
实施例4
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项模型训练方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
采集车辆环境中的第一语音数据;
利用目标语音识别模型对所述第一语音数据进行识别,得到第一识别结果;
基于所述第一识别结果确定所述第一语音数据的分类结果,其中,所述分类结果用于表示所述第一识别结果的识别准确度或所述第一语音数据是否识别成功;
基于所述分类结果对所述第一语音数据中的目标语音数据进行标注,得到第一训练数据;
基于所述第一训练数据对所述目标语音识别模型的模型参数进行更新。
2.根据权利要求1所述的方法,其特征在于,基于所述分类结果对所述第一语音数据中的目标语音数据进行标注,得到第一训练数据,包括:
基于所述分类结果删除所述第一语音数据中的第一类型数据,得到所述目标语音数据,其中,所述第一类型数据用于表示所述第一语音数据中识别成功的语音数据,所述第一类型数据对应的识别准确度大于或等于第一预设阈值;
获取所述目标语音数据对应的目标标签;
基于所述目标标签对所述目标语音数据进行标注,生成标注结果;
基于所述目标语音数据和所述标注结果生成所述第一训练数据。
3.根据权利要求2所述的方法,其特征在于,所述目标语音数据包括:第二类型数据,所述目标标签包括:目标伪标签,获取所述目标语音数据对应的目标标签,包括:
在所述目标语音数据为所述第二类型数据的情况下,根据所述第一识别结果确定所述第二类型数据对应的第一伪标签,其中,所述第二类型数据用于表示所述目标语音数据中识别成功的语音数据,所述第二类型数据对应的识别准确度小于所述第一预设阈值;
根据所述第一伪标签和目标数据库中多个语音数据的第二伪标签确定所述目标伪标签。
4.根据权利要求3所述的方法,其特征在于,所述目标语音数据还包括:第三类型数据,所述目标标签还包括:人工标签,获取所述目标语音数据对应的目标标签,包括:
在所述目标语音数据为所述第三类型数据的情况下,获取所述第三类型数据对应的人工标签,其中,所述第三类型数据用于表示所述目标语音数据中未识别成功的语音数据。
5.根据权利要求3所述的方法,其特征在于,根据所述第一伪标签和目标数据库中多个语音数据的第二伪标签确定所述目标伪标签,包括:
比对所述第二类型数据和目标数据库中的多个语音数据,得到第二语音数据,其中,所述第二语音数据为所述多个语音数据中与所述第二类型数据相似度大于相似度阈值的数据;
根据所述多个语音数据的第二伪标签确定所述第二语音数据对应的第三伪标签;
获取所述第一伪标签对应的第一标签向量和所述第三伪标签对应的第二标签向量;
根据所述第一标签向量和所述第二标签向量的平均值,确定所述目标伪标签。
6.根据权利要求5所述的方法,其特征在于,基于所述目标标签对所述第二类型数据进行标注,生成标注结果,包括:
在所述目标标签为所述目标伪标签,且所述目标语音数据为所述第二类型数据的情况下,获取所述第二类型数据的第一词向量和所述第二语音数据的第二词向量;
根据所述第一词向量和所述第二词向量的平均值,确定第三语音数据;
基于所述目标伪标签对所述第三语音数据进行标注,生成所述标注结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一训练数据集和第二训练数据集,其中,所述第一训练数据集和所述第二训练数据集中的样本类型不同;
利用第一训练数据集对第一语音识别模型进行训练,得到第二语音识别模型;
基于所述第二训练数据集对所述第二语音识别模型进行微调,得到所述目标语音识别模型。
8.根据权利要求1所述的方法,其特征在于,基于所述第一识别结果对所述第一语音数据进行分类,得到分类结果,包括:
在交互界面上显示所述第一语音数据和所述第一识别结果;
响应作用于所述交互界面上的操作指令,获取所述第一语音数据对应的所述分类结果。
9.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于预设周期利用所述目标语音识别模型对所述目标数据库中的所述多个语音数据进行识别,得到的第二识别结果;
基于所述第二识别结果更新所述目标数据库中的所述多个语音数据的所述第二伪标签。
10.一种目标车辆,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行权利要求1至9中任意一项所述的模型训练方法。
CN202211145146.6A 2022-09-20 2022-09-20 模拟训练方法及车辆 Pending CN115512696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211145146.6A CN115512696A (zh) 2022-09-20 2022-09-20 模拟训练方法及车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211145146.6A CN115512696A (zh) 2022-09-20 2022-09-20 模拟训练方法及车辆

Publications (1)

Publication Number Publication Date
CN115512696A true CN115512696A (zh) 2022-12-23

Family

ID=84503447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211145146.6A Pending CN115512696A (zh) 2022-09-20 2022-09-20 模拟训练方法及车辆

Country Status (1)

Country Link
CN (1) CN115512696A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030793A (zh) * 2023-03-30 2023-04-28 北京建筑大学 方言识别系统及其训练方法
CN117763194A (zh) * 2023-12-19 2024-03-26 知迪汽车技术(北京)有限公司 一种基于大语言模型的车载数据语音标签系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606644A (en) * 1993-07-22 1997-02-25 Lucent Technologies Inc. Minimum error rate training of combined string models
US20120221339A1 (en) * 2011-02-25 2012-08-30 Kabushiki Kaisha Toshiba Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
CN103165129A (zh) * 2011-12-13 2013-06-19 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
CN110288978A (zh) * 2018-10-25 2019-09-27 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
CN110310662A (zh) * 2019-05-21 2019-10-08 平安科技(深圳)有限公司 音节自动标注方法、装置、计算机设备及存储介质
CN112233653A (zh) * 2020-12-10 2021-01-15 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN113887643A (zh) * 2021-10-12 2022-01-04 西安交通大学 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN113887502A (zh) * 2021-10-21 2022-01-04 西安交通大学 一种通信辐射源时频特征提取与个体识别方法及系统
CN114399995A (zh) * 2022-01-20 2022-04-26 腾讯科技(深圳)有限公司 语音模型的训练方法、装置、设备及计算机可读存储介质
CN114419363A (zh) * 2021-12-23 2022-04-29 北京三快在线科技有限公司 基于无标注样本数据的目标分类模型训练方法及装置
US20220188636A1 (en) * 2020-12-14 2022-06-16 Google Llc Meta pseudo-labels
US20220229984A1 (en) * 2021-01-15 2022-07-21 Recruit Co., Ltd., Systems and methods for semi-supervised extraction of text classification information

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606644A (en) * 1993-07-22 1997-02-25 Lucent Technologies Inc. Minimum error rate training of combined string models
US20120221339A1 (en) * 2011-02-25 2012-08-30 Kabushiki Kaisha Toshiba Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
CN103165129A (zh) * 2011-12-13 2013-06-19 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
CN110288978A (zh) * 2018-10-25 2019-09-27 腾讯科技(深圳)有限公司 一种语音识别模型训练方法及装置
CN110310662A (zh) * 2019-05-21 2019-10-08 平安科技(深圳)有限公司 音节自动标注方法、装置、计算机设备及存储介质
CN112232416A (zh) * 2020-10-16 2021-01-15 浙江大学 一种基于伪标签加权的半监督学习方法
CN112233653A (zh) * 2020-12-10 2021-01-15 北京远鉴信息技术有限公司 多方言口音普通话语音识别模型训练方法、装置及设备
US20220188636A1 (en) * 2020-12-14 2022-06-16 Google Llc Meta pseudo-labels
US20220229984A1 (en) * 2021-01-15 2022-07-21 Recruit Co., Ltd., Systems and methods for semi-supervised extraction of text classification information
CN113887643A (zh) * 2021-10-12 2022-01-04 西安交通大学 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN113887502A (zh) * 2021-10-21 2022-01-04 西安交通大学 一种通信辐射源时频特征提取与个体识别方法及系统
CN114419363A (zh) * 2021-12-23 2022-04-29 北京三快在线科技有限公司 基于无标注样本数据的目标分类模型训练方法及装置
CN114399995A (zh) * 2022-01-20 2022-04-26 腾讯科技(深圳)有限公司 语音模型的训练方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄国捷;金慧;俞一彪;: "增强变分自编码器做非平行语料语音转换", 信号处理, no. 10, 25 October 2018 (2018-10-25) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030793A (zh) * 2023-03-30 2023-04-28 北京建筑大学 方言识别系统及其训练方法
CN117763194A (zh) * 2023-12-19 2024-03-26 知迪汽车技术(北京)有限公司 一种基于大语言模型的车载数据语音标签系统

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN106571140B (zh) 一种基于语音语义的电器智能控制方法及系统
CN115512696A (zh) 模拟训练方法及车辆
CN106297800B (zh) 一种自适应的语音识别的方法和设备
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN108182937A (zh) 关键词识别方法、装置、设备及存储介质
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN115440221B (zh) 一种基于云计算的车载智能语音交互方法及系统
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN113609851A (zh) 心理学上想法认知偏差的识别方法、装置及电子设备
CN114722822B (zh) 命名实体识别方法、装置、设备和计算机可读存储介质
CN109918677B (zh) 一种英文单词语义解析的方法及系统
CN113012687B (zh) 一种信息交互方法、装置及电子设备
CN110674276A (zh) 机器人自学习方法、机器人终端、装置及可读存储介质
CN111062216B (zh) 命名实体识别方法、装置、终端及可读介质
CN110362828B (zh) 网络资讯风险识别方法及系统
CN112288584A (zh) 保险报案处理方法、装置、计算机可读介质及电子设备
CN112016493A (zh) 图像描述方法、装置、电子设备及存储介质
CN109919657A (zh) 用户需求信息的获取方法、装置、存储介质及语音设备
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN115689603A (zh) 用户反馈信息收集方法、装置及用户反馈系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination