CN113488023B - 一种语种识别模型构建方法、语种识别方法 - Google Patents

一种语种识别模型构建方法、语种识别方法 Download PDF

Info

Publication number
CN113488023B
CN113488023B CN202110770019.4A CN202110770019A CN113488023B CN 113488023 B CN113488023 B CN 113488023B CN 202110770019 A CN202110770019 A CN 202110770019A CN 113488023 B CN113488023 B CN 113488023B
Authority
CN
China
Prior art keywords
model
sample
language
sample voice
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110770019.4A
Other languages
English (en)
Other versions
CN113488023A (zh
Inventor
杨军
方磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Ustc Iflytek Co ltd
Original Assignee
Hefei Ustc Iflytek Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Ustc Iflytek Co ltd filed Critical Hefei Ustc Iflytek Co ltd
Priority to CN202110770019.4A priority Critical patent/CN113488023B/zh
Publication of CN113488023A publication Critical patent/CN113488023A/zh
Application granted granted Critical
Publication of CN113488023B publication Critical patent/CN113488023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种语种识别模型构建方法、语种识别方法,先利用第一样本语音及其实际语种、第二样本语音,针对待训练教师模型和待训练学生模型进行两阶段训练,得到待使用教师模型和待使用学生模型,以使该待使用教师模型和该待使用学生模型均具有较好的语种识别性能;再根据该待使用学生模型确定语种识别模型,以使该语种识别模型也具有较好的语种识别性能;最后,借助该语种识别模型针对待识别语音进行语种识别,得到该待识别语音的预测语种。其中,因无标签训练数据能够弥补带标签训练数据中数据分布失衡的缺陷,使得基于带标签训练数据和无标签训练数据进行构建的语种识别模型具有较好的语种识别性能,如此能够提高语种识别准确性。

Description

一种语种识别模型构建方法、语种识别方法
技术领域
本申请涉及计算机技术领域,尤其涉及一种语种识别模型构建方法、语种识别方法。
背景技术
语种识别又称语种辨识,是指由机器(如,计算机等)自动判断一个语音片段所属某个语言种类(如,粤语、普通话、英语、日语等)的过程。
语种识别技术的研究最早可追溯至20世纪70年代,语种识别技术经过几十年的发展,展现了巨大的应用价值和发展潜力,以使语种识别技术的应用领域越来越广泛,例如,语种识别技术可以应用在国际会议、紧急救援等应用场景下。
然而,因相关语种识别技术存在缺陷,使得基于该相关语种识别技术进行实施的语种识别过程的识别准确性较低。
发明内容
本申请实施例的主要目的在于提供一种语种识别模型构建方法、语种识别方法,能够提高语种识别准确性。
本申请实施例提供了一种语种识别模型构建方法,所述方法包括:
获取第一样本语音、所述第一样本语音的实际语种和第二样本语音;
利用所述第一样本语音和所述第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;其中,所述待训练教师模型中模型参数的初始化参数值与所述待训练学生模型中模型参数的初始化参数值相同;
利用所述第一样本语音、所述第一样本语音的实际语种和所述第二样本语音,对所述待优化教师模型和所述待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;
根据所述待使用学生模型,确定语种识别模型。
本申请实施例还提供了一种语种识别方法,所述方法包括:
获取待识别语音;
根据所述待识别语音和预先构建的语种识别模型,确定所述待识别语音的语种识别结果;其中,所述语种识别模型是利用本申请实施例提供的语种识别模型构建方法进行构建的;
根据所述待识别语音的语种识别结果,确定所述待识别语音的预测语种。
本申请实施例还提供了一种语种识别模型构建装置,包括:
样本获取单元,用于获取第一样本语音、所述第一样本语音的实际语种和第二样本语音;
初步训练单元,用于利用所述第一样本语音和所述第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;其中,所述待训练教师模型中模型参数的初始化参数值与所述待训练学生模型中模型参数的初始化参数值相同;
二次训练单元,用于利用所述第一样本语音、所述第一样本语音的实际语种和所述第二样本语音,对所述待优化教师模型和所述待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;
模型确定单元,用于根据所述待使用学生模型,确定语种识别模型。
本申请实施例还提供了一种语种识别装置,包括:
语音获取单元,用于获取待识别语音;
语种识别单元,用于根据所述待识别语音和预先构建的语种识别模型,确定所述待识别语音的语种识别结果;其中,所述语种识别模型是利用本申请实施例提供的语种识别模型构建方法的任一实施方式进行构建的;
语种确定单元,用于根据所述待识别语音的语种识别结果,确定所述待识别语音的预测语种。
本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的语种识别模型构建方法的任一实施方式,或者执行本申请实施例提供的语种识别方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的语种识别模型构建方法的任一实施方式,或者执行本申请实施例提供的语种识别方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的语种识别模型构建方法的任一实施方式,或者执行本申请实施例提供的语种识别方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的技术方案中,先利用第一样本语音及其实际语种、第二样本语音,针对待训练教师模型和待训练学生模型进行两阶段训练,得到待使用教师模型和待使用学生模型,以使该待使用教师模型和该待使用学生模型均具有较好的语种识别性能;再根据该待使用学生模型确定语种识别模型,以使该语种识别模型也具有较好的语种识别性能;最后,借助该语种识别模型针对待识别语音进行语种识别,得到该待识别语音的预测语种。可见,因无标签训练数据(也就是,第二样本语音)能够弥补带标签训练数据(也就是,第一样本语音)中数据分布失衡的缺陷,使得基于带标签训练数据和无标签训练数据进行构建的语种识别模型具有较好的语种识别性能,从而使得借助该语种识别模型确定出的待识别语音的预测语种更准确,如此能够提高语种识别准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为为本申请实施例提供的一种语种识别模型构建方法的流程图;
图2为本申请实施例提供的一种语种识别方法的流程图;
图3为本申请实施例提供的一种语种识别模型构建装置的结构示意图;
图4为本申请实施例提供的一种语种识别装置的结构示意图。
具体实施方式
发明人针对语种识别技术的研究中发现,在一些相关语种识别技术(如,全变量(TotalVarbility,TV)语种识别系统)中,为了保证各个语种的识别准确性,必须使用数据分布均衡的训练数据进行模型训练。其中,上述“数据分布均衡”是指每个语种下的训练数据量基本保持一致。然而,对于这些相关语种识别技术来说,一旦使用数据分布失衡的训练数据进行模型训练,易导致具有较少数据量的语种的识别准确性急剧下降,甚至无法识别出那些具有较少数据量的语种。
基于上述发现,为了解决背景技术部分的技术问题,本申请实施例提供了一种语种识别模型构建方法,该方法包括:获取第一样本语音、该第一样本语音的实际语种和第二样本语音;利用该第一样本语音和该第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;利用该第一样本语音、该第一样本语音的实际语种和该第二样本语音,对该待优化教师模型和该待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;根据该待使用学生模型,确定语种识别模型。其中,待训练教师模型中模型参数的初始化参数值与待训练学生模型中模型参数的初始化参数值相同。
可见,因无标签训练数据(也就是,第二样本语音)能够弥补带标签训练数据(也就是,第一样本语音)中数据分布失衡的缺陷,使得基于带标签训练数据和无标签训练数据进行构建的语种识别模型具有较好的语种识别性能,从而使得借助该语种识别模型确定出的待识别语音的预测语种更准确,如此能够提高语种识别准确性。
另外,本申请实施例不限定语种识别模型构建方法的执行主体,例如,本申请实施例提供的语种识别模型构建方法可以应用于终端设备或服务器等数据处理设备。同样,本申请实施例也不限定语种识别方法的执行主体,例如,本申请实施例提供的语种识别方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请技术方案,下面先介绍语种识别模型的构建过程(也就是,语种识别模型构建方法),再介绍该语种识别模型的应用过程(也就是,语种识别方法)。
方法实施例一
参见图1,该图为本申请实施例提供的一种语种识别模型构建方法的流程图。
本申请实施例提供的语种识别模型构建方法,包括S101-S104:
S101:获取N个第一样本语音、该N个第一样本语音的实际语种和K个第二样本语音。
其中,第一样本语音用于代表带标签训练数据,而且该第一样本语音的实际语种用于代表该第一样本语音的标签信息。
本申请实施例不限定N个第一样本语音,例如,该N个第一样本语音可以包括第1个语种下的G1个语音数据、第2个语种下的G2个语音数据、第3个语种下的G3个语音数据、……、以及第D个语种下的GD个语音数据。其中,N=G1+G2+G3+……+GD;D为正整数,D表示语种个数。需要说明的是,本申请实施例不限定G1、G2、G3、……、GD,例如,在G1、G2、G3、……、GD中可以存在至少一个值很小的数据(也就是,语种识别模型对应的带标签训练数据中可以存在数据分布失衡的缺陷)。
第一样本语音的实际语种用于描述该第一样本语音的发音者在录制该第一样本语音时所使用的语种信息。另外,本申请实施例不限定第一样本语音的实际语种的表示方式,例如,可以利用向量的方式进行表示,而且该向量可以包括第一样本语音归属于各个语种的真实概率。
第二样本语音用于代表无标签训练数据;而且本申请实施例不限定第二样本语音所属语种类型。
本申请实施例不限定K个第二样本语音,例如,该K个第二样本语音可以包括第1个语种下的E1个语音数据、第2个语种下的E2个语音数据、第3个语种下的E3个语音数据、……、以及第D个语种下的ED个语音数据中的至少一个。其中,E1、E2、E3、……ED均不超过K;D为正整数,D表示语种个数。
另外,当N个第一样本语音中存在数据分布失衡的缺陷时,为了提高K个第二样本语音针对该N个第一样本语音中数据分布失衡的弥补效果,可以控制无标签训练数据至少包括大量归属于小类语种的语音数据。其中,小类语种是指在N个第一样本语音中占有极少量语音数据的语种。例如,若在N个第一样本语音中归属于第d个语种下语音数据较少(也就是,Gd比较小),则K个第二样本语音可以至少包括大量归属于第d个语种的语音数据(也就是,Ed比较大)。其中,d为正整数,d≤D。
可见,K个第二样本语音可以根据N个第一样本语音针对各个语种的归属信息进行确定,以使该K个第二样本语音能够更好地弥补N个第一样本语音中数据分布失衡的缺陷,如此使得基于N个第一样本语音以及K个第二样本语音进行构建的语种识别模型能够有效地避免受到因带标签训练数据中存在数据分布失衡而造成的不良影响,如此有利于提高语种识别模型的语种识别性能。
S102:利用N个第一样本语音和该N个第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型。
其中,待训练教师模型的网络结构和待训练学生模型的网络结构保持一致,而且本申请实施例不限定待训练教师模型的网络结构和待训练学生模型的网络结构,例如,待训练教师模型和待训练学生模型均可以采用现有的或者未来出现的任一种卷积神经网络(如,残差网络(Residual Network,ResNet))结构进行实施。
另外,待训练教师模型中模型参数与待训练学生模型中模型参数也保持一致;而且本申请实施例不限定待训练教师模型中模型参数和待训练学生模型中模型参数。
此外,待训练教师模型中模型参数的初始化参数值与待训练学生模型中模型参数的初始化参数值相同;而且本申请实施例不限定待训练教师模型中模型参数的初始化过程以及待训练学生模型中模型参数的初始化过程,例如,其具体可以包括:先对待训练教师模型中模型参数进行初始化处理,得到待训练教师模型中模型参数的初始化参数值;再利用该待训练教师模型中模型参数的初始化参数值,对待训练学生模型中模型参数进行初始化处理,得到该待训练学生模型中模型参数的初始化参数值,以使该待训练学生模型中模型参数的初始化参数值与待训练教师模型中模型参数的初始化参数值保持一致。
另外,本申请实施例不限定S102的实施方式,例如,在一种可能的实施方式中,S102具体可以包括S1021-S1024:
S1021:根据N个第一样本语音和待训练教师模型,确定该N个第一样本语音的第一语种识别结果。
其中,第n个第一样本语音的第一语种识别结果是由待训练教师模型针对该第n个第一样本语音进行语种识别得到的。n为正整数,n≤N,N为正整数,N表示第一样本语音的个数。
另外,本申请实施例不限定S1021的实施方式,例如,S1021具体可以包括:将第n个第一样本语音输入待训练教师模型,得到该待训练教师模型输出的该n个第一样本语音的第一语种识别结果。其中,n为正整数,n≤N,N为正整数,N表示第一样本语音的个数。又如,S1021具体可以包括:先对第n个第一样本语音进行语音特征提取,得到该第n个第一样本语音的特征数据;再将第n个第一样本语音的特征数据输入待训练教师模型,得到该待训练教师模型输出的该n个第一样本语音的第一语种识别结果。
需要说明的是,本申请实施例不限定“语音特征提取”的实施方式,可以采用现有的或者未来出现的任一种能够针对语音数据进行特征提取的方法(如,滑动差分倒谱参数(Shifted Delta Cepstra,SDC)特征提取方法)进行实施。
S1022:判断是否达到第一停止条件,若是,则执行S1024;若否,则执行S1023。
其中,第一停止条件可以预先设定,而且本申请实施例不限定第一停止条件,例如,该第一停止条件可以是利用N个第一样本语音针对待训练教师模型(和/或待训练学生模型模型)已完成的更新次数达到预先设定的第一次数阈值(例如,该第一次数阈值可以是9)。
S1023:根据N个第一样本语音的第一语种识别结果与该N个第一样本语音的实际语种,更新待训练教师模型和待训练学生模型,并返回执行S1021。
本申请实施例不限定S1023的实施方式,例如,在一种可能的实施方式中,S1023具体可以包括步骤11-步骤12:
步骤11:根据N个第一样本语音的第一语种识别结果与该N个第一样本语音的实际语种,更新待训练教师模型。
本申请实施例不限定步骤11的实施方式,例如,在一种可能的实施方式中,步骤11具体可以包括步骤111-步骤113:
步骤111:将第n个第一样本语音的第一语种识别结果与该第n个第一样本语音的实际语种之间的交叉熵(Cross Entropy,CE),确定为该第n个第一样本语音对应的第一识别损失值。其中,n为正整数,n≤N,N为正整数,N表示第一样本语音的个数。
步骤112:将第1个第一样本语音对应的第一识别损失值至第N个第一样本语音对应的第一识别损失值进行加和,得到待训练教师模型的模型损失值。
步骤113:根据待训练教师模型的模型损失值,更新该待训练教师模型。
需要说明的是,本申请实施例不限定步骤113的实施方式。
基于上述步骤11的相关内容可知,在获取到N个第一样本语音的第一语种识别结果之后,可以依据该N个第一样本语音的第一语种识别结果与该N个第一样本语音的实际语种之间的差异性,更新待训练教师模型,以使更新后的待训练教师模型具有更好的语种识别性能。
步骤12:根据待训练教师模型和第一预设参数,更新待训练学生模型。
其中,第一预设参数可以预先设定。另外,为了进一步提高语种识别模型的语种识别性能,第一预设参数可以根据上文“利用N个第一样本语音针对待训练教师模型(和/或待训练学生模型模型)已完成的更新次数”进行确定(如公式(1)所示)。
Figure GDA0003200607500000061
式中,α表示第一预设参数;Number1-N表示利用N个第一样本语音针对待训练教师模型(和/或待训练学生模型模型)已完成的更新次数;γ1表示预先设定的第一次数阈值,而且γ1<上文“第一次数阈值”。需要说明的是,本申请实施例不限定γ1,例如,若上文“第一次数阈值”为9,则γ1=4。
此外,本申请实施例不限定步骤12的实施方式,例如,在一种可能的实施方式中,若待训练教师模型和待训练学生模型均包括Y个模型参数,则步骤12具体可以包括步骤121-步骤122:
步骤121:根据第一预设参数,确定待训练教师模型中第y个模型参数对应的加权权重和待训练学生模型中第y个模型参数对应的加权权重。其中,y为正整数,y≤Y,Y为正整数,Y表示模型参数个数。
本申请实施例中,在获取到第一预设参数之后,可以依据该第一预设参数,分别确定待训练教师模型中第y个模型参数对应的加权权重和待训练学生模型中第y个模型参数对应的加权权重;而且该确定过程具体可以包括:将该第一预设参数(也就是,α)确定为待训练学生模型中第y个模型参数对应的加权权重,并将1与该第一预设参数之间的差值(也就是,1-α),确定为待训练教师模型中第y个模型参数对应的加权权重。其中,y为正整数,y≤Y,Y为正整数,Y表示模型参数个数。
步骤122:按照待训练教师模型中第y个模型参数对应的加权权重和待训练学生模型中第y个模型参数对应的加权权重,对该待训练教师模型中第y个模型参数的当前值与该待训练学生模型中第y个模型参数的当前值进行加权求和,得到该待训练学生模型中第y个模型参数的更新值(如公式(2)所示)。其中,y为正整数,y≤Y,Y为正整数,Y表示模型参数个数。
Figure GDA0003200607500000071
式中,
Figure GDA0003200607500000072
表示待训练学生模型中第y个模型参数的更新值;
Figure GDA0003200607500000073
表示待训练学生模型中第y个模型参数的当前值(也就是,在执行步骤122之前该待训练学生模型中第y个模型参数的参数值);
Figure GDA0003200607500000074
表示待训练教师模型中第y个模型参数的当前值(也就是,在执行完步骤121之后该待训练教师模型中第y个模型参数的参数值);α是指待训练学生模型中第y个模型参数对应的加权权重;1-α是指待训练教师模型中第y个模型参数对应的加权权重;t+1、t均表示利用N个第一样本语音训练待训练教师模型(和/或待训练学生模型模型)的训练轮数标识。
基于上述步骤11至步骤12的相关内容可知,在获取到N个第一样本语音的第一语种识别结果之后,可以先依据该N个第一样本语音的第一语种识别结果与该N个第一样本语音的实际语种之间的差异性,更新待训练教师模型,得到更新后的待训练教师模型;再利用更新后的待训练教师模型以及第一预设参数,更新待训练学生模型,得到更新后的待训练学生模型,如此使得最终得到的学生模型(也就是,下文“待使用学生模型”)能够集成多代教师模型的优点,从而使得最终得到的学生模型(也就是,下文“待使用学生模型”)具有更强的鲁棒性。
基于上述S1023的相关内容可知,在确定没有达到第一停止条件之后,可以根据N个第一样本语音的第一语种识别结果与该N个第一样本语音的实际语种,更新待训练教师模型和待训练学生模型,以使该更新后的待训练教师模型以及更新后的待训练学生模型具有更好的语种识别性能,并返回继续执行S1021及其后续步骤。
S1024:根据待训练教师模型确定待优化教师模型,并根据待训练学生模型确定待优化学生模型。
本申请实施例中,在确定达到第一停止条件之后,可以根据待训练教师模型和待训练学生模型,分别确定待优化教师模型和待优化学生模型(例如,直接将待训练教师模型确定为待优化教师模型,并直接将待训练学生模型确定为待优化学生模型),以使该待优化教师模型和待优化学生模型均具有较好的语种识别性能。
基于上述S1021至S1024的相关内容可知,在获取到N个第一样本语音和该N个第一样本语音的实际语种之后,可以利用该N个第一样本语音及其实际语种,针对待训练教师模型和待训练学生模型进行多轮训练,得到待优化教师模型和待优化学生模型,以使该待优化教师模型和待优化学生模型均具有较好的语种识别性能。
另外,为了进一步提高模型训练效率,可以将利用N个第一样本语音进行的一轮训练过程拆分成多次子训练过程,以实现在上述“利用N个第一样本语音进行的一轮训练过程”中进行多次模型更新。其中,上述“利用N个第一样本语音进行的一轮训练过程”是指使用N个第一样本语音对待训练教师模型(和/或待训练学生模型模型)进行的一次训练过程(例如,执行一次S1021和S1023)。
基于此,本申请实施例还提供了S102的另一种可能的实施方式,其具体可以包括步骤21-步骤28:
步骤21:将N个第一样本语音进行分批处理,得到M批第一样本语音。其中,N为正整数,M为正整数。
其中,M批第一样本语音中各批第一样本语音均包括至少一个第一样本语音。另外,M批第一样本语音中不同批第一样本语音之间可以不存在交集,而且该M批第一样本语音中所有批第一样本语音之间的并集可以是该M批第一样本语音。
需要说明的是,本申请实施例不限定“分批处理”的实施方式,可以采用现有的或者未来出现的任一种能够将训练数据进行批次划分的方法进行实施。
步骤22:根据第m批第一样本语音和待训练教师模型,确定该第m批第一样本语音的第一语种识别结果。其中,m的初始化参数值为1。
需要说明的是,步骤22可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“N个第一样本语音”替换为“第m批第一样本语音”即可。
基于上述步骤22的相关内容可知,在获取到第m批第一样本语音(如,第1批第一样本语音、……、或者第M批第一样本语音)之后,可以利用待训练教师模型对该第m批第一样本语音进行并行语种识别处理,得到该第m批第一样本语音的第一语种识别结果,以使该第m批第一样本语音的第一语种识别结果包括该第m批第一样本语音中各个语音数据的第一语种识别结果。
步骤23:根据第m批第一样本语音的第一语种识别结果和该第m批第一样本语音的实际语种,更新待训练教师模型和待训练学生模型。
需要说明的是,步骤23中更新过程可以采用上文S1023中更新过程的任一实施方式进行实施,只需将上文S1023中更新过程的任一实施方式中“N个第一样本语音”替换为“第m批第一样本语音”即可。
基于上述步骤23的相关内容可知,在获取到第m批第一样本语音的第一语种识别结果之后,可以依据该第m批第一样本语音的第一语种识别结果与该第m批第一样本语音的实际语种之间的差异性,对待训练教师模型以及待训练学生模型进行更新,以使更新后的待训练教师模型以及待训练学生模型具有更好的语种识别性能。
步骤24:更新m。
本申请实施例不限定步骤24中参数“m”的更新过程,例如,在一种可能的实施方式中,参数“m”的更新过程具体可以为:按照预设更新规则,对参数“m”进行更新。其中,预设更新规则可以预先设定,例如,预设更新规则可以是将参数“m”的参数值进行加一操作(如公式(3)所示)。
m′=m+1 (3)
式中,m′表示参数“m”更新后的参数值;m表示参数“m”更新前的参数值。
基于上述步骤24的相关内容可知,在利用第m批第一样本语音的第一语种识别结果与该第m批第一样本语音的实际语种之间的差异性,对待训练教师模型以及待训练学生模型进行更新之后,可以对参数“m”进行参数值更新,以便后续能够基于参数“m”的更新后的参数值,确定出在下一轮针对待训练教师模型(和/或待训练学生模型)的子训练过程中所需使用的训练数据的批次标识。
需要说明的是,上文“针对待训练教师模型(和/或待训练学生模型)的子训练过程”是指利用一批次第一样本语音对待训练教师模型(和/或待训练学生模型)进行的一次训练过程(例如,执行一次步骤22-步骤24)。
步骤25:判断M批第一样本语音是否均被遍历一次,若是,则执行步骤26;若否,则返回执行步骤22。
本申请实施例中,在利用第m批第一样本语音的第一语种识别结果与该第m批第一样本语音的实际语种之间的差异性,对待训练教师模型以及待训练学生模型进行更新之后,可以判断M批第一样本语音中所有批次的语音数据是否均参与过当前轮针对待训练教师模型(和/或待训练学生模型)的全数据训练过程,若是,则表示已经完成当前轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”,故可以重置参数“m”以及各批第一样本语音对应的遍历标记,以便后续能够开始执行下一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”;若否,则表示仍未完成当前轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”,故可以返回步骤22继续利用下一批第一样本语音进行下一轮“针对待训练教师模型(和/或待训练学生模型)的子训练过程”。
需要说明的是,上文“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”是指使用N个第一样本语音中全部语音数据对待训练教师模型(和/或待训练学生模型模型)进行的一次训练过程(例如,执行一次S1021和S1023)。
步骤26:判断是否达到第一停止条件,若是,则执行步骤28;若否,则执行步骤27。
需要说明的是,步骤26中“第一停止条件”的相关内容请参见上文S1022中“第一停止条件”的相关内容。
步骤27:重置m=1,清除M批第一样本语音的被遍历记录,并返回执行步骤22。
本申请实施例中,在确定没有达到第一停止条件之后,确定可以开始执行下一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”,此时,为了避免因在当前轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”中产生的过程数据对下一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”造成不良影响,可以先进行参数重置处理(例如,将参数“m”的参数值以及M批第一样本语音的被遍历记录均进行参数重置处理,以使重置后的参数“m”的参数值以及重置后的M批第一样本语音的被遍历记录均恢复至初始化状态);再返回执行步骤22及其后续步骤。
步骤28:根据待训练教师模型确定待优化教师模型,并根据待训练学生模型确定待优化学生模型。
需要说明的是,步骤28的相关内容请参见上文S1024的相关内容。
基于上述步骤21至步骤28的相关内容可知,在获取到N个第一样本语音之后,可以先将该N个第一样本语音划分成M批第一样本语音;再按照第一样本语音的批次划分,将每一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”均拆分成多轮“针对待训练教师模型(和/或待训练学生模型)的子训练过程”,以实现在每一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”中均针对待训练教师模型以及待训练学生模型进行多次更新的目的,如此有利于提高待训练教师模型以及待训练学生模型的训练效率,从而有利于提高语种识别模型的训练效率。
另外,对于每一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”来说,为了便于清楚地获知哪个批次第一样本语音已被用于训练待训练教师模型以及待训练学生模型,以及哪个批次第一样本语音仍未被用于训练待训练教师模型以及待训练学生模型,本申请实施例还提供了S102的又一种可能的实施方式,在该实施方式中,S102除了包括上述步骤21-步骤28以外,可以还包括步骤29:
步骤29:将第m批第一样本语音的第一遍历标记更新为已遍历。
其中,第一遍历标记用于表示一个语音数据(如,第一样本语音)是否已经参与了当前轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”;而且,若一个语音数据的第一遍历标记为已遍历,则表示该语音数据已经参与了当前轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”;若一个语音数据的第一遍历标记为未遍历,则表示该语音数据仍未参与当前轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”。
另外,步骤29可以在步骤23至步骤24之间进行执行,也就是,步骤29的执行时间段可以为开集时间段(步骤23的执行完成时间点,步骤24的开始执行时间段)。
此外,在该实施方式中,步骤27具体可以为:重置m=1,重置M批第一样本语音的第一遍历标记均为未遍历,并返回执行步骤22。需要说明的是,第一遍历标记的初始化参数值均是未遍历。
基于上述步骤29和步骤27的相关内容可知,对于每一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”来说,均可以借助“第一遍历标记”来记录哪一批第一样本语音已参与该训练过程,哪一批第一样本语音仍未参与该训练过程,如此能够保证M批第一样本语音均能够参与到每一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”,如此能够有效地避免训练数据的遗漏。
基于上述S102的相关内容可知,在获取到N个第一样本语音及其实际语种之后,可以借助该N个第一样本语音及其实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型,以使该待优化教师模型和待优化学生模型均具有较好的语种识别性能。
S103:利用N个第一样本语音、该N个第一样本语音的实际语种和K个第二样本语音,对待优化教师模型和待优化学生模型进行训练,得到待使用教师模型和待使用学生模型。
本申请实施例不限定S103的实施方式,例如,在一种可能的实施方式中,S103具体可以包括S1031-S1034:
S1031:根据N个第一样本语音、K个第二样本语音、待优化教师模型和待优化学生模型,确定该N个第一样本语音的第二语种识别结果、该K个第二样本语音的第三语种识别结果、和该K个第二样本语音的第四语种识别结果。
其中,第n个第一样本语音的第二语种识别结果是由待优化教师模型针对该第n个第一样本语音进行语种识别得到的。n为正整数,n≤N,N为正整数,N表示第一样本语音的个数。
第k个第二样本语音的第三语种识别结果是由待优化教师模型针对该第k个第二样本语音进行语种识别得到的。k为正整数,k≤K,K为正整数,K表示第二样本语音的个数。
第k个第二样本语音的第四语种识别结果是由待优化学生模型针对该第k个第二样本语音进行语种识别得到的。k为正整数,k≤K,K为正整数,K表示第二样本语音的个数。
另外,本申请实施例不限定S1031的实施方式,其具体可以包括S10311-S10313:
S10311:根据N个第一样本语音和待优化教师模型,确定该N个第一样本语音的第二语种识别结果。
需要说明的是,S10311可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“待训练教师模型”替换为“待优化教师模型”、以及“第一语种识别结果”替换为“第二语种识别结果”即可。
S10312:根据K个第二样本语音和待优化教师模型,确定该K个第二样本语音的第三语种识别结果。
需要说明的是,S10312可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“N”替换成“K”、“第一样本语音”替换成“第二样本语音”、“待训练教师模型”替换为“待优化教师模型”、以及“第一语种识别结果”替换为“第三语种识别结果”即可。
S10313:根据K个第二样本语音和待优化学生模型,确定该K个第二样本语音的第四语种识别结果。
需要说明的是,S10313可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“N”替换成“K”、“第一样本语音”替换成“第二样本语音”、“待训练教师模型”替换为“待优化学生模型”、以及“第一语种识别结果”替换为“第四语种识别结果”即可。
基于上述S1031的相关内容可知,在获取到待优化教师模型和待优化学生模型之后,可以利用该待优化教师模型和/或该待优化学生模型针对N个第一样本语音以及K个第二样本语音进行语种识别处理,得到该N个第一样本语音的第二语种识别结果、该K个第二样本语音的第三语种识别结果、和该K个第二样本语音的第四语种识别结果。
S1032:判断是否达到第二停止条件,若是,则执行S1034;若否,则执行S1033。
其中,第二停止条件可以预先设定,而且本申请实施例不限定第二停止条件,例如,第二停止条件可以是利用N个第一样本语音以及K个第二样本语音针对待优化教师模型(和/或待优化学生模型模型)已完成的更新次数达到预先设定的第二次数阈值。又如,该第二停止条件可以是待优化教师模型的模型损失值的变化率低于预设变化率阈值(也就是,待优化教师模型的语种识别性能达到稳定)。需要说明的是,“待优化教师模型的模型损失值”的相关内容请参见下文步骤311-步骤313。
S1033:根据N个第一样本语音的第二语种识别结果、该N个第一样本语音的实际语种、K个第二样本语音的第三语种识别结果和该K个第二样本语音的第四语种识别结果,更新待优化教师模型和待优化学生模型,并返回执行S1031。
本申请实施例不限定S1033的实施方式,例如,在一种可能的实施方式中,S1033具体可以包括步骤31-步骤32:
步骤31:根据N个第一样本语音的第二语种识别结果、该N个第一样本语音的实际语种、K个第二样本语音的第三语种识别结果和该K个第二样本语音的第四语种识别结果,更新待优化教师模型。
作为示例,步骤31具体可以包括步骤311-步骤314:
步骤311:根据N个第一样本语音的第二语种识别结果与该N个第一样本语音的实际语种之间的交叉熵,确定带标签样本识别损失值。
其中,带标签样本识别损失值用于表示待优化教师模型针对带标签训练数据的语种识别性能。
另外,本申请实施例不限定步骤311的实施方式,例如,步骤311具体可以包括步骤3111-步骤3112:
步骤3111:将第n个第一样本语音的第二语种识别结果与该第n个第一样本语音的实际语种之间的交叉熵,确定为该第n个第一样本语音对应的第二识别损失值。其中,n为正整数,n≤N,N为正整数,N表示第一样本语音的个数。
步骤3112:将第1个第一样本语音对应的第二识别损失值至第N个第一样本语音对应的第二识别损失值进行加和,得到带标签样本识别损失值(如公式(4)所示)。
Figure GDA0003200607500000121
式中,losslabel表示带标签样本识别损失值;
Figure GDA0003200607500000122
表示第n个第一样本语音的第二语种识别结果;
Figure GDA0003200607500000123
表示第n个第一样本语音的实际语种;CE(·)表示交叉熵计算函数;n为正整数,n≤N,N为正整数,N表示第一样本语音的个数。
基于上述步骤311的相关内容可知,在获取到N个第一样本语音的第二语种识别结果之后,可以利用该N个第一样本语音的第二语种识别结果与该N个第一样本语音的实际语种之间的交叉熵,确定带标签样本识别损失值,以使该带标签样本识别损失值能够准确地表示出待优化教师模型针对带标签训练数据的语种识别性能。
步骤312:根据K个第二样本语音的第三语种识别结果与该K个第二样本语音的第四语种识别结果之间的最小均方误差,确定无标签样本识别损失值。
其中,无标签样本识别损失值用于表示待优化教师模型针对无标签训练数据的语种识别性能。
另外,本申请实施例不限定步骤312的实施方式,例如,步骤312具体可以包括步骤3121-步骤3123:
步骤3121:根据第k个第二样本语音的第三语种识别结果和/或该第k个第二样本语音的第四语种识别结果,确定该第k个第二样本语音对应的加权权重。其中,k为正整数,k≤K,K为正整数。
为了便于理解,下面结合三个示例进行说明。
示例1,步骤3121具体可以包括:根据第k个第二样本语音的第三语种识别结果,确定该第k个第二样本语音对应的加权权重。其中,k为正整数,k≤K,K为正整数。
本申请实施例不限定示例1的实施方式,例如,示例1可以采用公式(5)-(6)进行实施。
Figure GDA0003200607500000131
Figure GDA0003200607500000132
式中,wk表示第k个第二样本语音对应的加权权重;
Figure GDA0003200607500000133
表示第k个第二样本语音的第三语种识别结果中最大识别概率值;
Figure GDA0003200607500000134
表示第k个第二样本语音的第三语种识别结果中最大识别概率值对应的语种;
Figure GDA0003200607500000135
表示第k个第二样本语音的第三语种识别结果中最大识别概率值对应的语种为Lscore(也就是,该第k个第二样本语音的第三语种识别结果表示该第k个第二样本语音最有可能是按照语种Lmax进行录制的);Lmax表示在N个第一样本语音的实际语种中出现次数最高的语种(也就是,大类语种);
Figure GDA0003200607500000136
Figure GDA0003200607500000137
表示第k个第二样本语音的第三语种识别结果中最大识别概率值对应的语种不是Lscore(也就是,该第k个第二样本语音的第三语种识别结果表示该第k个第二样本语音最有可能是按照除了语种Lmax以外的其他语种进行录制的)。
示例2,步骤3121具体可以包括:根据第k个第二样本语音的第四语种识别结果,确定该第k个第二样本语音对应的加权权重。其中,k为正整数,k≤K,K为正整数。
本申请实施例不限定示例2的实施方式,例如,示例2可以采用公式(7)-(8)进行实施。
Figure GDA0003200607500000138
Figure GDA0003200607500000139
式中,wk表示第k个第二样本语音对应的加权权重;
Figure GDA00032006075000001310
表示第k个第二样本语音的第四语种识别结果中最大识别概率值;
Figure GDA00032006075000001311
表示第k个第二样本语音的第四语种识别结果中最大识别概率值对应的语种;
Figure GDA00032006075000001312
表示第k个第二样本语音的第四语种识别结果中最大识别概率值对应的语种为Lscore(也就是,该第k个第二样本语音的第四语种识别结果表示该第k个第二样本语音最有可能是按照语种Lmax进行录制的);Lmax表示在N个第一样本语音的实际语种中出现次数最高的语种;
Figure GDA00032006075000001313
表示第k个第二样本语音的第四语种识别结果中最大识别概率值对应的语种不是Lscore(也就是,该第k个第二样本语音的第四语种识别结果表示该第k个第二样本语音最有可能是按照除了语种Lmax以外的其他语种进行录制的)。
示例3,步骤3121具体可以包括步骤31211-步骤31213:
步骤31211:根据第k个第二样本语音的第三语种识别结果,确定该第k个第二样本语音对应的第一权重。其中,k为正整数,k≤K,K为正整数。
需要说明的是,步骤31211的相关内容请参见上文示例1,只需将上文示例1中“加权权重”替换为“第一权重”即可。
步骤31212:根据第k个第二样本语音的第四语种识别结果,确定该第k个第二样本语音对应的第二权重。其中,k为正整数,k≤K,K为正整数。
需要说明的是,步骤31212的相关内容请参见上文示例2,只需将上文示例2中“加权权重”替换为“第二权重”即可。
步骤31213:将第k个第二样本语音对应的第一权重与第k个第二样本语音对应的第二权重中最小值(或者,最大值),确定为该第k个第二样本语音对应的加权权重。其中,k为正整数,k≤K,K为正整数。
基于上述步骤3121的相关内容可知,在获取到第k个第二样本语音的第三语种识别结果以及第四语种识别结果之后,可以依据该第k个第二样本语音的第三语种识别结果和/或第四语种识别结果,计算该第k个第二样本语音的加权权重,以使该第k个第二样本语音的加权权重能够表示出该第k个第二样本语音对待优化教师模型的语种识别性能评估所产生影响程度,从而使得本申请实施例可以通过控制该第k个第二样本语音的加权权重的方式控制属于大类语种(和/或)的无标签训练数据对模型训练过程造成的影响,从而能够实现降低属于大类语种的无标签训练数据对模型训练过程造成的影响,并增强属于小类语种的无标签训练数据对模型训练过程造成的影响,如此能够有效地弥补带标签训练数据(也就是,第一样本语音)中数据分布失衡的缺陷。
步骤3122:将第k个第二样本语音的第三语种识别结果与该第k个第二样本语音的第四语种识别结果之间的最小均方误差,确定为该第k个第二样本语音对应的损失值。其中,k为正整数,k≤K,K为正整数。
步骤3123:按照第1个第二样本语音对应的加权权重至第K个第二样本语音对应的加权权重,对第1个第二样本语音对应的损失值至第K个第二样本语音对应的损失值进行加权求和,得到无标签样本识别损失值(如公式(9)所示)。
Figure GDA0003200607500000141
式中,lossunlabel表示无标签样本识别损失值;wk表示第k个第二样本语音对应的加权权重;
Figure GDA0003200607500000142
表示第k个第二样本语音的第三语种识别结果;
Figure GDA0003200607500000143
表示第k个第二样本语音的第四语种识别结果;MSE(·)表示最小均方误差计算函数;k为正整数,k≤K,K为正整数。
基于上述步骤步骤3121至步骤3123的相关内容可知,在获取到K个第二样本语音的第三语种识别结果以及第四语种识别结果之后,可以先确定各个第二样本语音的对应的加权权重;再利用各个第二样本语音的对应的加权权重、各个第二样本语音的第三语种识别结果及其第四语种识别结果之间的差异性,确定无标签样本识别损失值(如公式(9)所示),以使该无标签样本识别损失值能够准确地表示出待优化教师模型针对无标签训练数据的语种识别性能。
在一些情况下,因一些第二样本语音对应的语种识别结果无法很准确地表示出这些第二样本语音所归属的语种,使得这些第二样本语音对应的语种识别结果的分析价值较小。基于此,本申请实施例还提供了步骤312的另一种可能的实施方式,其具体可以包括步骤41-步骤45:
步骤41:根据K个第二样本语音的第三语种识别结果和/或该K个第二样本语音的第四语种识别结果,从该K个第二样本语音中筛选出满足预设分析条件的H个第二样本语音。其中,H为正整数。
其中,预设分析条件可以预先设定,例如,该预设分析条件可以包括语种识别结果中最大识别概率值超过预设概率阈值(如,0.95)。
为了便于理解步骤41,下面结合三个示例进行说明。
示例一,若预设分析条件为第三语种识别结果中最大识别概率值超过预设概率阈值,则步骤41具体可以包括:根据K个第二样本语音的第三语种识别结果,从该K个第二样本语音中筛选出满足预设分析条件的H个第二样本语音。
也就是,对于第k个第二样本语音来说,如果该第k个第二样本语音的第三语种识别结果中最大识别概率值超过预设概率阈值,则可以确定该第k个第二样本语音满足预设分析条件,从而可以确定在计算无标签样本识别损失值时参考该第k个第二样本语音的第三语种识别结果以及第四语种识别结果;如果该第k个第二样本语音的第三语种识别结果中最大识别概率值没有超过预设概率阈值,则可以确定该第k个第二样本语音不满足预设分析条件,从而可以确定在计算无标签样本识别损失值时无需参考该第k个第二样本语音的第三语种识别结果以及第四语种识别结果。其中,k为正整数,k≤K,K为正整数。
示例二,若预设分析条件为第四语种识别结果中最大识别概率值超过预设概率阈值,则步骤41具体可以包括:根据K个第二样本语音的第四语种识别结果,从该K个第二样本语音中筛选出满足预设分析条件的H个第二样本语音。
也就是,对于第k个第二样本语音来说,如果该第k个第二样本语音的第四语种识别结果中最大识别概率值超过预设概率阈值,则可以确定该第k个第二样本语音满足预设分析条件,从而可以确定在计算无标签样本识别损失值时参考该第k个第二样本语音的第三语种识别结果以及第四语种识别结果;如果该第k个第二样本语音的第四语种识别结果中最大识别概率值没有超过预设概率阈值,则可以确定该第k个第二样本语音不满足预设分析条件,从而可以确定在计算无标签样本识别损失值时无需参考该第k个第二样本语音的第三语种识别结果以及第四语种识别结果。其中,k为正整数,k≤K,K为正整数。
示例三,若预设分析条件为第三语种识别结果中最大识别概率值超过预设概率阈值或者第四语种识别结果中最大识别概率值超过预设概率阈值,则步骤41具体可以包括:根据K个第二样本语音的第三语种识别结果和该K个第二样本语音的第四语种识别结果,从该K个第二样本语音中筛选出满足预设分析条件的H个第二样本语音。
也就是,对于第k个第二样本语音来说,如果该第k个第二样本语音的第三语种识别结果中最大识别概率值和该第k个第二样本语音的第四语种识别结果中最大识别概率值中至少存在一个超过预设概率阈值,则可以确定该第k个第二样本语音满足预设分析条件,从而可以确定在计算无标签样本识别损失值时参考该第k个第二样本语音的第三语种识别结果以及第四语种识别结果;如果该第k个第二样本语音的第三语种识别结果中最大识别概率值和该第k个第二样本语音的第四语种识别结果中最大识别概率值均没有超过预设概率阈值,则可以确定该第k个第二样本语音不满足预设分析条件,从而可以确定在计算无标签样本识别损失值时无需参考该第k个第二样本语音的第三语种识别结果以及第四语种识别结果。其中,k为正整数,k≤K,K为正整数。
基于上述步骤41的相关内容可知,在获取到K个第二样本语音的第三语种识别结果以及第四语种识别结果之后,可以依据其从该K个第二样本语音中筛选出满足预设分析条件的H个第二样本语音,以使该H个第二样本语音对应的语种识别结果的分析价值较大,从而使得基于该H个第二样本语音对应的语种识别结果确定出的无标签样本识别损失值更准确。
步骤42:根据第h个第二样本语音的第三语种识别结果和/或该第h个第二样本语音的第四语种识别结果,确定该第h个第二样本语音对应的加权权重。其中,h为正整数,h≤H,H为正整数。
步骤43:将第h个第二样本语音的第三语种识别结果与该第h个第二样本语音的第四语种识别结果之间的最小均方误差,确定为该第h个第二样本语音对应的损失值。其中,h为正整数,h≤H,H为正整数。
步骤44:按照第1个第二样本语音对应的加权权重至第H个第二样本语音对应的加权权重,对第1个第二样本语音对应的损失值至第H个第二样本语音对应的损失值进行加权求和,得到无标签样本识别损失值。
需要说明的是,步骤42至步骤44的相关内容请参见上文步骤3121至步骤3123的相关内容,只需将上文步骤3121至步骤3123的相关内容中“k”替换为“h”、以及“K”替换为“H”即可。
基于上述步骤312的相关内容可知,在获取到K个第二样本语音的第三语种识别结果以及第四语种识别结果之后,可以利用K个第二样本语音的第三语种识别结果与该K个第二样本语音的第四语种识别结果之间的差异性,确定无标签样本识别损失值,以使该无标签样本识别损失值能够准确地表示出待优化教师模型针对无标签训练数据的语种识别性能。
步骤313:将带标签样本识别损失值与无标签样本识别损失值进行加和,得到待优化教师模型的模型损失值(如公式(10)所示)。
Lossmodel=losslabel+lossunlabel (10)
式中,Lossmodel表示待优化教师模型的模型损失值;losslabel表示带标签样本识别损失值;lossunlabel表示无标签样本识别损失值。
步骤314:根据待优化教师模型的模型损失值,更新待优化教师模型。
需要说明的是,本申请实施例不限定步骤314的实施方式。
基于上述步骤31的相关内容可知,在获取到N个第一样本语音的第二语种识别结果、K个第二样本语音的第三语种识别结果及其第四语种识别结果之后,可以依据该N个第一样本语音的第二语种识别结果与该N个第一样本语音的实际语种之间的差异性,以及K个第二样本语音的第三语种识别结果与其第四语种识别结果之间的差异性,更新待优化教师模型,以使更新后的待优化教师模型具有更好的语种识别性能。
步骤32:根据待优化教师模型和第二预设参数,更新待优化学生模型。
其中,第二预设参数可以预先设定,例如,第二预设参数可以是0.999。
另外,步骤32中更新过程可以采用上文步骤12中更新过程的任一实施方式,只需将上文步骤12中更新过程的任一实施方式中“待训练学生模型”替换为“待优化学生模型”、“待训练教师模型”替换为“待优化教师模型”、以及“第一预设参数”替换为“第二预设参数”即可。
基于上述步骤31至步骤32的相关内容可知,在获取到N个第一样本语音的第二语种识别结果、K个第二样本语音的第三语种识别结果及其第四语种识别结果之后,可以先依据该N个第一样本语音的第二语种识别结果与其实际语种之间的差异性,以及K个第二样本语音的第三语种识别结果与其第四语种识别结果之间的差异性,更新待优化教师模型,得到更新后的待优化教师模型;再利用更新后的待优化教师模型和第二预设参数,更新待优化学生模型,得到更新后的待优化学生模型,如此使得最终得到的学生模型(也就是,下文“待使用学生模型”)能够集成多代教师模型的优点,从而使得最终得到的学生模型(也就是,下文“待使用学生模型”)具有更强的鲁棒性。
基于上述S1033的相关内容可知,在确定没有达到第二停止条件之后,可以根据N个第一样本语音的第二语种识别结果、该N个第一样本语音的实际语种、K个第二样本语音的第三语种识别结果和该K个第二样本语音的第四语种识别结果,更新待优化教师模型和待优化学生模型,以使该更新后的待优化教师模型以及更新后的待优化学生模型具有更好的语种识别性能,并返回继续执行S1031及其后续步骤。
S1034:根据待优化教师模型确定待使用教师模型,并根据待优化学生模型确定待使用学生模型。
本申请实施例中,在确定达到第二停止条件之后,可以根据待优化教师模型和待优化学生模型,分别确定待使用教师模型和待使用学生模型(例如,直接将待优化教师模型确定为待使用教师模型,并直接将待优化学生模型确定为待使用学生模型),以使该待使用教师模型和待使用学生模型均具有更好的语种识别性能。
基于上述S1031至S1034的相关内容可知,在获取到待优化教师模型和待优化学生模型之后,可以利用K个第二样本语音、N个第一样本语音及其实际语种,针对待优化教师模型和待优化学生模型进行多轮训练,得到待使用教师模型和待使用学生模型,以使该待使用教师模型和待使用学生模型均具有更好的语种识别性能。
另外,为了进一步提高模型训练效率,可以将利用N个第一样本语音以及K个第二样本语音进行的一轮训练过程拆分成多次子训练过程,以实现在上述“利用N个第一样本语音以及K个第二样本语音进行的一轮训练过程”中进行多次模型更新。其中,上述“利用N个第一样本语音以及K个第二样本语音进行的一轮训练过程”是指使用N个第一样本语音以及K个第二样本语音对待优化教师模型(和/或待优化学生模型模型)进行的一次训练过程(例如,执行一次S1031和S1033)。
基于此,本申请实施例还提供了S103的另一种可能的实施方式,其具体可以包括步骤51-步骤59:
步骤51:将N个第一样本语音进行分批处理,得到M批第一样本语音。其中,N为正整数,M为正整数。
需要说明的是,步骤51的相关内容请参见上文步骤21。
步骤52:将K个第二样本语音进行分批处理,得到Q批第二样本语音。其中,K为正整数,Q为正整数。
其中,Q批第二样本语音中各批第二样本语音均包括至少一个第二样本语音。另外,Q批第二样本语音中不同批第二样本语音之间可以不存在交集,而且该Q批第二样本语音中所有批第二样本语音之间的并集可以是该Q批第二样本语音。
需要说明的是,本申请实施例不限定M与Q之间的大小关系,例如,M=Q。
步骤53:根据第m批第一样本语音、第q批第二样本语音、待优化教师模型和待优化学生模型,确定该第m批第一样本语音的第二语种识别结果、该第q批第二样本语音的第三语种识别结果、和该第q批第二样本语音的第四语种识别结果。其中,m的初始化参数值为1,q的初始化参数值为1。
本申请实施例不限定步骤53的实施方式,例如,在一种可能的实施方式中,步骤53具体可以包括步骤531-步骤533:
步骤531:根据第m批第一样本语音和待优化教师模型,确定该第m批第一样本语音的第二语种识别结果。
需要说明的是,步骤531可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“N个第一样本语音”替换为“第m批第一样本语音”、“待训练教师模型”替换为“待优化教师模型”、以及“第一语种识别结”替换为“第二语种识别结果”即可。
基于上述步骤531的相关内容可知,在获取到第m批第一样本语音(如,第1批第一样本语音、……、或者第M批第一样本语音)之后,可以利用待优化教师模型对该第m批第一样本语音进行并行语种识别处理,得到该第m批第一样本语音的第二语种识别结果,以使该第m批第一样本语音的第二语种识别结果包括该第m批第一样本语音中各个语音数据的第二语种识别结果。
步骤532:将第q批第二样本语音输入待优化教师模型,得到该待优化教师模型输出的该第q批第二样本语音的第三语种识别结果。
需要说明的是,步骤532可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“N个第一样本语音”替换为“第q批第二样本语音”、“待训练教师模型”替换为“待优化教师模型”、以及“第一语种识别结”替换为“第三语种识别结果”即可。
基于上述步骤532的相关内容可知,在获取到第q批第二样本语音(如,第1批第二样本语音、……、或者第Q批第二样本语音)之后,可以利用待优化教师模型对该第q批第二样本语音进行并行语种识别处理,得到该第q批第二样本语音的第三语种识别结果,以使该第q批第二样本语音的第三语种识别结果包括该第q批第二样本语音中各个语音数据的第三语种识别结果。
步骤533:将第q批第二样本语音输入待优化学生模型,得到该待优化学生模型输出的该第q批第二样本语音的第四语种识别结果。
需要说明的是,步骤532可以采用上文S1021的任一实施方式进行实施,只需将上文S1021的任一实施方式中“N个第一样本语音”替换为“第q批第二样本语音”、“待训练教师模型”替换为“待优化学生模型”、以及“第一语种识别结”替换为“第四语种识别结果”即可。
基于上述步骤533的相关内容可知,在获取到第q批第二样本语音(如,第1批第二样本语音、……、或者第Q批第二样本语音)之后,可以利用待优化学生模型对该第q批第二样本语音进行并行语种识别处理,得到该第q批第二样本语音的第四语种识别结果,以使该第q批第二样本语音的第四语种识别结果包括该第q批第二样本语音中各个语音数据的第四语种识别结果。
基于上述步骤53的相关内容可知,在获取到第m批第一样本语音和第q批第二样本语音之后,可以利用该待优化教师模型和/或待优化学生模型针对该第m批第一样本语音和第q批第二样本语音进行并行语种识别处理,得到该第m批第一样本语音的第二语种识别结果、该第q批第二样本语音的第三语种识别结果及其第四语种识别结果。
步骤54:根据第m批第一样本语音的第二语种识别结果、该第m批第一样本语音的实际语种、第q批第二样本语音的第三语种识别结果和该第q批第二样本语音的第四语种识别结果,更新待优化教师模型和待优化学生模型。
需要说明的是,步骤54中更新过程可以采用上文S1033中更新过程的任一实施方式进行实施,只需将上文S1033中更新过程的任一实施方式中“N个第一样本语音”替换为“第m批第一样本语音”、以及“K个第二样本语音”替换为“第q批第二样本语音”即可。
基于上述步骤54的相关内容可知,在获取到第m批第一样本语音的第一语种识别结果、第q批第二样本语音的第三语种识别结果及其第四语种识别结果之后,可以依据该第m批第一样本语音的第一语种识别结果与其实际语种之间的差异性、以及第q批第二样本语音的第三语种识别结果与其第四语种识别结果之间的差异性,对待优化教师模型以及待优化学生模型进行更新,以使更新后的待优化教师模型以及待优化学生模型具有更好的语种识别性能。
步骤55:更新m和q。
需要说明的是,步骤55中参数“m”的更新过程请参见上文步骤24中参数“m”的更新过程。另外,步骤55中参数“q”的更新过程可以利用上文步骤24中参数“m”的更新过程的任一实施方式进行实施,只需将上文步骤24中参数“m”的更新过程的任一实施方式中“m”替换为“q”即可。
基于上述步骤55的相关内容可知,在利用第m批第一样本语音的第二语种识别结果与其实际语种之间的差异性、以及第q批第二样本语音的第三语种识别结果与其第四语种识别结果之间的差异性,对待优化教师模型和待优化学生模型进行更新之后,可以对参数“m”以及参数“q”分别进行参数值更新,以便后续能够基于参数“m”的更新后的参数值以及参数“q”的更新后的参数值,确定出在下一轮针对待优化教师模型(和/或待优化学生模型)的子训练过程中所需使用的训练数据的批次标识。
需要说明的是,上文“针对待优化教师模型(和/或待优化学生模型)的子训练过程”是指利用一批次第一样本语音以及一批次第二样本语音对待优化教师模型(和/或待优化学生模型)进行的一次训练过程(例如,执行一次步骤53-步骤55)。
步骤56:判断M批第一样本语音是否均被遍历一次,并判断Q批第二样本语音是否均被遍历一次;若确定M批第一样本语音均被遍历一次,则执行步骤57;若确定Q批第二样本语音均被遍历一次,则执行步骤57;若确定M批第一样本语音中存在未被遍历的批次且Q批第二样本语音中存在未被遍历的批次,则执行返回执行步骤53。
本申请实施例中,在利用第m批第一样本语音的第二语种识别结果与其实际语种之间的差异性、以及第q批第二样本语音的第三语种识别结果与其第四语种识别结果之间的差异性,对待优化教师模型和待优化学生模型进行更新之后,可以判断M批第一样本语音中和Q批第二样本语音中是否存在至少一个所有批次的语音数据均参与过当前轮针对待优化教师模型(和/或待优化学生模型)的全数据训练过程,若是,则表示已经完成当前轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”,故可以重置参数“m”、“q”、各批第一样本语音的遍历标记、以及各批第二样本语音的遍历标记,以便后续能够开始执行下一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”;若否,则表示仍未完成当前轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”,故可以返回步骤53继续利用下一批第一样本语音以及下一批第二样本语音进行下一轮“针对待优化教师模型(和/或待优化学生模型)的子训练过程”。
需要说明的是,上文“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”是指使用N个第一样本语音中全部语音数据和/或K个第二样本语音中全部语音数据对待优化教师模型(和/或待优化学生模型模型)进行的一次训练过程(例如,执行一次S1031和S1033)。
步骤57:判断是否达到第二停止条件,若是,则执行步骤59;若否,则执行步骤58。
需要说明的是,步骤57中“第二停止条件”的相关内容请参见上文S1032中“第二停止条件”的相关内容。
步骤58:重置m=1,重置q=1,清除M批第一样本语音的被遍历记录,清除Q批第二样本语音的被遍历记录,并返回执行步骤53。
本申请实施例中,在确定没有达到第二停止条件之后,确定可以开始执行下一轮“针对待训练教师模型(和/或待训练学生模型)的全数据训练过程”,此时,为了避免因在当前轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”中产生的过程数据对下一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”造成不良影响,可以先进行参数重置处理(例如,将参数“m”的参数值、参数“q”的参数值、M批第一样本语音的被遍历记录、以及Q批第二样本语音的被遍历记录均进行参数重置处理,以使重置后的参数“m”的参数值、重置后的参数“q”的参数值、重置后的M批第一样本语音的被遍历记录、以及重置后的Q批第二样本语音的被遍历记录均恢复至初始化状态);再返回执行步骤53及其后续步骤。
步骤59:根据待优化教师模型确定待使用教师模型,并根据待优化学生模型确定待使用学生模型。
需要说明的是,步骤59的相关内容请参见上文S1034的相关内容。
基于上述步骤51至步骤59的相关内容可知,在获取到N个第一样本语音以及K个第二样本语音之后,可以先将该N个第一样本语音以及K个第二样本语音,分别划分成M批第一样本语音以及Q批第二样本语音;再按照第一样本语音的批次划分以及第二样本语音的批次划分,将每一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”均拆分成多轮“针对待优化教师模型(和/或待优化学生模型)的子训练过程”,以实现在每一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”中均针对待优化教师模型以及待优化学生模型进行多次更新的目的,如此有利于提高待优化教师模型以及待优化学生模型的训练效率,从而有利于提高语种识别模型的训练效率。
另外,对于每一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”来说,为了便于清楚地获知哪个批次第一样本语音以及哪个批次第二样本语音已被用于训练待优化教师模型以及待优化学生模型,以及哪个批次第一样本语音以及哪个批次第二样本语音仍未被用于训练待优化教师模型以及待优化学生模型,基于此,本申请实施例还提供了S103的又一种可能的实施方式,在该实施方式中,S103除了包括上述步骤51-步骤59以外,可以还包括步骤60:
步骤60:将第m批第一样本语音的第二遍历标记更新为已遍历,并将第q批第二样本语音的第二遍历标记更新为已遍历。
其中,第二遍历标记用于表示一个语音数据(如,第一样本语音或者第二样本语音)是否已经参与了当前轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”;而且,若一个语音数据的第二遍历标记为已遍历,则表示该语音数据已经参与了当前轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”;若一个语音数据的第二遍历标记为未遍历,则表示该语音数据仍未参与当前轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”。
另外,步骤60可以在步骤54至步骤55之间进行执行的,也就是,步骤60的执行时间段可以为时间段开集(步骤54的执行完成时间点,步骤55的开始执行时间段)。
此外,在该实施方式中,步骤58具体可以为:重置m=1,重置q=1,重置M批第一样本语音的第二遍历标记均为未遍历,重置Q批第二样本语音的第二遍历标记均为未遍历,并返回执行步骤53。需要说明的是,第二遍历标记的初始化参数值均是未遍历。
基于上述步骤60和步骤58的相关内容可知,对于每一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”来说,均可以借助“第二遍历标记”来记录哪一批第一样本语音以及哪一批第二样本语音已参与该训练过程,哪一批第一样本语音以及哪一批第二样本语音未参与该训练过程,如此能够保证M批第一样本语音和/或Q批第二样本语音能够参与到每一轮“针对待优化教师模型(和/或待优化学生模型)的全数据训练过程”,如此能够尽可能地避免训练数据的遗漏。。
基于上述S103的相关内容可知,在获取到N个第一样本语音及其实际语种、以及K个第二样本语音之后,可以借助该K个第二样本语音、该N个第一样本语音及其实际语种,对待优化教师模型和待优化学生模型进行训练,得到待使用教师模型和待使用学生模型,以使该待使用教师模型和该待使用学生模型均具有更好的语种识别性能。
S104:根据待使用学生模型,确定语种识别模型。
本申请实施例中,在获取到待使用学生模型之后,可以直接利用该待使用学生模型,确定语种识别模型(如,直接将该待使用学生模型确定为语种识别模型)。其中,因待使用学生模型具有更好的语种识别性能,使得语种识别模型也具有更好的语种识别性能。
基于上述S101至S104的相关内容可知,在本申请实施例提供的语种识别模型构建方法中,在获取到第一样本语音、该第一样本语音的实际语种和第二样本语音之后,先利用该第一样本语音和该第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;再利用该第一样本语音、该第一样本语音的实际语种和该第二样本语音,对该待优化教师模型和该待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;最后,根据该待使用学生模型,确定语种识别模型。可见,因无标签训练数据(也就是,第二样本语音)能够弥补带标签训练数据(也就是,第一样本语音)中数据分布失衡的缺陷,使得基于带标签训练数据和无标签训练数据进行构建的语种识别模型具有较好的语种识别性能,从而使得借助该语种识别模型确定出的待识别语音的预测语种更准确,如此能够提高语种识别准确性。
另外,在构建好语种识别模型之后,可以利用该语种识别模型针对任一语音数据进行语种识别。基于此,本申请实施例还提供了一种语种识别方法,下面结合附图对其进行解释和说明。
方法实施例二
参见图2,该图为本申请实施例提供的一种语种识别方法的流程图。
本申请实施例提供的语种识别方法,包括S201-S203:
S201:获取待识别语音。其中,待识别语音是指需要进行语种识别处理的语音。
S202:根据待识别语音和预先构建的语种识别模型,确定该待识别语音的语种识别结果。
其中,语种识别模型用于针对该语种识别模型的输入数据进行语种识别;而且该语种识别模型是利用本申请实施例提供的语种识别模型构建方法的任一实施方式进行构建的。
另外,本申请实施例不限定S202的实施方式,例如,S202可以采用上文S1021中“确定第n个第一样本语音的第一语种识别结果”的任一实施方式进行实施,只需将上文S1021中“确定第n个第一样本语音的第一语种识别结果”的任一实施方式中“第n个第一样本语音”替换为“待识别语音”、“待训练教师模型”替换为“语种识别模型”、以及“第一语种识别结果”替换为“语种识别结果”即可。
基于S202的相关内容可知,在获取到待识别语音之后,可以利用预先构建的语种识别模型针对该待识别语音进行语种识别处理,得到并输出该待识别语音的语种识别结果,以使该待识别语音的语种识别结果能够准确地表述出该待识别语音的语种信息。
S203:根据待识别语音的语种识别结果,确定该待识别语音的预测语种。
本申请实施例中,在获取到待识别语音的语种识别结果之后,可以依据该待识别语音的语种识别结果,确定该待识别语音的预测语种。例如,若待识别语音的语种识别结果包括该待识别语音归属于各个语种的预测概率,则可以将该待识别语音的语种识别结果中最大预测概率对应的语种,确定为该待识别语音的预测语种。
基于上述S201至S203的相关内容可知,对于本申请实施例提供的语种识别方法来说,在获取到待识别语音之后,可以借助该语种识别模型针对待识别语音进行语种识别,得到该待识别语音的预测语种。其中,因无标签训练数据能够弥补带标签训练数据中数据分布失衡的缺陷,使得基于带标签训练数据和无标签训练数据进行构建的语种识别模型具有较好的语种识别性能,从而使得借助该语种识别模型确定出的待识别语音的预测语种更准确,如此能够提高语种识别准确性。
基于上述方法实施例提供的语种识别模型构建方法,本申请实施例还提供了一种语种识别模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例一对语种识别模型构建装置进行介绍,相关内容请参见上述方法实施例。
参见图3,该图为本申请实施例提供的一种语种识别模型构建装置的结构示意图。
本申请实施例提供的语种识别模型构建装置300,包括:
样本获取单元301,用于获取第一样本语音、所述第一样本语音的实际语种和第二样本语音;
初步训练单元302,用于利用所述第一样本语音和所述第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;其中,所述待训练教师模型中模型参数的初始化参数值与所述待训练学生模型中模型参数的初始化参数值相同;
二次训练单元303,用于利用所述第一样本语音、所述第一样本语音的实际语种和所述第二样本语音,对所述待优化教师模型和所述待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;
模型确定单元304,用于根据所述待使用学生模型,确定语种识别模型。
在一种可能的实施方式中,所述初步训练单元302,具体用于:根据所述第一样本语音和所述待训练教师模型,确定所述第一样本语音的第一语种识别结果;根据所述第一样本语音的第一语种识别结果与所述第一样本语音的实际语种,更新所述待训练教师模型和所述待训练学生模型,并继续执行所述根据所述第一样本语音和所述待训练教师模型,确定所述第一样本语音的第一语种识别结果的步骤,直至在达到第一停止条件时,根据所述待训练教师模型确定所述待优化教师模型,并根据所述待训练学生模型确定所述待优化学生模型。
在一种可能的实施方式中,所述初步训练单元302,包括:
第一更新子单元,用于根据所述第一样本语音的第一语种识别结果与所述第一样本语音的实际语种,更新所述待训练教师模型;
第二更新子单元,用于根据所述待训练教师模型和第一预设参数,更新所述待训练学生模型。
在一种可能的实施方式中,所述第二更新子单元,具体用于:若所述待训练教师模型和所述待训练学生模型均包括Y个模型参数,则根据所述第一预设参数,确定所述待训练教师模型中第y个模型参数对应的加权权重和所述待训练学生模型中第y个模型参数对应的加权权重;其中,y为正整数,y≤Y,Y为正整数;按照所述待训练教师模型中第y个模型参数对应的加权权重和所述待训练学生模型中第y个模型参数对应的加权权重,对所述待训练教师模型中第y个模型参数的当前值与所述待训练学生模型中第y个模型参数的当前值进行加权求和,得到所述待训练学生模型中第y个模型参数的更新值;其中,y为正整数,y≤Y,Y为正整数。
在一种可能的实施方式中,所述初步训练单元302,包括:
第一分批子单元,用于若所述第一样本语音的个数为N,则将所述N个第一样本语音进行分批处理,得到M批第一样本语音;其中,N为正整数,M为正整数;
第一训练子单元,用于根据第m批第一样本语音和所述待训练教师模型,得到所述第m批第一样本语音的第一语种识别结果;其中,所述m的初始化参数值为1;根据所述第m批第一样本语音的第一语种识别结果和所述第m批第一样本语音的实际语种,更新所述待训练教师模型和所述待训练学生模型,更新所述m,并继续执行所述根据第m批第一样本语音和所述待训练教师模型,得到所述第m批第一样本语音的第一语种识别结果的步骤,直至所述M批第一样本语音均被遍历一次。
在一种可能的实施方式中,所述二次训练单元303,具体用于:根据所述第一样本语音、所述第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第一样本语音的第二语种识别结果、所述第二样本语音的第三语种识别结果、和所述第二样本语音的第四语种识别结果;根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型和所述待优化学生模型,并继续执行所述根据所述第一样本语音、所述第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第一样本语音的第二语种识别结果、所述第二样本语音的第三语种识别结果、和所述第二样本语音的第四语种识别结果的步骤,直至在达到第二停止条件时,根据所述待优化教师模型确定待使用教师模型,并根据所述待优化学生模型确定所述待使用学生模型。
在一种可能的实施方式中,所述二次训练单元303,包括:
第一识别子单元,用于根据所述第一样本语音和所述待优化教师模型,确定所述第一样本语音的第二语种识别结果;根据所述第二样本语音和所述待优化教师模型,确定所述第二样本语音的第三语种识别结果;根据所述第二样本语音和所述待优化学生模型,确定所述第二样本语音的第四语种识别结果。
在一种可能的实施方式中,所述二次训练单元303,包括:
第三更新子单元,用于根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型;
第四更新子单元,用于根据所述待优化教师模型和第二预设参数,更新所述待优化学生模型。
在一种可能的实施方式中,所述第三更新子单元,包括:
第一确定子单元,用于根据所述第一样本语音的第二语种识别结果与所述第一样本语音的实际语种之间的交叉熵,确定带标签样本识别损失值;
第二确定子单元,用于根据所述第二样本语音的第三语种识别结果与所述第二样本语音的第四语种识别结果之间的最小均方误差,确定无标签样本识别损失值;
第三确定子单元,用于将所述带标签样本识别损失值与所述无标签样本识别损失值进行加和,得到所述待优化教师模型的模型损失值;
第五更新子单元,用于根据所述待优化教师模型的模型损失值,更新所述待优化教师模型。
在一种可能的实施方式中,所述第二确定子单元,用于若所述第二样本语音的个数为K,则根据第k个第二样本语音的第三语种识别结果和/或所述第k个第二样本语音的第四语种识别结果,确定所述第k个第二样本语音对应的加权权重;其中,k为正整数,k≤K,K为正整数;将所述第k个第二样本语音的第三语种识别结果与所述第k个第二样本语音的第四语种识别结果之间的最小均方误差,确定为所述第k个第二样本语音对应的损失值;其中,k为正整数,k≤K,K为正整数;按照第1个第二样本语音对应的加权权重至第K个第二样本语音对应的加权权重,对所述第1个第二样本语音对应的损失值至所述第K个第二样本语音对应的损失值进行加权求和,得到所述无标签样本识别损失值。
在一种可能的实施方式中,所述二次训练单元303,包括:
第二分批子单元,用于若所述第一样本语音的个数为N,且所述第二样本语音的个数为K,则将所述N个第一样本语音进行分批处理,得到M批第一样本语音;其中,N为正整数,M为正整数;将所述K个第二样本语音进行分批处理,得到Q批第二样本语音;其中,K为正整数,Q为正整数;
第二训练子单元,用于根据第m批第一样本语音、第q批第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第m批第一样本语音的第二语种识别结果、所述第q批第二样本语音的第三语种识别结果、和所述第q批第二样本语音的第四语种识别结果;其中,所述m的初始化参数值为1,所述q的初始化参数值为1;根据所述第m批第一样本语音的第二语种识别结果、所述第m批第一样本语音的实际语种、所述第q批第二样本语音的第三语种识别结果和所述第q批第二样本语音的第四语种识别结果,更新所述待优化教师模型和所述待优化学生模型,更新所述m和所述q,并继续执行所述根据第m批第一样本语音、第q批第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第m批第一样本语音的第二语种识别结果、所述第q批第二样本语音的第三语种识别结果、和所述第q批第二样本语音的第四语种识别结果的步骤,直至所述M批第一样本语音均被遍历一次或者所述Q批第二样本语音均被遍历一次。
基于上述方法实施例提供的语种识别方法,本申请实施例还提供了一种语种识别装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例二对语种识别装置进行介绍,相关内容请参见上述方法实施例。
参见图4,该图为本申请实施例提供的一种语种识别装置的结构示意图。
本申请实施例提供的语种识别装置400,包括:
语音获取单元401,用于获取待识别语音;
语种识别单元402,用于根据所述待识别语音和预先构建的语种识别模型,确定所述待识别语音的语种识别结果;其中,所述语种识别模型是利用本申请实施例提供的语种识别模型构建方法的任一实施方式进行构建的;
语种确定单元403,用于根据所述待识别语音的语种识别结果,确定所述待识别语音的预测语种。
进一步地,本申请实施例还提供了一种设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语种识别模型构建方法的任一种实现方法,或者执行上述语种识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语种识别模型构建方法的任一种实现方法,或者执行上述语种识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语种识别模型构建方法的任一种实现方法,或者执行上述语种识别方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种语种识别模型构建方法,其特征在于,所述方法包括:
获取第一样本语音、所述第一样本语音的实际语种和第二样本语音;
利用所述第一样本语音和所述第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;其中,所述待训练教师模型中模型参数的初始化参数值与所述待训练学生模型中模型参数的初始化参数值相同;
利用所述第一样本语音、所述第一样本语音的实际语种和所述第二样本语音,对所述待优化教师模型和所述待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;
根据所述待使用学生模型,确定语种识别模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一样本语音和所述第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型,包括:
根据所述第一样本语音和所述待训练教师模型,确定所述第一样本语音的第一语种识别结果;
根据所述第一样本语音的第一语种识别结果与所述第一样本语音的实际语种,更新所述待训练教师模型和所述待训练学生模型,并继续执行所述根据所述第一样本语音和所述待训练教师模型,确定所述第一样本语音的第一语种识别结果的步骤,直至在达到第一停止条件时,根据所述待训练教师模型确定所述待优化教师模型,并根据所述待训练学生模型确定所述待优化学生模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一样本语音的第一语种识别结果与所述第一样本语音的实际语种,更新所述待训练教师模型和所述待训练学生模型,包括:
根据所述第一样本语音的第一语种识别结果与所述第一样本语音的实际语种,更新所述待训练教师模型;
根据所述待训练教师模型和第一预设参数,更新所述待训练学生模型。
4.根据权利要求3所述的方法,其特征在于,若所述待训练教师模型和所述待训练学生模型均包括Y个模型参数,则所述根据所述待训练教师模型和第一预设参数,更新所述待训练学生模型,包括:
根据所述第一预设参数,确定所述待训练教师模型中第y个模型参数对应的加权权重和所述待训练学生模型中第y个模型参数对应的加权权重;其中,y为正整数,y≤Y,Y为正整数;
按照所述待训练教师模型中第y个模型参数对应的加权权重和所述待训练学生模型中第y个模型参数对应的加权权重,对所述待训练教师模型中第y个模型参数的当前值与所述待训练学生模型中第y个模型参数的当前值进行加权求和,得到所述待训练学生模型中第y个模型参数的更新值;其中,y为正整数,y≤Y,Y为正整数。
5.根据权利要求2所述的方法,其特征在于,若所述第一样本语音的个数为N,则所述方法还包括:
将所述N个第一样本语音进行分批处理,得到M批第一样本语音;其中,N为正整数,M为正整数;
所述根据所述第一样本语音和所述待训练教师模型,确定所述第一样本语音的第一语种识别结果;根据所述第一样本语音的第一语种识别结果与所述第一样本语音的实际语种,更新所述待训练教师模型和所述待训练学生模型,包括:
根据第m批第一样本语音和所述待训练教师模型,确定所述第m批第一样本语音的第一语种识别结果;其中,所述m的初始化参数值为1;
根据所述第m批第一样本语音的第一语种识别结果和所述第m批第一样本语音的实际语种,更新所述待训练教师模型和所述待训练学生模型,更新所述m,并继续执行所述根据第m批第一样本语音和所述待训练教师模型,确定所述第m批第一样本语音的第一语种识别结果的步骤,直至所述M批第一样本语音均被遍历一次。
6.根据权利要求1所述的方法,其特征在于,所述利用所述第一样本语音、所述第一样本语音的实际语种和所述第二样本语音,对所述待优化教师模型和所述待优化学生模型进行训练,得到待使用教师模型和待使用学生模型,包括:
根据所述第一样本语音、所述第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第一样本语音的第二语种识别结果、所述第二样本语音的第三语种识别结果、和所述第二样本语音的第四语种识别结果;
根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型和所述待优化学生模型,并继续执行所述根据所述第一样本语音、所述第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第一样本语音的第二语种识别结果、所述第二样本语音的第三语种识别结果、和所述第二样本语音的第四语种识别结果的步骤,直至在达到第二停止条件时,根据所述待优化教师模型确定待使用教师模型,并根据所述待优化学生模型确定所述待使用学生模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一样本语音、所述第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第一样本语音的第二语种识别结果、所述第二样本语音的第三语种识别结果、和所述第二样本语音的第四语种识别结果,包括:
根据所述第一样本语音和所述待优化教师模型,确定所述第一样本语音的第二语种识别结果;
根据所述第二样本语音和所述待优化教师模型,确定所述第二样本语音的第三语种识别结果;
根据所述第二样本语音和所述待优化学生模型,确定所述第二样本语音的第四语种识别结果。
8.根据权利要求6所述的方法,其特征在于,所述根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型和所述待优化学生模型,包括:
根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型;
根据所述待优化教师模型和第二预设参数,更新所述待优化学生模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型,包括:
根据所述第一样本语音的第二语种识别结果与所述第一样本语音的实际语种之间的交叉熵,确定带标签样本识别损失值;
根据所述第二样本语音的第三语种识别结果与所述第二样本语音的第四语种识别结果之间的最小均方误差,确定无标签样本识别损失值;
将所述带标签样本识别损失值与所述无标签样本识别损失值进行加和,得到所述待优化教师模型的模型损失值;
根据所述待优化教师模型的模型损失值,更新所述待优化教师模型。
10.根据权利要求9所述的方法,其特征在于,若所述第二样本语音的个数为K,则所述根据所述第二样本语音的第三语种识别结果与所述第二样本语音的第四语种识别结果之间的最小均方误差,确定无标签样本识别损失值,包括:
根据第k个第二样本语音的第三语种识别结果和/或所述第k个第二样本语音的第四语种识别结果,确定所述第k个第二样本语音对应的加权权重;其中,k为正整数,k≤K,K为正整数;
将所述第k个第二样本语音的第三语种识别结果与所述第k个第二样本语音的第四语种识别结果之间的最小均方误差,确定为所述第k个第二样本语音对应的损失值;其中,k为正整数,k≤K,K为正整数;
按照第1个第二样本语音对应的加权权重至第K个第二样本语音对应的加权权重,对所述第1个第二样本语音对应的损失值至所述第K个第二样本语音对应的损失值进行加权求和,得到所述无标签样本识别损失值。
11.根据权利要求6所述的方法,其特征在于,若所述第一样本语音的个数为N,且所述第二样本语音的个数为K,则所述方法还包括:
将所述N个第一样本语音进行分批处理,得到M批第一样本语音;其中,N为正整数,M为正整数;
将所述K个第二样本语音进行分批处理,得到Q批第二样本语音;其中,K为正整数,Q为正整数;
所述根据所述第一样本语音、所述第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第一样本语音的第二语种识别结果、所述第二样本语音的第三语种识别结果、和所述第二样本语音的第四语种识别结果;根据所述第一样本语音的第二语种识别结果、所述第一样本语音的实际语种、所述第二样本语音的第三语种识别结果和所述第二样本语音的第四语种识别结果,更新所述待优化教师模型和所述待优化学生模型,包括:
根据第m批第一样本语音、第q批第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第m批第一样本语音的第二语种识别结果、所述第q批第二样本语音的第三语种识别结果、和所述第q批第二样本语音的第四语种识别结果;其中,所述m的初始化参数值为1,所述q的初始化参数值为1;
根据所述第m批第一样本语音的第二语种识别结果、所述第m批第一样本语音的实际语种、所述第q批第二样本语音的第三语种识别结果和所述第q批第二样本语音的第四语种识别结果,更新所述待优化教师模型和所述待优化学生模型,更新所述m和所述q,并继续执行所述根据第m批第一样本语音、第q批第二样本语音、所述待优化教师模型和所述待优化学生模型,确定所述第m批第一样本语音的第二语种识别结果、所述第q批第二样本语音的第三语种识别结果、和所述第q批第二样本语音的第四语种识别结果的步骤,直至所述M批第一样本语音均被遍历一次或者所述Q批第二样本语音均被遍历一次。
12.一种语种识别方法,其特征在于,所述方法包括:
获取待识别语音;
根据所述待识别语音和预先构建的语种识别模型,确定所述待识别语音的语种识别结果;其中,所述语种识别模型是利用权利要求1-11任一项所述的语种识别模型构建方法进行构建的;
根据所述待识别语音的语种识别结果,确定所述待识别语音的预测语种。
13.一种语种识别模型构建装置,其特征在于,包括:
样本获取单元,用于获取第一样本语音、所述第一样本语音的实际语种和第二样本语音;
初步训练单元,用于利用所述第一样本语音和所述第一样本语音的实际语种,对待训练教师模型和待训练学生模型进行训练,得到待优化教师模型和待优化学生模型;其中,所述待训练教师模型中模型参数的初始化参数值与所述待训练学生模型中模型参数的初始化参数值相同;
二次训练单元,用于利用所述第一样本语音、所述第一样本语音的实际语种和所述第二样本语音,对所述待优化教师模型和所述待优化学生模型进行训练,得到待使用教师模型和待使用学生模型;
模型确定单元,用于根据所述待使用学生模型,确定语种识别模型。
14.一种设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至11任一项所述的语种识别模型构建方法,或者执行权利要求12所述的语种识别方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至11任一项所述的语种识别模型构建方法,或者执行权利要求12所述的语种识别方法。
CN202110770019.4A 2021-07-07 2021-07-07 一种语种识别模型构建方法、语种识别方法 Active CN113488023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110770019.4A CN113488023B (zh) 2021-07-07 2021-07-07 一种语种识别模型构建方法、语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110770019.4A CN113488023B (zh) 2021-07-07 2021-07-07 一种语种识别模型构建方法、语种识别方法

Publications (2)

Publication Number Publication Date
CN113488023A CN113488023A (zh) 2021-10-08
CN113488023B true CN113488023B (zh) 2022-06-14

Family

ID=77937400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110770019.4A Active CN113488023B (zh) 2021-07-07 2021-07-07 一种语种识别模型构建方法、语种识别方法

Country Status (1)

Country Link
CN (1) CN113488023B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724700B (zh) * 2021-10-20 2022-08-12 合肥讯飞数码科技有限公司 语种识别、语种识别模型训练方法及装置
CN114283819A (zh) * 2021-12-27 2022-04-05 思必驰科技股份有限公司 自知识蒸馏的说话人验证模型的训练方法及系统
CN116824640B (zh) * 2023-08-28 2023-12-01 江南大学 基于mt与三维残差网络的腿部识别方法、系统、介质和设备
CN117237984B (zh) * 2023-08-31 2024-06-21 江南大学 基于标签一致性的mt腿部识别方法、系统、介质和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN111179961A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111754985A (zh) * 2020-07-06 2020-10-09 上海依图信息技术有限公司 一种语音识别模型的训练以及语音识别的方法和装置
CN112509563A (zh) * 2020-12-17 2021-03-16 中国科学技术大学 模型训练方法、装置及电子设备
CN112949786A (zh) * 2021-05-17 2021-06-11 腾讯科技(深圳)有限公司 数据分类识别方法、装置、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416741B2 (en) * 2018-06-08 2022-08-16 International Business Machines Corporation Teacher and student learning for constructing mixed-domain model
CN111104482A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 数据处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389576A (zh) * 2018-01-10 2018-08-10 苏州思必驰信息科技有限公司 压缩后的语音识别模型的优化方法及系统
CN111179961A (zh) * 2020-01-02 2020-05-19 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN111754985A (zh) * 2020-07-06 2020-10-09 上海依图信息技术有限公司 一种语音识别模型的训练以及语音识别的方法和装置
CN112509563A (zh) * 2020-12-17 2021-03-16 中国科学技术大学 模型训练方法、装置及电子设备
CN112949786A (zh) * 2021-05-17 2021-06-11 腾讯科技(深圳)有限公司 数据分类识别方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN113488023A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113488023B (zh) 一种语种识别模型构建方法、语种识别方法
US11664020B2 (en) Speech recognition method and apparatus
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN110188331A (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN111081230B (zh) 语音识别方法和设备
CN109036471B (zh) 语音端点检测方法及设备
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
US20220101828A1 (en) Learning data acquisition apparatus, model learning apparatus, methods and programs for the same
CN114627863A (zh) 一种基于人工智能的语音识别方法和装置
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN111813954A (zh) 文本语句中两实体的关系确定方法、装置和电子设备
US20210073645A1 (en) Learning apparatus and method, and program
CN113239702A (zh) 意图识别方法、装置、电子设备
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN116151235A (zh) 文章生成方法、文章生成模型训练方法及相关设备
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN112767928A (zh) 一种语音理解方法、装置、设备及介质
CN112214592A (zh) 一种回复对话评分模型训练方法、对话回复方法及其装置
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
CN115062769A (zh) 基于知识蒸馏的模型训练方法、装置、设备及存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN112698977B (zh) 服务器故障定位方法方法、装置、设备及介质
CN113674745B (zh) 语音识别方法及装置
CN111091011B (zh) 领域预测方法、领域预测装置及电子设备
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant