CN113469338B - 模型训练方法、模型训练装置、终端设备及存储介质 - Google Patents
模型训练方法、模型训练装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN113469338B CN113469338B CN202110740229.9A CN202110740229A CN113469338B CN 113469338 B CN113469338 B CN 113469338B CN 202110740229 A CN202110740229 A CN 202110740229A CN 113469338 B CN113469338 B CN 113469338B
- Authority
- CN
- China
- Prior art keywords
- dialect
- model
- recognition model
- sample
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006978 adaptation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001575999 Hakka Species 0.000 description 1
- 235000016278 Mentha canadensis Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种模型训练方法、模型训练装置、计算机设备及存储介质。其中,该模型训练方法包括:获取待训练方言的方言样本;根据方言样本从预设的至少两种方言中确定目标方言;将目标方言的识别模型确定为源域识别模型;将源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化语音识别模型的特定网络;通过方言样本训练语音识别模型,获得训练完成的语音识别模型。通过本申请的模型训练方法所得到的语音识别模型,能够对语料较少方言进行准确识别。此外,本申请还涉及区块链技术。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练方法、模型训练方法装置、终端设备及计算机可读存储介质。
背景技术
随着语音识别技术的迅速发展,普通话的识别正确率已经越来越高,并逐渐趋于平稳,不少研究方向开始转向方言识别。
目前,方言的识别方法和传统的语音识别方法,也即普通话的识别方法类似,都是先构建识别模型,然后依赖于海量的语料数据对模型进行训练,得到训练完成的识别模型后再对方言语音进行识别。而对于方言来说,尤其是一些小众方言,若采用传统的语音识别方法,则需要大量的语料数据来对识别模型进行训练,而语料数量恰恰是小众方言的短板,导致小众方言识别效果较差。
发明内容
有鉴于此,本申请实施例提供了一种模型训练方法、模型训练方法装置、终端设备及计算机可读存储介质,以提高语料较少的方言的识别准确率。
本申请实施例的第一方面提供了一种模型训练方法,包括:
获取待训练方言的方言样本,上述待训练方言属于第一方言类型;
根据上述方言样本从预设的至少两种方言中确定目标方言,其中,上述至少两种方言属于第二方言类型,上述目标方言与上述待训练方言的相似度最高;
将上述目标方言的识别模型确定为源域识别模型;
将上述源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化上述语音识别模型的特定网络,其中,n为正整数,上述前n层网络为上述源域识别模型中用于提取通用特征的网络,上述特定网络为上述语音识别模型中除前n层网络以外的网络;
通过上述方言样本训练上述语音识别模型,获得训练完成的语音识别模型。
本申请实施例的第二方面提供了一种模型训练方法装置,包括:
样本获取模块,用于获取待训练方言的方言样本,上述待训练方言属于第一方言类型;
第一确定模块,用于根据上述方言样本从预设的至少两种方言中确定目标方言,其中,上述至少两种方言属于第二方言类型,上述目标方言与上述待训练方言的相似度最高;
第二确定模块,用于将上述目标方言的识别模型确定为源域识别模型;
模型构建模块,用于将上述源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化上述语音识别模型的特定网络,其中,n为正整数,上述前n层网络为上述源域识别模型中用于提取通用特征的网络,上述特定网络为上述语音识别模型中除前n层网络以外的网络;
模型训练模块,用于通过上述方言样本训练上述语音识别模型,获得训练完成的语音识别模型。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在终端设备上运行的计算机程序,上述处理器执行上述计算机程序时实现第一方面提供的模型训练方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现第一方面提供的模型训练方法的各步骤。
实施本申请实施例提供的模型训练方法、模型训练方法装置、终端设备及计算机可读存储介质具有以下有益效果:
通过先确定与待训练方言相近的目标方言,并将目标方言的识别模型确定为源域识别模型;基于迁移学习寻找事物之间的相似性的核心思想,对本申请来说即寻找源域识别模型和语音识别模型之间的相似性,将源域识别模型的知识迁移到语音识别模型中,从而通过较少的训练得到好的识别效果。在本申请中具体的做法是将源域识别模型中用于提取语言通用特征的前n层网络迁移到语音识别模型中,并对语音识别模型中的特定网络进行初始化,之后通过方言样本对该语音识别模型进行训练,即可得到训练完成的语音识别模型。利用该训练完成的语音识别模型对语料较少的小众方言进行识别,能够得到较准确的识别结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种模型训练方法的实现流程图;
图2是本申请实施例提供的一种模型训练方法装置的结构框图;
图3是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的风险人群的预测方法,可以由终端设备,例如笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或个人数字助理(personal digital assistant,PDA)执行。
本申请实施例涉及的模型训练方法,应用于智慧政务以及智慧社区场景中,从而推动智慧城市的建设。
请参阅图1,图1示出了本申请实施例提供的一种模型训练方法的实现流程图。该模型训练方法包括:
步骤101、获取待训练方言的方言样本。
要训练识别某一方言的语音识别模型,可以先获取该方言的方言样本。其中,某一方言即为待训练方言,属于第一方言类型。归类至第一方言类型的方言一般使用人群较少,因此语料数据较少,例如潮汕话及客家话等。但应当理解的是,本申请所使用的模型训练方法并非仅可以用于训练语料较少的方言的识别模型,也可以用于训练语料丰富的方言及其他语言的识别模型,在此不做限定。可以理解的是,利用本申请的模型训练方法训练语料较少的方言的语音识别模型,所得到的语音识别模型的识别效果更为出众。
步骤102、根据方言样本从预设的至少两种方言中确定目标方言。
为了提高迁移学习的效果,在获得方言样本之后,可以从预设的至少两种方言中确定出目标方言。其中,至少两种方言属于第二方言类型。归类至第二方言类型的方言一般使用人群较为广泛,语料数据也比较丰富。为了便于理解第一方言类型和第二方言类型之间的关系,举例说明,假设待训练方言是潮汕话,那么预设的至少两种方言可以是粤语、四川话及上海话。要提高迁移学习的效果,可以利用潮汕话从粤语、四川话及上海话中筛选出相似度最高的方言作为目标方言。其中,可以预见的是粤语与潮汕话的相似度最高,即潮汕话的目标方言是粤语。
由上可见,同一方言区内的方言相似度会比较高,因此一般待训练方言与目标方言地域上是有关联的,例如粤语和潮汕。在筛选的时候,除了本申请后文提到的通过分类来确定目标方言的方法以外,还可以通过将待训练方言的地域信息分别和至少两种方言的地域信息进行匹配的方法,确定出目标方言。
步骤103、将目标方言的识别模型确定为源域识别模型。
在确定出目标方言之后,即可将目标方言的识别模型确定为源域识别模型;即将目标方言的识别模型作为迁移学习的来源。
步骤104、将源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化语音识别模型的特定网络。
迁移学习的核心在于寻找事物之间的相似性。对于待训练方言和目标方言来说,存在的通用特征可以利用相同的网络进行提取。因此可以将源域识别模型中用于提取通用特征的前n层网络迁移到预先构建的语音识别模型中,并对语音识别模型中除前n层网络以外的网络进行初始化,得到待训练的语音识别模型。其中n为正整数,可以是随机限定的数字,也可以是研发人员根据经验得出的数字,后者可以缩短模型训练的时长,加快模型的收敛速度。
步骤105、通过方言样本训练语音识别模型,获得训练完成的语音识别模型。
在语音识别模型设置好之后,即可利用方言样本对语音识别模型进行训练,得到训练完成的语音识别模型。
以上可以看出,本实施例提供的一种模型训练方法,通过先确定与待训练方言相近的目标方言,并将目标方言的识别模型确定为源域识别模型;将目标方言的识别模型中用于提取语言通用特征的前n层网络迁移到语音识别模型中,并对语音识别模型中的特定网络进行初始化,之后通过方言样本对语音识别模型进行训练,即可得到训练完成的语音识别模型。利用该训练完成的语音识别模型对语料较少的小众方言进行识别,能够得到较准确的识别结果。
在一些实施例中,为了提高目标方言确定的准确性,上述步骤102具体包括:
A1、将方言样本输入已训练的分类模型中进行分类,得到分类结果。
A2、基于分类结果从至少两种方言中确定目标方言。
利用训练完成的分类模型对方言样本进行分类,能够得到分类结果,之后依据该分类结果,即可从至少两种方言中确定出目标方言。
在一些实施例中,要提高方言样本分类结果的准确性,上述步骤A1具体包括:
A11、利用稀疏编码模型中预先构建的域适应字典对方言样本进行编码,得到编码特征。
已训练的分类模型为基于稀疏编码模型进行分类的分类模型,因此,在进行分类之前,需要先利用稀疏编码模型中构建好的域适应字典对方言样本进行编码,得到方言样本的编码特征。其中,域适应字典是过完备字典。
A12、通过邻近算法根据编码特征得到分类结果。
在得到方言样本的编码特征之后,可以根据编码特征得到该方言样本的分类结果。其中,该分类模型可识别的种类与至少两种方言的种类相同,例如假设第二方言类型有三种,分别是粤语、四川话和上海话,在经过分类模型进行分类后,会将方言样本归类至上述三种方言之一,即要么归类为粤语,要么归类为四川话,要么归类为上海话。
在一些实施例中,要获得过完备字典,实现对方言样本的精准分类,上述域适应字典可以通过以下步骤获得:
C1、获取第一方言类型的第一样本集和第二方言类型的第二样本集。
C2、分别利用第一样本集和第二样本集训练预先构建的稀疏编码模型,得到第一字典和第二字典。
C3、调整稀疏编码模型的模型参数,使得第二字典向第一字典对齐,得到域适应字典。
在获得第一样本集和第二样本集之后,可以利用这两个样本集分类训练预先构建的稀疏编码模型,得到第一样本集对应的第一字典以及第二样本集对应的第二字典。在得到两个字典之后,引入字典对齐机制,让第二字典向第一字典对齐,即使得两个字典的特征进行匹配,经过相互学习,得到域适应字典。具体地,可以将字典视为基底向量,在字典对齐的过程中,就是在空间中寻找一个坐标转换矩阵,使得第二样本集的特征集向第一样本集的特征集接近,当接近程度符合条件时,即可得到最优坐标转换矩阵,并依据坐标转换矩阵得到域适应字典。
具体地,步骤C2中利用第一样本集和第二样本集训练预先构建的稀疏编码模型,可以得到两组系数编码模型,将这两组编码模型通过L2正则化可以构建出对应的最小化稀疏编码模型,具体表示如下:
其中,λβ为模型的参数,可根据训练结果做调整;||SS||1和||ST||1是第一样本集和第一样本集带L1惩罚项,λ为惩罚系数;表示在F空间下的第二样本集和第一样本集的重构误差项,/>表示在F空间下的第一样本集和第二样本集的重构误差项,XS为第二样本集矩阵,BS和SS为第二字典和编码系数,XT为第一样本集矩阵,BT和ST为第一字典和编码系数。因为第一样本集和第二样本集分布存在差异性,所以BS≠BT。
依据上述两个模型,构建字典对齐目标函数:
字典对齐目标函数将输入样本域M,具有第一字典和第二字典共享特征的最大值,使得待训练方言在完备字典上编码具有分布一致性的稀疏特征。假设该字典对齐目标函数存在解析解,提高解出最优坐标转换矩阵M*将第二字典BS向第一字典ST对齐,那么BObj=BSM*即为域适应字典。
在一些实施例中,要得到识别准确率较高的语音识别模型,上述步骤105具体包括:
D1、将方言样本输入语音识别模型,得到训练结果。
D2、根据训练结果计算损失值。
D3、判断方言样本的数量是否大于第一设定阈值。
D4、若方言样本的数量小于等于第一设定阈值,则根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
D5、若方言样本的数量大于第一设定阈值,则减小n的值,并根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
将方言样本输入语音识别模型之后,可以得到训练结果,根据训练结果可以计算出损失值。反向传播该损失值,可以让语音识别模型进行优化,当损失值满足预设条件时,则说明语音识别模型已经收敛。但是,除了让语音识别收敛,具备一定的识别准确度以外,还需要让语音识别模型学习迁移过来的前n层网络是否准确,即前n层网络是否都是用于提取通用特征的。要解决该问题,可以采用上述步骤D3~D5,即判断方言样本的数量是否大于第一设定阈值,如果方言样本的数量足够大,则需要减小n的值;相反,当方言样本的数量不够大,为了防止过拟合,无需对n的值进行调整,可以直接执行模型优化步骤。
在一些实施例中,除了根据方言样本的数量来确定是否对n的值进行调整,还可以通过判断n的值是够大于第二设定阈值来决定是否对n的值进行调整,即上述步骤105具体包括:
E1、将方言样本输入语音识别模型,得到训练结果。
E2、根据训练结果计算损失值。
E3、判断n是否大于第二设定阈值。
E4、若n大于第二设定阈值,则根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
E5、若n小于等于第二设定阈值,则增大n的值,并根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
其中步骤E1~E2与上述步骤D1~D2相同,在此不再赘述。步骤E3~E5,可以通过判断n的值是够大于第二设定阈值来决定是否对n的值进行调整。具体地,如果n的值较小,则需要增加n的值;相反,当n的值较大,为了防止过拟合,无需对n的值进行调整,可以直接执行模型优化步骤。
在一些实施例中,上述模型训练方法还可以包括:
将方言样本和/或训练完成的语音识别模型上传至区块链中。
其中,为了保证数据的安全性和对用户的公正透明性,可以将方言样本和/或训练完成的语音识别模型上传至区块链进行存证。用户随后即可通过各自的设备从区块链中下载获得方言样本和/或训练完成的语音识别模型,以便查证这些数据是否被篡改。本实施例所指区块链是采用分布式数据存储、点对点传输、共识机制及加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图2,图2是本申请实施例提供的一种模型训练方法装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1以及图1所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图2,模型训练方法装置20包括:
样本获取模块21,用于获取待训练方言的方言样本,待训练方言属于第一方言类型;
第一确定模块22,用于根据方言样本从预设的至少两种方言中确定目标方言,其中,至少两种方言属于第二方言类型,目标方言与待训练方言的相似度最高;
第二确定模块23,用于将目标方言的识别模型确定为源域识别模型;
模型构建模块24,用于将源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化语音识别模型的特定网络,其中,n为正整数,前n层网络为源域识别模型中用于提取通用特征的网络,特定网络为语音识别模型中除前n层网络以外的网络;
模型训练模块25,用于通过方言样本训练语音识别模型,获得训练完成的语音识别模型。
作为本申请一实施例,上述第一确定模块22具体包括:
分类单元,用于将方言样本输入已训练的分类模型中进行分类,得到分类结果;
第一确定单元,用于基于分类结果从至少两种方言中确定目标方言。
作为本申请一实施例,已训练的分类模型为基于稀疏编码模型进行分类的分类模型,上述分类单元包括:
编码子单元,用于利用稀疏编码模型中预先构建的域适应字典对方言样本进行编码,得到编码特征;
分类子单元,用于通过邻近算法根据编码特征得到分类结果。
作为本申请一实施例,上述模型训练方法装置20还包括编码模型训练模块,用于:
获取第一方言类型的第一样本集和第二方言类型的第二样本集;
分别利用第一样本集和第二样本集训练预先构建的稀疏编码模型,得到第一字典和第二字典;
调整稀疏编码模型的模型参数,使得第二字典向第一字典对齐,得到域适应字典。
作为本申请一实施例,上述模型训练模块25包括:
识别单元,用于将方言样本输入语音识别模型,得到训练结果;
计算单元,用于根据训练结果计算损失值;
第一优化单元,用于判断方言样本的数量是否大于第一设定阈值;
若方言样本的数量小于等于第一设定阈值,则根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
若方言样本的数量大于第一设定阈值,则减小n的值,并根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
作为本申请一实施例,上述模型训练模块25包括:
识别单元,用于将方言样本输入语音识别模型,得到训练结果;
计算单元,用于根据训练结果计算损失值;
第二优化单元,用于判断n是否大于第二设定阈值;
若n大于第二设定阈值,则根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
若n小于等于第二设定阈值,则增大n的值,并根据损失值调整语音识别模型的网络参数,以得到训练完成的语音识别模型。
作为本申请一实施例,上述模型训练方法装置20还包括:
数据上传模块,用于将待识别语音和/或训练完成的语音识别模型上传至区块链中。
应当理解的是,图2示出的模型训练方法装置的结构框图中,各单元用于执行图1对应的实施例中的各步骤,而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1所对应的实施例中的相关描述,此处不再赘述。
图3是本申请另一实施例提供的一种终端设备的结构框图。如图3所示,该实施例的终端设备30包括:处理器31、存储器32以及存储在上述存储器32中并可在上述处理器31上运行的计算机程序33,例如模型训练方法的程序。处理器31执行上述计算机程序33时实现上述各个模型训练方法各实施例中的步骤,例如图1所示的S101至S105。或者,上述处理器31执行上述计算机程序33时实现上述图2对应的实施例中各单元的功能,例如,图2所示的模块21至25的功能,具体请参阅图2对应的实施例中的相关描述,此处不赘述。
示例性的,上述计算机程序33可以被分割成一个或多个单元,上述一个或者多个单元被存储在上述存储器32中,并由上述处理器31执行,以完成本申请。上述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述上述计算机程序33在上述终端设备20中的执行过程。例如,上述计算机程序33可以被分割成样本获取模块21、第一确定模块22、第一确定模块23、模型构建模块24以及模型训练模块25,各模块具体功能参见上述。
上述转台设备可包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,图3仅仅是终端设备30的示例,并不构成对终端设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如上述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器32可以是上述终端设备30的内部存储单元,例如终端设备30的硬盘或内存。上述存储器32也可以是上述终端设备30的外部存储设备,例如上述终端设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述存储器32还可以既包括上述终端设备30的内部存储单元也包括外部存储设备。上述存储器32用于存储上述计算机程序以及上述转台设备所需的其他程序和数据。上述存储器32还可以用于暂时地存储已经输出或者将要输出的数据。
上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种模型训练方法,其特征在于,所述模型训练方法包括:
获取待训练方言的方言样本,所述待训练方言属于第一方言类型;
根据所述方言样本从预设的至少两种方言中确定目标方言,其中,所述至少两种方言属于第二方言类型,所述目标方言与所述待训练方言的相似度最高;
将所述目标方言的识别模型确定为源域识别模型;
将所述源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化所述语音识别模型的特定网络,其中,n为正整数,所述前n层网络为所述源域识别模型中用于提取通用特征的网络,所述特定网络为所述语音识别模型中除前n层网络以外的网络;
通过所述方言样本训练所述语音识别模型,获得训练完成的语音识别模型;
其中,所述目标方言根据所述方言样本和预先构建的域适应字典从预设的至少两种方言中确定,所述域适应字典通过以下步骤构建:
获取所述第一方言类型的第一样本集和所述第二方言类型的第二样本集;
分别基于所述第一样本集和所述第二样本集训练预先构建的稀疏编码模型,得到第一字典和第二字典;
调整所述稀疏编码模型的模型参数,使得所述第二字典向所述第一字典对齐,得到域适应字典;
具体地,基于所述第一样本集和所述第二样本集训练所述稀疏编码模型,得到两组稀疏编码模型;
将两组所述稀疏编码模型通过L2正则化构建出对应的最小化稀疏编码模型,具体表示如下:
其中,λβ为所述稀疏编码模型的参数,可根据训练结果做调整;||SS||1和||ST||1是所述第一样本集和所述第一样本集带L1惩罚项,λ为惩罚系数;表示在F空间下的所述第二样本集和所述第一样本集的重构误差项,/>表示在F空间下的所述第一样本集和所述第二样本集的重构误差项,XS为所述第二样本集的矩阵,BS和SS为所述第二字典和编码系数,XT为第一样本集矩阵,BT和ST为所述第一字典和编码系数,且BS≠BT。
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述方言样本从预设的至少两种方言中确定目标方言,包括:
将所述方言样本输入已训练的分类模型中进行分类,得到分类结果;
基于所述分类结果从所述至少两种方言中确定所述目标方言。
3.根据权利要求2所述的模型训练方法,其特征在于,所述已训练的分类模型为基于稀疏编码模型进行分类的分类模型,所述将所述方言样本输入已训练的分类模型中进行分类,得到分类结果,包括:
利用所述稀疏编码模型中预先构建的域适应字典对所述方言样本进行编码,得到编码特征;
通过邻近算法根据所述编码特征得到所述分类结果。
4.根据权利要求3所述的模型训练方法,其特征在于,所述域适应字典的构建方法包括:
获取所述第一方言类型的第一样本集和所述第二方言类型的第二样本集;
分别利用所述第一样本集和所述第二样本集训练预先构建的稀疏编码模型,得到第一字典和第二字典;
调整所述稀疏编码模型的模型参数,使得所述第二字典向所述第一字典对齐,得到域适应字典。
5.根据权利要求1-4任意一项所述的模型训练方法,其特征在于,所述通过所述方言样本训练所述语音识别模型,获得训练完成的语音识别模型,包括:
将所述方言样本输入所述语音识别模型,得到训练结果;
根据所述训练结果计算损失值;
判断所述方言样本的数量是否大于第一设定阈值;
若所述方言样本的数量小于等于所述第一设定阈值,则根据所述损失值调整所述语音识别模型的网络参数,以得到所述训练完成的语音识别模型;
若所述方言样本的数量大于所述第一设定阈值,则减小n的值,并根据所述损失值调整所述语音识别模型的网络参数,以得到所述训练完成的语音识别模型。
6.根据权利要求1-4任意一项所述的模型训练方法,其特征在于,所述通过所述方言样本训练所述语音识别模型,获得训练完成的语音识别模型,包括:
将所述方言样本输入所述语音识别模型,得到训练结果;
根据所述训练结果计算损失值;
判断n是否大于第二设定阈值;
若n大于第二设定阈值,则根据所述损失值调整所述语音识别模型的网络参数,以得到所述训练完成的语音识别模型;
若n小于等于第二设定阈值,则增大n的值,并根据所述损失值调整所述语音识别模型的网络参数,以得到所述训练完成的语音识别模型。
7.根据权利要求1所述的模型训练方法,其特征在于,在得到所述训练完成的语音识别模型之后,还包括:
将所述方言样本和/或所述训练完成的语音识别模型上传至区块链中。
8.一种模型训练装置,其特征在于,所述模型训练装置包括:
样本获取模块,用于获取待训练方言的方言样本,所述待训练方言属于第一方言类型;
第一确定模块,用于根据所述方言样本从预设的至少两种方言中确定目标方言,其中,所述至少两种方言属于第二方言类型,所述目标方言与所述待训练方言的相似度最高;
第二确定模块,用于将所述目标方言的识别模型确定为源域识别模型;
模型构建模块,用于将所述源域识别模型中的前n层网络迁移至预先构建的语音识别模型中,并初始化所述语音识别模型的特定网络,其中,n为正整数,所述前n层网络为所述源域识别模型中用于提取通用特征的网络,所述特定网络为所述语音识别模型中除前n层网络以外的网络;
模型训练模块,用于通过所述方言样本训练所述语音识别模型,获得训练完成的语音识别模型;
其中,所述第一确定模块具体用于:根据所述方言样本和预先构建的域适应字典从预设的至少两种方言中确定所述目标方言,所述域适应字典通过以下步骤构建:
获取所述第一方言类型的第一样本集和所述第二方言类型的第二样本集;
分别基于所述第一样本集和所述第二样本集训练预先构建的稀疏编码模型,得到第一字典和第二字典;
调整所述稀疏编码模型的模型参数,使得所述第二字典向所述第一字典对齐,得到域适应字典;
具体地,基于所述第一样本集和所述第二样本集训练所述稀疏编码模型,得到两组稀疏编码模型;
将两组所述稀疏编码模型通过L2正则化构建出对应的最小化稀疏编码模型,具体表示如下:
其中,λβ为所述稀疏编码模型的参数,可根据训练结果做调整;||SS||1和||ST||1是所述第一样本集和所述第一样本集带L1惩罚项,λ为惩罚系数;表示在F空间下的所述第二样本集和所述第一样本集的重构误差项,/>表示在F空间下的所述第一样本集和所述第二样本集的重构误差项,XS为所述第二样本集的矩阵,BS和SS为所述第二字典和编码系数,XT为第一样本集矩阵,BT和ST为所述第一字典和编码系数,且BS≠BT。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110740229.9A CN113469338B (zh) | 2021-06-30 | 2021-06-30 | 模型训练方法、模型训练装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110740229.9A CN113469338B (zh) | 2021-06-30 | 2021-06-30 | 模型训练方法、模型训练装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469338A CN113469338A (zh) | 2021-10-01 |
CN113469338B true CN113469338B (zh) | 2023-10-31 |
Family
ID=77876795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110740229.9A Active CN113469338B (zh) | 2021-06-30 | 2021-06-30 | 模型训练方法、模型训练装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469338B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113823262B (zh) * | 2021-11-16 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN116030793B (zh) * | 2023-03-30 | 2023-06-16 | 北京建筑大学 | 方言识别系统及其训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111627427A (zh) * | 2020-05-15 | 2020-09-04 | 北京青牛技术股份有限公司 | 特定领域的语音识别模型的构建方法 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
US10916242B1 (en) * | 2019-08-07 | 2021-02-09 | Nanjing Silicon Intelligence Technology Co., Ltd. | Intent recognition method based on deep learning network |
CN112712792A (zh) * | 2019-10-25 | 2021-04-27 | Tcl集团股份有限公司 | 一种方言识别模型的训练方法、可读存储介质及终端设备 |
-
2021
- 2021-06-30 CN CN202110740229.9A patent/CN113469338B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10916242B1 (en) * | 2019-08-07 | 2021-02-09 | Nanjing Silicon Intelligence Technology Co., Ltd. | Intent recognition method based on deep learning network |
CN112712792A (zh) * | 2019-10-25 | 2021-04-27 | Tcl集团股份有限公司 | 一种方言识别模型的训练方法、可读存储介质及终端设备 |
CN111627427A (zh) * | 2020-05-15 | 2020-09-04 | 北京青牛技术股份有限公司 | 特定领域的语音识别模型的构建方法 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于迁移学习优化的DCNN语音识别技术;张安安;邓芳明;;现代电子技术(第17期) * |
Also Published As
Publication number | Publication date |
---|---|
CN113469338A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022068314A1 (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
WO2021114840A1 (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN109785833A (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
WO2021253941A1 (zh) | 神经网络模型训练、图像分类、文本翻译方法及装置、设备 | |
CN113469338B (zh) | 模型训练方法、模型训练装置、终端设备及存储介质 | |
CN111460097B (zh) | 一种基于tpn的小样本文本分类方法 | |
CN112800190A (zh) | 基于Bert模型的意图识别与槽值填充联合预测方法 | |
CN117875395A (zh) | 多模态预训练模型的训练方法、装置及存储介质 | |
CN114281931A (zh) | 文本匹配方法、装置、设备、介质及计算机程序产品 | |
CN113886550A (zh) | 基于注意力机制的问答匹配方法、装置、设备及存储介质 | |
CN116484885A (zh) | 基于对比学习和词粒度权重的视觉语言翻译方法和系统 | |
CN116341558A (zh) | 一种基于多层级图神经网络的多模态情感识别方法及模型 | |
CN114757183A (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN118038497A (zh) | 一种基于sam的文本信息驱动的行人检索方法及系统 | |
CN118262874A (zh) | 一种基于知识图谱的中医诊疗模型数据扩充系统及方法 | |
CN116484851A (zh) | 基于变异字符检测的预训练模型训练方法及装置 | |
CN117437499A (zh) | 针对clip提取域不变特征与优化文本的迁移学习方法 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 | |
CN115762706A (zh) | 一种基于深度学习的药物表征方法及存储介质 | |
CN111291576B (zh) | 神经网络内部表示信息量确定方法、装置、设备、介质 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |