CN114882873B - 一种语音识别模型训练方法、装置和可读存储介质 - Google Patents

一种语音识别模型训练方法、装置和可读存储介质 Download PDF

Info

Publication number
CN114882873B
CN114882873B CN202210815593.1A CN202210815593A CN114882873B CN 114882873 B CN114882873 B CN 114882873B CN 202210815593 A CN202210815593 A CN 202210815593A CN 114882873 B CN114882873 B CN 114882873B
Authority
CN
China
Prior art keywords
extractor
vector
feature
voice
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210815593.1A
Other languages
English (en)
Other versions
CN114882873A (zh
Inventor
钟雨崎
凌明
杨作兴
艾国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202210815593.1A priority Critical patent/CN114882873B/zh
Publication of CN114882873A publication Critical patent/CN114882873A/zh
Application granted granted Critical
Publication of CN114882873B publication Critical patent/CN114882873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供了一种语音识别模型训练方法、装置和可读存储介质。所述方法包括:将当前迭代的语音样本进行等份切分得到第一语音片段序列,从中随机选取预设比例的语音片段得到第二语音片段序列,分别输入第一提取器得到第一特征组和第二特征组;对第二特征组填充预置向量;将第一特征组输入表示器处理得到第一向量组;将填充后的第二特征组输入第二提取器处理得到第二向量组;根据第一向量组和第二向量组计算第一损失值,并调整第一提取器、第二提取器和表示器的参数,进行迭代训练;基于训练样本集中的语音样本和语音样本对应的标签数据,利用训练完成的特征提取器训练分类器。本发明可以利用少量的标注数据训练识别准确的语音识别模型。

Description

一种语音识别模型训练方法、装置和可读存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别模型训练方法、装置和可读存储介质。
背景技术
随着人工智能的快速发展,语音识别技术得到了广泛应用。例如手机中的语音转文字功能,又如,以语音为智能交互的智能家居应用等,都需要使用语音识别技术。
语音识别模型的准确度直接影响语音识别的效果,训练语音识别模型需要收集特定语种的语音数据,再由人工进行数据标注,得到训练数据。训练数据的数据量越多,训练得到的语音识别模型的效果越好。
然而,如果需要训练可以识别小语种的语音识别模型,需要收集小语种的语音数据,并进行人工标注。但是小语种的语音数据数量较少,收集较为困难,且采用人工进行标注的成本较高,因此,亟需一种高效的利用少量的标注数据训练识别准确的语音识别模型,例如,对于小语种语音识别模型的训练方法。
发明内容
本发明实施例提供一种语音识别模型训练方法、装置和可读存储介质,可以利用少量的标注数据训练识别准确的语音识别模型。
第一方面,本发明实施例公开了一种语音识别模型训练方法,所述方法用于基于训练样本集训练语音识别模型,所述语音识别模型包括特征提取器和分类器,所述特征提取器包括第一提取器和第二提取器,所述训练样本集包括多个语音样本和每个语音样本对应的标签数据,所述方法包括:
从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列;
将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组;
在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等;
将所述第一特征组输入表示器进行处理,得到第一向量组,以及将所述填充后的第二特征组输入所述第二提取器进行处理,得到第二向量组;
根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器;
基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器。
第二方面,本发明实施例公开了一种语音识别方法,所述方法包括:
获取待识别的语音信号;
将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果;其中,所述语音识别模型根据上述一个或多个所述的语音识别模型训练方法训练得到。
第三方面,本发明实施例公开了一种语音识别模型训练装置,所述装置用于基于训练样本集训练语音识别模型,所述语音识别模型包括特征提取器和分类器,所述特征提取器包括第一提取器和第二提取器,所述训练样本集包括多个语音样本和每个语音样本对应的标签数据,所述装置包括:
语音切分模块,用于从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列;
第一处理模块,用于将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组;
向量填充模块,用于在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等;
第二处理模块,用于将所述第一特征组输入表示器进行处理,得到第一向量组,以及将所述填充后的第二特征组输入所述第二提取器进行处理,得到第二向量组;
第一迭代模块,用于根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器;
微调模块,用于基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器。
第四方面,本发明实施例公开了一种语音识别装置,所述装置包括:
语音获取模块,用于获取待识别的语音信号;
语音识别模块,用于将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果;其中,所述语音识别模型根据前述一个或多个所述的语音识别模型训练方法训练得到。
第五方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如前述一个或多个所述的语音识别模型训练方法。
本发明实施例包括以下优点:
为解决例如小语种的标注数据较少的问题,本发明实施例先使用无标注的语音样本无监督地训练语音识别模型中的特征提取器,再利用训练完成的特征提取器,使用少量的有标注的语音样本进行有监督的训练语音识别模型中的分类器,可以提升语音识别模型在小语种的少量样本情况下的泛化能力。此外,为了提升特征提取器的特征表征能力,本发明实施例中的特征提取器包括第一提取器和第二提取器,在预训练阶段,本发明实施例增加表示器,用于联合训练第一提取器和第二提取器。输入第二提取器的有效信息仅为输入表示器的一部分,预训练的目的在于,使得第二提取器通过有限的信息还原出完整的特征表示,也即,期望第二提取器生成的高维度特征向量和表示器生成的高维度特征向量相同。本发明实施例在预训练阶段通过第一提取器、第二提取器、以及表示器之间的联合训练,使得训练完成的第一提取器和第二提取器具有更强的特征表征能力,第一提取器提取出来的特征向量能够使得第二提取器仅通过部分有效信息就可以预测出完整的特征表示向量。由此,基于训练完成的第一提取器和第二提取器对分类器进行有监督的训练,即使利用少量的有标注的语音样本,也可以训练得到识别准确的语音识别模型的分类器。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种语音识别模型训练方法实施例的步骤流程图;
图2是本发明的一种语音识别模型的预训练阶段示意图;
图3是本发明的一种语音识别模型的网络结构示意图;
图4是本发明的一种语音识别方法实施例的步骤流程图;
图5是本发明的一种语音识别模型训练装置实施例的结构框图;
图6是本发明的一种语音识别装置实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中的术语“和/或”用于描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本发明实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
参照图1,示出了本发明的一种语音识别模型训练方法实施例的步骤流程图,所述方法用于基于训练样本集训练语音识别模型,所述语音识别模型包括特征提取器和分类器,所述特征提取器包括第一提取器和第二提取器,所述训练样本集包括多个语音样本和每个语音样本对应的标签数据,所述方法可以包括如下步骤:
步骤101、从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列;
步骤102、将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组;
步骤103、在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等;
步骤104、将所述第一特征组输入表示器进行处理,得到第一向量组,以及将所述填充后的第二特征组输入所述第二提取器进行处理,得到第二向量组;
步骤105、根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器;
步骤106、基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器。
本发明提出了一种语音识别模型训练方法,所述方法可用于基于训练样本集训练端到端的语音识别模型。所述语音识别模型基于encoder-decoder(编码器-解码器)结构。encoder-decoder并不是一个具体的模型,而是一个通用的框架。在该框架中,编码过程将输入序列转化成固定长度的向量,解码过程将生成的固定长度的向量转化成输出序列。
在本发明实施例中,所述语音识别模型包括特征提取器和分类器,其中,特征提取器对应encoder-decoder结构中的encoder,分类器对应encoder-decoder结构中的decoder。
为解决例如小语种的语音数据数量较少,收集较为困难的问题,本发明实施例训练语音识别模型包括两个阶段:预训练阶段和微调阶段。预训练阶段用于使用无标注的语音样本进行无监督训练,得到训练完成的特征提取器。微调阶段用于利用训练完成的特征提取器,使用少量的有标注的语音样本进行有监督的训练,得到训练完成的分类器。在分类器训练完成之后,组合训练完成的特征提取器和分类器即可得到训练完成的语音识别模型。
所述语音样本可以包含小语种或者方言等小众语言的语音样本,由此训练完成的语音识别模型可以准确识别小语种或者方言等语音信号。
进一步地,本发明实施例中的特征提取器包括第一提取器和第二提取器。第一提取器用于对输入的语音片段序列进行特征提取,得到特征组,并将特征组输入第二提取器。特征提取是指从原始语音中提取出具有稳定性、区分性的特征表示向量,也即从原始语音中提取出包括语音信号的特征向量。第二提取器用于对输入的特征组中的特征向量进行编码,得到高维的向量组,并将向量组输入分类器。分类器用于对输入的向量组中的每个高维向量进行分类,得到语音识别结果。所述语音识别结果可以是音素(phone)序列或文字序列。
上述步骤101至步骤105为预训练阶段,步骤106为微调阶段。
参照图2,示出了本发明的一种语音识别模型的预训练阶段示意图。如图2所示的预训练阶段用于训练语音识别模型中的特征提取器,该特征提取器包括第一提取器201和第二提取器202,本发明实施例在预训练阶段增加表示器203,用于联合训练第一提取器201和第二提取器202。本发明实施例将第一提取器记为encoder-part1,将第二提取器记为encoder-part2。
预训练阶段是迭代训练特征提取器(包括第一提取器和第二提取器)的过程。为了提高特征提取器的特征表征能力,所述训练样本集可以包括尽量多种类的语音信号。此外,本发明实施例采用无监督的方法训练特征提取器。具体地,对于当前迭代,首先从所述训练样本集中获取用于进行当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,并从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列。
当前迭代的语音样本为一段语音信号。假设该语音样本的时长为900ms,可以等份切分为9份,得到第一语音片段序列,如记为sample1,该第一语音片段序列sample1由9个100ms的语音片段组成。本发明实施例对等份切分得到的份数不做限制。从第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列。本发明实施例对所述预设比例的具体数值不做限制,以所述预设比例为50%为例。在上述示例中,第一语音片段序列包括9个语音片段,假设依次记为c1、c2、c3、c4、c5、c6、c7、c8和c9。
在本发明实施例中,所述第一语音片段序列中包含n个语音片段,所述第二语音片段序列中包含m个语音片段,则m=n*k,k为预设比例。在上述示例中,n=9,k=0.5,m=4.5。在m为小数时,可以对m向上取整或者向下取整。上述示例中需要从9个语音片段中随机选择4个或5个语音片段组成第二语音片段序列。以随机选择5个为例,假设得到的第二语音片段序列包括随机选取的如下语音片段:c1、c3、c5、c6和c7。在该示例中,将第二语音片段序列记为sample2。
然后,将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组。
所述第一特征组中包含所述第一提取器分别对所述第一语音片段序列中的n个语音片段进行特征提取得到的n个特征向量,所述第二特征组中包含所述第一提取器分别对所述第二语音片段序列中的m个语音片段进行特征提取得到的m个特征向量。
假设第一提取器可以将一段100ms的语音信号压缩(编码)为一个维度为V的特征向量,则第一语音片段序列sample1经过第一提取器的特征提取处理,得到第一特征组,该第一特征组包括9个维度分别为V的特征向量,每个特征向量对应第一语音片段序列sample1中的一个语音片段。如第一特征组包括如下特征向量:V1、V2、V3、V4、V5、V6、V7、V8和V9。其中,特征向量V1根据语音片段c1提取得到,特征向量V2根据语音片段c2提取得到,依次类推。第二语音片段序列sample2经过第一提取器的特征提取处理,得到第二特征组,该第二特征组包括5个维度分别为V的特征向量,每个特征向量对应第二语音片段序列中的一个语音片段。如第二特征组包括如下特征向量:V1、V3、V5、V6和V7。
接下来,在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等。这一步用于对第二特征组中缺失的向量进行填充,使得填充后的第二特征组与所述第一特征组的长度相等,该操作仅存在于预训练阶段。如上述示例中,填充后的第二特征组包含9个特征向量,其中包括从语音片段提取得到的5个特征向量和填充得到的4个预置向量。
所述预置向量与第一提取器输出的特征向量的维度相同,本发明实施例对所述预置向量中的元素值不做限制。可选地,所述预置向量为0向量。在上述示例中,所述预置向量可以为维度为V的0向量,0向量中各元素的值均为0。
在本发明的一种可选实施例中,所述在所述第二特征组中填充预置向量,可以包括:
步骤S11、确定所述第二特征组中相对于所述第一特征组中的缺失向量的位置;
步骤S12、将所述第二特征组中每个缺失向量的位置处填充预置向量。
以上述示例为例,第二语音片段序列sample2相对于第一语音片段序列sample1,缺少了语音片段c2、c4、c8和c9,因此,第二特征组中相对于所述第一特征组中的缺失向量的位置分别为特征向量V2、V4、V8和V9对应的位置。将所述第二特征组中每个缺失向量的位置处填充预置向量。也即,在第二特征组中特征向量V1和特征向量V3之间插入预置向量V2',在特征向量V3和特征向量V5之间插入预置向量V4',在特征向量V7之后插入预置向量V8'和V9',从而使得第二特征组包含9个特征向量,每个特征向量的维度均为V。其中,预置向量V2'、V4'、V8'和V9'均为0向量。填充后的第二特征组包含如下特征向量:V1、V2'、V3、V4'、V5、V6、V7、V8'和V9'。
将所述第一特征组输入表示器进行编码处理,得到第一向量组,以及将所述填充后的第二特征组输入第二提取器进行编码处理,得到第二向量组。
本发明实施例增加表示器,用于联合训练第一提取器和第二提取器。所述表示器也是一种编码器,其作用是将第一提取器输出的特征向量进行编码,得到更加丰富的特征信息。
本发明期望第二提取器输出的高维向量与表示器生成的高维向量相同。但是输入表示器的是从完整的语音信号提取的特征向量,而输入第二提取器的是从不完整的语音信号提取的特征向量。本发明实施例通过将表示器输出的高维向量与第二提取器输出的高维向量进行比较,根据二者的差异迭代优化第一提取器、第二提取器、以及表示器的参数,使得第二提取器具有通过有限的语音信息还原出完整的特征表示向量的能力,也即,第二提取器能够通过观察插入的预置向量周边的向量,将插入的预置向量还原为第一向量组中对应位置的高维向量。由此训练得到的第一提取器和第二提取器具有更强的特征表征能力,通过第一提取器提取出的特征向量,第二提取器使用其中的一部分即可预测出完整的特征表示向量,可以提升语音识别模型的泛化能力。
在本发明实施例中,所述第一向量组中包含所述表示器分别对所述第一特征组中的n个特征向量进行编码得到的n个高维向量,所述第二向量组中包含所述第二提取器分别对所述填充后的第二特征组中的n个特征向量进行编码得到的n个高维向量。
所述第一提取器、第二提取器和表示器可以为神经网络,本发明实施例对第一提取器、第二提取器和表示器的网络结构均不做限制,三者可以采用相同的网络结构,也可以采用不同的网络结构。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套:CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short-TermMemory,长短时记忆)网络、RNN(Simple Recurrent Neural Network,循环神经网络)、Transformer变形网络、注意力神经网络等。
最后,根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数。所述参数指的是第一提取器、第二提取器和表示器的网络参数,在预训练开始时,可以分别设置第一提取器、第二提取器和表示器初始的网络参数,通过迭代训练不断优化调整第一提取器、第二提取器和表示器的网络参数。若当前未到达迭代停止条件,则进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器,此时预训练阶段结束。
在本发明实施例中,第一提取器、第二提取器和表示器均为编码器。在预训练阶段,第一提取器用于将输入的语音片段编码为表征语音特征的向量(简称为特征向量),也即,第一提取器对输入的语音片段提取语音特征,得到特征向量,该特征向量是指将语音信号映射至高维向量空间得到的结果。具体地,第一提取器对输入的第一语音片段序列中的语音片段逐一提取语音特征,输出第一特征组,以及对输入的第二语音片段序列中的语音片段逐一提取语音特征,输出第二特征组。第一特征组中包含对第一语音片段序列中每个语音片段提取语音特征得到的特征向量。第二特征组中包含对第二语音片段序列中每个语音片段提取语音特征得到的特征向量。第二提取器和表示器用于对第一提取器输出的特征向量再次进行编码,输出含义更加丰富的特征向量(简称为高维向量),该高维向量包含更加丰富、抽象的特征信息,如隐式语义等。需要说明的是,表示器和第二提取器输出的高维向量与第一提取器输出的特征向量相比具有相同的维度,但是包含更加丰富、抽象的特征信息。具体地,表示器对第一提取器输出的第一特征组中的特征向量逐一进行编码,输出第一向量组。第一向量组中包含对第一特征组中每个特征向量编码得到的高维向量。第二提取器对填充后的第二特征组中的特征向量逐一进行编码,输出第二向量组。第二向量组中包含对填充后的第二特征组中每个特征向量(包括填充的预置向量)编码得到的高维向量。
在本发明实施例中,利用表示器和第二提取器提取高维向量的目的在于,使得经过预训练的第二提取器具有通过有限的信息可以还原出完整的特征表征的能力。因此,第二提取器对填充后的第二特征组中的n个特征向量进行编码得到的第二向量组应满足如下期望条件:填充后的第二特征组中的预置向量(如0向量)经过第二提取器的编码处理后得到的高维向量,应当与第一向量组中相同位置的高维向量尽可能相似,而与第一向量组中不同位置的高维向量尽可能不相似。本发明实施例基于该期望条件,计算第一损失值。
在本发明的一种可选实施例中,所述根据所述第一向量组和所述第二向量组计算第一损失值,可以包括:
步骤S21、对于所述第二向量组中的每个预置向量对应的高维向量,计算所述每个预置向量与所述第一向量组中的同位置向量对应的高维向量之间的第一相似度,以及计算所述每个预置向量与所述第一向量组中的不同位置向量对应的高维向量之间的第二相似度;
步骤S22、根据所述第一相似度和所述第二相似度,计算第一损失值。
在上述示例中,第一特征组经过表示器的编码处理后,得到第一向量组,假设该第一向量组中包括如下高维向量:a1、a2、a3、a4、a5、a6、a7、a8和a9。其中,a1为表示器对特征向量V1进行编码得到,a2为表示器对特征向量V2进行编码得到,以此类推。填充后的第二特征组经过第二提取器的编码处理后,得到第二向量组,假设该第二向量组中包括如下高维向量:b1、b2、b3、b4、b5、b6、b7、b8和b9。b1为第二提取器对特征向量V1进行编码得到,b2为第二提取器对特征向量V2'进行编码得到,以此类推。
在所述第二向量组中,b2、b4、b8和b9为填充后的第二特征组中预置向量V2'、V4'、V8'和V9'分别对应的高维向量。填充后的第二特征组中的预置向量V2'与第一特征组中的特征向量V2为同位置向量,因此,期望b2和a2尽可能相似。同样的,期望b4和a4尽可能相似,期望b8和a8尽可能相似,以及期望b9和a9尽可能相似。填充后的第二特征组中的预置向量V2'与第一特征组中除特征向量V2之外的其他特征向量均为不同位置向量,因此,期望b2与除a2之外的其他每个高维向量都尽可能不相似。同样的,期望b4与除a4之外的其他每个高维向量都尽可能不相似,期望b8与除a8之外的其他每个高维向量都尽可能不相似,以及期望b9与除a9之外的其他每个高维向量都尽可能不相似。在具体实施中,所述第一相似度和第二相似度可以为向量之间的余弦相似度。
可选地,将每个第一相似度求和并计算平均值,记为t1,以及将每个第二相似度求和并计算平均值,记为t2。例如,t1为b2与a2的余弦相似度、b4与a4的余弦相似度、b8与a8的余弦相似度、以及b9与a9的余弦相似度的和的平均值。t2为b2与除a2之外的其他每个高维向量的余弦相似度、b4与除a4之外的其他每个高维向量的余弦相似度、b8与除a8之外的其他每个高维向量的余弦相似度、以及b9与除a9之外的其他每个高维向量的余弦相似度的和的平均值。
可选地,可以通过下式计算第一损失值loss1:
loss1=(1-t1)+t2(1)
预训练的达迭代停止条件可以为loss1小于预设阈值,该预设阈值可以为一个较小的经验值。或者,预训练的达迭代停止条件可以为迭代次数到达预设次数。
当然,第一损失值的计算方式并不限于上述列举的方式,还可以使用通用的损失函数计算第一损失值。通用的损失函数例如交叉熵损失函数、余弦相似度损失函数等。
在本发明实施例中,通过对特征提取器进行无监督的预训练,能够提升特征提取器输出的特征表征能力,进而提升后续的训练效率和训练效果。
预训练阶段完成之后可以得到训练完成的特征提取器,所述训练完成的特征提取器包括训练完成的第一提取器和训练完成的第二提取器。
在本发明实施例中,语音识别模型包括特征提取器和与特征提取器相连接的分类器。具体地,特征提取器包括第一提取器和第二提取器,第一提取器的输出与第二提取器的输入相连接,第二提取器的输出与分类器的输入相连接。
在获得训练完成的第一提取器和训练完成的第二提取器之后,可以固定第一提取器和第二提取器的参数,利用训练完成的第一提取器和训练完成的第二提取器有监督地训练分类器,在迭代训练过程中更新分类器的参数,在到达迭代停止条件时得到训练完成的分类器。
在本发明的一种可选实施例中,所述基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器,可以包括:
步骤S31、从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列;
步骤S32、将所述第一语音片段序列输入训练完成的第一提取器进行处理,得到第三特征组;
步骤S33、将所述第三特征组输入训练完成的第二提取器进行处理,得到第三向量组;
步骤S34、将所述第三向量组输入分类器进行处理,得到所述第三向量组中每个向量对应的识别结果;
步骤S35、获取所述第一语音片段序列中每个语音片段对应的标签数据,所述第一语音片段序列中每个语音片段与所述第三向量组中每个向量具有一一对应的关系;
步骤S36、根据所述第三向量组中每个向量对应的识别结果与所述第一语音片段序列中每个语音片段对应的标签数据之间的差异,计算第二损失值;
步骤S37、根据所述第二损失值调整所述分类器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的分类器。
在微调阶段,利用预训练阶段训练完成的特征提取器,对语音样本进行特征提取,将得到的向量组输入分类器进行迭代训练。
分类器的训练是有监督的训练。示例性地,假设将当前迭代的语音样本进行等份切分得到第一语音片段序列为sample1,sample1包括9个语音片段,依次记为c1、c2、c3、c4、c5、c6、c7、c8和c9。sample1经过训练完成的第一提取器进行特征提取处理,得到第三特征组,第三特征组中包括对所述9个语音片段分别进行特征提取得到的9个特征向量。所述第三特征组再经过训练完成的第二提取器进行编码处理,得到第三向量组。第二提取器经过预训练阶段的训练,具有更强的特征表征能力,即使通过有限的信息也能够还原出完整的特征表示,因此,在训练分类器的过程中,利用第二提取器对第一提取器编码得到的特征向量再次进行编码,得到的高维向量具有更准确、更完整的特征表达能力,使得分类器基于第二提取器输出的高维向量进行识别,可以得到更加准确的识别结果,为分类器的精准识别提供基础。在微调阶段,第二提取器对于每个语音样本都可以输出更准确、更完整的表征语音特征的高维向量,由此,即使利用少量的有标注的语音样本,也可以保证训练分类器的效果,可以提升语音识别模型在例如小语种的少量样本情况下的泛化能力。
在该示例中,第三向量组中包括第二提取器分别对所述9个特征向量进行编码得到的9个高维向量。假设第三向量组中包括如下高维向量:d1、d2、d3、d4、d5、d6、d7、d8和d9。第三向量组经过分类器的识别处理,得到所述第三向量组中每个向量对应的识别结果,如J1、J2、J3、J4、J5、J6、J7、J8和J9。假设9个语音片段c1、c2、c3、c4、c5、c6、c7、c8和c9分别对应的标签数据为L1、L2、L3、L4、L5、L6、L7、L8和L9,则根据所述第三向量组中每个向量对应的识别结果与所述第一语音片段序列中每个语音片段对应的标签数据之间的差异,计算第二损失值。根据所述第二损失值调整所述分类器的参数,并固定第一提取器和第二提取器的参数不变,其中,分类器的参数指分类器的网络参数,若未到达迭代停止条件,则进入下一轮迭代,在到达迭代停止条件时得到训练完成的分类器,此时微调阶段结束。在迭代训练过程中,按照最小化目标损失的方向,基于梯度下降算法获得本次迭代训练对应的梯度,按照梯度更新分类器的参数。梯度下降算法可以是随机梯度下降算法,或者基于随机梯度下降算法优化的算法等。
所述分类器可以为神经网络,本发明实施例对分类器的网络结构不做限制,所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套:CNN网络、LSTM网络、RNN网络、Transformer变形网络、注意力神经网络等。
在具体实施中,可以使用通用的损失函数计算第二损失值。通用的损失函数例如交叉熵损失函数、余弦相似度损失函数等。
本发明实施例先使用无标注的语音样本无监督地训练特征提取器,再利用训练完成的特征提取器,使用少量的有标注的语音样本进行有监督的训练分类器,可以提升语音识别模型在例如小语种的少量样本情况下的泛化能力。此外,由于例如小语种的标注数据较少,如果有监督的训练特征提取器,将导致特征提取器的特征表达能力较弱,因此,本发明实施例将特征提取器分为两部分,包括第一提取器和第二提取器,并增加了表示器用于指导训练第二提取器,表示器仅在预训练阶段使用。本发明实施例的预训练阶段的目的在于,期望训练好的第二提取器生成的高维向量和表示器生成的高维向量相同。由于输入第二提取器的有效信息仅为输入表示器的一部分,如上述示例中,输入表示器的有效的特征向量包括V1、V2、V3、V4、V5、V6、V7、V8和V9,而输入第二提取器的有效的特征向量包括V1、V3、V5、V6和V7。第二提取器需要通过有限的信息来还原出完整的特征表示,也即,第二提取器仅通过特征向量V1、V3、V5、V6和V7,就可以编码出V1、V2、V3、V4、V5、V6、V7、V8、V9对应的高维向量。本发明实施例通过第一提取器、第二提取器、以及表示器之间的联合训练,使得训练完成的第一提取器和第二提取器都具有更强的特征表征能力,第一提取器提取出来的特征向量能够使得第二提取器仅通过部分有效信息就可以补全出缺失的部分。
本发明实施例对所述第一提取器、第二提取器、表示器、以及分类器的网络结构均不做限制。在本发明的一种可选实施例中,所述第一提取器可以为三层一维的卷积网络,所述第二提取器可以为Transformer变形网络,所述表示器可以为一层全连接层,所述分类器可以为一层全连接层。
参照图3,示出了本发明的一种语音识别模型的网络结构示意图。如图3所示的语音识别模型包括第一提取器301、第二提取器302和分类器303,第一提取器301包括三层一维的卷积网络(CNN),第二提取器302为一个Transformer网络,分类器303为一层全连接层(Dense)。
需要说明的是,图3仅示出了本发明的一种语音识别模型的网络结构的一个示例,本发明实施例对语音识别模型的网络结构不做限制。在具体实施中,特征提取器可以采用通用的特征提取网络,例如CNN、RNN等。
在语音识别模型训练完成之后,可以利用训练完成的语音识别模型进行语音识别。参照图4,示出了本发明的一种语音识别方法实施例的步骤流程图,所述方法可以包括如下步骤:
步骤401、获取待识别的语音信号;
步骤402、将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果;其中,所述语音识别模型根据上述一个或多个实施例中所述的语音识别模型训练方法训练得到,所述语音识别结果可以是所述待识别的语音信号对应的音素或文字。
本发明实施例的语音识别方法可适用于小语种或者方言等小众语言的语音识别场景。所述待识别的语音信号可以是包含小语种或者方言等小众语言的语音信号。所述待识别的语音信号可以是语音交互场景下接收到的语音信号,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。
本发明实施例提供的语音识别方法,可应用于语音交互场景,例如虚拟机器人交互场景、智能设备控制场景、机器翻译场景、语音消息的文本转换场景等。语音交互场景中通常涉及语音识别技术和语义识别技术,语音识别技术可将语音信号转化为文字,语义识别技术可识别由语音信号转化得到的文字的意图。本发明训练得到的语音识别模型,可应用于语音识别技术。
例如,终端上安装有虚拟机器人程序,该虚拟机器人程序的后台服务器存储有本发明训练得到的语音识别模型。终端通过虚拟机器人程序接收用户输入的语音信号,后台服务器存储的语音识别模型识别语音信号对应的文本,终端可基于该文本或该文本的语义识别结果,执行相应的操作。
又如,终端上安装有翻译客户端,翻译客户端的后台服务器存储有本发明训练得到的语音识别模型。终端通过翻译客户端接收用户输入的语音信号,后台服务器存储的语音识别模型识别语音信号对应的文本,对该文本或该文本的语义识别结果进行翻译,获得翻译结果,终端输出该语音信号对应的翻译结果。
训练完成的语音识别模型包括训练完成的第一提取器、第二提取器和分类器,所述将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果,可以包括:将获取的待识别的语音信号进行等份切分得到待识别的语音片段序列,将所述待识别的语音片段序列输入第一提取器进行处理,得到待识别的特征组;将所述待识别的特征组输入第二提取器进行处理,得到待识别的向量组;将所述待识别的向量组输入分类器进行处理,通过所述分类器输出语音识别结果。
综上,为解决小语种的标注数据较少的问题,本发明实施例先使用无标注的语音样本无监督地训练语音识别模型中的特征提取器,再利用训练完成的特征提取器,使用少量的有标注的语音样本进行有监督的训练语音识别模型中的分类器,可以提升语音识别模型在小语种的少量样本情况下的泛化能力。此外,为了提升特征提取器的特征表征能力,本发明实施例中的特征提取器包括第一提取器和第二提取器,在预训练阶段,本发明实施例增加表示器,用于联合训练第一提取器和第二提取器。输入第二提取器的有效信息仅为输入表示器的一部分,预训练的目的在于,使得第二提取器通过有限的信息还原出完整的特征表示,也即,期望第二提取器生成的高维度特征向量和表示器生成的高维度特征向量相同。本发明实施例在预训练阶段通过第一提取器、第二提取器、以及表示器之间的联合训练,使得训练完成的第一提取器和第二提取器具有更强的特征表征能力,第一提取器提取出来的特征向量能够使得第二提取器仅通过部分有效信息就可以预测出完整的特征表示向量。由此,基于训练完成的第一提取器和第二提取器对分类器进行有监督的训练,即使利用少量的有标注的语音样本,也可以训练得到效果较佳的分类器。可以理解的是,本发明实施例的语音识别模型训练方法不限于训练小语种的语音识别模型的场景,对于任意标注数据较少的训练场景均可适用,如训练方言的语音识别模型等。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种语音识别模型训练装置实施例的结构框图,所述装置用于基于训练样本集训练语音识别模型,所述语音识别模型包括特征提取器和分类器,所述特征提取器包括第一提取器和第二提取器,所述训练样本集包括多个语音样本和每个语音样本对应的标签数据,所述装置可以包括:
语音切分模块501,用于从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列;
第一处理模块502,用于将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组;
向量填充模块503,用于在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等;
第二处理模块504,用于将所述第一特征组输入表示器进行处理,得到第一向量组,以及将所述填充后的第二特征组输入所述第二提取器进行处理,得到第二向量组;
第一迭代模块505,用于根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器;
微调模块506,用于基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器。
可选地,所述向量填充模块,包括:
位置确定子模块,用于确定所述第二特征组中相对于所述第一特征组中的缺失向量的位置;
向量填充子模块,用于将所述第二特征组中每个缺失向量的位置处填充预置向量。
可选地,所述第一迭代模块,包括:
相似度计算子模块,用于对于所述第二向量组中的每个预置向量对应的高维向量,计算所述每个预置向量与所述第一向量组中的同位置向量对应的高维向量之间的第一相似度,以及计算所述每个预置向量与所述第一向量组中的不同位置向量对应的高维向量之间的第二相似度;
第一损失计算子模块,用于根据所述第一相似度和所述第二相似度,计算第一损失值。
可选地,所述训练完成的特征提取器包括训练完成的第一提取器和训练完成的第二提取器,所述微调模块,包括:
切分子模块,用于从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列;
特征提取子模块,用于将所述第一语音片段序列输入训练完成的第一提取器进行处理,得到第三特征组;
向量编码子模块,用于将所述第三特征组输入训练完成的第二提取器进行处理,得到第三向量组;
结果识别子模块,用于将所述第三向量组输入分类器进行处理,得到所述第三向量组中每个向量对应的识别结果;
标签获取子模块,用于获取所述第一语音片段序列中每个语音片段对应的标签数据,所述第一语音片段序列中每个语音片段与所述第三向量组中每个向量具有一一对应的关系;
第二损失计算子模块,用于根据所述第三向量组中每个向量对应的识别结果与所述第一语音片段序列中每个语音片段对应的标签数据之间的差异,计算第二损失值;
第二迭代子模块,用于根据所述第二损失值调整所述分类器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的分类器。
可选地,所述第一语音片段序列中包含n个语音片段,所述第二语音片段序列中包含m个语音片段,m=n*k,k为预设比例,所述第一特征组中包含所述第一提取器分别对所述第一语音片段序列中的n个语音片段进行特征提取得到的n个特征向量,所述第二特征组中包含所述第一提取器分别对所述第二语音片段序列中的m个语音片段进行特征提取得到的m个特征向量。
可选地,所述第一向量组中包含所述表示器分别对所述第一特征组中的n个特征向量进行编码得到的n个高维向量,所述第二向量组中包含所述第二提取器分别对所述填充后的第二特征组中的n个特征向量进行编码得到的n个高维向量。
可选地,所述第一提取器为三层一维的卷积网络,所述第二提取器为Transformer变形网络,所述表示器为一层全连接层,所述分类器为一层全连接层。
参照图6,示出了本发明的一种语音识别装置实施例的结构框图,所述装置可以包括:
语音获取模块601,用于获取待识别的语音信号;
语音识别模块602,用于将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果;其中,所述语音识别模型根据上述一个或多个实施例中所述的语音识别模型训练方法训练得到。
本发明实施例的语音识别装置可适用于小语种或者方言等小众语言的语音识别场景。
为解决小语种的标注数据较少的问题,本发明实施例先使用无标注的语音样本无监督地训练语音识别模型中的特征提取器,再利用训练完成的特征提取器,使用少量的有标注的语音样本进行有监督的训练语音识别模型中的分类器,可以提升语音识别模型在小语种的少量样本情况下的泛化能力。此外,为了提升特征提取器的特征表征能力,本发明实施例中的特征提取器包括第一提取器和第二提取器,在预训练阶段,本发明实施例增加表示器,用于联合训练第一提取器和第二提取器。输入第二提取器的有效信息仅为输入表示器的一部分,预训练的目的在于,使得第二提取器通过有限的信息还原出完整的特征表示,也即,期望第二提取器生成的高维度特征向量和表示器生成的高维度特征向量相同。本发明实施例在预训练阶段通过第一提取器、第二提取器、以及表示器之间的联合训练,使得训练完成的第一提取器和第二提取器具有更强的特征表征能力,第一提取器提取出来的特征向量能够使得第二提取器仅通过部分有效信息就可以预测出完整的特征表示向量。由此,基于训练完成的第一提取器和第二提取器对分类器进行有监督的训练,即使利用少量的有标注的语音样本,也可以训练得到效果较佳的分类器。可以理解的是,本发明实施例的语音识别模型训练方法不限于训练小语种的语音识别模型的场景,对于任意标注数据较少的训练场景均可适用,如训练方言的语音识别模型等。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行前文图1所对应实施例中语音识别模型训练方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种语音识别模型训练方法、装置和可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种语音识别模型训练方法,其特征在于,所述方法用于基于训练样本集训练语音识别模型,所述语音识别模型包括特征提取器和分类器,所述特征提取器包括第一提取器和第二提取器,所述训练样本集包括多个语音样本和每个语音样本对应的标签数据,所述方法包括:
从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列;
将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组;
在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等;
将所述第一特征组输入表示器进行处理,得到第一向量组,以及将所述填充后的第二特征组输入所述第二提取器进行处理,得到第二向量组;
根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器;
基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器;
其中,所述在所述第二特征组中填充预置向量,包括:
确定所述第二特征组中相对于所述第一特征组中的缺失向量的位置;
将所述第二特征组中每个缺失向量的位置处填充预置向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一向量组和所述第二向量组计算第一损失值,包括:
对于所述第二向量组中的每个预置向量对应的高维向量,计算所述每个预置向量与所述第一向量组中的同位置向量对应的高维向量之间的第一相似度,以及计算所述每个预置向量与所述第一向量组中的不同位置向量对应的高维向量之间的第二相似度;
根据所述第一相似度和所述第二相似度,计算第一损失值。
3.根据权利要求1所述的方法,其特征在于,所述训练完成的特征提取器包括训练完成的第一提取器和训练完成的第二提取器,所述基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器,包括:
从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列;
将所述第一语音片段序列输入训练完成的第一提取器进行处理,得到第三特征组;
将所述第三特征组输入训练完成的第二提取器进行处理,得到第三向量组;
将所述第三向量组输入分类器进行处理,得到所述第三向量组中每个向量对应的识别结果;
获取所述第一语音片段序列中每个语音片段对应的标签数据,所述第一语音片段序列中每个语音片段与所述第三向量组中每个向量具有一一对应的关系;
根据所述第三向量组中每个向量对应的识别结果与所述第一语音片段序列中每个语音片段对应的标签数据之间的差异,计算第二损失值;
根据所述第二损失值调整所述分类器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的分类器。
4.根据权利要求1所述的方法,其特征在于,所述第一语音片段序列中包含n个语音片段,所述第二语音片段序列中包含m个语音片段,m=n*k,k为预设比例,所述第一特征组中包含所述第一提取器分别对所述第一语音片段序列中的n个语音片段进行特征提取得到的n个特征向量,所述第二特征组中包含所述第一提取器分别对所述第二语音片段序列中的m个语音片段进行特征提取得到的m个特征向量;所述第一向量组中包含所述表示器分别对所述第一特征组中的n个特征向量进行编码得到的n个高维向量,所述第二向量组中包含所述第二提取器分别对所述填充后的第二特征组中的n个特征向量进行编码得到的n个高维向量。
5.根据权利要求1至4任一所述的方法,其特征在于,所述第一提取器为三层一维的卷积网络,所述第二提取器为Transformer变形网络,所述表示器为一层全连接层,所述分类器为一层全连接层。
6.一种语音识别方法,其特征在于,所述方法包括:
获取待识别的语音信号;
将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果;其中,所述语音识别模型根据上述权利要求1至5中任一所述的语音识别模型训练方法训练得到。
7.一种语音识别模型训练装置,其特征在于,所述装置用于基于训练样本集训练语音识别模型,所述语音识别模型包括特征提取器和分类器,所述特征提取器包括第一提取器和第二提取器,所述训练样本集包括多个语音样本和每个语音样本对应的标签数据,所述装置包括:
语音切分模块,用于从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列,从所述第一语音片段序列中随机选取预设比例的语音片段得到第二语音片段序列;
第一处理模块,用于将所述第一语音片段序列输入所述第一提取器进行处理,得到第一特征组,以及将所述第二语音片段序列输入所述第一提取器进行处理,得到第二特征组;
向量填充模块,用于在所述第二特征组中填充预置向量,使得填充后的第二特征组与所述第一特征组的长度相等;
第二处理模块,用于将所述第一特征组输入表示器进行处理,得到第一向量组,以及将所述填充后的第二特征组输入所述第二提取器进行处理,得到第二向量组;
第一迭代模块,用于根据所述第一向量组和所述第二向量组计算第一损失值,根据所述第一损失值分别调整所述第一提取器、所述第二提取器、以及所述表示器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的特征提取器;
微调模块,用于基于所述训练样本集中的语音样本和语音样本对应的标签数据,利用所述训练完成的特征提取器训练所述分类器;
其中,所述向量填充模块,包括:
位置确定子模块,用于确定所述第二特征组中相对于所述第一特征组中的缺失向量的位置;
向量填充子模块,用于将所述第二特征组中每个缺失向量的位置处填充预置向量。
8.根据权利要求7所述的装置,其特征在于,所述第一迭代模块,包括:
相似度计算子模块,用于对于所述第二向量组中的每个预置向量对应的高维向量,计算所述每个预置向量与所述第一向量组中的同位置向量对应的高维向量之间的第一相似度,以及计算所述每个预置向量与所述第一向量组中的不同位置向量对应的高维向量之间的第二相似度;
第一损失计算子模块,用于根据所述第一相似度和所述第二相似度,计算第一损失值。
9.根据权利要求7所述的装置,其特征在于,所述训练完成的特征提取器包括训练完成的第一提取器和训练完成的第二提取器,所述微调模块,包括:
切分子模块,用于从所述训练样本集中获取当前迭代的语音样本,将当前迭代的语音样本进行等份切分得到第一语音片段序列;
特征提取子模块,用于将所述第一语音片段序列输入训练完成的第一提取器进行处理,得到第三特征组;
向量编码子模块,用于将所述第三特征组输入训练完成的第二提取器进行处理,得到第三向量组;
结果识别子模块,用于将所述第三向量组输入分类器进行处理,得到所述第三向量组中每个向量对应的识别结果;
标签获取子模块,用于获取所述第一语音片段序列中每个语音片段对应的标签数据,所述第一语音片段序列中每个语音片段与所述第三向量组中每个向量具有一一对应的关系;
第二损失计算子模块,用于根据所述第三向量组中每个向量对应的识别结果与所述第一语音片段序列中每个语音片段对应的标签数据之间的差异,计算第二损失值;
第二迭代子模块,用于根据所述第二损失值调整所述分类器的参数,进入下一轮迭代,在到达迭代停止条件时得到训练完成的分类器。
10.根据权利要求7所述的装置,其特征在于,所述第一语音片段序列中包含n个语音片段,所述第二语音片段序列中包含m个语音片段,m=n*k,k为预设比例,所述第一特征组中包含所述第一提取器分别对所述第一语音片段序列中的n个语音片段进行特征提取得到的n个特征向量,所述第二特征组中包含所述第一提取器分别对所述第二语音片段序列中的m个语音片段进行特征提取得到的m个特征向量;所述第一向量组中包含所述表示器分别对所述第一特征组中的n个特征向量进行编码得到的n个高维向量,所述第二向量组中包含所述第二提取器分别对所述填充后的第二特征组中的n个特征向量进行编码得到的n个高维向量。
11.根据权利要求7至10任一所述的装置,其特征在于,所述第一提取器为三层一维的卷积网络,所述第二提取器为Transformer变形网络,所述表示器为一层全连接层,所述分类器为一层全连接层。
12.一种语音识别装置,其特征在于,所述装置包括:
语音获取模块,用于获取待识别的语音信号;
语音识别模块,用于将所述语音信号输入训练完成的语音识别模型,由所述语音识别模型输出所述语音信号对应的语音识别结果;其中,所述语音识别模型根据上述权利要求1至5中任一所述的语音识别模型训练方法训练得到。
13.一种机器可读存储介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如权利要求1至5中任一所述的语音识别模型训练方法。
CN202210815593.1A 2022-07-12 2022-07-12 一种语音识别模型训练方法、装置和可读存储介质 Active CN114882873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210815593.1A CN114882873B (zh) 2022-07-12 2022-07-12 一种语音识别模型训练方法、装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210815593.1A CN114882873B (zh) 2022-07-12 2022-07-12 一种语音识别模型训练方法、装置和可读存储介质

Publications (2)

Publication Number Publication Date
CN114882873A CN114882873A (zh) 2022-08-09
CN114882873B true CN114882873B (zh) 2022-09-23

Family

ID=82683606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210815593.1A Active CN114882873B (zh) 2022-07-12 2022-07-12 一种语音识别模型训练方法、装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN114882873B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579000B (zh) * 2022-12-07 2023-03-03 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统
CN116612760B (zh) * 2023-07-20 2023-11-03 北京边锋信息技术有限公司 音频信号处理方法、装置和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135589B1 (en) * 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
WO2019204547A1 (en) * 2018-04-18 2019-10-24 Maneesh Kumar Singh Systems and methods for automatic speech recognition using domain adaptation techniques
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN112767927A (zh) * 2020-12-29 2021-05-07 平安科技(深圳)有限公司 一种提取语音特征的方法、装置、终端及存储介质
CN114023313A (zh) * 2022-01-04 2022-02-08 北京世纪好未来教育科技有限公司 语音处理模型的训练、语音处理方法、装置、设备及介质
CN114664290A (zh) * 2022-05-17 2022-06-24 深圳比特微电子科技有限公司 声音事件检测方法、装置及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063899B (zh) * 2010-10-27 2012-05-23 南京邮电大学 一种非平行文本条件下的语音转换方法
CN113724700B (zh) * 2021-10-20 2022-08-12 合肥讯飞数码科技有限公司 语种识别、语种识别模型训练方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8135589B1 (en) * 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
WO2019204547A1 (en) * 2018-04-18 2019-10-24 Maneesh Kumar Singh Systems and methods for automatic speech recognition using domain adaptation techniques
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN112767927A (zh) * 2020-12-29 2021-05-07 平安科技(深圳)有限公司 一种提取语音特征的方法、装置、终端及存储介质
CN114023313A (zh) * 2022-01-04 2022-02-08 北京世纪好未来教育科技有限公司 语音处理模型的训练、语音处理方法、装置、设备及介质
CN114664290A (zh) * 2022-05-17 2022-06-24 深圳比特微电子科技有限公司 声音事件检测方法、装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DNN-Based Speech Bandwidth Expansion and Its Application to Adding High-Frequency Missing Features for Automatic Speech Recognition of Automatic Speech Recognition of;Kehuang Li,等;《INTERSPEECH 2015》;20151231;第2578-2582页 *
基于语音识别与特征的无监督语音模式提取;张震,等;《计算 机 工 程》;20140531;第40卷(第5期);262-265页 *

Also Published As

Publication number Publication date
CN114882873A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN114882873B (zh) 一种语音识别模型训练方法、装置和可读存储介质
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN109145290B (zh) 基于字向量与自注意力机制的语义相似度计算方法
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN114245203B (zh) 基于剧本的视频剪辑方法、装置、设备及介质
CN111914076B (zh) 一种基于人机对话的用户画像构建方法、系统、终端及存储介质
CN112348111B (zh) 视频中的多模态特征融合方法、装置、电子设备及介质
CN111833849A (zh) 语音识别和语音模型训练的方法及存储介质和电子设备
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN111538809A (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN112802444A (zh) 语音合成方法、装置、设备及存储介质
CN114974215A (zh) 基于音视频双模态的语音识别方法及系统
CN113948090B (zh) 语音检测方法、会话记录产品及计算机存储介质
CN115269836A (zh) 意图识别方法及装置
CN115762489A (zh) 语音识别模型的数据处理系统及方法、语音识别方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN109190649B (zh) 一种深度学习网络模型服务器的优化方法和装置
CN116208772A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114598926B (zh) 一种视频生成方法、装置、电子设备及存储介质
CN114638905B (zh) 图像生成方法、装置、设备及存储介质
CN110795531A (zh) 一种意图识别方法、装置及存储介质
CN112686059B (zh) 文本翻译方法、装置、电子设备和存储介质
CN115019319A (zh) 一种基于动态特征提取的结构化图片内容识别方法
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN112908331A (zh) 一种基于大数据的视频文件处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant