CN117133275B - 基于单元点积相似度特征的并行化语音识别模型建立方法 - Google Patents
基于单元点积相似度特征的并行化语音识别模型建立方法 Download PDFInfo
- Publication number
- CN117133275B CN117133275B CN202311078589.2A CN202311078589A CN117133275B CN 117133275 B CN117133275 B CN 117133275B CN 202311078589 A CN202311078589 A CN 202311078589A CN 117133275 B CN117133275 B CN 117133275B
- Authority
- CN
- China
- Prior art keywords
- vector
- model
- similarity
- dot product
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 129
- 230000000694 effects Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 235000014347 soups Nutrition 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 9
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000005457 optimization Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000013215 result calculation Methods 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003827 upregulation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于单元点积相似度特征的并行化语音识别模型建立方法属于语音处理技术领域。本发明提出了单元点积相似度计算方法,该方法既保证了经过等比缩放后的向量之间的相似度仍然一致的特性,又保证了所有向量的相似度结果计算的有界性,有效解决了点积相似度与余弦相似度两种相似度计算中存在的问题。本发明提出了一种新的端到端语音识别模型的优化方法,提出了并行化的贪婪汤算法。根据实验数据以及选用硬件设备的不同,对并行化的贪婪汤算法进一步优化,通过动态分组可以使并行化贪婪汤算法充分利用已有硬件设备的性能,针对大数量的语音数据集具有良好的模型优化效果和时间效率的提升。
Description
技术领域
本发明属于语音处理技术领域,特别是涉及到一种基于单元点积相似度特征的并行化语音识别模型建立方法。
背景技术
语音识别就是将语音信号转化成文字。语音信号本质上是一种波,这种波被录音器以数字化的形式记录下来。因此将语音的数字信号送入语音识别模型之前,通常需要进行分帧、傅里叶变换等操作。这些操作也被叫做语音的特征提取。语音的特征提取完成之后,会得到一个特征向量的序列(每一帧对应一个特征向量),语音识别就是要将这个向量序列送入语音识别模型,得到最终的识别文本。也就是说语音识别中最核心的两个问题就是特征处理和模型建立。
虽然目前的端到端语音识别技术主要使用了深度学习技术,语音识别中由于语音时序特征的特殊性,模型设计不能直接使用其它领域的方法,需要对方法进行改进。注意力可以明显提升整个模型的效果,但计量相对较高。注意力在结构上拓展性较差,无法很好的利用局部或全局信息。Transformer在受限数据训练的情况下,容易出现过拟合的问题,因此需要寻求对算法进一步优化方法。对于最优模型结构的选取,需要考虑精度和收敛速度的平衡,即使是在非流式语音识别任务中,也需要提高模型最终的推理解码速度。
在语音识别应用的技术中,对特征进行比较时都要用到相似度判断,目前比较流行的相似度判断方法有两种,一种是点积相似度,一种是余弦相似度。点积相似度与模长和夹角相关,首先,夹角不变的情况下,存在两个完全相同向量的相似度的值比两个不同的向量的相似度的值小的问题,这明显不符合相似度判定的认知。其次,当向量模长较大时,还存在计算结果溢出的问题。而余弦相似度只考虑了两个向量的夹角关系,当夹角相同时,两个向量不改变方向,只改变模长,相似度不变。这也不符合相似度判定的常识。
语音识别建模时,为了去除训练过程中偏差较大的模型。通常使用传统的贪婪汤(greedy soup)方法,该方法的缺点是:验证集中产生的失真(loss)结果,不能完全反映模型的好坏,另一方面失真效果最低的若干个模型中可能存在对平均结果十分不利的模型。因此直接对失真效果最低的若干个模型进行参数平均,效率较低并且得到不一定是最优的模型结果。
因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种基于单元点积相似度特征的并行化语音识别模型建立方法,用于解决目前比较流行的点积相似度和余弦相似度均不适用于语音识别技术中对特征进行比较时的相似度判断;语音识别建模时传统的贪婪汤很难得到最优的模型结果等技术问题。
基于单元点积相似度特征的并行化语音识别模型建立方法,包括以下步骤,并且以下步骤顺次进行,
步骤一、待识别语音输入到语音特征处理模块对语音信号进行特征提取,获得待识别语音向量特征;构建语音识别模型,将模型中的向量模长和待识别语音向量特征模长进行归一化处理,让语音向量特征在归一化的数字范围内重新分布;
步骤二、将归一化之后的模型向量与待识别语音向量进行点积操作,计算并获得模型向量与待识别语音向量的单元点积相似度;
步骤三、将注意力中的缩放系数引入到单元点积相似度中,在点积的结果上乘以一个常数,对模型向量与待识别语音向量归一化之后的数值结果进行缩放,得到缩放后的单元点积相似度从而增加两个向量的区分度;
用缩放后的单元点积相似度替代传统注意力机制中查询向量与键向量之间的点积相似度,并以此定义基于单元点积相似度的注意力机制;
步骤四、将基于单元点积相似度的注意力机制运用到Transformer和Conformer框架中,在注意力机制下建立编码解码模型,该编码解码模型作为语音识别模型;
步骤五、通过采集的开源语音数据集作为训练集对语音识别模型进行训练,一个轮次训练的模型个数由相应硬件配置的GPU个数确定,有N个GPU一个轮次能够同时对连续的N个没判断过的新模型进行并行处理;
由于语音识别模型属于神经网络模型,在每个轮次的训练中,神经网络的参数用于存储网络训练过程中学习到的语音信号特征和发音模式;
每个轮次的训练均生成不同的模型,根据模型的失真效果,将模型从好到坏进行排序,并依次对模型进行标记,对标记的模型进行所有可能的排列组合,将每个组合训练时用到的神经网络的各参数保存下来,并按照失真度进行排序,取指定组数的模型,对这些模型的参数进行平均获得参数平均模型,再对参数平均后的模型进行筛选,选出各种组合中平均模型失真效果最低的模型集合,对组合中加入的模型下标进行更新,持续进行循环训练,直至最后一个模型加入完成,最后筛选出的模型就是识别效果最好的模型。
所述步骤二中模型向量与待识别语音向量的单元点积相似度为:
其中S表示相似度的值,代表模型中的任意一个向量,/>代表待识别语音的向量,并且/>Rn表示n维实数向量空间,/>分别表示/>的模长,不同时为0,并且定义:当/>即/>时,S=0。
所述基于单元点积相似度的注意力机制表示如下:
output=softmax(score)·V
其中,qi为查询矩阵Q的第i个行向量,kj为键矩阵K的第j个行向量,V为值矩阵,V的每一列为一个值向量,score为得分矩阵,Dij表示D的第i行第j列的元素,||qi||p和||ki||p分别表示向量qi和kj的p范数,0表示零向量,α是一个可学习的参数,|α|是α的绝对值。
通过上述设计方案,本发明可以带来如下有益效果:
1、本发明提出了单元点积相似度计算方法并在理论上给出了公式的推导与证明。该方法既保证了经过等比缩放后的向量之间的相似度仍然一致的特性,又保证了所有向量的相似度结果计算的有界性,有效解决了点积相似度与余弦相似度两种相似度计算中存在的两个问题,一个是对于等比缩放后的向量之间相似度不相等的问题,一个是相似度结果无界,可能产生结果溢出的问题。
2.本发明提出了一种新的端到端语音识别模型的优化方法,提出了并行化的贪婪汤算法。根据实验数据以及选用硬件设备的不同,对并行化的贪婪汤算法进一步优化,通过动态分组可以使并行化贪婪汤算法充分利用已有硬件设备的性能。
3、通过实验数据可以看出,本发明提出的单元点积相似度和动态并行贪婪汤算法针对大数量的语音数据集具有良好的模型优化效果和时间效率的提升。
附图说明
以下结合附图和具体实施方式对本发明作进一步的说明:
图1为本发明中将单元点积相似度应用在注意力模块中的Transformer模型结构框图。
图2为本发明中将单元点积相似度应用在注意力模块中的Conformer模型结构框图。
图3为本发明的实施例中轮次(epoch)与失真(loss)效果关系图。
具体实施方式
为了更好的完成语音转文字的任务,在语音特征处理模块中,针对语音信号向量化之后的语音特征,为了更好的比较模型向量特征与待识别语音向量特征(简称两个向量)的相似程度,提出了点积单元相似度计算公式,具体实现步骤如下:
1.将模型中的向量模长和待识别语音向量特征模长进行归一化。让语音特征在特定数字范围内重新分布。
2.将归一化之后的两个向量进行点积操作。计算模型向量与待识别语音向量的相似度。
3.在点积的结果上乘以一个常数,对两个向量归一化之后的数值结果适度放大。增加两个向量的区分度。
为了证明点积相似度方法能够是相似度结果收敛,并且对各种特征向量比较的有效性,给出了具体的理论证明:
1.归一化比较是数理统计分析中常用的方法。对于两个向量整体压缩,且压缩之后两个向量和为1。理论证明相似度的值有界,解决了相似度结果溢出的问题。
2.夹角不变时,两个向量变化时相似度的单调性。待识别语音向量和模型向量比较时,相似度会随两个向量模长的变化而变化。
3.两个向量模长不变时,夹角越小,相似度越高。夹角越小,待识别语音向量和模型向量就越相似。
将点积单元相似度方法与注意力机结合,可以在语音识别框架中得到更高级的抽象语音特征。
1.定义缩放的单元点积相似度。将注意力中的缩放系数引入到单元点积相似度中,可以得到更好的语音局部和全局特征。
2.将缩放的单元点积相似度与注意力机制中的Q、K结合,查询矩阵Q包含的是标注后的文本信息,键矩阵K包含的是语音信息,结合后能够得到带有相似度权重的信息。
3.分别在Transformer和Conformer框架的注意力机制下建立编码解码模型。
每个轮次的训练都会生成不同的模型,要根据模型的失真效果,对多个模型进行重新的排列组合。一次处理的模型个数可以根据硬件配置动态设定。
1.对所有模型从好到坏进行排序,并依次对模型进行标记
2.考虑标记模型的所有可能的组合,将每个组合进行参数平均,在对模型进行测试。
3.选出各种组合中平均模型效果最好的模型集合,对模型集合下标进行更新。
4.如果没到最后一个模型的下标,就重复2和3,如果已经是最后一个模型下标,该模型就是最终的模型。
实施例:
下面以Wenetspeech数据集进行语音识别作为本发明的实施例,来说明前面的方案的具体应用过程。该数据集是一个超过一万小时的开源语音数据集,有3个子集,分别是S、M、L,其训练集的数据量分别是100小时、1000小时和10000小时,将这3个子集分别记作wenetspeech-S、wenetspeech-M、wenetspeech-L。
一、向量归一化:按照语音识别建模的一般顺序是要对一段长语音进行分帧、特征提取、建立模型,分帧的方法比较固定,重点就是特征提取和建立模型。要想进行特征提取,就需要对分帧后的语音特征进行向量化处理。本发明提出了一个新的相似度计算公式。
1.将模型中的向量模长和待识别语音向量特征模长进行归一化。让语音向量特征在特定数字范围内重新分布。
如果向量设代表模型中的任意一个向量。向量/>代表待识别语音的向量,这两个的模长不全为0。则可以按照式子/>和式子/>分别对这两个向量进行归一化,这样,两个向量就在数值域中转换为有界的向量。
2.将归一化之后的两个向量进行点积操作。计算模型向量与待识别语音向量的相似度。
其中S表示相似度的值, 分别表示/>的模长,/> 不同时为0。特别地,定义当/>即/>时,S=0。
3.在点积的结果上乘以一个常数,对两个向量归一化之后的数值结果适度放大。增加两个向量的区分度。
如果引入范数和内积的概念,单元点积相似度也可以被写作:
其中x1∈Rn,x2∈Rn,(x1,x2)表示向量x1和x2的内积,||x1||p和||x2||p分别表示向量x1和x2的p范数,0表示零向量。
在数学上,和相等的两个数,差越小乘积越大。因此当两个数相加等于1时,两个数各为1/2时差最小。因此两个数最大的乘积是1/4,因此对最后的结果乘以系数4,可以将相似度的结果放大到接近1的数值。
二、方法理论证明:为了证明点积相似度方法能够是相似度结果收敛,并且对各种特征向量比较的有效性,给出了具体的理论证明。
1.对于两个向量整体压缩,且压缩之后两个向量和为1。归一化比较是数理统计分析中常用的一种方法。对压缩后的向量进行相似度计算,相似度的值有界。
若向量代表模型中的任意一个向量。向量/>代表待识别语音的向量,设/> 是两个模长不全为0的向量,记:/>则:
记于是/>因为/>不同时为所以k>0,故/>为/>的同比放大或缩小,/>与/>同向且共线,/>与/>同向且共线,因此θ既表示/>与/>的夹角,也表示/>与/>的夹角。将θ看作[0,π]上的常数,以/>为变量,S的绝对值|S|在[0,0.5]上单调递增,在[0.5,1]上单调递减。当且仅当或1时,|S|取最小值0。当且仅当/>时,|S|取最大值|cosθ|,此时/> 由于当且仅当θ=0或π时,|cosθ|达到它的最大值1,因此0≤|S|≤1,当且仅当/>且θ=0或π时|S|=1,于是-1≤S≤1当且仅当且θ=0时S=1,/>且θ=π时S=-1,即两个向量完全相同时相似度为最大值1,两个向量模长相同、方向相反时相似度为最小值-1。
2.夹角不变时,两个向量变化时相似度的单调性。待识别语音向量和模型向量比较时,相似度会随两个向量模长的变化而变化。
当两向量之间的夹角θ不变时,以为变量,/>和/>的模长比值/> 因为/>在[0,1]上单调减,所以/>在[0,1]上单调减且当/>时也就是说,当/>时,/>关于/>单调递减且最小值为1,/>越接近0.5,/>就越接近于1,当/>时,/>关于/>单调递减且最大值为1,/>越接近0.5,/>就越接近于1。因为以/>为变量时,|S|在[0,0.5]上单调递增,在[0.5,1]上单调递减,且当/>时,|S|取最大值|cosθ|,所以当/> 时,随着/>的增大,/>越来越小并越来越接近于1,|S|越来越大并越来越接近于1,当/>时,随着/>的减小,/>越来越大并越来越接近于1,|S|越来越大并越来越接近于1。因为当两向量之间的夹角θ不变时,/>是S的唯一变量,所以当两向量之间的夹角θ不变时,/>越接近于/>两个向量的模长比值/>越接近于/>越大并越接近于它的最大值1。
3.两个向量模长不变时,夹角越小,相似度越高。夹角越小,待识别语音向量和模型向量就越相似。
当不变时,/>也不变。此时θ是S的唯一变量,θ∈[0,π]。因为cosθ在[0,π]上单调减,所以S关于θ单调减。因此当两个向量的模长不变时,他们之间的夹角越小,S就越大,当θ=0时,S取最大值/>
三、将点积单元相似度方法与注意力机结合,可以在语音识别框架中得到更高级的抽象语音特征。
1.定义缩放的单元点积相似度。将注意力中的缩放系数引入到单元点积相似度中,可以得到更好的语音局部和全局特征。
无论是传统“注意力-编码器-解码器”模型中的注意力机制还是Transformer中的自注意力机制,都是用点积运算或缩放的点积作为向量相似度,其中用于缩放的系数为一个常数dk为查询或键向量的维数。
定义缩放的单元点积相似度:
其中x1∈Rn,x2∈Rn,(x1,x2)表示向量x1和x2的内积,||x1||p和||x2||p分别表示向量x1和x2的p范数,0表示零向量,α是可学习的参数,|α|是α的绝对值。
2.将缩放的单元点积相似度与注意力机制中的Q、K结合,查询矩阵Q包含的是标注后的文本信息,键矩阵K包含的是语音信息,结合后能够得到带有相似度权重的信息。
用缩放的单元点积相似度替代传统注意力机制中查询向量与键向量之间的点积相似度,并以此作为基于单元点积相似度的注意力机制的定义。特别地,基于单元点积相似度的自注意力机制(不考虑注意力头)可以用如下公式表示:
Dij=(||qi||p+||kj||p)2 (6)
output=softmax(score)·V (8)
其中qi为查询矩阵Q的第i个行向量,kj为键矩阵K的第j个行向量,V为值矩阵,V的每一列为一个值向量,score为得分矩阵。Dij表示D的第i行第j列的元素,||qi||p和||kj||p分别表示向量qi和kj的p范数,0表示零向量,α是一个可学习的参数,|α|是α的绝对值。
3.分别在Transformer和Conformer框架的注意力机制下建立编码解码模型。Transformer模型结构如图1所示,Conformer模型结构如图2所示。
四、由于语音识别模型属于神经网络模型,在每个轮次的训练中,神经网络内部可学习的变量也称神经网络的参数用于存储网络训练过程中学习到的语音信号特征和发音模式,神经网络的参数包括了如权重和偏置等特征的关联度等信息。权重相当于控制神经元之间的连接强度及信息传递的重要性系数,偏置则用于调整神经元是否激活的阈值。
每个轮次的训练都会生成不同的模型,要根据模型的失真效果,对多个模型进行重新的排列组合。一次处理的模型个数可以根据硬件配置动态设定。
表1:以num_look=2为例说明并行化的贪婪汤算法。
表1中的例子是向后看2个模型,并行处理,理论上,有N个GPU可以往后看N个模型去并行处理。并行贪婪汤(num_look=N)的每一次循环最多可以处理N个没有判断过的新模型,因此理论上最多拥有原有贪婪汤的N倍速,而占用的资源也随着N的增大而指数级地增加。由于资源条件的限制,双显卡的设备中,可以设置num_look=2。具体算法如下:
五、有效性分析
1.为了分析本发明提出的相似度计算方法的有效性,首先利用AIShell-1(178小时)数据集在Transformer架构上进行实验,结果如下表。使用本发明的相似度方法在三个不同的注意力位置识别结果都有提升,在编码器端使用效果最好,当不适用相对位置编码时,与原框架方法相比也获得的较好的效果。
表2Transformer相关实验结果
根据上述结论,又在Conformer架构上的编码器位置进行了实验。发现本发明提出的方法也能获得最好的识别效果,添加语言模型后识别效果更好。
表3在Transformer和Conformer架构下的实验结果
表2和表3展现了在Transformer和Conformer的编码器的自注意力机制上使用单元点积相似度方法的结果,CTC greedy search和attention rescoring分别表示按照CTC贪婪搜索和解码器重打分的解码方式解码,其对应的列为解码得到的字错率结果。最后一列表示模型训练时每个epoch所费花的时间。从表中可以看到,在编码器的自注意力机制模块中使用单元点积相似度,可以明显地提升模型的性能。由于单元点积相似度的使用可以在框架下被并行地操作,因此训练时间也只增加了5%左右。
2.为了验证本文提出的单元点积相似度建立的多个小模型上用并行化贪心汤(greedy soup)算法筛选最终的大模型,利用1万小时数据集在Conformer框架下进行测试。
表4并行化方法在wenetspeech-S数据集上SimiConformer的实验结果
表4中的第二列为验证集上的字错率,第三列为测试集test_net上的字错率,第四列为测试集test_meetting上的字错率,最后一列为做greedy soup或parallelizedgreedy soup(num_look=2)所花费的时间。可以看到,使用本发明中的单元点积相似度方法不仅可以显著地降低字错率,在验证集、test_net和test_meetting上分别相对下降了5.2%、2.7%和4.6%。提出的并行化方法((num_look=2))与传统的greedy soup效果相当,但并行化方法(num_look=2)相对于传统方法拥有约40%的速度提升。
表5并行化方法wenetspeech-L数据集上SimiConformer的相关实验结果
从表5可以看到,在wenetspeech-L上,SimiConformer在验证集上与基线模型表现相当,在测试集test_net上表现更好,但在测试集test_meetting上表现稍差。提出的并行化方法((num_look=2))与传统的greedy soup效果相当,但并行化方法(num_look=2)是传统方法训练速度的1.585倍。
3.最后通过每个轮次训练模型的失真效果对本发明提出的方法进行评估。轮次(epoch)与失真(loss)效果关系图如图3所示。本发明的方法在每个轮次(Epoch)训练完后都会得到一个模型及其对应的验证集的失真(loss)程度,图中的两条曲线就是对模型的失真效果随轮次增大而变化的情况反映。可以看到,本发明在验证集的失真效果上总体低于原有方法,这再次表明了基于单元点积相似度的方法和模型的有效性。
Claims (3)
1.基于单元点积相似度特征的并行化语音识别模型建立方法,其特征是:包括以下步骤,并且以下步骤顺次进行,
步骤一、待识别语音输入到语音特征处理模块对语音信号进行特征提取,获得待识别语音向量特征;构建语音识别模型,将模型中的向量模长和待识别语音向量特征模长进行归一化处理,让语音向量特征在归一化的数字范围内重新分布;
步骤二、将归一化之后的模型向量与待识别语音向量进行点积操作,计算并获得模型向量与待识别语音向量的单元点积相似度;
步骤三、将注意力中的缩放系数引入到单元点积相似度中,在点积的结果上乘以一个常数,对模型向量与待识别语音向量归一化之后的数值结果进行缩放,得到缩放后的单元点积相似度从而增加两个向量的区分度;
用缩放后的单元点积相似度替代传统注意力机制中查询向量与键向量之间的点积相似度,并以此定义基于单元点积相似度的注意力机制;
步骤四、将基于单元点积相似度的注意力机制运用到Transformer和Conformer框架中,在注意力机制下建立编码解码模型,该编码解码模型作为语音识别模型;
步骤五、通过采集的开源语音数据集作为训练集对语音识别模型进行训练,一个轮次训练的模型个数由相应硬件配置的GPU个数确定,有N个GPU一个轮次能够同时对连续的N个没判断过的新模型进行并行处理,
由于语音识别模型属于神经网络模型,在每个轮次的训练中,神经网络的参数用于存储网络训练过程中学习到的语音信号特征和发音模式;
每个轮次的训练均生成不同的模型,根据模型的失真效果,将模型从好到坏进行排序,并依次对模型进行标记,对标记的模型进行所有可能的排列组合,将每个组合训练时用到的神经网络的各参数保存下来,并按照失真度进行排序,取指定组数的模型,对这些模型的参数进行平均获得参数平均模型,再对参数平均后的模型进行筛选,选出各种组合中平均模型失真效果最低的模型集合,对组合中加入的模型下标进行更新,持续进行循环训练,直至最后一个模型加入完成,最后筛选出的模型就是识别效果最好的模型。
2.根据权利要求1所述的基于单元点积相似度特征的并行化语音识别模型建立方法,其特征是:所述步骤二中模型向量与待识别语音向量的单元点积相似度为:
其中S表示相似度的值,代表模型中的任意一个向量,/>代表待识别语音的向量,并且Rn表示n维实数向量空间,/>分别表示/>的模长,/>不同时为0,并且定义:当/>即/>时,S=0。
3.根据权利要求1所述的基于单元点积相似度特征的并行化语音识别模型建立方法,其特征是:所述基于单元点积相似度的注意力机制表示如下:
Dij=(||qi||p+||kj||p)2
output=softmax(score)·V
其中,qi为查询矩阵Q的第i个行向量,kj为键矩阵K的第j个行向量,V为值矩阵,V的每一列为一个值向量,score为得分矩阵,Dij表示D的第i行第j列的元素,||qi||p和||kj||p分别表示向量qi和kj的p范数,0表示零向量,α是一个可学习的参数,|α|是α的绝对值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311078589.2A CN117133275B (zh) | 2023-08-25 | 2023-08-25 | 基于单元点积相似度特征的并行化语音识别模型建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311078589.2A CN117133275B (zh) | 2023-08-25 | 2023-08-25 | 基于单元点积相似度特征的并行化语音识别模型建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117133275A CN117133275A (zh) | 2023-11-28 |
CN117133275B true CN117133275B (zh) | 2024-03-22 |
Family
ID=88859390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311078589.2A Active CN117133275B (zh) | 2023-08-25 | 2023-08-25 | 基于单元点积相似度特征的并行化语音识别模型建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117133275B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN108269275A (zh) * | 2018-02-23 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种基于非局部神经网络的非局部建模方法 |
KR20200092511A (ko) * | 2019-01-15 | 2020-08-04 | 한양대학교 산학협력단 | 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
KR20220021257A (ko) * | 2020-08-13 | 2022-02-22 | 국방과학연구소 | 어텐션 매커니즘을 적용한 음성합성 시스템 및 그 방법 |
JP2022146690A (ja) * | 2021-03-22 | 2022-10-05 | 株式会社リコー | 情報処理装置、システム、方法、およびプログラム |
US11488586B1 (en) * | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN115798518A (zh) * | 2023-01-05 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、设备及介质 |
GB2612624A (en) * | 2021-11-05 | 2023-05-10 | Spotify Ab | Methods and systems for synthesising speech from text |
CN116564355A (zh) * | 2023-05-29 | 2023-08-08 | 西安电子科技大学 | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354656B2 (en) * | 2017-06-23 | 2019-07-16 | Microsoft Technology Licensing, Llc | Speaker recognition |
US11257481B2 (en) * | 2018-10-24 | 2022-02-22 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
CN110807332B (zh) * | 2019-10-30 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
-
2023
- 2023-08-25 CN CN202311078589.2A patent/CN117133275B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109619A (zh) * | 2017-11-15 | 2018-06-01 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
CN108269275A (zh) * | 2018-02-23 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种基于非局部神经网络的非局部建模方法 |
KR20200092511A (ko) * | 2019-01-15 | 2020-08-04 | 한양대학교 산학협력단 | 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템 |
KR20220021257A (ko) * | 2020-08-13 | 2022-02-22 | 국방과학연구소 | 어텐션 매커니즘을 적용한 음성합성 시스템 및 그 방법 |
JP2022146690A (ja) * | 2021-03-22 | 2022-10-05 | 株式会社リコー | 情報処理装置、システム、方法、およびプログラム |
US11488586B1 (en) * | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
GB2612624A (en) * | 2021-11-05 | 2023-05-10 | Spotify Ab | Methods and systems for synthesising speech from text |
CN115798518A (zh) * | 2023-01-05 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、设备及介质 |
CN116564355A (zh) * | 2023-05-29 | 2023-08-08 | 西安电子科技大学 | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 |
Non-Patent Citations (2)
Title |
---|
用于最佳文本选择的改进贪婪算法;顾文涛;上海交通大学学报(第01期);全文 * |
顾文涛.用于最佳文本选择的改进贪婪算法.上海交通大学学报.1999,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117133275A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
Deng et al. | Deep convex net: A scalable architecture for speech pattern classification | |
Wang et al. | Data augmentation using deep generative models for embedding based speaker recognition | |
Yi et al. | Singing voice synthesis using deep autoregressive neural networks for acoustic modeling | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN109886406A (zh) | 一种基于深度压缩的复数卷积神经网络压缩方法 | |
Luo et al. | Simplified self-attention for transformer-based end-to-end speech recognition | |
CN110853630A (zh) | 面向边缘计算的轻量级语音识别方法 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN112562741A (zh) | 一种基于点积自注意力卷积神经网络的歌声检测方法 | |
CN114495957A (zh) | 一种基于Transformer改进的语音增强方法、系统、装置 | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
Gao et al. | Mixed-bandwidth cross-channel speech recognition via joint optimization of DNN-based bandwidth expansion and acoustic modeling | |
CN117133275B (zh) | 基于单元点积相似度特征的并行化语音识别模型建立方法 | |
Masumura et al. | End-to-end automatic speech recognition with deep mutual learning | |
Zhang et al. | TMS: A temporal multi-scale backbone design for speaker embedding | |
CN115240702A (zh) | 基于声纹特征的语音分离方法 | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
Yang et al. | A chaotic time series prediction model for speech signal encoding based on genetic programming | |
CN114818789A (zh) | 一种基于数据增强的船舶辐射噪声识别方法 | |
Slívová et al. | Isolated word automatic speech recognition system | |
Zi et al. | Joint filter combination-based central difference feature extraction and attention-enhanced Dense-Res2Block network for short-utterance speaker recognition | |
Yuan et al. | Vector quantization codebook design method for speech recognition based on genetic algorithm | |
CN113823322A (zh) | 一种基于精简改进的Transformer模型的语音识别方法 | |
Dabbabi et al. | Spoken utterance classification task of arabic numerals and selected isolated words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |