CN118016052A - 一种重打分语音识别方法、装置、设备及介质 - Google Patents
一种重打分语音识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN118016052A CN118016052A CN202211392637.0A CN202211392637A CN118016052A CN 118016052 A CN118016052 A CN 118016052A CN 202211392637 A CN202211392637 A CN 202211392637A CN 118016052 A CN118016052 A CN 118016052A
- Authority
- CN
- China
- Prior art keywords
- scoring
- candidate texts
- attention
- decoder
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006835 compression Effects 0.000 claims abstract description 40
- 238000007906 compression Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 63
- 230000009466 transformation Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及语音识别技术领域,更为具体来说,本申请涉及一种重打分语音识别方法、装置、设备及介质。所述方法包括:获取目标语音数据;将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。本申请简约高效,能减少延迟,实现快速而精准的重打分,进而提升语音识别效率。
Description
技术领域
本申请涉及语音识别技术领域,更为具体来说,本申请涉及一种一种重打分语音识别方法、装置、设备及介质。
背景技术
目前,语音识别技术已经获得了广泛的应用。语音识别模型有多种识别策略,一般是先在CTC解码器的输出中搜索若干个备选识别结果,然后再利用注意力解码器对这若干个备选结果重打分,选分数最高的一条作为最终的识别结果。在重打分时,注意力解码器需要共享编码器的全部输出作为输入,这就要求音频要全部输入结束后才可以执行重打分。特别是对于有流式解码要求的交互场景而言使用注意力解码器重打分会增加识别等待时间,导致识别延迟较高。
发明内容
基于上述技术问题,本发明旨在通过重打分语音识别模型来获取目标语音数据的重打分及识别结果,其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器,以解决语音识别延迟较高的问题。
本发明第一方面提供了一种重打分语音识别方法,所述方法包括:
获取目标语音数据;
将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
在本发明的一些实施例中,所述将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,包括:
将所述目标语音数据输入所述编码器,得到声学特征序列;
将所述声学特征序列输入所述CTC解码器,得到所述声学特征序列对应的多个候选文本及所述多个候选文本的声学得分;
将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列;
将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分;
根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,得到所述多个候选文本的重打分。
在本发明的一些实施例中,所述压缩网络包括两个串联的前馈网络;所述将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列,包括:
按顺序将所述声学特征序列中每五帧向量分为一组,并将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,将得到的所有组向量的变换结果作为压缩后声学特征序列;
其中,若分组后剩余不足五帧的向量,将所述不足五帧的向量输入所述两个前馈网络依次进行线性变换和/或非线性变换。
在本发明的一些实施例中,所述将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,包括:
将每组向量按行拼成矩阵,将所述矩阵经过处理得到权重向量;
利用所述权重向量对所述每组向量做加权平均操作,得到每组向量对应的变换结果。
在本发明的一些实施例中,所述将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分,包括:
将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,以减少所述注意力解码器的计算量;
所述注意力解码器基于所述压缩后声学特征序列计算注意力机制所需的Key向量序列和Value向量序列;
基于所述Key向量序列和Value向量序列得到所述多个候选文本的注意力得分。
在本发明的一些实施例中,所述根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,包括:
将所述多个候选文本的声学得分和所述多个候选文本的注意力得分做加权平均操作,以修正所述多个候选文本的声学得分。
在本发明的一些实施例中,所述重打分语音识别模型的训练步骤包括:
获取预语音样本数据和目标语音样本数据,其中,所述预语音样本数据包括预语音样本和所述语音样本对应的标注文本;
根据所述预语音样本数据训练所述编码器和所述CTC解码器;
根据所述目标语音样本数据训练所述压缩网络和所述注意力解码器;
采用第一损失函数优化所述编码器和所述CTC解码器;
采用第二损失函数优化所述压缩网络和所述注意力解码器;
当训练达到预设次数时,停止训练。
本发明第二方面提供了一种重打分语音识别装置,所述装置包括:
获取模块,被配置为获取目标语音数据;
重打分模块,被配置为将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
识别模块,被配置为从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
本发明第三方面提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:
获取目标语音数据;
将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标语音数据;
将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请先获取目标语音数据,将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,再从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果,其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器,延迟较低,识别等待时间短,实现快速而精准的重打分,进而提升语音识别效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一示例性实施例中的重打分语音识别方法步骤示意图;
图2示出了本申请一示例性实施例中的重打分语音识别模型工作过程示意图;
图3示出了本申请一示例性实施例中的重打分语音识别装置结构示意图;
图4示出了本申请一示例性实施例所提供的一种计算机设备的结构示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-附图4给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
现有技术中的语音识别模型有多种识别策略,大多是先在CTC解码器的输出中搜索若干个备选识别结果,然后再利用注意力解码器对这若干个备选结果重打分,选分数最高的一条作为最终的识别结果。在重打分时,注意力解码器需要共享编码器的全部输出作为输入,这就要求音频要全部输入结束后才可以执行重打分。特别是对于有流式解码要求的交互场景而言使用注意力解码器重打分会增加识别等待时间,导致识别延迟较高。
因此在本申请一些示例性实施例中,提供了一种重打分语音识别方法,如图1所示,所述方法包括:
S1、获取目标语音数据;
S2、将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
S3、从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
在一种具体的实现方式中,将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,包括:将所述目标语音数据输入所述编码器,得到声学特征序列;将所述声学特征序列输入所述CTC解码器,得到所述声学特征序列对应的多个候选文本及所述多个候选文本的声学得分;将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列;将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分;根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,得到所述多个候选文本的重打分。
上述步骤可以参考图2,如图2所示,输入音频至编码器,编码器将输出音频对应的声学特征序列,声学特征序列本质为向量序列,编码器经压缩网络后的输出仅仅作为注意力解码器的输入,编码器的输出仍作为CTC解码器的输入。其中,压缩网络为基于自注意力机制的神经网络。在采用训练好的重打分语音识别模型进行重打分时,首先采用CTC解码器识别若干条备选路径;然后,编码器经压缩网络后的输出作为注意力解码器的输入,注意力解码器根据压缩后结果或者说压缩网络的输出结果计算注意力机制所需的Key向量序列和Value向量序列,即基于所述Key向量序列和Value向量序列得到所述多个候选文本的注意力得分;最后根据重打分的分值来确定最优的识别结果。
在一种具体的实现方式中,压缩网络包括两个串联的前馈网络;将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列,包括:按顺序将所述声学特征序列中每五帧向量分为一组,并将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,将得到的所有组向量的变换结果作为压缩后声学特征序列;其中,若分组后剩余不足五帧的向量,将所述不足五帧的向量输入所述两个前馈网络依次进行线性变换。
在另一种具体的实现方式中,将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,包括:将每组向量按行拼成矩阵,将所述矩阵经过处理得到权重向量;利用所述权重向量对所述每组向量做加权平均操作,得到每组向量对应的变换结果。具体实施时,将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分,包括:将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,以减少所述注意力解码器的计算量;所述注意力解码器基于所述压缩后声学特征序列计算注意力机制所需的Key向量序列和Value向量序列;基于所述Key向量序列和Value向量序列得到所述多个候选文本的注意力得分。其包含的公式为:
其中,X表示输入音频,C=(c1,…,cL)表示与音频X(音频与所述目标语音数据同)对应的文本序列,上述概率还可以用Transformer网络来计算,可表示为如下述公式:
p(C|X)=Transformer(H,C)
其中,H=(h1,…,hT)表示编码器的声学特征序列,每个hi表示一个D维的特征向量,D的值是由用户指定的,例如D=512,T指的是音频编码后的帧数(与音频的时长有关),通常一秒音频经过编码器后产生25帧输出。Transformer网络中需要使用编码器的全部输出H作为多头注意力机制的Key和Value,这使得识别的延迟随着音频时长的增加而大幅增加。
为了降低识别的延迟,本申请用一个基于自注意力的神经网络即注意力解码器将H的帧数变少,从而减缓识别延迟的增加。通常,正常语速一秒钟可以讲五个字左右,所以,我们将H压缩到每秒五帧。虽然,将H压缩为一秒一帧或者一条音频一帧,能更好地降低识别的延迟,但是这样压缩后的向量可能不足以代表输入音频的特性。因此将H按顺序每五帧分为一组,每组分别独立地进行压缩。每组向量按行拼成一个矩阵Z,将该矩阵经过如下变换得到一个分数向量Score,公式为:
Score=LayerNorm(ReLu(ZW1))W2
其中,上述公式包含两个线性变换W1、W2的前馈神经网络,其输出维度为1,也就是说Score是一个与Z行数相同的向量。将Score经过Softmax归一化计算之后作为Z的每个行向量的权重将它们加权平均,得到压缩后的向量。用压缩后的向量来替换上述H即可降低注意力解码器的计算量。另外,上述压缩方法并没有限制输入向量的个数,当H包含的向量个数不是五的倍数时,余下的不足五个的向量依然可以用上述方法进行压缩。此外,本文的压缩方法不依赖文本输入,只依赖于编码器的输出,如果编码器是流式的,那么该方法也是流式的,所以不会过多地增加语音识别的延迟。
本发明的一些实施例中,根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,包括:将所述多个候选文本的声学得分和所述多个候选文本的注意力得分做加权平均操作,以修正所述多个候选文本的声学得分。需要说明的是,重打分整体的工作原理为压缩后的声学特征序列与CTC解码器输出的若干条候选文本序列一起输入注意力解码器,注意力解码器输出各个候选文本序列的注意力分数,然后将这若干条候选文本序列的声学得分和注意力得分加权平均,得到它们重打分后的分数,最后取分数最优的那条备选文本序列作为最终的识别结果。因此,重打分结果因为融入了注意力机制,使最终的识别结果更为精准,且因为注意力解码器基于所述压缩后声学特征序列计算注意力机制所需的Key向量序列和Value向量序列,因为整体上减少了延迟。
在本发明的另一些实施例中,重打分语音识别模型的训练步骤包括:获取预语音样本数据和目标语音样本数据,其中,所述预语音样本数据包括预语音样本和所述语音样本对应的标注文本;根据所述预语音样本数据训练所述编码器和所述CTC解码器;根据所述目标语音样本数据训练所述压缩网络和所述注意力解码器;再如图2所示,采用第一损失函数优化所述编码器和所述CTC解码器;采用第二损失函数优化所述压缩网络和所述注意力解码器;当训练达到预设次数时,停止训练。这里第一损失函数表征CTC损失,第二损失函数可以为交叉熵函数,二者采用加权和的方式进行优化重打分语音识别模型,直至将重打分语音识别模型训练好。
本申请先获取目标语音数据,将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,再从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果,其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器,延迟较低,识别等待时间短,实现快速而精准的重打分,进而提升语音识别效率。
可以理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
在本申请的一些示例性实施例中,还提供了一种重打分语音识别装置,如图3所示,该装置用于执行上述任一实施例提供的重打分语音识别方法,所述装置包括:
获取模块301,被配置为获取目标语音数据;
重打分模块302,被配置为将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
识别模块303,被配置为从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
应当理解的是,所述还包括必要的支撑性硬件或设备,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
还需要强调的是,本申请实施例中提供的系统可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面请参考图4,其示出了本申请的一些实施方式所提供的一种计算机设备的示意图。如图4所示,所述计算机设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的重打分语音识别方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述重打分语音识别方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施方式还提供一种与前述实施方式所提供的重打分语音识别方法对应的计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的重打分语音识别方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请实施方式还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任意实施方式所提供的重打分语音识别方法的步骤,包括:获取目标语音数据;将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种重打分语音识别方法,其特征在于,所述方法包括:
获取目标语音数据;
将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
2.根据权利要求1所述的重打分语音识别方法,其特征在于,所述将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分,包括:
将所述目标语音数据输入所述编码器,得到声学特征序列;
将所述声学特征序列输入所述CTC解码器,得到所述声学特征序列对应的多个候选文本及所述多个候选文本的声学得分;
将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列;
将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分;
根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,得到所述多个候选文本的重打分。
3.根据权利要求2所述的重打分语音识别方法,其特征在于,所述压缩网络包括两个串联的前馈网络;所述将所述声学特征序列输入所述压缩网络进行压缩,得到压缩后声学特征序列,包括:
按顺序将所述声学特征序列中每五帧向量分为一组,并将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,将得到的所有组向量的变换结果作为压缩后声学特征序列;
其中,若分组后剩余不足五帧的向量,将所述不足五帧的向量输入所述两个前馈网络依次进行线性变换和/或非线性变换。
4.根据权利要求3所述的重打分语音识别方法,其特征在于,所述将每组向量分别输入所述两个前馈网络依次进行线性变换和/或非线性变换,包括:
将每组向量按行拼成矩阵,将所述矩阵经过处理得到权重向量;
利用所述权重向量对所述每组向量做加权平均操作,得到每组向量对应的变换结果。
5.根据权利要求2所述的重打分语音识别方法,其特征在于,所述将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,得到所述多个候选文本的注意力得分,包括:
将所述压缩后声学特征序列和所述多个候选文本输入所述注意力解码器,以减少所述注意力解码器的计算量;
所述注意力解码器基于所述压缩后声学特征序列计算注意力机制所需的Key向量序列和Value向量序列;
基于所述Key向量序列和Value向量序列得到所述多个候选文本的注意力得分。
6.根据权利要求5所述的重打分语音识别方法,其特征在于,所述根据所述多个候选文本、所述多个候选文本的声学得分和所述多个候选文本的注意力得分进行重打分,包括:
将所述多个候选文本的声学得分和所述多个候选文本的注意力得分做加权平均操作,以修正所述多个候选文本的声学得分。
7.根据权利要求1-6任一所述的重打分语音识别方法,其特征在于,所述重打分语音识别模型的训练步骤包括:
获取预语音样本数据和目标语音样本数据,其中,所述预语音样本数据包括预语音样本和所述语音样本对应的标注文本;
根据所述预语音样本数据训练所述编码器和所述CTC解码器;
根据所述目标语音样本数据训练所述压缩网络和所述注意力解码器;
采用第一损失函数优化所述编码器和所述CTC解码器;
采用第二损失函数优化所述压缩网络和所述注意力解码器;
当训练达到预设次数时,停止训练。
8.一种重打分语音识别装置,其特征在于,所述装置包括:
获取模块,被配置为获取目标语音数据;
重打分模块,被配置为将所述目标语音数据输入训练好的重打分语音识别模型进行重打分,得到所述目标语音数据对应的多个候选文本的重打分;
识别模块,被配置为从所述多个候选文本中筛选出匹配度最高的候选文本作为目标语音数据的识别结果;
其中,所述重打分语音识别模型包括编码器、压缩网络、CTC解码器和注意力解码器。
9.一种计算机设备,包括存储器和处理器,其特征在于,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如权利要求1-7任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211392637.0A CN118016052A (zh) | 2022-11-08 | 2022-11-08 | 一种重打分语音识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211392637.0A CN118016052A (zh) | 2022-11-08 | 2022-11-08 | 一种重打分语音识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118016052A true CN118016052A (zh) | 2024-05-10 |
Family
ID=90957017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211392637.0A Pending CN118016052A (zh) | 2022-11-08 | 2022-11-08 | 一种重打分语音识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118016052A (zh) |
-
2022
- 2022-11-08 CN CN202211392637.0A patent/CN118016052A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及系统 | |
CN110163359B (zh) | 一种计算装置及方法 | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
US20220207356A1 (en) | Neural network processing unit with network processor and convolution processor | |
CN112036555B (zh) | 目标检测框架的优化方法及装置、存储介质、电子设备 | |
US20220207327A1 (en) | Method for dividing processing capabilities of artificial intelligence between devices and servers in network environment | |
CN113378937B (zh) | 一种基于自监督增强的小样本图像分类方法及系统 | |
CN111353591A (zh) | 一种计算装置及相关产品 | |
Chen et al. | An Improved Deep Fusion CNN for Image Recognition. | |
CN101438598B (zh) | 用于产生两个独立绝对差和的指令 | |
CN114925320B (zh) | 一种数据处理方法及相关装置 | |
CN111814534A (zh) | 视觉任务的处理方法、装置和电子系统 | |
CN112598110B (zh) | 神经网络构建方法、装置、设备及介质 | |
CN112861934A (zh) | 一种嵌入式终端的图像分类方法、装置及嵌入式终端 | |
CN118016052A (zh) | 一种重打分语音识别方法、装置、设备及介质 | |
CN112132281A (zh) | 一种基于人工智能的模型训练方法、装置、服务器及介质 | |
CN114819052A (zh) | 一种基于改进的YOLOv5s模型的苹果病害识别方法 | |
CN114938455A (zh) | 基于单元特性的编码方法、装置、电子设备及存储介质 | |
CN113240032A (zh) | 一种图像分类方法、装置、设备及存储介质 | |
CN113313720A (zh) | 对象分割方法和装置 | |
CN114443878A (zh) | 图像分类方法、装置、设备及存储介质 | |
WO2021179117A1 (zh) | 神经网络通道数搜索方法和装置 | |
CN112489687A (zh) | 一种基于序列卷积的语音情感识别方法及装置 | |
CN111738455A (zh) | 一种基于集成域自适应的故障诊断方法及系统 | |
KR20200135117A (ko) | 압축 해제 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |