CN114944149A

CN114944149A - 语音识别方法、语音识别设备及计算机可读存储介质

Info

Publication number: CN114944149A
Application number: CN202210400143.6A
Authority: CN
Inventors: 张景宣; 万根顺; 高建清; 刘聪; 胡国平; 刘庆峰; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-08-26

Abstract

本申请公开了一种语音识别方法、语音识别设备及计算机可读存储介质。该方法包括：基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征，其中，参考文本对参考语音识别得到，参考文本的语境与待识别语音的语境相关，参考语音的发言时间先于待识别语音的发言时间；基于参考文本特征和语音特征，识别得到待识别语音的识别文本。通过上述方式，能够提高识别文本的准确度。

Description

语音识别方法、语音识别设备及计算机可读存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音识别方法、语音识别设备及计算机可读存储介质。

背景技术

语音识别技术的应用场景有很多，例如音视频字幕生成、自动会议纪要转写、录音转写、智能语音助手、车载人机交互系统等等。

语音识别方法大致可以描述为提取待识别语音的语音特征，对语音特征进行识别，得到识别文本。但是，该方法下得到的识别文本准确度不高。

发明内容

本申请提供一种语音识别方法、语音识别设备及计算机可读存储介质，能够解决现有的语音识别方法得到的识别文本准确度不高的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音识别方法。该方法包括：基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征，其中，参考文本对参考语音识别得到，参考文本的语境与待识别语音的语境相关，参考语音的发言时间先于待识别语音的发言时间；基于参考文本特征和语音特征，识别得到待识别语音的识别文本。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别设备，该语音识别设备包括特征提取模块和识别模块。特征提取模块用于基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征，其中，参考文本对语境与待识别语音的语境相关的参考语音识别得到，参考语音的发言时间先于待识别语音的发言时间；识别模块用于基于参考文本特征和语音特征，识别得到待识别语音的识别文本。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音识别设备，该语音识别设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令；处理器用于执行存储器存储的程序指令以实现上述方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，存储有程序指令，该程序指令被执行时能够实现上述方法。

通过上述方式，本申请额外引入了参考文本特征来辅助对语音特征的识别，由于参考语音与待识别语音的语境相关，因此参考文本与待识别语音表达的文本的语境相关，参考文本特征能够在一定程度上表达参考文本的语境，因此基于参考文本特征辅助语音特征的识别，能够考虑参考文本与待识别语音表达的文本的语境之间的联系，提高得到的识别文本与待识别语音表达的文本的接近程度，即提高识别文本的准确度。

附图说明

图1是相关技术中语音识别方法的流程示意图；

图2是本申请语音识别方法一实施例的流程示意图；

图3是全局文本特征提取的流程示意图；

图4是局部文本特征提取的流程示意图；

图5是RNN的结构示意图；

图6是本申请语音识别方法另一实施例的流程示意图；

图7是本申请语音识别方法又一实施例的流程示意图；

图8是图7中S32的一具体流程示意图；

图9是图7中S32的另一具体流程示意图；

图10是图7中S33的一具体流程示意图；

图11是Transformer模型的一结构示意图；

图12是Transformer模型的另一结构示意图；

图13是Transformer模型的又一结构示意图；

图14是本申请语音识别方法一应用场景示意图；

图15是本申请语音识别方法一具体实例的流程示意图；

图16是语音识别模型的一结构示意图；

图17是本申请语音识别模型的训练方法的流程示意图；

图18是语音识别装置的一结构示意图；

图19是本申请语音识别设备一实施例的结构示意图；

图20是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

在介绍本申请提供的语音识别方法之前，先结合图1对相关技术中语音识别方法的流程进行说明：

如图1所示，在时间方向上，按句子依次将待识别的源语音切分为连续的待识别语音1、待识别语音2、待识别语音3……，每条待识别语音表达一个固定长度的句子。利用语音识别模型对各待识别语音进行逐条识别，得到识别文本1、识别文本2、识别文本3……。

上述的语音识别方法，对不同的待识别语音的识别过程是独立的，因此对单个待识别语音进行识别的过程中，仅仅会考虑该单条待识别语音表达的句子内部的信息。

由于词汇表中存在发音相同或相近的不同字符和词语，因此在对待识别语音进行识别时，很容易混淆一些发音相同或相近的字符和词语，导致语音识别得到的识别文本存在错误。

为了方便理解，列举一些具体的应用场景：当待识别语音表达的句子有发音为“TA”的字符时，在语音识别的时候可能被识别为“她”、“他”、“它”等。又如，当待识别语音表达的句子有发音是“QINGYUANZI”的词组时，语音识别的时候可能被识别为“氢原子”、“青园子”等等。

为了避免混淆发音相同或相近的字词导致的识别文本存在错误的问题，本申请在进行语音识别的过程中，引入了参考文本特征来辅助对待识别语音的识别，具体如下：

图2是本申请语音识别方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，本实施例可以包括：

S11：基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征。

其中，参考文本是对参考语音识别得到，参考文本的语境与待识别语音的语境相关，参考语音的发言时间先于待识别语音的发言时间。

可以从时间方向对源语音按预设规则进行切分(一般是按句子切分)，得到若干个语音片段，每个语音片段作为一条待识别语音。在语音识别过程，依次对若干条待识别语音进行逐条识别。本申请实施例对其中一条待识别语音的识别为例进行说明。

由于参考语音的发言时间先于待识别语音的发言时间，因此从发言时间的角度来说，参考语音相对待识别语音来说是历史语音，参考文本相对识别文本来说是历史文本。本申请提及的参考语音/待识别语音的语境，是指参考语音/待识别语音表达的文本的语境，参考语音与待识别语音的语境相关，是指参考语音与待识别语音表达的文本的语境相关。

可以理解的是，根据发言习惯可知，同一段话中，后文句子的语境和前文句子的语境相关(即不同句子间上下文的语境相关)。或者，同一发言主题的不同段话中，后一段话的语境和前一段话的语境相关(即不同段话间上下文的语境相关)。

基于此，参考语音和待识别语音可以来自同一源语音，且待识别语音是同一源语音中表达后文句子的语音片段，参考语音是同一源语音中表达前文句子的语音片段。例如，该同一源语音表达的是一段话，其中包括5个句子，被切分为分别表达5个句子的语音片段1～5，在语音识别过程中，依次将语音片段1～5作为待识别语音进行识别。在将语音片段3作为待识别语音时，将已经进行了语音识别的语音片段1和语音片段2作为参考语音。

或者，参考语音和待识别语音可以来自不同的两条源语音。不同的两条源语音可以是同一发言人使用的相同或不同语音采集设备在不同时间段采集到的，也可以是参与发言的不同发言人使用的语音采集设备在不同时间段采集到的。例如，参考语音来自源语音1，待识别语音来自源语音2。源语音1是由发言人甲使用的语音采集设备A在时间段1采集到的，源语音2是由发言人甲使用的语音采集设备B在时间段1之后的时间段2采集到的。又如，源语音1和源语音2分别是由发言人甲使用的语音采集设备A在时间段1、时间段2采集到的。再如，源语音1是由发言人甲使用的语音采集设备A在时间段1采集到的，源语音2是由发言人乙使用的语音采集设备C在时间段1之后的时间段3采集到的。

为了方便理解，列举一具体的应用场景：甲最近想购入一台车，第一天就买车主题与朋友A交谈，甲使用的语音采集设备A采集到相关的语音a1。第二天就买车主题与朋友B交谈，甲使用的语音采集设备A采集到相关的语音a2。待识别语音来自语音a2，参考语音来自语音a1。

一般来说，参考语音和待识别语音的时间间隔越小，参考语音和待识别语音表达的文本的语境相关程度越高，反之越低。而相应地，参考语音的时长越长，在对待识别语音的识别过程引入参考文本特征，需要越多额外的处理开销。在一些实施例中，可以通过时间间隔阈值，来权衡参考语音和待识别语音的相关程度以及额外的处理开销。时间间隔阈值可以是固定的，也可以是根据应用场景适应性变化的。例如，在发言主题展开性较强的情况下，可以设置一较长的时间间隔；在发言主题展开性较弱的情况下，可以设置一较短的时间间隔。时间间隔的限定可以通过滑动窗口来实现。

为了方便理解，给出一具体的应用场景：待识别语音和参考语音来自同一源语音，该同一源语音是会议录音，是对会议中的各个发言人围绕某一会议主题的发言采集得到的。按句子对会议录音切分，得到100个语音片段，依次将100个语音片段作为待识别语音进行识别。在将语音片段50作为待识别语音时，相对不满足时间间隔阈值要求的语音片段1～39来说，满足时间间隔阈值要求的语音片段40～49与语音片段50的语境相关程度更高，将语音片段1～39作为参考语音。

参考文本特征可以包括参考文本的全局文本特征、参考文本中各关键词的局部文本特征中至少一者。

参考文本包括若干句子。针对全局文本特征：可以将参考文本中若干句子拼接，得到拼接句子；对拼接句子进行全局特征提取，得到全局文本特征。

全局文本特征提取依据的模型包括但不限于是BERT模型，BERT模型具有全视野的注意力机制，因此可以提取用于表达参考文本全局信息的全局文本特征。拼接句子的长度为N时，模型的计算复杂度是O(N²)，因此，拼接句子越长(参考语音的时长越长)，模型实现全局文本特征提取的复杂度越高。

结合图3进行举例说明，如图3所示，句子1～句子t+w均是已经识别得到的历史文本，句子t+w+1是待识别语音表征的文本，与其相邻的滑动窗口(长度w)内的句子1～句子t+w为参考文本。可以将滑动窗口内的句子拼接，得到拼接句子；将拼接句子输入BERT模型，得到全局文本特征。

针对各关键词的局部文本特征：可以将参考文本中若干句子拼接，得到拼接句子；从拼接句子提取若干关键词；对各关键词进行局部特征提取，得到各关键词的局部文本特征。

其中，关键词的提取步骤可以包括：

对拼接句子进行分词处理，得到拼接句子中的若干词组；分词处理是将拼接句子中词与词之间加上边界标记，依据的模型包括但不限于N元语法模型(Ngram)、神经网络语言模型(MLM)。

进一步地，从若干词组中抽取若干候选关键词；抽取候选关键词依据的模型包括但不限于TFIDF、Topic-model、RAKE。以TFIDF为例，可以按照预先设置的关键词个数N，抽取2N个候选关键词。

进一步地，候选关键词过滤，得到最终的关键词。其中，可以合并冗余的候选关键词，例如“科大讯飞有限公司”和“科大讯飞”，只保留较长的关键词；还可以删除分词不一致导致的冗余短语，例如“月全食”和“月全食”视为相同词汇)；删除数字、单位等；删除单字。仍然以TFIDF模型为例，可以根据TFIDF模型输出2N个候选关键词的得分，从2N个候选关键词中选择得分最高的N个作为最终的关键词。

结合图4进行举例说明，可以将滑动窗口内的句子拼接，得到拼接句子；基于Ngram语音模型对拼接句子分词、基于TFIDF模型从分词结果提取2N个候选的关键词；候选关键词过滤，得到关键词1～关键词N；对各关键词进行编码，得到各关键词的局部文本特征H＝[h₁,h₂,…,h_N]。其中h_i(i＝1，…，N)表示第i个关键词的局部文本特征。

S12：基于参考文本特征和语音特征，识别得到待识别语音的识别文本。

语音特征是由多个语音子特征组成的序列，每个语音子特征表达的是一个字符，或者多个字符组成的词语。基于参考文本特征和语音特征的识别分为多轮(多个时间步)，在各轮依次基于不同的语音子特征和参考文本特征进行识别。更具体地，在进行特定轮的识别之前，需要先从语音特征确定该特定轮所要识别的语音子特征(特定语音子特征)。确定特定语音子特征的方式可以是为语音特征中各语音子特征分配注意力权重，且为特定语音子特征分配的注意力权重远高于其他语音子特征。或者，确定特定语音子特征的方式可以是通过位置指示信息界定特定语音子特征的位置。从而，在特定轮的识别过程中，掩盖其他语音子特征的信息，排除其他语音子特征对特定子特征识别的干扰。

S12中的识别过程也可以称为解码过程，依据的解码器可以是任意类型的循环神经网络(Recurrent Neural Network，RNN)，如LSTM，还可以是Transformer网络，还可以是以上列举的网络的衍生网络等等。

基于语音特征和参考文本特征进行识别，实质是利用参考文本特征辅助对语音特征的识别。参考文本特征的辅助方式可以是将参考文本特征与语音特征拼接，后续解码对参考文本特征与语音特征的拼接结果进行；或者可以是将参考文本特征与语音特征的中间解码结果(如隐藏状态)进行融合，后续解码对参考文本特征与中间解码结果的融合结果进行；或者可以是基于参考文本特征对语音特征进行注意力处理，后续解码基于注意力处理的结果进行等等。

可以理解的是，相同或相近发音的不同字符和词语的语义不同，而语义与语境相关，因此结合字词所在的语境进行识别，能够降低语音识别过程对相同或相近发音的不同字词产生混淆的可能性。

但是，如果仅基于待识别语音的语音特征进行识别，考虑到的语境仅限于待识别语音表达的文本内部的语境。因此，本实施例中，额外引入了参考文本特征来辅助对语音特征的识别，由于参考语音与待识别语音的语境相关，因此参考文本与待识别语音表达的文本的语境相关，参考文本特征能够在一定程度上表达参考文本的语境，因此基于参考文本特征辅助语音特征的识别，能够考虑参考文本与待识别语音表达的文本的语境之间的联系，提高得到的识别文本与待识别语音表达的文本的接近程度，即提高识别文本的准确度。

为了便于理解引入参考文本特征带来的技术效果，结合实际应用场景举例说明：

当待识别语音表达的文本有发音为“TA”的字符时，在语音识别的时候可能被识别为“她”、“他”、“它”等。如果参考文本中含有明显的性别指向的词语“女生”，那么发音为“TA”的字符被识别为“她”的概率更大，如果参考文本中含有明显的性别指向的词“男生”，那么发音为“TA”的字符被识别为“他”的概率更大。

当待识别语音表达的句子有发音为“QINGYUANZI”的词语时，语音识别的时候可能被识别为“氢原子”、“青园子”等等。如果参考文本包含有机物等化学知识，那么发音为“QINGYUANZI”的词语被识别为“氢原子”的概率更大。如果参考文本包含有公园、景色等，那么发音为“QINGYUANZI”的词语被识别为“青园子”的概率更大。

进一步地，在S12中识别过程依据的解码器是RNN的情况下，对S12进行说明：

图5是RNN的结构示意图，如图5所示，RNN包括输入层X、隐藏层S和输出层O，t表示时间步(后文也称轮)，O_t表示第t轮的输出。U、W、V表示权重。X_t表示第t轮的输入，S_t表示第t轮的隐藏层的值(隐藏状态)。S_t不仅取决于X_t，还取决于S_t-1(t-1轮的隐藏状态)，即第t轮的隐藏层的输入包括X_t和S_t-1，输出为S_t。

RNN对X_t的原始处理逻辑可以体现描述为下式：

O_t＝g(V*S_t)；

S_t＝f(UX_t+W*S_t-1)；

其中，f(.)表示对X_t和S_t-1处理的函数，g(.)表示对S_t处理的函数，隐藏层的初始隐藏状态S₀是全零特征。

基于RNN的结构，对S12进一步扩展：

图6是本申请语音识别方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。如图6所示，本实施例可以包括：

S21：获取前轮解码的解码状态。

解码状态即前面提及的隐藏状态，是在前轮解码过程中对语音特征解码得到的。在本轮解码为首轮解码的情况下，前轮解码的解码状态为全零特征(各维的特征值均为0)，或者，前轮解码的解码状态基于全局文本特征得到。其中，可以对全局文本特征进行转换，转换后的全局文本特征与解码器状态相适应，将其作为前轮解码的解码状态(即隐藏层的隐藏状态，初始隐藏状态)，能够被解码器合理利用。

S22：基于前轮解码的解码状态和参考特征进行解码，得到本轮解码的解码字符和解码状态。

其中，参考特征至少包括语音特征。

在其他实施例中，参考特征还可以包括各关键词的局部文本特征在本轮解码的融合文本特征。其中，各关键词的局部文本特征在不同轮解码的融合文本特征可以一致，也可以不一致。

在相同的情况下，依据相同的第一权重，对各关键词的局部文本特征进行加权，得到融合文本特征，并将融合文本特征应用于各轮解码。

在不同的情况下，可以基于本轮解码的解码状态，获取各关键词在本轮解码的第一权重；基于各关键词在本轮解码的第一权重对各关键词的第一文本特征进行加权，得到融合文本特征。其中，可以将各关键词的特征与本轮解码的解码状态进行匹配，得到各关键词在本轮解码的第一权重。例如，记各关键词的局部文本特征为H＝[h₁,h₂,…,h_N]，h_i(i＝1，…，N)表示第i个关键词的局部文本特征。通过与本轮解码的解码状态s进行匹配，得到各关键词的第一权重b＝softmax(v^Ttanh(Ws+VH)；基于各关键词的第一权重对各关键词的局部文本特征进行加权，得到融合文本特征

在参考文本特征包括全局文本特征的情况下，S22可以包括：基于前轮解码对应的解码状态和全局文本特征进行解码，得到本轮解码的解码字符和解码状态。

在参考文本特征还包括融合文本特征的情况下，S22可以包括：将语音特征和本轮解码的融合文本特征进行拼接，得到本轮解码的第一拼接特征；基于本轮解码的第一拼接特征，以及前轮解码的解码状态进行解码，得到本轮解码的解码字符和解码状态。

S23：基于各轮解码的解码字符进行组合，得到识别文本。

如下以几个例子的形式，对S21～S23中第t轮解码进行详细说明：

例子1：参考文本特征包括全局文本特征，参考特征包括语音特征。

1)在第t轮利用注意力机制对语音特征进行处理，处理后的语音特征Xt的注意力集中在t轮待识别的语音子特征。

2)RNN对Xt的处理逻辑可以描述为：

S₀＝y(M)；

O_t＝g(V*S_t)；

S_t＝f(U(X_t+N_t)+W*S_t-1)；

其中，M表示全局文本特征，S₀表示隐藏层的初始状态(初始隐藏状态、初始解码状态)，N_t表示各关键词的全局文本特征在第t轮解码的融合文本特征，X_t+N_t表示X_t和N_t的拼接特征，S₀为全零特征。

例子2：参考文本特征包括各关键词的局部文本特征，参考特征包括语音特征和融合文本特征。

1)在第t轮利用注意力机制对语音特征进行处理，处理后的语音特征X_t的注意力集中在t轮待识别的语音子特征。

2)RNN对X_t的处理逻辑可以描述为：

O_t＝g(V*S_t)；

S_t＝f(U(X_t+N_t)+W*S_t-1)；

其中，N_t表示各关键词的局部文本特征在第t轮解码的融合文本特征，X_t+N_t表示X_t和N_t的拼接特征，S₀为全零特征。

例子3：参考文本特征包括全局文本特征和各关键词的局部文本特征，参考特征包括语音特征和融合文本特征。

2)RNN对Xt的处理逻辑可以描述为：

S0＝y(M)；

Ot＝g(v*St)；

St＝f(U(Xt+Nt)+W*St-1)。

可以理解的是，本实施例中，在参考文本特征包括各关键词的局部文本特征、参考特征包括融合文本特征的情况下，相对于RNN的原始处理逻辑来说，将融合文本特征和语音特征的拼接特征作为本轮的输入，使得在对语音特征处理的每一步骤都会参考融合文本特征，直至完成本轮解码，以此方式实现融合文本特征对语音特征识别的辅助，提高识别文本的准确度。

在参考文本特征包括全局文本特征的情况下，相对于RNN的原始处理逻辑来说，基于全局文本特征得到首轮解码所需参考的解码状态基于全局文本特征得到，使得全局文本特征通过融入隐藏状态的方式，实现对语音特征识别的辅助，相当于给解码器提供了一个偏置，让解码器的隐藏状态更加偏向对符合待识别语音表达的文本语境的方向进行解码，掩盖掉不符合待识别语音表达的文本语境的信息，从而提高识别文本的准确度。

进一步地，结合参阅图7，在S12中识别过程依据的解码器是Transformer模型的情况下，S12可以包括以下子步骤：

S31：获取各历史轮解码对应的字符特征。

其中，历史轮解码对应的字符特征基于历史轮解码的解码字符提取。

各历史轮是相对本轮来说的，其中包括本轮的前轮，前前轮，……，首轮。例如，本轮是第2轮，各历史轮包括第0轮和第1轮。

字符特征可以包括第一字符查询特征Q、第一字符键特征K和第一字符值特征V。其中，第一字符查询特征经查询映射参数对前轮解码的解码字符转换得到，第一字符键特征经键映射参数对前轮解码的解码字符转换得到，第一字符值特征经值映射参数对前轮解码的解码字符转换得到。查询映射参数、键映射参数和值映射参数为三个大小相同的矩阵，分别与前轮解码得到的解码字符相乘，可以得到Q、K和V。

S32：基于各历史轮解码对应的字符特征，对前轮解码得到的解码字符进行注意力处理，得到第一注意力处理结果。

在一些实施例中，在对前轮解码的解码字符进行注意力处理的过程中还参考全局文本特征。

在不参考全局文本特征的情况下，结合参阅图8，S32可以包括以下子步骤：

S321：基于前轮解码对应的第一字符查询特征、各历史轮解码对应的第一字符键特征，计算第二权重。

S322：基于第二权重和各历史轮解码对应的第一字符值特征，得到第一注意力处理结果。

在一些实施例中，S321～S322可以通过如下方式实现：可以将各历史轮解码对应的第一字符键特征拼接，得到第一拼接特征；将前轮解码对应的第一字符查询特征与第二拼接特征进行匹配，得到第二权重；将各历史轮解码对应的第一字符值特征拼接，得到第三拼接特征；将第二权重与第三拼接特征相乘，得到第一注意力处理结果。

在一些实施例中，S321～S322还可以通过如下方式实现，可以将前轮解码对应的第一字符查询特征分别与各历史轮解码对应的第一字符键特征进行匹配，得到各历史轮解码对应的第一字符值特征在本轮的第二权重；依据第二权重，对各历史轮解码对应的第一字符值特征进行加权，得到第一注意力处理结果。

在参考全局文本特征的情况下，结合参阅图9，S32可以包括以下子步骤：

S323：基于前轮解码对应的第一字符查询特征、各历史轮解码对应的第一字符键特征和全局文本特征，计算第二权重。

S324：基于第二权重、各历史轮解码对应的第一字符值特征和全局文本特征，得到第一注意力处理结果。

在一些实施例中，S323～S324可以通过如下方式实现：将各历史轮解码对应的第一字符键特征、全局文本特征拼接，得到第二拼接特征；将前轮解码对应的第一字符查询特征与第二拼接特征进行匹配，得到第二权重；将各历史轮解码对应的第一字符值特征、全局文本特征拼接，得到第三拼接特征；将所述第二权重与第三拼接特征相乘，得到第一注意力处理结果。

在一些实施例中，S323～S324还可以通过如下方式实现：可以将前轮解码对应的第一字符查询特征分别与各历史轮解码对应的第一字符键特征、全局文本特征进行匹配，得到各历史轮解码对应的第一字符值特征、全局文本特征在本轮的第二权重；依据第二权重，对各历史轮解码对应的第一字符值特征、全局文本特征进行加权，得到第一注意力处理结果。

可以理解的是，S321～S322可以视为对前轮解码的解码字符进行自注意力处理的过程。对前轮解码的解码字符进行自注意力处理的过程，可以从前轮解码的解码字符中提取与本轮解码有关的信息，掩盖前轮解码的解码字符中与本轮解码无关的信息。相对S321～S322来说，S323～S324对前轮解码的解码字符进行自注意力处理的过程，额外考虑了全局文本特征，因此得到的第一注意力处理结果，能够更加准确地定位前轮解码的解码字符中与本轮解码有关的信息，得到的第一注意力处理结果更加准确。

S33：基于第一注意力处理结果和参考特征进行解码，得到本轮解码的解码字符。

其中，参考特征至少包括语音特征。

在一些实施例中，参考特征还可以包括参考文本中各关键词的局部文本特征。

在参考特征包括语音特征的情况下，可以基于第一注意力处理结果对语音特征进行增强，得到增强特征；基于增强特征解码，得到本轮解码的解码字符。对语音特征增强的方式可以是对第一注意力处理结果转换得到第三字符查询特征，对语音特征转换得到第三字符键特征和第三字符值特征，基于第三字符查询特征、第三字符键特征和第三字符值特征进行注意力处理(方法与前述对第一字符查询特征、第一字符键特征和第一字符值特征进行注意力处理的过程类似)，得到增强特征。

在参考特征还包括局部文本特征的情况下，结合参阅图10，S33可以包括以下子步骤：

S331：基于第一注意力处理结果对语音特征进行增强，得到增强特征。

S332：基于增强特征、本轮解码的局部文本特征进行解码，得到本轮解码的解码字符。

可以经查询映射参数对增强特征转换，得到第二字符查询特征，并经映射参数和值映射参数分别对局部文本特征转换，得到第二字符键特征和第二字符值特征；基于第二字符查询特征、第二字符键特征和第二字符键特征进行注意力处理，得到第二注意力处理结果；基于第二注意力处理结果进行解码得到本轮解码的解码字符。

也就是说，在参考特征还包括局部文本特征的情况下，得到增强特征之后，未直接对增强特征解码得到本轮解码的解码字符，而是还参考了局部文本特征，因此能够提高本轮解码的解码字符的准确度。

S34：基于各轮解码所得到的解码字符进行组合，得到识别文本。

如下结合Transformer模型的结构，以几个例子的形式，对S31～S34进行说明：

例子4：在对前轮解码得到的解码字符进行注意力处理的过程中参考全局文本特征、各历史轮解码对应的字符特征；参考特征包括语音特征。

图11是Transformer模型的一结构示意图，如图11所示，Transformer模型包括N个Transformer块结构，每个Transformer块结构包括自注意力模块、编码器-解码器注意力模块和全连接层。

自注意力模块采用自注意力机制(可以是单头自注意力机制，也可以是多头自注意力机制，本申请后文以多头自注意力机制为例进行说明)对前轮解码得到的解码字符进行处理。

1)在第0轮，自注意力模块处理得到第0轮解码的第一注意力处理结果。具体来说，自注意力模块对开始标志符“<s>”的词嵌入向量a₀转换，得到第一字符查询特征Q₁₀、第一字符键特征K₁₀和第一字符值特征V₁₀；将K₁₀和全局文本特征L拼接，得到第0轮的第二拼接特征，将V₁₀和全局文本特征L拼接，得到第0轮的第三拼接特征；对Q₁和第0轮的第二拼接特征进行匹配，得到第一轮解码的第二权重α₁₀；将α₁₀和第0轮的第三拼接特征相乘，得到第0轮解码的第一注意力处理结果P10。

2)编码器-解码器注意力模块基于P₁₀对语音特征中第0轮待解码的部分X₀进行增强，得到增强特征X₀’。具体来说，将P₁₀转换为第三字符查询特征Q₃₀，将X₀分别转换为第三字符键特征K₃₀和第三字符值特征V₃₀；基于Q₃₀、K₃₀和V₃₀进行注意力处理，得到增强特征X₀’。

3)全连接层基于增强特征X₀’进行非线性变换，以得到第0轮解码的解码字符“科”。具体说明请参考相关技术，在此不赘述。

4)在第1轮，自注意力模块处理得到第1轮解码的第一注意力处理结果。具体来说，自注意力模块对“科”的词嵌入向量a₁转换，得到第一字符查询特征Q₁₁、第一字符键特征K₁₁和第一字符值特征V₁₁；将K₁₁、K₁₀和L拼接得到第1轮的第二拼接特征，将V₁₁、V₁₀和L拼接得到第1轮的第三拼接特征；将Q₁₁与第1轮的二拼接特征进行匹配，得到第1轮解码的第二权重α₁₁，将α₁₁和第1轮的第三拼接特征相乘，得到第1轮解码的第一注意力处理结果P₁₁。

5)编码器-解码器注意力模块基于P₁₁对语音特征中第1轮待解码的部分X₁进行增强，得到增强特征X₁’。具体过程与得到X₀’的过程类似，在此不赘述。

6)全连接层基于增强特征X₁’进行非线性变换，以得到第1轮解码的解码字符“大”。具体说明请参考相关技术，在此不赘述。

后续轮的处理流程依次类推。

例子5：在对前轮解码得到的解码字符进行注意力处理的过程中参考各历史轮解码对应的字符特征；参考特征包括语音特征和局部文本特征。

图12是Transformer模型的另一结构示意图，如图12所示，Transformer模型包括N个Transformer块结构，每个Transformer块结构包括自注意力模块、编码器-解码器注意力模块、关键词-解码器注意力模块和全连接层。

1)在第0轮，自注意力模块处理得到第0轮解码的第一注意力处理结果。具体来说，自注意力模块对开始标志符“<s>”的词嵌入向量a₀转换，得到第一字符查询特征Q₁₀、第一字符键特征K₁₀和第一字符值特征V₁₀；对Q₁₀和K₁₀进行匹配，得到第一轮解码的第二权重α₁₀；将α₁₀和V₁₀相乘，得到第0轮解码的第一注意力处理结果P₁₀。

2)编码器-解码器注意力模块基于P₁₀对语音特征中第0轮待解码的部分X₀进行增强，得到增强特征X₀’。

3)关键词-解码器注意力模块基于X₀’和各关键词的局部文本特征H得到第0轮解码的第二注意力处理结果P₂₀。具体来说，将X₀’转换得到第二字符查询特征Q₂₀，将H转换得到第二字符键特征K和第二字符值特征V；基于Q₂₀、K和V进行注意力处理，得到第二注意力处理结果P₂₀。

4)全连接层基于增强特征P₂₀进行非线性变换，以得到第0轮解码的解码字符“科”。具体说明请参考相关技术，在此不赘述。

后续处理流程与前面类似，在此不赘述。

例子6：在对前轮解码得到的解码字符进行注意力处理的过程中参考全局文本特征、各历史轮解码对应的字符特征；参考特征包括语音特征。

图13是Transformer模型的又一结构示意图，如图13所示，Transformer模型包括N个Transformer块结构，每个Transformer块结构包括自注意力模块、编码器-解码器注意力模块和全连接层。

1)在第0轮，自注意力模块处理得到第0轮解码的第一注意力处理结果。具体来说，自注意力模块对开始标志符“<s>”的词嵌入向量a₀转换，得到第一字符查询特征Q₁₀、第一字符键特征K₁₀和第一字符值特征V₁₀；将K₁₀和全局文本特征L拼接，得到第0轮的第二拼接特征，将V₁₀和全局文本特征L拼接，得到第0轮的第三拼接特征；对Q₁和第0轮的第二拼接特征进行匹配，得到第一轮解码的第二权重α₁₀；将α₁₀和第0轮的第三拼接特征相乘，得到第0轮解码的第一注意力处理结果P₁₀。

3)关键词-解码器注意力模块基于X₀’和H得到第0轮解码的第二注意力处理结果P₂₀。具体来说，将X₀’转换得到第二字符查询特征Q₂₀，将H转换得到第二字符键特征K₂₀和第二字符值特征V₂₀；基于Q₂₀、K₂₀和V₂₀进行注意力处理，得到增强特征X₀’。

4)全连接层基于增强特征X₀’进行非线性变换，以得到第0轮解码的解码字符“科”。具体说明请参考相关技术，在此不赘述。

后续处理流程与前面类似，在此不赘述。

结合图14，列举一本申请语音识别方法具体的应用场景：发言人持有端侧1、端侧2和端侧3，端侧1～3可以进行语音采集和识别，端侧1～3采集语音并进行识别得到的文本(带有时间戳信息)会同步至语音辅助设备(语音辅助设备可以是端侧1～3中的一者，也可以是其他设备)，语音辅助设备依据时间戳信息对端侧1～3发送的文本进行排序，并提取排序后的文本特征。当发言人使用其中一个端侧(例如端侧1)时，语音辅助设备将文本特征作为参考文本特征发送至端侧1，以供使得端侧1在对新采集到的语音进行识别时参考。

进一步地，识别文本基于语音识别模型识别得到。如下结合图15～16，以例子的形式对本申请提供的语音识别方法进行说明：

例子7：如图15所示，对源语音按句子切分得到待识别语音1、待识别语音2和待识别语音3。因为待识别语音1表征的是首个句子，因此其参考文本特征为全零特征(表明空历史)，将参考文本特征和待识别语音1输入语音识别模型，得到识别结果1；将识别结果1作为待识别语音2的参考文本特征(历史表征1)，将历史表征1和待识别语音2输入语音识别模型，得到识别结果2；将识别结果2作为历史表征2和待识别语音3输入语音识别模型，得到识别结果3，依次类推。

图16是语音识别模型的结构(需要说明的是，该结构不造成对语音识别模型的限定，即语音识别模型也可以是相关技术中的其他结构)，如图16所示，语音识别模型包括语音编码器、注意力模块和解码器。基于此，语音识别模型的处理流程可以包括：

1)语音编码器对语音进行编码得到语音特征。

2)注意力模块在各轮解码之前，掩盖掉语音特征中与对应轮解码无关的部分；

3)解码器基于参考文本特征和语音特征，识别得到待识别语音的识别结果/识别文本。

进一步地，在上述应用语音识别模型之前，需要将语音识别模型训练至预期。语音识别模型基于样本数据训练得到，样本数据包括样本待识别语音、样本参考文本和样本待识别语音表达的样本实际文本，样本参考文本是对语境与样本待识别语音的语境相关的样本参考语音识别得到，样本参考语音的发言时间先于样本待识别语音的发言时间。对语音识别模型的训练包括若干轮。

在样本数据不足的情况下，如果仅有样本待识别语音，可以通过人工标注、ASR引擎转写等方法得到样本参考文本；如果仅有样本参考文本，可以通过人工标注、TTS引擎合成等方法，得到样本待识别语音。

结合参阅图17，在一些实施例中，语音识别模型的训练步骤可以包括：

S41：基于样本待识别语音进行语音特征提取，得到样本语音特征，并基于样本参考文本进行文本特征提取，得到样本文本特征。

S42：基于样本文本特征和样本语音特征，识别得到样本待识别语音的样本识别文本。

S43：基于样本识别文本与所述样本实际文本之间的差异，调整语音识别模型的网络参数。

本实施例原理与前面的实施例类似，在此不赘述。

进一步地，考虑到实际应用时可能存在待识别语音没有参考语音的情况(例如待识别语音表达的是一段话的首个句子的情况，参考图15相关的说明)，因此为了兼顾没有参考语音的情况下语音识别模型的表现，在训练过程中，将某些轮或者某些样本待识别语音的样本文本特征进行丢弃，即置为与样本文本特征大小一致的全零特征。

由此，在一些实施例中，在S42之前还可以判断本轮训练是否满足关于丢弃样本文本特征的训练条件；响应于本轮训练不满足训练条件，执行S42；响应于本轮训练满足训练条件，将样本文本特征替换为全零特征，基于全零特征和样本语音特征，识别得到样本待识别语音的样本识别文本。可以理解的是，可以将训练数据集中一定比例的样本待识别语音的样本文本特征设置为符合训练条件的语音，也可以将一定比例的训练轮次设置为符合训练条件的轮次等等，相应地训练条件可以包括本轮的轮次符合训练条件、样本语音符合训练条件等等。

可以理解的是，相关技术中，对于语音识别模型的训练，采用的样本数据包括样本待识别语音和样本待识别语音表达的样本实际文本。相应地，训练流程包括：对样本待识别语音进行语音特征提取得到语音特征；对语音特征进行识别，得到样本待识别语音的样本识别文本；基于样本识别文本和样本实际文本之间的差异，调整语音识别模型的网络参数。

相对相关技术中对语音识别模型的训练方法来说，本申请实施例中，额外引入了样本文本特征来辅助对样本语音特征的识别，由于样本参考语音与样本待识别语音的语境相关，因此样本参考文本与样本待识别语音表达的文本的语境相关，样本文本特征能够在一定程度上表达样本参考文本的语境，因此基于样本文本特征辅助语音特征的识别，能够考虑样本参考文本与样本待识别语音表达的文本的语境之间的联系，提高得到的样本识别文本与样本待识别语音表达的文本的接近程度，即提高样本识别文本的准确度，提高语音识别模型的训练效果。

图18是语音识别装置的一结构示意图，如图18所示，语音识别装置可以包括特征提取模块11和识别模块12。

特征提取模块11可以用于基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征，其中，参考文本对语境与待识别语音的语境相关的参考语音识别得到，参考语音的发言时间先于所述待识别语音的发言时间。识别模块12可以用于基于参考文本特征和语音特征，识别得到待识别语音的识别文本。参考文本特征包括参考文本的全局文本特征、参考文本中各关键词的局部文本特征中至少一者。

通过本实施例的实施，本实施例在识别模块12的处理过程中，额外引入了参考文本特征来辅助对语音特征的识别，由于参考语音与待识别语音的语境相关，因此参考文本与待识别语音表达的文本的语境相关，参考文本特征能够在一定程度上表达参考文本的语境，因此基于参考文本特征辅助语音特征的识别，能够考虑参考文本与待识别语音表达的文本的语境之间的联系，提高得到的识别文本与待识别语音表达的文本的接近程度，即提高识别文本的准确度。

在一些实施例中，识别模块12具体可以用于：获取前轮解码的解码状态；基于前轮解码的解码状态和参考特征进行解码，得到本轮解码的解码字符和解码状态；其中，参考特征至少包括所述语音特征；基于各轮解码的解码字符进行组合，得到识别文本。其中，在本轮解码为首轮解码的情况下，前轮解码的解码状态基于全局文本特征得到，和/或，参考特征还包括各关键词的局部文本特征在本轮解码的融合文本特征。

由于在本轮解码为首轮解码的情况下，前轮解码的解码状态基于全局文本特征得到，和/或，参考特征还包括各关键词的局部文本特征在本轮解码的融合文本特征。因此，能够提高识别文本的准确度。

在一些实施例中，识别模块12具体可以用于：基于本轮解码的解码状态，获取各关键词在本轮解码的第一权重；基于各关键词在本轮解码的第一权重对各关键词的第一文本特征进行加权，得到融合文本特征。

可以理解的是，根据基于本轮解码的解码状态，获取各关键词在本轮解码的第一权重的方式，能够给与于本轮解码相关的关键词更大的权重，不相关的关键词更小的权重，从而得到的融合文本特征能够更好地辅助对语音特征的识别。

在一些实施例中，识别模块12具体可以用于：在参考特征还包括所述融合文本特征的情况下，将语音特征和本轮解码的融合文本特征进行拼接，得到本轮解码的第一拼接特征；基于本轮解码的第一拼接特征，以及前轮解码的解码状态进行解码，得到本轮解码的解码字符和解码状态。

可以理解的是，通过融合文本特征参与拼接得到第一拼接特征和第二拼接特征，能够将融合文本特征融入语音特征和解码状态，进而基于第一拼接特征和第二拼接特征进行解码，能够提供识别解码的准确度。

在一些实施例中，识别模块12具体可以用于：获取各历史轮解码对应的字符特征；其中，历史轮解码对应的字符特征基于历史轮解码的解码字符提取；基于各历史轮解码对应的字符特征，对前轮解码得到的解码字符进行注意力处理，得到第一注意力处理结果；基于第一注意力处理结果和参考特征进行解码，得到本轮解码的解码字符；其中，参考特征至少包括语音特征；基于各轮解码所得到的解码字符进行组合，得到识别文本；其中，在对前轮解码的解码字符进行注意力处理的过程中还参考全局文本特征，和/或，参考特征还包括参考文本中各关键词的局部文本特征。

通过在对前轮解码的解码字符进行注意力处理的过程中还参考全局文本特征，和/或，参考特征还包括参考文本中各关键词的局部文本特征的方式，能够实现参考文本特征对语音特征的识别，提供提高识别文本的准确度。

在一些实施例中，字符特征包括第一字符查询特征、第一字符键特征和第一字符值特征，第一字符查询特征经查询映射参数对前轮解码的解码字符转换得到，第一字符键特征经键映射参数对前轮解码的解码字符转换得到，第一字符值特征经值映射参数对前轮解码的解码字符转换得到。

识别模块12具体可以用于：在对前轮解码的解码字符进行自注意力处理的过程中还参考全局文本特征的情况下，基于前轮解码对应的第一字符查询特征、各历史轮解码对应的第一字符键特征和全局文本特征，计算第二权重；基于第二权重、各历史轮解码对应的第一字符值特征和全局文本特征，得到第一注意力处理结果。

上述过程可以视为对前轮解码对应的字符进行自注意力处理的过程。由于在对前轮解码对应的字符特征进行自注意力处理的过程中，参考了全局文本特征，因此能够更准确地定位前轮解码对应的字符特征中与本轮解码有关的信息，使得第一注意力处理结果更准确地保留与本轮解码有关的信息，掩盖与本轮解码无关的信息。

在一些实施例中，识别模块12具体可以用于：将各历史轮解码对应的第一字符键特征、全局文本特征拼接，得到第二拼接特征；将前轮解码对应的第一字符查询特征与第二拼接特征进行匹配，得到第二权重；将各历史轮解码对应的第一字符值特征、全局文本特征拼接，得到第三拼接特征；将第二权重与第三拼接特征相乘，得到第一注意力处理结果。

由此，全局文本特征可以通过拼接至第一字符键特征、第一字符值特征的方式，融入对前轮解码对应的字符特征的自注意力处理的过程。

在一些实施例中，识别模块12具体可以用于：在参考特征还包括参考文本中各关键词的局部文本特征的情况下，基于第一注意力处理结果对所述语音特征进行增强，得到增强特征；基于增强特征、局部文本特征进行解码，得到本轮解码的解码字符。

由于在对增强特征解码还参考了局部文本特征，因此能够提高本轮解码的解码字符的准确度。

在一些实施例中，识别模块12具体可以用于：经查询映射参数对增强特征转换，得到第二字符查询特征，并经键映射参数和值映射参数分别对局部文本特征转换，得到第二字符键特征和第二字符值特征；基于第二字符查询特征、第二字符键特征和第二字符键特征进行注意力处理，得到第二注意力处理结果；基于第二注意力处理结果进行解码得到本轮解码的解码字符。

由于在得到增强特征之后，未直接基于增强特征解码得到本轮解码的解码字符，而是进一步通过局部文本特征和增强特征进行注意力处理，能够进一步掩盖与本轮解码无关的信息，提高后续识别文本的准确度。

在一些实施例中，识别模块12基于语音识别模型识别得到识别文本，语音识别模型基于样本数据训练得到，样本数据包括样本待识别语音、样本参考文本和样本待识别语音表达的样本实际文本，样本参考文本是对语境与样本待识别语音的语境相关的样本参考语音识别得到，样本参考语音的发言时间先于样本待识别语音的发言时间。

在一些实施例中，语音识别模型的训练步骤包括：基于样本待识别语音进行语音特征提取，得到样本语音特征，并基于样本参考文本进行文本特征提取，得到样本文本特征；基于样本文本特征和样本语音特征，识别得到样本待识别语音的样本识别文本；基于样本识别文本与样本实际文本之间的差异，调整语音识别模型的网络参数。

本实施例中，额外引入了样本文本特征来辅助对样本语音特征的识别，由于样本参考语音与样本待识别语音的语境相关，因此样本参考文本与样本待识别语音表达的文本的语境相关，样本文本特征能够在一定程度上表达样本参考文本的语境，因此基于样本文本特征辅助语音特征的识别，能够考虑样本参考文本与样本待识别语音表达的文本的语境之间的联系，提高得到的样本识别文本与样本待识别语音表达的文本的接近程度，即提高样本识别文本的准确度，提供语音识别模型的训练效果。

在一些实施例中，语音识别模型经若干轮训练得到，识别模块12具体可以用于：在基于样本文本特征和样本语音特征，识别得到样本待识别语音的样本识别文本之前，判断本轮训练是否满足关于丢弃样本文本特征的训练条件；响应于本轮训练不满足训练条件，执行基于样本文本特征和样本语音特征，识别得到样本待识别语音的样本识别文本的步骤；响应于本轮训练满足训练条件，将样本文本特征替换为全零特征，基于全零特征和样本语音特征，识别得到样本待识别语音的样本识别文本。

可以理解的是，考虑到实际应用时可能存在待识别语音没有参考语音的情况(例如待识别语音表达的是一段话的首个句子的情况)，因此在训练过程中通过训练条件来限制将某些样本待识别语音的样本文本特征替换为全零特征(丢弃)，能够使得兼顾没有参考语音的情况下语音识别模型的表现，提高训练得到的语音识别模型的鲁棒性。

图19是本申请语音识别设备一实施例的结构示意图。语音识别设备可以任何具有语音识别功能的设备，例如手机、对讲机、电脑等等。如图19所示，该语音识别设备包括相互耦接的处理器21和存储器22。

其中，存储器22存储有用于实现上述任一实施例的方法的程序指令；处理器21用于执行存储器22存储的程序指令以实现上述方法实施例的步骤。其中，处理器21还可以称为CPU(Central Processing Unit，中央处理单元)。处理器21可能是一种集成电路芯片，具有信号的处理能力。处理器21还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

图20是本申请计算机可读存储介质一实施例的结构示意图。如图20所示，本申请实施例的计算机可读存储介质30存储有程序指令31，该程序指令31被执行时实现本申请上述实施例提供的方法。其中，该程序指令31可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质30中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质30包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

其中，和/或，另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，包括：

基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征，其中，所述参考文本对参考语音识别得到，所述参考文本的语境与所述待识别语音的语境相关，所述参考语音的发言时间先于所述待识别语音的发言时间；

基于所述参考文本特征和所述语音特征，识别得到所述待识别语音的识别文本。

2.根据权利要求1所述的方法，其特征在于，所述参考文本特征包括所述参考文本的全局文本特征、所述参考文本中各关键词的局部文本特征中至少一者；所述基于所述参考文本特征和所述语音特征，识别得到所述待识别语音的识别文本，包括：

获取前轮解码的解码状态；

基于所述前轮解码的解码状态和参考特征进行解码，得到本轮解码的解码字符和解码状态；其中，所述参考特征至少包括所述语音特征；

基于各轮解码的解码字符进行组合，得到所述识别文本；

其中，在所述本轮解码为首轮解码的情况下，所述前轮解码的解码状态基于所述全局文本特征得到，和/或，所述参考特征还包括各所述关键词的局部文本特征在所述本轮解码的融合文本特征。

3.根据权利要求2所述的方法，其特征在于，所述融合文本特征的获取步骤包括：

基于所述本轮解码的解码状态，获取各所述关键词在所述本轮解码的第一权重；

基于各所述关键词在所述本轮解码的第一权重对各所述关键词的第一文本特征进行加权，得到所述融合文本特征。

4.根据权利要求2所述的方法，其特征在于，在所述参考特征还包括所述融合文本特征的情况下，所述基于所述前轮解码的解码状态和参考特征进行解码，得到本轮解码的解码字符和解码状态，包括：

将所述语音特征和所述本轮解码的融合文本特征进行拼接，得到所述本轮解码的第一拼接特征；

基于所述本轮解码的第一拼接特征，以及所述前轮解码的解码状态进行解码，得到所述本轮解码的解码字符和解码状态。

5.根据权利要求1所述的方法，其特征在于，所述参考文本特征包括所述参考文本的全局文本特征、所述参考文本中各关键词的局部文本特征中至少一者；所述基于所述参考文本特征和所述语音特征，识别得到所述待识别语音的识别文本，包括：

获取各历史轮解码对应的字符特征；其中，所述历史轮解码对应的字符特征基于所述历史轮解码的解码字符提取；

基于各所述历史轮解码对应的字符特征，对前轮解码得到的解码字符进行注意力处理，得到第一注意力处理结果；

基于所述第一注意力处理结果和参考特征进行解码，得到本轮解码的解码字符；其中，所述参考特征至少包括所述语音特征；

基于各轮解码所得到的解码字符进行组合，得到所述识别文本；

其中，在对所述前轮解码的解码字符进行注意力处理的过程中还参考所述全局文本特征，和/或，所述参考特征还包括所述参考文本中各关键词的局部文本特征。

6.根据权利要求5所述的方法，其特征在于，所述字符特征包括第一字符查询特征、第一字符键特征和第一字符值特征；

在对所述前轮解码的解码字符进行注意力处理的过程中还参考所述全局文本特征的情况下，所述基于各所述历史轮解码对应的字符特征，对前轮解码的解码字符进行注意力处理，得到第一注意力处理结果，包括：

基于所述前轮解码对应的第一字符查询特征、各所述历史轮解码对应的第一字符键特征和所述全局文本特征，计算第二权重；

基于所述第二权重、各所述历史轮解码对应的第一字符值特征和所述全局文本特征，得到所述第一注意力处理结果。

7.根据权利要求5所述的方法，其特征在于，在所述参考特征还包括所述参考文本中各关键词的局部文本特征的情况下，所述基于所述第一注意力处理结果和参考特征进行解码，得到本轮解码的解码字符，包括：

基于所述第一注意力处理结果对所述语音特征进行增强，得到增强特征；

基于所述增强特征、所述局部文本特征进行解码，得到所述本轮解码的解码字符。

8.根据权利要求1所述的方法，其特征在于，所述识别文本基于语音识别模型识别得到，所述语音识别模型基于样本数据训练得到，所述样本数据包括样本待识别语音、样本参考文本和所述样本待识别语音表达的样本实际文本，所述样本参考文本是对语境与所述样本待识别语音的语境相关的样本参考语音识别得到，所述样本参考语音的发言时间先于所述样本待识别语音的发言时间；

所述语音识别模型的训练步骤包括：

基于所述样本待识别语音进行语音特征提取，得到样本语音特征，并基于所述样本参考文本进行文本特征提取，得到样本文本特征；

基于所述样本文本特征和所述样本语音特征，识别得到所述样本待识别语音的样本识别文本；

基于所述样本识别文本与所述样本实际文本之间的差异，调整所述语音识别模型的网络参数。

9.根据权利要求8所述的方法，其特征在于，所述语音识别模型经若干轮训练得到，在所述基于所述样本文本特征和所述样本语音特征，识别得到所述样本待识别语音的样本识别文本之前，所述方法还包括：

判断本轮训练是否满足关于丢弃所述样本文本特征的训练条件；

响应于所述本轮训练不满足所述训练条件，执行所述基于所述样本文本特征和所述样本语音特征，识别得到所述样本待识别语音的样本识别文本的步骤；

响应于所述本轮训练满足所述训练条件，将样本文本特征替换为全零特征，基于所述全零特征和所述样本语音特征，识别得到所述样本待识别语音的样本识别文本。

10.一种语音识别装置，其特征在于，包括：

特征提取模块，用于基于待识别语音进行语音特征提取，得到语音特征，并基于参考文本进行文本特征提取，得到参考文本特征，其中，所述参考文本对语境与所述待识别语音的语境相关的参考语音识别得到，所述参考语音的发言时间先于所述待识别语音的发言时间；

识别模块，用于基于参考文本特征和语音特征，识别得到待识别语音的识别文本。

11.一种语音识别设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器存储的程序指令，以实现权利要求1至9任一项所述的语音识别方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有能够被处理器运行的程序指令，所述程序指令用于实现如权利要求1至9任一项所述的语音识别方法。