CN114495938B

CN114495938B - 音频识别方法、装置、计算机设备及存储介质

Info

Publication number: CN114495938B
Application number: CN202111475238.6A
Authority: CN
Inventors: 余剑威; 田晋川
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2024-03-08
Anticipated expiration: 2041-12-04
Also published as: CN114495938A

Abstract

本申请实施例公开了一种音频识别方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：对目标音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征；对于每个文本数据，基于该文本数据的第一关联特征和其他文本数据的第一关联特征，确定该文本数据的第一融合特征，第一融合特征与该文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关；基于每个文本数据的第一融合特征，在多个文本数据中确定与目标音频数据匹配的目标文本数据。由于考虑的因素较多，因此基于第一融合特征，确定与目标音频数据匹配的目标文本数据，能够提高音频识别的准确性。

Description

音频识别方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种音频识别方法、装置、计算机设备及存储介质。

背景技术

音频识别技术被广泛应用于人们的日常生活中，音频识别技术是指对音频数据进行识别得到该音频数据对应的文本数据。

相关技术中，在对音频数据进行识别的时候，通常仅根据某一个文本数据本身，来考虑根据该音频数据获取到该文本数据的可能性，从而确定哪个文本数据与该音频数据匹配，由于考虑的因素较少，因此对音频数据进行识别的准确率较低。

发明内容

本申请实施例提供了一种音频识别方法、装置、计算机设备及存储介质，能够提高音频识别的准确性。所述技术方案如下：

一方面，提供了一种音频识别方法，所述方法包括：

对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，所述第一关联特征表示所述文本数据与所述目标音频数据之间的关联程度；

对于每个所述文本数据，基于所述文本数据的第一关联特征和其他文本数据的第一关联特征，确定所述文本数据的第一融合特征，所述第一融合特征与所述文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；

基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据。

可选地，所述基于所述第一文本片段，对所述n个音频帧进行识别，得到多个预设文本片段中的每个预设文本片段的n个关联子特征，包括：

基于所述第一文本片段，对所述n个音频帧进行识别，在识别到第二文本片段中的最后一个词语不完整的情况下，确定至少一个候选文本片段，所述候选文本片段包括所述第二文本片段和候选字符，所述候选文本片段中的最后一个词语为完整词语；

确定每个所述候选文本片段的n个候选子特征，所述候选文本片段的第p个候选子特征表示所述候选文本片段与前p个音频帧之间的关联程度；

基于每个所述候选文本片段的n个候选子特征，确定所述第二文本片段的n个关联子特征，其中，所述第二文本片段的第p个关联子特征与每个所述候选文本片段的第p个候选子特征正相关。

可选地，基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的第三文本片段的关联子特征，包括：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，在识别到前i个音频帧对应的第三文本片段中的最后一个词语不完整的情况下，确定至少一个候选文本片段，所述候选文本片段包括所述前i个音频帧对应的第三文本片段和候选字符，所述候选文本片段中的最后一个词语为完整词语；

确定每个所述候选文本片段的候选子特征，所述候选文本片段的候选子特征表示所述候选文本片段与前i个音频帧之间的关联程度；

基于每个所述候选文本片段的候选子特征，确定所述第三文本片段的关联子特征，所述第三文本片段的关联子特征与每个所述候选文本片段的候选子特征正相关。

可选地，所述对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：

调用音频识别模型，对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征。

一方面，提供了一种音频识别方法，所述方法包括：

获取样本音频数据和所述样本音频数据对应的样本文本数据；

调用音频识别模型，对所述样本音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，所述第一关联特征表示所述文本数据与所述样本音频数据之间的关联程度，多个所述文本数据中包括所述样本文本数据；

基于所述样本文本数据的第一关联特征，以及除了所述样本文本数据之外的其他文本数据的第一关联特征，确定损失特征；

基于所述损失特征，训练所述音频识别模型，训练后的所述音频识别模型用于对任一音频数据进行识别。

可选地，所述基于所述样本文本数据的第一关联特征，以及除了所述样本文本数据之外的其他文本数据的第一关联特征，确定损失特征，包括：

基于所述样本文本数据的第一关联特征以及其他文本数据的第一关联特征，确定第一融合特征，所述第一融合特征与所述样本文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；

基于所述第一融合特征，确定所述损失特征，所述损失特征与所述第一融合特征负相关。

可选地，所述调用音频识别模型，对所述样本音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：

调用所述音频识别模型，对所述样本音频数据进行识别，得到每个所述文本数据的所述第一关联特征和第三关联特征，所述第三关联特征表示由所述样本音频数据中的多个音频帧识别到所述文本数据中的多个字符的可能性；

所述基于所述样本文本数据的第一关联特征，以及除了所述样本文本数据之外的其他文本数据的第一关联特征，确定损失特征，包括：

确定第二样本特征，所述第二样本特征表示由所述样本音频数据中的多个音频帧识别到所述样本文本数据中的多个字符；

基于每个所述文本数据的第三关联特征以及所述第二样本特征，确定第二差异特征；

基于所述第一融合特征与所述第二差异特征，确定所述损失特征，所述损失特征与所述第一融合特征负相关，且与所述第二差异特征正相关。

另一方面，提供了一种音频识别装置，所述装置包括：

识别模块，用于对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，所述第一关联特征表示所述文本数据与所述目标音频数据之间的关联程度；

融合模块，用于对于每个所述文本数据，基于所述文本数据的第一关联特征和其他文本数据的第一关联特征，确定所述文本数据的第一融合特征，所述第一融合特征与所述文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；

文本确定模块，用于基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据。

可选地，所述识别模块，包括：

第一识别单元，用于对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征和第二关联特征，所述第二关联特征表示由所述目标音频数据识别到所述文本数据的可能性；

所述文本确定模块，包括：

第一融合单元，用于对每个所述文本数据的所述第一融合特征和所述第二关联特征进行加权融合，得到每个所述文本数据的融合分值；

文本确定单元，用于在多个所述文本数据中，将对应的融合分值最大的文本数据确定为所述目标文本数据。

可选地，所述识别模块，包括：

第二识别单元，用于对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征和第三关联特征，所述第三关联特征表示由所述目标音频数据中的多个音频帧识别到所述文本数据中的多个字符的可能性；

所述文本确定模块，包括：

第二融合单元，用于对每个所述文本数据的所述第一融合特征和所述第三关联特征进行加权融合，得到每个所述文本数据的融合分值；

可选地，所述目标音频数据包括n个音频帧，n为大于1的正整数，每个所述文本数据中包括多个字符，所述识别模块，还用于：

对所述目标音频数据中的n个音频帧进行识别，得到多个第一文本片段以及每个所述第一文本片段中的每个字符的字符分值，所述字符分值表示由所述n个音频帧识别到所述字符的可能性；

对于每个所述第一文本片段，基于所述第一文本片段，对所述n个音频帧进行识别，得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值，每个所述第二文本片段包括所述第一文本片段和所述最后一个字符，所述字符分值表示在由所述n个音频帧识别到所述第一文本片段的情况下识别到所述最后一个字符的可能性，直至得到的多个文本片段的最后一个字符中字符分值最高的为结尾字符，所述结尾字符指示所述文本数据的结尾；

将识别到的多个文本片段分别确定为所述文本数据，并基于每个所述文本数据中每个字符的字符分值，确定每个所述文本数据的文本分值，所述文本分值与每个所述字符的字符分值正相关；

所述文本确定模块，包括：

文本确定单元，用于基于每个所述文本数据的所述第一融合特征和所述文本分值，在多个所述文本数据中确定所述目标文本数据。

可选地，所述识别模块，还用于：

基于所述第一文本片段，对所述n个音频帧进行识别，得到多个所述第二文本片段、每个所述第二文本片段对应的第一分值以及第二分值，其中，所述第一分值表示由所述n个音频帧识别到所述第二文本片段的可能性，所述第二分值表示由所述n个音频帧识别到所述第一文本片段的情况下未识别到新的字符的可能性；

将每个所述第二文本片段对应的第一分值与所述第二分值之间的差值，确定为每个所述第二文本片段中最后一个字符的字符分值。

可选地，所述识别模块，还用于：

基于所述第一文本片段，对所述n个音频帧进行识别，得到多个预设文本片段中的每个预设文本片段的n个关联子特征，所述预设文本片段对应的第p个关联子特征表示所述预设文本片段与前p个音频帧之间的关联程度，所述p为不大于n的正整数，多个所述预设文本片段中包括多个所述第二文本片段和所述第一文本片段；

对于每个所述第二文本片段，基于所述第二文本片段的n个关联子特征，以及除了所述第二文本片段之外的预设文本片段的n个关联子特征，确定所述第二文本片段对应的第一分值；

基于所述第一文本片段的n个关联子特征，以及除了所述第一文本片段之外的预设文本片段的n个关联子特征，确定所述第二分值。

可选地，所述识别模块，还用于：

基于所述第二文本片段的n个关联子特征，以及除了所述第二文本片段之外的预设文本片段的n个关联子特征，确定n个关联分值，其中，第p个关联分值与所述第二文本片段的第p个关联子特征正相关，且与每个所述预设文本片段的第p个关联子特征之和负相关；

基于n个关联分值，确定所述第二文本片段对应的第一分值，所述第一分值与所述n个关联分值正相关。

可选地，所述识别模块，还用于：

对所述目标音频数据中的第一个音频帧进行识别，得到所述第一个音频帧对应的文本片段的片段分值，所述片段分值表示所述文本片段与所述第一个音频帧之间的关联程度；

对于所述目标音频数据中的第i个音频帧，基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的文本片段以及所述文本片段的片段分值，其中，所述前i个音频帧对应的文本片段包括所述前i-1个音频帧对应的文本片段以及所述第i个音频帧的匹配字符，所述前i个音频帧对应的文本片段的片段分值表示所述文本片段与所述前i个音频帧之间的关联程度，所述i为大于1不大于n的任一正整数，直至对所述n个音频帧进行识别后，得到n个音频帧对应的文本片段以及所述文本片段的片段分值；

将所述n个音频帧对应的文本片段确定为识别到的文本数据；

所述文本确定模块，包括：

文本确定单元，用于基于每个所述文本数据的所述第一融合特征和所述片段分值，在多个所述文本数据中确定所述目标文本数据。

可选地，所述识别模块，还用于：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的第三文本片段、前i个音频帧对应的第三文本片段的关联子特征以及其他文本片段的关联子特征，任一文本片段的关联子特征表示所述文本片段与前i个音频帧之间的关联程度，所述第三文本片段由前i-1个音频帧对应的文本片段和所述第i个音频帧的一个匹配字符构成；

基于所述第三文本片段的关联子特征，以及其他文本片段的关联子特征，确定所述第三文本片段的关联分值，所述第三文本片段的关联分值与所述第三文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

基于所述第三文本片段的关联分值，确定所述第三文本片段的片段分值，所述第三文本片段的片段分值与所述第三文本片段的关联分值正相关。

可选地，所述识别模块，还用于：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的第四文本片段、前i个音频帧对应的第四文本片段的关联子特征以及其他文本片段的关联子特征，所述第四文本片段由前i-1个音频帧对应的文本片段和所述第i个音频帧的两个匹配字符构成；

基于所述第四文本片段的关联子特征，以及其他文本片段的关联子特征，确定所述第四文本片段的关联分值，所述第四文本片段的关联分值与所述第四文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

基于所述第三文本片段的关联分值、所述第四文本片段的关联分值和所述第三文本片段的片段分值，确定所述第四文本片段的片段分值，所述第四文本片段的片段分值与所述第三文本片段的片段分值和所述第四文本片段的关联分值正相关，且与所述第三文本片段的关联分值负相关。

可选地，所述i为大于1且小于n的正整数，所述识别模块，还用于：

基于前i个音频帧和前i个音频帧对应的文本片段，对第i+1个音频帧进行识别，得到前i+1个音频帧对应的第五文本片段、前i+1个音频帧对应的第五文本片段的关联子特征以及其他文本片段的关联子特征，所述第五文本片段包括前i个音频帧对应的文本片段且不包括所述第i+1个音频帧的匹配字符；

基于所述第五文本片段的关联子特征，以及其他文本片段的关联子特征，确定所述第五文本片段的关联分值，所述第五文本片段的关联分值与所述第五文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

基于所述第三文本片段的关联分值、所述第五文本片段的关联分值和所述第三文本片段的片段分值，确定所述第五文本片段的片段分值，所述第五文本片段的片段分值与所述第三文本片段的片段分值和所述第五文本片段的关联分值正相关，且与所述第三文本片段的关联分值负相关。

可选地，所述识别模块，还用于：

可选地，所述识别模块，还用于调用音频识别模型，对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征。

另一方面，提供了一种音频识别装置，所述装置包括：

样本获取模块，用于获取样本音频数据和所述样本音频数据对应的样本文本数据；

识别模块，用于调用音频识别模型，对所述样本音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，所述第一关联特征表示所述文本数据与所述样本音频数据之间的关联程度，多个所述文本数据中包括所述样本文本数据；

损失确定模块，用于基于所述样本文本数据的第一关联特征，以及除了所述样本文本数据之外的其他文本数据的第一关联特征，确定损失特征；

模型训练模块，用于基于所述损失特征，训练所述音频识别模型，训练后的所述音频识别模型用于对任一音频数据进行识别。

可选地，所述损失确定模块，包括：

融合特征确定单元，用于基于所述样本文本数据的第一关联特征以及其他文本数据的第一关联特征，确定第一融合特征，所述第一融合特征与所述样本文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；

损失特征确定单元，用于基于所述第一融合特征，确定所述损失特征，所述损失特征与所述第一融合特征负相关。

可选地，所述识别模块，包括：

第一识别单元，用于调用所述音频识别模型，对所述样本音频数据进行识别，得到每个所述文本数据的所述第一关联特征和第二关联特征，所述第二关联特征表示由所述音频数据识别到所述文本数据的可能性；

所述损失确定模块，用于：

确定第一样本特征，所述第一样本特征表示由所述样本音频数据识别到所述样本文本数据；

基于每个所述文本数据的第二关联特征以及所述第一样本特征，确定第一差异特征；

基于所述第一融合特征与所述第一差异特征，确定所述损失特征，所述损失特征与所述第一融合特征负相关，且与所述第一差异特征正相关。

可选地，所述音频识别模型包括编码网络和解码网络，所述第一识别单元，用于：

调用所述编码网络，对所述样本音频数据进行编码，得到音频特征；

调用所述解码网络，基于多个所述文本数据，对所述音频特征进行解码，得到每个所述文本数据的第二关联特征；

基于所述音频特征和每个所述文本数据对应的文本特征，确定每个所述文本数据的第一关联特征。

可选地，所述音频数据包括m个音频帧，所述m为大于1的正整数，所述音频识别模型包括编码网络、特征提取网络和联合网络，所述第一识别单元，用于：

调用所述编码网络，基于所述样本音频数据中的前m-1个音频帧，对第m个音频帧进行编码，得到所述第m个音频帧的音频特征；

调用所述特征提取网络，对所述样本文本数据中所述前m-1个音频帧对应的样本文本片段进行特征提取，得到所述前m-1个音频帧的文本特征；

调用所述联合网络，对所述第m个音频帧的音频特征和所述前m-1个音频帧的文本特征进行融合，得到每个所述文本数据的第二关联特征；

基于所述第m个音频帧的音频特征和每个所述文本数据的文本特征，确定每个所述文本数据的第一关联特征。

可选地，所述识别模块，包括：

第二识别单元，用于调用所述音频识别模型，对所述样本音频数据进行识别，得到每个所述文本数据的所述第一关联特征和第三关联特征，所述第三关联特征表示由所述样本音频数据中的多个音频帧识别到所述文本数据中的多个字符的可能性；

所述损失确定模块，用于：

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的音频识别方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的音频识别方法所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的音频识别方法所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，根据某个文本数据与目标音频数据之间的关联程度，以及每个文本数据与该目标音频数据之间的关联程度，来确定该文本数据的第一融合特征，因此文本数据的第一融合特征考虑了各个文本数据与目标音频数据之间的关联程度，由于考虑的因素较多，因此基于第一融合特征，确定与目标音频数据匹配的目标文本数据，能够提高音频识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种音频识别方法的流程图；

图3是本申请实施例提供的一种音频识别方法的流程图；

图4是本申请实施例提供的一种分子图的示意图；

图5是本申请实施例提供的一种确定融合分值的示意图；

图6是本申请实施例提供的一种音频识别方法的流程图；

图7是本申请实施例提供的一种音频识别方法的流程图；

图8是本申请实施例提供的一种音频识别方法的流程图；

图9是本申请实施例提供的一种音频识别模型的结构示意图；

图10是本申请实施例提供的另一种音频识别模型的结构示意图；

图11是本申请实施例提供的一种音频识别装置的结构示意图；

图12是本申请实施例提供的另一种音频识别装置的结构示意图；

图13是本申请实施例提供的另一种音频识别装置的结构示意图；

图14是本申请实施例提供的另一种音频识别装置的结构示意图；

图15是本申请实施例提供的一种终端的结构示意图；

图16是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一关联特征称为第二关联特征，且类似地，可将第二关联特征称为第一关联特征。

其中，至少一个是指一个或者一个以上，例如，至少一个字符可以是一个字符、两个字符、三个字符等任一大于等于一的整数个字符。多个是指两个或者两个以上，例如，多个字符可以是两个字符、三个字符等任一大于等于二的整数个字符。每个是指至少一个中的每一个，例如，每个字符是指多个字符中的每一个字符，若多个字符为3个字符，则每个字符是指3个字符中的每一个字符。

可以理解的是，在本申请的实施方式中，涉及到用户信息、音频数据、文本数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

以下将基于人工智能技术和语音技术，对本申请实施例提供的音频识别方法进行说明。

为了便于理解本申请实施例，先对本申请实施例涉及到的概念进行解释：

MMI(Maximum Mutual Information，最大互信息)：互信息用于衡量两个随机变量之间相互依赖的程度，最大互信息是指将互信息最大化。

LF-MMI(Lattice-Free Maximum Mutual Information，无词格-最大互信息)：音频识别中的一种区分性训练准则(Discriminative Training Criteria，DTC)或损失函数。

E2E(End-to-End，端到端)：在音频识别场景下，E2E是指音频识别模型的训练数据只包括音频数据和对应的文本数据，而不包括其他类型数据的形式。

AEDs(Attention-Based Encoder-Decoders，基于注意力的编码-解码框架)：一种音频识别模型(由神经网络构成)，AEDs音频识别模型是端到端的音频识别模型。

NTs(Neural Transducers，神经网络转录机)：一种音频识别模型(由神经网络构成)，NTs音频识别模型是端到端的音频识别模型。

本申请实施例提供的音频识别方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。

在一种可能实现方式中，本申请实施例中用于训练音频识别模型的计算机设备是区块链系统中的节点，该节点能够将训练的音频识别模型存储在区块链中，之后该节点或者该区块链中的其他设备对应的节点可基于该音频识别模型对音频数据进行识别。

图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：终端101和服务器102。终端101和服务器102之间通过无线或有线网络连接。可选地，服务器102用于采用本申请实施例提供的方法，训练音频识别模型，该音频识别模型用于对音频数据进行识别。服务器102将训练好的音频识别模型发送给终端101，终端101即可调用该音频识别模型，对音频数据进行识别，得到该音频数据对应的文本数据。

在一种可能实现方式中，终端101中运行有该服务器提供的应用客户端，服务器102将训练好的音频识别模型存储于该应用客户端中，该应用客户端音频识别等功能。终端101基于该应用客户端，调用音频识别模型，对音频数据进行识别，得到该音频数据对应的文本数据。

需要说明的是，图1中仅以服务器102训练音频识别模型并发送给终端101为例进行说明，在另一实施例中，还可以由终端101直接训练音频识别模型。

本申请实施例提供的音频识别方法，可应用于任一音频识别的场景下。

例如，在线上会议的场景下，各个用户之间通过终端进行语音交流，终端采集在会议过程中产生的音频数据，采用本申请实施例提供的方法，对采集到的音频数据进行识别，得到音频数据对应的文本数据，将识别到的文本数据存储下来，作为会议记录，以便后续提供给用户进行查阅。

例如，在智能问答的场景下，在用户与终端进行语音交互的过程中，终端采集音频数据，采用本申请实施例提供的方法，对采集到的音频数据进行识别，得到音频数据对应的文本数据，例如识别到的文本数据为“现在几点钟了”，终端确定该文本数据对应的回复文本数据，例如该回复文本数据为“现在是下午2点”，则终端向用户显示该回复文本数据。

除此之外，本申请提供的音频识别方法还能够应用在其他音频识别场景下，本申请实施例对此不做限制。

图2是本申请实施例提供的一种音频识别方法的流程图。本申请实施例的执行主体为计算机设备，参见图2，该方法包括：

201、计算机设备对目标音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征。

计算机设备获取目标音频数据，该目标音频数据为待识别的任一音频数据。例如该目标音频数据是该计算机设备采集到的，或者是其他设备发送给该计算机设备的。计算机设备获取到该目标音频数据后，对该目标音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征。可选地，该多个文本数据是预先设置的多个文本数据，例如该多个文本数据是字符集合中的多个字符所构成的文本数据，该字符集合中包括预先设置的多个字符。

其中，文本数据的第一关联特征表示该文本数据与该目标音频数据之间的关联程度。该文本数据的内容与该目标音频数据的内容之间的相似度越高，该文本数据与该目标音频数据之间的关联程度越高。

需要说明的是，本申请实施例仅以计算机设备直接对该目标音频数据进行识别为例进行说明，在另一实施例中，计算机设备调用音频识别模型，对目标音频数据进行识别，得到每个文本数据的第一关联特征。其中，该音频识别模型用于对任一音频数据进行识别，可选地，该音频识别模型为计算机设备中存储的音频识别模型，该音频识别模型的训练方法详见下述图8、图9或者图12的实施例。

202、计算机设备对于每个文本数据，基于文本数据的第一关联特征和其他文本数据的第一关联特征，确定文本数据的第一融合特征。

每个文本数据都对应有第一关联特征，对于任一文本数据，计算机设备基于该文本数据的第一关联特征以及其他文本数据的第一关联特征，确定该文本数据的第一融合特征。其中，第一融合特征与该文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关。因此，对于每个文本数据，该文本数据与第一关联特征之间的关联程度越大，该文本数据的第一融合特征越大，且其他文本数据与第一关联特征之间的关联程度越小，该文本数据的第一融合特征也越大。

在一种可能实现方式中，以第一文本数据为例，计算机设备采用下述公式(1)，确定第一文本数据的第一融合特征。

其中，logP_MMI(W|O)表示文本数据的第一融合特征，O表示目标音频数据，W表示第一文本数据，log表示对数函数，MMI表示最大化互信息，表示多个文本数据中的任一文本数据，P(O|W)P(W)表示第一文本数据的第一关联特征，P(O|W)表示在已知第一文本数据的情况下得到目标音频数据的概率，P(W)表示识别到第一文本数据的概率，表示多个文本数据的第一关联特征之和。

可选地，计算机设备采用LF-MMI算法，将上述公式(1)近似为公式(2)。

203、计算机设备基于每个文本数据的第一融合特征，在多个文本数据中确定与目标音频数据匹配的目标文本数据。

由于每个文本数据的第一融合特征不光考虑了该文本数据与目标音频数据之间的关联程度，还考虑了其他文本数据与该目标音频数据之间的关联程度，因此计算机设备基于每个文本数据的第一融合特征，来确定与目标音频数据匹配的目标文本数据。其中，目标音频数据与目标文本数据匹配是指目标音频数据的内容与该目标文本数据的内容相同。

例如，计算机设备将对应的第一融合特征最大的文本数据，确定为与目标音频数据匹配的目标文本数据。需要说明的是，除了第一融合特征之外，计算机设备在确定目标文本数据时，还可以参考其他类型的信息，本申请实施例对此不做限定。

本申请实施例提供的方法，根据某个文本数据与目标音频数据之间的关联程度，以及每个文本数据与该目标音频数据之间的关联程度，来确定该文本数据的第一融合特征，因此文本数据的第一融合特征考虑了各个文本数据与目标音频数据之间的关联程度，由于考虑的因素较多，因此基于第一融合特征，确定与目标音频数据匹配的目标文本数据，能够提高音频识别的准确性。

图3是本申请实施例提供的一种音频识别方法的流程图。本申请实施例的执行主体为计算机设备，参见图3，该方法包括：

301、计算机设备对目标音频数据中的n个音频帧进行识别，得到多个第一文本片段以及每个第一文本片段中的每个字符的字符分值。

计算机设备获取目标音频数据，该目标音频数据为待识别的任一音频数据。该目标音频数据包括多个音频帧，本申请实施例以目标音频数据包括n个音频帧为例来说明，n为大于1的正整数。

计算机设备对该n个音频帧进行识别，得到n个音频帧对应的多个第一文本片段，以及该每个第一文本片段中的每个字符的字符分值，每个字符的字符分值表示由n个音频帧识别到该字符的可能性。

302、对于每个第一文本片段，计算机设备基于该第一文本片段，对n个音频帧进行识别，得到多个第二文本片段和每个第二文本片段中的最后一个字符的字符分值，直至得到的多个文本片段的最后一个字符中字符分值最高的为结尾字符。

计算机设备在获取到多个第一文本片段后，对于每个第一文本片段，基于该第一文本片段，对n个音频帧进行识别，得到多个第二文本片段以及每个第二文本片段中的最后一个字符的字符分值。其中，每个第二文本片段包括第一文本片段和最后一个字符，字符分值表示在由n个音频帧识别到第一文本片段的情况下识别到最后一个字符的可能性。

计算机设备继续基于每个第二文本片段，对n个音频帧进行识别，得到多个文本片段，新得到的每个文本片段是由第二文本片段与一个字符构成的。计算机设备重复执行上述步骤，直至得到的多个文本片段的最后一个字符中字符分值最高的为结尾字符，则停止对n个音频帧继续进行识别，得到该n个音频帧对应的多个文本片段，以及每个文本片段中的每个字符的字符分值。其中，该目标字符用于表示文本数据的结尾。

在一种可能实现方式中，计算机设备确定第二文本片段中的最后一个字符的字符分值，包括：基于第一文本片段，对第n个音频帧进行识别，得到多个第二文本片段、每个第二文本片段对应的第一分值以及第二分值，将每个第二文本片段对应的第一分值与第二分值之间的差值，确定为每个第二文本片段中最后一个字符的字符分值。

第一分值表示由n个音频帧识别到第二文本片段的可能性，第二分值表示由n个音频帧识别到第一文本片段的情况下未识别到新的字符的可能性。

可选地，以第一文本片段包括t-1个字符，第二文本片段包括该t-1个字符以及第t个字符为例。计算机设备采用下述公式(3)，确定第t个字符的字符分值。

其中，表示第t个字符的字符分值，表示前t-1个字符构成的第一文本片段，表示前t个字符构成的第二文本片段，O表示n个音频帧，也即是目标音频数据，w_t表示第t个字符，表示第t个字符的第一分值，表示第二分值。

在一种可能实现方式中，计算机设备确定第一分值和第二分值，包括：基于第一文本片段，对n个音频帧进行识别，得到多个预设文本片段中的每个预设文本片段的n个关联子特征，其中，任一预设文本片段对应的第p个关联子特征表示该预设文本片段与前p个音频帧之间的关联程度，p为不大于n的正整数。其中，该多个预设文本片段中包括多个第二文本片段和该第一文本片段。对于每个第二文本片段，计算机设备基于该第二文本片段的n个关联子特征，以及除了该第二文本片段之外的预测文本片段的n个关联子特征，确定该第二文本片段对应的第一分值；基于第一文本片段的n个关联子特征，以及除了第一文本片段之外的预测文本片段的n个关联子特征，确定第二分值。

其中，计算机设备基于第一文本片段，对n个音频帧进行识别，能够得到多个预设文本片段中的每个预设文本片段的n个关联子特征，该多个预设文本片段是基于多个预设字符得到的，至少一个预设字符构成一个预设文本片段。

其中，任一预设文本片段对应有n个关联子特征，以第p个关联子特征为例，任一预设文本片段的第p个关联子特征表示该预设文本片段与前p个音频帧之间的关联程度，p为不大于n的正整数。

在一种可能实现方式中，计算机设备确定第二文本片段对应的第一分值，包括：基于第二文本片段的n个关联子特征，以及除了第二文本片段之外的预设文本片段的n个关联子特征，确定n个关联分值，基于n个关联分值，确定第二文本片段对应的第一分值，第一分值与n个关联分值正相关。

其中，第p个关联分值与第二文本片段的第p个关联子特征正相关，且与每个预设文本片段的第p个关联子特征之和负相关。

可选地，计算机设备确定每个预设文本片段的第p个关联子特征之和，基于第二文本片段的第p个关联子特征，以及每个预设文本片段的第p个关联子特征之和，确定第p个关联分值。

可选地，以第二文本片段包括t个字符为例，计算机设备采用下述公式(4)，确定第二文本片段对应的第一分值。

其中，表示第一分值，表示前t个字符构成的第二文本片段，O表示n个音频帧，也即是目标音频数据，O_p表示前p个音频帧，表示第p个关联分值，表示前t个字符构成的第二文本片段的第p个关联子特征，P(O_p|G_den)表示每个预设文本片段的第p个关联子特征之和。表示前t个字符构成的第二文本片段所对应的分子图，G_den表示多个预设文本片段所对应的分母图。

可选地，上述公式(4)中的和P(O_p|G_den)是采用前向后向算法确定的。可选地，为了降低计算机设备的处理量，上述公式(4)中的和P(O_p|G_den)还可以仅采用前向算法来确定。可选地，由于P(O_p|G_den)是固定值，因此仅需确定一次P(O_p|G_den)即可。

在一种可能实现方式中，计算机设备确定第二分值，包括：基于第一文本片段的n个关联子特征，以及除了第一文本片段之外的预设文本片段的n个关联子特征，确定n个关联分值，基于n个关联分值，确定第二分值，第二分值与n个关联分值正相关。

其中，第p个关联分值与第一文本片段的第p个关联子特征正相关，且与每个预设文本片段的第p个关联子特征之和负相关。

可选地，计算机设备确定每个预设文本片段的第p个关联子特征之和，基于第一文本片段的第p个关联子特征，以及每个预设文本片段的第p个关联子特征之和，确定第p个关联分值。

可选地，以第一文本片段包括t-1个字符为例，计算机设备采用下述公式(5)，确定第二分值。

其中，表示第二分值，表示t-1个字符构成的第一文本片段，O表示n个音频帧，也即是目标音频数据，O_p表示前p个音频帧，表示第p个关联分值，表示t-1个字符构成的第一文本片段的第p个关联子特征，P(O_p|G_den)表示每个预设文本片段的第p个关联子特征之和。表示第一文本片段所构成的分子图，G_den表示多个预设文本片段所构成的分母图。

在一种可能实现方式中，计算机设备基于第一文本片段，对n个音频帧进行识别，在识别到第二文本片段中的最后一个词语不完整的情况下，确定至少一个候选文本片段，候选文本片段包括第二文本片段和候选字符，候选文本片段中的最后一个词语为完整词语，第二文本片段是由第一文本片段和本次识别到的字符构成的。计算机设备确定每个候选文本片段的n个候选子特征，候选文本片段的第p个候选子特征表示候选文本片段匹配的音频帧为前p个音频帧的可能性。计算机设备基于每个候选文本片段的n个候选子特征，确定第二文本片段的n个关联子特征。其中，第二文本片段的第p个关联子特征与每个候选文本片段的第p个候选子特征正相关。

在音频数据的语言属于英语的情况下，存在识别到的文本片段中的最后一个词语不完整的情况，例如识别到的文本片段为“I like ca”，但是“ca”是一个不完整的英文词语，为了确定具有不完整的词语的文本片段的关联子特征，可以基于该文本片段来构建具有完整的词语的候选文本片段，也即是在文本片段的后面补充候选字符，使得文本片段和候选字符构成具有完整的词语的候选文本片段。例如，文本片段“I like ca”的后面可以补充候选字符“r”、候选字符“t”或者候选字符“p”，构成候选文本片段“I like car”、候选文本片段“I like cat”或者候选文本片段“I like cap”。

可选地，计算机设备将每个候选文本片段的第p个候选子特征之和，确定为第二文本片段的第p个关联子特征。可选地，为了降低计算机设备的处理量，计算机设备先将多个候选文本片段转化为FSA(Finite-State Acceptor,FSA)中的分子图，计算机设备在该分子图上执行一次前向后向算法，确定每个候选文本片段的第p个候选子特征之和。例如，以文本片段为“I like ca”为例，图4是本申请实施例提供的一种分子图的示意图，该分子图中包括词语“I”、词语“like”、词语“car”、词语“cat”和词语“cap”。该分子图中包括3个文本路径，这3个文本路径对应的候选文本片段分别为候选文本片段“I like car”、候选文本片段“I like cat”或者候选文本片段“I like cap”。也即是，文本片段中包括完整词语的部分被转化为串行的线性部分，文本片段中的不完整词语与候选字符所构成的完整词语被转化为并行部分，分别属于不同的文本路径，该分子图中的“ε”表示终止状态，指代文本片段的结尾。

可选地，以第二文本片段包括t个字符为例，计算机设备采用下述公式(6)，确定第二文本片段的第p个关联分值。

其中，表示t个字符构成的第二文本片段的第p个关联分值，P_MMI(c·w|O)表示一个候选文本片段的第p个关联分值，表示t个音频帧构成的第二文本片段，O表示目标音频数据，c表示第二文本片段中包括完整词语的部分，w表示第二文本片段中的不完整词语与候选字符所构成的完整词语，p*表示以第二文本片段中的不完整词语为前缀的完整词语。

303、计算机设备将识别到的多个文本片段分别确定为文本数据，并基于每个文本数据中每个字符的字符分值，确定每个文本数据的文本分值。

计算机设备识别到的每个文本片段均可确定为一个文本数据，每个文本数据中包括多个字符，除了第一个字符之外，其他字符都是基于该字符之前识别到的字符所得到的，每个文本数据中的每个字符对应有字符分值。对于任一文本数据，计算机设备基于该文本数据中的每个字符的字符分值，确定该文本数据的文本分值。其中，文本分值与每个字符的字符分值正相关。

在一种可能实现方式中，计算机设备将文本数据中的每个字符的字符分值之和，确定为该文本数据的文本分值。

在另一种可能实现方式中，计算机设备在识别过程中，还确定文本数据中的每个字符的参考字符分值，对于每个字符，计算机设备对该字符的字符分值以及参考字符分值进行加权融合，得到该字符对应的字符总分值，将文本数据中的每个字符的字符总分值之和，确定为该文本数据的文本分值。例如该参考字符分值是计算机设备利用注意力解码器、声学编码器或者语言模型等网络结构所得到的分值，该参考字符分值表示识别到该字符的可能性。

可选地，以文本数据中包括t个字符为例，计算机设备采用下述公式(7)，确定文本数据的文本分值。

其中，表示t个字符构成的文本数据的文本分值，表示前t-1个字符构成的文本片段的文本分值，该文本片段的文本分值为该文本片段中的字符对应的字符总分值之和，O表示目标音频数据，表示第t个字符的字符总分值，表示前t个字符构成的文本数据，表示前t-1个字符构成的文本片段，w_t表示识别到的第t个字符。其中，是由第t个的字符分值以及其他的参考字符分值进行加权求和所得到的，例如该的权重为0.3，或者还可以为其他数值等。

本申请实施例提供的方法，可应用于AED的解码过程中，计算机设备对采集到的音频帧进行实时识别，最终得到n个音频帧对应的文本数据。例如，文本数据为W＝[w₁,…,w_U]，音频数据为O＝[o₁,…,o_T]，U和T分别代表文本数据的长度和音频数据的长度，o表示音频帧，w表示字符，为一个文本片段，也即是一个完整的文本数据的前缀，表示所有以为前缀的文本数据的集合。则AED的解码过程也即是在给定音频数据O且时，寻找中的文本分值最大的文本数据。<sos>表示文本片段的起始状态。

可选地，计算机设备采用集束搜索(Beam Search)算法，在多个文本数据中搜索文本分值最大的文本数据，Ω_u是长度为u的文本片段所构成的文本片段集合。在Beam Search过程中，对于每一个Ω_u-1中的文本片段基于当前采集到的音频帧，识别该音频帧的匹配字符w_u，构成多个新的文本片段。并在多个文本片段中，删除对应的文本分值较低的文本片段，得到新的文本片段集合Ω_u。这一过程持续进行，直至识别到指代文本片段的结尾的目标字符，得到完整的文本数据。

需要说明的是，在另一实施例中，计算机设备调用音频识别模型，执行上述步骤301-303中的操作。其中，该音频识别模型用于对任一音频数据进行识别，可选地，该音频识别模型为计算机设备中存储的音频识别模型，例如该音频识别模型为AEDs或者NTs模型。该音频识别模型的训练方法详见下述图8、图9或者图12的实施例。

304、计算机设备对目标音频数据进行识别，得到每个文本数据的第一关联特征、第二关联特征和第三关联特征。

计算机设备在上述步骤301-303中，依次对目标音频数据中的n个音频帧进行识别，识别到每个文本数据中的每个字符的字符分值，从而得到每个文本数据的文本分值，除此之外，计算机设备还会对完整的目标音频数据进行识别，得到每个文本数据的第一关联特征、第二关联特征和第三关联特征。其中，文本数据的第一关联特征表示该文本数据与目标音频数据之间的关联程度，文本数据的第二关联特征表示由目标音频数据识别到该文本数据的可能性。文本数据的第三关联特征表示由目标音频数据中的多个音频帧识别到文本数据中的多个字符的可能性，也即是该目标音频数据中的多个音频帧与该文本数据中的多个字符对齐的可能性。

其中，该文本数据的内容与该目标音频数据的内容之间的相似度越高，该文本数据与该目标音频数据之间的关联程度越高，由目标音频数据识别到该文本数据的可能性也越高，由目标音频数据中的多个音频帧识别到文本数据中的多个字符的可能性也越高。可选地，该第一关联特征为计算机设备基于LF-MMI准则所确定的关联特征，例如为基于LF-MMI准则所确定的对数后验概率。可选地，该第二关联特征为计算机设备基于AEDs或者NTs所确定的关联特征，例如该第二关联特征为基于AEDs或者NTs所确定的对数后验概率。可选地，该第三关联特征为计算机设备基于CTC(Connectionist Temporal Classification，连接性时间分类)准则所确定的关联特征，例如该第三关联特征为基于CTC准则所确定的对数后验概率。

需要说明的是，在另一实施例中，计算机设备调用音频识别模型，对目标音频数据进行识别，得到每个文本数据的第一关联特征、第二关联特征和第三关联特征。其中，该音频识别模型用于对任一音频数据进行识别，可选地，该音频识别模型为计算机设备中存储的音频识别模型，例如该音频识别模型为AEDs或者NTs模型。该音频识别模型的训练方法详见下述图7、图8或者图11的实施例。

305、对于每个文本数据，计算机设备基于该文本数据的第一关联特征和其他文本数据的第一关联特征，确定文本数据的第一融合特征，对该文本数据的第一融合特征、第二关联特征和第三关联特征进行加权融合，得到该文本数据的融合分值。

每个文本数据都对应有第一关联特征，对于任一文本数据，计算机设备基于该文本数据的第一关联特征以及其他文本数据的第一关联特征，确定该文本数据的第一融合特征。其中，第一融合特征与该文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关。因此，对于每个文本数据，该文本数据与目标音频数据之间的关联程度越大，该文本数据的第一融合特征越大，且其他文本数据与目标音频数据之间的关联程度越小，该文本数据的第一融合特征也越大。

计算机设备得到文本数据的第一融合特征、第二关联特征和第三关联特征后，将该第一融合特征、第二关联特征和第三关联特征进行加权融合，得到该文本数据的融合分值，该文本数据的融合分值越高，该文本数据与目标音频数据越匹配，该文本数据的融合分值越低，该文本数据与目标音频数据越不匹配。其中，目标音频数据与目标文本数据匹配是指目标音频数据的内容与该目标文本数据的内容相同。

需要说明的是，本申请实施例仅以将第一融合特征、第二关联特征和第三关联特征进行加权融合为例进行说明，在另一实施例中，计算机设备无需确定文本数据对应的第三关联特征，仅将第一融合特征和第二关联特征进行加权融合，得到文本数据的融合分值。本申请实施例提供的方法可应用于AEDs或者NTs的解码过程中，计算机设备对目标音频数据进行识别，得到多个文本数据，对于每个文本数据，计算机设备在识别过程中，基于AEDs或者NTs确定该文本数据的第二关联特征，基于LF-MMI准则确定该文本数据对应的第一融合特征，计算机设备将这两个特征进行加权融合，得到融合分值，作为确定与目标音频数据匹配的目标文本数据的依据。

在一种可能实现方式中，计算机设备采用下述公式(8)，确定文本数据的融合分值。

logP(W|O)＝λ·logP_AED/NT(W|O)+(1-λ)·logP_MMI(W|O) (8)

其中，logP(W|O)表示文本数据的融合分值，W表示文本数据，O表示目标音频数据，logP_AED/NT(W|O)示在AEDs或者NTs的解码过程中确定的第二关联特征，logP_MMI(W|O)表示基于LF-MMI准则确定的第一融合特征，λ表示权重系数。

图5是本申请实施例提供的一种确定融合分值的示意图，音频识别模型包括编码网络和解码网络，计算机设备基于编码网络的输出以及解码网络得到的多个文本数据，确定每个文本数据的第一融合特征，基于解码网络得到的多个文本数据，确定每个文本数据的第二关联特征，将每个文本数据的第一融合特征与第二关联特征进行加权融合，得到该文本数据的融合分值。

306、计算机设备基于每个文本数据的融合分值和文本分值，在多个文本数据中确定目标文本数据。

计算机设备基于每个文本数据的融合分值和文本分值，在多个文本数据中，确定与目标音频数据匹配的目标文本数据。其中，目标音频数据与目标文本数据匹配是指目标音频数据的内容与该目标文本数据的内容相同。例如，计算机设备将融合分值与文本分值进行加权融合，在多个文本数据中，将加权融合后的分值最大的文本数据确定为目标文本数据。

需要说明的是，在另一实施例中，计算机设备还可以仅基于每个文本数据的第一融合特征和文本分值，在多个文本数据中确定目标文本数据。也即是，计算机设备仅获取文本数据的第一融合特征，无需获取文本数据的第二关联特征和第三关联特征，也无需基于第一融合特征、第二关联特征和第三关联特征确定融合分值。例如，计算机设备将第一融合特征与文本分值进行加权融合，在多个文本数据中，将加权融合后的分值最大的文本数据确定为目标文本数据。

需要说明的是，在另一实施例中，计算机设备还可以在多个文本数据中，直接将对应的融合分值最大的文本数据确定为目标文本数据。也即是，计算机设备仅获取文本数据的融合分值，无需执行上述步骤301-303中获取文本分值的过程。

图6是本申请实施例提供的一种音频识别方法的流程图。本申请实施例的执行主体为计算机设备，参见图6，该方法包括：

601、计算机设备对目标音频数据中的第一个音频帧进行识别，得到第一个音频帧对应的文本片段的片段分值。

计算机设备在采集到目标音频数据中的第一个音频帧时，对该第一个音频帧进行识别，得到第一个音频帧对应的文本片段的片段分值，该文本片段包括至少一个字符，该文本片段的片段分值表示该文本片段与第一个音频帧之间的关联程度。该文本片段的内容与该第一个音频帧的内容之间的相似度越高，该文本片段与该第一个音频帧之间的关联程度越高。

602、对于目标音频数据中的第i个音频帧，计算机设备基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的文本片段以及文本片段的片段分值。

计算机设备在获取到第一个音频帧之后的每个音频帧后，均对该音频帧执行该步骤602中的操作，本申请实施例以第i个音频帧为例来说明，计算机设备在采集到第i个音频帧时，获取前i-1个音频帧以及已经识别到的前i-1个音频帧对应的文本片段，并基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的文本片段以及该文本片段的片段分值。

其中，i为大于1不大于n的任一正整数，前i个音频帧对应的文本片段包括前i-1个音频帧对应的文本片段，前i个音频帧对应的文本片段的片段分值表示文本片段与前i个音频帧之间的关联程度。其中，前i个音频帧对应有多个文本片段，每个文本片段均包括前i-1个音频帧对应的文本片段，每个文本片段还可以包括第i个音频帧的匹配字符，且前i个音频帧对应的每个文本片段中包括的第i个音频帧的匹配字符不同。

计算机设备继续采集音频帧，并对采集到的音频帧执行上述操作，直至对n个音频帧进行识别后，得到n个音频帧对应的文本片段以及该文本片段的片段分值。其中，n个音频帧对应的文本片段的数量为多个。

在一种可能实现方式中，计算机设备基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的第三文本片段、前i个音频帧对应的第三文本片段的关联子特征以及其他文本片段的关联子特征。计算机设备基于第三文本片段的关联子特征，以及其他文本片段的关联子特征，确定第三文本片段的关联分值，其中，第三文本片段的关联分值与第三文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关。计算机设备基于第三文本片段的关联分值，确定第三文本片段的片段分值，其中，第三文本片段的片段分值与第三文本片段的关联分值正相关。

其中，任一文本片段的关联子特征表示文本片段与前i个音频帧之间的关联程度，第三文本片段由前i-1个音频帧对应的文本片段和第i个音频帧的一个匹配字符构成的。

可选地，为了便于处理，可以确定前i个音频帧对应的第三文本片段的二元组表示由u个字符构成的第三文本片段，表示该第三文本片段的片段分值，与该第三文本片段的关联分值正相关。第三文本片段的关联分值可表示为则该关联分值可采用下述公式(9)来确定。

其中，表示第三文本片段的关联分值，表示第三文本片段的关联子特征，表示每个文本片段的关联子特征之和。表示第三文本片段，该第三文本片段中包括u个字符，表示前i个音频帧，表示第三文本片段所对应的分子图，G_den表示多个文本片段所对应的分母图。

在一种可能实现方式中，计算机设备基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的第四文本片段、前i个音频帧对应的第四文本片段的关联子特征以及其他文本片段的关联子特征。计算机设备基于第四文本片段的关联子特征，以及其他文本片段的关联子特征，确定第四文本片段的关联分值，其中，第四文本片段的关联分值与第四文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关。计算机设备基于第三文本片段的关联分值、第四文本片段的关联分值和第三文本片段的片段分值，确定第四文本片段的片段分值，其中，第四文本片段的片段分值与第三文本片段的片段分值和第四文本片段的关联分值正相关，且与第三文本片段的关联分值负相关。

其中，任一文本片段的关联子特征表示文本片段与前i个音频帧之间的关联程度，第四文本片段由前i-1个音频帧对应的文本片段和第i个音频帧的两个匹配字符构成。

可选地，为了便于处理，可以确定前i个音频帧对应的第四文本片段的二元组表示由u+1个字符构成的第四文本片段，表示该第四文本片段的片段分值。可选地，该第四文本片段的片段分值采用下述公式(10)确定。

其中，表示第四文本片段的片段分值，表示第三文本片段的片段分值，表示第四文本片段的关联分值，表示第三文本片段的关联分值，表示由u+1个字符构成的第四文本片段，表示由u个字符构成的第三文本片段，表示前i个音频帧，β表示权重系数，表示识别到第u+1个匹配字符的可能性。

在一种可能实现方式中，i为大于1且小于n的正整数，计算机设备基于前i个音频帧和前i个音频帧对应的文本片段，对第i+1个音频帧进行识别，得到前i+1个音频帧对应的第五文本片段、前i+1个音频帧对应的第五文本片段的关联子特征以及其他文本片段的关联子特征。计算机设备基于第五文本片段的关联子特征，以及其他文本片段的关联子特征，确定第五文本片段的关联分值，其中，第五文本片段的关联分值与第五文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关。计算机设备基于第三文本片段的关联分值、第五文本片段的关联分值和第三文本片段的片段分值，确定第五文本片段的片段分值，其中，第五文本片段的片段分值与第三文本片段的片段分值和第五文本片段的关联分值正相关，且与第三文本片段的关联分值负相关。

其中，任一文本片段的关联子特征表示文本片段与前i个音频帧之间的关联程度，第五文本片段包括前i个音频帧对应的文本片段且不包括第i+1个音频帧的匹配字符。也即是，对第i+1个音频帧进行识别，未识别到新的匹配字符。

可选地，为了便于处理，可以确定第五文本片段的二元组表示由u个字符构成的第五文本片段，表示该第五文本片段的片段分值。可选地，该第五文本片段的片段分值采用下述公式(11)确定。

其中，表示第五文本片段的片段分值，表示第三文本片段的片段分值，表示第五文本片段的关联分值，表示第三文本片段的关联分值，表示前i个音频帧，表示前i+1个音频帧，β表示权重系数，S^blk表示未识别到第i+1个音频帧的匹配字符的可能性，blk表示空白。

在一种可能实现方式中，计算机设备确定第三文本片段的关联子特征，包括：基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，在识别到前i个音频帧对应的第三文本片段中的最后一个词语不完整的情况下，确定至少一个候选文本片段，候选文本片段包括前i个音频帧对应的第三文本片段和候选字符，候选文本片段中的最后一个词语为完整词语。计算机设备确定每个候选文本片段的候选子特征，候选文本片段的候选子特征表示候选文本片段匹配的音频帧为前i个音频帧的可能性。计算机设备基于每个候选文本片段的候选子特征，确定第三文本片段的关联子特征，第三文本片段的关联子特征与每个候选文本片段的候选子特征正相关。

在音频数据的语言属于英语的情况下，存在识别到的第三文本片段中的最后一个词语不完整的情况，例如识别到的第三文本片段为“I like ca”，但是“ca”是一个不完整的英文词语，为了确定具有不完整的词语的第三文本片段的关联子特征，可以基于该第三文本片段来构建具有完整的词语的候选文本片段，也即是在第三文本片段的后面补充候选字符，使得第三文本片段和候选字符构成具有完整的词语的候选文本片段。例如，第三文本片段“I like ca”的后面可以补充候选字符“r”、候选字符“t”或者候选字符“p”，构成候选文本片段“I like car”、候选文本片段“I like cat”或者候选文本片段“I like cap”。

603、计算机设备将n个音频帧对应的文本片段确定为识别到的文本数据。

计算机设备得到n个音频帧对应的多个文本片段，分别将每个文本片段确定为对n个音频帧进行识别所得到的文本数据，每个文本数据中包括多个字符，文本片段的片段分值也即是对应的文本数据的片段分值。

需要说明的是，在另一实施例中，计算机设备调用音频识别模型，执行上述步骤601-603中的操作。其中，该音频识别模型用于对任一音频数据进行识别，可选地，该音频识别模型为计算机设备中存储的音频识别模型，例如该音频识别模型为AEDs或者NTs模型。该音频识别模型的训练方法详见下述图8、图9或者图12的实施例。

604、计算机设备对目标音频数据进行识别，得到每个文本数据的第一关联特征、第二关联特征和第三关联特征。

605、对于每个文本数据，计算机设备基于该文本数据的第一关联特征和其他文本数据的第一关联特征，确定文本数据的第一融合特征，对该文本数据的第一融合特征、第二关联特征和第三关联特征进行加权融合，得到该文本数据的融合分值。

其中，上述步骤604-605与上述步骤304-305同理，在此不再赘述。

606、计算机设备基于每个文本数据的融合分值和片段分值，在多个文本数据中确定目标文本数据。

计算机设备基于每个文本数据的融合分值和片段分值，在多个文本数据中，确定与目标音频数据匹配的目标文本数据。其中，目标音频数据与目标文本数据匹配是指目标音频数据的内容与该目标文本数据的内容相同。例如，计算机设备将融合分值与片段分值进行加权融合，在多个文本数据中，将加权融合后的分值最大的文本数据确定为目标文本数据。

需要说明的是，在另一实施例中，计算机设备还可以在多个文本数据中，直接将对应的融合分值最大的文本数据确定为目标文本数据。也即是，计算机设备仅获取文本数据的融合分值，无需执行上述步骤601-603中获取片段分值的过程。

图7是本申请实施例提供的一种音频识别方法的流程图。本申请实施例的执行主体为计算机设备，参见图7，该方法包括：

701、计算机设备获取样本音频数据和样本音频数据对应的样本文本数据。

样本音频数据对应的样本文本数据是指与该样本音频数据匹配的文本数据，也即是该样本音频数据的内容与该样本文本数据的内容相同。

702、计算机设备调用音频识别模型，对样本音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征。

其中，文本数据的第一关联特征表示该文本数据与该目标音频数据之间的关联程度。该文本数据的内容与该目标音频数据的内容之间的相似度越高，该文本数据与该目标音频数据之间的关联程度越高，多个文本数据中包括样本文本数据。可选地，该多个文本数据是预先设置的多个文本数据，例如该多个文本数据是字符集合中的多个字符所构成的文本数据，该字符集合中包括预先设置的多个字符。

703、计算机设备基于样本文本数据的第一关联特征，以及除了样本文本数据之外的其他文本数据的第一关联特征，确定损失特征。

由于损失特征是基于样本文本数据的第一关联特征，以及除了样本文本数据之外的其他文本数据的第一关联特征确定的，因此该损失特征考虑了样本文本数据与该样本音频数据之间的关联程度，以及其他样本文本数据与该样本音频数据之间的关联程度。

在一种可能实现方式中，计算机设备基于样本文本数据的第一关联特征以及其他文本数据的第一关联特征，确定第一融合特征，其中，第一融合特征与样本文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关，计算机设备基于第一融合特征，确定损失特征，损失特征与第一融合特征负相关。因此该损失特征与样本文本数据的第一关联特征负相关，且与每个文本数据的第一关联特征之和正相关。

704、计算机设备基于损失特征，训练音频识别模型。

由于损失特征与样本文本数据的第一关联特征负相关，且与每个文本数据的第一关联特征之和正相关。因此基于该损失特征，训练音频识别模型，不仅可以提高音频识别模型识别到的样本文本数据与目标音频数据之间的关联程度，而且可以降低音频识别模型识别到的其他文本数据与目标音频数据之间的关联程度，从而提高了音频识别模型的准确率。其中，训练后的音频识别模型用于对任一音频数据进行识别。

本申请实施例提供的方法，在训练音频识别模型时，不仅考虑样本文本数据与目标音频数据之间的关联程度，还考虑了其他文本数据与目标音频数据之间的关联程度，训练目标为提高样本文本数据与目标音频数据之间的关联程度，且降低其他文本数据与目标音频数据之间的关联程度，由于训练过程考虑的因素较多，因此能够提高训练的音频识别模型的准确率。

图8是本申请实施例提供的一种音频识别方法的流程图。本申请实施例的执行主体为计算机设备，参见图8，该方法包括：

801、计算机设备获取样本音频数据和样本音频数据对应的样本文本数据。

802、计算机设备调用音频识别模型，对样本音频数据进行识别，得到每个文本数据的第一关联特征、第二关联特征和第三关联特征。

其中，文本数据的第一关联特征表示该文本数据与目标音频数据之间的关联程度，文本数据的第二关联特征表示由目标音频数据识别到该文本数据的可能性。文本数据的第三关联特征表示由目标音频数据中的多个音频帧识别到文本数据中的多个字符的可能性，也即是该目标音频数据中的多个音频帧与该文本数据中的多个字符对齐的可能性。

可选地，该第一关联特征为计算机设备基于LF-MMI准则所确定的关联特征，例如为基于LF-MMI准则所确定的对数后验概率。可选地，该第二关联特征为计算机设备基于AEDs或者NTs所确定的关联特征，例如该第二关联特征为基于AEDs或者NTs所确定的对数后验概率。可选地，该第三关联特征为计算机设备基于CTC(Connectionist TemporalClassification，连接性时间分类)准则所确定的关联特征，例如该第三关联特征为基于CTC准则所确定的对数后验概率。

在一种可能实现方式中，音频识别模型包括编码网络和解码网络。计算机设备调用编码网络，对样本音频数据进行编码，得到音频特征，调用解码网络，基于多个文本数据，对音频特征进行解码，得到每个文本数据的第二关联特征，基于音频特征和每个文本数据对应的文本特征，确定每个文本数据的第一关联特征。

可选地，计算机设备采用LF-MMI准则，基于编码网络输出的音频特征以及每个文本数据对应的文本特征，确定每个文本数据的第一关联特征。计算机设备采用CTC准则，基于编码网络输出的音频特征确定每个文本数据的第三关联特征。图9是本申请实施例提供的一种音频识别模型的结构示意图，如图9所示，该音频识别模型包括编码网络和解码网络，计算机设备基于该编码网络的输出确定第一关联特征和第三关联特征，基于该解码网络的输出确定第二关联特征。

在一种可能实现方式中，音频数据包括m个音频帧，m为大于1的正整数，音频识别模型包括编码网络、特征提取网络和联合网络。计算机设备调用编码网络，基于样本音频数据中的前m-1个音频帧，对第m个音频帧进行编码，得到第m个音频帧的音频特征，调用特征提取网络，对样本文本数据中前m-1个音频帧对应的样本文本片段进行特征提取，得到前m-1个音频帧的文本特征，调用联合网络，对第m个音频帧的音频特征和前m-1个音频帧的文本特征进行融合，得到每个文本数据的第二关联特征。计算机设备基于第m个音频帧的音频特征和每个文本数据的文本特征，确定每个文本数据的第一关联特征。

可选地，计算机设备采用LF-MMI准则，基于编码网络输出的音频特征以及每个文本数据对应的文本特征，确定每个文本数据的第一关联特征。计算机设备采用CTC准则，基于编码网络输出的音频特征确定每个文本数据的第三关联特征。图10是本申请实施例提供的另一种音频识别模型的结构示意图，如图10所示，音频识别模型包括编码网络、特征提取网络和联合网络，计算机设备基于编码网络的输出确定第一关联特征和第三关联特征，基于联合网络的输出确定第二关联特征。

803、计算机设备确定第一样本特征，基于每个文本数据的第二关联特征以及第一样本特征，确定第一差异特征。

第一样本特征表示由样本音频数据识别到样本文本数据，计算机设备基于多个文本数据的第二关联特征与该第一样本特征之间的差异，确定第一差异特征，该第一差异特征能够指示音频识别模型的识别误差。

可选地，第一样本特征包括每个文本数据对应的第一关联值，且在第一样本特征中，样本文本数据对应的第一关联值表示由样本音频数据能够识别到样本文本数据，样本文本数据与该样本音频数据匹配，其他文本数据对应的第一关联值表示由样本音频数据不能识别到文本数据，文本数据与该样本音频数据不匹配。可选地，计算机设备基于每个文本数据的第二关联特征与该文本数据的第一关联值之间的差异，确定第一差异特征。

804、计算机设备确定第二样本特征，基于每个文本数据的第三关联特征以及第二样本特征，确定第二差异特征。

第二样本特征表示由样本音频数据中的多个音频帧识别到样本文本数据中的多个字符。计算机设备基于多个文本数据的第三关联特征与该第二样本特征之间的差异，确定第二差异特征，该第二差异特征能够指示音频识别模型的识别误差。

可选地，第二样本特征包括每个文本数据对应的第二关联值，且在第二样本特征中，样本文本数据对应的第二关联值表示由样本音频数据中的多个音频帧能够识别到样本文本数据中的多个字符，样本文本数据中的多个字符与该样本音频数据中的多个音频帧匹配，其他文本数据对应的第二关联值表示由样本音频数据中的多个音频帧不能识别到文本数据中的多个字符，文本数据中的多个字符与该样本音频数据中的多个音频帧不匹配。可选地，计算机设备基于每个文本数据的第三关联特征与该文本数据的第二关联值之间的差异，确定第二差异特征。

805、计算机设备基于样本文本数据的第一关联特征以及其他文本数据的第一关联特征，确定第一融合特征。

其中，第一融合特征与样本文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关。由于在多个文本数据中，样本文本数据与样本音频数据之间的关联程度最大，因此样本文本数据的第一融合特征越大，该音频识别模型的准确性越高。

806、计算机设备基于第一融合特征、第一差异特征与第二差异特征，确定损失特征。

其中，损失特征与第一融合特征负相关，且与第一差异特征和第二差异特征正相关。

在一种可能实现方式中，计算机设备采用下述公式(12)，确定损失特征。

J＝-α·P_MMI(W|O)+ (1-β) ·J_T+β·J_CTC (12)

其中，J表示损失特征，P_MMI(W|O)表示第一融合特征，J_T表示第一差异特征，J_CTC表示第二差异特征，α和β为权重系数。可选地，第一融合特征为LF-MMI损失，第一差异特征为Attention(注意力)损失或者Transducer(变换器)损失，第二差异特征为CTC损失。

需要说明的是，本申请实施例以基于第一融合特征、第一差异特征和第二差异特征确定损失特征为例进行说明，在另一实施例中，计算机设备还可以仅基于第一融合特征和第一差异特征确定损失特征，也即是无需执行确定第三关联特征和第二样本特征的过程，以及确定第二差异特征的过程。或者，计算机设备还可以仅基于第一融合特征和第二差异特征确定损失特征，也即是无需执行确定第二关联特征和第一样本特征的过程，以及确定第一差异特征的过程。

807、计算机设备基于损失特征，训练音频识别模型。

计算机设备基于该损失特征，训练音频识别模型，以使损失特征越来越小，不仅可以提高音频识别模型识别到的样本文本数据与目标音频数据之间的关联程度，而且可以降低音频识别模型识别到的其他文本数据与目标音频数据之间的关联程度，并降低第二关联特征与第一样本特征之间的差异，以及降低第三关联特征与第二样本特征之间的差异，从而提高了音频识别模型的准确率。其中，训练后的音频识别模型用于对任一音频数据进行识别。

本申请实施例提供的方法能够提高音频识别的性能，为了对本申请实施例提供的方法进行验证，可以采用衡量指标词错误率(WER，Word Error Rate)或者字错误率(CER，Character Error Rate)。

在三个开源数据集上对我们所提出的方法进行测试，三个开源数据集为Aishell-1(中文数据集)、Aishell-2(中文数据集)和Librispeech(英文数据集)。

其中，Aishell-1数据集的实验结果如表1所示。包括在AED模型和NT模型下的实验结果。

表1

参见表1，在不使用本申请实施例提供的方法基于AED模型进行识别时(实验1)，AED模型的CER在dev集合上为4.7％，在test集合上为5.2％。在使用LF-MMI准则训练AED模型后(实验2)，AED模型的CER在dev集合上为4.5％，在test集合上为5.0％。在AED模型的解码过程中引入LF-MMI准则后(实验3)，AED模型的CER在dev集合上为4.5％，在test集合上为4.9％。在不使用本申请实施例提供的方法基于NT模型进行识别时(实验4)，NT模型的CER在dev集合上为4.4％，在test集合上为4.8％。在使用LF-MMI准则训练NT模型后(实验5)，NT模型的CER在dev集合上为4.3％，在test集合上为4.6％。在NT模型的解码过程中引入LF-MMI准则后(实验6)，NT模型的CER在dev集合上为4.2％，在test集合上为4.5％。

其中，Aishell-2数据集的实验结果如表2所示，包括在NT模型下的实验结果，实验环境包括三种移动操作系统，分别为ios(一种移动操作系统)、android(安卓，一种移动操作系统)和mic(另一种操作系统)。

表2

参见表2，在不使用本申请实施例提供的方法基于NT模型进行识别时(实验7)，NT模型的CER在三种移动操作系统上分别为5.9％、6.7％和6.5％。在使用LF-MMI准则训练NT模型后(实验8)，NT模型的CER在三种移动操作系统上分别为5.4％、6.6％和6.5％。在NT模型的解码过程中引入LF-MMI准则后(实验9)，NT模型的CER在三种移动操作系统上分别为5.4％、6.5％和6.3％。

其中，Librispeech的实验结果如表3所示，包括在AED模型下的实验结果，且包括4种数据集。

表3

参见表3，在不使用本申请实施例提供的方法基于AED模型进行识别时(实验10)，AED模型的CER在4种数据集上分别为2.1％、5.0％、2.2％和5.3％。在使用LF-MMI准则训练AED模型后(实验11)，AED模型的CER在4种数据集上分别为1.9％、5.0％、2.2％和5.0％。

图11是本申请实施例提供的一种音频识别装置的结构示意图。参见图11，该装置包括：

识别模块1101，用于对目标音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征，第一关联特征表示文本数据与目标音频数据之间的关联程度；

融合模块1102，用于对于每个文本数据，基于文本数据的第一关联特征和其他文本数据的第一关联特征，确定文本数据的第一融合特征，第一融合特征与文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关；

文本确定模块1103，用于基于每个文本数据的第一融合特征，在多个文本数据中确定与目标音频数据匹配的目标文本数据。

本申请实施例提供的音频识别装置，根据某个文本数据与目标音频数据之间的关联程度，以及每个文本数据与该目标音频数据之间的关联程度，来确定该文本数据的第一融合特征，因此文本数据的第一融合特征考虑了各个文本数据与目标音频数据之间的关联程度，由于考虑的因素较多，因此基于第一融合特征，确定与目标音频数据匹配的目标文本数据，能够提高音频识别的准确性。

可选地，参见图12，识别模块1101，包括：

第一识别单元1111，用于对目标音频数据进行识别，得到每个文本数据的第一关联特征和第二关联特征，第二关联特征表示由目标音频数据识别到文本数据的可能性；

文本确定模块1103，包括：

第一融合单元1113，用于对每个文本数据的第一融合特征和第二关联特征进行加权融合，得到每个文本数据的融合分值；

文本确定单元1123，用于在多个文本数据中，将对应的融合分值最大的文本数据确定为目标文本数据。

可选地，参见图12，识别模块1101，包括：

第二识别单元1121，用于对目标音频数据进行识别，得到每个文本数据的第一关联特征和第三关联特征，第三关联特征表示由目标音频数据中的多个音频帧识别到文本数据中的多个字符的可能性；

文本确定模块1103，包括：

第二融合单元1133，用于对每个文本数据的第一融合特征和第三关联特征进行加权融合，得到每个文本数据的融合分值；

可选地，参见图12，目标音频数据包括n个音频帧，n为大于1的正整数，每个文本数据中包括多个字符，识别模块1101，还用于：

对于每个第一文本片段，基于第一文本片段，对n个音频帧进行识别，得到多个第二文本片段和每个第二文本片段中的最后一个字符的字符分值，每个第二文本片段包括第一文本片段和最后一个字符，字符分值表示在由n个音频帧识别到第一文本片段的情况下识别到最后一个字符的可能性，直至得到的多个文本片段的最后一个字符中字符分值最高的为结尾字符，结尾字符指示文本数据的结尾；

将识别到的多个文本片段分别确定为文本数据，并基于每个文本数据中每个字符的字符分值，确定每个文本数据的文本分值，文本分值与每个字符的字符分值正相关；

文本确定模块1103，包括：

文本确定单元1123，用于基于每个文本数据的第一融合特征和文本分值，在多个文本数据中确定目标文本数据。

可选地，参见图12，识别模块1101，还用于：

基于第一文本片段，对n个音频帧进行识别，得到多个第二文本片段、每个第二文本片段对应的第一分值以及第二分值，其中，第一分值表示由n个音频帧识别到第二文本片段的可能性，第二分值表示由n个音频帧识别到第一文本片段的情况下未识别到新的字符的可能性；

将每个第二文本片段对应的第一分值与第二分值之间的差值，确定为每个第二文本片段中最后一个字符的字符分值。

可选地，参见图12，识别模块1101，还用于：

基于第一文本片段，对n个音频帧进行识别，得到多个预设文本片段中的每个预设文本片段的n个关联子特征，预设文本片段对应的第p个关联子特征表示预设文本片段与前p个音频帧之间的关联程度，p为不大于n的正整数，多个预设文本片段中包括多个第二文本片段和第一文本片段；

对于每个第二文本片段，基于第二文本片段的n个关联子特征，以及除了第二文本片段之外的预设文本片段的n个关联子特征，确定第二文本片段对应的第一分值；

基于第一文本片段的n个关联子特征，以及除了第一文本片段之外的预设文本片段的n个关联子特征，确定第二分值。

可选地，参见图12，识别模块1101，还用于：

基于第二文本片段的n个关联子特征，以及除了第二文本片段之外的预设文本片段的n个关联子特征，确定n个关联分值，其中，第p个关联分值与第二文本片段的第p个关联子特征正相关，且与每个预设文本片段的第p个关联子特征之和负相关；

基于n个关联分值，确定第二文本片段对应的第一分值，第一分值与n个关联分值正相关。

可选地，参见图12，识别模块1101，还用于：

基于第一文本片段，对n个音频帧进行识别，在识别到第二文本片段中的最后一个词语不完整的情况下，确定至少一个候选文本片段，候选文本片段包括第二文本片段和候选字符，候选文本片段中的最后一个词语为完整词语；

确定每个候选文本片段的n个候选子特征，候选文本片段的第p个候选子特征表示候选文本片段与前p个音频帧之间的关联程度；

基于每个候选文本片段的n个候选子特征，确定第二文本片段的n个关联子特征，其中，第二文本片段的第p个关联子特征与每个候选文本片段的第p个候选子特征正相关。

对目标音频数据中的第一个音频帧进行识别，得到第一个音频帧对应的文本片段的片段分值，片段分值表示文本片段与第一个音频帧之间的关联程度；

对于目标音频数据中的第i个音频帧，基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的文本片段以及文本片段的片段分值，其中，前i个音频帧对应的文本片段包括前i-1个音频帧对应的文本片段以及第i个音频帧的匹配字符，前i个音频帧对应的文本片段的片段分值表示文本片段与前i个音频帧之间的关联程度，i为大于1不大于n的任一正整数，直至对n个音频帧进行识别后，得到n个音频帧对应的文本片段以及文本片段的片段分值；

将n个音频帧对应的文本片段确定为识别到的文本数据；

文本确定模块1103，包括：

文本确定单元1123，用于基于每个文本数据的第一融合特征和片段分值，在多个文本数据中确定目标文本数据。

可选地，参见图12，识别模块1101，还用于：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的第三文本片段、前i个音频帧对应的第三文本片段的关联子特征以及其他文本片段的关联子特征，任一文本片段的关联子特征表示文本片段与前i个音频帧之间的关联程度，第三文本片段由前i-1个音频帧对应的文本片段和第i个音频帧的一个匹配字符构成；

基于第三文本片段的关联子特征，以及其他文本片段的关联子特征，确定第三文本片段的关联分值，第三文本片段的关联分值与第三文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

基于第三文本片段的关联分值，确定第三文本片段的片段分值，第三文本片段的片段分值与第三文本片段的关联分值正相关。

可选地，参见图12，识别模块1101，还用于：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，得到前i个音频帧对应的第四文本片段、前i个音频帧对应的第四文本片段的关联子特征以及其他文本片段的关联子特征，第四文本片段由前i-1个音频帧对应的文本片段和第i个音频帧的两个匹配字符构成；

基于第四文本片段的关联子特征，以及其他文本片段的关联子特征，确定第四文本片段的关联分值，第四文本片段的关联分值与第四文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

基于第三文本片段的关联分值、第四文本片段的关联分值和第三文本片段的片段分值，确定第四文本片段的片段分值，第四文本片段的片段分值与第三文本片段的片段分值和第四文本片段的关联分值正相关，且与第三文本片段的关联分值负相关。

可选地，参见图12，i为大于1且小于n的正整数，识别模块1101，还用于：

基于前i个音频帧和前i个音频帧对应的文本片段，对第i+1个音频帧进行识别，得到前i+1个音频帧对应的第五文本片段、前i+1个音频帧对应的第五文本片段的关联子特征以及其他文本片段的关联子特征，第五文本片段包括前i个音频帧对应的文本片段且不包括第i+1个音频帧的匹配字符；

基于第五文本片段的关联子特征，以及其他文本片段的关联子特征，确定第五文本片段的关联分值，第五文本片段的关联分值与第五文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

基于第三文本片段的关联分值、第五文本片段的关联分值和第三文本片段的片段分值，确定第五文本片段的片段分值，第五文本片段的片段分值与第三文本片段的片段分值和第五文本片段的关联分值正相关，且与第三文本片段的关联分值负相关。

可选地，参见图12，识别模块1101，还用于：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对第i个音频帧进行识别，在识别到前i个音频帧对应的第三文本片段中的最后一个词语不完整的情况下，确定至少一个候选文本片段，候选文本片段包括前i个音频帧对应的第三文本片段和候选字符，候选文本片段中的最后一个词语为完整词语；

确定每个候选文本片段的候选子特征，候选文本片段的候选子特征表示候选文本片段与前i个音频帧之间的关联程度；

基于每个候选文本片段的候选子特征，确定第三文本片段的关联子特征，第三文本片段的关联子特征与每个候选文本片段的候选子特征正相关。

可选地，参见图12，识别模块1101，还用于调用音频识别模型，对目标音频数据进行识别，得到每个文本数据的第一关联特征。

需要说明的是：上述实施例提供的音频识别装置在识别音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13是本申请实施例提供的一种音频识别装置的结构示意图。参见图13，该装置包括：

样本获取模块1301，用于获取样本音频数据和样本音频数据对应的样本文本数据；

识别模块1302，用于调用音频识别模型，对样本音频数据进行识别，得到多个文本数据中的每个文本数据的第一关联特征，第一关联特征表示文本数据与样本音频数据之间的关联程度，多个文本数据中包括样本文本数据；

损失确定模块1303，用于基于样本文本数据的第一关联特征，以及除了样本文本数据之外的其他文本数据的第一关联特征，确定损失特征；

模型训练模块1304，用于基于损失特征，训练音频识别模型，训练后的音频识别模型用于对任一音频数据进行识别。

可选地，参见图14，损失确定模块1303，包括：

融合特征确定单元1313，用于基于样本文本数据的第一关联特征以及其他文本数据的第一关联特征，确定第一融合特征，第一融合特征与样本文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关；

损失特征确定单元1323，用于基于第一融合特征，确定损失特征，损失特征与第一融合特征负相关。

可选地，参见图14，识别模块1302，包括：

第一识别单元1312，用于调用音频识别模型，对样本音频数据进行识别，得到每个文本数据的第一关联特征和第二关联特征，第二关联特征表示由音频数据识别到文本数据的可能性；

损失确定模块1303，用于：

确定第一样本特征，第一样本特征表示由样本音频数据识别到样本文本数据；

基于样本文本数据的第一关联特征以及其他文本数据的第一关联特征，确定第一融合特征，第一融合特征与样本文本数据的第一关联特征正相关，且与每个文本数据的第一关联特征之和负相关；

基于每个文本数据的第二关联特征以及第一样本特征，确定第一差异特征；

基于第一融合特征与第一差异特征，确定损失特征，损失特征与第一融合特征负相关，且与第一差异特征正相关。

可选地，参见图14，音频识别模型包括编码网络和解码网络，第一识别单元1312，用于：

调用编码网络，对样本音频数据进行编码，得到音频特征；

调用解码网络，基于多个文本数据，对音频特征进行解码，得到每个文本数据的第二关联特征；

基于音频特征和每个文本数据对应的文本特征，确定每个文本数据的第一关联特征。

可选地，参见图14，音频数据包括m个音频帧，m为大于1的正整数，音频识别模型包括编码网络、特征提取网络和联合网络，第一识别单元1312，用于：

调用编码网络，基于样本音频数据中的前m-1个音频帧，对第m个音频帧进行编码，得到第m个音频帧的音频特征；

调用特征提取网络，对样本文本数据中前m-1个音频帧对应的样本文本片段进行特征提取，得到前m-1个音频帧的文本特征；

调用联合网络，对第m个音频帧的音频特征和前m-1个音频帧的文本特征进行融合，得到每个文本数据的第二关联特征；

基于第m个音频帧的音频特征和每个文本数据的文本特征，确定每个文本数据的第一关联特征。

可选地，参见图14，识别模块1302，包括：

第二识别单元1322，用于调用音频识别模型，对样本音频数据进行识别，得到每个文本数据的第一关联特征和第三关联特征，第三关联特征表示由样本音频数据中的多个音频帧识别到文本数据中的多个字符的可能性；

损失确定模块1303，用于：

确定第二样本特征，第二样本特征表示由样本音频数据中的多个音频帧识别到样本文本数据中的多个字符；

基于每个文本数据的第三关联特征以及第二样本特征，确定第二差异特征；

基于第一融合特征与第二差异特征，确定损失特征，损失特征与第一融合特征负相关，且与第二差异特征正相关。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的音频识别方法中所执行的操作。

可选地，该计算机设备提供为终端。图15示出了本申请一个示例性实施例提供的终端1500的结构示意图。

终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以集成有GPU(Graphics Processing Unit，图像处理的交互器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1501所具有以实现本申请中方法实施例提供的音频识别方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。可选地，外围设备包括：射频电路1504、显示屏1505、摄像头组件1506、音频电路1507和电源1509中的至少一种。

外围设备接口1503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置在终端1500的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在终端1500的不同表面或呈折叠设计；在另一些实施例中，显示屏1505可以是柔性显示屏，设置在终端1500的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1506用于采集图像或视频。可选地，摄像头组件1506包括前置摄像头和后置摄像头。前置摄像头设置在终端1500的前面板，后置摄像头设置在终端1500的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。

电源1509用于为终端1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图16是本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1601和一个或一个以上的存储器1602，其中，存储器1602中存储有至少一条计算机程序，至少一条计算机程序由处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的音频识别方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备实现如上述实施例的音频识别方法中所执行的操作。在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

对于每个所述文本数据，基于所述文本数据的第一关联特征和其他文本数据的第一关联特征，确定所述文本数据的第一融合特征，所述第一融合特征与所述文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关，所述文本数据与所述目标音频数据之间的关联程度越大，所述文本数据的第一融合特征越大，且其他文本数据与所述目标音频数据之间的关联程度越小，所述文本数据的第一融合特征也越大；

2.根据权利要求1所述的方法，其特征在于，所述对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：

对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征和第二关联特征，所述第二关联特征表示由所述目标音频数据识别到所述文本数据的可能性；

所述基于每个所述文本数据的第一融合特征，在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据，包括：

对每个所述文本数据的所述第一融合特征和所述第二关联特征进行加权融合，得到每个所述文本数据的融合分值；

在多个所述文本数据中，将对应的融合分值最大的文本数据确定为所述目标文本数据。

3.根据权利要求1所述的方法，其特征在于，所述对目标音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：

对所述目标音频数据进行识别，得到每个所述文本数据的第一关联特征和第三关联特征，所述第三关联特征表示由所述目标音频数据中的多个音频帧识别到所述文本数据中的多个字符的可能性；

对每个所述文本数据的所述第一融合特征和所述第三关联特征进行加权融合，得到每个所述文本数据的融合分值；

4.根据权利要求1所述的方法，其特征在于，所述目标音频数据包括n个音频帧，n为大于1的正整数，每个所述文本数据中包括多个字符，所述方法还包括：

基于每个所述文本数据的所述第一融合特征和所述文本分值，在多个所述文本数据中确定所述目标文本数据。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一文本片段，对所述n个音频帧进行识别，得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一文本片段，对所述n个音频帧进行识别，得到多个所述第二文本片段、每个所述第二文本片段对应的第一分值以及第二分值，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第二文本片段的n个关联子特征，以及除了所述第二文本片段之外的预设文本片段的n个关联子特征，确定所述第二文本片段对应的第一分值，包括：

8.根据权利要求1所述的方法，其特征在于，所述目标音频数据包括n个音频帧，n为大于1的正整数，每个所述文本数据中包括多个字符，所述方法还包括：

将所述n个音频帧对应的文本片段确定为识别到的文本数据；

基于每个所述文本数据的所述第一融合特征和所述片段分值，在多个所述文本数据中确定所述目标文本数据。

9.根据权利要求8所述的方法，其特征在于，所述基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的文本片段以及所述文本片段的片段分值，包括：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的第三文本片段、前i个音频帧对应的第三文本片段的关联子特征以及除了所述第三文本片段之外的文本片段的关联子特征，任一文本片段的关联子特征表示所述文本片段与前i个音频帧之间的关联程度，所述第三文本片段由前i-1个音频帧对应的文本片段和所述第i个音频帧的一个匹配字符构成；

基于所述第三文本片段的关联子特征，以及除了所述第三文本片段之外的文本片段的关联子特征，确定所述第三文本片段的关联分值，所述第三文本片段的关联分值与所述第三文本片段的关联子特征正相关，且与每个所述文本片段的关联子特征之和负相关；

10.根据权利要求9所述的方法，其特征在于，所述基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的文本片段以及所述文本片段的片段分值，包括：

基于前i-1个音频帧和前i-1个音频帧对应的文本片段，对所述第i个音频帧进行识别，得到前i个音频帧对应的第四文本片段和前i个音频帧对应的第四文本片段的关联子特征，所述第四文本片段由前i-1个音频帧对应的文本片段和所述第i个音频帧的两个匹配字符构成；

基于所述第四文本片段的关联子特征，以及除了所述第四文本片段之外的文本片段的关联子特征，确定所述第四文本片段的关联分值，所述第四文本片段的关联分值与所述第四文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

11.根据权利要求9所述的方法，其特征在于，所述i为大于1且小于n的正整数，所述方法还包括：

基于前i个音频帧和前i个音频帧对应的文本片段，对第i+1个音频帧进行识别，得到前i+1个音频帧对应的第五文本片段和前i+1个音频帧对应的第五文本片段的关联子特征，所述第五文本片段包括前i个音频帧对应的文本片段且不包括所述第i+1个音频帧的匹配字符；

基于所述第五文本片段的关联子特征，以及除了所述第五文本片段之外的文本片段的关联子特征，确定所述第五文本片段的关联分值，所述第五文本片段的关联分值与所述第五文本片段的关联子特征正相关，且与每个文本片段的关联子特征之和负相关；

12.一种音频识别方法，其特征在于，所述方法包括：

基于所述样本文本数据的第一关联特征，以及除了所述样本文本数据之外的其他文本数据的第一关联特征，确定第一融合特征，所述第一融合特征与所述样本文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；基于所述第一融合特征，确定损失特征；

13.根据权利要求12所述的方法，其特征在于，所述调用音频识别模型，对所述样本音频数据进行识别，得到多个文本数据中的每个所述文本数据的第一关联特征，包括：

调用所述音频识别模型，对所述样本音频数据进行识别，得到每个所述文本数据的所述第一关联特征和第二关联特征，所述第二关联特征表示由所述音频数据识别到所述文本数据的可能性；

所述基于所述第一融合特征，确定损失特征，包括：

14.根据权利要求13所述的方法，其特征在于，所述音频识别模型包括编码网络和解码网络，所述调用所述音频识别模型，对所述样本音频数据进行识别，得到每个所述文本数据的所述第一关联特征和第二关联特征，包括：

15.根据权利要求13所述的方法，其特征在于，所述音频数据包括m个音频帧，所述m为大于1的正整数，所述音频识别模型包括编码网络、特征提取网络和联合网络，所述调用所述音频识别模型，对所述样本音频数据进行识别，得到每个所述文本数据的所述第一关联特征和第二关联特征，包括：

16.一种音频识别装置，其特征在于，所述装置包括：

融合模块，用于对于每个所述文本数据，基于所述文本数据的第一关联特征和其他文本数据的第一关联特征，确定所述文本数据的第一融合特征，所述第一融合特征与所述文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关，所述文本数据与所述目标音频数据之间的关联程度越大，所述文本数据的第一融合特征越大，且其他文本数据与所述目标音频数据之间的关联程度越小，所述文本数据的第一融合特征也越大；

17.一种音频识别装置，其特征在于，所述装置包括：

损失确定模块，用于基于所述样本文本数据的第一关联特征，以及除了所述样本文本数据之外的其他文本数据的第一关联特征，确定第一融合特征，所述第一融合特征与所述样本文本数据的第一关联特征正相关，且与每个所述文本数据的第一关联特征之和负相关；基于所述第一融合特征，确定损失特征；

18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至11任一项所述的音频识别方法，或者实现如权利要求12至15任一项所述的音频识别方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至11任一项所述的音频识别方法，或者实现如权利要求12至15任一项所述的音频识别方法。

20.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序由处理器加载并执行，以实现如权利要求1至11任一项所述的音频识别方法，或者实现如权利要求12至15任一项所述的音频识别方法。