CN113936643A

CN113936643A - 语音识别方法、语音识别模型、电子设备和存储介质

Info

Publication number: CN113936643A
Application number: CN202111538265.3A
Authority: CN
Inventors: 高志付; 张仕良
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-01-14
Anticipated expiration: 2041-12-16
Also published as: CN113936643B; WO2023109379A1

Abstract

本申请实施例提供了一种语音识别方法、语音识别模型、电子设备和存储介质，该语音识别方法包括：获取待识别语音的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得待识别语音的识别结果。本方案能够提高语音识别的速度。

Description

语音识别方法、语音识别模型、电子设备和存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语音识别方法、语音识别模型、电子设备和存储介质。

背景技术

语音识别技术就是让机器通过识别和理解过程，把语音信号转换为相应文本或命令的技术，其中，端到端语音识别系统受到了学术界和工业界越来越广泛的关注。相比于传统的混合建模方案，端到端语音识别系统通过一个模型联合优化声学模型和语言模型，不仅能够降低模型训练的复杂度，还能够提高模型的语音识别性能。

目前，端到端语音识别系统采用自回归模型（Auto-regressive Transformer）实现声学模型和语言模型的联合优化，以在通用任务上获得较好的性能提升。

然而，在采用自回归模型的端到端语音识别系统中，自回归解码器（Auto-regressive Decoder）在将语音特征转换为文本时，需要基于已识别出的字符依次识别还未被识别的字符，识别每个字符都需要调用一次语音识别模型，因此在输入语音数据较长时，端到端语音识别系统需要耗费较长时间才能够输出识别结果，导致语音识别的速度较慢。

发明内容

有鉴于此，本申请实施例提供一种语音识别方法、语音识别模型、电子设备和存储介质，以至少解决或缓解上述问题。

根据本申请实施例的第一方面，提供了一种语音识别方法，包括：获取待识别语音的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得待识别语音的识别结果。

根据本申请实施例的第二方面，提供了一种提供语音识别服务的方法，包括：获取实时采集的会议语音数据；获取会议语音数据的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对会议语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得会议语音数据的识别结果；将会议语音数据的识别结果录入到关联的会议记录文件中。

根据本申请实施例的第三方面，提供了一种语音交互方法，包括：获取用户输入的语音数据；获取语音数据的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得语音数据的识别结果；根据语音数据的识别结果确定反馈文本，将反馈文本转换成语音进行播放，以响应用户输入。

根据本申请实施例的第四方面，提供了一种法院自助立案实现方法，包括：自助立案一体机设备接收语音输入的立案请求信息；获取接收到的语音数据的声学表示；确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；根据预测结果，从声学表示中提取每个字符语音的向量表示；根据每个字符语音的向量表示，获得语音数据的识别结果；将语音数据的识别结果录入到关联的立案信息数据库中。

根据本申请实施例的第五方面，提供了一种语音识别模型，包括：编码器，用于获取待识别语音的声学表示；预测器，用于确定声学表示中每个帧向量对应的字符概率，根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果，并根据预测结果，从声学表示中提取每个字符语音的向量表示，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；解码器，用于根据每个字符语音的向量表示，获得待识别语音的识别结果。

根据本申请实施例的第六方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行如第一方面所述的语音识别方法对应的操作。

根据本申请实施例的第七方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的语音识别方法。

由上述技术方案，获取到待识别语音的声学表示后，确定声学表示中每个帧向量的字符概率，进而可以根据字符概率预测待识别语音包含的字符数量和每个字符的帧边界，基于字符数量和帧边界可以从声学表示中提取每个字符语音的向量表示，然后基于各字符语音的向量表示，获得待识别语音的识别结果。在获得每个字符语音的向量表示后，可以将各字符语音的向量表示输入非自回归解码器，通过非自回归解码器同时对各字符语音的向量表示进行解码，从而获得每个字符语音对应的字符，即获得待识别语音的识别结果，由于不需要对待识别语音中的各字符语音进行依次识别，因此仅需要调用一次语音识别模型，减少了对语音识别模型的调用次数，从而能够提高语音识别的速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例所应用示例性系统的示意图；

图2是本申请一个实施例的语音识别方法的流程图；

图3是本申请一个实施例的声学表示的示意图；

图4是本申请一个实施例的语音识别模型的示意图；

图5是本申请另一个实施例的解码器训练方法的流程图；

图6是本申请一个实施例的解码器训练过程的示意图；

图7是本申请一个实施例的提供语音识别服务方法的流程图；

图8是本申请一个实施例的语音交互方法的流程图；

图9是本申请一个实施例的法院自助立案实现方法的流程图；

图10是本申请一个实施例的语音识别装置的示意图；

图11是本申请一个实施例的电子设备的示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

在本申请实施例中，为了提高语音识别的速度，通过编码器获取待识别语音的声学表示后，预测该声学表示中不同帧向量对应的字符语音，进而根据预测结果确定出待识别语音中每个字符语音的向量表示，然后将每个字符语音的向量表示和待识别语音的声学表示输入到解码器中，解码器基于每个字符语音的向量表示和待识别语音的声学表示，同时对待识别语音中的各字符语音进行识别，获得待识别语音的识别结果。端到端语音识别模型的解码器通过非自回归解码器（Non-Auto-regressive Decoder）实现，将待识别语音中每个字符语音的向量表示和待识别语音的声学表示输入解码器后，解码器同时对待识别语音中的各字符语音进行识别，语音识别过程仅需调用一次语音识别模型，从而可以提高语音识别的速度，能够更好地适用于对语音识别实时性要求较高的应用场景。

具体实现时，本申请实施例提供的语音识别方法可以在多种应用功能场景中使用。例如，某云服务系统中可能会提供云语音识别服务，如果该服务需要实现端到端语音识别，则可以通过本申请实施例提供的方案实现。具体地，上述云服务系统提供语音识别模型，并未用户提供云语音识别接口，多个用户可以在各自的应用系统中调用该接口，云服务系统在接收到的调用后，运行相关处理程序，通过语音识别模型实现语音识别，并返回语音识别的结果。另外，还可以在本地化的设备中使用本申请实施例提供的语音识别方法，例如，会议记录生成系统、商场的导航机器人、法院的自助立案一体机等。

图1示出了一种适用于本申请实施例的语音识别方法的示例性系统。如图1所示，该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，服务器102可以执行任何适当的功能。例如，在一些实施例中，服务器102可以用于语音识别。作为可选的示例，在一些实施例中，服务器102可以被用于通过非自回归语音识别模型进行语音识别。作为另一示例，在一些实施例中，服务器102可以被用于将语音识别结果发送到用户设备。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于接收语音数据、采集语音数据的任何一个或多个用户设备。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

尽管将服务器102图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器102执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器102执行的功能。或者，可使用云服务实现服务器102的功能。

基于上述系统，本申请实施例提供了一种语音识别方法，以下通过多个实施例进行说明。

图2是本申请实施例提供的一种语音识别方法的流程示意图。如图2所示，该方法包括如下步骤：

步骤201、获取待识别语音的声学表示。

声学表示用于通过向量表征待识别语音的音频特征，不同的语音数据对应不同的声学表示。声学表示可以通过编码器获取，具体地，首先从待识别语音中提取声学特征，比如提取待识别语音的Fbank特征或MFCC特征，然后将提取到的声学特征输入预先训练的编码器，通过编码器对声学特征进行编码，获得待识别语音的声学表示。

步骤202、确定声学表示中每个帧向量对应的字符概率。

声学表示包括多个帧向量，根据编码器生成声学表示的具体方式不同，声学表示中的每个帧向量对应于待识别语音中不同时长的音频数据，声学表示中各帧向量对应的音频数据构成完整的待识别语音。待识别语音包括一个或多个字符语音，声学表示中一个帧向量对应的音频数据可以是一个字符语音的部分/全部，或者，一个帧向量对应的音频数据是一个字符语音的部分/全部和另一个字符语音的部分/全部。

在获取到待识别语音的声学表示后，可以分别确定声学表示中每个帧向量对应的字符概率。一个帧向量对应的字符概率，用于指示基于该帧向量识别出对应的字符语音的概率。帧向量对应的字符概率可以通过预先训练的预测器进行确定。帧向量对应的字符概率越大，基于该帧向量识别出对应的字符语音的概率越大。

图3是本申请实施例提供一种声学表示的示意图。如图3所示，待识别语音的声学表示包括H1~H8共计8个帧向量，将该声学表示输入预先训练的预测器后，预测器确定8个帧向量对应的字符概率依次为0.3、0.5、0.3、0.6、0.4、0.9、0.2和0.6。以帧向量H2为例，基于帧向量H2识别出相对应字符语音的概率为0.5。

步骤203、根据每个帧向量对应的字符概率，对待识别语音包括的字符数量及每个字符的帧边界进行预测，获得预测结果。

针对待识别语音中的一个帧向量，如果该帧向量对应的音频数据与字符语音的距离较小，则基于该帧向量识别出字符语音的概率较大，及该帧向量对应的字符概率较大，而如果该帧向量对应的音频数据与字符语音的距离较大，则基于该帧向量识别出字符语音的概率较小，即该帧向量对应的字符概率较小。由于字符语音在待识别语音中依次分布，因此根据各帧向量对应的字符概率，可以预测待识别语音包括的字符数量，以及每个字符的帧边界。通过帧边界可以确定哪些帧向量对应同一个字符语音，进而可以根据对应同一字符语音的帧向量，来对该字符语音进行识别。

步骤204、根据预测结果，从声学表示中提取每个字符语音的向量表示。

由于预测结果包括待识别语音包含的字符数量以及每个字符的帧边界，根据字符数量和帧边界可以确定出声学表示中对应同一个字符语音的帧向量，进而根据对应同一个字符语音的帧向量可以分别获得每个字符语音的向量表示，即针对每个字符语音，基于与该字符语音相对应的各帧向量，确定该字符语音对应的向量表示。一个字符语音的向量表示，表征了该字符语音的音频特征，进而根据基于该字符语音的向量表示，来识别该字符语音对应的字符。

步骤205、根据每个字符语音的向量表示，获得待识别语音的识别结果。

待识别语音是由一个或多个字符语音构成的，在获取到每个字符语音对应的向量表示后，由于通过字符语音的向量表示可以识别各个字符语音对应的字符，从而根据每个字符语音的向量表示，可以获得待识别语音的识别结果。

应理解，在获得每个字符语音的向量表示后，可以将各字符语音的向量表述输入到预先训练的非自回归解码器中，通过非自回归解码器对各字符语音的向量表示进行解码，获得待识别语音的识别结果。

在本申请实施例中，获取到待识别语音的声学表示后，确定声学表示中每个帧向量的字符概率，进而可以根据字符概率预测待识别语音包含的字符数量和每个字符的帧边界，基于字符数量和帧边界可以从声学表示中提取每个字符语音的向量表示，然后基于各字符语音的向量表示，获得待识别语音的识别结果。在获得每个字符语音的向量表示后，可以将各字符语音的向量表示输入非自回归解码器，通过非自回归解码器同时对各字符语音的向量表示进行解码，从而获得每个字符语音对应的字符，即获得待识别语音的识别结果，由于不需要对待识别语音中的各字符语音进行依次识别，因此仅需要调用一次语音识别模型，减少了对语音识别模型的调用次数，从而能够提高语音识别的速度。

另外，通过确定声学表示模型中每个帧向量对应的字符概率，可以根据帧向量对应的字符概率预测待识别语音包含的字符数量及每个字符的帧边界，相对于通过待识别语音的时长预测字符数量，能够更加准确地预测待识别语音包含的字符数量以及每个字符的帧边界，进而根据字符数量和帧边界所获取的字符语音的向量表示，能够更加准确地反映字符语音的音频特征，从而提高根据字符语音的向量表示进行语音识别的准确性。

在一种可能的实现方式中，步骤203根据字符概率预测字符数量及帧边界时，根据每个帧向量对应的字符概率，将声学表示中的帧向量划分为至少一个帧向量组，使得待识别语音中的每个字符语音对应一个帧向量组，每个字符对应的帧边界为其所对应帧向量组中位于首部和尾部的帧向量。

在将帧向量划分为一个或多个帧向量组时，按照帧向量在声学表示中的顺序进行依次划分，即将声学表示中相邻的多个帧向量划分到一个帧向量组中。具体地，预先设定概率阈值，在划分帧向量组时，除最后一个帧向量组外，其他帧向量组中各帧向量对应的权重系数之和等于该概率阈值。如果一个帧向量仅位于一个帧向量组中，则该帧向量对应的权重系数等于该帧向量对应的字符概率。如果一个帧向量位于两个帧向量组中，则该帧向量在两个帧向量组中对应的权重系数之和，等于该帧向量对应的字符概率。

在划分帧向量组的过程中，如果剩余帧向量对应的权重系数之和小于概率阈值，则可以根据预先设定的末位处理规则，将剩余帧向量作为最后一个帧向量组，或者将剩余帧向量舍弃。比如，预先设定的末位处理规则为权重系数之和大于0.4，则将剩余帧向量作为最后一个帧向量组，如果剩余帧向量对应的权重系数之和小于0.4，则剩余帧向量舍弃，此时每个帧向量组中各帧向量对应的权重系数之和都等于概率阈值，如果剩余帧向量对应的权重系数之和大于0.4，则将剩余的帧向量划分为最后一个帧向量组，此时最后一个帧向量组中各帧向量对应的权重系数之和小于概率阈值。

如图3所示，根据8个帧向量对应的字符概率，将帧向量H1~H3划分为第一个帧向量，将帧向量H3~H5划分为第二个帧向量组，将帧向量H5~H6划分为第三个帧向量组，将帧向量H7~H8划分为第四个帧向量组。帧向量H3同时属于第一个帧向量组和第二个帧向量组，帧向量H5同时属于第二个帧向量组和第三个帧向量组，帧向量H3在第一个帧向量组中对应的权重系数为0.2，帧向量H3在第二个帧向量组中对应的权重系数为0.1，帧向量H5在第二个帧向量组中对应的权重系数为0.3，帧向量H5在第三个帧向量组中对应的权重系数为0.1。第一个帧向量组、第二帧向量组和第三个帧向量组中个帧向量对应的权重系数之和均等于1（预设的概率阈值等于1），第四个帧向量组中各帧向量对应的权重系数之和等于0.8。帧向量H3为第一个帧向量组所对应字符与第二个帧向量组所对应字符的帧边界，帧向量H5为第二个帧向量组所对应字符与第三个帧向量组所对应字符的帧边界，帧向量H6和帧向量H7同为第三个帧向量组所对应字符与第四个帧向量组所对应字符的帧边界。

在本申请实施例中，由于帧向量对应的字符概率指示基于帧向量识别出对应字符语音的概率，而对应同一个字符语音的多个帧向量在声学表示中相邻，因此相邻的多个帧向量的字符概率为基于相应帧向量识别出同一字符语音的概率，从而可以根据概率阈值和每个帧向量对应的字符概率，将各帧向量划分为多个帧向量组，使得每个帧向量组中对应一个字符语音，进而同一个帧向量组中各帧向量对应的字符概率为识别出该帧向量组所对应字符语音的概率。根据各帧向量对应的字符概率，将声学表示包括的各帧向量划分为多个帧向量组，帧向量组的个数即为待识别语音中字符的数量，同时每个帧向量组对应待识别语音中的一个字符，保证能够而更加准确的确定待识别语音中字符的数量，并能够准确的确定声学表示中不同帧向量所对应的字符，从而能够保证基于预测结果进行语音识别的准确性。

在一种可能的实现方式中，步骤204根据预测结果从声学表示中提取每个字符语音的向量表示时，针对每个帧向量组，对该帧向量组中每个帧向量与相对应权重系数的乘积进行求和，获得该帧向量组对应的字符语音的向量表示。

如图3所示，第一个帧向量组对应的字符语音的向量表示E1=H1×0.3+ H2×0.5+H3×0.2，第二个帧向量组对应的字符语音的向量表示E2= H3×0.1+ H4×0.6+ H5×0.3，第三个帧向量对应的字符语音的向量表示E3= H5×0.1+ H6×0.9，第四个帧向量对应的字符语音的向量表示E4= H7×0.2+ H8×0.6。

应理解，每个帧向量组中的帧向量均是向量，因此帧向量与权重系数的乘积仍为向量，所以同一帧向量组中各帧向量与对应权重系数的乘积之和仍为向量，所以字符语音的向量表示也是向量。比如，帧向量为256维的向量，则字符语音的向量表示也是256维的向量。

在本申请实施例中，由于同一帧向量组中的帧向量对一个同一个字符语音，每个帧向量具有相对应的字符概率，综合各帧向量来计算帧向量组所对应字符语音的向量表示，保证所获得的字符语音的向量表示，能够更加准确反映相应字符语音的音频特征，进而基于字符语音的向量表示可以根据准确的识别字符语音，从而保证语音识别的准确性。

图4是本申请实施例提供的一种语音识别模型的示意图。如图4所示，语音识别模型包括编码器401、预测器402和解码器403。编码器401用于获取待识别语音的声学表示，并将获取到的声学表示发送给预测器402。预测器402用于确定所接收到的声学表示中每个帧向量对应的字符概率，根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果，并根据预测结果从声学表示中提取每个字符语音的向量表示，其中字符概率用于指示基于当前帧向量识别出对应字符语音的概率。解码器403用于根据预测器402确定出的每个字符语音的向量表示，获得待识别语音的识别结果。

在本申请实施例中，编码器401获取到待识别语音的声学表示后，预测器402确定声学表示中每个帧向量的字符概率，进而可以根据字符概率预测待识别语音包含的字符数量和每个字符的帧边界，基于字符数量和帧边界可以从声学表示中提取每个字符语音的向量表示，解码器403基于各字符语音的向量表示，获得待识别语音的识别结果。解码器403可以是非自回归解码器，通过非自回归解码器同时对各字符语音的向量表示进行解码，获得每个字符语音对应的字符，即待识别语音的识别结果，由于不需要对待识别语音中的各字符语音进行依次识别，因此仅需调用一次语音识别模型即可完成语音识别处理，由于减少对语音识别模型的调用次数，从而可以提高语音识别的速度。

在一种可能的实现方式中，上述实施例中的语音识别方法可以通过上述实施例中的语音识别模型执行，编码器401用于执行上述实施例中的步骤201，预测器402用于执行上述实施例中的步骤202~步骤204，解码器403用于执行上述实施例中的步骤205。具体地，将待识别语音的声学特征输入编码器401后，编码器401对声学特征进行编码获得声学表示，编码器401将获取到的声学表示发送给预测器402，同时编码器401还将声学表示发送给解码器403，预测器402根据接收到的声学表示，向解码器403发送待识别语音中每个字符语音的向量表示，解码器403根据接收到的声学表示和每个字符语音的向量表示，输出待识别语音的识别结果。

语音识别模型中的解码器403通过训练，获得基于待识别语音的声学表示和每个字符语音的向量表示对待识别语音进行识别的能力。图5是本申请实施例提供的一种解码器训练方法的流程图，用于对上述实施例中的解码器403进行训练，如图5所示，该解码器训练方法包括如下步骤：

步骤501、获取样本语音的样本声学表示。

样本语音是为了训练语音识别模型而获取的语音数据。为了能够通过样本语音对语音识别模型进行训练，需要对样本语音进行标注，获得样本语音对应的文本。

步骤502、确定样本声学表示中每个样本帧向量对应的字符概率，其中，样本字符概率用于指示基于当前样本帧量识别出对应的字符语音的概率。

步骤503、根据每个样本帧向量对应的字符概率，对样本语音包含的样本字符数量及每个样本字符的帧边界进行预测，获得样本预测结果；

步骤504、根据样本预测结果，从样本声学表示中提取每个样本字符语音的向量表示。

需要说明的是，上述步骤501至步骤504对样本语音进行的处理，与前述实施例中步骤201至步骤204对待识别语音进行的处理一致，具体可参见前述实施例中步骤201至步骤204的描述，在此不再进行赘述。

步骤505、根据每个样本字符语音的向量表示和样本语音的文本表示，生成样本语音的语义表示。

由于每个样本字符语音的向量表示是分别从样本语音的声学表示中提取到的，因此各样本字符语音的向量表示无法体现样本语音中各样本字符的上下文关系，但是样本语音的文本表示是基于样本语音对应的文本生成的，所以样本语音的文本表示能够体现样本语音中各样本字符的上下文关系。因此，可以根据样本字符语音的向量表示和样本语音的文本表示，生成样本语音的语义表示，通过该语音表示指示样本语音中样本字符语音的上下文关系。

步骤506、通过编码器对每个样本字符语音的向量表示、样本声学表示和语义表示进行解码，获得样本语音的识别结果。

在获得语义表示之后，将每个样本字符语音的向量表示、样本声学表示和语义表示输入解码器，由解码器对每个样本字符语音的向量表示、样本声学表示和语义表示进行解码，获得样本语音的识别结果。

步骤507、根据样本语音的识别结果和样本语音对应的文本，对解码器进行训练。

获得解码器输出的样本语音的识别结果后，根据样本语音的识别结果与样本语音对应的文本之间的差异，对解码器的模型参数进行调整，通过多个样本语音对解码器执行上述方法，直至样本语音的识别结果与样本语音对应的文本之间的差异满足要求，完成解码器的训练。

应理解，在语音识别模型为端到端语音识别模型时，在对解码器进行训练的同时，也会对编码器及预测器进行训练，训练结束后使得语音识别模型能够较为准确地进行语音识别。

在本申请实施例中，由于编码器输出的声学表示和预测器输出的字符语音的向量表示，均不能反映字符语音之间的上下文关系，如果仅基于编码器输出的声学表示和预测器输出的字符语音的向量表示训练解码器，解码器在同音字识别时会出现较大误差，为此，根据样本字符语音的向量表示和样本语音的文本表示，生成能够指示字符语音的上下文关系的语义表示，将语义表示作为解码器训练过程的其中一个输入，使得训练出的解码器可以基于字符语音的上下文关系进行语音识别，提高同音字进行识别的准确性，从而提高可以语音识别模型整体的识别准确性。

在一种可能的实现方式中，步骤505生成语义表示时，可以通过解码器对样本声学表示和每个样本字符语音的向量表示进行解码，获得样本语音的参考识别结果，根据参考识别结果与样本语音对应的文本，从每个样本字符语音的向量表示和样本语音的文本表示中采样，根据采样结果获得语义表示。

在本申请实施例中，解码器根据样本声学表示和样本字符语音的向量表示输出的参考识别结果，是未考虑样本字符语音之间上下文关系的情况下输出的，因此参考识别结果在多音字识别上可能存在较大误差，从每个样本字符语音的向量表示和样本语音的文本表示中采样，根据采样结果生成语义表示，然后将语义表示作为解码器的一个输入对解码器进行训练，可以使解码器在进行解码时，能够兼顾字符语音的向量表示和字符语音的上下文关系，保证所训练处的解码器能够更加准确地识别语音。

在一种可能的实现方式中，在通过采样生成语义表示时，可以计算参考识别结果与样本语音对应的文本之间的汉明距离，根据计算出的汉明距离，从每个样本字符语音的向量表示和样本语音的文本表示中采样，根据采样结果获得语义表示。其中，从样本语音的文本表示中采样的数量与汉明距离呈正相关。

在本申请实施例中，参考识别结果与样本语音对应的文本之间的汉明距离越大，说明解码器基于样本字符语音的向量表示和样本语音的声学表示进行语音识别的误差越大，此时在生成语义表示时，应更多的从样本语音对应的文本表示中采样，以生成能够更加准确指示样本字符语音之间上下文关系的语义表示，使解码器学习基于字符语音之间上下文关系进行语音识别的能力。

需要说明的是，在从每个样本字符语音的向量表示和样本语音的文本表示中采样时，可以采用随机采样的方式，分别从每个样本字符语音的向量表示和样本语音的文本表示中进行采样，还可以根据参考识别结果中识别错误的字符语音，从样本语音的文本表示中采样识别错误的样本字符语音对应的文本表示，对于采样的具体方式，本申请实施例不作限定。

在一种可能的实现方式中，步骤507对解码器进行训练时，可以计算样本语音的识别结果与样本语音对应的文本的第一差异，并随机对识别结果中的至少一个字符进行替换，生成负样本，通过预先设置的MWER（Minimum Word Error Rate，最小词错误率）损失函数，计算样本语音的识别结果和负样本与样本语音对应的文本的第二差异，根据第一差异和第二差异，对解码器进行训练。

第一异常可以通过交叉熵损失函数、均方差损失函数等进行计算，对此本申请实施例不进行限定。

通过随机对识别结果中的至少一个字符进行替换，以生成一个或多个负样本，比如生成五个负样本，然后通过MWER损失函数计算样本语音的识别结果和负样本与样本语音对应的文本的第二差异，然后根据第一差异和第二差异对解码器进行训练。通过随机生成负样本，由于负样本与样本语音的识别结果存在较差差异，通过MWER损失函数计算第二差异，并通过第一差异和第二差异对解码器进行训练，可以使解码器更快地收敛，缩短解码器训练的时间，从而可以提高语音识别模型训练的效率。

在一种可能的实现方式中，解码器为双向解码器（Bi-decoder）。通过双向解码器对待识别语音的声学表示和每个字符语音的向量表示进行解码，解码过程可以更好的利用字符语音的上下文关系，提高对待识别语音中多音字的识别准确性。

图6是本申请实施例提供的一种解码器训练过程的示意图。如图6所示，样本语音的样本声学特征（比如Fbank特征）输入编码器401后，编码器401对样本声学特征进行编码获得样本声学表示，编码器401将样本声学表示分别发送给预测器402和解码器403。预测器402根据接收到的样本声学表示，预测样本语音包含的样本字符数量及每个样本字符的帧边界，根据预测结果获得每个样本字符语音的向量表示，并将每个样本字符语音的向量表示分别发送给解码器403和采样器404。解码器403对接收到的样本声学表示和每个样本字符语音的向量表示进行解码，获得样本语音的参考识别结果，然后将参考识别结果发送给采样器404。采样器404计算参考识别结果与样本语音对应的文本之间的汉明距离，根据韩明距离从每个样本字符语音的向量表示和样本语音的文本表示中采样，获得样本语音的语义表示，并将样本语音的语义表示发送给解码器403。解码器403对接收到的样本声学表示、语义表示和每个样本字符语音的向量表示进行解码，获得样本语音的识别结果，并计算样本语音的识别结果与样本语音对应的文本之间的交叉熵损失（CE）和最小词错误率损失（MWER），进而根据交叉熵损失（CE）和最小词错误率损失（MWER）对解码器403的模型参数进行优化，实现解码器403的训练。

针对本申请实施例提供的方案在会议记录系统中的应用场景，本申请实施例提供了一种提供语音识别服务的方法，如图7所示，该提供语音识别服务的方法包括如下步骤：

步骤701、获取实时采集的会议语音数据；

步骤702、获取会议语音数据的声学表示；

步骤703、确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；

步骤704、根据每个帧向量对应的字符概率，对会议语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；

步骤705、根据预测结果，从声学表示中提取每个字符语音的向量表示；

步骤706、根据每个字符语音的向量表示，获得会议语音数据的识别结果；

步骤707、将会议语音数据的识别结果录入到关联的会议记录文件中。

针对本申请实施例提供的方案在人机语音交互中的应用场景，本申请实施例提供了一种语音交互方法，如图8所示，该语音交互方法包括如下步骤：

步骤801、获取用户输入的语音数据；

步骤802、获取语音数据的声学表示；

步骤803、确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；

步骤804、根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；

步骤805、根据预测结果，从声学表示中提取每个字符语音的向量表示；

步骤806、根据每个字符语音的向量表示，获得语音数据的识别结果；

步骤807、根据语音数据的识别结果确定反馈文本，将反馈文本转换成语音进行播放，以响应用户输入。

针对本申请实施例提供的方案在法院的自助立案一体机中的应用场景，本申请实施例提供了一种法院自助立案实现方法，如图9所示，该法院自助立案实现方法包括如下步骤：

步骤901、自助立案一体机设备接收语音输入的立案请求信息；

步骤902、获取接收到的语音数据的声学表示；

步骤903、确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；

步骤904、根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；

步骤905、根据预测结果，从声学表示中提取每个字符语音的向量表示；

步骤906、根据每个字符语音的向量表示，获得语音数据的识别结果；

步骤907、将语音数据的识别结果录入到关联的立案信息数据库中。

需要说明的是，图7-9所示的实施例，为本申请实施例中语音识别方案的具体应用，具体的语音识别过程可参见前述实施例中的描述，在此不再进行赘述。

对应于上述方法实施例，图10示出了一种语音识别装置的示意图，如图10所示，该语音识别装置包括：

编码单元1001，用于获取待识别语音的声学表示；

预测单元1002，用于确定声学表示中每个帧向量对应的字符概率，根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；

提取单元1003，用于根据预测结果，从声学表示中提取每个字符语音的向量表示；

解码单元1004，用于根据每个字符语音的向量表示，获得待识别语音的识别结果。

需要说明的是，本实施例的语音识别装置用于实现前述方法实施例中相应的语音识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。

图11是本申请实施例提供的一种电子设备的示意性框图，本申请具体实施例并不对电子设备的具体实现做限定。如图11所示，该电子设备可以包括：处理器(processor)1102、通信接口(Communications Interface)1104、存储器(memory)1106、以及通信总线1108。其中：

处理器1102、通信接口1104、以及存储器1106通过通信总线1108完成相互间的通信。

通信接口1104，用于与其它电子设备或服务器进行通信。

处理器1102，用于执行程序1110，具体可以执行前述任一语音识别方法实施例中的相关步骤。

具体地，程序1110可以包括程序代码，该程序代码包括计算机操作指令。

处理器1102可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1106，用于存放程序1110。存储器1106可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序1110具体可以用于使得处理器1102执行前述任一实施例中的人像检测方法。

程序1110中各步骤的具体实现可以参见前述任一语音识别方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本申请实施例的电子设备，获取到待识别语音的声学表示后，确定声学表示中每个帧向量的字符概率，进而可以根据字符概率预测待识别语音包含的字符数量和每个字符的帧边界，基于字符数量和帧边界可以从声学表示中提取每个字符语音的向量表示，然后基于各字符语音的向量表示，获得待识别语音的识别结果。在获得每个字符语音的向量表示后，可以将各字符语音的向量表示输入非自回归解码器，通过非自回归解码器同时对各字符语音的向量表示进行解码，从而获得每个字符语音对应的字符，即获得待识别语音的识别结果，由于不需要对待识别语音中的各字符语音进行依次识别，因此仅需要调用一次语音识别模型，减少了对语音识别模型的调用次数，从而能够提高语音识别的速度。

本申请还提供了一种计算机可读存储介质，存储用于使一机器执行如本文所述的语音识别方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本申请的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音识别方法，包括：

获取待识别语音的声学表示；

确定声学表示中每个帧向量对应的字符概率，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；

根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果；

根据预测结果，从声学表示中提取每个字符语音的向量表示；

根据每个字符语音的向量表示，获得待识别语音的识别结果。

2.根据权利要求1所述的语音识别方法，其中，根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果，包括：

根据每个帧向量对应的字符概率，将声学表示中的帧向量划分为至少一个帧向量组，其中，同一帧向量组中各帧向量对应的权重系数之和等于预设的概率阈值，一个帧向量在所属的两个帧向量组中对应的权重系数之和，等于该帧向量对应的字符概率；

待识别语音包含的字符数量等于帧向量组的数量，待识别语音中每个字符的帧边界为对应帧向量组中位于首部和尾部的帧向量。

3.根据权利要求2所述的语音识别方法，其中，根据预测结果，从声学表示中提取每个字符语音的向量表示，包括：

针对每个帧向量组，对该帧向量组中每个帧向量与相对应权重系数的乘积进行求和，获得该帧向量组对应的字符语音的向量表示。

4.根据权利要求1所述的语音识别方法，其中，语音识别方法通过语音识别模型执行，语音识别模型包括编码器、预测器和解码器，编码器用于获取待识别语音的声学表示，预测器用于确定声学表示中每个帧向量对应的字符概率，根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果，及根据预测结果，获取声学表示中每个字符语音的向量表示，解码器用于根据每个字符语音的向量表示，获得待识别语音的识别结果；

解码器通过如下方式训练获得：

获取样本语音的样本声学表示；

确定样本声学表示中每个样本帧向量对应的字符概率，其中，样本字符概率用于指示基于当前样本帧量识别出对应的字符语音的概率；

根据每个样本帧向量对应的字符概率，对样本语音包含的样本字符数量及每个样本字符的帧边界进行预测，获得样本预测结果；

根据样本预测结果，从样本声学表示中提取每个样本字符语音的向量表示；

根据每个样本字符语音的向量表示和样本语音的文本表示，生成样本语音的语义表示，其中，语义表示用于指示样本语音中样本字符语音的上下文关系；

通过编码器对每个样本字符语音的向量表示、样本声学表示和语义表示进行解码，获得样本语音的识别结果；

根据样本语音的识别结果和样本语音对应的文本，对解码器进行训练。

5.根据权利要求4所述的语音识别方法，其中，根据每个样本字符语音的向量表示和样本语音的文本表示，生成样本语音的语义表示，包括：

通过解码器对样本声学表示和每个样本字符语音的向量表示进行解码，获得样本语音的参考识别结果；

根据参考识别结果和样本语音对应的文本，从每个样本字符语音的向量表示和样本语音的文本表示中采样，根据采样结果获得语义表示。

6.根据权利要求5所述的语音识别方法，其中，根据参考识别结果和样本语音的文本表示，从每个样本字符语音的向量表示和样本语音的文本表示中采样，根据采样结果获得语义表示，包括：

计算参考识别结果与样本语音对应的文本之间的汉明距离；

根据汉明距离，从每个样本字符语音的向量表示和样本语音的文本表示中采样，根据采样结果获得语义表示，其中，从样本语音的文本表示中采样的数量与汉明距离呈正相关。

7.根据权利要求4所述的语音识别方法，其中，根据样本语音的识别结果和样本语音对应的文本，对解码器进行训练，包括：

计算样本语音的识别结果与样本语音对应的文本的第一差异；

随机对识别结果中的至少一个字符进行替换，生成负样本；

通过预先设置的MWER损失函数，计算样本语音的识别结果和负样本与样本语音对应的文本的第二差异；

根据第一差异和第二差异，对解码器进行训练。

8.根据权利要求4-7中任一所述的语音识别方法，其中，解码器为双向解码器。

9.一种提供语音识别服务的方法，包括：

获取实时采集的会议语音数据；

获取会议语音数据的声学表示；

根据每个帧向量对应的字符概率，对会议语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；

根据每个字符语音的向量表示，获得会议语音数据的识别结果；

将会议语音数据的识别结果录入到关联的会议记录文件中。

10.一种语音交互方法，包括：

获取用户输入的语音数据；

获取语音数据的声学表示；

根据每个帧向量对应的字符概率，对语音数据包含的字符数量及每个字符的帧边界进行预测，获得预测结果；

根据每个字符语音的向量表示，获得语音数据的识别结果；

根据语音数据的识别结果确定反馈文本，将反馈文本转换成语音进行播放，以响应用户输入。

11.一种法院自助立案实现方法，包括：

自助立案一体机设备接收语音输入的立案请求信息；

获取接收到的语音数据的声学表示；

根据每个字符语音的向量表示，获得语音数据的识别结果；

将语音数据的识别结果录入到关联的立案信息数据库中。

12.一种语音识别模型，包括：

编码器，用于获取待识别语音的声学表示；

预测器，用于确定声学表示中每个帧向量对应的字符概率，根据每个帧向量对应的字符概率，对待识别语音包含的字符数量及每个字符的帧边界进行预测，获得预测结果，并根据预测结果，从声学表示中提取每个字符语音的向量表示，其中，字符概率用于指示基于当前帧向量识别出对应的字符语音的概率；

解码器，用于根据每个字符语音的向量表示，获得待识别语音的识别结果。

13.一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如权利要求1-8中任一项所述的语音识别方法对应的操作。

14.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8中任一所述的语音识别方法。