CN114400006A

CN114400006A - 语音识别方法和装置

Info

Publication number: CN114400006A
Application number: CN202210080184.1A
Authority: CN
Inventors: 马东鹏; 苏丹; 唐立亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-26
Anticipated expiration: 2042-01-24
Also published as: CN114400006B

Abstract

本申请公开了一种语音识别方法和装置，属于计算机技术领域。该方法包括：对目标音频数据中的每个音频帧进行特征提取，得到每个音频帧对应的特征信息；基于每个音频帧对应的特征信息和语音识别模型，确定目标音频数据对应的文本和文本中的每个文字对应的第一时间信息；基于每个音频帧对应的特征信息和主人声识别模型，确定每个音频帧对应的声音类型；基于目标音频数据对应的文本、每个文字对应的第一时间信息和每个音频帧对应的声音类型，确定目标音频数据对应的主人声文本。采用本申请，可以对目标音频数据(如音乐、视频或语音等所涉及的音频数据)中的主人声和背景人声进行区分，从而得到目标音频数据的主人声文本，提高了语音识别的准确性。

Description

语音识别方法和装置

技术领域

本申请涉及计算机技术领域，特别涉及一种语音识别方法和装置。

背景技术

随着网络技术的发展，移动终端等设备的输入方式除了手写输入和键盘输入以外，还可以通过语音输入来实现。设备在获取到用户的音频数据后，对该音频数据进行语音识别，从而将音频数据转化为对应的文字信息。

当前的语音识别方法通常是：先对音频数据中的每个音频帧进行特征提取，得到每个音频帧对应的特征信息，然后基于每个音频帧对应的特征信息和语音识别模型，得到每个音频帧对应的文本，从而得到该音频数据对应的文本。

但随着语音识别技术的应用越来越广泛，其应用场景也越来越复杂，而对于既包括主人声、又包括背景人声的音频数据来说，使用上述方式，会导致识别出的文本中既掺杂了主人声的文本，又掺杂了背景人声的文本，从而导致了最终预测出的文本不准确。

发明内容

本申请实施例提供了一种语音识别方法，能够解决现有技术中预测的文本不准确的问题。

第一方面，提供了一种语音识别方法，所述方法包括：

对目标音频数据中的每个音频帧进行特征提取，得到所述每个音频帧对应的特征信息；

基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，其中，所述文字对应的第一时间信息用于指示所述文字对应的音频帧在所述目标音频数据中的时间位置；

基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，其中，所述声音类型包括主人声类型和非主人声类型；

基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本。

在一种可能的实现方式中，所述主人声识别模型包括第一CONV(convolution，卷积)模块、至少一个第一Pyramid Pooling(金字塔池化)模块、至少一个第一BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆网络)模块和第一Linear(线性变换)模块；

所述基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，包括：

基于所述每个音频帧对应的特征信息和所述第一CONV模块，确定所述每个音频帧对应的第一中间特征信息；

基于所述每个音频帧对应的第一中间特征信息、所述至少一个第一PyramidPooling模块和所述至少一个第一BLSTM模块，确定M个第一音频帧组分别对应的第二中间特征信息，其中，每个第一音频帧组由第一预设数目个相邻的音频帧组成；

基于所述M个第一音频帧组分别对应的第二中间特征信息和所述第一Linear模块，确定所述M个第一音频帧组分别对应的主人声类型的概率值或所述M个第一音频帧组分别对应的非主人声类型的概率值；

基于所述M个第一音频帧组分别对应的主人声类型的概率值或所述M个第一音频帧组分别对应的非主人声类型的概率值，确定所述每个音频帧对应的声音类型。

在一种可能的实现方式中，所述语音识别模型包括声学模型、语言模型、词典和解码器；

所述基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，包括：

基于所述每个音频帧对应的特征信息和所述声学模型，确定N个第二音频帧组分别对应的声学模型得分，其中，每个第二音频帧组由第二预设数目个相邻的音频帧组成，所述第二音频帧组对应的声学模型得分用于指示所述第二音频帧组分别与多种预设发音音节的匹配概率；

基于所述N个第二音频帧组分别对应的声学模型得分、所述语言模型、所述词典和所述解码器，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息。

在一种可能的实现方式中，所述基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，包括：

基于所述每个音频帧对应的特征信息、所述N个第二音频帧组分别对应的声学模型得分和所述主人声识别模型，确定所述每个音频帧对应的声音类型。

在一种可能的实现方式中，所述主人声识别模型包括第二CONV模块、至少一个第二Pyramid Pooling模块、至少一个反向LSTM(Long Short-Term Memory，长短期记忆网络)模块、组合模块、第二BLSTM模块和第二Linear模块；

所述基于所述每个音频帧对应的特征信息、所述N个第二音频帧组分别对应的声学模型得分和所述主人声识别模型，确定所述每个音频帧对应的声音类型，包括：

基于所述每个音频帧对应的特征信息和所述第二CONV模块，确定所述每个音频帧对应的第三中间特征信息；

基于所述每个音频帧对应的第四中间特征信息、所述至少一个第二PyramidPooling模块和所述至少一个反向LSTM模块，确定N个第二音频帧组分别对应的第四中间特征信息；

基于所述N个第二音频帧组分别对应的声学模型得分、所述N个第二音频帧组分别对应的第四中间特征信息和所述组合模块，确定N个第二音频帧组分别对应的组合特征信息；

基于所述N个第二音频帧组分别对应的组合特征信息和所述第二BLSTM模块，确定所述N个第二音频帧组分别对应的第五中间特征信息；

基于所述N个第二音频帧组分别对应的第五中间特征信息和所述第二Linear模块，确定所述N个第二音频帧组分别对应的主人声类型的概率值或所述N个第二音频帧组分别对应的非主人声类型的概率值；

基于所述N个第二音频帧组分别对应的主人声类型的概率值或所述N个第二音频帧组分别对应的非主人声类型的概率值，确定所述每个音频帧对应的声音类型。

在一种可能的实现方式中，所述基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本，包括：

基于所述每个音频帧对应的声音类型，确定出声音类型是主人声类型的音频帧对应的第二时间信息，其中，所述音频帧对应的第二时间信息用于指示所述音频帧在所述目标音频数据中的时间位置；

在所述文本中，获取所述第二时间信息对应的文字，确定为所述目标音频数据对应的主人声文本。

第二方面，提供一种语音识别装置，所述装置包括：

特征提取模块，用于对目标音频数据中的每个音频帧进行特征提取，得到所述每个音频帧对应的特征信息；

第一确定模块，用于基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，其中，所述文字对应的第一时间信息用于指示所述文字对应的音频帧在所述目标音频数据中的时间位置；

第二确定模块，用于基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，其中，所述声音类型包括主人声类型和非主人声类型；

第三确定模块，用于基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本。

在一种可能的实现方式中，所述主人声识别模型包括第一卷积CONV模块、至少一个第一金字塔池化Pyramid Pooling模块、至少一个第一双向长短期记忆网络BLSTM模块和第一线性变换Linear模块；

所述第二确定模块，用于：

所述第一确定模块，用于：

在一种可能的实现方式中，所述第二确定模块，用于：

在一种可能的实现方式中，所述主人声识别模型包括第二CONV模块、至少一个第二Pyramid Pooling模块、至少一个反向长短期记忆网络LSTM模块、组合模块、第二BLSTM模块和第二Linear模块；

所述第二确定模块，用于：

在一种可能的实现方式中，所述第三确定模块，用于：

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器中存储有至少一条指令，指令由处理器加载并执行以实现语音识别方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现语音识别方法所执行的操作。

第五方面，提供了一种计算机程序产品，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现语音识别方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：本申请实施例中提到的方案，可以基于目标音频数据中每个音频帧对应的特征信息和语音识别模型，确定出目标音频数据对应的文本和该文本中的每个文字对应的第一时间信息，基于每个音频帧对应的特征信息和主人声识别模型，确定出每个音频帧对应的声音类型，然后，基于确定出的目标音频数据对应的文本、文本中每个文字对应的第一时间信息和每个音频帧对应的声音类型，确定出该目标音频数据对应的主人声文本。采用本申请，可以对目标音频数据中的主人声和背景人声进行区分，从而得到目标音频数据的主人声文本，提高了语音识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音识别方法流程图；

图2是本申请实施例提供的一种语音识别模型的示意图；

图3是本申请实施例提供的一种确定每个音频帧对应的声音类型的方法流程图；

图4是本申请实施例提供的一种确定每个音频帧对应的声音类型的方法流程图；

图5是本申请实施例提供的一种确定第二中间特征信息的方法流程图；

图6是本申请实施例提供的一种对声学模型进行训练的方法流程图；

图7是本申请实施例提供的一种对语言模型进行训练的方法流程图；

图8是本申请实施例提供的一种对主人声识别模型进行训练的方法流程图；

图9是本申请实施例提供的一种确定声学模型得分的方法流程图；

图10是本申请实施例提供的一种确定第七中间特征信息的方法流程图；

图11是本申请实施例提供的一种确定每个音频帧对应的声音类型的方法流程图；

图12是本申请实施例提供的一种确定每个音频帧对应的声音类型的方法流程图；

图13是本申请实施例提供的一种确定第四中间特征信息的方法流程图；

图14是本申请实施例提供的一种对声学模型和主人声识别模型进行训练的方法流程图；

图15是本申请实施例提供的一种语音识别装置的结构示意图；

图16是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种语音识别方法，该方法可以由服务器实现。服务器可以是单个服务器或者也可以是多个服务器组成的服务器集群。

服务器可以是任意具有语音识别功能的应用程序的后台服务器，该应用程序可以设置于用户终端，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。用户终端可以获取用户输入的音频数据，并将该音频数据发送至服务器，服务器对音频数据进行语音识别。

服务器可以包括处理器、存储器、通信部件等，处理器分别与存储器、通信部件连接。

处理器可以是CPU(Central Processing Unit，中央处理器)。处理器可以用于读取指令和对数据进行处理，例如，对目标音频帧中的每个音频帧进行特征提取、确定目标音频帧对应的文本和文本中的每个文字对应的第一时间信息、确定每个音频帧对应的声音类型、确定目标音频数据对应的主人声文本，等等。

存储器可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)、磁盘、光数据存储设备等。存储器可以用于数据存储，例如，对在确定每个音频帧对应的特征信息的过程中的中间数据的数据、对确定出的每个音频帧对应的特征信息的数据的存储、对确定出的目标音频数据对应的文本以及文本中的每个文字对应的第一时间信息的数据的存储、对确定出的每个音频帧对应的声音类型的数据的存储、对确定出的目标音频数据对应的主人声文本的数据的存储，等等。

通信部件可以是有线网络连接器、无线保真模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于接收和发送信号。

图1是本申请实施例提供的一种语音识别方法的流程图。参见图1，该实施例包括：

101、对目标音频数据中的每个音频帧进行特征提取，得到每个音频帧对应的特征信息。

在实施中，在需要对一个初始音频数据进行语音识别时，可以将该初始音频数据先确定为目标音频数据，然后对该目标音频数据中的每个音频帧进行特征提取，从而得到目标音频数据中的每个音频帧对应的特征信息。

可选的，对每个音频帧进行特征提取的方法可以有多种，例如，可以使用特征提取模型分别对每个音频帧进行特征提取，即将每个音频帧分别输入特征提取模型中，从而得到每个音频帧对应的特征信息。当然，也可以使用其他任意合理性的特征提取方法对每个音频帧进行特征提取，本申请实施例对此不作限定。

可选的，由于初始音频数据中可能存在一些静音或者噪音，因此，在获取到初始音频数据后，可以先对初始音频数据进行预处理，去除或者减少初始音频数据中存在的静音或噪音，然后再将预处理后的初始音频数据确定为目标音频数据，可以使得基于该目标音频数据确定出的主人声文本更为准确。

其中，预处理可以包括降噪处理和语音端点检测处理(也可以称为Voice ActiveDetection)中的至少一个。降噪处理可以降低初始音频数据中的噪声。语音端点检测处理可以从含有静音、噪音等的音频数据中找到人声的起点和终点，从而得到含有人声的音频帧组成的音频数据。在本申请实施例中，降噪处理和语音端点检测处理的具体处理方法可以是任意合理性的方法，本申请实施例对此不作限定。

102、基于每个音频帧对应的特征信息和语音识别模型，确定目标音频数据对应的文本和文本中的每个文字对应的第一时间信息。

在实施中，在获取到目标音频数据中的每个音频帧对应的特征信息后，可以将这多个音频帧对应的特征信息输入到训练完成的语音识别模型中，从而得到预测出的该目标音频数据对应的文本和文本中的每个文字对应的第一时间信息。其中，文字对应的第一时间信息用于指示该文字对应的音频帧在目标音频数据中的时间位置。

可选的，文字对应的第一时间信息可以包括该文本对应的音频帧在目标音频数据中的开始时间戳和结束时间戳，开始时间戳即为该文本对应的一个或多个连续的音频帧的第一个音频帧对应的在目标音频数据中的开始时间点，相对的，结束时间戳即为该文本对应的一个或多个连续的音频帧的最后一个音频帧对应的在目标音频数据中的结束时间点。

103、基于每个音频帧对应的特征信息和主人声识别模型，确定每个音频帧对应的声音类型。

在实施中，可以将每个音频帧对应的特征信息输入主人声识别模型中，从而确定出每个音频帧对应的声音类型。其中，声音类型包括主人声类型和非主人声类型。

若一个音频帧的声音类型是主人声类型，则说明该音频帧中包含有主人声的声音。例如，该音频帧中包含主人声和噪音，再例如，该音频帧中包含主人声和背景人声，等等。

若一个音频帧的声音类型是非主人声类型，则说明该音频帧中不包含主人声的声音，例如，该音频帧中不包含任何声音，即为静音，再例如，该音频帧只包含背景人声和噪声，等等。

104、基于目标音频数据对应的文本、文本中的每个文字对应的第一时间信息和每个音频帧对应的声音类型，确定目标音频数据对应的主人声文本。

其中，目标音频数据对应的主人声文本是该目标音频数据中包含的主人声转化为的文本。

可选的，基于上述数据确定目标音频数据对应的主人声文本的方法可以如下：

基于每个音频帧对应的声音类型，确定出声音类型是主人声类型的音频帧对应的第二时间信息，其中，音频帧对应的第二时间信息用于指示该音频帧在目标音频数据中的时间位置。在文本中，获取第二时间信息对应的文字，确定为目标音频数据对应的主人声文本。

在实施中，在确定出每个音频帧对应的声音类型后，可以选取出声音类型是主人声类型的音频帧，并确定出这些音频帧对应的第二时间信息，该第二时间信息是指对应的音频帧在目标音频数据中的时间位置。

然后，根据第二时间信息和语音识别模型输出的文本中每个文字对应的第一时间信息，可以截取出在文本中第二时间信息对应的文字，而这些第二时间信息对应的文字组成的文本，即为目标音频数据对应的主人声文本。

可选的，音频帧对应的第二时间信息可以包括该音频帧在目标音频数据中的开始时间戳和结束时间戳。

下面，分别对语音识别模型和主人声识别模型进行更为详细的介绍：

语音识别模型

在本申请实施例中，语音识别模型可以包括声学模型、语言模型、词典和解码器，参见图2，在确定出目标音频数据中的每个音频帧对应的特征信息后，可以将每个音频帧对应的特征信息，输入声学模型，得到N个第二音频帧组分别对应的声学模型得分，其中，每个第二音频帧组由第二预设数目个相邻的音频帧组成，第二音频帧组对应的声学模型得分用于指示第二音频帧组分别与多种预设发音音节的匹配概率。

可选的，第二预设数目可以是任意合理性的数值，本申请实施例对此不作限定。第二预设数目可以是1，则N为目标音频数据中包含的音频帧的数量。第二预设数目还可以是大于1的数值，例如，第二预设数目可以是2，则每个第二音频帧组包括两个相邻的音频帧。

可以理解的是，每个第二音频帧组之间包含的音频帧均不相同。当目标音频数据中包含的音频帧的数量与N不成整数的比例关系时，可以将最后剩下的数量小于第二预设数目的一个或多个音频帧组成一个第二音频帧组。例如，当第二预设数目为2，目标音频数据中共包含9个音频帧时，将每两个相邻的音频帧组成一个第二音频帧组，得到由前八个音频帧组成的四个第二音频帧组和第9个音频帧组成的第五个第二音频帧组。

声学模型输出的N个声学模型得分，分别用于表征该声学模型得分对应的第二音频帧组与多种预设发音音节的匹配概率。其中，预设发音音节可以是当前的所有可能的汉字读音，每个声学模型得分包含的与每种预设发音音节的匹配概率之和为1。例如，若预设发音音节有1900种，则每个第二音频帧组对应的声学模型得分可以包含1900概率值，每个概率值用于表征对应的第二音频帧组与该概率值对应的预设发音音节之间的匹配概率。

在得到声学模型输出的N个第二音频帧组分别对应的声学模型得分后，可以基于N个第二音频帧组分别对应的声学模型得分、语言模型、词典和解码器，确定目标音频数据对应的文本和文本中的每个文字对应的时间信息。

在实施中，可以N个第二音频帧组分别对应的声学模型得分输入解码器，解码器可以结合声学模型得分、语言模型和词典，输出最后的解码结果，即输出目标音频数据对应的文本和该文本中的每个文字对应的时间信息。

其中，解码器的解码过程可以用如下公式来表示：

其中，p(O)是声学模型的先验概率，p(W)是语言模型，p(O|W)是通过声学模型获取到的声学模型得分，ref_W是求取的字序列(也可以称为目标音频数据对应的文本)。

主人声识别模型

主人声识别模型可以包括第一CONV模块、至少一个第一Pyramid Pooling模块、至少一个第一BLSTM模块和第一Linear模块。参见图3，参见图4，基于上述主人声识别模型的结构设置，确定每个音频帧对应的声音类型的方法可以如下：

301、基于每个音频帧对应的特征信息和第一CONV模块，确定每个音频帧对应的第一中间特征信息。在实施中，可以将每个音频帧对应的特征信息输入第一CONV模块，从而得到输出的每个音频帧对应的第一中间特征信息。

302、基于每个音频帧对应的第一中间特征信息、至少一个第一Pyramid Pooling模块和至少一个第一BLSTM模块，确定M个第一音频帧组分别对应的第二中间特征信息。

其中，每个第一音频帧组由第一预设数目个相邻的音频帧组成。可选的，第一预设数目可以是任意合理性的数值，本申请实施例对此不作限定。第一预设数目可以是1，则M为目标音频数据中包含的音频帧的数量。第一预设数目还可以是大于1的数值，例如，第一预设数目可以是2，则每个第一音频帧组包括两个相邻的音频帧。

可以理解的是，每个第一音频帧组之间包含的音频帧均不相同。当目标音频数据中包含的音频帧的数量与M不成整数的比例关系时，可以将最后剩下的数量小于第一预设数目的一个或多个音频帧组成一个第一音频帧组。例如，当第一预设数目为3，目标音频数据中共包含17个音频帧时，将每三个相邻的音频帧组成一个第一音频帧组，得到由前15个音频帧组成的五个第一音频帧组和第16、17个音频帧组成的第六个第一音频帧组。

在实施中，第一Pyramid Pooling模块可以对输入的每个音频帧的数据或者音频帧组的数据进行了跳帧处理。以对音频帧的数据进行跳帧处理为例进行说明：在将每个音频帧对应的第一中间特征信息输入一个第一Pyramid Pooling模块后，第一PyramidPooling模块可以将每第三预设数目个相邻的音频帧对应的第一中间特征信息进行拼接组合，将每第三预设数目个音频帧对应的第一中间特征信息首尾拼接成为一个特征信息，因此，在将每个音频帧对应的第一中间特征信息输入一个第一Pyramid Pooling模块后，第一Pyramid Pooling模块可以输出m个第三音频帧组分别对应的第一参考特征信息，每个第三音频帧组是由第三预设数目个相邻的音频帧组成的。

然后，可以将这m个第三音频帧组分别对应的第一参考特征信息，输入第一BLSTM模块，第一BLSTM模块可以学习语音中的双向信息，即学习输入至第一BLSTM模块中的m个第三音频帧组分别对应的第一参考特征信息的双向信息，从而识别出目标音频数据中的主人声和非主人声，从而输出m个第三音频帧分别对应的第二参考特征信息。

结合上述第一Pyramid Pooling模块和第一BLSTM模块对输入数据的处理过程，要想实现本申请实施例中的得到M个第一音频帧组分别对应的第二中间特征信息，可以有以下两种实现方式：

第一种，主人声识别模型可以包括一个第一Pyramid Pooling模块和一个第一BLSTM模块。在此情况下，第三预设数目与第一预设数目相等，相对的，M与m相等。即：将每个音频帧对应的第一中间特征信息输入第一Pyramid Pooling模块，可以得到输出M个第一音频帧组(此处第一音频帧组与第三音频帧组相同)分别对应的第一参考特征信息，将和M个第一音频帧组分别对应的第一参考特征信息输入第一BLSTM模块，得到M个第一音频帧组分别对应的第二中间特征信息(此处的第二中间特征信息与第二参考特征信息相同)。

第二种，主人声识别模型可以包括多个第一Pyramid Pooling模块和多个第一BLSTM模块，第一Pyramid Pooling模块与第一BLSTM模块交叉设置，即每个第一PyramidPooling模块后可以接一个第一BLSTM模块。在此情况下，第三预设数目小于第一预设数目，M小于m。

参见图5，以主人声识别模型中包括两个第一Pyramid Pooling模块和两个第一BLSTM模块为例进行说明，即：将每个音频帧对应的第一中间特征信息输入第一个第一Pyramid Pooling模块，从而得到输出的m个第三音频帧组分别对应的第一参考特征信息，然后将这m个第三音频帧组分别对应的第一参考特征信息输入第一个第一BLSTM模块，得到输出的m个第三音频帧组分别对应的第二参考特征信息，再将这的m个第三音频帧组分别对应的第二参考特征信息输入第二个第一Pyramid Pooling模块，第二个第一PyramidPooling模块会将每第三预设数目个相邻的第三音频帧组对应的第二参考特征信息进行拼接组合，将每第三预设数目个相邻的第三音频帧组对应的第二参考特征信息首尾拼接成为一个特征信息，该特征信息即为对应的第三预设数目个相邻的第三音频帧组组成的第一音频帧组对应的第三参考特征信息(第一音频帧组是由第一预设数目个相邻的音频帧组成的，在这里，第一预设数目等于第三预设数目的平方)，从而可以得到输出的M个第一音频帧组分别对应的第三参考特征信息，再将这M个第一音频帧组分别对应的第三参考特征信息输入第二个第一BLSTM模块，从而得到输出的M个第一音频帧组分别对应的第二中间特征信息。

在上述的第二种实现方式中，可以通过设置主人声识别模型中包括的第一Pyramid Pooling模块和第一BLSTM模块的数量、第三预设数目的具体数值，来使得最后一个第一BLSTM模块可以输出M个第一音频帧组分别对应的第二中间特征信息。

例如，目标音频数据中包含100个音频帧，M为25，在可以设置主人声识别模型中包括两个第一Pyramid Pooling模块和两个第一BLSTM模块，且设置第三预设数目个2，则在经过第一个第一Pyramid Pooling模块后，可以得到50个第三音频帧组分别对应的第一参考特征信息，在经过第二个第一Pyramid Pooling模块后，可以得到25个第一音频帧组分别对应的第三参考特征信息，从而可以得到第二个第一BLSTM模块输出的25个第一音频帧组分别对应的第二中间特征信息，每个第一音频帧组是由4个相邻的音频帧组成的。

303、基于M个第一音频帧组分别对应的第二中间特征信息和第一Linear模块，确定M个第一音频帧组分别对应的主人声类型的概率值或M个第一音频帧组分别对应的非主人声类型的概率值。

在实施中，可以将M个第一音频帧组分别对应的第二中间特征信息输入第一Linear模块进行线性变换，从而得到输出的M个概率值，该概率值可以是M个第一音频帧组分别对应的主人声类型的概率值，也可以是M个第一音频帧组分别对应的非主人声类型的概率值。可以理解的是，对于一个第一音频帧组来说，其对应的主人声类型的概率值与其对应的非主人声类型的概率值之和为1。例如，第一Linear模块输出的是主人声类型的概率值，其中一个第一音频帧组对应的主人声类型的概率值为0.9，则可以计算出该第一音频帧组对应的非主人声类型的概率值为0.1。再例如，第一Linear模块输出的是非主人声类型的概率值，其中一个第一音频帧对应的非主人声类型的概率值为0.2，则可以计算出该第一音频帧组对应的主人声类型的概率值为0.8。

或者，第一Linear模块可以输出2M个概率值，其包括M个第一音频帧组分别对应的主人声类型的概率值和对应的非主人声类型的概率值，在这里，每个第一音频帧组对应的主人声类型的概率值与对应的非主人声类型的概率值之和为1。例如，第一Linear模块输出其中一个第一音频帧组对应的主人声类型为0.7，对应的非主人声类型为0.3。

304、基于M个第一音频帧组分别对应的主人声类型的概率值或M个第一音频帧组分别对应的非主人声类型的概率值，确定每个音频帧对应的声音类型。

在实施中，可以基于第一Linear模块输出的概率值确定出M个第一音频帧组分别对应的主人声类型的概率值。

技术人员可以预先设置判断机制，以下提供两种可能的判断机制。

第一种，对于每个第一音频帧组，将其对应的主人声类型的概率值和对应的非主人声类型的概率值进行比对，取其中较大的概率值对应的声音类型，作为该第一音频帧组包含的每个音频帧对应的声音类型。例如，一个第一音频帧组对应的主人声类型的概率值为0.8，该第一音频帧组对应的非主人声类型的概率值为0.2，则该第一音频帧组包含的一个或多个音频帧对应的声音类型为主人声类型。

技术人员还可以预先设定：当第一音频帧组对应的主人声类型的概率值与对应的非主人声类型的概率值相等时，将该第一音频帧组包含的音频帧的声音类型确定为主人声类型，当然，也可以设定，当第一音频帧组对应的主人声类型的概率值与对应的非主人声类型的概率值相等时，将该第一音频帧组包含的音频帧的声音类型确定为非主人声类型，对此本申请实施例不作限定。

第二种，技术人员可以预设一个主人声概率阈值，对于每个第一音频帧组，当其对应的主人声类型的概率值大于或等于该主人声概率阈值时，可以将该第一音频帧组包含的每个音频帧对应的声音类型确定为主人声类型，当其对应的主人声类型的概率值小于该主人声概率阈值时，可以将该第一音频帧组包含的每个音频帧对应的声音类型确定为非主人声类型。

上述两种判断机制仅为列举，在本申请实施例中，还可以使用其他的判断机制进行判断，本申请实施例对此不作限定。

在本申请实施例中，上述的语音识别模型中的声学模型和语言模型、以及主人声识别模型，均是机器学习模型。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

上述的语音识别模型中的声学模型和语言模型、以及主人声识别模型，均是经过训练的机器学习模型，在使用之前，均需对声学模型、语言模型和主人声识别模型进行训练，即使用语言数据库中的样本对声学模型进行训练从而得到经过训练的声学模型(参见图6)，使用文本数据库中的样本对语言模型进行训练从而得到经过训练的语言模型(参见图7)，使用第一样本集合中的样本对主人声识别模型进行训练从而得到经过训练的主人声识别模型(参见图8)。

下面，对主人声识别模型的训练过程进行较为详细的介绍：

获取第一样本集合一个样本，在第一样本集合中包括多个样本，每个样本包括样本输入数据和基准输出数据，其中，样本输入数据是样本音频数据中每个音频帧对应的特征信息，基准输出数据是该样本音频数据中的N个第二音频帧组分别对应的主人声类型的概率值或N个第二音频帧组分别对应的非主人声类型的概率值。

将样本输入数据输入待训练的主人声识别模型，得到实际输出数据。然后将基准输出数据和实际输出数据输入CE LOSS模块中，得到损失值，基于该损失值，对待训练的主人声识别模型进行训练。

在进行过上述训练之后，可以再获取另一组样本，对待训练的主人声识别模型再进行训练。使用多个不同的样本，多次对主人声识别模型进行训练，当达到预设结束条件时，可以结束训练，将最后一次训练之后得到的主人声识别模型，确定为经过训练的主人声识别模型。

预设结束条件可以有多种设定，以下为其中的三种：

第一种，工作人员可以预先设定训练的次数阈值，当实际的训练次数(即调整参数的次数)达到次数阈值时，可以停止训练。

第二种，工作人员可以预先设定损失值阈值，当最近的预设次数个损失值均小于损失值阈值时，可以停止训练。例如，可以设定预设次数是3，设定损失值阈值是0.1，则最近的三次训练计算出的损失值均小于0.1时，可以停止训练。

第三种，当实际的训练次数达到预设的次数阈值，且最近的预设次数个损失值均小于损失值阈值时，可以停止训练。

在本申请实施例中，语音识别模型中的声学模型可以使用多种模型结构，例如，可以使用HMM模型、DNN模型、RNN和LSTM混合模型、以及CTC模型等模型中的任意一个，而在这些模型中，CTC模型具有比较明显的尖峰效果，但是，其声学尖峰会存在较为明显的延迟情况，且该延迟时间是动态的，即预测出的声学模型得分与音频帧不对应，例如，在将每个音频帧对应的特征信息输入声学模型中后，得到5个第二音频帧组分别对应的声学模型得分，若实际正确的预测应该是第三个音频帧组对应的声学模型得分为数据A，而声学模型预测出的数据A则成了第四个音频帧组对应的声学模型得分，此即为声学尖峰存在延迟情况。

由于此种延迟情况是动态的，因此无法在后期进行统一的调整，这就可能导致解码器预测出的目标音频数据对应的文本与第一时间信息之间的不对应，在使用主人声识别模型输出的结果在该文本中截取的主人声文本也会不准确。

为解决上述问题，本申请实施例提供了一种可以减少或者抵消声学模型中的声学尖峰延迟情况的声学模型和对应的主人声识别模型，下面，对其进行这两个模型进行更为详细的介绍：

声学模型

声学模型包括第三CONV模块、至少一个第三Pyramid Pooling模块、至少一个LSTM模块(也可成为正向LSTM模块)和第三Linear模块。

在将每个音频帧对应的特征信息输入声学模型后，声学模型对其进行的处理可以如下：

参见图9，将每个音频帧对应的特征信息输入第三CONV模块，得到输出的每个音频帧对应的第六中间特征信息，再基于每个音频帧对应的第六中间特征信息、至少一个第三Pyramid Pooling模块和至少一个LSTM模块，确定N个第二音频帧组分别对应的第七中间特征信息，再将N个第二音频帧组分别对应的第七中间特征信息输入第三Linear模块，从而得到输出的N个第二音频帧组分别对应的声学模型得分。

在上述过程中，第三Pyramid Pooling模块可以对输入的每个音频帧的数据或者音频帧组的数据进行跳帧处理。以对音频帧的数据进行跳帧处理为例进行说明：在将每个音频帧对应的第六中间特征信息输入第三Pyramid Pooling模块后，第三Pyramid Pooling模块可以将每第四预设数目个相邻的音频帧对应的第六中间特征信息进行拼接组合，将每第四预设数目个相邻的音频帧对应的第六中间特征信息首尾拼接成为一个特征信息，该特征信息即为对应的第四预设数目个相邻的音频帧组成的第四音频帧组对应的第四参考特征信息。因此，在将每个音频帧对应的第六中间特征信息输入一个第三Pyramid Pooling模块后，第三Pyramid Pooling模块可以输出n个第四音频帧组分别对应的第四参考特征信息，每个第四音频帧组是由第四预设数目个相邻的音频帧组成的。

然后，可以将这n个第四音频帧组分别对应的第四参考特征信息，输入LSTM模块，LSTM模块可以输出n个第四音频帧组分别对应的第五参考特征信息。

结合上述第三Pyramid Pooling模块和LSTM模块对输入数据的处理过程，要想得到本申请实施例中的N个第二音频帧组分别对应的第七中间特征信息，可以有以下两种实现方式：

第一种，声学模型可以包括一个第三Pyramid Pooling模块和一个LSTM模块。在此情况下，第四预设数目与第二预设数目相等，相对的，n与N相等。即：将每个音频帧对应的第六中间特征信息输入第三Pyramid Pooling模块，可以得到输出N个第二音频帧组(此处第二音频帧组与第四音频帧组相同)分别对应的第四参考特征信息，将和N个第二音频帧组分别对应的第四参考特征信息输入LSTM模块，得到N个第二音频帧组分别对应的第七中间特征信息(此处的第七中间特征信息与第五参考特征信息相同)。

第二种，声学模型可以包括多个第三Pyramid Pooling模块和多个LSTM模块，第三Pyramid Pooling模块与LSTM模块交叉设置，即每个第三Pyramid Pooling模块后可以接一个LSTM模块。在此情况下，第四预设数目小于第二预设数目，N小于n。

参见图10，以声学模型中包括两个第三Pyramid Pooling模块和两个LSTM模块为例进行说明，即：将每个音频帧对应的第六中间特征信息输入第一个第三Pyramid Pooling模块，从而得到输出的n个第四音频帧组分别对应的第四参考特征信息，然后将这n个第四音频帧组分别对应的第四参考特征信息输入第一个LSTM模块，得到输出的n个第四音频帧组分别对应的第五参考特征信息，再将这n个第四音频帧组分别对应的第五参考特征信息输入第二个第三Pyramid Pooling模块，第二个第三Pyramid Pooling模块会将每第四预设数目个相邻的第四音频帧组对应的第五参考特征信息进行拼接组合，将每第四预设数目个相邻的第四音频帧组对应的第五参考特征信息首尾拼接成为一个特征信息，该特征信息即为对应的第四预设数目个相邻的第四音频帧组组成的第二音频帧组对应的第六参考特征信息(第二音频帧组是由第二预设数目个相邻的音频帧组成的，在这里，第二预设数目等于第四预设数目的平方)，从而可以得到输出的N个第二音频帧组分别对应的第六参考特征信息，再将这N个第二音频帧组分别对应的第六参考特征信息输入第二个LSTM模块，从而得到输出的N个第二音频帧组分别对应的第七中间特征信息。

在上述的第二种实现方式中，可以通过设置声学模型中包括的第三PyramidPooling模块和LSTM模块的数量、第四预设数目的具体数值，来使得最后一个LSTM模块可以输出N个第二音频帧组分别对应的第七中间特征信息，本申请实施例对于第三PyramidPooling模块和LSTM模块的数量、以及第四预设数目的具体数值不作限定。

主人声识别模型

主人声识别模型可以包括第二CONV模块、至少一个第二Pyramid Pooling模块、至少一个反向LSTM模块、组合模块、第二BLSTM模块和第二Linear模块。参见图11，参见图12，基于上述的主人声识别模型的结构设置，确定每个音频帧对应的声音类型的方法可以如下：

1101、基于每个音频帧对应的特征信息和第二CONV模块，确定每个音频帧对应的第三中间特征信息。在实施中，可以将每个音频帧对应的特征信息输入第二CONV模块，从而得到输出的每个音频帧对应的第三中间特征信息。

1102、基于每个音频帧对应的第三中间特征信息、至少一个第二Pyramid Pooling模块和至少一个反向LSTM模块，确定N个第二音频帧组分别对应的第四中间特征信息。

其中，每个第二音频帧组由第二预设数目个相邻的音频帧组成。第二PyramidPooling模块和反向LSTM模块交叉设置，即每个第二Pyramid Pooling模块后可以接一个反向LSTM模块。

在实施中，第二Pyramid Pooling模块可以对输出的每个音频帧的数据或者音频帧组的数据进行跳帧处理。以对音频帧的数据进行跳帧处理为例进行说明：在将每个音频帧对应的第三中间特征信息输入一个第二Pyramid Pooling模块后，第二Pyramid Pooling模块可以将每第五预设数目个相邻的音频帧对应的第三中间特征信息进行拼接组合，将每第五预设数目个相邻的音频帧对应的第三中间特征信息首尾拼接成为一个特征信息，该特征信息即为对应的第五预设数目个相邻的音频帧组成的第五音频帧组对应的第七参考特征信息。因此，在将每个音频帧对应的第三中间特征信息输入一个第二Pyramid Pooling模块后，第二Pyramid Pooling模块可以输出n个第五音频帧组分别对应的第七参考特特征信息。

然后，可以将这n个第五音频帧分别对应的第七参考特征信息，输入反向LSTM模块，反向LSTM模块可以输出n个第五音频帧组分别对应的第八参考特征信息。

结合上述第二Pyramid Pooling模块和反向LSTM模块对输入数据的处理过程，要想实现本申请实施例中的得到N个第二音频帧组分别对应的第四中间特征信息，可以有以下两种实现方式：

第一种，主人声识别模型可以包括一个第二Pyramid Pooling模块和一个反向LSTM模块。在此情况下，第五预设数目与第二预设数目相等，相对的，N与n相等。即：将每个音频帧对应的第三中间特征信息输入第二Pyramid Pooling模块后，可以得到输出的N个第二音频帧组(此处第二音频帧组与第五音频帧组相同)分别对应的第七参考特征信息，再将N个第二音频帧组分别对应的第七参考特征信息输入反向LSTM模块，可以得到输出的N个第二音频帧组分别对应的第四中间特征信息(此处的第四中间特征信息与第八参考特征信息相同)。

第二种，主人声识别模型可以包括多个第二Pyramid Pooling模块和多个反向LSTM模块。第二Pyramid Pooling模块与反向LSTM模块交叉设置，每个第二PyramidPooling模块后可以接一个反向LSTM模块。在此情况下，第五预设数目小于第二预设数目，N小于n。

参见图13，以主人声识别模型中包括两个第二Pyramid Pooling模块和两个反向LSTM模块为例进行说明，即：将每个音频帧对应的第三中间特征信息输入第一个第二Pyramid Pooling模块，从而得到输出的n个第五音频帧组分别对应的第七参考特征信息，然后，将这n个第五音频帧组分别对应的第七参考特征信息输入第一个反向LSTM模块，得到n个第五音频帧组分别对应的第八参考特征信息，再将这n个第五音频帧组分别对应的第八参考特征信息输入第二个第二Pyramid Pooling模块，第二个第二Pyramid Pooling模块会将每第五预设数目个第五音频帧组对应的第八参考特征信息进行拼接组合，将每第五预设数目个第五音频帧组对应的第八参考特征信息首尾拼接成为一个特征信息，该特征信息即为对应的第五预设数目个相邻的第五音频帧组组成的第二音频帧组对应的第九参考特征信息(第二音频帧组时由第二预设数目个相邻的音频帧组成的，在这里，第二预设数目等于第五预设数目的平方)，从而可以得到输出的N个第二音频帧组分别对应的第九参考特征信息，再将这N个第二音频帧组分别对应的第九参考特征信息输入第二个反向LSTM模块，从而得到输出的N个第二音频帧组分别对应的第四中间特征信息。

在上述的第二种实现方式中，可以通过设置主人声识别模型中包括的第二Pyramid Pooling模块和反向LSTM模块的数量、第五预设数目的具体数值，来使得最后一个反向LSTM模块可以输出N个第二音频帧组分别对应的第四中间特征信息。

1103、基于N个第二音频帧组分别对应的声学模型得分、N个第二音频帧组分别对应的第四中间特征信息和组合模块，确定N个第二音频帧组分别对应的组合特征信息。

在实施中，在得到N个第二音频帧组分别对应的第四中间特征信息后，将其与声学模型输出的N个第二音频帧组分别对应的声学模型得分输入组合模块中，从而可以得到N个第二音频帧组分别对应的组合特征信息。

在将N个第二音频帧组分别对应的第四中间特征信息和声学模型得分输入组合模块中后，组合模块对其进行的处理可以如下：对于每个第二音频帧组，将该第二音频帧组对应的第四中间特征信息和该第二音频帧组对应的声学模型得分进行拼接组合，将这两个特征信息拼接成为一个特征信息，从而得到该第二音频帧组对应的组合特征信息。根据上述处理方法，组合模块可以输出每个第二音频帧组分别对应的组合特征信息。

1104、基于N个第二音频帧组分别对应的组合特征信息和第二BLSTM模块，确定N个第二音频帧组分别对应的第五中间特征信息。在实施中，可以将得到的N个第二音频帧组分别对应的组合特征信息输入第二BLSTM模块中，从而得到输出的N个第二音频帧组分别对应的第五中间特征信息。

1105、基于N个第二音频帧组分别对应的第五中间特征信息和第二Linear模块，确定N个第二音频帧组分别对应的主人声类型的概率值或N个第二音频帧组分别对应的非主人声类型的概率值。

在实施中，可以将N个第二音频帧组分别对应的第五中间特征信息输入第二Linear模块进行线性变换，从而得到输出的N个概率值，该概率值可以是N个第二音频帧组分别对应的主人声类型的概率值，也可以是N个第二音频帧组分别对应的非主人声类型的概率值。可以理解的是，对于一个第二音频帧组来说，其对应的主人声类型的概率值与其对应的非主人声类型的概率值之和为1。

或者，第二Linear模块可以输出2N个概率值，其包括N个第二音频帧组分别对应的主人声类型的概率值和对应的非主人声类型的概率值，在这里，每个第二音频帧组对应的主人声类型的概率值与对应的非主人声类型的概率值之和为1。例如，第二Linear模块输出其中一个第二音频帧组对应的主人声类型为0.3，对应的非主人声类型为0.7。

1106、基于N个第二音频帧组分别对应的主人声类型的概率值或N个第二音频帧组分别对应的非主人声类型的概率值，确定每个音频帧对应的声音类型。

在实施中，技术人员可以预先设置判断机制。在得到N个第二音频帧组分别对应的主人声类型的概率值或N个第二音频帧组分别对应的非主人声类型的概率值后，可以基于该判断机制，确定出每个音频帧对应的声音类型。

预先设置的判断机制可以与上述步骤304中的判断机制相同，当然，也可以是其他判断机制，本申请实施例对此不作限定。

使用此种主人声识别模型，可以将声学模型的输出数据作为主人声模型的中间输入数据，经过训练可以使得主人声识别模型更适应于声学模型，当声学模型的输出数据存在声学尖峰延迟现象时，经过训练的主人声识别模型也可以适应性的存在尖峰延迟现象，从而使得基于主人声识别模型确定出的第二时间信息与基于声学模型确定出的第一时间信息相匹配，最终可以得到更为准确的主人声文本。

上述的声学模型和主人声识别模型均是经过训练的机器学习模型，在对两者进行训练时，可以同时对其进行训练。下面，参见图14，对其训练过程进行更为详细的介绍：

获取第二样本集合一个样本，在第二样本集合中包括多个样本，每个样本包括样本输入数据、第一基准输出数据和第二基准输出数据，其中，样本输入数据是样本音频数据中每个音频帧对应的特征信息，第一基准输出数据是该样本音频数据中的N个第二音频帧组分别对应的声学模型得分(或者是发音音节)，第二基准输出数据是该样本音频数据中的N个第二音频帧组分别对应的主人声类型的概率值或N个第二音频帧组分别对应的非主人声类型的概率值。

将样本输入数据输入待训练的声学模型，得到第一实际输出数据。然后将第基准输出数据和第一实际输出数据输入CTC LOSS模块中，得到第一损失值。

将样本输入数据输入待训练的主人声识别模型，得到第二实际输出数据。然后将第二基准输出数据和第二实际输出数据输入CE LOSS模块中，得到第二损失值。

基于第一损失值和第二损失值，对待训练的声学模型和待训练的主人声识别模型进行训练。

在进行过上述训练之后，可以再获取另一组样本，对待训练的声学模型和待训练的主人声识别模型再进行训练。使用多个不同的样本，多次对声学模型和主人声识别模型进行训练，当达到预设结束条件时，可以结束训练，将最后一次训练之后得到的声学模型和主人声识别模型，确定为经过训练的声学模型和经过训练的主人声识别模型。

预设结束条件可以有多种设定，以下为其中的三种：

第二种，工作人员可以预先设定损失值阈值，当最近的预设次数个第一损失值和第二损失值均小于损失值阈值时，可以停止训练。例如，可以设定预设次数是3，设定损失值阈值是0.1，则最近的三次训练计算出的第一损失值和第二损失值均小于0.1时，可以停止训练。

第三种，当实际的训练次数达到预设的次数阈值，且最近的预设次数个第一损失值和第二损失值均小于损失值阈值时，可以停止训练。

本申请实施例提供的主人声识别模型，可以在存在噪声和静音的情况下，区分出主人声和背景人声，基于主人声识别模型和语音识别模型，可以得到较为准确的目标音频数据对应的主人声文本。在本申请实施例中，分别采用了三种方法对存在背景人声的测试集A和不存在背景人声的测试集B进行了测试，以下为测试结果：

模型类型	测试集A	测试集B
			第一种	19.91	14.03
第二种	11.68	-
			第三种	10.81	13.83

其中，测试集A中包括多个第一测试样本，每个第一测试样本包括一个存在背景人声的音频数据和该音频数据对应的主人声文本。测试集B中包括多个第二测试样本，每个第二测试样本包括一个不存在背景人声的音频数据和该音频数据对应的主人声文本。

在上述表格中，列举的模型类型有三种。

第一种为只使用语音识别模型，而不使用主人声识别模型，其测试集A对应的字错误率为19.91，其测试集B对应的字错误率为14.03。

第二种为使用了语音识别模型和主人声识别模型，该主人声识别模型包括第一CONV模块、至少一个第一Pyramid Pooling模块、至少一个第一BLSTM模块和第一Linear模块，其输入数据为音频数据中的每个音频帧对应的特征信息。当使用第二种模型时，其测试集A对应的字错误率为11.68。

第三种为使用了语音识别模型和主人声识别模型，该主人声识别模型包括第二CONV模块、至少一个第二Pyramid Pooling模块、至少一个反向LSTM模块、组合模块、第二BLSTM模块和第二Linear模块，其输入数据除了包括音频数据中的每个音频帧对应的特征信息以外，还将语音识别模型中的声学模型的输出数据作为其的中间输入数据。当使用第三种模型时，其测试集A对应的字错误率为10.81，其测试集B对应的字错误率为13.83。

综上可以看出，与第一种模型相比，使用第二种模型，测试集A的字错误率有显著的下降，使用第三种模型，进一步的降低了测试集A的字错误率，且第三种模型，对于测试集B的字错误率也有一定的降低。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例中提到的方案，可以基于目标音频数据中每个音频帧对应的特征信息和语音识别模型，确定出目标音频数据对应的文本和该文本中的每个文字对应的第一时间信息，基于每个音频帧对应的特征信息和主人声识别模型，确定出每个音频帧对应的声音类型，然后，基于确定出的目标音频数据对应的文本、文本中每个文字对应的第一时间信息和每个音频帧对应的声音类型，确定出该目标音频数据对应的主人声文本。采用本申请，可以对目标音频数据中的主人声和背景人声进行区分，从而得到目标音频数据的主人声文本，提高了语音识别的准确性。

本申请实施例提供了一种语音识别装置，该装置可以是上述实施例中的计算机设备，参见图15，所述装置包括：

特征提取模块1510，用于对目标音频数据中的每个音频帧进行特征提取，得到所述每个音频帧对应的特征信息；

第一确定模块1520，用于基于所述每个音频帧对应的特征信息和语音识别模型，确定所述目标音频数据对应的文本和所述文本中的每个文字对应的第一时间信息，其中，所述文字对应的第一时间信息用于指示所述文字对应的音频帧在所述目标音频数据中的时间位置；

第二确定模块1530，用于基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，其中，所述声音类型包括主人声类型和非主人声类型；

第三确定模块1540，用于基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本。

所述第二确定模块1530，用于：

所述第一确定模块1520，用于：

在一种可能的实现方式中，所述第二确定模块1530，用于：

所述第二确定模块1530，用于：

在一种可能的实现方式中，所述第三确定模块1540，用于：

需要说明的是：上述实施例提供的语音识别装置在进行语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16是本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1601和一个或一个以上的存储器1602，其中，所述存储器1602中存储有至少一条指令，所述至少一条指令由所述处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中语音识别方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(read-only memory，只读存储器)、RAM(random access memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括至少一个指令，该至少一条指令可由处理器加载并执行以实现上述实施例中语音识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述主人声识别模型包括第一CONV模块、至少一个第一Pyramid Pooling模块、至少一个第一BLSTM模块和第一Linear模块；

基于所述每个音频帧对应的第一中间特征信息、所述至少一个第一Pyramid Pooling模块和所述至少一个第一BLSTM模块，确定M个第一音频帧组分别对应的第二中间特征信息，其中，每个第一音频帧组由第一预设数目个相邻的音频帧组成；

3.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括声学模型、语言模型、词典和解码器；

4.根据权利要求3所述的方法，其特征在于，所述基于所述每个音频帧对应的特征信息和主人声识别模型，确定所述每个音频帧对应的声音类型，包括：

5.根据权利要求4所述的方法，其特征在于，所述主人声识别模型包括第二CONV模块、至少一个第二Pyramid Pooling模块、至少一个反向LSTM模块、组合模块、第二BLSTM模块和第二Linear模块；

基于所述每个音频帧对应的第四中间特征信息、所述至少一个第二Pyramid Pooling模块和所述至少一个反向LSTM模块，确定N个第二音频帧组分别对应的第四中间特征信息；

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频数据对应的文本、所述文本中的每个文字对应的第一时间信息和所述每个音频帧对应的声音类型，确定所述目标音频数据对应的主人声文本，包括：

7.一种语音识别装置，其特征在于，所述装置包括：

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法所执行的操作。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法所执行的操作。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的语音识别方法所执行的操作。