CN113707130A

CN113707130A - 一种语音识别方法、装置和用于语音识别的装置

Info

Publication number: CN113707130A
Application number: CN202110945706.5A
Authority: CN
Inventors: 张弼弘; 周盼
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-26
Anticipated expiration: 2041-08-16
Also published as: CN113707130B

Abstract

本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。所述方法包括：根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；按照预设标签对所述子句进行归并处理，得到目标子句；对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。本发明实施例可以保证每个子句的能量、说话人音调、音色的相对统一，有利于提升语音识别的准确度；并且，本发明实施例进一步还可以按照预设标签对子句进行归并处理，将存在关联关系的子句合并为目标子句，再对目标子句进行语音识别处理，可以进一步提升语音识别的准确度，提高语音识别性能。

Description

一种语音识别方法、装置和用于语音识别的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法、装置和用于语音识别的装置。

背景技术

近年来，音频处理技术取得了很大发展，目前语音识别技术针对单人语音识别任务的处理效果较好，识别准确率高。

然而，在多人会议或交流的场景下，当说话人发言比较自然且随机，会出现说话人之间发言时抢话、打断或交叠的现象；或者，由于不同的说话人自身的说话音量大小和与麦克风距离的远近，导致麦克风拾音时不同说话人能量大小不一；或者，多人交流时，不同说话人的音调、音色也各不相同，导致识别难度增大等，导致多人会议或交流场景下语音识别性能急剧下降，语音识别准确度较差。

发明内容

本发明实施例提供一种语音识别方法、装置和用于语音识别的装置，可以提高语音识别的准确度。

为了解决上述问题，本发明实施例公开了一种语音识别方法，所述方法包括：

根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；

按照预设标签对所述子句进行归并处理，得到目标子句；

对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。

可选地，所述预设标签包括语音内容标签，所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

基于各个子句的语音内容确定各个子句的语音内容标签；

对语音内容标签相匹配的相邻子句进行归并处理，得到目标子句。

可选地，所述预设标签包括说话人标签，所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

基于各个子句的声学特征确定各个子句的说话人标签；

按照各个子句的起止时间，对说话人标签相同的至少两个子句进行归并处理，得到目标子句。

可选地，所述预设标签包括时长标签，所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

若存在至少一个时长标签满足预设时长的子句，则将所述子句与其相邻的子句进行归并处理，得到目标子句。

可选地，所述根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，包括：

对待处理的语音数据进行语音端点检测，确定所述语音数据的有效语音片段；

对所述有效语音片段进行特征分析处理，确定所述有效语音片段包含的各个说话人对应的声学特征；

根据所述有效语音片段包含的各个说话人对应的声学特征，对所述有效语音片段进行切分处理，得到若干子句。

可选地，所述根据所述有效语音片段包含的各个说话人对应的声学特征，对所述有效语音片段进行切分处理，得到若干子句，包括：

对所述有效语音片段进行分帧处理，得到至少两个有效子帧；

计算两两相邻的有效子帧之间的声学特征相似度；

根据所述声学特征相似度确定所述有效语音帧对应的说话人切换点；

基于所述说话人切换点对所述有效语音片段进行切分处理，得到若干子句。

可选地，所述对待处理的语音数据进行语音端点检测，确定所述语音数据的有效语音片段，包括：

对待处理的语音数据进行分帧处理，得到至少两个语音帧；

对每个语音帧进行特征提取处理，得到每个语音帧对应的特征参数；

根据所述特征参数对每个语音帧进行分类处理，确定各个语音帧中的有效语音帧，并对所述有效语音帧进行合并处理，得到所述语音数据对应的有效语音片段。

可选地，所述特征参数包括短时能量和过零率，所述根据所述特征参数对每个语音帧进行分类处理，确定各个语音帧中的有效语音帧，包括：

分别将每个语音帧的短时能量与第一预设门限进行比对，以及分别将每个语音帧的过零率与第二预设门限进行比对；

确定短时能量大于或者等于第一预设门限，且过零率小于第二预设门限的语音帧为有效语音帧。

基于自注意力机制构建语音切分模型；

获取训练样本集，所述训练样本集包括至少一个说话人的语音数据，以及混合所述至少一个说话人的语音数据得到的语音交叠数据；

根据所述训练样本集对所述语音切分模型进行迭代训练，得到训练完成的语音切分模型；

基于所述语音切分模型对待处理的语音数据进行切分处理，得到若干子句。

可选地，所述训练样本集还包括每个说话人的语音数据对应的语音识别结果，所述根据所述训练样本集对所述语音切分模型进行迭代训练，得到训练完成的语音切分模型，包括：

根据所述训练样本集对所述语音切分模型和预先构建的语音识别模型进行迭代联合训练，在每一轮训练中根据所述语音切分模型和所述语音识别模型的联合损失值调整所述语音切分模型和/或所述语音识别模型的模型参数，直到所述联合损失值满足收敛条件得到训练完成的语音切分模型和语音识别模型；

所述对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果，包括：

基于训练完成的语音识别模型对所述目标子句进行语音识别处理，得到所述语音数据对应的语音识别结果。

另一方面，本发明实施例公开了一种语音识别装置，所述装置包括：

语音切分模块，用于根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；

归并处理模块，用于按照预设标签对所述子句进行归并处理，得到目标子句；

语音识别模块，用于对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。

可选地，所述预设标签包括语音内容标签，所述归并处理模块，包括：

内容标签确定子模块，用于基于各个子句的语音内容确定各个子句的语音内容标签；

第一归并处理子模块，用于对语音内容标签相匹配的相邻子句进行归并处理，得到目标子句。

可选地，所述预设标签包括说话人标签，所述归并处理模块，包括：

说话人标签确定子模块，用于基于各个子句的声学特征确定各个子句的说话人标签；

第二归并处理子模块，用于按照各个子句的起止时间，对说话人标签相同的至少两个子句进行归并处理，得到目标子句。

可选地，所述预设标签包括时长标签，所述归并处理模块，包括：

第三归并处理子模块，用于若存在至少一个时长标签满足预设时长的子句，则将所述子句与其相邻的子句进行归并处理，得到目标子句。

可选地，所述语音切分模块，包括：

语音端点检测子模块，用于对待处理的语音数据进行语音端点检测，确定所述语音数据的有效语音片段；

特征分析子模块，用于对所述有效语音片段进行特征分析处理，确定所述有效语音片段包含的各个说话人对应的声学特征；

第一切分处理子模块，用于根据所述有效语音片段包含的各个说话人对应的声学特征，对所述有效语音片段进行切分处理，得到若干子句。

可选地，所述切分处理子模块，包括：

第一分帧处理单元，用于对所述有效语音片段进行分帧处理，得到至少两个有效子帧；

相似度计算单元，用于计算两两相邻的有效子帧之间的声学特征相似度；

说话人切换点确定单元，用于根据所述声学特征相似度确定所述有效语音帧对应的说话人切换点；

切分处理单元，用于基于所述说话人切换点对所述有效语音片段进行切分处理，得到若干子句。

可选地，所述语音端点检测子模块，包括：

第二分帧处理单元，用于对待处理的语音数据进行分帧处理，得到至少两个语音帧；

特征提取单元，用于对每个语音帧进行特征提取处理，得到每个语音帧对应的特征参数；

有效语音帧处理单元，用于根据所述特征参数对每个语音帧进行分类处理，确定各个语音帧中的有效语音帧，并对所述有效语音帧进行合并处理，得到所述语音数据对应的有效语音片段。

可选地，所述特征参数包括短时能量和过零率，所述有效语音帧处理单元，包括：

参数比对子单元，用于分别将每个语音帧的短时能量与第一预设门限进行比对，以及分别将每个语音帧的过零率与第二预设门限进行比对；

有效语音帧确定子单元，用于确定短时能量大于或者等于第一预设门限，且过零率小于第二预设门限的语音帧为有效语音帧。

可选地，所述语音切分模块，包括：

语音切分模型构建子模块，用于基于自注意力机制构建语音切分模型；

训练样本集获取子模块，用于获取训练样本集，所述训练样本集包括至少一个说话人的语音数据，以及混合所述至少一个说话人的语音数据得到的语音交叠数据；

模型训练子模块，用于根据所述训练样本集对所述语音切分模型进行迭代训练，得到训练完成的语音切分模型；

第二切分处理子模块，用于基于所述语音切分模型对待处理的语音数据进行切分处理，得到若干子句。

可选地，所述训练样本集还包括每个说话人的语音数据对应的语音识别结果，所述模型训练子模块，包括：

模型联合训练单元，用于根据所述训练样本集对所述语音切分模型和预先构建的语音识别模型进行迭代联合训练，在每一轮训练中根据所述语音切分模型和所述语音识别模型的联合损失值调整所述语音切分模型和/或所述语音识别模型的模型参数，直到所述联合损失值满足收敛条件得到训练完成的语音切分模型和语音识别模型；

所述语音识别模块，包括：

语音识别子模块，用于基于训练完成的语音识别模型对所述目标子句进行语音识别处理，得到所述语音数据对应的语音识别结果。

再一方面，本发明实施例公开了一种用于语音识别的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述的语音识别方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音识别方法。

本发明实施例包括以下优点：

本发明实施例先根据待处理的语音数据中各个说话人的声学特征对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；然后，按照预设标签对所述子句进行归并处理，得到目标子句；最后，对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。本发明实施例基于各个说话人的声学特征对语音数据进行切分处理，将每个说话人对应的子句从交叠有多个说话人语音的语音数据中分离出来，可以保证每个子句的能量、说话人音调、音色的相对统一，有利于提升语音识别的准确度；并且，本发明实施例进一步还可以按照预设标签对子句进行归并处理，将存在关联关系的子句合并为目标子句，再对目标子句进行语音识别处理，可以进一步提升语音识别的准确度，提高语音识别性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音识别方法实施例的步骤流程图；

图2是本发明的一种语音识别装置实施例的结构框图；

图3是本发明的一种用于语音识别的装置800的框图；

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语音识别方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤101、根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段。

步骤102、按照预设标签对所述子句进行归并处理，得到目标子句。

步骤103、对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。

需要说明的是，本发明实施例中待处理的语音数据可以是包括来自多个说话人的语音的混合语音信号，所述语音数据中还可以包括噪声信号或干扰语音。

本发明实施例提供的语音识别方法，可以应用于电子设备，对多人交互场景下产生的语音数据进行语音识别处理，以提高语音识别的准确度。所述电子设备可以包括但不限于：耳机、录音笔、家居智能终端(包括：空调、冰箱、电饭煲、热水器等)，商务智能终端(包括：可视电话、会议桌面智能终端等)，可穿戴设备(包括智能手表、智能眼镜等)，金融智能终端机，以及智能手机、平板电脑、个人数字助理(personal digital assistant，PDA)、车载设备、计算机等。

其中，说话人的声学特征可以包括但不限于声纹、音色、音调等，根据各个说话人的声学特征对待处理的语音数据进行切分处理，即检测所述语音数据中说话人切换点并分割。其中，可以根据语音数据的语音信号频域特征对语音数据进行切分处理。所述语音信号频域特征可以包括但不限于FBank(Filter Bank，滤波器组)特征、MFCC(Mel FrequencyCepstrumCoeefficient，梅尔频率倒谱系数)特征等。

在本发明实施例中，在对待处理的语音数据进行切分处理之前，还可以对所述语音数据进行预处理。其中，所述预处理可以包括但不限于：信号增强、去混响、去噪等。例如，在电话语音中，可能包括各种类型的噪音，例如咳嗽、笑声和其他人的说话声等，可以基于能量检测、信道交叉作用等方式进行有效语音的检测和去噪。

在本发明实施例中，可以直接对切分后的各个子句进行语音识别处理。需要说明的是，在对语音信号进行语音识别处理时，通常是先提取语音信号中的FBank特征，然后基于提取的FBank特征对语音信号进行语音识别处理。而提取FBank特征时通常会对语音信号的全局均值进行归一化处理，这样就会把语音信号中的能量较小的语音帧过滤掉。如果直接对包含多个说话人语音的语音数据进行语音识别处理，由于说话人切换出存在能量突变，尤其是信号能量又大变小时，经过归一化处理，说话人切换处的小能量语音帧就会被删除，容易造成删除错误，例如，说话人A与说话B的切换出能量变小，就可能会删除说话人B的部分语音数据，影响语音识别的准确度。因此，本发明实施例通过对语音数据进行切分处理，得到单一说话人对应的各个子句，对各个子句分别进行语音识别处理，就不会出现因语音信号的能量突变导致删除错误，有利于提升语音识别的准确度。

在本发明实施例中，也可以对切分的子句进一步执行步骤102所述的归并处理，将预设标签相匹配的子句进行归并处理得到目标子句，再对目标子句进行语音识别处理。具体的，将语音数据切分为包含单个说话人的子句后，可以进一步按照预设标签，对具有相同预设标签的子句进行归并处理，使得存在关联关系的各个子句合并为一个目标子句，然后再对目标子句进行语音识别处理，可以进一步提升语音识别的准确度，提高语音识别性能。

在本发明的一种可选实施例中，所述预设标签包括语音内容标签，步骤102所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

步骤S11、基于各个子句的语音内容确定各个子句的语音内容标签；

步骤S12、对语音内容标签相匹配的相邻子句进行归并处理，得到目标子句。

对于多人交互场景中，各个子句之间往往存在语义上的关联关系，例如，说话人A的子句a1是对说话人B的子句b1提出的问题的回复，或者，说话人C的子句c是对说话人D的子句d1所表述内容的进一步补充，等等。对于以上这些情况，如果单独对某个子句进行语音识别，往往会因为参考的信息不够全面影响识别结果的准确度。因此，在本发明实施例中，可以对各个子句的语音内容进行分析，将语音内容相匹配的相邻子句进行归并处理，也即将语义上存在上下文关联关系的子句进行归并，得到目标子句，以便结合上下文内容进行语音识别，提高语音识别的准确度。

在本发明的一种可选实施例中，所述预设标签包括说话人标签，步骤102所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

步骤S21、基于各个子句的声学特征确定各个子句的说话人标签；

步骤S22、按照各个子句的起止时间，对说话人标签相同的至少两个子句进行归并处理，得到目标子句。

在对切分后的各个子句进行归并处理时，还可以基于声学特征确定每个子句对应的说话人标签，然后将同一说话人的至少两个子句进行归并处理，得到目标子句。具体的，可以将一个说话人对应的各个子句和/或目标子句保存为一个音频文件，从而在进行语音识别时，直接对保存的各个音频文件进行识别。

在本发明的一种可选实施例中，所述预设标签包括时长标签，步骤102所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

当切分的子句过短时，表示当前说话人可能只说了“额”“嗯？”等语气词或疑问词，直接对这类子句进行语音识别，会造成识别丢字或不准，所以在本发明实施例中，可以将时长小于预设时长的子句与其相邻的子句进行合并，以便提升语音识别的准确度。

在本发明的一种可选实施例中，步骤101所述根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，包括：

步骤S31、对待处理的语音数据进行语音端点检测，确定所述语音数据的有效语音片段；

步骤S32、对所述有效语音片段进行特征分析处理，确定所述有效语音片段包含的各个说话人对应的声学特征；

步骤S33、根据所述有效语音片段包含的各个说话人对应的声学特征，对所述有效语音片段进行切分处理，得到若干子句。

在对语音数据进行切分处理之前，可以先对语音数据进行语音端点检测，辨认出语音数据中的有效语音片段和非语音片段。其中，所述非语音片段可以包括静音、背景音乐、室内噪声、背景噪声等。非语音片段会影响切分处理的准确度，通过提取语音数据中的有效语音片段，仅对有效语音片段进行分析和处理，可以有效提升语音处理的效率和准确度。

对于高信噪比的语音数据，最低能量的语音能量也会大于噪声能量，因此做简单的能量测量就可以鉴别出语音数据中的有效语音片段和非语音片段。对于低信噪比的语音数据，可以通过对语音数据进行特征分析，基于语音数据的特征参数鉴别语音数据中的有效语音片段。

在本发明的一种可选实施例中，步骤S31对待处理的语音数据进行语音端点检测，确定所述语音数据的有效语音片段，包括：

子步骤S311、对待处理的语音数据进行分帧处理，得到至少两个语音帧；

子步骤S312、对每个语音帧进行特征提取处理，得到每个语音帧对应的特征参数；

子步骤S313、根据所述特征参数对每个语音帧进行分类处理，确定各个语音帧中的有效语音帧，并对所述有效语音帧进行合并处理，得到所述语音数据对应的有效语音片段。

在对语音数据进行分帧之前，通常还会通过一个截止频率大约为200Hz的高通滤波器对语音数据进行滤波处理，以便滤除语音数据中的直流偏置分量和一些低频噪声。

在实际应用中，一般会对语音数据进行长度为20-40ms的分帧处理，一般帧与帧之间的重叠为10ms。例如，假设语音数据的采样率为16kHz，取分帧窗口大小为25ms，这种情况下，每一个语音帧所包含的数据点为：0.025*16000＝400采样点。令语音帧之间重叠为10ms，第一各语音帧的起始点为sample0，第二个语音帧的起始点为sample160。分帧完成之后，就可以对每一帧数据进行特征提取。

其中，所述特征参数可以包括短时能量、过零率、自相关函数、基频等时域特征参数，还可以包括LPC倒谱距离、频率方差、谱熵等频域特征参数。

使用单一的特征参数无法对语音数据进行有效的端点检测，因此，通常会结合多个特征参数对各个语音帧进行分类处理，确定其中的有效语音帧。

在本发明的一种可选实施例中，子步骤S313所述特征参数包括短时能量和过零率，所述根据所述特征参数对每个语音帧进行分类处理，确定各个语音帧中的有效语音帧，包括：

P11、分别将每个语音帧的短时能量与第一预设门限进行比对，以及分别将每个语音帧的过零率与第二预设门限进行比对；

P12、确定短时能量大于或者等于第一预设门限，且过零率小于第二预设门限的语音帧为有效语音帧。

在低信噪比的情况下，有效语音片段的短时能量相对较大，过零率相对较小；而非语音片段的短时能量相对较小，过零率相对较大。因此，可以通过测量每个语音帧的短时能量和过零率，并与相应的预设门限进行对比，判断语音帧是否为有效语音帧。

在本发明实施例中，除了可以基于提取的特征参数鉴别有效语音帧，还可以基于机器学习模型对语音帧进行分类处理，识别有效语音帧。机器学习模型是通过样本学习后具备某种能力的模型，具体可以是神经网络模型，比如CNN(Convolutional NeuralNetworks，卷积神经网络)模型、RNN(Recurrent Neural Networks，循环神经网络)模型等。当然，机器学习模型也可以采用其他类型的模型。利用机器学习模型的分层学习能力和区分性建模能力，基于大规模标注的语料库，以音素区分性为学习目标，从初级Fbank特征中学习多种语音和非语音模式，实现帧层次上的有效语音/非语音的判决。

在本发明的一种可选实施例中，步骤S33所述根据所述有效语音片段包含的各个说话人对应的声学特征对所述有效语音片段进行切分处理，得到若干子句，包括：

子步骤S331、对所述有效语音片段进行分帧处理，得到至少两个有效子帧；

子步骤S332、计算两两相邻的有效子帧之间的声学特征相似度；

子步骤S333、根据所述声学特征相似度确定所述有效语音帧对应的说话人切换点；

子步骤S334、基于所述说话人切换点对所述有效语音片段进行切分处理，得到若干子句。

在对有效语音片段进行切分处理时，可以先对有效语音频段进行分帧处理，然后计算相邻的有效子帧之间的声学特征相似度，并确定该声学特征相似度是否小于预设相似度阈值，如果所述声学特征相似度小于预设相似度阈值，则可以将相邻的两个有效子帧的帧连接点作为说话人切换点，表明前一帧与后一帧对应的说话人不相同。

具体的，可以通过计算两个相邻子帧对应的声学特征之间的距离来确定相邻子帧的声学特征相似度。其中，所述距离可以包括但不限于：余弦距离、欧式距离、曼哈顿距离等。

在实际应用中，还可以通过定义一个包含N帧的定长滑动分析窗，计算每个分析窗中各帧的可信度，并利用相关准则来判断分析窗中是否存在说话人切换点，将每次检测到的说话人切换点存入切换点集合汇总，当需要分析的语音序列到达语音结尾时，输出检测到的所有说话人切换点，并对得到的所有说话人切换点进行分析，确定真正的说话人切换点。

在本发明的一种可选实施例中，步骤101所述根据待处理的语音数据中各个说话人的声学特征对所述语音数据进行切分处理，得到若干子句，包括：

步骤S41、基于自注意力机制构建语音切分模型；

步骤S42、获取训练样本集，所述训练样本集包括至少一个说话人的语音数据，以及混合所述至少一个说话人的语音数据得到的语音交叠数据；

步骤S43、根据所述训练样本集对所述语音切分模型进行迭代训练，得到训练完成的语音切分模型；

步骤S44、基于所述语音切分模型对待处理的语音数据进行切分处理，得到若干子句。

在本发明实施例中，也可以基于神经网络模型对语音数据进行切分处理。具体的，可以基于带有自注意力(Self-Attention)的Transformer模型构建本发明实施例中的语音切分模型，对每个说话人进行建模，使用注意力机制只关注单一说话人的声学特征，并基于该说话人的声学特征从语音数据中分离出该说话人对应的各个子句。

在本发明的一种可选实施例中，所述训练样本集还包括每个说话人的语音数据对应的语音识别结果，步骤S43所述根据所述训练样本集对所述语音切分模型进行迭代训练，得到训练完成的语音切分模型，包括：

步骤S51、根据所述训练样本集对所述语音切分模型和预先构建的语音识别模型进行迭代联合训练，在每一轮训练中根据所述语音切分模型和所述语音识别模型的联合损失值调整所述语音切分模型和/或所述语音识别模型的模型参数，直到所述联合损失值满足收敛条件得到训练完成的语音切分模型和语音识别模型；

步骤103所述对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果，包括：

步骤S52、基于训练完成的语音识别模型对所述目标子句进行语音识别处理，得到所述语音数据对应的语音识别结果。

其中，对目标子句进行语音识别处理也可以基于预先训练的语音识别模型进行语音识别。为了同步提升语音切分模型和语音识别模型的准确度，可以对语音切分模型和语音识别模型进行联合训练，基于联合损失函数对两个模型进行整体优化，从而得到训练完成的语音切分模型和语音识别模型。

可以理解，在模型训练之前，可以根据精度要求等灵活选择每个环节所采用的模型，如此，每个环节均可采用最优配置，而不需要妥协任意一个环节的性能。换而言之，本发明实施例中涉及的语音切分模型和语音识别模型，可以分别自由选择擅长相应领域的专用模型。

需要说明的是，训练完成的语音切分模型和语音识别模型既可以对多人交互场景下产生的语音数据进行语音处理，也可以对单一说话人产生的带噪语音数据进行语音处理。并且，在具体应用中，可以根据应用场景对待处理的语音数据进行相应的预处理，如调整语音数据的信噪比；也可以根据不同的应用场景选择不同的语音切分模型、语音识别模型；还可以根据应用场景对语音切分模型、语音识别模型的模型结构进行调整，然后利用不同场景的训练样本对语音切分模型和语音识别模型进行迭代联合训练，得到训练完成的不同场景下的语音切分模型和语音识别模型。例如，针对智能客服系统训练特定的语音切分模型和语音识别模型、针对专业技术领域的多人会议场景训练特定的语音切分模型和语音识别模型，等等。

综上，本发明实施例基于各个说话人的声学特征对语音数据进行切分处理，将每个说话人对应的子句从交叠有多个说话人语音的语音数据中分离出来，可以保证每个子句的能量、说话人音调、音色的相对统一，有利于提升语音识别的准确度；并且，本发明实施例进一步还可以按照预设标签对子句进行归并处理，将存在关联关系的子句合并为目标子句，再对目标子句进行语音识别处理，可以进一步提升语音识别的准确度，提高语音识别性能。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种语音识别装置实施例的结构框图，所述装置可以包括：

语音切分模块201，用于根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；

归并处理模块202，用于按照预设标签对所述子句进行归并处理，得到目标子句；

语音识别模块203，用于对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。

可选地，所述语音切分模块，包括：

可选地，所述切分处理子模块，包括：

可选地，所述语音端点检测子模块，包括：

可选地，所述语音切分模块，包括：

所述语音识别模块，包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语音处理的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

A11、根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；

A12、按照预设标签对所述子句进行归并处理，得到目标子句；

A13、对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。

基于各个子句的语音内容确定各个子句的语音内容标签；

基于各个子句的声学特征确定各个子句的说话人标签；

计算两两相邻的有效子帧之间的声学特征相似度；

对待处理的语音数据进行分帧处理，得到至少两个语音帧；

基于自注意力机制构建语音切分模型；

图3是根据一示例性实施例示出的一种用于语音识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音处理装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音识别方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音识别方法，所述方法包括：根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；按照预设标签对所述子句进行归并处理，得到目标子句；对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音识别方法、一种语音识别装置和一种用于语音识别的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

按照预设标签对所述子句进行归并处理，得到目标子句；

2.根据权利要求1所述的方法，其特征在于，所述预设标签包括语音内容标签，所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

基于各个子句的语音内容确定各个子句的语音内容标签；

3.根据权利要求1所述的方法，其特征在于，所述预设标签包括说话人标签，所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

基于各个子句的声学特征确定各个子句的说话人标签；

4.根据权利要求1所述的方法，其特征在于，所述预设标签包括时长标签，所述按照预设标签对所述子句进行归并处理，得到目标子句，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述有效语音片段包含的各个说话人对应的声学特征，对所述有效语音片段进行切分处理，得到若干子句，包括：

计算两两相邻的有效子帧之间的声学特征相似度；

7.根据权利要求5所述的方法，其特征在于，所述对待处理的语音数据进行语音端点检测，确定所述语音数据的有效语音片段，包括：

对待处理的语音数据进行分帧处理，得到至少两个语音帧；

8.根据权利要求7所述的方法，其特征在于，所述特征参数包括短时能量和过零率，所述根据所述特征参数对每个语音帧进行分类处理，确定各个语音帧中的有效语音帧，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，包括：

基于自注意力机制构建语音切分模型；

10.根据权利要求9所述的方法，其特征在于，所述训练样本集还包括每个说话人的语音数据对应的语音识别结果，所述根据所述训练样本集对所述语音切分模型进行迭代训练，得到训练完成的语音切分模型，包括：

11.一种语音识别装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述预设标签包括语音内容标签，所述归并处理模块，包括：

13.根据权利要求11所述的装置，其特征在于，所述预设标签包括说话人标签，所述归并处理模块，包括：

14.一种用于语音识别的装置，其特征在于，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至10中任一所述的语音识别方法的指令。

15.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至10中任一所述的语音识别方法。