CN110797016A

CN110797016A - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN110797016A
Application number: CN201910142443.7A
Authority: CN
Inventors: 罗讷; 赵帅江; 蒋栋蔚; 龚彩霞; 邹伟
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2020-02-14
Anticipated expiration: 2039-02-26
Also published as: CN110797016B

Abstract

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质，其中，该方法包括：获取训练语音信号集；针对所述训练语音信号集中的每个训练语音信号，确定与该训练语音信号对应的语音特征和文本序列；其中，所述文本序列中包括不同语种对应的文本内容；根据所述语音特征和所述文本序列，训练得到语音识别模型；基于训练得到的所述语音识别模型识别目标语音信号。采用上述方案，利用训练得到的语音识别模型能够实现对混合语音的识别，识别的效率和准确率较高，从而能够满足混合语音用户的使用需求。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

自动语音识别(Automatic Speech Recognition,ASR)的目标是将人类语音转换为计算机可读的文字或指令。一个完整的语音识别系统通常可以包括语音信号预处理、特征提取、模型训练、声学模型、语言模型以及自然语言后处理等几大功能模块。其中，声学模型的作用可以用来辨识用户发什么样的音，不同语言之间由于音系、音段和韵律表现方面的差异，声学模型的建模方法也略有不同。

现有的语音识别系统大多都是基于单个语种进行设计的，也即，在同一时间内只能实现单种语言(比如普通话或英语)的语音识别。这主要是考虑到在声学建模阶段会基于根据不同语言的需求选择不同的识别单元，如对于汉语语音识别而言，由于汉语是单音节结构语言，所以以音节为识别单元是比较常见的，而对于英语或其他字母型语音识别而言，以音素作为识别单元则是比较常见的。

鉴于上述原因，基于单个语种进行识别的技术方案很难实现混合语音的识别，从而无法满足混合语音用户(比如喜欢中英文混合搜索的用户)的使用需求。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音识别方法、装置、电子设备及存储介质，能够对混合语音进行识别，且识别的效率和准确率均较高。

主要包括以下几个方面：

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

获取训练语音信号集；

针对所述训练语音信号集中的每个训练语音信号，确定与该训练语音信号对应的语音特征和文本序列；其中，所述文本序列中包括不同语种对应的文本内容；

根据所述语音特征和所述文本序列，训练得到语音识别模型；

基于训练得到的所述语音识别模型识别目标语音信号。

在一些实施例中，所述文本序列包括第一语种对应的至少一个第一字符和第二语种对应的至少一个语义词。

在一种实施方式中，可以根据以下步骤确定与训练语音信号对应的至少一个语义词：

针对所述训练语音信号集中的每个训练语音信号，确定原始语义词；

按照字符大小对所述原始语义词进行顺序划分，得到多个第二字符；

确定任意相邻的两个第二字符构成的第二字符对的出现频率，并将出现频率最高的第二字符对进行至少一次字符融合，得到与该训练语音信号对应的至少一个语义词。

在一些实施例中，可以按照如下步骤执行每次字符融合：

将出现频率最高的第二字符对对应的两个第二字符进行当前次字符融合，得到融合后的第二字符，并基于融合后的第二字符和融合前的第二字符确定融合后的语义词；

按照字符大小对融合后的语义词进行顺序划分，得到多个第二字符；确定任意相邻的两个第二字符构成的第二字符对的出现频率，并将出现频率最高的第二字符对对应的两个第二字符进行下一次字符融合。

在另一种实施方式中，在确定与训练语音信号对应的语音特征之前，还包括：

针对所述训练语音信号集中的每个训练语音信号，顺序对该训练语音信号进行分帧，得到多帧训练语音子信号；

针对每帧训练语音子信号，对该帧训练语音子信号依次进行频谱和倒谱分析，得到该帧训练语音子信号对应的语音特征；

确定与训练语音信号对应的语音特征，包括：

将所有帧训练语音子信号对应的语音特征进行组合，得到与所述训练语音信号对应的语音特征。

在又一种实施方式中，所述根据所述语音特征和所述文本序列，训练得到语音识别模型，包括：

将所述语音特征作为待训练的语音识别模型的输入，将所述文本序列作为待训练的语音识别模型的输出，训练得到所述语音识别模型。

在一些实施例中，所述语音识别模型的内设参数用于反映所述文本序列中包括的文本内容与各帧训练语音子信号之间的关联程度。

在再一种实施方式中，所述将所述语音特征作为待训练的语音识别模型的输入，将所述文本序列作为待训练的语音识别模型的输出，训练得到所述语音识别模型，包括：

针对所述训练语音信号集中的每个训练语音信号，将与该训练语音信号对应的语音特征输入至待训练的语音识别模型中，进行至少一轮模型训练，直至模型输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列一致时，停止循环，训练得到所述语音识别模型。

在一些实施例中，可以按照如下步骤进行每轮模型训练：

针对所述训练语音信号集中的每个训练语音信号，将与该训练语音信号对应的语音特征输入至待训练的语音识别模型中，输出该训练语音信号对应的文本序列；

确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致，若不一致，则调整所述语音识别模型的内设参数，并基于调整后的内设参数进行下一轮模型训练。

在再一种实施方式中，若输出的训练语音信号对应的文本序列为多个候选文本序列，在所述确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致之前，还包括：

基于预先建立的文本序列词典集确定每个候选文本序列的出现概率；

所述确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致，包括：

确定出现概率最高的候选文本序列与该训练语音信号对应的实际文本序列是否一致。

在再一种实施方式中，所述基于训练得到的所述语音识别模型识别目标语音信号，包括：

获取目标语音信号；

确定与所述目标语音信号对应的语音特征；

将确定的语音特征输入至训练得到的所述语音识别模型中，得到与所述目标语音信号对应的文本序列。

在一些实施例中，所述确定与所述目标语音信号对应的语音特征，包括：

顺序对所述目标语音信号进行分帧，得到多帧目标语音子信号；

针对每帧目标语音子信号，对该帧目标语音子信号依次进行频谱和倒谱分析，得到该帧目标语音子信号对应的语音特征；

确定与所述目标语音信号对应的语音特征，包括：

将所有帧目标语音子信号对应的语音特征进行组合，得到与所述目标语音信号对应的语音特征。

第二方面，本申请实施例还提供了一种语音识别装置，所述装置包括：

获取模块，用于获取训练语音信号集；

确定模块，用于针对所述训练语音信号集中的每个训练语音信号，确定与该训练语音信号对应的语音特征和文本序列；其中，所述文本序列中包括不同语种对应的文本内容；

训练模块，用于根据所述语音特征和所述文本序列，训练得到语音识别模型；

识别模块，用于基于训练得到的所述语音识别模型识别目标语音信号。

在一种实施方式中，所述确定模块，具体用于：

在一些实施例中，所述确定模块，具体用于：

在另一种实施方式中，所述确定模块，具体用于：

在确定与训练语音信号对应的语音特征之前，针对所述训练语音信号集中的每个训练语音信号，顺序对该训练语音信号进行分帧，得到多帧训练语音子信号；

在又一种实施方式中，所述训练模块，具体用于：

在再一种实施方式中，所述训练模块，具体用于：

在一些实施例中，所述训练模块，具体用于：

在再一种实施方式中，若输出的训练语音信号对应的文本序列为多个候选文本序列，所述训练模块，具体用于：

在所述确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致之前，基于预先建立的文本序列词典集确定每个候选文本序列的出现概率；

在再一种实施方式中，所述识别模块，具体用于：

获取目标语音信号；

确定与所述目标语音信号对应的语音特征；

在一些实施例中，所述识别模块，具体用于：

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面所述的语音识别方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的语音识别方法的步骤。

采用上述方案，根据训练语音信号集中的每个训练语音信号对应的语音特征和文本序列，预先进行语音识别模型的训练，这样，可以基于训练得到的语音识别模型自动识别出目标语音信号中不同语种对应的文本内容。也即，本申请实施例利用训练得到的语音识别模型能够实现对混合语音的识别，识别的效率和准确率较高，从而能够满足混合语音用户的使用需求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种语音识别方法的流程图；

图2示出了本申请实施例二所提供的语音识别方法中，确定语义词具体方法的流程图；

图3示出了本申请实施例三所提供的语音识别方法中，确定语音特征具体方法的流程图；

图4示出了本申请实施例五所提供的语音识别方法中，识别目标语音信号具体方法的流程图；

图5示出了本申请实施例六所提供的一种语音识别装置的结构示意图；

图6示出了本申请实施例七所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到相关基于单个语种进行识别的技术方案很难实现混合语音的识别，从而无法满足混合语音用户的使用需求。有鉴于此，本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质，其能够对混合语音进行识别，且识别的效率和准确率均较高，从而能够满足混合语音用户的使用需求，适用性更强。接下来通过几个实施例进行具体描述。

实施例一

如图1所示，为本申请实施例一提供的一种语音识别方法的流程图，应用于电子设备，且该电子设备可以是私有设备、运营商网络设备(例如，基站设备)，也可以是一定行业组织、团体和个人部署的站点(Station)等，具体而言，可以包括但不限于移动台、移动终端、移动电话、用户设备、手机及便携设备(portable equipment)、车辆等，例如，终端设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等，终端设备还可以是便携式、袖珍式、手持式、计算机内置或者车载移动装置。上述语音识别方法具体包括如下步骤：

S101、获取训练语音信号集。

这里，考虑到本申请实施例提供的语音识别方法可以应用各种涉及到混合语音识别的应用场景中，如呼叫中心这一应用场景，语音搜索这一应用场景，还可以应用于其它涉及到混合语音识别的应用场景中。针对不同的应用场景，获取到的训练语音信号集也不同，也即，本申请实施例中的训练语音信号集可以是基于应用场景确定的。另外，上述训练语音信号集可以是由多个训练语音信号组成的，且每个训练语音信号均可以是混合语音，且该混合语音可以是两种语种(如汉语和英语)的混合，还可以是三个及以上语种的混合。

在具体实施中，上述训练语音信号可以是从现有的语料库中获取的，如从SEAME语料库中获取中国话语-英语话语两种语音混合的语音信号，还可以是通过数据接口或者网络爬虫的方式从网络上获取海量的训练语音信号。从数据接口层面来讲，上述训练语音信号可以是从互联网网站精确开放的数据接口进行获取；从网络爬虫层面来讲，可以采用网络爬虫技术，如python(一种面向对象的解释型计算机程序设计语言)实现爬虫的功能，把想要获取的源代码中的音频文件作为训练语音信号爬取到本地的电子设备。

S102、针对所述训练语音信号集中的每个训练语音信号，确定与该训练语音信号对应的语音特征和文本序列；其中，所述文本序列中包括不同语种对应的文本内容。

这里，与训练语音信号对应的语音特征可以是对训练语音信号进行特征提取得到的，如利用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征提取方法进行语音特征的提取。

与训练语音信号对应的文本序列为该训练语音信号的正确的文本序列，该文本序列可以包括不同语种对应的文本内容，也即，可以包括两种及以上语种对应的文本内容。本申请实施例中，上述文本序列可以包括第一语种对应的至少一个第一字符以及第二语种对应的至少一个语义词，还可以包括第一语种对应的至少一个第一字符以及第二语种对应的至少一个第二字符。考虑到中英混音识别的广泛应用性，上述第一语种可以是汉语，第二语种可以为英语，这样，确定的文本序列是中英混合的文本内容，也即，针对每个训练语音信号确定的文本序列可以是直接基于汉语字符以及英语字符表征的，还可以是基于汉语字符和英语语义词表征的。

本申请实施例中，对于汉语而言，可以涉及少数高频中文字符，对于英语而言，可以涉及26个英文字符，这样，在后续语音识别模型训练阶段，可以直接对基于汉语字符以及英语字符表征的文本序列中的各个字符进行识别。另外，为了进一步提升后续语音识别模型训练的识别效率，本申请实中，对于基于汉语字符和英语语义词表征的文本序列中的英语语义词而言，可以是基于数据压缩算法得到的，这里的数据压缩可以指的是字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程，这样，在后续语音识别模型训练阶段，不仅可以对汉语字符进行识别，还可以对英语语义词进行识别。

S103、根据所述语音特征和所述文本序列，训练得到语音识别模型。

这里，在语音识别模型训练阶段，可以以S102确定的与训练语音信号对应的语音特征作为待训练的语音识别模型的输入，以S102确定的与训练语音信号对应的文本序列作为输出，训练得到语音识别模型的参数信息等，也即得到训练好的语音识别模型。本申请实施例可以采用端到端(Encoder-Decoder)模型作为语音识别模型，在训练得到语音识别模型后，就可以基于该语音识别模型识别目标语音信号了。

在具体实施中，语音识别模型将一个语音特征映射为一个文本序列。本申请实施例可以采用一种特殊类型的Encoder-Decoder模型——联结主义时态分类(ConnectionistTemporal Classification,CTC)模型和注意力(Attention)模型的结合模型。一方面，本申请实施例可以通过CTC模型将声学数据(也即语音特征)预测为字形或字符，这主要是考虑到CTC模型自身的优良特性，也即其使用马尔可夫假设有效的解决了话语顺序问题，而无需用于训练话语的目标标签的帧级对齐，在确保预测准确度的同时还提升了预测速度。另一方面，本申请实施例还可以通过注意力模型来执行声学帧和识别的符号之间的对准，也即，上述注意力模型能够利用网络中的一些表达从Encoder中寻找和单前预测输出有关的一些输入，关系越密切权重向量的值越大，这样Decoder就可以获得一个额外的对当前预测输出有帮助的向量，从而可以避免长序列的遗忘问题。本申请实施例采用上述两个模型构成的结合模型通过反复迭代学习，逐渐掌握各种基础知识，并最终学习到如何根据一个语音特征生成对应的文本序列。

S104、基于训练得到的所述语音识别模型识别目标语音信号。

这里，在本申请实施例中，通过对接收的目标语音信号进行语音特征提取，得到对应的语音特征后，输入至上述训练得到的语音识别模型即可输出得到与该目标语音信号对应的文本序列。其中，上述目标语音信号可以是待识别的混合语音信号。可见，采用预先训练好的语音识别模型能够高效快速的进行混合语音的识别，识别的效率和准确率均较高。

考虑到本申请实施例中有关训练语音信号对应的语义词可以是基于数据压缩算法得到的，接下来通过如下实施例二对语义词的确定进行说明。

实施例二

如图2所示，为本申请实施例提供的一种确定语义词的方法，该方法具体包括如下步骤：

S201、针对所述训练语音信号集中的每个训练语音信号，确定原始语义词；

S202、按照字符大小对所述原始语义词进行顺序划分，得到多个第二字符；

S203、确定任意相邻的两个第二字符构成的第二字符对的出现频率，并将出现频率最高的第二字符对进行至少一次字符融合，得到与该训练语音信号对应的至少一个语义词。

这里，可以首先确定与训练语音信号对应的原始语义词，然后对该原始语音词进行顺序划分，得到多个第二字符，最后确定任意相邻的两个第二字符构成的第二字符对的出现频率，并将出现频率最高的第二字符对进行至少一次字符融合，得到与该训练语音信号对应的至少一个语义词。

在具体实施时，可以利用字节对编码(Byte Pair Encoder,BPE)进行数据压缩，这样，在每次字符融合的过程中，最频繁的一对符号将会被替换为融合后的第二字符，例如，可以用集合{('A'，'B'，'C')，('A'，'B')}中的'AB'替换最频繁的对('A'，'B')，也即，在每次字符融合的过程中，均可以将出现频率最高的第二字符对对应的两个第二字符进行当前次字符融合，得到融合后的第二字符，并基于融合后的第二字符和融合前的第二字符确定融合后的语义词；按照字符大小对融合后的语义词进行顺序划分，得到多个第二字符；确定任意相邻的两个第二字符构成的第二字符对的出现频率，并将出现频率最高的第二字符对对应的两个第二字符进行下一次字符融合。接下来结合一个具体的示例进行说明。

将aaabdaaabac作为原始语义词，在确定aa这一字符对出现的次数最高，那么可以用上述原始语义词中没有的字符Z来替代aa，也即，aa作为最频繁的一对符号将会被替换为融合后的第二字符Z，这是首次字符融合，首次字符融合后的语义词ZabdZabac，同理，在确定ab这一字符对出现的次数最高，那么可以用上述融合后的语义词中没有的字符Y来替代ab，也即，ab作为最频繁的一对符号将会被替换为融合后的第二字符Y，这是第二次字符融合，第二次字符融合后的语义词ZYdZYac，同理，在确定ZY这一字符对出现的次数最高，那么可以用上述融合后的语义词中没有的字符X来替代ZY，也即，ZY作为最频繁的一对符号将会被替换为融合后的第二字符X，这是第三次字符融合，第三次字符融合后的语义词XdXac。最后，连续两个字符的出现频率都为1了，字符融合也结束了。

本申请实施例提供的语音识别方法在对训练语音信号进行语音特征的提取之前，可以先对训练语音信号进行分帧，然后再进行信号处理以得到对应的语音特征。如下实施例三所示，提供了一种与训练语音信号对应的语音特征确定方法。

实施例三

如图3所示，为本申请实施例三提供的一种语音特征确定方法的流程图，具体包括如下步骤：

S301、针对所述训练语音信号集中的每个训练语音信号，顺序对该训练语音信号进行分帧，得到多帧训练语音子信号；

S302、针对每帧训练语音子信号，对该帧训练语音子信号依次进行频谱和倒谱分析，得到该帧训练语音子信号对应的语音特征；

S303、将所有帧训练语音子信号对应的语音特征进行组合，得到与所述训练语音信号对应的语音特征。

这里，为了便于进行语音分析，本申请实施例可以首先将训练语音信号分成一个个小段，也即是对训练语音信号进行分帧，本申请实施例中，可以将M个采样点结合成一个帧，M的值可以为256或512。在对训练语音信号进行分帧后，可以先进行频谱分析，也即，将训练语音子信号转化到梅尔概率，然后再进行倒谱分析，也即，可以对时域的训练语音子信号做傅里叶变换，然后取log，然后再进行反傅里叶变换，以将上述训练子信号进行信号分解。这样，针对每帧训练语音子信号而言，其对应的频域信号可以拆分成两部分的乘积，即，频谱的包络和频谱的细节，前者对应的是频谱的低频信息，而细节部分对应的是频谱的高频信息，从而可以利用得到的上述语音特征来表征上述训练语音信号。

基于上述各个实施例可知，有关语音识别模型的训练是上述语音识别方法的核心步骤，接下来结合如下实施例进一步进行描述。

实施例四

本申请实施例中，有关语音识别模型训练的过程即是训练该语音识别模型的内设参数的过程，此外，本申请实施例进行语音识别模型训练的过程是一个循环过程，且需要经过至少一轮模型训练才能够得到上述语音识别模型，在模型输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列一致时或者是达到模型的预设收敛次数后，停止训练。

其中，在进行每轮模型训练的过程中，本申请实施例可以首先针对所述训练语音信号集中的每个训练语音信号，将与该训练语音信号对应的语音特征输入至待训练的语音识别模型中，输出该训练语音信号对应的文本序列，然后确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列一致，在确定不一致时，可以调整所述语音识别模型中的内设参数，并基于调整后的内设参数进行下一轮模型训练，如此循环直至达到预设收敛条件(如模型输出的文本序列与实际文本序列一致或训练次数达到预设收敛次数)时，得到上述语音识别模型。

另外，本申请实施例在进行内设参数确定的过程中，主要是考虑到了文本序列中包括的文本内容与各帧训练语音子信号之间的关联程度，也即，增加了语义注意力机制。本申请实施例中，可以利用得到的文本序列中包括的文本内容选择性的关注多帧多帧训练语音子信号对应的语音特征。

在具体实施中，为了更好的实现语音识别模型的准确训练，本申请实施例在训练语音识别模型时的至少一轮模型训练可以是针对训练语音信号集中的一个训练语音信号，还可以是针对训练语音信号集的。前者可以是针对训练语音信号集中的一个训练语音信号，将该训练语音信号输入至待训练的语音识别模型，得到模型输出的文本序列，然后将该文本序列与确定的实际文本序列进行对比，若符合预设要求，则停止模型训练，若不符合预设要求，则可以在对语音识别模型的内设参数更新后再次训练，依次类推，直至达到预设要求，可见，上述过程是针对训练语音信号集中的一个训练语音信号而言的。后者则可以是依次将训练语音信号集中的每个训练语音信号输入至待训练的语音识别模型，直至达到预设要求停止模型训练。为了进一步确保模型的识别准确度，本申请实施例在具体实现时可以是结合上述两种训练方式进行语音识别模型的训练的，在此不再赘述。

值得提出的是，不管那种训练方式，有关预设要求的确定均可以是基于文本序列与确定的实际文本序列是否一致的判断结果，或者达到预设训练次数的判断结果。

为了进一步提升语音识别模型的识别准确度，本申请实施例还可以利用文本序列词典集进行解码。也即，在本申请实施例中，在确定输出的训练语音信号对应的文本序列为多个候选文本序列时，可以首先基于预先建立的文本序列词典集确定每个候选文本序列的出现概率，然后再确定出现概率最高的候选文本序列与该训练语音信号对应的实际文本序列是否一致即可。这样，基于预先建立的文本序列词典集进一步提升了正确的文本序列的输出概率，从而进一步提升了模型识别的准确度。

鉴于上述提到的本申请实施例提供的语音识别方法可以是基于CTC模型和注意力模型的结合来训练语音识别模型，这里，将上述CTC模型和注意力模型与本申请实施例提供的语音识别方法的应用场景结合起来进一步进行说明。

其中，上述CTC模型的关键作用在于它消除了输入和输出序列之间先前对齐的需要，将模型输出作为所有可能标签序列的概率分布，以给定的输入序列x为条件，这里可以定义目标函数以最大化正确标记的概率。为了实现这一目的，本申请实施例可以引入表示为b的额外空白标签以将帧和标签映射到相同的长度，这里可以理解为没有目标标签。CTC模型通过边缘化所有可能的对齐来计算条件概率，并假设在给定对齐输入的不同时间步长的输出预测之间具有条件独立性。给定对应于训练语音信号x的标签文本序列y，其中y通常比语音识别中的训练语音信号x短得多。令β(y，x)为由Y∪b中的标记组成的所有序列的集合，其长度为|x|＝T，并且在折叠连续的重复目标标签后，去除任何空白符号(例如A b AAb B→AAB)之后与y相同。CTC模型将标签序列的声学概率P_CTC(y|x)定义为下式：

另外，上述注意力模型可以包含编码器网络和解码器网络，这样，基于注意力的编码器-解码器网络可以定义为：

其中，编码器Encoder(·)可以是长短期记忆(Long Short-Term Memory，LSTM)或双向LSTM(BLSTM)，注意力解码器AttentionDecoder(·)可以是LSTM或门控循环单元(GRU)。编码器网络将输入声学映射到更高级别的表示，基于注意力的解码器网络预测以先前预测和声学的完整序列为条件的下一输出符号，其可被定义为P(y_t|y_t-1，...，y₁，x)。这样，注意机制选择(或加权)输入帧以生成下一个输出元素。本申请实施例中，可以利用两个主要的注意机制，分别是基于内容的注意和基于位置的注意。这样，借助于神经机器翻译，基于内容的注意力可以直接用于语音识别，对于基于位置的注意，位置感知被添加到注意机制以更好地适合语音识别任务。

可见，本申请实施例通过使用联合CTC模型和注意力模型来提高鲁棒性并实现快速收敛，从而减轻对齐问题。另外，本申请实施例还添加了一个以CTC目标函数作为训练注意模型编码器的辅助任务。这样，在CTC的前向-后向算法强制输入和输出序列之间的单调对齐，将有助于注意力模型收敛，通过注意解码器学习标签的依赖性，可以避免由于条件独立假设而通常需要强外部语言模型的CTC问题。本申请实施例中，可以通过使用两种损失定义混合CTC-Attention目标函数来结合CTC模型和Attention模型，如下式所示：

L_MTL＝λL_Att+(1-λL_CTC) (3)

其中，λ是[0,1]范围内的可调参数，指示分配给注意力损失的权重。这样，在多任务学习(MTL)框架下，相对传统的注意力模型收敛的更快。

值得说明的是，考虑到不同语言的字符可能具有相似的声学特征，本申请实施例可以利用语言信息处理不同语言之间的混淆问题。一方面可以将联合语言识别(LID)技术应用在语音识别的过程中，另一方面可以通过上述MTL同时进行语言和语音的识别。

在训练得到语音识别模型后，本申请实施例便可以对目标语音信号进行语音识别了。通过如下实施例五对上述目标语音信号的识别过程进行具体说明。

实施例五

如图4所示，为本申请实施例提供的一种识别目标语音信号的方法的流程图，该方法具体包括：

S401、获取目标语音信号；

S402、确定与所述目标语音信号对应的语音特征；

S403、将确定的语音特征输入至训练得到的所述语音识别模型中，得到与所述目标语音信号对应的文本序列。

这里，与确定与训练语音信号对应的语音特征类似的是，本申请实施例在确定与目标语音信号对应的语音特征时，也可以一次进行分帧、频谱和倒谱分析来确定，也即，本申请实施例中，可以顺序对所述目标语音信号进行分帧，得到多帧目标语音子信号，然后针对每帧目标语音子信号，对该帧目标语音子信号依次进行频谱和倒谱分析，得到该帧目标语音子信号对应的语音特征，最后将所有帧目标语音子信号对应的语音特征进行组合，得到与所述目标语音信号对应的语音特征，具体描述参见实施例三的相关内容，在此不再赘述。

在确定了与目标语音信号对应的语音特征后，将该确定的语音特征输入至上述语音识别模型中，即可得到对应的文本序列，可见，利用预先训练好的语音识别模型进行混音识别，识别的效率和准确率均较高。

实施例六

基于同一发明构思，本申请实施例中还提供了与语音识别方法对应的语音识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语音识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，为本申请实施例所提供的语音识别装置示意图，该语音识别装置包括：

获取模块501，用于获取训练语音信号集；

确定模块502，用于针对所述训练语音信号集中的每个训练语音信号，确定与该训练语音信号对应的语音特征和文本序列；其中，所述文本序列中包括不同语种对应的文本内容；

训练模块503，用于根据所述语音特征和所述文本序列，训练得到语音识别模型；

识别模块504，用于基于训练得到的所述语音识别模型识别目标语音信号。

在一种实施方式中，所述确定模块502，具体用于：

在一些实施例中，所述确定模块502，具体用于：

在另一种实施方式中，所述确定模块502，具体用于：

在又一种实施方式中，所述训练模块503，具体用于：

在再一种实施方式中，所述训练模块503，具体用于：

在一些实施例中，所述训练模块503，具体用于：

在再一种实施方式中，若输出的训练语音信号对应的文本序列为多个候选文本序列，所述训练模块503，具体用于：

在再一种实施方式中，所述识别模块504，具体用于：

获取目标语音信号；

确定与所述目标语音信号对应的语音特征；

在一些实施例中，所述识别模块504，具体用于：

实施例七

如图6所示，为本申请实施例七所提供的一种电子设备的结构示意图，包括：处理器601、存储介质602和总线603，所述存储介质602存储有所述处理器601可执行的机器可读指令，当电子设备运行时，所述处理与所述存储介质602之间通过总线603通信，所述机器可读指令被所述处理器601执行时执行如下处理：

获取训练语音信号集；

基于训练得到的所述语音识别模型识别目标语音信号。

在一种实施方式中，上述处理器601执行的处理中，可以根据以下步骤确定与训练语音信号对应的至少一个语义词：

在一些实施例中，上述处理器601执行的处理中，可以按照如下步骤执行每次字符融合：

在另一种实施方式中，在确定与训练语音信号对应的语音特征之前，上述处理器601执行的处理还包括：

上述处理器601执行的处理中，确定与训练语音信号对应的语音特征，包括：

在又一种实施方式中，上述处理器601执行的处理中，所述根据所述语音特征和所述文本序列，训练得到语音识别模型，包括：

在再一种实施方式中，上述处理器601执行的处理中，所述将所述语音特征作为待训练的语音识别模型的输入，将所述文本序列作为待训练的语音识别模型的输出，训练得到所述语音识别模型，包括：

在一些实施例中，上述处理器601执行的处理中，可以按照如下步骤进行每轮模型训练：

在再一种实施方式中，若输出的训练语音信号对应的文本序列为多个候选文本序列，在所述确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致之前，上述处理器601执行的处理还包括：

上述处理器601执行的处理中，所述确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致，包括：

在再一种实施方式中，上述处理器601执行的处理中，所述基于训练得到的所述语音识别模型识别目标语音信号，包括：

获取目标语音信号；

确定与所述目标语音信号对应的语音特征；

在一些实施例中，上述处理器601执行的处理中，所述确定与所述目标语音信号对应的语音特征，包括：

确定与所述目标语音信号对应的语音特征，包括：

实施例八

本申请实施例八还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述实施例所对应的语音识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述语音识别方法，从而解决目前基于单个语种进行识别的技术方案很难实现混合语音的识别的问题，达到能够对混合语音进行识别，且识别的效率和准确率均较高的效果。

基于相同的技术构思，本申请实施例还提供了一种计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行上述语音识别方法的步骤，具体实现可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取训练语音信号集；

基于训练得到的所述语音识别模型识别目标语音信号。

2.根据权利要求1所述的方法，其特征在于，所述文本序列包括第一语种对应的至少一个第一字符和第二语种对应的至少一个语义词。

3.根据权利要求2所述的方法，其特征在于，根据以下步骤确定与训练语音信号对应的至少一个语义词：

4.根据权利要求3所述的方法，其特征在于，按照如下步骤执行每次字符融合：

5.根据权利要求1所述的方法，其特征在于，在确定与训练语音信号对应的语音特征之前，还包括：

确定与训练语音信号对应的语音特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音特征和所述文本序列，训练得到语音识别模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述语音识别模型的内设参数用于反映所述文本序列中包括的文本内容与各帧训练语音子信号之间的关联程度。

8.根据权利要求6所述的方法，其特征在于，所述将所述语音特征作为待训练的语音识别模型的输入，将所述文本序列作为待训练的语音识别模型的输出，训练得到所述语音识别模型，包括：

9.根据权利要求8所述的方法，其特征在于，按照如下步骤进行每轮模型训练：

10.根据权利要求9所述的方法，其特征在于，若输出的训练语音信号对应的文本序列为多个候选文本序列，在所述确定输出的该训练语音信号对应的文本序列与该训练语音信号对应的实际文本序列是否一致之前，还包括：

11.根据权利要求1～10中任一项所述的方法，其特征在于，所述基于训练得到的所述语音识别模型识别目标语音信号，包括：

获取目标语音信号；

确定与所述目标语音信号对应的语音特征；

12.根据权利要求11所述的方法，其特征在于，所述确定与所述目标语音信号对应的语音特征，包括：

确定与所述目标语音信号对应的语音特征，包括：

13.一种语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取训练语音信号集；

14.根据权利要求13所述的装置，其特征在于，所述文本序列包括第一语种对应的至少一个第一字符和第二语种对应的至少一个语义词。

15.根据权利要求14所述的装置，其特征在于，所述确定模块，具体用于：

16.根据权利要求15所述的装置，其特征在于，所述确定模块，具体用于：

17.根据权利要求13所述的装置，其特征在于，所述确定模块，具体用于：

18.根据权利要求17所述的装置，其特征在于，所述训练模块，具体用于：

19.根据权利要求18所述的装置，其特征在于，所述语音识别模型的内设参数用于反映所述文本序列中包括的文本内容与各帧训练语音子信号之间的关联程度。

20.根据权利要求18所述的装置，其特征在于，所述训练模块，具体用于：

21.根据权利要求20所述的装置，其特征在于，所述训练模块，具体用于：

22.根据权利要求21所述的装置，其特征在于，若输出的训练语音信号对应的文本序列为多个候选文本序列，所述训练模块，具体用于：

23.根据权利要求13～22中任一项所述的装置，其特征在于，所述识别模块，具体用于：

获取目标语音信号；

确定与所述目标语音信号对应的语音特征；

24.根据权利要求23所述的装置，其特征在于，所述识别模块，具体用于：

25.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至12任一所述的语音识别方法的步骤。

26.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至12任一所述的语音识别方法的步骤。