CN111261141A

CN111261141A - 一种语音识别方法以及语音识别装置

Info

Publication number: CN111261141A
Application number: CN201811459773.0A
Authority: CN
Inventors: 梁鸣心; 郭庭炜; 赵帅江
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-09

Abstract

本申请提供了一种语音识别方法以及语音识别装置，其中语音识别方法包括：获取待识别语音；确定表征所述待识别语音的声学特征的第一特征向量，以及所述待识别语音的至少一种发音特征分别对应的第二特征向量；基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息；根据所述待识别语音的语种信息，获取与所述语种信息对应的语音识别模型，并将所述第一特征向量输入至所述语音识别模型，获取所述待识别语音的语音识别结果。本申请实施例能够提升对待识别语音的识别准确率。

Description

一种语音识别方法以及语音识别装置

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种语音识别方法以及语音识别装置。

背景技术

近年来，随着语音产品的不断推广，语音输入作为一种重要的人机交互手段，被越来越多的人们所接受。然而，由于不同地区的语言千差万别，因此很难找到一种有效的通用语音识别模型来处理所有不同种类的语音输入。当前一般采用通过用户人工设置惯用语种，并在用户输入语音后，基于用户设置的惯用语种，确定与用户人工设置的习惯语种对应的语音识别模型，然后根据确定的鉴别模型，来识别用户的语音。

当前的语音识别方法，由于一台终端设备一般只设置一种惯用语种，一旦用户更改输入的语音语种，或者终端设备被他人使用，将无法正确识别出用户输入的语音。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音识别方法以及语音识别装置，能够提升对待识别语音的识别准确率。

第一方面，提供一种语音识别方法，包括：

获取待识别语音；

确定表征所述待识别语音的声学特征的第一特征向量，以及所述待识别语音的至少一种发音特征分别对应的第二特征向量；

基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息；

根据所述待识别语音的语种信息，获取与所述语种信息对应的语音识别模型，并将所述第一特征向量输入至所述语音识别模型，获取所述待识别语音的语音识别结果。

一种可选实施方式中，所述声学特征包括：梅尔频率倒谱系数MFCC特征；所述发音特征包括：音素特征、音节特征、字特征中至少一项。

一种可选实施方式中，所述基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息，包括：

将所述第一特征向量和所述第二特征向量进行融合，生成目标特征向量；

将所述目标特征向量输入至预先训练的所述语种鉴别模型，得到所述待识别语音的语种信息。

一种可选实施方式中，将所述第一特征向量和所述第二特征向量进行融合，生成目标特征向量，包括：

将所述第一特征向量和所述第二特征向量进行拼接，生成所述目标特征向量；或者，

将所述第一特征向量和所述第二特征向量进行融合进行拼接，形成拼接向量；提取所述拼接向量的低维变换矢量特征，并基于提取的低维变换矢量特征生成所述目标特征向量。

一种可选实施方式中，采用下述方式得到所述语种鉴别模型：

获取多个第一语音样本，以及每个所述第一语音样本的语种信息；

针对获取的每个所述第一语音样本，确定表征该第一语音样本声学特征的第一样本特征向量，以及该第一语音样本的至少一种发音特征分别对应的第二样本特征向量；

基于所述第一样本特征向量和所述第二样本特征向量，以及所述第一语音样本对应的语种信息，进行语种鉴别模型的训练。

一种可选实施方式中，确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量，包括：

针对每种发音特征，将所述第一特征向量输入该种发音特征对应的特征向量提取网络中，得到该种发音特征的第二特征向量。

一种可选实施方式中，采用下述方式生成所述特征向量提取网络：

获取多个第二语音样本，以及每个所述第二语音样本在所述至少一种所述发音特征下的特征标注信息；

针对获取的每个第二语音样本，确定表征该第二语音样本的声学特征的第三样本特征向量；

基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练。

一种可选实施方式中，所述基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练，包括：

计算所述第三样本特征向量与所述特征标注信息之间的相似度，并将所述相似度与预设的所述相似度阈值进行比对；

在所述相似度小于预设的所述相似度阈值时，调整所述特征向量提取网络参数，并基于调整后的特征向量提取网络重新获得所述第三样本特征向量；

返回所述计算所述第三样本特征向量与所述特征标注信息之间的相似度的操作，直到所述第三样本特征向量与所述特征标注信息之间的相似度不小于预设的相似度阈值。

一种可选实施方式中，基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练，包括：

将本轮未完成训练的第二语音样本的中的任意一个作为目标第二语音样本；

基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数；

将所述目标第二语音样本作为本轮完成训练的第二语音样本，并将本轮未完成训练的第二语音样本的中的任意一个作为新的目标第二语音样本，使用调整了参数后的特征向量提取网络提取所述新的目标第二语音样本的第三样本特征向量，并返回所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络参数的步骤；

重复上述步骤，直至所有第二语音样本完成本轮训练，进入下一轮训练，直至满足预设的模型训练截止条件。

一种可选实施方式中，所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数，包括：

计算目标第二语音样本的第三样本特征向量与所述目标第二语音样本对应的特征标注信息之间的相似度；

将所述相似度与预设的相似度阈值进行比对；

在所述相似度小于预设的所述相似度阈值时，调整特征向量提取网络的参数。

一种可选实施方式中，所述特征向量提取网络包括瓶颈特征提取层；

采用下述方式确定所述至少一种发音特征分别对应所述第二特征向量：

将所述第一特征向量输入特征向量提取网络中，从特征向量提取网络中的瓶颈特征提取层获取所述第二特征向量。

一种可选实施方式中，所述第一特征向量为梅尔频率倒谱系数MFCC向量，所述第二特征向量为瓶颈特征BNF向量。

一种可选实施方式中，所述语种鉴别模型包括：概率线性判别分析PLDA模型，或者神经网络模型。

一种可选实施方式中，所述采用下述方式得到所述语音识别模型：

获取多个第三语音样本，以及每个所述第三语音样本在的内容标注信息；

针对获取的每个第三语音样本，确定表征该第三语音样本的声学特征的第四样本特征向量；

基于所述第四样本特征向量和所述内容标注信息，进行所述语音识别模型的训练。

第二方面，提供一种语音识别装置，包括：

获取模块，用于获取待识别语音；

确定模块，用于确定表征所述待识别语音的声学特征的第一特征向量，以及所述待识别语音的至少一种发音特征分别对应的第二特征向量；

语种信息获取模块，用于基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息；

语音识别模块，用于根据所述待识别语音的语种信息，获取与所述语种信息对应的语音识别模型，并将所述第一特征向量输入至所述语音识别模型，获取所述待识别语音的语音识别结果。

一种可选实施方式中，所述语种信息获取模块，用于采用下述步骤基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息：

一种可选实施方式中，所述语种信息获取模块，用于采用下述步骤将所述第一特征向量和所述第二特征向量进行融合，生成目标特征向量：

一种可选实施方式中，还包括：第一模型训练模块，用于采用下述方式得到所述语种鉴别模型：

一种可选实施方式中，所述确定模块，用于采用下述步骤确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量：

一种可选实施方式中，还包括：第二模型训练模块，用于采用下述步骤生成所述特征向量提取网络：

一种可选实施方式中，所述第二模型训练模块，用于采用下述步骤基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练：

一种可选实施方式中，所述第二模型训练模块，用于采用下述步骤基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数：

将所述相似度与预设的相似度阈值进行比对；

所述确定模块，用于采用下述步骤采用下述方式确定所述至少一种发音特征分别对应所述第二特征向量：

一种可选实施方式中，还包括：第三模型训练模块，所述采用下述方式得到所述语音识别模型：

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面任一所述的语音识别方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面任一所述的语音识别方法的步骤。

本申请实施例通过在获取了待识别语音后，确定表征待识别语音的声学特征的第一特征向量，获取待识别语音的至少一种发音特征分别对应的第二特征向量，并根据表征待识别语音的声学特征的第一特征向量，以及待识别语音的至少一种发音特征分别对应的第二特征向量，以及预先训练的语音识别模型，对待识别语音的语种信息进行鉴别，然后得到的待识别语音的语种信息，确定与语种信息对应的识别模型，得到待识别语音的语音识别结果，进而实现了对待识别语音首先进行语种鉴别，然后根据语种鉴别结果对应的语音识别模型，对输入语音进行语音识别，使得对待识别语音具有更高的识别准确率。

另外，本申请另一实施例通过确定每个第一语音样本的第一样本特征向量和第二样本特征向量，并基于第一样本特征向量和第二样本特征向量，以及第一语音样本对应的语种信息进行语种鉴别模型的训练，在该过程中，第一样本特征向量能够表征第一语音样本的声学特征，每个第二样本特征向量能够表征第一语音样本的一种发音特征，实现对输入语音的声学特征和发音特征更有效的利用，从而实现最终语种鉴别结果准确率的提升。

另外，本申请的一些实施例中，第一样本特征向量为MFCC向量，第二样本特征向量为BNF样本特征向量，该实施例基于不同的特征向量提取网络来提取输入语音的多种BNF特征，并通过融合具有互补性的BNF特征以及MFCC特征来生成输入的第一语音样本的特征向量，使得所提特征能够全面反映出第一语音样本的特性。一方面，通过结合BNF对输入语音相邻帧之间关联信息的表示能力以及MFCC对每一帧独立的声学特征的刻画能力，融合后的目标样本特征向量对第一语音样本的刻画能力的有了极大的提升。另一方面，多种不同BNF特征能够从多个角度(如音素、音节等)对第一语音样本的发音特征进行全面的刻画，也能进一步增强了融合特征进行语种鉴别的能力。

此外，在另外一些实施例中，特征向量提取网络为DNN，该实施例借助DNN在增量学习方面优势，具有较强的迭代能力和提升空间。在面对线上环境中快速增长的数据时，新的方法能够实现新增数据的快速利用，从而更好得应用到现实场景中。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语音识别系统100的框图；

图2示出了本申请实施例所提供的语音识别系统100中，示例性硬件和软件组件的示意图；

图3示出了本申请实施例所提供的一种语音识别方法的流程图；

图4示出了本申请实施例所提供的语音识别方法中，生成语种鉴别模型的具体方法的流程图；

图5示出了本申请实施例所提供的语音识别方法中，生成特征向量提取网络的具体方法的流程图；

图6示出了本申请实施例所提供的语音识别方中，一种进行特征向量提取网络的训练的具体方法的流程图；

图7示出了本申请实施例所提供的语音识别方法中，另一种进行特征向量提取网络的训练的具体方法的流程图；

图8示出了本申请实施例所提供的语音识别方法中，进行语音识别模型的训练的具体方法的流程图；

图9示出了本申请实施例所提供的语音识别方法中，对语音识别模型进行训练的具体方法的流程图；；

图10示出了本申请实施例所提供的一种语音识别装置的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“语音打车”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕对输入至打车软件中的语音进行语音识别进行描述，但是应该理解，这仅是一个示例性实施例。本申请可以应用于任何其他交通运输类型。例如，本申请可以应用于不同的运输系统环境，包括陆地，海洋，或航空等，或其任意组合。运输系统的交通工具可以包括出租车、私家车、顺风车、公共汽车、火车、子弹头列车、高速铁路、地铁、船只、飞机、宇宙飞船、热气球、或无人驾驶车辆等，或其任意组合。本申请还可以包括语音翻译、语音转文字、语音识别等需要对语音的语种进行鉴别的任何服务系统，例如，用于聊天系统、购物系统等。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等，或其任意组合。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种语音识别方法。该方法可以通过基于表征待识别语音的第一特征向量，实现了对待识别语音首先进行语种鉴别，然后根据语种鉴别结果对应的语音识别模型，对输入语音进行语音识别，使得对待识别语音具有更高的识别准确率。

值得注意的是，在本申请提出申请之前，在进行语音识别中，只能够使用预先设置的语音识别模型对语音进行识别，一旦用户更换语种，将无法正确识别。

图1是本申请一些实施例的一种应用场景的系统100框图。例如，系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台。系统100可以包括服务器110、网络120、服务请求方终端130、服务提供方终端140和数据库150中的一种或多种，服务器110中可以包括执行指令操作的处理器。

本申请实施例的语音识别方法可以应用于上述系统100的服务器110、服务请求方终端130、和服务提供方终端140中的任意一种或多种。

在一些实施例中，实施上述语音识别方法的服务器110可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式系统)。在一些实施例中，服务器110相对于终端，可以是本地的、也可以是远程的。例如，服务器110可以经由网络120访问存储在服务请求方终端130、服务提供方终端140、或数据库150、或其任意组合中的信息和/或数据。作为另一示例，服务器110可以直接连接到服务请求方终端130、服务提供方终端140和数据库150中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。在一些实施例中，服务器110可以在具有本申请中图2所示的一个或多个组件的电子设备200上实现。

在一些实施例中，服务器110可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从服务请求方终端130获得的服务请求来确定目标车辆。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等，或其任意组合。

上述网络120可以用于信息和/或数据的交换。在一些实施例中，上述系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140和数据库150)可以向其他组件发送信息和/或数据。例如，服务器110可以经由网络120从服务请求方终端130获取服务请求。在一些实施例中，网络120可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络130可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched TelephoneNetwork，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等，或其任意组合。在一些实施例中，网络120可以包括一个或多个网络接入点。例如，网络120可以包括有线或无线网络接入点，例如基站和/或网络交换节点，上述系统100的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。

在一些实施例中，可以由服务请求方终端130实施上述语音识别方法，该服务请求方终端130的用户可以是除服务实际需求者之外的其他人。例如，服务请求方终端130的用户A可以使用服务请求方终端130来为服务实际需求者B发起服务请求(比如，用户A可以为自己的朋友B叫车)，或者从服务器110接收服务信息或指令等。在一些实施例中，服务提供方终端140的用户可以是服务实际提供者，也可以是除服务实际提供者之外的其他人。例如，服务提供方终端140的用户C可以使用服务提供方终端140接收由服务实际提供者D提供服务的服务请求(比如用户C可以为自己雇用的司机D接单)，和/或来自服务器110的信息或指令。

在一些实施例中，服务请求方终端130可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。在一些实施例中，机动车辆中的内置设备可以包括车载计算机、车载电视等。在一些实施例中，服务请求方终端130可以是具有用于定位服务请求方和/或服务请求方终端的位置的定位技术的设备。

在一些实施例中，可以由服务提供方终端140实施上述语音识别方法，该服务提供方终端140可以是与服务请求方终端130类似或相同的设备。在一些实施例中，服务提供方终端140可以是具有定位技术的设备，用于定位服务提供方和/或服务提供方终端的位置。在一些实施例中，服务请求方终端130和/或服务提供方终端140可以与其他定位设备通信以确定服务请求方、服务请求方终端130、服务提供方、或服务提供方终端140、或其任意组合的位置。在一些实施例中，服务请求方终端130和/或服务提供方终端140可以将定位信息发送给服务器110。

数据库150可以存储数据和/或指令。在一些实施例中，数据库150可以存储从服务请求方终端130和/或服务提供方终端140获得的数据。在一些实施例中，数据库150可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库150可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM)；RAM可以包括动态RAM(Dynamic RandomAccess Memory,DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM,DDR SDRAM)；静态RAM(Static Random-Access Memory,SRAM)，晶闸管RAM(Thyristor-Based Random Access Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(Programmable Read-OnlyMemory,PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory,PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。在一些实施例中，数据库150可以在云平台上实现。仅作为示例，云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等，或其任意组合。

在一些实施例中，数据库150可以连接到网络120以与上述系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140等)通信。系统100中的一个或多个组件可以经由网络120访问存储在数据库150中的数据或指令。在一些实施例中，数据库150可以直接连接到语音识别系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140等)；或者，在一些实施例中，数据库150也可以是服务器110的一部分。

在一些实施例中，系统100中的一个或多个组件(例如，服务器110，服务请求方终端130，服务提供方终端140等)可以具有访问数据库150的权限。在一些实施例中，当满足一定条件时，系统100中的一个或多个组件可以读取和/或修改与服务请求方、服务提供方、或公众、或其任意组合有关的信息。例如，服务器110可以在接收服务请求之后读取和/或修改一个或多个用户的信息。作为另一示例，服务提供方终端140可以在从服务请求方终端130接收服务请求时访问与服务请求方有关的信息，但是服务提供方终端140可以不修改服务请求方的相关信息。

图2示出根据本申请的一些实施例的可以实现本申请思想的服务器110、服务请求方终端130、服务提供方终端140的电子设备200的示例性硬件和软件组件的示意图。例如，处理器可以用于电子设备200上，并且用于执行本申请中的功能。

电子设备200可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的语音识别方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口250。

为了便于说明，在电子设备200中仅描述了一个处理器。然而，应当注意，本申请中的电子设备200还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备200的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

参见图3所示，本申请实施例提供一种语音识别方法，包括S301～S304。下面分别对S301～S304加以说明：

S301：获取待识别语音。

此处，根据语音识别方法的应用场景不同，待识别语音的获取方法可有不同的获取方式；例如将该语音识别方法应用在语音打车场景而言，则可以是如图1中的服务请求方终端130。在服务请求方终端130中设置有语音输入按键；该语音输入按键能够被用户触发；且当语音输入案件被用户触发后，服务请求方终端130能够获取用户输入的语音。用户输入的语音即为待识别语音。

S302：确定表征所述待识别语音的声学特征的第一特征向量，以及所述待识别语音的至少一种发音特征分别对应的第二特征向量。

此处，所述声学特征包括：梅尔频率倒谱系数MFCC特征；所述发音特征包括：音素特征、音节特征、字特征中至少一项。

待识别语音的第一特征向量的具体获取方式，与下述S303中的第一语音样本的第一样本特征向量的获取方式类似，具体请详见S303的语种鉴别模型训练过程，在此不再赘述。

待识别语音的至少一种发音特征分别对应的第二特征向量的获取方式，下述S303中的第一语音样本的至少一种发音特征分别对应的第二样本特征向量的获取方式类似，具体请详见S303的语种鉴别模型训练过程，在此不再赘述。

S303：基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息。

在具体实施中，图4示出一种生成语种鉴别模型的具体方法，包括：

S401：获取多个第一语音样本，以及每个所述第一语音样本的语种信息。

在具体实现的时候，在基于本申请实施例提供的语种鉴别模型训练方法得到语种鉴别模型的时候，第一语音样本包括了语种鉴别模型所能够识别的所有语种的多个第一语音样本。例如，如果语种鉴别模型用于鉴别中文、英文、法文等多种语种，则第一语音样本包括了中文、英文、法文等多种语种分别对应的多个第一语音样本；如果语种鉴别模型用于鉴别普通话、闽南语、粤语、山东话、四川话、藏语等不同语言的语种，则第一语音样本就包括了普通话、闽南语、粤语、山东话、四川话、藏语等不同语言分别对应的多个第一语音样本；如果语种鉴别模型用于鉴别广东闽南语、香港闽南语、福建闽南语等不同语言的语种，则第一语音样本中包括广东闽南语、香港闽南语、福建闽南语等不同语言分别对应的多个第一语音样本。

第一语音样本的语种信息，是各个第一语音样本具体归属语种的相关信息。在一种可选实施例中，各个第一语音样本的具体归属语种可以采用人工标注的方式获得。

在另一种可选实施例中，各个第一语音样本可以通过采集使用特定语种讲话的用户的语音获得，并根据用户使用的特定语种，获得各个第一语音样本的语种信息。

S402：针对获取的每个第一语音样本，确定表征该第一语音样本的声学特征的第一样本特征向量，以及该第一语音样本的至少一种发音特征分别对应的第二样本特征向量。

在具体实现的时候：

A：第一样本特征向量可以看作是对第一语音样本进行特征提取和降低维度运算后，获得的能够表征第一语音样本的第一样本特征向量。在一种可选的实施方式中，表征第一语音样本的声学特征的第一样本特征向量为MFCC向量。

此处，可以采用下述方法得到第一语音样本的MFCC向量：

(1)预加重：将经采样后的数字语音信号通过一个高通滤波器，得到预加重后的语音信号。其中，预加重的目的是提升语音信号中的高频部分，使语音信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

(2)分帧和加窗：分帧即将语音分成多个帧，先将语音信号中的N个采样点集合成一个观测单位，称为帧。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域。

加窗：语音信号在长范围内是不停变动的，没有固定的特性无法做处理，所以将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等，根据窗函数的频域特性，常采用汉明窗。

(3)快速傅里叶变换：由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以加窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

(4)使用梅尔滤波器对经过快速傅里叶变换后的语音信号进行滤波。

(5)对经过梅尔滤波器滤波的语音信号进行对数能量参数的运算。

(6)对(5)输出的信号进行离散余弦变换，得到第一语音样本的MFCC向量。

B：第二样本特征向量能够表征第一语音样本的在某一方面的一种发音特征，如音素特征、音节特征、字特征等。第二样本特征向量不是独立的帧特征，而是能够表征相邻帧之间相互的关联关系的特征。

在一种可选的实施例中，可以采用下述方式生成第一语音样本的第二样本特征向量：针对每种发音特征，将所述第一样本特征向量输入该种发音特征对应的特征向量提取网络中，得到该种发音特征的第二样本特征向量。

此处，发音特征与特征向量提取网络具有一一对应关系；发音特征包括几种，则要预先训练对应数量的特征向量提取网络。

具体地，参见图5所示，本申请实施例提供一种生成所述特征向量提取网络的具体方法，该方法包括S501～S503：

S501：获取多个第二语音样本，以及每个所述第二语音样本在所述至少一种所述发音特征下的特征标注信息。

此处，第二语音样本的种类和第一语音样本的语种数量相同和语种；例如第一语音样本包括：普通话、闽南语、粤语、山东话、四川话、藏语，则第二语音样本也包括普通话、闽南语、粤语、山东话、四川话、藏语。第二语音样本和第一语音样本可以完全相同，可以部分相同，也可以完全不同。而用于训练不同发音特征分别对应的特征向量提取网络所使用的第二语音样本则是相同的。

第二语音样本在各个发音特征下的特征标注信息可以采用人工的方式进行标注，也可以基于机器学习的方式自动标注。

S502：针对获取的每个第二语音样本，确定表征该第二语音样本的声学特征的第三样本特征向量。

此处，第二语音样本的第三样本特征向量能够表征第二语音样本。在一种可选实施例中，第三样本特征向量也可以是MFCC向量。第三样本特征向量的提取方式可以参见上述第一样本特征向量的提取方式，在此不再赘述。

S503：基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练。

此处，基于第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练，是将第三样本特征向量输入至基础特征向量提取网络中，使用该基础特征向量提取网络对第三样本特征向量进行特征学习，并输出为第三样本特征向量所提取的能够表征对应发音特征的特征信息。由于基础特征向量提取网络为第三样本特征向量所提取的特征信息应当是与对应的特征标注信息保持一致的。因此在特征信息与对应的特征标注信息不一致的情况下，则调整特征向量提取网络的参数，使得特征向量提取网络在调整了参数后，重新为第三样本特征向量所提取的特征信息能够趋向于与特征标注信息保持一直的方向变化。最终，基于多个第二语音样本对应的第三样本特征向量和对应特征标注信息对基础特征向量提取网络的训练，生成特征向量提取网络。

在一种可选实施例中，特征向量提取网络包括：深度神经网络(Deep NeuralNetworks，DNN)。深度神经网络基于第三样本特征向量为第二语音样本提取对应发音特征的特征向量。

需要注意的是，在基于DNN为第一语音样本提取第二样本特征向量时，将第一样本特征向量输入至DNN后，将DNN最后一层网络输出层的输出作为第二样本特征向量；也可以在DNN中还包括瓶颈层Bottleneck，将第一样本特征向量输入至DNN后，将该瓶颈层能够输出瓶颈特征(Bottleneck Feature，BNF)作为第二样本特征向量。此处，该瓶颈层并非DNN的最后一层网络，而位于DNN中的中后部。瓶颈层能够对DNN所提取的特征进行降维；将BNF作为第二样本特征向量，能够降低对语种鉴别模型的训练难度。

在基于所述第三样本特征向量和所述特征标注信息，对特征向量提取网络进行训练的时候，可以采用下述方式中任意一种：

其一：参见图6所示，本申请实施例提供的第一种基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练的具体方法，包括：

S601：计算所述第三样本特征向量与所述特征标注信息之间的相似度，并将所述相似度与预设的相似度阈值进行比对。

此处，相似度包括：欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离或杰卡德相似系数、相关系数或相关距离，以及信息熵中任意一种。

S602：检测相似度是否大于或者等于预设的相似度阈值。如果否，则跳转置S603；如果是，则结束。

S603：调整所述特征向量提取网络参数，并基于调整后的特征向量提取网络重新获得所述第三语音样本特征向量；跳转至S601。

参见图7所示，本申请实施例还提供第二种基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练的具体方法，包括：

S701：将本轮未完成训练的第二语音样本的中的任意一个作为目标第二语音样本；

S702：基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数。

此处，可以采用下述方式调整调整特征向量提取网络的参数：

计算所述目标第二语音样本的第三样本特征向量与对应的特征标注信息之间的相似度；

将所述相似度与预设的似度阈值进行比对；

S703：检测是否存在本轮未完成训练的第二语音样本；如果是，则跳转至S704；如果否，则跳转至S706。

S704：将所述目标第二语音样本作为本轮完成训练的第二语音样本，并将本轮未完成训练的第二语音样本的中的任意一个作为新的目标第二语音样本。

S705：使用调整了参数后的特征向量提取网络提取所述新的目标第二语音样本的第三样本特征向量；返回S702。

S706：进入下一轮训练。

直至满足预设的模型训练截止条件。

此处，模型训练截至条件可以是如下条件中任意一种：

(1)训练的轮数到达预设轮数。此时，将最后一轮训练得到的特征向量提取网络，作为训练好的特征向量提取网络。

(2)使用测试样本集对本轮训练完成后得到的特征向量提取网络进行训练；如果测试样本集中，基于特征向量提取网络为测试样本提取的第三样本特征向量与测试样本的特征标注信息之间的相似度满足预设的相似度要求的测试样本，在测试样本集中占据的百分比达到第一预设百分比，则停止对特征向量提取网络的训练，并讲最后一轮得到的特征向量提取网络作为训练好的特征向量提取网络。

(3)当前轮训练中，相似度大于或者等于预设的相似度阈值的第二语音样本的条数，在所有语音样本中占据的百分比达到第二预设百分比。

基于上述过程，完成对特征向量提取网络的训练。

在确定所述第一语音样本的至少一种发音特征分别对应的第二样本特征向量时，就能够将第一样本特征向量输入至预先训练好的特征向量提取网络中，得到每个第一语音样本在各种发音特征下的第二样本特征向量。

在针对每个第一语音样本，在确定表征该第一语音样本的第一样本特征向量和该第一语音样本的至少一种发音特征分别对应的第二样本特征向量后，还包括：

S403：基于所述第一样本特征向量和所述第二样本特征向量，以及所述第一语音样本对应的语种信息，进行语种鉴别模型的训练。

在具体实现的时候，参见图8所示，可以采用下述方式实现对语种鉴别模型的训练：

S801：将所述第一样本特征向量和所述第二样本特征向量进行融合，生成目标样本特征向量。

此处，将第一样本特征向量和第二样本特征向量进行融合可以采用下述方式中任意一种：

(1)将所述第一样本特征向量和所述第二样本特征向量进行拼接，生成所述目标样本特征向量。

在讲第一样本特征向量和第二样本特征向量进行拼接时，拼接的顺序可以根据实际的需要进行具体设定。

例如第一样本特征向量包括：A，第二样本特征向量包括B和C，则在将三者进行拼接的时候，可能的拼接方式包括：ABC、ACB、BAC、BCA、CAB和CBA中任意一种。

另外，在讲第一样本特征向量和第二样本特征向量进行拼接时，还可以将其中一个置于其中的另外一个样本特征向量之间。例如，第一样本特征向量包括A，第二样本特征向量包括B，其中，可以将第一样本特征向量A从中间任意一个位置截开，形成A1和A2两个第一样本特征子向量，子将A和B进行拼接的时候，可以是：A1BA2。

这里需要注意的是，不同第一语音样本对应的第一样本特征向量和第二样本特征向量的拼接方式应当一致。

(2)将所述第一样本特征向量和所述第二样本特征向量进行拼接，形成拼接向量；提取所述拼接向量的低维变换矢量特征，并基于提取的低维变换矢量特征生成所述目标样本特征向量。

此处，将第一样本特征向量和第二样本特征向量进行拼接的方式与上述拼接中类似，在此不再赘述。

在将第一样本特征向量和第二样本特征向量进行拼接，形成拼接向量后，基于矢量特征(identity vector，i-vector)方法提取拼接向量的低微变换矢量特征。i-vector方法通过全差异空间分析提取输入语音的低维总体变化因子矢量作为其特征向量，能够实现对拼接向量的降维处理。

S802：基于所述目标样本特征向量以及所述第一语音样本对应的语种信息，进行语种鉴别模型的训练。

此处，基于目标样本特征向量以及第一语音样本对应的语种信息进行语种鉴别模型的训练，就是将目标样本特征向量输入至基础的语种鉴别模型中，使用基础的语种鉴别模型对目标样本特征向量进行特征学习。该基础的语种鉴别模型能够输出目标样本特征向量对应的语种预测结果，然后根据语种预测结果与对应的语种信息，调整基础的语种鉴别模型的参数。

在一种可选的实施例中，所述语种鉴别模型包括：概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)模型，或者神经网络模型。

具体地，当语种鉴别模型包括神经网络模型的时候，基于目标样本特征向量以及第一语音样本对应的语种信息进行语种鉴别模型的训练的过程，具体包括：

将目标样本特征向量输入至语种鉴别模型中，得到与所述目标样本特征向量对应的语种预测结果；

基于所述语种预测结果以及对应的语种信息，确定第一语音样本对应的交叉熵损失；

根据第一语音样本的交叉熵损失，调整语种鉴别模型的参数。

此处，交叉熵损失可以使用交叉熵损失函数获得。

当语种鉴别模型包括PLDA模型的时候，在声纹识别领域中，假设训练数据语音由I种语种的语音组成，其中每种语种有J段第一语音样本。那么，第i种语种的第j段第一语音样本为x_ij。然后，根据因子分析，x_ij的生成模型为：

x_ij＝μ+Fh_i+Gw_ij+ξ_ij；

其中，μ和Fh_i只和语种有关，称为信号部分，这里描述了不同语种之间的差异；Gw_ij+ξ_ij描述了同一种语种不同第一语音样本之间的差异，这里为噪声部分；

其中，μ表示数值均值、F和G均为空间特征矩阵、ξ_ij表示噪声协方差。

两个矩阵F和G包含了各自假想变量空间中的基本因子，这些因子可以看作是各自空间的特征向量。F的每一列就相当于类间空间的特征向量，G的每一列相当于类内空间的特征向量。而h_i和w_ij两个向量可以看作各自空间的特征表示，比如h_i就可以看作是x_ij在语种内空间中的特征表示，w_ij为语种间的特征表示。识别打分阶段，如果两条语音的h_i特征相同的似然度越大，那么这两条语音就更确定地属于同一种语种。

模型的训练过程，就是基于目标样本特征向量对上述参数μ、矩阵F和G以及ξ_ij进行求解的过程。

本申请实施例还提供另外一种语种鉴别模型训练方法，在上述实施例一的基础上，本申请实施例二所提供的语种鉴别模型训练方法中，还包括：

(1)基于预设的非静音能量阈值，对所述第一语音样本执行去静音操作。

具体地，基于预设的非静音能量阈值，对第一语音样本执行去静音操作，包括：

按照预设步长，多次从所述第一语音样本中截取预设长度的语音段；

计算所截取的语音段中各个采样点的能量值；

将各个采样点的能量值与预设的非静音能量阈值进行比对；

若所述语音段中能量值小于所述非静音能量阈值的采样点的数量，达到截取的语音段中采样点总数的预设百分比，则将截取的语音段作为静音语音段；

基于所述静音语音段对所述第一语音样本进行去静音操作。

此处，可以采用下述方式基于所述静音语音段对所述第一语音样本进行去静音操作：将所述静音语音段从所述第一语音样本中删除。

或者，还包括：

(2)还可以基于预设的非静音能量阈值，对所述第一样本特征向量执行去静音操作。

基于预设的非静音能量阈值，对所述第一样本特征向量执行去静音操作。

具体地，基于预设的非静音能量阈值，对第一样本特征向量执行去静音操作，包括：

按照预设步长，多次从所述第一样本特征向量中截取预设数量的元素；

计算所截取的预设数量的元素中各个元素的能量值；

将各个元素的能量值与预设的非静音能量阈值进行比对；

若所述预设数量的元素中能量值小于所述非静音能量阈值的元素的数量，达到截取的预设数量元素中元素总数的预设百分比，则将截取的预设数量的元素作为静音段对应的元素；

基于所述静音段对应的元素对所述第一语音样本进行去静音操作。

这里通过将所述静音段对应元素的第一特征向量中删除的方式实现去静音操作。

采用该实施例能够去除第一语音样本的静音段，也即去除了第一样本特征向量中的无效部分。

另外，还可以采用与上述相同的方式对第二语音样本执行去静音的操作，或者对第二语音样本对应的第三样本特征向量执行去静音的操作。具体的操作方式与上述方式类似，在此不再赘述。

在生成了语种鉴别模型后，就能够将第一特征向量和所述第二特征向量输入至该语种鉴别模型中，得到待识别语音的语种信息。

在基于第一特征向量和第二特征向量，以及预先训练的语种鉴别模型得到待识别语音的语种信息时，是将第一特征向量和第二特征向量进行融合，生成目标特征向量，并将目标特征向量输入至经过本申请实施例提供的语种鉴别模型训练方法得到的语种鉴别模型中，获得待鉴别语种的语种信息。

具体地，将第一特征向量和第二特征向量进行融合的方式，与上述将第一样本特征向量和第二样本特征向量进行融合的方式类似，再次不再赘述。

S304：根据所述待识别语音的语种信息，获取与所述语种信息对应的语音识别模型，并将所述第一特征向量输入至所述语音识别模型，获取所述待识别语音的语音识别结果。

具体地，参见图9所示，本申请实施例还提供一种生成语音识别模型的具体方法，包括：

S901：获取多个第三语音样本，以及每个所述第三语音样本在的内容标注信息。

此处，需要注意的是，要针对哪种语种训练语音识别模型，所获取的第三语音样本即为该语种下对应的语音。

S902：针对获取的每个第三语音样本，确定表征该第三语音样本的声学特征的第四样本特征向量。

此处，第三语音样本的第四样本特征向量的生成方式，与第一语音样本的第一样本特征向量的生成方式类似，在此不再赘述。

S903：基于所述第四样本特征向量和所述内容标注信息，进行所述语音识别模型的训练。

此处，基于所述第四样本特征向量和所述内容标注信息，进行所述语音识别模型的训练，就是要将第一样本特征向量作为输入，将内容标注信息作为输出，对语音识别模型进行训练的过程。

示例性的，语音识别模型可是循环神经网络。

基于同一发明构思，本申请实施例中还提供了与语音识别方法对应的语种语音识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语音识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图10所示，本申请实施例提供的语音识别装置包括：

获取模块11，用于获取待识别语音；

确定模块12，用于确定表征所述待识别语音的声学特征的第一特征向量，以及所述待识别语音的至少一种发音特征分别对应的第二特征向量；

语种信息获取模块13，用于基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息；

语音识别模块14，用于根据所述待识别语音的语种信息，获取与所述语种信息对应的语音识别模型，并将所述第一特征向量输入至所述语音识别模型，获取所述待识别语音的语音识别结果。

一种可选实施方式中，所述语种信息获取模块13，用于采用下述步骤基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息：

一种可选实施方式中，所述语种信息获取模块13，用于采用下述步骤将所述第一特征向量和所述第二特征向量进行融合，生成目标特征向量：

一种可选实施方式中，还包括：第一模型训练模块15，用于采用下述方式得到所述语种鉴别模型：

一种可选实施方式中，所述确定模块12，用于采用下述步骤确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量：

一种可选实施方式中，还包括：第二模型训练模块16，用于采用下述步骤生成所述特征向量提取网络：

一种可选实施方式中，所述第二模型训练模块16，用于采用下述步骤基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练：

一种可选实施方式中，所述第二模型训练模块16，用于采用下述步骤基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数：

将所述相似度与预设的相似度阈值进行比对；

所述确定模块12，用于采用下述步骤采用下述方式确定所述至少一种发音特征分别对应所述第二特征向量：

一种可选实施方式中，还包括：第三模型训练模块17，所述采用下述方式得到所述语音识别模型：

如图2所示，本申请实施例还提供一种电子设备，包括：处理器220、存储介质和总线230，所述存储介质存储有所述处理器220可执行的机器可读指令，当电子设备运行时，所述处理器220与所述存储介质之间通过总线通信230，所述处理器220执行所述机器可读指令，以执行时执行如本申请实施例提供语音识别方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如本申请实施例提供的语音识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别语音；

2.根据权利要求1所述的方法，其特征在于，所述声学特征包括：梅尔频率倒谱系数MFCC特征；所述发音特征包括：音素特征、音节特征、字特征中至少一项。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息，包括：

4.根据权利要求3所述的方法，其特征在于，将所述第一特征向量和所述第二特征向量进行融合，生成目标特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，采用下述方式得到所述语种鉴别模型：

6.根据权利要求1所述的方法，其特征在于，确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，采用下述方式生成所述特征向量提取网络：

8.根据权利要求7所述的方法，其特征在于，所述基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练，包括：

9.根据权利要求7所述的方法，其特征在于，基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数，包括：

将所述相似度与预设的相似度阈值进行比对；

11.根据权利要求6所述的方法，其特征在于，所述特征向量提取网络包括瓶颈特征提取层；

12.根据权利要求1-11任意一项所述的方法，其特征在于，所述第一特征向量为梅尔频率倒谱系数MFCC向量，所述第二特征向量为瓶颈特征BNF向量。

13.根据权利要求1-11任意一项所述的方法，其特征在于，所述语种鉴别模型包括：概率线性判别分析PLDA模型，或者神经网络模型。

14.根据权利要求1所述的方法，其特征在于，所述采用下述方式得到所述语音识别模型：

15.一种语音识别装置，其特征在于，包括：

获取模块，用于获取待识别语音；

16.根据权利要求15所述的装置，其特征在于，所述声学特征包括：梅尔频率倒谱系数MFCC特征；所述发音特征包括：音素特征、音节特征、字特征中至少一项。

17.根据权利要求15所述的装置，其特征在于，所述语种信息获取模块，用于采用下述步骤基于所述第一特征向量和所述第二特征向量，以及预先训练的语种鉴别模型，得到所述待识别语音的语种信息：

18.根据权利要求17所述的装置，其特征在于，所述语种信息获取模块，用于采用下述步骤将所述第一特征向量和所述第二特征向量进行融合，生成目标特征向量：

19.根据权利要求15所述的装置，其特征在于，还包括：第一模型训练模块，用于采用下述方式得到所述语种鉴别模型：

20.根据权利要求15所述的装置，其特征在于，所述确定模块，用于采用下述步骤确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量：

21.根据权利要求20所述的装置，其特征在于，还包括：第二模型训练模块，用于采用下述步骤生成所述特征向量提取网络：

22.根据权利要求21所述的装置，其特征在于，所述第二模型训练模块，用于采用下述步骤基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练：

23.根据权利要求21所述的装置，其特征在于，所述第二模型训练模块，用于采用下述步骤基于所述第三样本特征向量和所述特征标注信息，进行所述特征向量提取网络的训练：

24.根据权利要求23所述的装置，其特征在于，所述第二模型训练模块，用于采用下述步骤基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量，调整特征向量提取网络的参数：

将所述相似度与预设的相似度阈值进行比对；

25.根据权利要求20所述的装置，其特征在于，所述特征向量提取网络包括瓶颈特征提取层；

26.根据权利要求15-25任意一项所述的装置，其特征在于，所述第一特征向量为梅尔频率倒谱系数MFCC向量，所述第二特征向量为瓶颈特征BNF向量。

27.根据权利要求15-25任意一项所述的装置，其特征在于，所述语种鉴别模型包括：概率线性判别分析PLDA模型，或者神经网络模型。

28.根据权利要求15所述的装置，其特征在于，还包括：第三模型训练模块，所述采用下述方式得到所述语音识别模型：

29.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至14任一所述的语音识别方法的步骤。

30.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至14任一所述的语音识别方法的步骤。