CN110890085B

CN110890085B - 声音识别方法和系统

Info

Publication number: CN110890085B
Application number: CN201811051604.3A
Authority: CN
Inventors: 薛少飞; 张仕良
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2023-09-12
Anticipated expiration: 2038-09-10
Also published as: CN110890085A

Abstract

本申请公开了一种声音识别方法和系统。其中，该方法包括：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC‑BLSTM模型和DFSMN模型。本申请解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

Description

声音识别方法和系统

技术领域

本申请涉及语音识别领域，具体而言，涉及一种声音识别方法和系统。

背景技术

声学模型训练是一个语音识别系统的核心部分，占据着大部分的计算开销并在很大程度上决定着系统的识别性能，它利用训练语音特征及其对应的标注信息进行有监督的声学模型建模。随着深度学习在声学模型建模中的应用，语音识别准确率不断提高，诸如DNN(深度神经网络，Deep Neural Network)、LSTM(长短时记忆网络，Long Short-TermMemory)、BLSTM(双向长短时记忆网络，Bidirectional Long Short-Term Memory)、CNN(卷积神经网络，Convolutional Neural Network)、FSMN(前馈型序列记忆网络，Feed-forwardSequential Memory Network)等模型结构被提出并使用在了模型建模中。语音识别模型的建模能力在很大程度上会决定识别的效果，传统的DNN、LSTM等模型在复杂环境下效果不够理想。

针对现有技术中声音识别方法在复杂环境中的识别准确率不高的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种声音识别方法和系统，以至少解决现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

根据本申请实施例的一个方面，提供了一种声音识别方法，包括：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

根据本申请实施例的另一方面，还提供了一种声音识别系统，包括：声学特征提取模块，用于对获取到的声音信号进行特征提取，得到声音信号的声学特征信息；解码器，用于利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行如下步骤：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

根据本申请实施例的另一方面，还提供了一种移动设备，包括：处理器，处理器用于运行程序，其中，在程序运行时执行以下步骤：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

根据本申请实施例的另一方面，还提供了一种声音识别系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

在本申请实施例中，在获取到语音信息之后，可以对声音信号进行特征提取，得到声音信号的声学特征信息，进一步地，可以利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别，从而实现声音识别的目的。

容易注意到的，声学模型包括：LC-BLSTM模型和DFSMN模型，与现有技术相比，声学模型可以结合LC-BLSTM和DFSMN的优势，从而在建模长短时信息的同时，保持计算量，提升声音识别准确率的技术效果。

本申请实施例解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现声音识别方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种声音识别方法的流程图；

图3是根据本申请实施例的一种可选的声音识别方法的流程图；

图4是根据本申请实施例的第一种可选的声学模型的结构示意图；

图5是根据本申请实施例的第二种可选的声学模型的结构示意图；

图6是根据本申请实施例的第三种可选的声学模型的结构示意图；

图7是根据本申请实施例的第四种可选的声学模型的结构示意图；

图8是根据本申请实施例的一种声音识别装置的示意图；

图9是根据本申请实施例的一种声音识别系统的示意图；以及

图10是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

LC-BLSTM：Latency Controlled BLSTM，低延迟的BLSTM网络。由于标准的BLSTM是对整句语音数据进行建模，训练和解码过程存在收敛慢、延迟高、实时率低等问题，LatencyControlled BLSTM针对这些弊端进行解决，与标准的BLSTM使用整句语音进行训练和解码不同，Latency Control BLSTM使用类似truncated BPTT(基于时间的反向传播算法，BackPropagation Through Time)的更新方式，并在cell中间状态处理和数据使用上有着自己的特点，训练时每次使用一小段数据进行更新，数据由中心chunk和右向附加chunk构成，其中右向附加chunk只用于cell中间状态的计算，误差只在中心chunk上进行传播。时间轴上正向移动的网络，前一个数据段在中心chunk结束时的cell中间状态被用于下一个数据段的初始状态，时间轴上反向移动的网络，每一个数据段开始时都将cell中间状态置为0。该方法可以很大程度上加快网络的收敛速度，并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同，不同之处在于中心chunk和右向附加chunk的维度可以根据需求进行调节，并不必须与训练采用相同配置。

DFSMN：深度前馈序列记忆网络，Deep Feed-forward Sequential MemoryNetwork，通过在记忆模块之间添加跳转连接(skip connection)，从而使得低层记忆模块的输出会被直接累加到高层记忆模块里。这样在训练过程中，高层记忆模块的梯度会直接赋值给低层的记忆模块，从而可以克服由于网络的深度造成的梯度消失问题，使得可以稳定的训练深层的网络。需要说明的是，这里的跳转连接不仅可以加到相邻层之间，也可以加到不相邻层之间。跳转连接本身可以是线性变换，也可以是非线性变换。对于实时的语音识别系统，可以通过灵活的设置未来阶数来控制模型的时延，在极端情况下，当将每个记忆模块的未来阶数都设置为0，则可以实现无时延的一个声学模型。

BLFMN：双向长短时前馈记忆网络，Bidirectional Long short-term Feed-forward Memory Network。

实施例1

根据本申请实施例，还提供了一种声音识别方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现声音识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的声音识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声音识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的声音识别方法。图2是根据本申请实施例的一种声音识别方法的流程图。如图2所示，该方法还包括：

步骤S22，获取声音信号。

具体地，上述的声音信号可以是用户发出的语音，可以通过麦克风等语音采集装置采集到用户发出的语音。由于语音采集装置采集到的声音信号为模拟信号，可以首先经过录入器转换为数字信号，从而可以对数字信号进行特征提取。

步骤S24，对声音信号进行特征提取，得到声音信号的声学特征信息。

具体地，为了保证识别准确率，上述的声学特征信息可以是对声学模型的建模单元具有较好的区分性，同时，为了能够高效的计算声学模型参数和进行解码识别，声学特征信息需要在尽量保留声音信号中文本信息的前提下，抑制例如说话人、信道、环境噪声等干扰信息，并且维持在一个适中的维度。提取良好的具有区分性的声学特征对于提升声音识别系统的性能至关重要。

步骤S26，利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

具体地，声学模型训练是一个声音识别系统的核心部分，占据着大部分的计算开销并在很大程度上决定着系统的识别性能，利用训练语音特征及其对应的标注信息进行有监督的声学模型建模。声学模型构建声音信号中的观测特征和语音建模单元间的映射关系，以此进行音素或音素状态的分类。

上述的语言模型可以是基于统计学习建模的声音识别框架下普遍使用基于N-gram的统计语言模型，基本思想是用一个马尔科夫链表示词序列的生成过程。

进一步地，为了提高声音识别准确率，声学模型可以采用一种新的混合声学模型结构BLFMN，该结构融合了LC-BLSTM和DFSMN结构的优势，LC-BLSTM结构可以发挥BLSTM长短时建模的能力，并且可以利用双向信息，延迟可控的设定使得该种模型结构可以被用于在线服务；DFSMN结构的计算量明显降低。

例如，如图3所示，在获取到待测语音之后，可以对待测语音进行特征提取，得到声学特征信息，并将提取到的声学特征信息输出至解码器，解码器可以利用训练好的语言模型和声学模型，通过相关搜索算法可以分析出最有可能性的词序列，也即，得到最终的识别结果。在通过语言建模建立初始语言模型之后，可以通过训练语料进行训练，得到训练好的语言模型，同理，在通过声学建模建立初始声学模型之后，可以通过对训练语音进行特征提取，并利用提取后的特征进行训练，得到训练好的声学模型。

在远场声音识别场景中，例如地铁语音购票、语音自助点单机等场景中，针对干净和嘈杂两个测试数据，采用LC-BLSTM、DFSMN和本申请的声学模型，识别错误率如下表1所示，由表1可知，采用本申请的声学模型可以显著的提升声音识别的准确率。

表1

识别错误率	干净	嘈杂
			LC-BLSTM	12.2	17.3
DFSMN	11.7	16.7
			本申请的声学模型	11	15.6

本申请上述实施例1所提供的方案，在获取到语音信息之后，可以对声音信号进行特征提取，得到声音信号的声学特征信息，进一步地，可以利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别，从而实现声音识别的目的。

由此，本申请提供的上述实施例1的方案解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

在本申请上述实施例中，步骤S26，利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，包括：

步骤S262，利用声学模型对声学特征信息进行识别，得到声学特征信息的声学概率。

步骤S264，利用语言模型对声学特征信息进行识别，得到声学特征信息的语言模型概率。

步骤S266，基于声学概率和语言模型概率，利用搜索算法得到识别结果。

在一种可选的方案中，在提取出声音信号的声学特征信息之后，可以通过训练好的声学模型和语言模型分别对声学特征信息进行识别，得到声学特征信息的声学概率和语言模型概率，结合声学概率和语言模型概率，利用解码器通过相关搜索算法即可分析出最有可能性的词序列，也即得到上述的识别结果。

在本申请上述实施例中，步骤S262，利用声学模型对声学特征信息进行识别，得到声学特征信息的声学概率，包括：

步骤S212，将声学特征信息分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果，其中，第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，第二网络包括：依次连接的DFSMN层、DNN层和输出层。

具体地，声学模型可以由相对独立的两部分，即上述的第一网络和第二网络组成，输入层分别连接第一网络和第二网络，第一网络可以是独立的LC-BLSTM网络，由LC-BLSTM层和DNN层堆砌构成，第二网络可以是独立的DFSMN网络，由DFSMN层和DNN层堆砌构成。例如，如图4所示，第一网络可以由依次连接的三个LC-BLSTM层、三个DNN层和输出层构成，第二网络可以由依次连接的六个DFSMN层、三个DNN层和输出层构成。

步骤S214，对第一输出结果和第二输出结果进行融合处理，得到声学概率。

可选地，融合处理包括如下至少之一：平均、加权平均、投票。

具体地，第一网络和第二网络在输出层的结果上进行融合，融合方法包括但不限于：平均、加权平均、投票等。如图4所示，两个网络的输出结果可以通过平均层进行平均，得到最终的声学概率。

在本申请上述实施例中，该方法还包括：

步骤S216，将声学特征信息输入至共享隐层，得到第三输出结果。

步骤S218，将第三输出结果分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果。

具体地，在第一网络和第二网络的基础上，声学模型还包括：共享隐层，输入层首先连接到共享隐层上，共享隐层的输出分别输入至两个独立的网络结构中，也即，分别输入至第一网络和第二网络中。共享隐层可以采用多种网络结构，例如，可以是DNN、CNN、LC-BLSTM、DFSMN等。

例如，如图5所示，输入层连接到两个连接的共享隐层上，第一网络由依次连接的三个LC-BLSTM层、三个DNN层和输出层构成，第二网络可以由依次连接的三个DFSMN层、三个DNN层和输出层构成。

步骤S222，将声学特征信息输入至LC-BLSTM层，得到第四输出结果。

步骤S224，将第四输出结果输入至DFSMN层，得到第五输出结果。

步骤S226，将第五输出结果输入至DNN层，得到声学概率。

具体地，声学模型可以由LC-BLSTM层、DFSMN层和DNN层堆砌构成，输出层结果可以直接用于解码。例如，如图6所示，声学模型可以由依次连接的三个LC-BLSTM层、三个DFSMN层和三个DNN层构成，输出层可以输出最终的声学概率。

步骤S232，将声学特征信息分别输入至多层LC-BLSTM层和多层DFSMN层，得到第六输出结果和第七输出结果。

步骤S234，将第六输出结果和第七输出结果输入至多层DNN层，得到声学概率。

具体地，声学模型的输入层可以首先连接到不同的多层网络结构上，分别为多层LC-BLSTM层和多层DFSMN层，而多层LC-BLSTM层和多层DFSMN层的输出合并入到共享的多层DNN层中，经过处理后输出层的结果直接用于解码。例如，如图7所示，输入层可以分别连接到六个依次连接的LC-BLSTM层和六个依次连接的DFSMN层，多层LC-BLSTM层和多层DFSMN层的输出合并入到共享的三个DNN层中，输出层可以输出最终的声学概率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述声音识别方法的声音识别装置，如图8所示，该装置800包括：获取模块802、提取模块804和识别模块806。

其中，获取模块802用于获取声音信号；提取模块804用于对声音信号进行特征提取，得到声音信号的声学特征信息；识别模块806用于利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

为了保证识别准确率，上述的声学特征信息可以是对声学模型的建模单元具有较好的区分性，同时，为了能够高效的计算声学模型参数和进行解码识别，声学特征信息需要在尽量保留声音信号中文本信息的前提下，抑制例如说话人、信道、环境噪声等干扰信息，并且维持在一个适中的维度。提取良好的具有区分性的声学特征对于提升声音识别系统的性能至关重要。

为了提高声音识别准确率，声学模型可以采用一种新的混合声学模型结构BLFMN，该结构融合了LC-BLSTM和DFSMN结构的优势，LC-BLSTM结构可以发挥BLSTM长短时建模的能力，并且可以利用双向信息，延迟可控的设定使得该种模型结构可以被用于在线服务；DFSMN结构的计算量明显降低。

此处需要说明的是，上述获取模块802、提取模块804和识别模块806对应于实施例1中的步骤S22至步骤S26，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例2所提供的方案，在通过获取模块获取到语音信息之后，可以通过提取模块对声音信号进行特征提取，得到声音信号的声学特征信息，进一步地，可以通过识别模块利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别，从而实现声音识别的目的。

由此，本申请提供的上述实施例2的方案解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

在本申请上述实施例中，识别模块包括：第一识别子模块、第二识别子模块和处理子模块。

其中，第一识别子模块用于利用声学模型对声学特征信息进行识别，得到声学特征信息的声学概率；第二识别子模块用于利用语言模型对声学特征信息进行识别，得到声学特征信息的语言模型概率；处理子模块用于基于声学概率和语言模型概率，利用搜索算法得到识别结果。

此处需要说明的是，上述第一识别子模块、第二识别子模块和处理子模块对应于实施例1中的步骤S262至步骤S266，三个子模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，第一识别子模块包括：第一输入单元和融合单元。

其中，第一输入单元用于将声学特征信息分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果，其中，第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，第二网络包括：依次连接的DFSMN层、DNN层和输出层；融合单元用于对第一输出结果和第二输出结果进行融合处理，得到声学概率。

此处需要说明的是，上述第一输入单元和融合单元对应于实施例1中的步骤S212至步骤S214，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，第一识别子模块还包括：第二输入单元。

其中，第二输入单元用于将声学特征信息输入至共享隐层，得到第三输出结果；第一输入单元还用于将第三输出结果分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果。

此处需要说明的是，上述第二输入单元和第一输入单元对应于实施例1中的步骤S216至步骤S218，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，第一识别子模块包括：第三输入单元、第四输入单元和第五输入单元。

其中，第三输入单元用于将声学特征信息输入至LC-BLSTM层，得到第四输出结果；第四输入单元用于将第四输出结果输入至DFSMN层，得到第五输出结果；第五输入单元用于将第五输出结果输入至DNN层，得到声学概率。

此处需要说明的是，上述第三输入单元、第四输入单元和第五输入单元对应于实施例1中的步骤S222至步骤S226，三个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，第一识别子模块包括：第六输入单元和第七输入单元。

其中，第六输入单元用于将声学特征信息分别输入至多层LC-BLSTM层和多层DFSMN层，得到第六输出结果和第七输出结果；第七输入单元用于将第六输出结果和第七输出结果输入至多层DNN层，得到声学概率。

此处需要说明的是，上述第六输入单元和第七输入单元对应于实施例1中的步骤S232至步骤S234，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例3

根据本申请实施例，还提供了一种声音识别系统，如图9所示，该系统包括：

声学特征提取模块92，用于对获取到的声音信号进行特征提取，得到声音信号的声学特征信息。

解码器94，用于利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

本申请上述实施例3所提供的方案，在获取到语音信息之后，可以通过声学特征提取模块对声音信号进行特征提取，得到声音信号的声学特征信息，进一步地，可以通过解码器利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别，从而实现声音识别的目的。

由此，本申请提供的上述实施例3的方案解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

在本申请上述实施例中，解码器包括：

识别模块，用于利用声学模型对声学特征信息进行识别，得到声学特征信息的声学概率，并利用语言模型对声学特征信息进行识别，得到声学特征信息的语言模型概率。

处理模块，与识别模块连接，用于基于声学概率和语言模型概率，利用搜索算法得到识别结果。

在本申请上述实施例中，声学模型包括：

第一网络，第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，用于对声学特征信息进行处理，得到第一输出结果。

第二网络，第二网络包括：依次连接的DFSMN层、DNN层和输出层，用于对声学特征信息进行处理，得到第二输出结果。

输出层，与第一网络和第二网络连接，用于对第一输出结果和第二输出结果进行融合处理，得到声学概率。

具体地，声学模型可以由相对独立的两部分，即上述的第一网络和第二网络组成，输入层分别连接第一网络和第二网络，第一网络可以是独立的LC-BLSTM网络，由LC-BLSTM层和DNN层堆砌构成，第二网络可以是独立的DFSMN网络，由DFSMN层和DNN层堆砌构成。第一网络和第二网络在输出层的结果上进行融合，融合方法包括但不限于：平均、加权平均、投票等。

在本申请上述实施例中，声学模型还包括：

共享隐层，分别与第一网络和第二网络连接，用于对声学特征信息进行处理，得到第三输出结果，并将第三输出结果分别输入至第一网络和第二网络。

在本申请上述实施例中，声学模型包括：

LC-BLSTM层，用于对声学特征信息进行处理，得到第四输出结果。

DFSMN层，与LC-BLSTM层连接，用于对第四输出结果进行处理，得到第五输出结果。

DNN层，与DFSMN层连接，用于对第五输出结果进行处理，得到声学概率。

具体地，声学模型可以由LC-BLSTM层、DFSMN层和DNN层堆砌构成，输出层结果可以直接用于解码。

在本申请上述实施例中，声学模型包括：

多层LC-BLSTM层，用于对声学特征信息进行处理，得到第六输出结果。

多层DFSMN层，用于对声学特征信息进行处理，得到第七输出结果。

多层DNN层，分别与多层LC-BLSTM层和多层DFSMN层连接，用于对第六输出结果和第七输出结果进行处理，得到声学概率。

具体地，声学模型的输入层可以首先连接到不同的多层网络结构上，分别为多层LC-BLSTM层和多层DFSMN层，而多层LC-BLSTM层和多层DFSMN层的输出合并入到共享的多层DNN层中，经过处理后输出层的结果直接用于解码。

实施例4

根据本申请实施例，还提供了一种声音识别系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

本申请上述实施例4所提供的方案，在获取到语音信息之后，可以对声音信号进行特征提取，得到声音信号的声学特征信息，进一步地，可以利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别，从而实现声音识别的目的。

由此，本申请提供的上述实施例4的方案解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

实施例5

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行声音识别方法中以下步骤的程序代码：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

可选地，图10是根据本申请实施例的一种计算机终端的结构框图。如图10所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1002以及存储器1004。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的声音识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声音识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

可选的，上述处理器还可以执行如下步骤的程序代码：利用声学模型对声学特征信息进行识别，得到声学特征信息的声学概率；利用语言模型对声学特征信息进行识别，得到声学特征信息的语言模型概率；基于声学概率和语言模型概率，利用搜索算法得到识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：将声学特征信息分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果，其中，第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，第二网络包括：依次连接的DFSMN层、DNN层和输出层；对第一输出结果和第二输出结果进行融合处理，得到声学概率。

可选的，上述处理器还可以执行如下步骤的程序代码：将声学特征信息输入至共享隐层，得到第三输出结果；将第三输出结果分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果。

可选的，上述处理器还可以执行如下步骤的程序代码：融合处理包括如下至少之一：平均、加权平均、投票。

可选的，上述处理器还可以执行如下步骤的程序代码：将声学特征信息输入至LC-BLSTM层，得到第四输出结果；将第四输出结果输入至DFSMN层，得到第五输出结果；将第五输出结果输入至DNN层，得到声学概率。

可选的，上述处理器还可以执行如下步骤的程序代码：将声学特征信息分别输入至多层LC-BLSTM层和多层DFSMN层，得到第六输出结果和第七输出结果；将第六输出结果和第七输出结果输入至多层DNN层，得到声学概率。

采用本申请实施例，在获取到语音信息之后，可以对声音信号进行特征提取，得到声音信号的声学特征信息，进一步地，可以利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别，从而实现声音识别的目的。容易注意到的，声学模型包括：LC-BLSTM模型和DFSMN模型，与现有技术相比，声学模型可以结合LC-BLSTM和DFSMN的优势，从而在建模长短时信息的同时，保持计算量，提升声音识别准确率的技术效果，进而解决了现有技术中声音识别方法在复杂环境中的识别准确率不高的技术问题。

本领域普通技术人员可以理解，图10所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图10所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的声音识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取声音信号；对声音信号进行特征提取，得到声音信号的声学特征信息；利用声学模型和语言模型对声学特征信息进行识别，得到声音信号的识别结果，其中，声学模型包括：LC-BLSTM模型和DFSMN模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：利用声学模型对声学特征信息进行识别，得到声学特征信息的声学概率；利用语言模型对声学特征信息进行识别，得到声学特征信息的语言模型概率；基于声学概率和语言模型概率，利用搜索算法得到识别结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将声学特征信息分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果，其中，第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，第二网络包括：依次连接的DFSMN层、DNN层和输出层；对第一输出结果和第二输出结果进行融合处理，得到声学概率。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将声学特征信息输入至共享隐层，得到第三输出结果；将第三输出结果分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：融合处理包括如下至少之一：平均、加权平均、投票。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将声学特征信息输入至LC-BLSTM层，得到第四输出结果；将第四输出结果输入至DFSMN层，得到第五输出结果；将第五输出结果输入至DNN层，得到声学概率。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将声学特征信息分别输入至多层LC-BLSTM层和多层DFSMN层，得到第六输出结果和第七输出结果；将第六输出结果和第七输出结果输入至多层DNN层，得到声学概率。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种声音识别方法，包括：

获取声音信号；

对所述声音信号进行特征提取，得到所述声音信号的声学特征信息，其中，所述声学特征信息在抑制干扰信息的情况下得到；

利用声学模型和语言模型对所述声学特征信息进行识别，得到所述声音信号的识别结果，其中，所述声学模型包括：LC-BLSTM模型和DFSMN模型，所述声学模型由LC-BLSTM模型和DFSMN模型融合后得到。

2.根据权利要求1所述的方法，其中，利用声学模型和语言模型对所述声学特征信息进行识别，得到所述声音信号的识别结果，包括：

利用所述声学模型对所述声学特征信息进行识别，得到所述声学特征信息的声学概率；

利用所述语言模型对所述声学特征信息进行识别，得到所述声学特征信息的语言模型概率；

基于所述声学概率和所述语言模型概率，利用搜索算法得到所述识别结果。

3.根据权利要求2所述的方法，其中，利用所述声学模型对所述声学特征信息进行识别，得到所述声学特征信息的声学概率，包括：

将所述声学特征信息分别输入至第一网络和第二网络，得到第一输出结果和第二输出结果，其中，所述第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，所述第二网络包括：依次连接的DFSMN层、DNN层和输出层；

对所述第一输出结果和所述第二输出结果进行融合处理，得到所述声学概率。

4.根据权利要求3所述的方法，所述方法还包括：

将所述声学特征信息输入至共享隐层，得到第三输出结果；

将所述第三输出结果分别输入至所述第一网络和所述第二网络，得到所述第一输出结果和所述第二输出结果。

5.根据权利要求3或4所述的方法，其中，所述融合处理包括如下至少之一：平均、加权平均、投票。

6.根据权利要求2所述的方法，其中，利用所述声学模型对所述声学特征信息进行识别，得到所述声学特征信息的声学概率，包括：

将所述声学特征信息输入至LC-BLSTM层，得到第四输出结果；

将所述第四输出结果输入至DFSMN层，得到第五输出结果；

将所述第五输出结果输入至DNN层，得到所述声学概率。

7.根据权利要求2所述的方法，其中，利用所述声学模型对所述声学特征信息进行识别，得到所述声学特征信息的声学概率，包括：

将所述声学特征信息分别输入至多层LC-BLSTM层和多层DFSMN层，得到第六输出结果和第七输出结果；

将所述第六输出结果和所述第七输出结果输入至多层DNN层，得到所述声学概率。

8.一种声音识别系统，包括：

声学特征提取模块，用于对获取到的声音信号进行特征提取，得到所述声音信号的声学特征信息，其中，所述声学特征信息在抑制干扰信息的情况下得到；

解码器，用于利用声学模型和语言模型对所述声学特征信息进行识别，得到所述声音信号的识别结果，其中，所述声学模型包括：LC-BLSTM模型和DFSMN模型，所述声学模型由LC-BLSTM模型和DFSMN模型融合后得到。

9.根据权利要求8所述的系统，其中，所述解码器包括：

识别模块，用于利用所述声学模型对所述声学特征信息进行识别，得到所述声学特征信息的声学概率，并利用所述语言模型对所述声学特征信息进行识别，得到所述声学特征信息的语言模型概率；

处理模块，与所述识别模块连接，用于基于所述声学概率和所述语言模型概率，利用搜索算法得到所述识别结果。

10.根据权利要求9所述的系统，其中，所述声学模型包括：

第一网络，所述第一网络包括：依次连接的LC-BLSTM层、DNN层和输出层，用于对所述声学特征信息进行处理，得到第一输出结果；

第二网络，所述第二网络包括：依次连接的DFSMN层、DNN层和输出层，用于对所述声学特征信息进行处理，得到第二输出结果；

输出层，与所述第一网络和所述第二网络连接，用于对所述第一输出结果和所述第二输出结果进行融合处理，得到所述声学概率。

11.根据权利要求10所述的系统，其中，所述声学模型还包括：

共享隐层，分别与所述第一网络和所述第二网络连接，用于对所述声学特征信息进行处理，得到第三输出结果，并将所述第三输出结果分别输入至所述第一网络和所述第二网络。

12.根据权利要求9所述的系统，其中，所述声学模型包括：

LC-BLSTM层，用于对所述声学特征信息进行处理，得到第四输出结果；

DFSMN层，与所述LC-BLSTM层连接，用于对所述第四输出结果进行处理，得到第五输出结果；

DNN层，与所述DFSMN层连接，用于对所述第五输出结果进行处理，得到所述声学概率。

13.根据权利要求9所述的系统，其中，所述声学模型包括：

多层LC-BLSTM层，用于对所述声学特征信息进行处理，得到第六输出结果；

多层DFSMN层，用于对所述声学特征信息进行处理，得到第七输出结果；

多层DNN层，分别与所述多层LC-BLSTM层和所述多层DFSMN层连接，用于对所述第六输出结果和所述第七输出结果进行处理，得到所述声学概率。

14.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如下步骤：获取声音信号；对所述声音信号进行特征提取，得到所述声音信号的声学特征信息，其中，所述声学特征信息在抑制干扰信息的情况下得到；利用声学模型和语言模型对所述声学特征信息进行识别，得到所述声音信号的识别结果，其中，所述声学模型包括：LC-BLSTM模型和DFSMN模型，所述声学模型由LC-BLSTM模型和DFSMN模型融合后得到。

15.一种移动设备，包括：处理器，所述处理器用于运行程序，其中，在所述程序运行时执行以下步骤：获取声音信号；对所述声音信号进行特征提取，得到所述声音信号的声学特征信息，其中，所述声学特征信息在抑制干扰信息的情况下得到；利用声学模型和语言模型对所述声学特征信息进行识别，得到所述声音信号的识别结果，其中，所述声学模型包括：LC-BLSTM模型和DFSMN模型，所述声学模型由LC-BLSTM模型和DFSMN模型融合后得到。

16.一种声音识别系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取声音信号；对所述声音信号进行特征提取，得到所述声音信号的声学特征信息，其中，所述声学特征信息在抑制干扰信息的情况下得到；利用声学模型和语言模型对所述声学特征信息进行识别，得到所述声音信号的识别结果，其中，所述声学模型包括：LC-BLSTM模型和DFSMN模型，所述声学模型由LC-BLSTM模型和DFSMN模型融合后得到。