CN106328126B

CN106328126B - 远场语音识别处理方法及装置

Info

Publication number: CN106328126B
Application number: CN201610917557.0A
Authority: CN
Inventors: 江巍; 关海欣; 苏牧; 张军
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2019-08-16
Anticipated expiration: 2036-10-20
Also published as: CN106328126A

Abstract

本发明公开了一种远场语音识别处理方法及装置，该方法包括：接收远场语音；将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；对处理后的远场语音进行识别。该方法能够实现对远场语音的优化处理，获取到较佳的处理结果且降低了设备成本投入。

Description

远场语音识别处理方法及装置

技术领域

本发明涉及语音处理技术领域，特别涉及一种基于神经网络模型的远场语音识别处理方法及装置。

背景技术

语音是日常生活中携带信息的常用方式，随着语音技术的发展，也出现了越来越多的语音识别系统来进行语音识别，根据语音来源距离的不同，可以有远场语音和近场语音的分别，在进行语音识别时，针对不同的语音，可以采用不同的处理策略，来进行语音处理，以便获取到的清晰可识别的语音信息。

尤其是远场语音，由于其传输距离较长，其语音中可能就会包含了更多的干扰，为了降低这些干扰的影响，一般需要进行去噪、去回声等处理。

现有技术中，一般是通过麦克风阵列来实现对远场语音的去噪、去回声处理的，这种方式必须布置麦克风阵列，对于不方便布置麦克风阵列的场合来说并不适用。此外，这种方式其实现去噪的困难和复杂程度依赖于麦克风的数目，一般而言，麦克风数目越大，去噪相对来说越容易，当麦克风数量不够时，去噪的效果也会大打折扣。

因此，现有麦克风阵列去噪的实现方式，不仅需要足够的麦克风数量，增加了设备成本，而且对远场语音进行去噪处理的效果并不是很好，不能获取到较佳的语音处理结果。

发明内容

本发明提供一种远场语音识别处理方法及装置，用以解决现有技术中存在的远场语音去噪处理时，设备成本投入高，去噪处理效果不佳的问题，能够在不增加设备投入的情况下，获取到较佳的远场语音处理结果。

本发明实施例提供一种远场语音识别处理方法，包括：

接收远场语音；

将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；

通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；

对处理后的远场语音进行识别。

在一些可选的实施例中，基于神经网络的语音训练模型的训练过程，包括：

录入近场语音，从录入的近场语音中获取近场音频特征；

在近场语音中加入远场语音的环境声音，得到模拟远场语音；

将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型。

在一些可选的实施例中，将近场语音和模拟远场语音加入神经网络中进行训练时，采用中低层网络特定训练的目标函数进行语音模型训练，具体包括：采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失：

U是训练事件的总数量；

zⁱ是第i个重建特征向量；

xⁱ是对应的纯净特征向量。

在一些可选的实施例中，上述方法还包括：

将基于神经网络的语音训练模型与声学模型相融合，得到融合后语音训练模型；相应的，接收到远场语音时，将所述远场语音输入到融合后语音训练模型中。

在一些可选的实施例中，对处理后的远场语音进行识别，具体包括：

将处理后的远场语音输入到声学模型中进行识别；或

通过融合后语音训练模型直接对处理后的远场语音进行识别。

本发明实施例还提供一种远场语音识别处理装置，包括：

接收模块，用于接收远场语音；

输入模块，用于将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中；

处理模块，用于通过所述语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音；

识别模块，用于对处理后的远场语音进行识别。

在一些可选的实施例中，上述装置还包括：

训练模块，用于录入近场语音，从录入的近场语音中获取近场音频特征；在近场语音中加入远场语音的环境声音，得到模拟远场语音；将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型。

在一些可选的实施例中，所述训练模块，具体用于：

将近场语音和模拟远场语音加入神经网络中进行训练时，采用中低层网络特定训练的目标函数进行语音模型训练，具体包括：采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失：

U是训练事件的总数量；

zⁱ是第i个重建特征向量；

xⁱ是对应的纯净特征向量。

在一些可选的实施例中，所述训练模块，还用于：将基于神经网络的语音训练模型与声学模型相融合，得到融合后语音训练模型；相应的，

所述输入模块，具体用于接收到远场语音时，将所述远场语音输入到融合后语音训练模型中。

在一些可选的实施例中，所述识别模块，具体用于：

将处理后的远场语音输入到声学模型中进行识别；或

本发明实施例提供的远场语音识别处理方法及装置，接收远场语音时，将远场语音输入到预先训练得出的基于神经网络的语音训练模型中，通过语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音并进行识别，从而能够以较低的设备成本投入，实现较佳的去噪处理效果，能够在不增加设备成本投入的情况下，获取较佳的远场语音处理效果，使得远程语音能够和近场语音的效果相同或相近，该方法实现简单方便，处理效果好。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例一中远场语音识别处理方法的流程图；

图2为本发明实施例二中语音训练模型的训练过程示意图；

图3为本发明实施例二中语音训练模型训练原理示意图；

图4为本发明实施例三中远场语音识别处理方法的流程图；

图5为本发明实施例四中远场语音识别处理方法的流程图；

图6为本发明实施例中远场语音识别处理装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

为了解决现有技术中存在的远场语音去噪处理时，设备成本投入高，去噪处理效果不佳的问题，本发明实施例提供一种远场语音识别处理方法，通过神经网络模型进行学习，基于学习结果对接收到的远场语音进行处理，无需布置麦克风阵列，不用增加设备成本，即可实现对远场语音的优化处理，并获取到较佳的处理结果。

实施例一

本发明实施例一提供一种远场语音识别处理方法，其流程如图1所示，包括如下步骤：

步骤S101：接收远场语音。

用于远场语音处理的设备，通过设置的接收模块，接收远场语音，并进行后续的去混响、去噪处理，以获取质量较佳的语音。

步骤S102：将接收到的远场语音输入到预先训练得出的基于神经网络的语音训练模型中。

接收到远场语音后，将远场语音输入到语音训练模型中进行去混响、去噪处理，其中语音训练模型可以选用预先训练好的基于神经网络(Deep Neural Network，DNN)的语音训练模型。

语音训练模型的训练过程，也是一种学习过程，通过录入近场声音，从近场声音中提取出近场音频特征。用软件在近场声音中加入远场的环境声音，模拟出远场声音，将远场声音和近场声音加入到神经网络，对神经网络的参数和模型进行训练，神经网络模型可以采用深度网络模型或卷积网络模型。

步骤S103：通过语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音。

预先训练好的语音训练模型能够包含远场语音和近场语音的音频特征，可以将远场语音，经过比对处理，得到对应的近场语音。该过程实现从噪声混响特征较多的远场语音中恢复出噪声混响特征较少的近场语音。

步骤S104：对处理后的远场语音进行识别。

对远场语音进行识别，主要的是进行声学模型的识别，以便识别出语音，播放给用户。声学模型的识别可以通过单独的声学模型实现识别，也可以通过融合后的神经网络模型进行识别，融合后的神经网络模型是指将远场音频特征到近场音频特征的神经网络模型与声学模型融合得到的神经网络模型。

本发明实施例提供的技术方案，接收到远场语音时，输入到训练好的神经网络模型。利用神经网络对远场语音进行音频特征的加工，实现去混响、去噪声等，得到近场音频特征；并对近场音频特征进行声学模型的识别处理，实现为用户提供音质较佳的远场语音。

实施例二

本发明实施例二提供上述远场语音识别处理方法中，基于神经网络的语音训练模型的训练过程，其流程如图2所示，包括如下步骤：

步骤S201：录入近场语音。

基于神经网络的语音训练模型的训练，实际上是一种学习过程，首先是通过录入近场语音学习近场语音的特征。

步骤S202：从录入的近场语音中获取近场音频特征。

录入近场声音后，从近场声音中提取出近场音频特征，实现对近场语音特征的学习。

步骤S203：在近场语音中加入远场语音的环境声音，得到模拟远场语音。

在训练过程中，学习到近场语音的音频特征后，再在近场语音中加入噪声混响的特征，得到一个模拟的远场语音，通过学习模拟的远场语音的特征，实现模型的建立，所建立的模型能够反映远场语音与近场语音之间的差别和关联，从而能够实现远场语音到近场语音的反向还原。

步骤S204：将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型。

U是训练事件的总数量；

zⁱ是第i个重建特征向量；

xⁱ是对应的纯净特征向量。

上述公式为表示中低层网络特定训练的目标函数，将此公式用于图3所示的语音训练模型训练原理中，实现语音训练模型的建立。

如图3所示的，近场语音中可以提取出近场语音特征x，对近场语音特征x进行重建，得到重建特征z，噪声混响语音中提取出叠加噪声的特征x’，叠加噪声的特征x’通过映射变换，实现输入变量x’到隐性特征的映射(fθ映射，也是一个编码过程)，得到非线性的映射变换特征h1，进一步通过映射得到fθ得到特征h2；再通过非线性挤压(gθ映射，也是一个译码过程)，得到重建特征z，基于该原理，实现模型的语音训练建立。

如图3所示的，其参数从下往上依次为11*44,512,512和11*44。

本发明实施例中基于对远场语音的原始特征或中层表达，通过神经网络转化为近场语音的特征和中层表达，因此主要是对神经网络模型的中低层参数进行了特定训练，高层神经网络的参数与现有语音识别模型训练方法相同。

通过中低层网络参数的特定训练，在远场环境下，新的远场语音模型的性能与原始的带噪训练的远场语音模型的性能相比，有10％左右的提升。

实施例三

本发明实施例三提供一种远场语音识别处理的具体实现方法，其流程如图4所示，包括如下步骤：

步骤S301：接收远场语音。

步骤S302：将接收到的远场语音输入到预先训练得出的基于神经网络的语音训练模型中。

本实施例中基于神经网络的语音训练模型是未融合声学模型的语音训练模型，该模型仅实现远场语音到近场语音的处理。

步骤S303：获取语音训练模型中包含的远场语音和近场语音的音频特征。

步骤S304：根据获取的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音。

步骤S305：将处理后的远场语音输入到声学模型中进行识别。

通过单独声学模型进行识别，其实现更灵活。

本发明实施例提供的技术方案，在训练基于网络的语音训练模型时，不进行声学模型的融合，后续得到近场语音后，通过单独的声学模型进行语音识别。

实施例四

本发明实施例四提供一种远场语音识别处理的具体实现方法，其流程如图5所示，包括如下步骤：

步骤S401：接收远场语音。

步骤S402：将接收到的远场语音输入到预先训练得出的融合后的语音训练模型。

本实施例中基于神经网络的语音训练模型是与声学模型融合后的语音训练模型，能够一体化的实现语音识别。

本实施例中在生成语音训练模型时，将基于神经网络的语音训练模型与声学模型相融合，得到融合后语音训练模型。

步骤S403：获取语音训练模型中包含的远场语音和近场语音的音频特征。

步骤S404：根据获取的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音。

相应的，接收到远场语音时，将接收到的远场语音输入到融合后语音训练模型中进行远场语音到近场语音的转换处理，并同时实现语音识别，实现参数连调，其节约操作流程，处理效率更高。

步骤S405：通过融合后的语音训练模型对处理后的远场语音输入进行识别。

由于使用的是融合后的语音训练模型，通过融合后语音训练模型直接对处理后的远场语音进行识别，而不用再使用单独的声学模型来进行识别了。

本发明实施例提供的技术方案，在训练基于网络的语音训练模型时，进行声学模型的融合，后续得到近场语音后，通过融合后的基于网络的语音训练模型进行语音识别。

基于同一发明构思，本发明实施例还提供一种远场语音识别处理装置，该装置可以设置在任意的语音设备中，对接收到的语音进行处理，该装置结构如图6所示，包括：接收模块601、输入模块602、处理模块603和识别模块604。

接收模块601，用于接收远场语音。

输入模块602，用于将接收到的远场语音输入到预先训练得出的基于神经网络的语音训练模型中。

处理模块603，用于通过语音训练模型中包含的远场语音和近场语音的音频特征，对接收到的远场语音的音频特征进行去干扰处理，得到处理后的远场语音。

识别模块604，用于对处理后的远场语音进行识别。

优选的，上述装置还包括：训练模块605，用于录入近场语音，从录入的近场语音中获取近场音频特征；在近场语音中加入远场语音的环境声音，得到模拟远场语音；将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型。

优选的，上述训练模块605，具体用于将近场语音和模拟远场语音加入神经网络中进行训练时，采用中低层网络特定训练的目标函数进行语音模型训练，具体包括：采用如下公式最小化整个数据库的重建向量和纯净向量的平方误差损失：

U是训练事件的总数量；

zⁱ是第i个重建特征向量；

xⁱ是对应的纯净特征向量。

优选的，上述训练模块605，还用于：将基于神经网络的语音训练模型与声学模型相融合，得到融合后语音训练模型；相应的，

上述输入模块602，具体用于接收到远场语音时，将所述远场语音输入到融合后语音训练模型中。

优选的，上述识别模块604，具体用于将处理后的远场语音输入到声学模型中进行识别；或通过融合后语音训练模型直接对处理后的远场语音进行识别。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种远场语音识别处理方法，其特征在于，包括：

接收远场语音；

对处理后的远场语音进行识别；

其中，基于神经网络的语音训练模型的训练过程，包括：

录入近场语音，从录入的近场语音中获取近场音频特征；

将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型；

U是训练事件的总数量；

zⁱ是第i个重建特征向量；

xⁱ是对应的纯净特征向量。

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求2所述的方法，其特征在于，对处理后的远场语音进行识别，具体包括：

将处理后的远场语音输入到声学模型中进行识别；或

4.一种远场语音识别处理装置，其特征在于，包括：

接收模块，用于接收远场语音；

识别模块，用于对处理后的远场语音进行识别；

还包括：

训练模块，用于录入近场语音，从录入的近场语音中获取近场音频特征；在近场语音中加入远场语音的环境声音，得到模拟远场语音；将近场语音和模拟远场语音加入神经网络中进行训练，得到基于神经网络的语音训练模型；

所述训练模块，具体用于：

U是训练事件的总数量；

zⁱ是第i个重建特征向量；

xⁱ是对应的纯净特征向量。

5.如权利要求4所述的装置，其特征在于，所述训练模块，还用于：将基于神经网络的语音训练模型与声学模型相融合，得到融合后语音训练模型；相应的，

6.如权利要求5所述的装置，其特征在于，所述识别模块，具体用于：

将处理后的远场语音输入到声学模型中进行识别；或