CN112562742B

CN112562742B - 语音处理方法和装置

Info

Publication number: CN112562742B
Application number: CN202011598819.4A
Authority: CN
Inventors: 黄超凡
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-10-21
Anticipated expiration: 2040-12-29
Also published as: CN112562742A

Abstract

本发明公开语音处理方法和装置，其中，一种语音处理方法，包括：响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；若所述音频中存在语音信号，判断设备是否被唤醒；若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向进行波束成形。通过对音频进行语音活性检测判断音频中是否存在语音信号，对存在语音信号的音频进行波束成形和后处理滤波处理，从而可以对非稳态噪声进行有效的处理，实现低功耗的垃圾分类语音处理。

Description

语音处理方法和装置

技术领域

本发明属于语音处理技术领域，尤其涉及语音处理方法和装置。

背景技术

目前市面上有关语音的垃圾分类系统都是更关注于识别，而忽略了信号处理，那么相应的在室外或者室内含噪声的环境下，其处理效果并不好，因此本文提出一种低功耗的语音处理系统应用于垃圾分类，并结合多通道后处理技术处理非稳态噪声，对室外含噪声环境有很好的处理效果。

结合语音识别的垃圾分类系统，用语音引导进行垃圾分类，可以进行交互，并且根据提示将不同的垃圾进行归类放入不同的垃圾箱。

对前端信号处理的忽略，导致在噪声环境下的识别率不高，以及忽略非稳态噪声的场景，后处理滤波用传统的维纳滤波等，而维纳滤波法鲁棒性比较差，它基于一些数学假设，在真实环境下难以有效抑制非平稳噪声的干扰。而且维纳滤波要求得到半无限时间区间内的全部观察数据的条件很难满足，同时它也不能用于噪声为非平稳的随机过程的情况。

发明内容

本发明实施例提供一种语音处理方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音处理方法，包括：响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；若所述音频中存在语音信号，判断设备是否被唤醒；若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形。

第二方面，本发明实施例提供一种语音处理装置，包括：获取判断程序模块，配置为响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；判断程序模块，配置为若所述音频中存在语音信号，判断设备是否被唤醒；处理判断程序模块，配置为若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；计算增强程序模块，配置为若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音处理方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音处理方法的步骤。

本申请的方法和装置通过对音频进行语音活性检测判断音频中是否存在语音信号，对存在语音信号的音频进行波束成形和后处理滤波处理，从而可以对非稳态噪声进行有效的处理，实现低功耗的垃圾分类语音处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音处理方法的流程图；

图2为本发明一实施例提供的另一种语音处理方法的流程图；

图3为本发明一实施例提供的语音处理方法的一个具体示例的垃圾分类语音处理系统构架图；

图4为本发明一实施例提供的语音处理方法的一个具体示例的低功耗麦克风阵列处理流程图；

图5为本发明一实施例提供的一种语音处理装置的框图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音处理方法一实施例的流程图。

如图1所示，在步骤101中，响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；

在步骤102中，若所述音频中存在语音信号，判断设备是否被唤醒；

在步骤103中，若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；

在步骤104中，若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形。

在本实施例中，对于步骤101语音处理装置响应于获取到音频，对音频进行语音活性检测判断音频中是否存在语音信号，例如，将获取到的音频送入VAD进行检测，判断音频中是否包含人声，或全部为噪音。

之后，对于步骤102，若音频中存在语音信号，判断设备是否被唤醒，例如，已经获取到了唤醒词对设备进行了唤醒，后续获取到的音频为语音指令或语音问答。

然后，对于步骤103，若设备没被唤醒，对音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词，例如，若在不包含唤醒词的情况下将音频丢弃或忽略。

最后，对于步骤104，若包含唤醒词，基于处理后的音频的波束成形计算波达方向，并基于波达方向增强波束成形，例如，在用户唤醒设备之后，用户的位置短时间内不会变动太大，对用户的方向固定增强波束成形，对后续获取用户语音能够起到很好的效果，例如，对用户在室外噪音环境下或者一些突变的噪音情况。

本实施例的方法能够对音频进行语音低功耗的垃圾分类语音处理。

在上述实施例所述的方法中，所述对所述音频进行语音活性检测判断所述音频中是否存在语音信号，还包括：

若不存在语音信号，将音频丢弃或忽略噪声信号。

本实施例的方法通过将不存在语音信号的音频丢弃或忽略，从而可以实现减少计算量，降低功耗。

进一步参考图2，其示出了本申请一实施例提供的另一种语音处理方法的流程图。该流程图主要是对流程图1“对所述音频进行语音活性检测判断所述音频中是否存在语音信号”的流程进一步限定的步骤的流程图。

如图2所示，在步骤201中，将所述音频的输入信号进行去均值预加重、傅里叶变换、提取fbank特征、特征修正以及解码获取VAD的输出。

在步骤202中，基于获取的VAD输出，判断所述音频是否存在音频。

在本实施例中，对于步骤201，语音处理装置将音频的输入信号进行去均值预加重、傅里叶变换、提取fbank特征、特征修正以及解码获取VAD的输出；之后，对于步骤202，语音处理装置基于获取的VAD输出，判断音频是否存在音频。

本实施例的方法通过将音频的输入信号进行去均值预加重、傅里叶变换、提取fbank特征、特征修正以及解码获取VAD的输出，从而可以判断音频是否存在音频。

在上述实施例所述的方法中，所述解码包括：三层神经网络，112*32，32*32，32*2，前两层是sigmoid，第三层是softmax。

将所述音频进行瞬态波束参考比(TBRR，Transient beam-to-reference ratio)处理判断所述音频中是否存在语音信号。其中，瞬态波速参考比用来判断所述音频是非稳态噪声或者语音信号。

本实施例的方法通过利用瞬态波束参考比可以判断音频中是否存在语音信号。

在上述实施例所述的方法中，所述判断设备是否被唤醒，还包括：

若设备已被唤醒，基于唤醒时确定的波达方向增强波束成形并将音频送入自动语音识别。

本实施例的方法通过确定的波达方向增强波束成形并将音频送入自动语音识别，从而可以减少计算量，进一步地降低功耗。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：

主要由于声学模型的局限导致，以及未考虑噪声尤其突变噪声环境下的效果，会导致在非稳态噪声环境下识别效果较差，影响识别，另外对功耗没有特别在意，没有低功耗的方案。

发明人还发现，更多的是从识别方面来解决问题，而忽略前端信号处理。

本申请的方案主要从以下几个方面入手进行设计和优化：

本专利主要实现低功耗以及对非稳态噪声的处理，低功耗主要有两方面来实现，一是通过VAD，不对纯噪声做处理，二是在唤醒并且确定DOA以后，人的位置短时间不会变动太大，固定DOA角度，从而减少计算量，进而降低功耗，另外基于多通道的后处理滤波技术对非稳态噪声有很好的处理效果，因而对室外噪声环境，尤其一些突变的噪声(道路的噪杂声)等会起到很好的效果。

请参考图3，其示出了本发明一实施例提供的语音处理方法的一个具体示例的垃圾分类语音处理系统构架图。

如图3所示，低功耗的垃圾分类语音处理系统主要分为三个模块：麦克风拾音，低功耗麦克风阵列语音处理，以及识别模块。

麦克风拾音：用于麦克风采集音频；

低功耗麦克风阵列处理。

请参考图4，其示出了本发明一实施例提供的语音处理方法的一个具体示例的低功耗麦克风阵列处理流程图。

如图4所示，首先音频经过VAD用于判断是语音信号是否存在，具体过程为：首先输入信号经过去均值预加重、傅里叶变换、提取fbank特征、特征修正、解码(共有三层神经网络，112*32，32*32，32*2，前两层是sigmoid,第三层是softmax)，得到VAD的输出，用于判别语音信号是否存在。

如果语音信号不存在(vad为0)则直接可以输出或者忽略噪声信号，如果语音信号存在(vad为1)，判断是否已经唤醒过，如果已经唤醒过则将原始语音直接根据唤醒后确定的DOA角度做一路的BF增强处理。

如果还没唤醒，则依次经过BF,后处理POST(后处理主要利用TBBR，TBBR是beamformer输出的瞬时能量与参考信号的瞬时能量的比值)，然后送唤醒，唤醒词如“XX，你好”，如果能唤醒则结合唤醒信息计算DOA角度，然后根据DOA角度做一路的BF增强处理。

识别模块：经低功耗麦克风阵列处理的语音送识别，根据识别结果做后续的处理，用于垃圾桶即可进行交互并指导进行垃圾的智能分类。

发明人在实现本发明的过程中形成的beta版：

本方案刚开始讨论的时候主要是对非平稳噪声进行处理，利用TBRR来判定是否非稳态噪声或者信号，但是确实对低功耗的考虑，在功耗要求高的场景下不适用，因此，添加低功耗处理，最终形成低功耗的垃圾分类语音处理方案。

发明人在实现本发明的过程中发现达到更深层次的效果：

通过本方案，可以实现低功耗的垃圾分类语音处理系统，另外基于多通道的后处理滤波技术对非稳态噪声有很好的处理效果，对一些突变的噪声(道路的噪杂声)等会起到很好的效果。

请参考图5，其示出了本发明一实施例提供的语音处理装置的框图。

如图5所示，语音处理装置500，包括获取判断程序模块510、判断程序模块520、处理判断程序模块530和计算增强程序模块540。

其中，获取判断程序模块510，配置为响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；判断程序模块520，配置为若所述音频中存在语音信号，判断设备是否被唤醒；处理判断程序模块530，配置为若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；计算增强程序模块540，配置为若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形。

应当理解，图5中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如获取判断程序模可以描述为响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如获取判断程序模也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音处理方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；

若所述音频中存在语音信号，判断设备是否被唤醒；

若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；

若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音处理装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音处理方法。

图6是本发明实施例提供的电子设备的结构示意图，如图6所示，该设备包括：一个或多个处理器610以及存储器620，图6中以一个处理器610为例。语音处理方法的设备还可以包括：输入装置630和输出装置640。处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接，图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音处理方法。输入装置630可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音处理装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

若所述音频中存在语音信号，判断设备是否被唤醒；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音处理方法，包括：

若所述音频中存在语音信号，判断设备是否被唤醒；

若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形，

其中，所述对所述音频进行语音活性检测判断所述音频中是否存在语音信号，还包括：

若不存在语音信号，将所述音频丢弃或忽略噪声信号，

其中，所述对所述音频进行语音活性检测判断所述音频中是否存在语音信号，包括：

将所述音频的输入信号进行去均值预加重、傅里叶变换、提取fbank特征、特征修正以及解码获取VAD的输出；

基于获取的VAD输出，判断所述音频是否存在音频，

将所述音频进行瞬态波束参考比处理来判断所述音频是非稳态噪声或者语音信号。

2.根据权利要求1所述的方法，其中，所述解码包括：三层神经网络，112*32，32*32，32*2，前两层是sigmoid，第三层是softmax。

3.根据权利要求1所述的方法，其中，所述判断设备是否被唤醒，还包括：

若被唤醒，基于唤醒时确定的波达方向增强波束成形并将所述音频送入自动语音识别。

4.一种语音处理装置，包括：

获取判断程序模块，配置为响应于获取到音频，对所述音频进行语音活性检测判断所述音频中是否存在语音信号；

判断程序模块，配置为若所述音频中存在语音信号，判断设备是否被唤醒；

处理判断程序模块，配置为若没被唤醒，对所述音频进行波束成形和后处理滤波处理，并判断处理后的音频是否包含唤醒词；

计算增强程序模块，配置为若包含唤醒词，基于所述处理后的音频的波束成形计算波达方向，并基于所述波达方向增强波束成形，

其中，所述获取判断程序模块还配置为若不存在语音信号，将所述音频丢弃或忽略噪声信号，

其中，所述获取判断程序模块还配置为将所述音频的输入信号进行去均值预加重、傅里叶变换、提取fbank特征、特征修正以及解码获取VAD的输出；基于获取的VAD输出，判断所述音频是否存在音频，

其中，所述获取判断程序模块还配置为将所述音频进行瞬态波束参考比处理来判断所述音频是非稳态噪声或者语音信号。

5.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至3任一项所述方法的步骤。

6.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至3任一项所述方法的步骤。