CN112951219A

CN112951219A - 噪声拒识方法和装置

Info

Publication number: CN112951219A
Application number: CN202110170122.5A
Authority: CN
Inventors: 陆沁
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-06-11

Abstract

本发明公开噪声拒识方法和装置，其中，一种噪声拒识方法，包括：将收集到的语音同时输入音频检测模型及语音识别系统，其中，所述音频检测模型输出预测标签，所述语音识别系统输出识别文本及与所述识别文本对应的置信度；根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。本申请实施例提供的噪声拒识即当语音识别系统收到噪声语音时，不输出识别结果，从而有效地解决噪声等其它无效输入。

Description

噪声拒识方法和装置

技术领域

本发明属于语音数据处理技术领域，尤其涉及噪声拒识方法和装置。

背景技术

在语音识别系统识别目标说话人所说的内容过程中，除了目标人说话声，往往还会包含诸如背景说话声、噪声等各种杂乱声，这些无效杂乱声输入会导致系统误识别，从而影响用户体验。

现有的噪声拒识通常是基于一个限定范围的识别系统，拒识集外内容。发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：噪声拒识基于语音活动检测，但这种方法对于背景说话声的拒识效果较差。

发明内容

本发明实施例提供一种噪声拒识方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种噪声拒识方法，包括：将收集到的语音同时输入音频检测模型及语音识别系统，其中，所述音频检测模型输出预测标签，所述语音识别系统输出识别文本及与所述识别文本对应的置信度；根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。

第二方面，本发明实施例提供一种噪声拒识装置，包括：收集处理程序模块，配置为将收集到的语音同时输入音频检测模型及语音识别系统，其中，所述音频检测模型输出预测标签，所述语音识别系统输出识别文本及与所述识别文本对应的置信度；输出程序模块，配置为根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的噪声拒识方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的噪声拒识方法的步骤。

本申请的方法和装置提供的方案通过语音识别/音频检测模型结合置信度等技术，可以用语音识别的形式，解决语音识别系统接收到的除目标人说话声以外的其它各种声音以及噪声的问题。当用户在使用语音信息或语音软件时，有助于系统对用户输入的语音信息判断分析更准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种噪声拒识方法的流程图；

图2为本发明一实施例提供的另一种噪声拒识方法的流程图；

图3为本发明一实施例提供的噪声拒识方法的一个具体示例的装置及流程图；

图4为本发明一实施例提供的噪声拒识方法的一个具体示例的音频检测模型的结构；

图5为本发明一实施例提供的噪声拒识方法的一个具体示例的语音识别系统的结构；

图6为本发明一实施例提供的噪声拒识方法的一个具体示例的后处理逻辑；

图7为本发明一实施例提供的另一种噪声拒识装置的框图；

图8是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的噪声拒识方法一实施例的流程图，本实施例的噪声拒识方法可以适用于语音识别系统、具有语音识别功能的软件等，本申请在此没有限制。

如图1所示，在步骤101中，将收集到的语音同时输入音频检测模型及语音识别系统；

在步骤102中，根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。

在本实施例中，对于步骤101，噪声拒识装置将收集到的语音同时输入音频检测模型及语音识别系统，例如，所述用户说出需要发送的语音指令，所述用户说出例如“打开开关”的指令，音频检测模型及语音识别系统就会输入所述用户说出的语音指令“打开开关”，当然，用户输入的语音可能是包含噪声的也可能是无效指令，在此不再赘述。其中，音频检测模型输出预测标签，语音识别系统输出识别文本及与所述识别文本对应的置信度。

具体的，音频检测模型输出预测标签，例如，所述用户说出的“打开开关”的指令，经过音频检测模型输出预测标签为人声说话声，若是其它的声音就会输出非人声噪或者人声噪声。语音识别系统输出识别文本及与所述识别文本对应的置信度，语音识别系统主要包含识别模型及解码器，例如，所述用户说出的语音指令输入经过识别模型及解码器识别，就会输出识别文本及对应的置信度。

最后，对于步骤102，噪声拒识装置根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。例如，非人声噪声对应的阈值为t0，所述人声噪声对应的阈值t1，所述说话人声对应的阈值为t2，其中，t0>t1>t2，如果检测到为说话人声时，输出最终识别结果为所述用户说出的指令“打开开关”，若是检测到为非人声噪声或者人声噪声时就不输出识别结果。

本申请实施例的方案通过结合语音识别系统输出的识别文本和置信度以及音频检测模型输出的预测标签，进行噪声拒识判断，从而可以实现噪声拒识即当语音识别系统收到噪声语音时，不输出识别结果，更有效地解决噪声等其它无效输入。

进一步参考图2，其示出了本申请一实施例提供的另一种噪声拒识方法的流程图。该流程图主要是针对流程图图1中步骤102“音频检测模型输出预测标签”进一步限定的步骤的流程图。

如图2所示，在步骤201中，收集多种噪声数据；

在步骤202中，将所述多种噪声数据与目标说话声数据输入至CRNN音频检测模型以对所述音频检测模型进行训练；

在本实施例中，对于步骤201，首先音频检测装置收集多种噪声数据，其中，所述多种噪声数据包括他人说话声、设备中人物说话声、设备中合成音以及非人声噪声。

之后，对于步骤202，音频检测装置将所述多种噪声数据与目标说话声数据输入至CRNN音频检测模型以对所述音频检测模型进行训练，使得所述音频检测模型输出预测标签，其中，所述预测标签包括非人声噪声、人声噪声和说话人声。

通过上述方式对音频检测模型进行训练，从而可以训练出能够输出预测标签为非人声噪声、人声噪声、说话人声的音频检测模型。

在一些可选的实施例中，上述根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果包括：针对不同的预测标签设定不同的阈值，当所述置信度大于等于对应的阈值时输出所述识别文本，否则输出空。从而可以根据通过设定预测标签的阈值，可以将置信度与预测标签放在同一维度进行比较，从而可以根据预测标签与置信度的关系确定最终输出。

在一些可选的实施例中，上述非人声噪声对应的阈值为t0，所述人声噪声对应的阈值t1，所述说话人声对应的阈值为t2，其中，t0>t1>t2。从而不同的预测标签的阈值具有设定的关系，有利于后续的置信度与预测标签的阈值之间进行比较的结果的确定。

在一些可选的实施例中，与不同的测标签对应的不同的阈值根据所述语音识别系统设定，所述置信度为C，所述预测标签为A，0表示非人声噪声，1表示人声噪声，2表示说话人声，所述针对不同的预测标签设定不同的阈值，当所述置信度大于等于对应的阈值时输出所述识别文本,否则输出空包括：当A＝0且C>＝t0时，输出所述识别文本，否则输出空；当A＝1且C>＝t1时，输出所述识别文本，否则输出空；当A＝2且C>＝t2时，输出所述识别文本，否则输出空。从而可以根据上述设定更好地通过预测阈值与置信度的关系得出最终应该输出的内容。

进一步可选的，上述语音识别系统输出识别文本及与所述识别文本对应的置信度包括：所述语音识别系统在输出识别文本的同时，根据所述语音识别系统种的声学模型、语言模型以及音素切分信息计算所述识别文本的置信度，并输出所述置信度。从而可以在语音识别系统输出识别文本时，同时输出与该识别文本对应的置信度。

进一步可选的，上述音频检测模型包括输入层、多层CNN神经网络、一层GRU神经网络和输出层。从而音频检测模型通过上述结果可以更好地预测音频，输出预测标签。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：语音识别系统的目标是准确识别目标说话人所说的内容。然而，语音识别系统接收到的语音中，除了目标人说话声，往往还会包含诸如背景说话声、噪声等其它无效输入。这些无效输入会导致系统误识别，从而影响用户体验。

发明人还发现，现有的噪声拒识通常是基于一个限定范围的识别系统，拒识集外内容。这显然不适用于目前广泛应用的、不限定范围的语音识别系统。另一种噪声拒识基于语音活动检测，但这种方法对于背景说话声的拒识效果较差。

本申请的方案主要从以下几个方面入手进行设计和优化：

为有效抑制一个支持宽泛交互领域的语音识别系统对噪声的识别，本发明实施例提供一个结合音频检测和置信度的噪声拒识方法，其实现方式至少如下：

收集各种各样的噪声数据，包括他人说话声、设备中人物说话声、设备中合成音、非人声噪声四大类。将噪声数据与目标说话声数据一起训练一个CRNN音频检测模型。训练后的音频检测模型输入一个音频，输出预测标签0/1/2，分别代表非人声噪声、人声噪声、说话人声。

引入一个语音识别系统。输入音频，该语音识别系统在输出识别文本的同时，根据语音识别系统中的声学、语言模型及音素切分信息计算置信度，并输出置信度。

将音频同时送入音频检测模型及语音识别系统。

得到音频检测模型输出A、语音识别系统识别结果O以及置信度C

对不同A设定不同的置信度阈值t(t0、t1、t2)，当C大于阈值t时输出识别结果O，否则输出空。

请参考图3，其示出了本发明的装置及实时流程。

步骤1：将收集到的语音同时输入音频检测模型及语音识别系统

步骤2：将音频检测模型及语音识别系统的输出同时送入后处理模块

步骤3：根据预设的后处理逻辑，输出最终识别文本。

继续参考图4，其示出了音频检测模型的结构。主要由输入层、多层CNN神经网络(CNN layers)、一层GRU神经网络、输出层组成。首先用收集的噪声数据和说话人数据，训练模型，得到CNN层及GRU层网络参数。再用训练好的模型进行预测，输入音频，输出预测标签0或1或2，分别代表非人声噪声、人声噪声、说话人声。

继续参考图5，其示出了语音识别系统的结构。语音识别系统主要包含识别模型及解码器。引入一个语音识别系统。输入音频，经过语音识别系统，输出识别文本及对应的置信度。

继续参考图6，其示出了后处理逻辑。当接收到音频检测模型输出的预测标签A和语音识别系统输出的识别文本O及置信度C，输出TEXT时，进行如下逻辑判断及处理：

若A＝0,当C>＝t0时输出TEXT为识别文本O，否则输出TEXT为空；

若A＝1，当C>＝t1时输出TEXT为识别文本O，否则输出TEXT为空；

若A＝2，当C>＝t2时输出TEXT为识别文本O，否则输出TEXT为空。

此处的t0，t1，t2分别为A等于0、1、2时所对应的置信度阈值，根据所引入的语音识别系统设定。通常t0>t1>t2。当A＝0时，音频预测为非人声噪声。非人声噪声与说话人声差别较大，因而音频检测模型对非人声噪声的判别准确性较高。因此t0需要设为一个接近1的数，即除非置信度非常高，否则输出空。当A＝1时，音频预测为人声噪声。人声噪声与说话人声差别不大，因而音频检测模型对人声噪声的判别准确率相对较低。此时需要借助置信度来判断是否输出识别结果。通常将t1设置在0.5左右。A＝2时，音频预测为人声。同样由于人声噪声与说话人声区分性不够强，音频检测模型对于说话人的判断准确率相对较低，通常低于非人声噪声，而高于人声噪声。因而通常将t2设置为一个略小于t1的值。

请参考图7，其示出了本发明一实施例提供的噪声拒识装置的框图。

如图7所示，噪声拒识装置700，包括收集处理程序模块710和输出程序模块720。

其中，收集处理程序模块，配置为将收集到的语音同时输入音频检测模型及语音识别系统，其中，所述音频检测模型输出预测标签，所述语音识别系统输出识别文本及与所述识别文本对应的置信度；输出程序模块，配置为根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。

应当理解，图7中记载的诸模块与参考图1、图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如输出程序模块可以描述为根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如判断模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的噪声拒识方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将收集到的语音同时输入音频检测模型及语音识别系统，其中，所述音频检测模型输出预测标签，所述语音识别系统输出识别文本及与所述识别文本对应的置信度；

根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据噪声拒识装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至噪声拒识装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项噪声拒识方法。

图8是本发明实施例提供的电子设备的结构示意图，如图8所示，该设备包括：一个或多个处理器810以及存储器820，图8中以一个处理器810为例。噪声拒识方法的设备还可以包括：输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例噪声拒识方法。输入装置830可接收输入的数字或字符信息，以及产生与噪声拒识装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于噪声拒识装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种噪声拒识方法，包括：

2.根据权利要求1所述的方法，其中，所述音频检测模型通过以下方式进行训练：

收集多种噪声数据，其中，所述多种噪声数据包括他人说话声、设备中人物说话声、设备中合成音以及非人声噪声；

将所述多种噪声数据与目标说话声数据输入至CRNN音频检测模型以对所述音频检测模型进行训练，使得所述音频检测模型输出预测标签，其中，所述预测标签包括非人声噪声、人声噪声和说话人声。

3.根据权利要求1所述的方法，其中，所述根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果包括：

针对不同的预测标签设定不同的阈值，当所述置信度大于等于对应的阈值时输出所述识别文本，否则输出空。

4.根据权利要求3所述的方法，其中，所述非人声噪声对应的阈值为t0，所述人声噪声对应的阈值t1，所述说话人声对应的阈值为t2，其中，t0>t1>t2。

5.根据权利要求4所述的方法，其中，与不同的测标签对应的不同的阈值根据所述语音识别系统设定，所述置信度为C，所述预测标签为A，0表示非人声噪声，1表示人声噪声，2表示说话人声，所述针对不同的预测标签设定不同的阈值，当所述置信度大于等于对应的阈值时输出所述识别文本,否则输出空包括：

当A＝0且C>＝t0时，输出所述识别文本，否则输出空；

当A＝1且C>＝t1时，输出所述识别文本，否则输出空；

当A＝2且C>＝t2时，输出所述识别文本，否则输出空。

6.根据权利要求1所述的方法，其中，所述语音识别系统输出识别文本及与所述识别文本对应的置信度包括：

所述语音识别系统在输出识别文本的同时，根据所述语音识别系统种的声学模型、语言模型以及音素切分信息计算所述识别文本的置信度，并输出所述置信度。

7.根据权利要求1-6中任一项所述的方法，其中，所述音频检测模型包括输入层、多层CNN神经网络、一层GRU神经网络和输出层。

8.一种噪声拒识装置，包括：

收集处理程序模块，配置为将收集到的语音同时输入音频检测模型及语音识别系统，其中，所述音频检测模型输出预测标签，所述语音识别系统输出识别文本及与所述识别文本对应的置信度；

输出程序模块，配置为根据所述预测标签、所述识别文本和所述置信度进行噪声拒识逻辑判断处理，输出最终结果。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。