CN113035174A

CN113035174A - 语音识别处理方法、装置、设备及系统

Info

Publication number: CN113035174A
Application number: CN202110321293.3A
Authority: CN
Inventors: 郭莉莉; 龙海; 柳杨
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-25

Abstract

本申请提出了一种语音识别处理方法、装置、设备及系统，对于不同语音采集设备直接采集到的原始语音信号，本申请均可以先对其包含的原始语音特征进行调整，得到更适配语音识别模型的待识别语音信号后，再输出至语音识别模型进行识别处理，即可保证所得相应原始语音信号的语音识别结果的高精准度，且不需要针对应用于不同场景下的各设备安装的语音识别引擎，训练与该应用场景下的设备相适配的语音识别模型，极大减小了模型训练成本。

Description

语音识别处理方法、装置、设备及系统

技术领域

本申请主要涉及语音识别领域，更具体地说是涉及一种语音识别处理方法、装置、设备及系统。

背景技术

近年来，随着语音识别技术的发展，已被普遍应用到如工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等多个领域，通常是利用语音识别引擎，对采集到原始语音信号进行识别，由电子设备响应该识别结果，满足应用需求。

然而，在实际应用中，由于不同电子设备具有的语音采集器的性能可能不同，使其采集到的同一声源的原始语音信号的属性特征会有较大差异，这样，若该不同电子设备使用同一语音识别引擎，对采集到的相应原始语音信号进行识别，可能会导致对某些电子设备采集到的原始语音信号的识别精度较低，无法满足应用需求。

发明内容

有鉴于此，本申请提供了一种语音识别处理方法，所述方法包括：

获取原始语音信号；

调整所述原始语音信号的原始语音特征，得到待识别语音信号；其中，所述待识别语音信号与所述原始语音信号的相似度大于第一相似阈值；

输出所述待识别语音信号，所述待识别语音信号用于被语音识别引擎识别，得到所述原始语音信号的语音识别结果。

在一些实施例中，所述调整所述原始语音信号的原始语音特征，得到待识别语音信号，包括以下至少一种特征调整方式：

对所述原始语音信号进行信道增益补偿，得到待识别语音信号；

将特定噪声信号添加至所述原始语音信号，得到待识别语音信号；

调整所述原始语音信号的传输速率，得到待识别语音信号；

调用混响处理函数，向所述原始语音信号添加混响，得到待识别语音信号；

确定所述原始语音信号的掩蔽语音区域，利用预设掩蔽信号对所述掩蔽去语音区域的所述原始语音信号进行掩蔽处理，得到待识别语音信号；

其中，采用不同所述特征调整方式得到的各待识别语音信号之间的相似度大于第二相似阈值。

在一些实施例中，所述对所述原始语音信号进行信道增益补偿，得到待识别语音信号，包括：

将所述原始语音信号转换为原始时域信号或原始频域信号；

调整所述原始时域信号或所述原始频域信号的特征参数；

对具有调整后的所述特征参数的所述原始时域信号或所述原始频域信号进行转换处理，得到待识别语音信号。

在一些实施例中，所述方法还包括：

按照预设规则，确定针对所述原始语音信号的原始语音特征的目标特征调整方式；

所述调整所述原始语音信号的原始语音特征，得到待识别语音信号包括：

按照所述目标特征调整方式，调整所述原始语音信号的原始语音特征，得到待识别语音信号。

在一些实施例中，所述调整所述原始语音信号的原始语音特征，得到待识别语音信号，包括：

将所述原始语音信号输入归一化处理模型，实现原始语音特征的调整，得到待识别语音信号；

其中，所述归一化处理模型是基于多个第一样本语音信号，利用多种特征调整方式训练得到的，所述多个第一样本语音信号是由多种类型的语音采集设备同时对声源进行语音采集所得到的。

在一些实施例中，在所述语音识别处理方法应用于语音采集设备或本地电子设备的情况下，所述输出所述待识别语音信号包括：

向服务设备发送所述待识别语音信号，由所述服务设备的语音识别引擎对所述待识别语音信号进行语音识别，得到所述原始语音信号的语音识别结果；

在所述语音识别处理方法应用于所述服务设备的情况下，所述获取原始语音信号包括：

所述服务设备接收所述语音采集设备发送的原始语音信号；

所述输出所述待识别语音信号包括：

将所述待识别语音信号输入语音识别模型，得到所述原始语音信号的语音识别结果；

其中，所述语音识别模型是基于多个第二样本语音信号训练得到的，所述多个第二样本语音信号包括采用不同特征调整方式，分别对同一样本语音信号进行特征调整所得到的多个待识别语音信号；或者是处于不同场景下的多个语音采集设备所采集到的原始语音信号。

又一方面，本申请还提出了一种语音识别处理装置，所述装置包括：

原始语音信号获取模块，用于获取语音采集设备所采集的原始语音信号；

原始语音信号调整模块，用于调整所述原始语音信号的原始语音特征，得到待识别语音信号；其中，所述待识别语音信号与所述原始语音信号的相似度大于第一相似阈值；

待识别语音信号输出模块，用于输出所述待识别语音信号，其中，所述待识别语音信号用于被语音识别引擎识别，得到所述原始语音信号的语音识别结果。

又一方面，本申请还提出了一种语音识别处理设备，所述设备包括：

至少一个存储器和至少一个处理器，其中：

所述存储器，用于存储实现如上述的语音识别处理方法的程序；

所述处理器，用于加载并执行所述存储器存储的程序，实现如上述的语音识别处理方法的各个步骤。

又一方面，本申请还提出了一种语音识别处理系统，所述系统包括：

语音采集设备，所述语音采集设备配置有至少一个语音采集器，所述语音采集器用于采集原始语音信号；

以及如上述的语音识别处理设备。

在一些实施例中，所述语音识别处理设备集成在所述语音采集设备中；或者，

所述语音识别处理设备和所述语音采集设备是部署于同一本地电子设备的不同组件；或者，

所述语音识别处理设备是与所述语音采集设备不同的本地电子设备，所述语音识别处理设备还包括：能够连接不同所述语音采集设备的第一通信接口，以及能够连接服务设备的第二通信接口；

或者，

所述语音识别处理设备部署在能够与所述语音采集设备通信连接的服务设备中，所述语音采集设备还包括：能够连接所述服务设备的第三通信接口。

由此可见，本申请提出了一种语音识别处理方法、装置、设备及系统，对于不同语音采集设备直接采集到的原始语音信号，本申请均可以先对其包含的原始语音特征进行调整，得到更适配语音识别模型的待识别语音信号后，再输出至语音识别模型进行识别处理，即可保证所得相应原始语音信号的语音识别结果的高精准度，且不需要针对应用于不同场景下的各设备安装的语音识别引擎，训练与该应用场景下的设备相适配的语音识别模型，极大减小了模型训练成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提出的语音识别处理系统的一可选示例的结构示意图；

图2为本申请提出的语音识别处理系统的一可选场景示意图；

图3a为本申请提出的语音识别处理系统的又一可选示例的结构示意图；

图3b为本申请提出的语音识别处理系统的又一可选示例的结构示意图；

图4为本申请提出的语音识别处理系统的又一可选场景示意图；

图5为本申请提出的语音识别处理系统的又一可选示例的结构示意图；

图6为本申请提出的语音识别处理系统的一可选示例的工作原理示意图；

图7为本申请提出的语音识别处理设备的一可选示例的硬件结构示意图；

图8为本申请提出的语音识别处理方法的一可选示例的流程示意图；

图9为本申请提出的语音识别处理方法的又一可选示例的流程示意图；

图10为本申请提出的语音识别处理方法的又一可选示例的信令流程示意图；

图11为本申请提出的语音识别处理装置的一可选示例的结构示意图；

图12为本申请提出的语音识别处理装置的又一可选示例的结构示意图。

具体实施方式

针对背景技术部分描述的技术问题，提出在训练语音识别模型期间，通过数据增强的方式，模拟来自多种电子设备采集到的语音信号，得到与多种电子设备相匹配的样本语音信号，以此训练得到语音识别模型，从而增加该语音识别引擎的鲁棒性。

但由于电子设备的形态和配置类别是无法穷举的，无法保证按照上述方式得到的样本语音信号全面性，由此训练得到的语音识别模型，仍无法保证对各种电子设备采集到的语音信号的高精度识别。对此，本申请进一步提出对采集到的原始语音信号进行合适的归一化处理，以使得处理后的语音信号能够被已训练的语音识别模型可靠识别，得到原始语音信号的可靠且准确地语音识别结果，进而提高后续依据该语音识别结果所执行业务的可靠性，满足实际应用需求。

具体的，在不同电子设备配置相同的语音识别引擎，采用相同的语音识别模型进行语音识别处理的场景下，对于具有不同性能的语音采集器的语音采集设备，在任一环境下采集到原始语音信号后，如上述分析，若直接将其发送至语音识别模型进行语音识别，可能无法保证所得语音识别结果的可靠性和准确性，所以，本申请提出先对采集到的原始语音信号进行归一化处理，对于不同语音采集设备采集到的各原始语音信号，具体可以采用可调的归一化处理方式，对各原始语音信号进行处理，得到相似的归一化处理结果，即使各原始语音信号归一化处理后的语音信号保持一定的相似特性。

这样，后续处理得到的语音信号(记为待识别语音信号)发送至同一语音识别模型，能够得到可靠且准确的各原始语音信号的语音识别结果，从而解决不同语音采集设备采集到的原始语音信号，与预训练的某一语音语音识别模型不能都匹配，即同一语音识别模型无法适配多种语音采集设备的技术问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，为了便于描述，附图中仅示出了与有关发明相关的部分，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本本申请下文描述的实施例内容，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

另外，本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参照图1，为本申请提出的语音识别处理系统的一可选示例的结构示意图，该系统可以包括：语音采集设备100和语音识别处理设备200，其中：

语音采集设备100可以配置有至少一个语音采集器110(图1仅以一个语音采集器为例进行说明)，该语音采集器110可以用于采集原始语音信号，本申请对该语音采集器110的数量、类型及其在整个语音所采集设备100中的部署位置不做限制，可视情况而定。

在一种可能的实现方式中，在语音采集设备100包含多个语音采集器110的情况下，如多个麦克风，这多个语音采集器110可以阵列排布方式，从而利用这多个语音采集器110各自采集到的原始语音信号进行降噪处理，以减少语音识别阶段，噪声信号的干扰，具体降噪处理方法不做详述。

语音识别处理设备200可以是适用于本申请提出的语音识别处理方法和装置的处理芯片，通过执行实现该语音识别处理方法的程序，实现对语音采集器110所采集到的原始语音信号的归一化处理，得到能够被语音识别模型可靠且准确识别的待识别语音信号，具体实现过程可以参照下文方法实施例相应部分的描述，本实施例在此不做详述。

需要说明，本申请对该语音识别处理设备200的产品类型及其与语音采集设备100，或系统中的其他设备之间的部署关系不做限制，可视情况而定。

在一些实施例中，上述语音采集设备100和语音识别处理设备200可以部署在同一本地电子设备中。因此，本申请实施例提出的语音识别处理系统可以适用于该电子设备；或者，如图2所示的语音识别处理系统的一可选场景示意图，该电子设备可以作为该语音识别处理系统中的一组成设备，且该电子设备包含有上述语音采集设备100和语音识别处理设备200，将采集到的原始语音信号处理为待识别语音信号后，通过有线或无线网络发送至服务设备进行识别处理，得到原始语音信号的语音识别结果。

需要说明，在电子设备得到待识别语音信号后，可以利用离线的语音识别引擎，直接由该电子设备对其进行语音识别处理，得到语音识别结果，这种情况下，电子设备不需要联网，也可以满足语音识别需求，具体实现过程及该场景下的系统结构，本申请不做详述。

在实际应用中，上述电子设备可以包括但并不局限于：智能手机、平板电脑、可穿戴设备、个人计算机(personal computer，PC)、上网本、智能手表、增强现实(AugmentedReality，AR)设备、虚拟现实(Virtual Reality，VR)设备、车载设备、智能音箱、机器人、台式计算机等。本申请对该电子设备的产品类型不做限制，图2示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

在一种可能的实现方式中，如图3a所示，该语音采集设备100和语音识别处理设备200可以是本地电子设备中的不同组件。这种情况下，该语音采集设备100可以用于实现原始语音信号的采集，再通过相应的语音通信接口(图3a并未示出)，将采集到的原始语音信号传输至语音识别处理设备200继续进行处理，通常情况下，该语音通信接口可以是该语音采集设备100与语音识别处理设备200有线通信连接的数据接口等，本申请对该语音通信接口的部署位置及其接口类别不做限制，可视情况而定。

在又一种可能的实现方式中，如图3b所示，上述语音识别处理设备200也可以集成在语音采集设备100中，从而使的该语音采集设备100不仅具有语音采集功能，还具有语音信号预处理的能力，因此，在其中的语音采集器110采集到原始语音信号后，直接通过数据传输线路，将该原始语音信号传输至该语音识别处理设备200做进一步归一化处理，即调整原始语音信号的原始语音特征，得到与原始语音信号具有一定相似度的待识别语音信号，之后，再由语音识别引擎中的语音识别模型对该待识别语音信号进行识别，得到该原始语音信号精准的语音识别结果。

可见，在对本地电子设备实现语音唤醒的各应用场景下，在唤醒该电子设备的语音识别引擎之前，甚至可以是该电子设备的操作系统唤醒或启动之前，由于集成有语音识别处理设备200的语音采集设备100处于工作状态，可以实时采集电子设备所处环境下的语音信号，即原始语音信号，按照本实施例提出的语音识别处理方法，得到待识别语音信号。之后，可以对该待识别语音信号进行初始识别，以确定其是否包含或表征有针对语音识别引擎的唤醒指令，若是，再触发电子设备的操作系统启动，唤醒语音识别引擎，对接收到的待识别语音信号进行识别处理，实现对电子设备的语音控制；若否，暂时不用唤醒电子设备的操作系统和/或语音识别引擎，达到节省电子设备的功耗的效果。

基于上文两种可能的实现方式中，所描述的语音采集设备100和语音识别处理设备200之间的部署关系，可以适应于如上图2所示的场景示意图中的任一电子设备中；当然，对于具有该部署关系的电子设备，实现语音识别处理方法过程中，并不局限于适用于图2所示的系统场景，可依据实际情况确定，本申请在此不做一一详述。

在又一些实施例中，上述语音采集设备100和语音识别处理设备200也可以部署在本地不同的电子设备中，也就是说，如图1所示，该语音采集设备100和语音识别处理设备200两者可以是相互独立的本地电子设备，结合图4所示的语音识别处理系统的又一可选示例的场景示意图，该语音采集设备100可以是智能音箱，语音识别处理设备200可以是如上文列举的区别于该智能音箱的另一电子设备，其包含但并不局限于图4所示的智能手机、笔记本电脑，可依据应用场景的实际情况确定。

可见，在该又一些实施例中，语音采集设备100(如图4中的智能音箱等)将采集到的原始语音信号发送至，另一独立的电子设备即语音识别处理设备200，调整其原始语音特征，得到待识别语音信号后，可以通过网络发送至服务设备的语音识别模型进行识别处理，得到语音识别结果；当然，如上述分析，也可以由语音识别处理设备200所在的电子设备自身，对待识别语音信号进行识别处理，得到语音识别处理结果，本申请对待识别语音信号的语音识别处理的执行主体不做限制，可视情况而定。

其中，在本实施例描述的语音采集设备100和语音识别处理设备200之间的部署关系下，该语音识别处理设备通常包括：能够连接不同语音采集设备100的第一通信接口，以及能够连接服务设备的第二通信接口。由上述场景描述可知，该第一通信接口可以是能够实现本地设备之间的数据交互的数据接口，具体可以包括如WIFI模块、5G/6G(第五代移动通信网络/第六代移动通信网络)模块、GPRS模块等通信模块中的数据接口，或者是通过有线网络或数据传输线路连接的接口等。而第二通信接口可以是能够利用无线通信网络实现数据交互的通信模块(其包括但并不局限于本实施例列举内容)的数据接口。本申请对这两个通信接口各自的接口类型及工作原理不做限制，可视情况而定。

基于上述分析，在实际应用中，若当前环境下存在多个语音采集设备100，且这多个语音采集设备100的配置性能可能不同，对同一声源采集到的原始语音信号的属性特征可能不同，为了提高各原始语音信号的识别精度，本申请可以将这多个语音采集设备100各自采集到的原始语音信号均发送至，上述语音识别处理设备200所属的电子设备，按照上述构思，采用相同或不同的方式，分别对各原始语音信号进行归一化处理后，再对得到的各待识别语音信号分别进行高精度的语音识别，解决针对不同语音采集设备的同一语音识别模型无法都匹配的技术问题。

需要说明，如上文其他实施例的描述，上述语音采集设备100和语音识别处理设备200均可以部署在如智能音箱等同一电子设备中，这种情况下，可以将采集到的原始语音信号调整为待识别语音信号后，再输出至语音识别模型(其可以部署在服务设备或本地电子设备中，本申请对其部署位置不做限制)进行语音识别处理。

在又一些实施例中，在语音采集设备100为本地任一如上列举的电子设备，或部署在该电子设备中的一组件的基础上，本申请的语音识别处理设备200还可以部署在，能够与语音采集设备100通信连接的服务设备中，结合上图4所示的场景示意图，参照图5所示的语音识别处理系统的又一可选示例的结构示意图，本实施例中的语音采集设备100通常还会包括：能够连接服务设备的第三通信接口，关于该第三通信接口类别及其功能，可以结合上文对第二通信接口的描述，本实施例在此不做赘述。

可见，如图4所示的场景示意图，如智能音箱等语音采集设备100采集到原始语音信号后，可以直接通过有线/无线网络，发送至服务设备，由该服务设备中的语音识别处理设备200，执行本申请实施例提出的语音识别处理方法，输出归一化处理后的待识别语音信号至语音识别模型，得到原始语音信号的语音识别结果，再反馈至智能音箱，由该智能音箱安装的语音识别引擎响应原始语音信号的语音识别结果，满足智能音箱的语音控制要求。可见，本实施例中的语音识别处理设备200实现本申请提出的语音识别处理方法的程序，实际可以集成到语音识别引擎中，由该语音识别引擎执行该语音识别处理方法后，继续由语音识别模型实现高精度的语音识别。

综上可知，对于同一厂家或合作的不同厂家生产的各电子设备，为了满足用户的语音控制需求，通常会安装相同的语音识别引擎，因此，这些电子设备的语音识别引擎的语音识别模型相同，无法直接实现对各电子设备直接采集的原始语音信号的高精度识别。参照图6所示的语音识别处理系统的工作原理示意图，对于任一语音采集器110采集到的原始语音信号，本申请提出先由语音识别处理设备200采用合适的方式，对原始语音信号进行归一化处理，再将得到的待识别语音信号发送至语音识别模型进行识别处理，得到高精度的语音识别结果，以满足不同场景下的语音识别需求。

其中，对于上述语音采集设备100和语音识别处理设备200在整个系统中的部署关系，包括但并不局限于上文各实施例描述的内容，可以依据具体应用场景确定。而且，上述各实施例的描述的语音识别处理系统结构，并不构成对本申请实施例中语音识别处理系统的限制，在实际应用中，该语音识别处理系统可以包括比上述实施例所示的系统结构更多或更少的组成部件，如数据存储设备、其他语音被控设备等，本申请在此不做一一列举。

对于上文各实施例描述的语音识别处理系统中的语音识别处理设备，如图7所示的语音识别处理设备的一可选示例的硬件结构示意图，无论该语音识别处理设备是独立的电子设备，还是集成到语音采集设备100中的组件，或者是集成到服务设备的语音识别引擎中的组件，如图7所示，该语音识别处理设备200可以包括但并不局限于：至少一个存储器210和至少一个处理器220，其中：

存储器210可以用于存储实现本申请提出的语音识别处理方法的程序；处理器220可以用于加载并执行该存储器210所存储的该程序，实现本申请提出的语音识别处理方法的各步骤，具体实现过程可以参照但并不局限于下文方法实施例相应部分的描述，本实施例在此不做详述。

结合上述各系统实施例的描述，在不同应用场景下，该语音识别处理设备200的产品类型，及其与系统中的其他组成设备之间的部署关系可能不同，某些场景下可能是本地的各种电子设备，某些场景下可能是服务设备等，这就导致该语音识别处理设备200的组成结构不局限于图7所示的设备结构，可视情况而定，本申请在此不做一一列举。

综合上文各实施例描述的语音识别处理系统，及其包含的语音识别处理设备，参照图8，为本申请提出的语音识别处理方法的一可选示例的流程示意图，该方法可以适用于如上述任一实施例描述的语音识别处理设备200，但并不限制该语音识别处理设备200的具体产品类型。如图8所示，该方法可以包括但并不局限于以下步骤：

步骤S11，获取原始语音信号；

结合上文实施例相应部分的描述，该原始语音信号可以是当前环境中的语音采集器采集得到的，本申请实施例对该语音采集器所属的产品类型不做限制。

其中，在语音控制的应用中，语音采集器采集到当前环境下的原始语音信号后，可以直接发送至语音识别处理设备进行后续。在又一些实施例中，也可以由语音识别处理设备主动读取，目标语音采集器所采集到的原始语音信号，本申请对步骤S11的具体实现过程不做限制，可视情况而定。

步骤S12，调整该原始语音信号的原始语音特征，得到待识别语音信号；

本申请实施例中，待识别语音信号与原始语音信号的相似度大于第一相似阈值，该第一相似阈值往往是较大数值，本申请对该数值具体大小不做限制，可视情况而定。

由此可见，本申请在对原始语音信号的原始语音特征进行调整过程中，需要保证原始语音信号中的有效内容基本不变，从而保证后续通过对待识别语音信号进行识别处理，能够得到原始语音信号的内容，但本申请对原始语音特征的具体调整方法不做限制。

步骤S13，输出该待识别语音信号，以被语音识别引擎识别处理，得到原始语音信号的语音识别结果。

结合上文系统实施例对语音识别处理设备，在整个系统中的部署关系的相关描述，若语音识别处理设备包含语音识别引擎的语音识别模型，如由本地电子设备进行离线语音识别，或该语音识别处理设备部署在服务设备中等不同场景下，步骤S13具体可以包括语音识别处理设备通过数据传输线，将该待识别语音信号传输至语音识别模型继续进行识别处理。

若语音识别处理设备与语音识别模型部署在不同的独立设备中，如语音识别处理设备可以是本地电子设备，该语音识别模型部署于相应的服务设备中，上述步骤S13具体可以包括语音识别处理设备，通过无线/有线网络将得到的待识别语音信号传输至服务设备，由服务设备的处理器将其输入语音识别模型进行识别处理，以得到高精度的语音识别结果。

可见，在语音识别处理设备的不同系统部署场景下，在得到待识别语音信号后，对待识别语音信号的具体输出方式可能不同，在本场景无其他特殊要求的情况下，语音识别处理设备通常是将归一化处理后得到的待识别语音信号，作为模型输入信号，发送至语音识别引擎中的语音识别模型进行识别处理，本申请对语音识别模型的训练及其应用过程中的识别处理方法不做详述。

综上，在本申请实施例中，对于语音采集器直接采集到的原始语音信号，不会直接发送至语音识别模型进行识别处理，而是先对其包含的原始语音特征进行调整，得到与原始语音信号的相似度大于第一相似阈值，且更适配语音识别模型的待识别语音信号后，再发送至语音识别模型进行识别处理，保证所得语音识别结果的高精准度。可见，本申请不需要针对应用于不同场景下的各设备安装的语音识别引擎，训练与该应用场景下的设备相适配的语音识别模型，而是针对不同电阻丝设备采用相同的语音识别模型的情况下，采用上述方式，将不同语音采集器所采集到的原始语音信号调整为相似的归一化处理信号，使得语音识别模型对这些相似的归一化处理信号进行识别处理，都能够得到高精度的语音识别结果，从而解决同一语音识别引擎的语音识别模型，无法适配不同场景进行语音控制的各设备的技术问题，极大减小了训练多个语音识别模型所耗费的时间成本，提高不同场景下的语音识别精准度。

在一些实施例中，在上述实施例的步骤S12的执行过程中，具体可以按照但并不局限于以下至少一种特征调整方式，实现对原始语音信号的原始语音特征的调整，得到待识别语音信号：

特征调整方式一：对原始语音信号进行信道增益补偿，得到待识别语音信号；

在实际应用中，同一发声者采用相同音量，距离声音采集器较近与较远不同场景，以及与声音采集器距离固定的发声者，在发声音量较大、较小等不同场景下，所采集到的原始语音信号的音量幅值往往会有较大差异，导致同一语音识别模型对这些场景下各自采集到的原始语音信号的识别精准度有高有低。

为了使预训练的确定的语音识别模型能够同时适用于如上列举的不同场景，结合上文对本申请技术构思的描述，提出先对采集到原始语音信号进行归一化处理，在保持原始语音信号内容的情况下，将原始语音信号所具有的原始语音特征，调整至一定范围内，以更加适配该语音识别模型。本实施例提出采用信道增益补偿的方式，来调整原始语音信号的时域特征参数或频域特征参数，如时域幅值或频域能量值等，从而将采集到的较小音量(较大音量)的原始语音信号，处理为维持在某一恒定或范围至内的音量的待识别语音信号，实现对不同语音采集设备的声音音量平衡，但并不局限于音量这一调整特征参数内容。

可以理解，由于对原始语音信号进行信道增益补偿的补偿方向通常包括相反的两个补偿方向，本申请可以依据该原始语音信号的原始语音特征内容，来确定其信道增益补偿方向，实现对其原始语音特征的增益补偿处理，得到具有补偿后的语音特征的待识别语音信号。可选的，本申请可以利用自动增益补偿控制装置AGC，实现对原始语音信号进行信道增益补偿，具体实现过程本申请不做详述。

特征调整方式二：将特定噪声信号添加至原始语音信号，得到待识别语音信号；

结合上文对本申请技术构思的相关描述，本申请实施例提出在采集到原始语音信号后，通过添加特定噪声信号，来模拟与语音识别模型适配(即能够实现高精度识别)的相似环境下采集到的语音信号，记为待识别语音信号，这样，将该待识别语音信号输入语音识别模型进行识别处理，所得语音识别结果，相对于直接将原始语音信号输入语音识别模型，所得到的语音识别结果的精准度更高，不需要针对某一类原始语音信号，再训练相适配的语音识别模型，节省了模型训练时间，提高了语音识别效率。

其中，上述特定噪声信号的选择或确定，可以依据所采集到的原始语言信号的来源或所具有的原始语音特征等实现，本申请对此不做限制。且对上述特征调整方式二的具体实现方法本实施例不做详述。

特征调整方式三：调整原始语音信号的传输速率，得到待识别语音信号；

在实际应用中，由于不同用户说话的速度、音量、音调等特征往往不同，本实施例主要对说话速度这一特征进行分析，不同说话速度的用户输出的原始语音信号的传输速率会不同，而预训练的语音识别模型所适配的输入语音信号的传输速率范围是确定了，输入语音信号在该传输速率范围内，才可能保证语音识别模型对输入语音信号的识别精准度。

因此，本申请实施例提出对原始语音信号进行速度扰动，以调整原始语音信号的传输速率，使其尽可能位于语音识别模型所适配的输入语音信号的传输速率范围内，将调整传输速率后的原始语音信号记为待识别语音信号。本申请对这种速度扰动的具体实现方法不做限制。

其中，对于任一场景下进行语音采集的语音采集设备来说，预先可以随机对其采集到的原始语音信号进行速度扰动，确定语音识别模型对所得到的待识别语音信号的识别精准度，之后，将具有高识别精准度的待识别语音信号，所对应的速度扰动方式，确定为该场景下该语音采集设备所采集到的原始语音信号的传输速率调整方式，后续应用过程中，可以依据该传输速率调整方式，实现对这类原始语音信号的传输速率调整，但并不局限于这种处理方式，也可以在线随机进行速度扰动，直至得到的待识别语音信号的识别精准度满足应用要求，具体实现过程本申请不做详述。

特征调整方式四：调用混响处理函数，向原始语音信号添加混响，得到待识别语音信号；

本实施例这种混响处理方式，可以模拟不同环境下进行语音采集，所得到的语音信号，使其与语音识别模型训练阶段所依据的某一环境下采集到的样本语音信号相似，因此，在本实施例直接采集到的原始语音信号添加混响，所得到的待识别语音信号，与语音识别模型训练所需的某一类别的样本语音信号相似，将该待识别语音信号输入语音识别模型，能够得到相对较高精准度的语音识别结果。

在实际应用中，声波在室内传播时，会被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，从而使用户感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)，这种现象可以称为混响，而这段时间被称为混响时间。

其中，混响时间的长短时音乐厅、剧院、礼堂等建筑物的重要声学特征，但对于不同应用场景，即不同建筑物内的声波传输来说，保证接收者可靠且清楚听到语音信号的内容，所需要的混响时间可能不同，可视情况而定，本申请在此不做详述。

基于此，对于本申请直接采集到的原始语音信号，可以依据当前场景需求，选用相匹配的混响效果器，向该原始语音信号添加混响。具体可以调用混响处理函数，实现原始语音信号的混响输出效果，如对原始语音信号进行多次卷积处理，得到具有混响效果的待识别语音信号；或依据当前场景下的混响特征曲线，实现对原始语音信号的混响处理等。本申请对如何向原始语音信号添加混响的具体实现方法，以及所添加的混响类别均不做限制，可视情况而定。

特征调整方式五：确定原始语音信号的掩蔽语音区域，利用预设掩蔽信号对掩蔽去语音区域的原始语音信号进行掩蔽处理，得到待识别语音信号。

可见，这种特征调整方式，采用语音掩蔽的方式，消除原始语音信号中不可理解、不清晰等无效语音区域，避免这些无效语音区域对语音识别模型的语音识别的干扰，从而降低语音识别结果的精准度。

因此，本申请可以通过对原始语音信号进行特征分析，确定其包含的一个或多个掩蔽语音区域，再利用预设掩蔽信号对这些掩蔽语音区域的原始语音信号进行掩蔽处理，如直接清除相应掩蔽语音区域的语音信号，以使这部分语音信号输出无内容，实现原始语音信号的语音增强处理；或者由特定内容的掩蔽信号替换相应掩蔽语音区域的语音信号，从而得到模拟某一场景下进行语音采集所得到的待识别语音信号等，本申请对特征调整方式五的具体实现方法不做限制。

结合上述分析，在一种可能的实现方式中，本申请实施例可以利用掩蔽语音增强算法，对原始语音信号进行掩蔽处理，得到待识别语音信号。具体可以是采用深度学习算法等人工智能技术，基于非线性时频掩蔽处理方式实现，或者基于混合掩蔽学习目标的语音增强方式，实现对原始语音信号的处理等，本申请在此不过一一详述，可依据具体应用场景要求确定合适的语音掩蔽处理方式。

综合上文各特征调整方式的实现方法的描述，在本申请实际应用中，获得语音采集器所采集到的原始语音信号后，可以选择上述一种或多种特征调整方式，对原始语音信号进行特征调整，得到相对于原始语音信号更适配语音识别模型的待识别语音信号，本申请对各特征调整方式的选择方式不做限制，可视情况而定。

需要说明，采用上述不同特征调整方式，对同一原始语音信号进行特征调整，所得到的各待识别语音信号之间的相似度大于第二相似阈值，该第二相似阈值的具体数值大小不做限制，通常是比较大的数值，所以说，采用这多种特征调整方式对原始语音信号进行处理，保证调整方向正确(即更适配语音识别模型的方向)的情况下，虽然所得待识别语音信号的识别精度可能有一些差异但差异往往不大，基本能够满足当前场景下的语音识别要求。

另外，关于对原始语音信号的归一化处理方式，并不局限于上文列举的几种特征调整方式，以及两个或多个特征调整方式组合后的目标特征调整方式，只要符合本申请提出的技术构思的描述，均属于本申请保护范围，本申请实施例在此不做一一详述。下面将以上述特征调整方式一为例，来说明这些特征调整方式在本申请提出的语音识别处理方法的一可选应用过程。

参照图9，为本申请提出的语音识别处理方法的又一可选示例的流程示意图，本实施例可以是上文描述的语音识别处理方法的一可选细化实现方式，但并不局限于本实施例描述的这种细化实现方法。如图9所示，该方法可以包括：

步骤S21，获取原始语音信号；

步骤S22，将原始语音信号转换为原始时域信号或原始频域信号；

步骤S23，调整该原始时域信号或原始频域信号的特征参数；

步骤S24，对具有调整后的特征参数的原始时域信号或原始频域信号进行转换处理，得到待识别语音信号；

步骤S25，输出该待识别语音信号，由语音识别引擎对待识别语音信号进行识别处理，得到原始语音信号的语音识别结果。

结合上文对原始语音信号进行信道增益补偿，这一种特征调整方式的相关描述，对于该信道增益补偿，可以通过时域特征或频域特征进行增益补偿，以模拟得到与语音识别模型更适配的某一场景的待识别语音信号。

具体的，本申请可以利用傅里叶变换算法，实现原始语音信号的原始时域信号和原始频域信号的转换处理，具体实现过程本申请不做详述。对于原始时域信号，可以将时域信号的幅值作为该原始时域信号的特征参数，将频域信号的能量值作为该原始频域信号的特征参数，本申请对时域信号和频域信号各自的特征参数的提取方法不做详述。

通过对原始时域信号(原始频域信号)进行特征提取，得到相应的特征特征参数后，可以依据该特征参数的数值大小，来确定对该特征参数的调整方向，若按照特定比例增大或减小特征参数，再对具有调整后的特征参数的时域信号(频域信号)进行转换处理，得到待识别语音信号。

综上，本实施例在获得直接采集到的原始语音信号后，通过对其时域或频域上的特征参数的调整，模拟语音识别模型相适配环境的相似环境下产生的语音信号，即调整得到的待识别语音信号，再将其输出至语音识别引擎的语音识别模型进行识别处理，相对于直接对原始语音信号进行识别处理，提高了语音识别精准度。

基于上文对原始语音信号的特征调整方法的相关描述，在实际应用中，语音识别设备获得原始语音信号后，可以按照预设规则，确定针对原始语音信号的原始语音特征的目标特征调整方式后，按照该目标特征调整方式，调整原始语音信号的原始语音特征，得到待识别语音信号。该目标特征调整方式可以包括但并不局限于上文列举的特征调整方式或组合方式，具体可以依据该预设规则内容确定。

在一些实施例中，上述预设规则可以包括随机选择特征调整方式，因此，目标特征调整方式可以是随机选择的一种或多种特征调整方式；在又一些实施例中，该预设规则可以基于深度学习/机器学习算法，对各类语音采集设备采集到的原始语音信号进行学习得到的，其能够指导将原始语音信号调整为更适配语音识别模型的相似环境下产生的待识别语音信号，具体实现方法本实施例不做详述，且本申请对该预设规则的内容及其确定方法不做限制。

在又一些实施例中，本申请可以利用如上述多种特征调整方式，训练学习得到归一化处理模型，以满足对多种设备直接采集到的原始语音信号的归一化处理要求，保证语音识别模型对处理得到的待识别语音信号的语音识别结果的高精度。

基于此，参照图10，为本申请提出的语音识别处理方法的又一可选示例的流程示意图，本实施例可以是上文描述的语音识别处理方法的又一可选细化实现方式，如图10所示，该方法可以包括：

步骤S31，语音采集器进行语音采集，得到原始语音信号；

步骤S32，语音采集器将原始语音信号发送至语音识别处理设备；

步骤S33，语音识别处理设备将原始语音信号输入归一化处理模型，实现原始语音特征的调整，得到待识别语音信号；

其中，关于语音采集器和语音识别处理设备之间的部署关系，可以参照上述系统实施例相应部分的描述，本实施例在此不做赘述。

对于本实施例提出的归一化处理模型可以基于多个第一样本语音信号，利用多种特征调整方式训练得到的。这多个第一样本语音信号可以是由多种类型的语音采集设备同时对声源进行语音采集所得到的，从而使该归一化处理模型能够满足多种原始语音信号的特征调整需求。

可选的，在归一化处理模型训练过程中，可以将多个第一样本语音信号输入深度学习/机器学习网络进行循环学习，直至满足终止条件，将最终学习得到的网络结构确定为归一化处理模型。该终止条件可以包括学习次数达到预设次数、网络输出的精准度(可以对网络输出的语音信号进行识别处理，由语音识别结果的精准度确定该网络输出的精准度，但并不局限于这种实现方式)达到预设精准阈值等，本申请对该终止条件及归一化处理模型的训练方法不做限制，可视情况而定。

在一些实施例中，对于每一类型设备采集到的原始语音信号，可以先选定适配语音识别模型，即语音识别模型能够得到高精度识别结果的一语音信号为参考语音信号，这样，在上述归一化处理模型的训练过程中，或者是对该类型设备采集到的原始语音信号进行特征调整过程中，可以依据预先确定的该参考语音信号，实现对归一化处理模型的参数调整，以完成归一化处理模型的学习训练；或者直接依据预先确定的该参考语音信号，调整当前获得的原始语音信号的原始语音特征，得到待识别语音信号等，具体实现方法不做限制，可视情况而定。

步骤S34，语音识别处理设备向服务设备发送待识别语音信号；

步骤S35，服务设备将待识别语音信号输入语音识别模型，得到原始语音信号的语音识别结果；

步骤S36，服务设备将该语音识别结果反馈至语音识别处理设备。

需要说明，本实施例是以语音识别处理方法应用于本地语音采集设备，或区别于该语音采集设备的另一本地电子设备的场景下执行，在该场景下，服务设备得到语音识别结果后，可以将语音识别结果发送至被控设备，该被控设备可以是语音识别处理设备，也可以是语音采集设备或者是所在环境下的其他电子设备等，本申请对该被控设备的类型不做限制。

其中，服务设备可以直接将语音识别结果发送至被控设备，也可以先发送至语音识别处理设备，再由该语音识别处理设备转发至被控设备，通常可以依据被控设备的通信条件确定，本申请对此不做限制，且本实施例仅以将语音识别结果发送至语音识别处理设备为例进行说明，但并不局限于这种语音识别结果的传输路径。

基于上述分析，在又一些实施例中，在上述语音识别处理方法应用于服务设备的情况下，语音识别处理设备得到待识别语音信号后，可以直接将其输入语音识别模型进行识别处理，得到原始语音信号的语音识别结果，之后，可以将该语音识别结果反馈至语音采集设备，以实现对该语音采集设备的语音控制，或基于该语音采集设备实现对所在环境下的其他设备的语音控制等，本申请对该场景下的具体控制过程不做详述，可视情况而定。

可以理解，上述语音识别模型可以是基于多个第二样本语音信号训练得到的，多个第二样本语音信号可以包括采用不同特征调整方式，分别对同一样本语音信号进行特征调整所得到的多个待识别语音信号；或者是处于不同场景下的多个语音采集设备所采集到的原始语音信号，本申请对多个第二样本语音信号的具体获取方式不做限制，且对语音识别引擎中，实现语音识别的语音识别模型的具体训练过程，及其对输入语音信号的识别处理过程不做详述。

综上，本实施例中，无论哪个语音采集器采集到原始语音信号后，都可以发送至语音识别处理设备的归一化处理模型，由该归一化处理模型对输入的原始语音信号进行特征调整，以使处理得到的各待识别语音信号之间能够保持相似特性，且在输入语音识别模型进行识别处理后，能够得到各原始语音信号的高精度识别结果，满足不同设备的高精度语音识别要求

参照图11，为本申请提出的语音识别处理装置的一可选示例的结构示意图，该装置可以适用于上述语音识别处理设备，关于该语音识别处理设备的设备类型，及与语音识别处理系统中其他设备的部署关系，本申请不做限制，可以参照但并不局限于上述系统实施例相应部分的描述。

如图11所示，该语音识别处理装置可以包括：

原始语音信号获取模块221，用于获取原始语音信号；

原始语音信号调整模块222，用于调整所述原始语音信号的原始语音特征，得到待识别语音信号；其中，所述待识别语音信号与所述原始语音信号的相似度大于第一相似阈值；

待识别语音信号输出模块223，用于输出所述待识别语音信号，其中，所述待识别语音信号用于被语音识别引擎识别，得到所述原始语音信号的语音识别结果。

在一些实施例中，如图12所示，上述原始语音信号调整模块222包括但并不局限于以下至少一个特征调整单元：

第一特征调整单元2221，用于对所述原始语音信号进行信道增益补偿，得到待识别语音信号；

在一种可能的实现方式中，该第一特征调整单元2221可以包括：

第一信号转换单元，用于将所述原始语音信号转换为原始时域信号或原始频域信号；

特征参数调整单元，用于调整所述原始时域信号或所述原始频域信号的特征参数；

第二信号转换单元，用于对具有调整后的所述特征参数的所述原始时域信号或所述原始频域信号进行转换处理，得到待识别语音信号。

第一特征调整单元2222，用于将特定噪声信号添加至所述原始语音信号，得到待识别语音信号；

第一特征调整单元2223，用于调整所述原始语音信号的传输速率，得到待识别语音信号；

第一特征调整单元2224，用于调用混响处理函数，向所述原始语音信号添加混响，得到待识别语音信号；

第一特征调整单元2225，用于确定所述原始语音信号的掩蔽语音区域，利用预设掩蔽信号对所述掩蔽去语音区域的所述原始语音信号进行掩蔽处理，得到待识别语音信号；

在又一些实施例中，上述语音识别处理装置还可以包括：

目标特征调整方式确定单元，用于按照预设规则，确定针对所述原始语音信号的原始语音特征的目标特征调整方式；

相应地，上述原始语音信号调整模块具体可以用于：按照目标特征调整方式，调整所述原始语音信号的原始语音特征，得到待识别语音信号。

在又一些实施例中，上述原始语音信号调整模块222还可以包括：

归一化处理单元，用于将所述原始语音信号输入归一化处理模型，实现原始语音特征的调整，得到待识别语音信号；

基于上述各实施例描述的语音识别处理装置，在上述语音识别处理设备集成在语音采集设备中，或是独立于该语音采集设备的另一本地电子设备的情况下，上述待识别语音信号输出模块223可以包括：

待识别语音信号发送单元，用于向服务设备发送所述待识别语音信号，由所述服务设备的语音识别引擎对所述待识别语音信号进行语音识别，得到所述原始语音信号的语音识别结果；

可选的，若语音识别处理设备集成在服务设备中，上述原始语音信号获取模块221可以包括：

原始语音信号接收单元，用于接收语音采集设备直接或间接(如其他设备转发)发送的原始语音信号；

相应地，上述待识别语音信号输出模块223具体可以用于将所述待识别语音信号输入语音识别模型，得到所述原始语音信号的语音识别结果；

需要说明的是，关于上述各装置实施例中的各种模块、单元等，均可以作为程序模块存储在存储器中，由处理器执行存储在存储器中的上述程序模块，以实现相应的功能，关于各程序模块及其组合所实现的功能，以及达到的技术效果，可以参照上述方法实施例相应部分的描述，本实施例不再赘述。

本申请还提供了一种存储介质，其上可以存储计算机程序，该计算机程序可以被处理器调用并加载，以实现上述实施例描述的语音识别处理方法的各个步骤。

最后，需要说明，本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法和系统中的设备对应，所以描述的比较简单，相关之处参见方法部分和系统相应部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别处理方法，所述方法包括：

获取原始语音信号；

2.根据权利要求1所述的方法，所述调整所述原始语音信号的原始语音特征，得到待识别语音信号，包括以下至少一种特征调整方式：

调整所述原始语音信号的传输速率，得到待识别语音信号；

3.根据权利要求2所述的方法，所述对所述原始语音信号进行信道增益补偿，得到待识别语音信号，包括：

将所述原始语音信号转换为原始时域信号或原始频域信号；

调整所述原始时域信号或所述原始频域信号的特征参数；

4.根据权利要求2所述的方法，所述方法还包括：

5.根据权利要求1所述的方法，所述调整所述原始语音信号的原始语音特征，得到待识别语音信号，包括：

6.根据权利要求1～5任一项所述的方法，在所述语音识别处理方法应用于语音采集设备或本地电子设备的情况下，所述输出所述待识别语音信号包括：

所述服务设备接收所述语音采集设备发送的原始语音信号；

所述输出所述待识别语音信号包括：

7.一种语音识别处理装置，所述装置包括：

8.一种语音识别处理设备，所述设备包括：

至少一个存储器和至少一个处理器，其中：

所述存储器，用于存储实现如权利要求1～6任一项所述的语音识别处理方法的程序；

所述处理器，用于加载并执行所述存储器存储的程序，实现如权利要求1～6任一项所述的语音识别处理方法的各个步骤。

9.一种语音识别处理系统，所述系统包括：

以及，如权利要求8所述的语音识别处理设备。

10.根据权利要求9所述的系统，所述语音识别处理设备集成在所述语音采集设备中；或者，

或者，