CN110782887A

CN110782887A - 语音信号处理方法、系统、装置、设备和计算机存储介质

Info

Publication number: CN110782887A
Application number: CN201910181411.8A
Authority: CN
Inventors: 沙永涛; 秦思; 张毅; 宋辉
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2020-02-11

Abstract

本申请实施例提供了一种语音信号处理方法、系统、装置、设备和计算机存储介质，其中，该方法包括：获取待处理语音控制信号和目标发音对象发出的音频信号；利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号；响应所述目标语音控制信号的控制指令，通过上述方法，可以将待处理语音控制信号中目标发音对象发出的音频信号消除，因此在响应目标语音控制信号的控制指令时，可以提高目标语音控制信号的识别率，从而可以提高响应的准确性。

Description

语音信号处理方法、系统、装置、设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种语音信号处理方法、系统、装置、设备和计算机存储介质。

背景技术

目前语音识别设备被广泛应用，例如，为了提高驾驶车辆时的安全性，在车辆内部设置语音识别设备，通过语音识别设备来实现打开应用、进行地图查找和选择用户喜欢的音乐等操作。

但是，如果在车载扬声器正在播放音乐或者广播等音频信号时，用户向语音识别设备发送语音指令，语音识别设备在对语音指令进行识别时，会受到车载扬声器发出的音频信号的影响，从而导致识别率较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音信号处理方法、系统、装置、设备和计算机存储介质，以提高语音识别设备的识别率。

主要包括以下几个方面：

第一方面，本申请实施例提供了一种语音信号处理方法，包括：

获取待处理语音控制信号和目标发音对象发出的音频信号；

利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号；

响应所述目标语音控制信号的控制指令。

可选地，获取的所述目标发音对象发出的音频信号包括：不同音频频率范围的目标发音对象发出的音频信号。

可选地，所述利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号，包括：

计算各个所述音频子信号的音频属性信息的幅值的平均值；

将所述平均值作为消除依据，利用所述回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号。

利用所述回声消除算法，将所述待处理语音控制信号中的各个所述音频子信号分别消除，以得到所述目标语音控制信号。

对所述待处理语音控制信号和所述音频信号进行延时调整，以使所述音频信号先于所述待处理语音控制信号出现；

利用所述回声消除算法，按照延时调整后的时序将所述待处理语音控制信号中的所述音频信号消除，以得到所述目标语音控制信号。

可选地，所述音频属性信息包括以下至少一种：

音频的时域信息、音频的频域信息和音频的子带域信息。

可选地，响应所述目标语音控制信号的控制指令包括：

获取自身当前的工作状态信息；

当所述工作状态信息为未唤醒状态时，识别所述目标语音控制信号是否为用于唤醒的音频信号；如果是，则进行唤醒操作；

当所述工作状态信息为唤醒状态时，则对所述目标语音控制信号进行语音识别，以根据识别结果执行对应的操作。

第二方面，本申请实施例提供了一种语音信号处理系统，所述系统包括智能语音装置和音频采集部件，其中：

所述音频采集部件，用于采集目标发音对象发出的音频信号，以及，用于将该音频信号传输给所述智能语音装置；

所述智能语音装置，用于采集待处理语音控制信号；以及，用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号；以及，用于响应所述目标语音控制信号的控制指令。

可选地，所述音频采集部件的音频采集方向与所述目标发音对象的音频发出方向相对设置。

可选地，所述音频采集部件与所述目标发音对象之间的间距小于指定距离。

可选地，所述音频采集部件的灵敏度满足所述目标发音对象以最大播放音量播放音频信号时的要求。

可选地，所述目标发音对象包括：不同音频频率范围的目标发音对象；

所述音频采集部件包括：不同的音频采集部件；

其中，不同的音频采集部件分别用于采集不同音频频率范围的目标发音对象发出的音频信号。

可选地，所述音频采集部件还用于在采集目标发音对象发出的音频信号之后，将所述目标发音对象发出的音频信号发送给所述智能语音装置之前，基于不同目标发音对象的音频频率范围，对该目标发音对象发出的音频信号进行滤波处理。

第三方面，本申请实施例提供了一种语音信号处理装置，包括：

获取单元，用于获取待处理语音控制信号和目标发音对象发出的音频信号；

回声消除单元，用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号；

响应单元，用于响应所述目标语音控制信号的控制指令。

可选地，在所述回声消除单元用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号时，包括：

计算各个所述音频子信号的音频属性信息的幅值的平均值；

可选地，所述音频属性信息包括以下至少一种：

音频的时域信息、音频的频域信息和音频的子带域信息。

可选地，在所述响应单元用于响应所述目标语音控制信号的控制指令时，包括：

获取自身当前的工作状态信息；

第四方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行以下步骤：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。

第五方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以执行以下步骤：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。

基于上述任一方面，在获取到待处理语音控制信号(包括用户发出的语音控制信号和目标发音对象发出的音频信号)和目标发音对象发出的音频信号后，可以根据目标发音对象发出的音频信号的特有属性将待处理语音控制信号中的目标发音对象发出的音频信号消除，进一步的，由于不同的声音有不同的音频属性，因此可以将目标发音对象发出的音频信号对应的音频属性信息作为消除依据，将待处理语音控制信号中的目标发音对象发出的音频信号消除，即：对待处理语音控制信号中与目标发音对象发出的音频信号具有相同音频属性的音频进行消除，在消除目标发音对象发出的音频信号时，可以根据目标发音对象发出的音频信号对应的音频属性信息选择相应的回声消除算法，然后利用该回声消除算法，对目标发音对象发出的音频信号进行消除，从而得到目标语音控制信号，即：可以得到用户发出的语音控制信号，在对目标发音对象发出的音频信号进行消除后，目标语音控制信号受到目标发音对象发出的音频信号的影响较小，因此，在响应目标语音控制信号的控制指令时，可以提高目标语音控制信号的识别率，从而可以提高响应的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的一种语音信号处理方法的流程示意图；

图2为本申请实施例一提供的另一种语音信号处理方法的流程示意图；

图3为本申请实施例一提供的另一种语音信号处理方法的流程示意图；

图4为本申请实施例一提供的另一种语音信号处理方法的流程示意图；

图5为本申请实施例二提供的一种语音信号处理系统的结构示意图；

图6为本申请实施例三提供的一种语音信号处理方法的流程示意图；

图7为本申请实施例四提供的一种语音信号处理装置的结构示意图；

图8为本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“车载语音信号识别”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕提高语音信号识别率进行描述，但是应该理解，这仅是一个示例性实施例。

需要提前说明的是，本申请实施例中涉及到的目标发音对象可以包括车载扬声器和家庭中的音箱等，当智能语音装置和目标发生对象出现在同一环境中时，均属于本申请实施例保护的范围，关于具体的目标发生对象在此不做具体限定。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

在一些实施例中，音频采集部件和智能语音装置可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环智能头盔、智能手表、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(PersonalDigital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、增强现实头盔等或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。在一些实施例中，机动车辆中的内置设备可以包括车载计算机、车载电视等。

本申请的一个方面涉及一种语音信号处理方法。该方法可以通过对待处理语音控制信号中目标发音对象发出的音频信号进行消除的方式来提高目标语音控制信号的识别效率。

值得注意的是，在本申请提出申请之前，相关技术中，在对待处理语音控制信号进行识别时，并未待处理语音控制信号中的目标发音对象发出的音频信号进行消除，导致目标语音控制信号的识别效率低。然而本申请提供的语音信号处理方法，可以将待处理语音控制信号中的目标发音对象发出的音频信号消除，从而目标语音控制信号的识别效率。以下通过几个实施例进行具体描述。

实施例一

图1为本申请实施例一提供的一种语音信号处理方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤101、获取待处理语音控制信号和目标发音对象发出的音频信号。

具体的，当用户想要通过语音对智能语音装置进行控制，来实现其目的时，如：通过语音来唤醒智能语音装置，或者，通过语音来控制智能语音装置启动应用程序，或者，通过语音来控制智能语音装置进行地图查找，再或者，通过语音来控制智能语音装置进行音乐切换等，以目标发音对象为车载扬声器为例，如果此时车载扬声器当前有音频输出时，如：正在播放音乐，或者，正在播放广播，再或者，正在播放相声等情况时，此时，智能语音设备获取到的音频包括用户的控制语音和车载扬声器发出的音频信号，因此智能语音装置在对用户的控制语音进行识别时，会受到车载扬声器发出的音频信号的影响，从而使得智能语音装置对用户的控制语音识别率较低。为了提高用户的控制语音的识别率，需要将智能语音装置获取到的音频信号(包括用户的控制语音和车载扬声器发出的音频信号)作为待处理语音控制信号，并且需要获取到车载扬声器发出的音频信号，以便利用车载扬声器发出的音频信号特有的属性，将待处理语音控制信号中车载扬声器发出的音频信号消除掉。

需要说明的是，获取目标发音对象发出的音频信号的方式可以根据实际需要进行获取，例如，可以由目标发音对象将自身发出的音频信号发送给智能语音装置，或者由其他音频采集装置来采集目标发音对象发出的音频信号，然后由音频采集装置将获取到的音频信号发送给智能语音装置，关于目标发音对象发出的音频信号具体获取方式在此不做具体限定。

步骤102、利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号。

具体的，由于不同的音频信号对应不同的音频属性，例如，两个人发出的声音的是存在差异的，因此可以通过声音对人进行区分，基于以上原因，可以以目标发音对象发出的音频信号对应的音频属性信息为参考标准，并采用对应的回声消除算法，将目标发音对象发出的音频信号从待处理语音控制信号中消除掉，以得到目标语音控制信号，此时得到的目标语音控制信号主要包括的是用户的控制语音，由于此时目标语音控制信号受到目标发音对象发出的音频信号的影响较小，因此在对目标语音控制信号进行识别时，识别率较高。

需要注意的是，具体根据目标发音对象发出的音频信号的哪个音频属性信息可以根据实际需要进行设定，例如，可以只使用音频属性中的一种属性来对根据目标发音对象发出的音频信号进行消除，或者，也可以使用音频属性中的两种属性来对根据目标发音对象发出的音频信号进行消除，再或者，也可以使用音频属性中的三种属性来对根据目标发音对象发出的音频信号进行消除等，关于具体使用的音频属性信息在此不做具体限定。

需要再次说明的是，具体的回声消除算法根据选定的音频属性信息来确定，例如，当选定的音频属性信息是目标发音对象发出的音频信号的时域信息时，可以使用时域对应的回声消除算法；当选定的音频属性信息是目标发音对象发出的音频信号的频域信息时，可以使用频域对应的回声消除算法；当选定的音频属性信息是目标发音对象发出的音频信号的子带域信息时，可以使用子带域对应的回声消除算法，关于具体的回声消除算法在此不做具体限定，并且在确定出对应的回声消除算法后，关于具体选择哪种公式对应的回声消除算法在此也不做具体限定。

步骤103、响应所述目标语音控制信号的控制指令。

具体的，由于目标语音控制信号不再受目标发音对象发出的音频信号的影响，因此可以提高目标语音控制信号的识别率，从而可以提高响应目标语音控制信号的控制指令的准确率。

需要说明的是，上述的控制指令可以为唤醒指令，或者也可以为应用程序的控制指令，关于控制指令单的具体类型在此不做具体限定。

在本申请实施例中，在获取到待处理语音控制信号(包括用户发出的语音控制信号和目标发音对象发出的音频信号)和目标发音对象发出的音频信号后，可以根据目标发音对象发出的音频信号的特有属性将待处理语音控制信号中的目标发音对象发出的音频信号消除，进一步的，由于不同的声音有不同的音频属性，因此可以将目标发音对象发出的音频信号对应的音频属性信息作为消除依据，将待处理语音控制信号中的目标发音对象发出的音频信号消除，即：对待处理语音控制信号中与目标发音对象发出的音频信号具有相同音频属性的音频进行消除，在消除目标发音对象发出的音频信号时，可以根据目标发音对象发出的音频信号对应的音频属性信息选择相应的回声消除算法，然后利用该回声消除算法，对目标发音对象发出的音频信号进行消除，从而得到目标语音控制信号，即：可以得到用户发出的语音控制信号，在对目标发音对象发出的音频信号进行消除后，目标语音控制信号受到目标发音对象发出的音频信号的影响较小，因此，在响应目标语音控制信号的控制指令时，可以提高目标语音控制信号的识别率，从而可以提高响应的准确性。

需要说明的是，图1所示的方法也可以执行在服务器、移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合，关于图1所示的具体实行主体在此不做具体限定。

在一个可行的实施方案中，获取的所述目标发音对象发出的音频信号包括：不同音频频率范围的目标发音对象发出的音频信号，图2为本申请实施例一提供的另一种语音信号处理方法的流程示意图，如图2所示，在执行步骤102时，可以通过以下步骤实现：

步骤201、计算各个所述音频子信号的音频属性信息的幅值的平均值。

步骤202、将所述平均值作为消除依据，利用所述回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号。

以目标发音对象为车载扬声器为例，对于车辆内部的车载扬声器而言，包括高音车载扬声器和低音车载扬声器等，且高音车载扬声器和低音车载扬声器的音频频率范围是不同的，在播放音频时(如：音乐和广播等音频)，可以通过高音车载扬声器和低音车载扬声器的共同作用，将音频还原播放，因此可以通过获取高音车载扬声器发出的音频信号和低音车载扬声器发出的音频信号(即：不同音频频率范围的车载扬声器发出的音频信号)来实现获取车载扬声器发出的音频信号的目的。

并且，为了降低数据处理时的计算量，在获取到不同音频频率范围的车载扬声器发出的音频信号后，可以计算各个所述音频子信号的音频属性信息的幅值的平均值，以计算各个音频子信号的时域幅值的平均值为例，此时包括第一音频子信号和第二音频自信号，其中，第一音频子信号包括第一帧信号和第二帧信号，第二音频子信号包括第三帧信号和第四帧信号，并且，第一帧信号在时域上包括：A1和A2，第二帧信号在时域上包括：A3和A4，第三帧信号在时域上包括：B1和B2，第四帧信号在时域上包括：B3和B4，在计算时域幅值的平均值时，可以计算A1和B1幅值的平均值，A2和B2幅值的平均值，A3和B3幅值的平均值，以及A4和B4幅值的平均值，然后将上述四个平均值作为各个音频子信号的时域幅值的平均值。在计算出上述的平均值后，可以将该平均值作为车载扬声器发出的音频信号，然后根据车载扬声器发出的音频信号对应的音频属性信息，利用该平均值和对应的回声消除算法来得到目标语音控制信号。

需要说明的是，以目标发音对象为车载扬声器为例，对于同一车辆而言，其包括的高音车载扬声器的数量至少为一个，并且该至少一个高音车载扬声器发出的音频信号是相同的，因此为了进一步降低数据处理时的计算量，可以只获取一个高音车载扬声器发出的音频信号，其他音频频率范围的车载扬声器发出的音频信号的获取方式可参考高音车载扬声器发出的音频信号的获取方式，在此不再详细赘述。

需要注意的是，关于不同音频频率范围的目标发音对象发出的音频信号的获取方式，可以根据实际需要进行设定，例如，对于具有相同音频频率范围的多个目标发音对象而言，可以只获取其中一个目标发音对象发出的音频信号，也可以获取全部目标发音对象发出的音频信号，具体的获取方式在此不做具体限定。

在一个可行的实施方案中，获取的所述目标发音对象发出的音频信号包括：不同音频频率范围的目标发音对象发出的音频信号，在执行步骤102时，可以利用所述回声消除算法，将所述待处理语音控制信号中的各个所述音频子信号分别消除，以得到所述目标语音控制信号。

由于获取到的车载扬声器发出的音频信号包括了不同音频频率范围的车载扬声器发出的音频信号，为了提高得到的目标语音控制信号的准确性，需要对各音频频率范围的车载扬声器发出的音频信号进行消除，例如，当各个同音频频率范围的车载扬声器包括高音车载扬声器和低音车载扬声器时，可以先对待处理语音控制信号中高音车载扬声器发出的音频信号进行消除，再对待处理语音控制信号中低音车载扬声器发出的音频信号进行消除。

需要说明的是，以目标发音对象为车载扬声器为例，对于同一车辆而言，其包括的高音车载扬声器的数量至少为一个，并且该至少一个高音车载扬声器发出的音频信号是相同的，因此为了降低数据处理时的计算量，当所有高音车载扬声器播放同样的音频信号时，可以只获取一个高音车载扬声器发出的音频信号，其他音频频率范围的车载扬声器发出的音频信号的获取方式可参考高音车载扬声器发出的音频信号的获取方式，在此不再详细赘述。

在一个可行的实施方案中，图3为本申请实施例一提供的另一种语音信号处理方法的流程示意图，如图3所示，在执行步骤102时，可以通过以下步骤实现：

步骤301、对所述待处理语音控制信号和所述音频信号进行延时调整，以使所述音频信号先于所述待处理语音控制信号出现。

步骤302、利用所述回声消除算法，按照延时调整后的时序将所述待处理语音控制信号中的所述音频信号消除，以得到所述目标语音控制信号。

具体的，由于系统原因、电路原因和/或引入的算法等原因，可能会导致待处理语音控制信号先于目标发音对象发出的音频信号出现的情况，为了避免出现非因果现象，需要对待处理语音控制信号和目标发音对象发出的音频信号在时间抽上出现的先后顺序进行延时调整，以保证在时间轴上，目标发音对象发出的音频信号先于待处理语音控制信号出现，然后再利用延时调整后的待处理语音控制信号和目标发音对象发出的音频信号得到目标语音控制信号。

在一个可行的实施方案中，所述音频属性信息包括以下至少一种：音频的时域信息、音频的频域信息和音频的子带域信息。

具体的，一个发生物体具有其特有的音频属性，例如，同一语句由不同的人阅读出来时的音频属性是不同的，并且音频属性是由多种因素构成的，如音频的时域信息、音频的频域信息和音频的子带域信息等，因此，可以利用一种或多种因素就可以对两个音频进行区分。

需要注意的是，具体使用音频属性中的哪个或哪几个因素来消除目标发音对象发出的音频信号可以根据实际需要进行设置，在此不做具体限定。

在一个可行的实施方案中，图4为本申请实施例一提供的另一种语音信号处理方法的流程示意图，如图4所示，在执行步骤103时，可以通过以下步骤实现：

步骤401、获取自身当前的工作状态信息，当所述工作状态信息为未唤醒状态时，执行步骤402，当所述工作状态信息为唤醒状态时，执行步骤403。

步骤402、识别所述目标语音控制信号是否为用于唤醒的音频信号；如果是，则进行唤醒操作。

步骤403、对所述目标语音控制信号进行语音识别，以根据识别结果执行对应的操作。

具体的，在对智能语音装置进行语音控制时，需要先将该智能语音装置唤醒，然后才能向该智能语音装置发送语音控制指令，以达到选择目标音乐和开启目标应用等操作的目的，因此在响应目标语音控制信号时，需要先确定出智能语音装置当前的工作状态，如果是未唤醒状态，智能语音装置当前只能响应用于唤醒的音频信号，并且只有特定的唤醒词才能对智能语音装置进行唤醒，如果是唤醒状态，智能语音装置则可以根据具体的语音控制命令来执行相应的操作，因此在得到目标语音控制信号后，需要确定当前的工作状态，如果当前的工作状态为未唤醒状态时，则识别该目标语音控制信号是否为特定的唤醒词语，如果是特定的唤醒词语，则执行唤醒操作，在智能语音装置唤醒后，则可以接续执行其他语音控制指令，如果当前的工作状态为唤醒状态时，则可以直接根据目标语音控制信号执行相应的操作。

实施例二

图5为本申请实施例二提供的一种语音信号处理系统的结构示意图，如图5所示，该系统包括智能语音装置51和音频采集部件52，其中：

所述音频采集部件52，用于采集目标发音对象发出的音频信号，以及，用于将该音频信号传输给所述智能语音装置；

所述智能语音装置51，用于采集待处理语音控制信号；以及，用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号；以及，用于响应所述目标语音控制信号的控制指令。

以目标发音装置为车载扬声器为例，在车辆内部设置用于采集车载扬声器发出的音频信号的音频采集部件，例如，携带有麦克风的音频采集部件，通过麦克风来采集车载扬声器发出的音频信号，以及在该车辆内部设置智能语音装置，以采集用户的语音控制指令，其中，音频采集部件可以实时处于工作状态，即：实时处于采集车载扬声器发出的音频信号的状态，或者，也可以在车载扬声器发出音频信号时处于工作状态，智能语音装置可以实时处于工作状态，或者也可以在车辆启动之后处于工作状态，以便及时响应用于的语音控制指令。

在采用上述设计后，音频采集部件可以采集车载扬声器发出的音频信号，然后再讲该车载扬声器发出的音频信号传输给智能语音装置，以便智能语音装置将该车载扬声器发出的音频信号作为消除依据，当车载扬声器有音频发出时，智能语音装置采集到的待处理语音控制信号包括车载扬声器发出的音频信号和用户发出的语音控制信号(目标语音控制信号)，由于音频采集部件会将采集到的音频信号发送给智能语音控制装置，以作为消除依据，因此智能语音装置在获取到待处理语音控制信号和车载扬声器发出的音频信号后，可以对待处理语音控制信号中车载扬声器发出的音频信号进行消除。

需要注意的是，关于智能语音装置对待处理语音控制信号中目标发音对象发出的音频信号进行消除的具体方式可参考实施例一，在此不再详细赘述。

在一个可行的实施方案中，所述音频采集部件的音频采集方向与所述车载目标发音对象的音频发出方向相对设置。

具体的，为了使音频采集部件更加准确地采集到目标发音对象发出的音频信号，以及为了使音频采集部件主要采集目标发音对象发出的音频信号，需要将音频采集部件的音频采集方向与目标发音对象的音频发出方向相对设置，例如，当使用音频采集部件中的麦克风采集目标发音对象发出的音频信号时，需要使麦克风对着目标发音对象进行采集，此时麦克风的音频采集方向和目标发音对象的音频发出方向相对设置。

在一个可行的实施方案中，所述音频采集部件与所述目标发音对象之间的间距小于指定距离。

具体的，为了使音频采集部件主要采集目标发音对象发出的音频信号，需要使音频采集部件和目标发音对象之间的间距小于指定距离。

需要注意的是，关于指定距离的具体大小可以根据实际需要进行设定，在此不做具体限定。

在一个可行的实施方案中，为了避免音频采集部件采集到的音频出现削顶失真现象，所述音频采集部件的灵敏度满足所述目标发音对象以最大播放音量播放音频信号时的要求。

在一个可行的实施方案中，所述目标发音对象包括：不同音频频率范围的目标发音对象；所述音频采集部件包括：不同的音频采集部件；其中，不同的音频采集部件分别用于采集不同音频频率范围的目标发音对象发出的音频信号。

以目标发音对象为车载扬声器为例，某一车辆内部包括3个高音车载扬声器和3个低音车载扬声器，通过上述的高音车载扬声器和低音车载扬声器可以将音频信号进行还原播放，并且，在该车辆内部设置两个音频采集部件，一个音频采集部件用于采集高音车载扬声器发出的音频信号，另一个音频采集部件用于采集低音车载扬声器发出的音频信号，由于3个高音车载扬声器发出的音频信号是相同的，3个低音车载扬声器发出的音频信号是相同的，通过上述设计可以采集到该车辆内所有类型的车载扬声器发出的音频信号，并且有利于降低音频采集部件的设置数量。

以两个高音车载扬声器为例，当该两个高音车载扬声器的音源信号不同时，如：在播放音乐时，一个高音车载扬声器播放伴奏音乐，另一个高音车载扬声器播放歌手的声音时，需要设置两个音频采集部件来分别采集该两个高音车载扬声器播放的音频信号，以便对车载扬声器发出的音频信号进行更准确地消除。

在一个可行的实施方案中，所述音频采集部件还用于在采集目标发音对象发出的音频信号之后，将所述目标发音对象发出的音频信号发送给所述智能语音装置之前，基于不同目标发音对象的音频频率范围，对目标发音对象发出的音频信号进行滤波处理。

具体的，对于一个音频采集部件而言，理想情况是该音频采集部件只采集一个目标发音对象发出的音频信号，但是在实际采集过程中，不可避免的采集到其他音频频率范围的目标发音对象发出的音频信号，此时为了某一音频采集部件采集到的音频信号的纯净度(只包括某一目标发音对象发出的音频信号)，需要对该音频采集部件采集到的音频信号进行滤波处理，由于不同音频采集部件采集到的音频信号的音频频率范围是不同的，因此可以利用某一音频采集部件对应的目标发音对象的音频频率范围，对该音频采集部件采集到的其他音频频率范围的音频信号进行过滤，以保留该音频采集部件对应的目标发音对象发出的音频信号。

实施例三

为了进一步阐述本申请的技术思想，以目标发音对象为车载扬声器为例，现通过以下示例对本申请进行详细说明。

某一车辆内部包括3个高音车载扬声器和3个低音车载扬声器，在该车辆内部设置一部智能语音装置和两个音频采集部件(包括第一音频采集部件和第二音频采集部件)，其中，第一音频采集部件的音频采集方向与一个高音车载扬声器的音频发出方向相对设置，第一音频采集部件与该高音车载扬声器之间的间距小于5CM，第一音频采集部件的灵敏度满足该高音车载扬声器以最大播放音量播放音频信号时的要求，以避免第一音采集部件采集到的音频信号出现削顶失真现象，第二音频采集部件的音频采集方向与一个低音车载扬声器的音频发出方向相对设置，第二音频采集部件与该低音车载扬声器之间的间距小于5CM，第二音频采集部件的灵敏度满足该低音车载扬声器以最大播放音量播放音频信号时的要求，以避免第二音采集部件采集到的音频信号出现削顶失真现象。

图6为本申请实施例三提供的一种语音信号处理方法的流程示意图，如图6所示，当该车辆正在通过车载扬声器播放音乐时，如果此时用于想要通过语音控制指令切换下一首歌曲时，该方法包括以下步骤：

步骤601、第一音频采集部件采集高音车载扬声器发出的第一音频信号，第二音频采集部件采集低音车载扬声器发出的第二音频信号，智能语音装置采集车辆内部待处理的语音控制信号。

步骤602、第一音频采集部件对第一音频信号中的低音信号进行滤波处理，以将第一音频信号中的低音信号过滤掉，以得到第三音频信号，第二音频采集部件对第二音频信号中的高音信号进行滤波处理，以将第二音频信号中的高音信号过滤掉，以得到第四音频信号。

步骤603、第一音频采集部件将第三音频信号发送给智能语音装置，第二音频采集部件将第四音频信号发送给智能语音装置。

步骤604、智能语音装置对第三音频信号、第四音频信号和待处理的语音控制信号进行延时调整，以使第三音频信号和第四音频信号在时间抽上先于待处理的语音控制信号出现。

步骤605、智能语音装置计算第三音频信号和第四音频信号的时域幅值的平均值，以得到第五音频信号。

步骤606、智能语音装置根据第五音频信号的频域信息，利于时域对应的回声消除算法，将延时调整后的待处理的语音控制信号中的第一音频信号和第二音频信号消除，以得到目标语音控制信号。

步骤607、智能语音装置根据所述目标语音控制信号，进行切换下一首歌曲的操作。

通过上述方法，可以降低第一音频信号和第二音频信号对目标语音控制信号的影响，因此在响应目标语音控制信号的控制指令时，可以提高目标语音控制信号的识别率，从而可以提高响应的准确性。

需要说明的是，步骤605至步骤606还可以通过以下步骤替代：

第一步：根据第三音频信号的时域信息，利用时域对应的回声消除算法，将延时调整后的待处理的语音控制信号中的第一音频信号消除，以得到第六音频信号；

第二步：根据第四音频信号的时域信息，利用时域对应的回声消除算法，将第六音频信号中的第二音频信号消除，以得到目标语音控制信号。

实施例四

图7为本申请实施例四提供的一种语音信号处理装置的结构示意图，如图7所示，该装置包括：

获取单元71，用于获取待处理语音控制信号和目标发音对象发出的音频信号；

回声消除单元72，用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号；

响应单元73，用于响应所述目标语音控制信号的控制指令。

在一个可行的实施方案中，获取的所述目标发音对象发出的音频信号包括：不同音频频率范围的目标发音对象发出的音频信号。

在一个可行的实施方案中，在所述回声消除单元72用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号时，包括：

计算各个所述音频子信号的音频属性信息的幅值的平均值；

在一个可行的实施方案中，所述音频属性信息包括以下至少一种：

音频的时域信息、音频的频域信息和音频的子带域信息。

在一个可行的实施方案中，在所述响应单元73用于响应所述目标语音控制信号的控制指令时，包括：

获取自身当前的工作状态信息；

关于上述单元的详细介绍可参考实施例一的相关说明，在此不再详细赘述。

实施例五

图8为本申请实施例五提供的一种电子设备的结构示意图，包括：处理器801、存储介质802和总线803，所述存储介质802存储有所述处理器801可执行的机器可读指令，所述存储介质802包括如图7所示的装置，当电子设备运行上述的语音信号处理方法时，所述处理器801与所述存储介质802之间通过总线803通信，所述处理器801执行所述机器可读指令，以执行以下步骤：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。

实施例六

本申请实施例六还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述语音信号处理方法，该方法可以利用目标发音对象发出的音频信号，将待处理语音控制信号中目标发音对象发出的音频信号消除，因此在响应目标语音控制信号的控制指令时，可以提高目标语音控制信号的识别率，从而可以提高响应的准确性。

本申请实施例所提供的语音信号处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音信号处理方法，其特征在于，包括：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。

2.如权利要求1所述的方法，其特征在于，获取的所述音频信号包括：不同音频频率范围的目标发音对象分别发出的音频子信号。

3.如权利要求2所述的方法，其特征在于，所述利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号，包括：

计算各个所述音频子信号的音频属性信息的幅值的平均值；

4.如权利要求2所述的方法，其特征在于，所述利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号，包括：

5.如权利要求1所述的方法，其特征在于，所述利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号，包括：

6.如权利要求1所述的方法，其特征在于，所述音频属性信息包括以下至少一种：

音频的时域信息、音频的频域信息和音频的子带域信息。

7.如权利要求1所述的方法，其特征在于，响应所述目标语音控制信号的控制指令包括：

获取自身当前的工作状态信息；

8.一种语音信号处理系统，其特征在于，所述系统包括智能语音装置和音频采集部件，其中：

9.如权利要求8所述的系统，其特征在于，所述音频采集部件的音频采集方向与所述目标发音对象的音频发出方向相对设置。

10.如权利要求8所述的系统，其特征在于，所述音频采集部件与所述目标发音对象之间的间距小于指定距离。

11.如权利要求8所述的系统，其特征在于，所述音频采集部件的灵敏度满足所述目标发音对象以最大播放音量播放音频信号时的要求。

12.如权利要求8所述的系统，其特征在于，所述目标发音对象包括：不同音频频率范围的目标发音对象；

所述音频采集部件包括：不同的音频采集部件；

13.如权利要求12所述的系统，其特征在于，所述音频采集部件还用于在采集目标发音对象发出的音频信号之后，将所述目标发音对象发出的音频信号发送给所述智能语音装置之前，基于不同目标发音对象的音频频率范围，对该目标发音对象发出的音频信号进行滤波处理。

14.一种语音信号处理装置，其特征在于，包括：

响应单元，用于响应所述目标语音控制信号的控制指令。

15.如权利要求14所述的装置，其特征在于，获取的所述目标发音对象发出的音频信号包括：不同音频频率范围的目标发音对象发出的音频信号。

16.如权利要求15所述的装置，其特征在于，在所述回声消除单元用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号时，包括：

计算各个所述音频子信号的音频属性信息的幅值的平均值；

17.如权利要求15所述的装置，其特征在于，在所述回声消除单元用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号时，包括：

18.如权利要求14所述的装置，其特征在于，在所述回声消除单元用于利用与所述音频信号的音频属性信息相对应的回声消除算法，将所述待处理语音控制信号中的所述音频信号消除，以得到目标语音控制信号时，包括：

19.如权利要求14所述的装置，其特征在于，所述音频属性信息包括以下至少一种：

音频的时域信息、音频的频域信息和音频的子带域信息。

20.如权利要求14所述的装置，其特征在于，在所述响应单元用于响应所述目标语音控制信号的控制指令时，包括：

获取自身当前的工作状态信息；

21.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行以下步骤：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。

22.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

获取待处理语音控制信号和目标发音对象发出的音频信号；

响应所述目标语音控制信号的控制指令。