CN115831141A

CN115831141A - 车载语音的降噪方法、装置、车辆及存储介质

Info

Publication number: CN115831141A
Application number: CN202310109477.2A
Authority: CN
Inventors: 朱守经; 刘霖
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2023-03-21
Anticipated expiration: 2043-02-02
Also published as: CN115831141B

Abstract

本公开涉及一种车载语音的降噪方法、装置、车辆及存储介质，该方法包括：通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息，根据用户选择的目标采集区域，从空间位置信息中确定与目标采集区域匹配的目标声源位置，根据麦克风阵列和目标声源位置，对车载空间内的用户语音进行采集，以生成音频数据信号，根据音频数据信号和目标声源位置，生成用户语音在时频域上的目标掩蔽值，根据目标掩蔽值对音频数据信号进行降噪处理，以生成目标音频信号。从而通过掩蔽值提取音频信号中的用户语音，抑制环境中的噪音和干扰人声，达到降噪的目的，提高了车载终端采集到的用户语音质量。

Description

车载语音的降噪方法、装置、车辆及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种车载语音的降噪方法、装置、车辆及存储介质。

背景技术

车载空间中用户通过车载电话与远端进行免提通话，或者通过车载音视频会议系统进行音视频会议时，需要使用车载音频系统中的麦克风和扬声器。但受到车载空间内路噪、干扰声源和干扰人声等噪声的影响，导致通话质量不佳，因此需要在通话过程中对噪声进行抑制。相关技术中利用车载的麦克风阵列进行降噪处理，但当车内的目标人员位置偏离时，例如：人往前倾、往后仰或偏左偏右等，用户的语音在一定程度上会被抑制或衰减，使信噪比降低，通话的语音质量受损。

发明内容

为克服相关技术中存在的问题，本公开提供一种车载语音的降噪方法、装置、车辆及存储介质。

根据本公开实施例的第一方面，提供一种车载语音的降噪方法，包括：

通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息；

根据区域选择指令所指示的目标采集区域，从所述空间位置信息中确定与所述目标采集区域匹配的目标声源位置；

根据所述目标声源位置，通过所述麦克风阵列对所述车载空间内的用户语音进行采集，以生成音频数据信号；

根据所述音频数据信号和所述目标声源位置，生成所述用户语音在时频域上的目标掩蔽值；

根据所述目标掩蔽值对所述音频数据信号进行降噪处理，以生成目标音频信号。

可选地，所述通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息，包括：

通过所述车载感知系统，确定所述车载空间内车内人员的头部空间位置和/或嘴部空间位置；

根据所述头部空间位置和/或所述嘴部空间位置，对所述车载空间内车内人员的嘴唇活动情况进行识别；

通过所述麦克风阵列，确定所述车载空间内的声源位置信息；

对所述嘴唇活动情况、所述头部空间位置和/或所述嘴部空间位置、所述声源位置信息进行多模融合，以生成所述空间位置信息。

可选地，所述对所述嘴唇活动情况、所述头部空间位置和/或所述嘴部空间位置、所述声源位置信息进行多模融合，以生成所述空间位置信息，包括：

在根据所述嘴唇活动情况确定所述车内人员正在说话的情况下，从所述声源位置信息中确定与所述头部空间位置和/或所述嘴部空间位置匹配的语音声源位置信息；

将所述语音声源位置信息作为所述空间位置信息。

可选地，所述根据所述麦克风阵列和所述目标声源位置，对所述车载空间内的用户语音进行采集，以生成音频数据信号，包括：

从所述空间位置信息中确定与所述目标采集区域不匹配的干扰声源位置；

将所述麦克风阵列的波束主瓣指向所述目标声源位置，以及将所述麦克风阵列的波束空点或零点指向所述干扰声源位置；

根据调整后所述麦克风阵列的波束，对所述车载空间内的所述用户语音进行采集，以生成所述音频数据信号。

从所述麦克风阵列中确定用于采集所述目标声源位置对应声音信号的目标麦克风组；

对所述目标麦克风组采集到的用户语音进行增益，以及对所述麦克风阵列中其他麦克风组采集到的其他声音进行衰减，以生成所述音频数据信号。

可选地，所述根据所述音频数据信号和所述目标声源位置，生成所述用户语音在时频域上的目标掩蔽值，包括：

根据所述目标声源位置，从所述音频数据信号中确定所述用户语音对应的目标音频数据；

通过预设神经网络模型，确定所述目标音频数据在所述时频域上的所述目标掩蔽值。

可选地，所述从所述空间位置信息中确定与所述目标采集区域匹配的目标声源位置，包括：

获取所述目标采集区域在预设空间坐标系中的坐标区间；

确定所述空间位置信息在所述预设空间坐标系中的目标空间坐标；

在所述目标空间坐标位于所述坐标区间内的情况下，确定所述目标空间坐标对应的空间位置为所述目标声源位置。

根据本公开实施例的第二方面，提供一种车载语音的降噪装置，包括：

第一确定模块，被配置为通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息；

第二确定模块，被配置为根据区域选择指令所指示的目标采集区域，从所述空间位置信息中确定与所述目标采集区域匹配的目标声源位置；

第一生成模块，被配置为根据所述目标声源位置，通过所述麦克风阵列对所述车载空间内的用户语音进行采集，以生成音频数据信号；

第二生成模块，被配置为根据所述音频数据信号和所述目标声源位置，生成所述用户语音在时频域上的目标掩蔽值；

执行模块，被配置为根据所述目标掩蔽值对所述音频数据信号进行降噪处理，以生成目标音频信号。

根据本公开实施例的第三方面，提供一种车辆，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在执行所述可执行指令时，实现本公开第一方面中任一项所述方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面中任一项所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过上述方式，通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息，根据用户选择的目标采集区域，从空间位置信息中确定与目标采集区域匹配的目标声源位置，根据麦克风阵列和目标声源位置，对车载空间内的用户语音进行采集，以生成音频数据信号，根据音频数据信号和目标声源位置，生成用户语音在时频域上的目标掩蔽值，根据目标掩蔽值对音频数据信号进行降噪处理，以生成目标音频信号。从而利用车载感知系统和麦克风阵列对车载空间内的用户语音进行检测，根据声源位置和麦克风阵列采集到的音频信号生成用户语音的掩蔽值，通过掩蔽值提取音频信号中的用户语音，抑制环境中的噪音和干扰人声，达到降噪的目的，提高了车载终端采集到的用户语音质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种车载语音的降噪方法的流程图。

图2是根据一示例性实施例示出的一种空间位置信息的确定方法的流程图。

图3是根据一示例性实施例示出的一种车载语音的降噪方法的流程图。

图4是根据一示例性实施例示出的一种语音降噪方法的流程图。

图5是根据一示例性实施例示出的一种车载语音的降噪装置的框图。

图6 是根据一示例性实施例示出的一种车辆的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

图1是根据一示例性实施例示出的一种车载语音的降噪方法的流程图，如图1所示，该方法用于车载终端中，包括以下步骤。

在步骤S101中，通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息。

值得一提的是，本实施例应用于车载终端中，该车载终端中装载有车载感知系统用于感知车载空间内的人员，示例的，该车载感知系统可以是摄像头，通过摄像头对人的特征进行识别，以确定车载空间中存在人员，该人员可以是乘坐车辆的乘客，也可以是驾驶车辆的驾驶人员。该车载感知系统还可以是红外感知系统、毫米波雷达感知系统或超声感知系统，分别通过红外感知、雷达感知和超声感知的方式实时检测车载空间内是否存在乘车人员或驾驶人员。当通过该车载感知系统检测到车载空间内有乘车人员或驾驶人员时，对乘车人员或驾驶人员的头部和/或嘴唇在车载空间中的空间位置进行检测，生成相应的初始空间位置。需要说明的是，本实施例中需要对车载空间内目标用户发出的语音进行提取和检测，而用户均是通过嘴唇向车载终端传递语音信息，也即用户的头部或嘴部为车载终端需要捕捉的声源位置。因此，车载感知系统将用户的头部位置或嘴唇位置作为用户在车载空间中的位置，当检测到车载空间内存在乘客或驾驶人员时，根据车载感知系统确定该人员的头部或嘴唇位置，作为该人员在车载空间中的初始位置。

示例的，本实施例的车载终端中装载有麦克风阵列，用于捕捉车载空间内的声音信号，该麦克风阵列可以是设置于车载空间多个位置的多个麦克风组，以捕捉车载空间内不同位置上的语音信号。还可以是设置于车载空间的中心位置的一组麦克风阵列，以该麦克风阵列为中心捕捉设定方圆范围内的语音信号，其中，车载空间包含在该方圆范围之内。通过麦克风阵列捕捉车载空间内的声源方向，并根据麦克风阵列接收到的声音强度确定声源在车载空间内的声源位置。

需要说明的是，麦克风阵列在车载空间中确定的声源位置可以是车内乘车人员或驾驶人员发出的语音声源的位置，还可以是车内其他终端设备，或者车内结构部件产生噪声的位置。本实施例中需要对车内乘车人员或驾驶人员发出的语音声源进行捕捉，因此，在麦克风阵列捕捉到的车内声源位置与车载感知系统确定的车内人员的初始位置相匹配的情况下，才能确定在该车载空间中，对应的车内乘车人员或驾驶人员正在进行发出语音。示例的，本实施例中通过上述步骤确定车载感知系统感知到的乘车人员或驾驶人员在车载空间内的初始位置，以及麦克风阵列确定的声源在车载空间内的声源位置，可以将该初始位置以及声源位置进行匹配，当初始位置与声源位置之间的差值，在设定误差范围内时，确定初始位置与声源位置匹配，并根据初始位置和声源位置生成空间位置信息。其中，该空间位置信息可以是车载空间内车内人员在进行语音沟通时，车内人员对应的头部或嘴唇在车载空间内的空间位置坐标。

在步骤S102中，根据区域选择指令所指示的目标采集区域，从空间位置信息中确定与目标采集区域匹配的目标声源位置。

示例的，本实施例中车内人员与车载终端进行语音通话的场景可以是车内人员通过车载终端与远端进行免提通话，或通过车载终端进行音视频通话，还可以是车内人员向车载终端发送语音控制指令，车载终端接收该语音控制指令完成对应的自动控制操作，例如，车内人员向车载终端发送“打开天窗”的控制指令，车辆根据车载终端接收到的控制语音进行相应的控制响应。值得一提的是，车载空间内会存在多个车内人员同时进行语音沟通的场景，例如，车内驾驶人员需要通过车载终端与远端进行免提通话，车内的两名乘客此时正在进行相互交流，因此，通过上述步骤确定的空间位置信息可以为一个或多个，当空间位置信息为一个时，表示当前只有一个车内人员正在进行发出语音；当空间位置信息为多个时，表示当前车载空间内存在多个车内人员正在发出语音。为避免车载终端在采集输入语音时导致的紊乱，需要车内人员在与车载终端进行语音通话，或语音信号传递之前，选择相应的目标采集区域，使麦克风阵列从空间位置信息中确定用户需要捕捉到的目标声源位置。

值得一提的是，本实施例中可供用户选择的目标采集区域为车载空间中不同驾驶位对应的单个空间区域范围，示例的，该目标采集区域可以是主驾驶位区域、副驾驶位区域、后排乘客区域1、后排乘客区域2或后排乘客区域3；该目标采集区域还可以是连成片的空间区域，例如，前排驾驶区域或后排乘客区域；该目标采集区域还可以是未连成片的空间区域，例如，主驾驶位区域和后排乘客区域1等。本实施例中用户选择的目标采集区域可以是车载空间内的单个位置对应的区域，也可以是车载空间内连成片或隔开的多个区域，用户可以通过选择对目标采集区域进行随意组合，以向对应目标采集区域内的车内人员开通向车载终端发送语音信号的权限，对于目标采集区域的组合方式，本实施例中不做限定。本实施例中用户选择的目标采集区域为用户授权的车载空间内可以向车载终端发送语音信号的空间区域，将上述步骤中生成的空间位置信息与该目标采集区域进行匹配，当该空间位置信息对应的空间坐标唯一目标采集区域的范围内时，确定该空间位置信息在车载空间中的位置为车内人员发出语音信号的目标声源位置。

可选地，在一种实施方式中，上述步骤S102，包括：

获取目标采集区域在预设空间坐标系中的坐标区间。

确定空间位置信息在预设空间坐标系中的目标空间坐标。

在目标空间坐标位于坐标区间内的情况下，确定目标空间坐标对应的空间位置为目标声源位置。

示例的，本实施例中可以以车载终端在车载空间中的位置为原点，建立预设空间坐标系，根据目标采集区域在车载空间中的位置，确定目标采集区域在该预设空间坐标系中的坐标区间。将上述步骤中确定的空间位置信息，转换为预设空间坐标系中的目标空间坐标。并将该目标空间坐标与预设空间坐标系进行比对，当目标空间坐标位于该坐标区间内时，确定目标空间坐标对应的空间位置为目标声源位置。

在步骤S103中，根据目标声源位置，通过麦克风阵列对车载空间内的用户语音进行采集，以生成音频数据信号。

示例的，本实施例中通过上述步骤确定车载空间内发出语音信号的目标声源位置后，通过调整麦克风阵列将麦克风阵列的声音采集方向指向该目标声源位置，并根据调整后的麦克风阵列对该目标声源位置的用户语音进行采集，实时生成音频数据信号。

可选地，在一种实施方式中，上述步骤S103包括：

从空间位置信息中确定与目标采集区域不匹配的干扰声源位置。

将麦克风阵列的波束主瓣指向目标声源位置，以及将麦克风阵列的波束空点或零点指向干扰声源位置。

根据调整后的麦克风阵列，对车载空间内的用户语音进行采集，以生成音频数据信号。

示例的，本实施例中通过上述方式从空间位置信息中确定与目标采集区域匹配的目标声源位置后，空间位置信息中除目标声源位置以外的其他位置均为干扰声源位置。通过车载终端控制麦克风阵列的波束主瓣指向目标声源位置，用于采集车内授权人员向车载终端发送的语音信号，将麦克风阵列的波束空点或零点指向干扰声源位置，以尽量屏蔽车载空间内干扰声源，达到降噪的目的。其中，麦克风阵列的波束主瓣用于增益对应方向上采集到的语音信号，麦克风阵列的波束空点或零点用于衰减对应方向上采集到的语音信号。根据调整后的麦克风阵列对车载空间内的用户语音进行采集，生成音频数据信号。

可选地，在另一种实施方式中，上述步骤S103，包括：

从所述麦克风阵列中确定用于采集所述目标声源位置对应声音信号的目标麦克风组。

对所述目标麦克风组采集到的用户语音进行增益，以及对所述麦克风阵列中其他麦克风组采集到的其他声音进行衰减，以生成音频数据信号。

示例的，本实施例中根据目标声源位置确定在该麦克风阵列中用于采集目标声源的目标麦克组，通过调整麦克风阵列，对该目标麦克风组采集到的用户语音进行增益，以提高用户语音强度。同时对麦克风阵列中除目标麦克风组以外的其他麦克风组采集到的其他声音进行衰减，以降低车载空间中其他干扰噪声的强度。通过调整后麦克风阵列的波束对车载空间中的用户语音进行采集，生成音频数据信号。

在步骤S104中，根据音频数据信号和目标声源位置，生成用户语音在时频域上的目标掩蔽值。

示例的，本实施例中通过上述步骤生成当前车载空间内的音频数据信号后，根据目标声源位置对音频数据信号进行解析，确定在该音频数据信号中用户语音对应的目标音频数据信号，并根据该目标音频数据信号以及音频数据信号，确定用户语音在时频域上的目标掩蔽值。其中，为使传递至远端的音频数据信号更清楚，需要对音频数据信号进行降噪，降低车载空间内的干扰声音，同时提取出用户语音，使远端接收到的用户语音更加清晰，可以通过该目标掩蔽值对音频数据信号中的目标音频数据信号进行调整，示例的，可以根据目标掩蔽值增加用户语音对应目标音频数据信号在各个频率上的增幅值，使远端接收到的用户语音更清晰。

可选地，在另一种实施方式中，上述步骤S104，包括：

根据目标声源位置，从音频数据信号中确定用户语音对应的目标音频数据。

通过预设神经网络模型，确定目标音频数据在时频域上的目标掩蔽值。

示例的，本实施例中音频数据信号中可以包括多个音频信号，车载终端中建立有各个音频信号与对应声源位置之间的一一对应关系，通过目标声源位置，可以从音频数据信号中确定用户语音对应的目标音频数据。根据音频数据信号对应各个音频信号在时间域和频率域上的变化关系，将多个音频信号放置于同一时间-频率坐标系中，通过预设神经网络模型分析目标音频数据与其他音频信号在时间-频率域上的变化关系，确定目标音频数据在时频域上的目标掩蔽值。其中掩蔽值用于增强音频数据信号中的目标音频数据。

在步骤S105中，根据目标掩蔽值对音频数据信号进行降噪处理，以生成目标音频信号。

示例的，本实施例中根据目标掩蔽值对音频数据信号进行降噪处理，达到提取用户语音，并抑制干扰噪声的效果，生成目标音频信号，车载终端通过对该目标音频信号进行识别，做出相应的控制响应；或车载终端将该目标音频信号发送至远端，实现车载语音的通话降噪。

图2是根据一示例性实施例示出的一种空间位置信息的确定方法的流程图，如图2所示，该方法用于车载终端，上述步骤S101，包括以下步骤。

在步骤S201中，通过车载感知系统，确定车载空间内车内人的头部空间位置和/或嘴部空间位置。

示例的，本实施例中确定头部位置空间位置和/或嘴部空间位置的方式与上述步骤S101中相同，可以参照上述步骤S101，不再赘述。

在步骤S202中，根据头部空间位置和/或嘴部空间位置，对车载空间内车内人员的嘴唇活动情况进行识别。

示例的，本实施例中通过上述步骤确定车内人员的头部位置和/或嘴部位置后，对车内人员的嘴唇活动情况进行检测，确定嘴唇是否活动从而确定对应的车内人员当前是否正在通过嘴唇输出语音信号。从而判定对应的车内人员当前是否正在说话。值得一提的是，嘴唇活动情况还可以确定对应的车内人员当前说话是否活跃，对于说话不活跃（即无说话行为）的车内人员所在空间区域的麦克风阵列信号进行抑制。

在步骤S203中，通过麦克风阵列，确定车载空间内的声源位置信息。

示例的，本实施例中通过麦克风阵列确定声源位置信息的方式与上述步骤S102中相同，可以参照上述步骤S102，不再赘述。

在步骤S204中，对嘴唇活动情况、头部空间位置和/或嘴部空间位置、声源位置信息进行多模融合，以生成空间位置信息。

值得一提的是，本实施例中只通过麦克风阵列确定车内人员对应的空间位置信息，或只通过头部空间位置和/或嘴部空间位置确定车内人员的空间位置信息，均不准确。在车载空间中可能出现麦克风阵列采集到的声源不是车内人员自身发出的语音信号，或者车内人员对应的头部空间位置和/或嘴部空间位置并未发出语音信号。因此，本实施例中通过上述步骤确定嘴唇活动情况、头部空间位置和/或嘴部空间位置、声源位置信息后，将该信息发送至车载终端的多模融合模块，通过车载终端对该信息进行分析，从而确定车载空间内车内人员发出语音信号时，对应的空间位置信息。

可选地，在一种实施方式中，上述步骤S204，包括：

在根据嘴唇活动情况确定车内人员正在说话的情况下，从声源位置信息中确定语音声源位置信息。

将语音声源位置信息作为空间位置信息。

示例的，本实施例中通过车载感知系统确定车内人员的嘴唇位置后，对车内人员嘴唇的活动情况进行实时检测，当根据嘴唇活动情况确定车内人员正在说话时，从麦克风阵列采集到的声源位置信息中确定与头部空间位置和/或嘴部空间位置匹配的语音声源位置信息，并将语音声源位置信息作为空间位置信息。

通过上述方式，将车载感知系统感知到的车内人员的嘴唇活动情况、车内人员的头部空间位置和/或嘴部空间位置、麦克风阵列采集到的声源位置进行多模融合，通过多个方面确定车内人员发出语音信号的位置，避免车载终端的误判断，提高了空间位置信息判断的准确性。

图3是根据一示例性实施例示出的一种车载语音的降噪方法的流程图，如图3所示，该方法应用于车载终端，包括以下步骤。

车内的感知系统实时感知车内人员的位置，示例的，可以使用车内有摄像头、红外、毫米波雷达、超声或其它感知设备捕捉车内人员的头部位置、嘴部位置等，通过感知系统的检测算法对车内人员的嘴唇进行检测，确定车内人员是否正在进行语音通话；车载空间内设置有麦克风阵列，用于采集车载空间内各个方向上的声音信号，通过麦克风阵列可以估计出车载空间内的声源方向。根据感知系统感知到的用户嘴唇活动情况、用户头部位置和/或嘴部位置、车载空间内的声源方向进行多模融合，确定出车载空间内活跃说话人在车内的空间位置。结合用户当前所选择模式下定义的目标区域，判断出目标人声位置和干扰声源位置，其中，用户所选择的模式可以包括：主驾模式、副驾模式、前排模式、后排模式和全车模式等，不同模式下只有对应的位置才能与车载系统进行语音通话，例如，主驾模式下只有主驾驶位的用户可以与车载系统进行语音通话；副驾模式下只有副驾驶位的用户可以与车载系统进行语音通话；后排模式下只有后排乘客位的用户可以与车载系统进行语音通话。将目标人声位置和干扰声源位置输入至通话降噪系统，通话降噪系统根据目标人声位置和干扰声源位置对麦克风阵列采集到的声音进行降噪处理，并将降噪后的音频数据发送至远端。

示例的，图4是根据一示例性实施例示出的一种语音降噪方法的流程图，如图4所示，该方法应用于车载终端，包括以下步骤。

示例的，本实施例中通过上述实施例将目标人声位置和干扰声源位置发送至车载的通话降噪系统后，通话降噪系统根据目标人位置和干扰声源位置，对麦克风阵列进行调整，把高增益和一定宽度的波束主瓣指向目标说话人，同时把极低增益（即强衰减）麦克风阵列的波束空点或零点对准干扰人声或干扰声源，接收麦克风阵列采集到的声音信号，该声音信号经过麦克风阵列处理后，将处理后的声音信号输入到降噪系统的降噪/语音分离模块，将目标人声位置、干扰声源位置和处理后的麦克风信号输入至降噪/语音分离模块中，通过该降噪/语音分离模块生成用户语音在时频域的掩蔽值，根据该掩蔽值对处理后的麦克风信号进行降噪处理，从而提取出麦克风信号中的目标人声，并对该信号中的干扰人声和干扰噪声进行抑制，将该降噪处理后的语音信号发送至远端。

通过上述方案，主驾驶位的用户通过车载蓝牙使用电话时，应用免提方式拨打或接听电话，设置的通话模式为主驾位通话；另外副驾驶位的用户正在通过终端欣赏音视频内容，并且进行语音评论时。通过判断目标说话人在主驾区域的准确位置，副驾位人声、干扰声源位置，通话降噪算法能精准地对目标方位进行拾音，精准地对干扰方位进行衰减、抑制。同时，主副驾通过车载音视频会议软件，与远端进行语音沟通，后排两位乘客在聊天时，车内感知系统和车载麦克风阵列，估计出车内4个人的嘴部位置，以及活跃时限。对于后排乘客的聊天，不管何时活跃通话降噪系统均对其抑制；前排可以根据主副驾驶位对应的用户是否说话，适时地对不说话（即不活跃）区域进行抑制，即能有效抑制从该方向入射的车内底噪、路噪等。从而实现了车载语音的降噪，输出质量提升的语音给远端通话人，提高了用户的车载通话体验。

图5是根据一示例性实施例示出的一种车载语音的降噪装置的框图，应用于车载终端，该装置100包括：第一确定模块110、第二确定模块120、第一生成模块130、第二生成模块140和执行模块150。

第一确定模块110，被配置为通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息。

第二确定模块120，被配置为根据用户选择的目标采集区域，从所述空间位置信息中确定与所述目标采集区域匹配的目标声源位置；

第一生成模块130，被配置为根据所述麦克风阵列和所述目标声源位置，对所述车载空间内的用户语音进行采集，以生成音频数据信号；

第二生成模块140，被配置为根据所述音频数据信号和所述目标声源位置，生成所述用户语音在时频域上的目标掩蔽值；

执行模块150，被配置为根据所述目标掩蔽值对所述音频数据信号进行降噪处理，以生成目标音频信号。

可选地，该第一确定模块110，包括：

第一确定子模块，被配置为通过所述车载感知系统，确定所述车载空间内车内人员的头部空间位置和/或嘴部空间位置。

识别子模块，被配置为根据所述头部空间位置和/或所述嘴部空间位置，对所述车载空间内车内人员的嘴唇活动情况进行识别。

第二确定子模块，被配置为通过所述麦克风阵列，确定所述车载空间内的声源位置信息。

生成子模块，被配置为对所述嘴唇活动情况、所述头部空间位置和/或所述嘴部空间位置、所述声源位置信息进行多模融合，以生成所述空间位置信息。

可选地，该生成子模块被配置为：

将所述语音声源位置信息作为所述空间位置信息。

可选地，第一生成模块130，被配置为：

可选地，第二生成模块140，被配置为：

可选地，第二确定模块120，被配置为：

获取所述目标采集区域在预设空间坐标系中的坐标区间；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的车载语音的降噪方法的步骤。

图6是根据一示例性实施例示出的一种车辆600的框图。例如，车辆600可以是混合动力车辆，也可以是非混合动力车辆、电动车辆、燃料电池车辆或者其他类型的车辆。车辆600可以是自动驾驶车辆、半自动驾驶车辆或者非自动驾驶车辆。

参照图6，车辆600可包括各种子系统，例如，信息娱乐系统610、感知系统620、决策控制系统630、驱动系统640以及计算平台650。其中，车辆600还可以包括更多或更少的子系统，并且每个子系统都可包括多个部件。另外，车辆600的每个子系统之间和每个部件之间可以通过有线或者无线的方式实现互连。

在一些实施例中，信息娱乐系统610可以包括通信系统，娱乐系统以及导航系统等。

感知系统620可以包括若干种传感器，用于感测车辆600周边的环境的信息。例如，感知系统620可包括全球定位系统（全球定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统）、惯性测量单元（inertialmeasurement unit，IMU）、激光雷达、毫米波雷达、超声雷达以及摄像装置。

决策控制系统630可以包括计算系统、整车控制器、转向系统、油门以及制动系统。

驱动系统640可以包括为车辆600提供动力运动的组件。在一个实施例中，驱动系统640可以包括引擎、能量源、传动系统和车轮。引擎可以是内燃机、电动机、空气压缩引擎中的一种或者多种的组合。引擎能够将能量源提供的能量转换成机械能量。

车辆600的部分或所有功能受计算平台650控制。计算平台650可包括至少一个处理器651和存储器652，处理器651可以执行存储在存储器652中的指令653。

处理器651可以是任何常规的处理器，诸如商业可获得的CPU。处理器还可以包括诸如图像处理器（Graphic ProcessUnit，GPU），现场可编程门阵列（FieldProgrammableGate Array，FPGA）、片上系统（System on Chip，SOC）、专用集成芯片（Application SpecificIntegrated Circuit，ASIC）或它们的组合。

存储器652可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

除了指令653以外，存储器652还可存储数据，例如道路地图，路线信息，车辆的位置、方向、速度等数据。存储器652存储的数据可以被计算平台650使用。

在本公开实施例中，处理器651可以执行指令653，以完成上述的车载语音的降噪方法的全部或部分步骤。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的车载语音的降噪方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种车载语音的降噪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过车载感知系统和麦克风阵列，确定车载空间内说话人的空间位置信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述嘴唇活动情况、所述头部空间位置和/或所述嘴部空间位置、所述声源位置信息进行多模融合，以生成所述空间位置信息，包括：

将所述语音声源位置信息作为所述空间位置信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述麦克风阵列和所述目标声源位置，对所述车载空间内的用户语音进行采集，以生成音频数据信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述麦克风阵列和所述目标声源位置，对所述车载空间内的用户语音进行采集，以生成音频数据信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据信号和所述目标声源位置，生成所述用户语音在时频域上的目标掩蔽值，包括：

7.根据权利要求1所述的方法，其特征在于，所述从所述空间位置信息中确定与所述目标采集区域匹配的目标声源位置，包括：

获取所述目标采集区域在预设空间坐标系中的坐标区间；

8.一种车载语音的降噪装置，其特征在于，包括：

9.一种车辆，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为在执行所述可执行指令时，实现权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。