CN114420114A

CN114420114A - 车辆、音频识别方法、装置、设备及介质

Info

Publication number: CN114420114A
Application number: CN202111539665.6A
Authority: CN
Inventors: 张道林; 勾晓菲; 李娟�; 汪亮
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-29

Abstract

本公开涉及一种车辆、音频识别方法、装置、设备及介质。其中，音频识别方法包括：获取至少一个原始音频，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置；针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据；将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频；利用待识别音频，识别针对目标车辆的控制指令。根据本公开实施例，能够提高对目标车辆的音频控制精度。

Description

车辆、音频识别方法、装置、设备及介质

技术领域

本公开涉及车辆技术领域，尤其涉及一种车辆、音频识别方法、装置、设备及介质。

背景技术

随着车辆技术的发展，车载音频识别技术也逐步引起相关技术人员的注意。

在相关车载音频识别技术中，可以在车内设置麦克风采集车辆人员的语音。然而，当车辆上乘坐多个车内人员时，多个车内人员说话可能会对音频识别精度产生干扰，导致无法对目标车辆进行准确的音频控制。

发明内容

为了解决上述技术问题，本公开提供了一种车辆、音频识别方法、装置、设备及介质。

第一方面，本公开提供了一种音频识别方法，包括：

获取至少一个原始音频，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置；

针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据；

将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频；

利用待识别音频，识别针对目标车辆的控制指令。

第二方面，本公开提供了一种音频识别装置，包括：

音频获取模块，用于获取至少一个原始音频，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置；

音频处理模块，用于针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据；

音频混合模块，用于将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频；

音频识别模块，用于利用待识别音频，识别针对目标车辆的控制指令。

第三方面，本公开提供了一种音频识别设备，包括：

处理器；

存储器，用于存储可执行指令；

其中，处理器用于从存储器中读取可执行指令，并执行可执行指令以实现第一方面的音频识别方法。

第四方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面的音频识别方法。

第五方面，本公开实施例提供了一种车辆，包括音频识别设备，该音频识别设备用于实现第一方面的音频识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的车辆、音频识别方法、装置、设备及介质，在获取至少一个原始音频之后，能够对每个目标音区，将该目标音区对应的原始音频中除该目标音区之外的其他音区内的音频进行音区抑制，得到该目标音区的音频数据，使得各目标音区对应的音频数据可以排除掉其他音区的声音的干扰，仅保留本目标音区的声音。相应地，在利用音区抑制得到的各个目标音区的音频数据混合得到的待识别音频来识别得到目标车辆的控制指令时，利用各目标音区的音频数据混合得到的待识别音频可以仅包括本目标音区的声音，避免了直接将原始音频进行混合时同一声音被反复采集并识别所导致的音频识别精度的影响，从而可以待识别音频中准确识别得到目标车辆的控制指令，提高了对目标车辆的音频控制精度。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1示出了本公开实施例提供的一种音频识别方法的流程示意图；

图2示出了本公开实施例提供的另一种音频识别方法的流程示意图；

图3示出了本公开实施例提供的又一种音频识别方法的流程示意图；

图4示出了本公开实施例提供的再一种音频识别方法的流程示意图；

图5示出了本公开实施例提供的再一种音频识别方法的流程示意图；

图6示出了本公开实施例提供的再一种音频识别方法的流程示意图；

图7示出了本公开实施例提供的再一种音频识别方法的流程示意图；

图8示出了本公开实施例提供的一种音频识别装置的结构示意图；

图9为本公开实施例提供的一种音频识别设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

音频识别技术在车辆中得到了广泛应用。比如车载输入法、车辆语音控制等需要基于音频识别技术实现的功能，可以为诸如车辆驾驶人员或者乘坐人员等车内人员提供了极大便利。

在一个场景中，车内人员在使用诸如多媒体工具、文档工具等一些需要文字输入的应用(Application，app)，可以把说话内容转换为文本内容，并在相关app内进行相关文本内容的搜索。比如，车内用户可以在视频app内语音输入搜索“xx电视剧”。

然而，申请人发现，在一种相关技术，当目标车辆上的多个车内人员同时说话对会音频识别精度产生干扰。比如，如果车辆上的用户A和用户B同时说话时，若目标车辆上设置有多个麦克风模组，则可能每个麦克风模组都会采集得到包括用户A和用户B声音在内的原始音频。若直接利用多个麦克风模组采集得到的原始音频混合处理，识别目标车辆的控制指令的话，可能导致用户A和用户B的声音被反复采集和识别。特别是在不同麦克风模组采集的原始音频因传输时间差等原因导致其在混合得到的待识别音频中存在一定时间差时，可能用户A和用户B的声音会被识别为4个人或者更多人的声音，进而使得对目标车辆的音频控制精度降低，特别是在需要从待识别音频中识别目标识别人的说话声音时，会因识别难度增大，进而影响对目标车辆的音频控制精度。

为了解决上述的问题，本公开实施例提供了一种音频识别方法、装置、设备和介质，可以通过目标车辆的至少一个目标音区的音频数据混合得到待识别音频，从而混合得到的待识别音频可以仅包括本目标音区的声音，避免了直接将原始音频进行混合时同一声音被反复采集并识别所导致的音频识别精度的影响，从而可以待识别音频中准确识别得到目标车辆的控制指令，提高了对目标车辆的音频控制精度。

下面，首先对本公开实施例提供的音频识别方法进行说明。

图1示出了本公开实施例提供的一种音频识别方法的流程示意图。

在本公开一些实施例中，图1所示的音频识别方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图1所示，该音频识别方法可以包括如下步骤。

S110，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，每个目标音区对应目标车辆的一个车厢位置。

首先，对于目标音区，若需要对某一区域内的声音进行单独的音频识别时，可以将该区域作为一个目标区域。在本公开实施例中，可以按照车厢位置将车辆空间划分为至少一个目标音区。可选地，为了能够给车辆上不同位置的车内人员提供各自相对独立的语音识别服务，车辆内目标音区的数量大于或等于2。比如，可以将车辆上每个车座划分为一个目标音区，相应地，以4座车辆为例，4座车辆可以划分得到4个目标音区。

其次，对于至少一个原始音频，至少一个原始音频可以是设置于目标车辆的不同车厢位置处的至少一个麦克风模组分别采集得到的。

对于麦克风模组，目标车辆可以安装有至少一个麦克风模组，可以将每个麦克风模组采集得到的车内声音作为一个原始音频。比如，若车辆内设置有4个麦克风模组，则每个麦克风模组可以采集得到1个原始音频，也就是说，通过4个麦克风模组共采集得到4个原始音频。

其中，每个麦克风模组可以包括多个麦克风。具体地，可以通过至少一个麦克风模组采集到目标车辆的车厢内多个车厢位置的声音。比如，可以通过至少一个麦克风模组采集得到目标车辆内所有车厢位置的声音。相应地，每一个麦克风模组可以采集得到一个或者多个车厢位置的声音。示例性地，若目标车辆包括4个目标音频且目标车辆上共设置2个麦克风模组，则第一个麦克风模组的音频采集范围可以覆盖前排2个座位对应的2个目标音区，第二个麦克风模组的音频采集范围可以覆盖后排2个座位对应的2个目标音区的声音。相应地，通过上述两个麦克风模组，可以采集得到车辆上4个目标音区的声音。

可选地，可以在每个车座附近，比如车座侧面、车顶等位置处各布置一个麦克风组件。相应地，每个麦克风组件可以采集到该车座所对应音区的声音。比如，若在每个车座侧面设置一个麦克风模组，则每个麦克风模组可以采集该车座所在目标音区的声音。

又可选地，可以在车辆前部以及车辆后部各设置一个麦克风组件，对此不作具体限定。相应地，以4座车辆为例，车辆前部的麦克风组件可以采集前排座椅区域的声音，车辆后部的麦克风组件可以采集后排车座区域的声音。

S120，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到该音区对应的音频数据。

在本公开实施例中，可以针对每个原始音频的每一目标音区，利用音区抑制算法，对该目标音区的音频数据进行加强，以及对该目标音区对对应的原始音频中除该目标音区之外的非目标音区的音频数据进行抑制，从而可以得到该目标音区的音频数据。

在一些实施例中，若一个原始音频包括至少一个目标音区的音频数据，则可以分别通过音区抑制算法，得到各目标音区的音频数据。具体地，在进行每一目标音区的音区抑制的过程中，可以在该目标音区对应的原始音频中对该目标音区的音频数据进行加强，以及对该原始音频中除该目标音区之外的其余音频数据进行抑制。比如，若某一原始音频的音频采集范围覆盖目标音区1和目标音区2，则可以将该原始音频中包括除目标音区1之外的其他音区内的音频数据进行抑制，得到目标音区1对应的音频数据。以及，可以将该原始音频中包括除目标音区2之外的其他音区内的音频数据进行抑制，得到目标音区2对应的音频数据。从而可以通过音区抑制算法，从该原始音频中提取得到目标音区1对应的音频数据和目标音区2对应的音频数据。

在一些实施例中，音区抑制算法可以是波束形成算法，或者盲源分离算法等能够实现音区抑制的算法，对此不作具体限定。

具体地，以波束形成算法为例，由于对于同一麦克风模组而言，不同目标音频的声源位置不同。因此，可以利用所采集声音达到麦克风模组中不同麦克风的相位差，来对所采集声音进行声源定位，从而根据声源位置在所采集声音中识别得到来自目标音区的声音，对其进行加强，以及对声源位置非来自目标音区的声音进行抑制，从而得到目标音区对应的音频数据。

具体地，以盲源分离算法为例，其可以在不知道原始音频中不同信号的声源及信号混合参数的情况下，仅根据观测到的原始音频估计其中来自不同声源方向的目标音区对应的音频数据。

需要说明的是，可以通过音区抑制算法充分隔离掉其他音区的声音，得到的各目标音区的音频数据，使得通过S120得到的各目标音区对应的音频数据仅包括该音区内的声音，从而使得各音区的音频数据之间具有足够的隔离度。比如，对于设置在每个座位旁边的麦克风组件所采集得到的原始音频中，其除了收录到所对应座位的声音之外，还可能收录到其他座位上乘坐人员的声音，通过音区抑制处理，可以得到仅保留该座位上的乘坐人员的声音，抑制掉其他座位上乘坐人员的声音。从而以4座车辆为例，通过设置在4个座位旁边的麦克风模组采集得到的4个原始音频，经过音区抑制处理之后，可以得到4个座位各自对应的目标音区对应的音频数据，其中每一个目标音区对应的音频数据中仅包括处于该音区内的乘坐人员的说话声音，不包括其他音区内的乘坐人员的说话声音。

在一些实施例中，经过音区抑制后得到的各目标音区的音频数据可以通过不同的麦克风通道传输。比如，对于4座车辆而言，音区抑制后的4个目标音区的音频数据可以通过4个麦克风通道传输至混音模块。

S130，将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频。

在一些实施例中，当语音识别模块仅支持单通道的语音输入时，可以对音区抑制得到的各个目标音区的音频数据混合成单通道的待识别音频。

在一些实施例中，由于在不同的音频识别以及音频控制场景中，不同目标音区的重要性不同，比如在车辆控制时，驾驶员所在目标音区的重要性高于其他目标音区，又比如在对副驾驶的车载设备的app进行语音输入时，副驾驶所在目标音频的重要性高于其他目标音区。因此，可以在对至少一个目标音区的音频数据进行混合处理时，可以对不同重要性的目标音区的音频数据进行不同的音频调整，来实现对重要性高的目标音区进行重点关注。

相应地，S130可以具体包括下述步骤A1至A3。

步骤A1，按照目标音区的重要性排序，确定音区抑制得到的各个目标音区对应的音频数据的音频调整量。

在一个实施例中，目标音区的重要性排序可以根据实际场景和具体需求设置。接下来将通过两个示例对目标音区的重要性排序进行具体说明。

在一个示例中，不同的车载设备可以对应设置为不同的目标音区重要性排序。比如，若控制指令针对具有车辆控制功能的车辆设备，则驾驶员所在目标音区的重要排序高于其他座位所在目标音区的重要性排序。

在另一个示例中，对于其他不具有车辆控制功能的车辆辅助设备，则驾驶员所在目标音区的重要性排序低于其他座位所在目标音区的重要性排序。比如，设置在驾驶员正后方的显示设备，各目标音区的重要性排序可以依次为驾驶员正后方座位所在目标音区、副驾驶正后方座位所在目标音区、副驾驶座位所在目标音区以及驾驶员座位所在目标音区。

在另一个实施例中，音频调整量可以是音频的音量和/或音频的相位等在单通道音频识别上可以凸显重要性等级高的目标音区的参数，对此不作限定。

可选地，对于音量，重要性越高的目标音区，其音量可以越大。

可选地，对于音频的相位，若后续过程中选取最早开始说话的人的声音进行识别，则重要性越高的音频，其音频的相位可以越靠前。同理地，若后续过程中选取最晚结束说话的人的声音进行识别，则重要性越低的音频，其音频的相位可以越靠前。

步骤A2，针对每一音频数据，按照音频数据的音频调整量对音频数据进行音频调整，得到调整后的音频数据。

可选地，以音频调整量为音量为例，可以将各音频数据的音量调整至目标音量。

可选地，以音频调整量为相位为例，可以将各音频数据的相位进行前移或者后移。

步骤A3，基于调整后的各个音频数据，生成待识别音频。

需要说明的是，步骤A3的混合方式与步骤S130示出的音频混合方式类似，在此不再赘述。

通过本实施例，在对音区抑制得到的各个目标音区的音频数据混合时，可以根据目标音区的重要性对各目标音区的音频数据进行混合，从而可以使得在对待识别音频识别时，能够对重要性高的目标音区的音频数据进行重点关注。比如，若音频调整量为音频，如果重点关注驾驶员，可以将驾驶员座位所在目标音区的音量调高，使得驾驶员说话声音相较于其他声音更清楚，提高驾驶员说话声音的识别准确率。又比如，若音频调整量为相位，如果重点关注驾驶员，可以将驾驶员座位所在目标音区的音频数据的相位前调，使得在优先识别先说话的人时，驾驶员声音相较于其他声音的被识别概率提高。

需要说明的是，由于语音识别模块支持单通道的语音输入，因此通过混合处理，可以将多通道的音频数据混合成单通道的待识别音频，从而使得支持单通道输入的语音识别模块也能为目标车辆的多个车内人员提供语音识别服务，提高了车内人员的语音服务体验。

S140，利用待识别音频，识别针对目标车辆的控制指令。

首先，对于控制指令，其可以是控制目标车辆的车辆部件的指令，比如，可以是控制车辆雨刷器、空调、座位等车辆部件的指令。又或者可以是控制目标车辆的车辆辅助设备的指令。比如，可以是控制车辆显示设备、车辆控制面板、车辆音箱、车辆影音设备、车辆导航设备等设备的指令。

在一些实施例中，可以将待识别音频整体进行识别，得到目标车辆的控制指令，又或者，可以对待识别音频进行文本转换，得到多个语音文本，以及将满足预设条件的语音文本进行识别，得到目标车辆的控制指令。

在一些实施例中，控制指令的生成方式可以包括下述步骤B1和步骤B2。

步骤B1，对待识别音频进行文本转换，得到转换文本。

其中，可以对待识别音频整体转换得到的文本作为转换文本，或者，对待识别音频文本转换得到的至少一个语音文本中满足预设条件的语音文本作为转换文本，对此不作限定。

步骤B2，根据转换文本中的目标关键词，生成目标关键词对应的控制指令。

可选地，目标关键词可以包括车辆部件以及对应的操作。相应地，可以生成用于控制车辆部件执行相应操作的控制指令。比如转换文本包括“打开雨刷器”，则可以生成打开雨刷器的控制指令。

又可选地，目标关键词可以包括对应的车辆控制操作。相应地，可以生成该车辆控制操作对应的控制指令。比如转换文本包括“启动车辆”，则可以生成启动车辆的相关控制指令。

在另一些实施例中，控制指令的生成方式可以包括下述步骤B3和步骤B4。

步骤B3，对待识别音频整体进行文本转换，得到转换文本。

其中，步骤B3可以参见步骤B1的相关内容，在此不再赘述。

步骤B4，生成用于在车辆辅助设备的搜索区域内输入该转换文本的控制指令。示例性地，搜索区域可以是车辆辅助设备的多媒体app、搜索app或者文档app中的搜索栏。

在一个示例中，可以在车内人员执行了针对车辆辅助设备的目标app的输入操作之后，比如，用户打开了导航app的语音搜索功能之后，将转换文本作为搜索区域的输入内容。

其中，该输入操作可以是手势控制操作、语音控制操作或者表情控制操作等，在此不作限制。

在本公开实施例中，在获取至少一个原始音频之后，能够对每个目标音区，将该目标音区对应的原始音频中除该目标音区之外的其他音区内的音频进行音区抑制，得到该目标音区的音频数据，使得各目标音区对应的音频数据可以排除掉其他音区的声音的干扰，仅保留本目标音区的声音。相应地，在利用音区抑制得到的各个目标音区的音频数据混合得到的待识别音频来识别得到目标车辆的控制指令时，利用各目标音区的音频数据混合得到的待识别音频可以仅包括目标音区纯净的声音，避免了直接将原始音频进行混合时同一声音被反复采集并识别所导致的音频识别精度的影响，从而可以待识别音频中准确识别得到目标车辆的控制指令，提高了对目标车辆的音频控制精度。

为了便于理解本公开实施例，接下来将结合多个应用场景对本公开实施例提供的音频识别方法展开具体说明。

在一个场景中，可以对待识别音频整体进行识别，得到目标车辆的控制指令。比如，当副驾驶的说话内容包括“今天天气真好”，后排乘客的说话内容包括“我们一起去郊游”时，通过本公开实施例，可以得到包含“今天天气真好，我们一起去郊游”的待识别音频，然后在目标app的搜索框或者文本输入区域内显示文字“今天天气真好，我们一起去郊游”。

通过本实施例，可以实现目标车辆内多个乘坐人员的共同语音控制。以及可以避免同一语音被多个麦克风模组同时采集到，并进行重复识别的可能性，特别是，避免了同一语音被多个麦克风模组同时采集到，并在传输时延不同时被识别为不同语句的可能性，提高了对目标车辆的控制精度。

在另一个场景中，可以对待识别音频中目标说话人的音频进行识别，比如若驾驶员的说话内容包括“打开雨刷器”，副驾驶的说话内容包括“关闭音乐”，则将驾驶员作为目标识别人，则可以在混合得到的语音音频中识别得到驾驶员的语音音频“打开雨刷器”，并对应生成打开雨刷器的控制指令，来控制目标车辆的雨刷器打开。

相较于相关技术，能够避免副驾驶的说话内容对驾驶员的说话内容的干扰，防止因副驾驶的说话内容包括“关闭”导致驾驶员的说话内容被误识别为“关闭雨刷器”等控制指令的可能性，从而提高了对目标车辆的语音控制精度。

在又一个场景中，若副驾驶的语音音频“热门综艺”以及后排人员的语音音频“热门神曲”，则可以在副驾驶的车辆影音设备的搜索框内搜索“热门综艺”，以及在后排人员的车辆影音设备的搜索框内搜索“热门神曲”。

相较于相关技术，可以实现不同目标音区内的乘坐人员对各自目标音区内设备的独立控制，且避免了其他音区内的语音输入对当前音区内的语音输入的干扰，实现了各目标音区的车载设备的独立语音控制，提高了控制精度。

图2示出了本公开实施例提供的另一种音频识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化，本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。

在本公开一些实施例中，图2所示的方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图2所示，该音频识别可以包括如下步骤。

S210，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，每个目标音区对应目标车辆的一个车厢位置。

具体地，S210与S110的具体实施方式相似，可以参见S110的相关内容，在此不再赘述。

S220，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据。

具体地，S220与S120的具体实施方式相似，可以参见S120的相关内容，在此不再赘述。

S230，将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频。

具体地，S230与S130的具体实施方式相似，可以参见S130的相关内容，在此不再赘述。

S240，对待识别音频进行文本转换，得到转换文本。

具体地，可以利用音频-文本转换技术进行文本转换，得到转换文本。

示例性地，若待识别音频包括音区1-4的音频数据，则转换文本可以包括位于音区1-4的各车内人员的说话内容。

S250，根据转换文本，生成控制指令。

具体地，S250与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

另外，通过本实施例，由于待识别音频包括至少一个目标音区的音频数据，相应地，通过对待识别音频进行文本转换，得到转换文本进而生成控制指令的方式，可以根据目标车辆的至少一个目标音区的说话人的说话内容对目标车辆进行相应地控制，提高了车内人员对车载音频识别服务的使用体验。

图3示出了本公开实施例提供的又一种音频识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化，本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。

在本公开一些实施例中，图3所示的方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图3所示，该音频识别可以包括如下步骤。

S310，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置。

具体地，S310与S110的具体实施方式相似，可以参见S110的相关内容，在此不再赘述。

S320，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据。

具体地，S320与S120的具体实施方式相似，可以参见S120的相关内容，在此不再赘述。

S330，将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频。

具体地，S330与S130的具体实施方式相似，可以参见S130的相关内容，在此不再赘述。

S340，对待识别音频进行文本转换，得到至少一个语音文本，每个语音文本对应至少一个发声对象。

具体地，每一语音文本可以是一个目标音区的发声对象的说话文本。可选地，可以根据目标音区的发声对象的音频数据转换得到的一个语音文本。

S350，将满足预设条件的语音文本，确定为转换文本。

在一些实施例中，预设条件可以是可以利用其生成控制指令的语音文本所需满足的条件。

具体地，预设条件包括以下条件1-条件4中的一者。

条件1，起始时间最早的语音文本。相应地，可以通过各语音文本对应的发声对象的开始说话时间来确定起始时间最早的语音文本。

在一个场景中，如果驾驶员先说出“打开雨刷器”之后，副驾驶再说出“关闭雨刷器”，由于驾驶员对应的语音文本的起始时间早于副驾驶对应的语音文本的起始时间，相应地，可以利用驾驶员对应的语音文本“打开雨刷器”来生成打开雨刷器的控制指令。

通过本实施例，在多人同时说话时，通过选取起始时间最早的语音文本的方式，可以选用最先说话的人的语音文本对车辆进行控制，可以避免多人同时说话时所导致的控制逻辑混乱。

条件2，结束时间最晚的语音文本。相应地，可以通过各语音文本对应的发声对象的结束说话时间来确定结束时间最晚的语音文本。

在一个场景中，如果驾驶员先说出“打开雨刷器”之后，副驾驶再说出“关闭雨刷器”，由于副驾驶对应的语音文本的结束时间晚于驾驶员对应的语音文本的结束时间，则可以根据副驾驶对应的语音文本“关闭雨刷器”，生成关闭雨刷器的控制指令。

通过本实施例，在多人同时说话时，可以使得最后结束说话的人具有对车辆的控制权限，可以避免多人同时控制所导致的控制逻辑混乱。

条件3，最早出现关键词的语音文本。相应地，可以对多个语音文本进行关键词识别，将首次出现关键词的语音文本作为转换文本。

在一个场景中，如果关键词是车内设备，用户A先说出“今天天气真好”，用户B再说出“打开雨刷器”，用户C后说出“关闭雨刷器”，由于用户B对应的语音文本最早出现“雨刷器”，则可以根据用户B对应的语音文本“打开雨刷器”控制目标车辆打开雨刷器。

通过本实施例，在多人同时说话时，可以使得最早说出关键词的人具有对车辆的控制权限，可以避免多人同时控制所导致的控制逻辑混乱。

条件4，与目标发声对象对应的语音文本，目标发声对象是待识别音区的发声对象。其中，待识别音区可以是目标车辆的至少一个目标音区中的任一音区。

在一个场景中，如果副驾驶说出“今天天气真好”，驾驶员再说出“打开雨刷器”，后排乘客后说出“关闭雨刷器”，若后排座位所在目标音区为待识别音区，则后排乘客为目标发声对象。则可以利用后排乘客的语音文本“关闭雨刷器”来控制目标车辆的雨刷器关闭。

通过本实施例，在多人同时说话时，可以使得待识别音区的发声对象具有对车辆的控制权限，可以避免多人同时控制所导致的控制逻辑混乱。

S360，根据转换文本，生成控制指令。

其中，S360与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

在本公开实施例中，在获取至少一个原始音频之后，能够对至少一个原始音频进行音区抑制，得到目标车辆的至少一个音区的音频数据。由于每个音区对应着一个车厢位置，混合得到的待识别音频能够包括车辆上各车厢位置的乘坐人员的说话音频，从而利用待识别音频识别得到目标车辆的控制指令，车辆上各车厢位置的乘坐人员均能够通过说话音频对目标车辆进行控制，提高了车内人员对车载音频识别服务的使用体验。

通过本实施例，在多人说话场景中，可以从待识别音频中选取出目标说话人的目标音频进行车辆控制，提高了控制精度。

图4示出了本公开实施例提供的再一种音频识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化，本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。

在本公开一些实施例中，图4所示的方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图4所示，该音频识别可以包括如下步骤。

S410，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置。

其中，S410与S110的具体实施方式相似，可以参见S110的相关内容，在此不再赘述。

S420，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据。

其中，S420与S120的具体实施方式相似，可以参见S120的相关内容，在此不再赘述。

S430，将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频。

其中，S430与S130的具体实施方式相似，可以参见S130的相关内容，在此不再赘述。

S440，对待识别音频进行文本转换，得到至少一个语音文本。其中，每个语音文本对应一个发声对象。

S450，记录至少一个语音文本与至少一个语音文本对应的发声对象之间的对应关系。

可选地，若语音文本1对应发声对象1，语音文本2对应发声对象2，则所记录的对应关系可以包括：语音文本1与发声对象1的对应子关系，语音文本2与发声对象的对应子关系。

S460，确定目标发声对象。

具体地，可以将待识别区音区的发声对象确定为目标发声对象。可选地，待识别音区可以是与目标控制设备对应的。示例性地，若目标控制设备为车辆部件，则待识别音区可以是驾驶员座位所在音区。又一示例性地，若目标控制设备为车辆辅助设备，则待识别音区可以是乘客座位所在音区，比如副驾驶座位所在音区等。

又可选地，待识别音区可以是与待识别音频中的关键词对应的。示例性地，如果待识别音频中出现控制车辆器件的关键词，比如“雨刷器”、“车辆加速”、“紧急制动”等车辆控制指令，则待识别音区可以是驾驶员座位所在音区。

通过本实施例，当待识别音频中出现车辆器件的关键词时，通过将驾驶员座位所在音区作为待识别音区时，当目标车辆内除驾驶员之外的其他乘坐人员说出车辆控制指令时可以不对其进行响应，从而可以使得仅有驾驶员能够对目标车辆进行控制，从而可以防止除驾驶员之外的其他车内乘坐人员与驾驶员抢夺车辆控制权限对车辆行驶安全性的影响，实现了车辆的安全驾驶。

在一个场景中，如果有后排乘客说出“紧急制动时”以及驾驶员说出“车辆加速”时，可以不对后排乘客说出的车辆控制指令进行响应，仅对驾驶员说出的“车辆加速”指令进行响应，从而保证了车辆的安全驾驶。

又一示例性地，如果待识别音频中出现娱乐性质的应用程序的控制指令，则目标音区可以是乘客座位所在音区。

通过本实施例，当驾驶员说出了娱乐性质的应用程序的控制指令时，可以不对其进行响应，从而防止驾驶员在车辆驾驶过程中因娱乐性质的应用程序分心而影响车辆的安全驾驶。

在一个示例中，如果驾驶员说出“在xx视频app打开xx电视剧”时，可以不对其进行响应，从而避免驾驶员因在驾驶过程中观看电视剧分心而影响车辆的安全驾驶。

再一示例性地，关键词还可以是待识别音频中出现的目标控制设备的设备名称或者设备昵称，则可以将目标控制设备所服务的音区确定为目标音区。比如，若对于为副驾驶座位所在音区提供音频播放服务的蓝牙音箱“小爱”，如果待识别音频中出现“小爱同学，XXX”，则将副驾驶座位所在音区确定为目标音区。

S470，基于所记录的对应关系，将与目标发声对象对应的语音文本确定为转换文本。

继续上一示例，若目标发声对象为发声对象2，则基于上一示例示出的对应关系，则可以将与发声对象2对应的语音文本2确定为转换文本。

S480，根据转换文本，生成控制指令。

其中，S480与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

在一些实施例中，待识别音区可以是目标车辆上的多个音区，相应地，目标发声对象可以是上述多个音区内的发声对象。比如，目标发声对象可以包括驾驶员和副驾驶人员。

相应地，S480可以包括步骤C1和步骤C2。

步骤C1，针对每一目标发声对象，识别得到该目标发声对象所在音区的音区控制指令。

其中，音区控制指令可以参见本公开实施例上述部分结合步骤B1至步骤B4的相关说明，在此不再赘述。

步骤C2，控制该目标发声对象所在音区的目标控制设备执行音区控制指令对应的操作。

示例性地，若音区1的目标发声对象和音区2的目标发声对象同时讲话，则可以利用位于音区1的目标发声对象对音区1的目标控制设备X进行控制，利用音区2的目标发声对象对音区2的目标控制设备Y进行控制。

通过本实施例，可以使得车辆内的多个车内人员同时对车辆内不同的目标控制设备进行独立的控制，且不会互相影响。比如，在后排人员对车载屏幕进行语音输入时，若驾驶员对车辆发出控制指令，通过本方案使得控制指令不会受到后排人员的语音输入的干扰，提高了车辆控制的灵活性以及车辆驾驶的安全性。

另外，通过本实施例，可以在待识别音频中识别出待识别音区的目标发声对象的语音文本，从而可以利用目标发声对象的语音文本对目标车辆进行控制。比如，出于安全驾驶的需要，对于打开雨刷器、车辆加速等影响车辆安全性的控制指令或者影响车辆安全性的目标控制设备，可以利用驾驶员座位所在音区目标发声对象(即驾驶员)的语音文本生成控制指令，从而使得仅有驾驶员可以获取安全驾驶相关行为的控制权限。又比如，出于安全驾驶以及乘客娱乐体验的需要，对于搜索视频内容等会分散车辆驾驶员注意力的控制指令或者目标控制设备，可以利用乘客座位所在音区的目标发声对象(即非驾驶员的车内乘客)的语音文本进行语音控制，从而提高了驾驶安全性且兼顾了乘客的娱乐体验。

图5示出了本公开实施例提供的再一种音频识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化，本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。

在本公开一些实施例中，图5所示的方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图5所示，该音频识别可以包括如下步骤。

S510，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置。

具体地，S510与S110的具体实施方式相似，可以参见S110的相关内容，在此不再赘述。

S520，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据。

具体地，S520与S520的具体实施方式相似，可以参见S120的相关内容，在此不再赘述。

S530，判断音区抑制得到的各个目标音区对应的音频数据中是否包括待识别音区的音频数据。

可选地，待识别音区可以是与目标控制设备对应的。示例性地，若目标控制设备为车辆部件，则待识别音区可以是驾驶员座位所在音区。又一示例性地，若目标控制设备为车辆辅助设备，则待识别音区可以是乘客座位所在音区，比如副驾驶座位所在音区等。

需要说明的是，待识别音区的具体内容可以参见本公开实施例上述部分对待识别音区的具体描述，在此不再赘述。

S540，在音区抑制得到的各个目标音区对应的音频数据中不包括待识别音区的音频数据的情况下，对音区抑制得到的各个目标音区的音频数据进行混音处理，得到待识别音频。

具体地，S540与S130的具体实施方式相似，可以参见S130的相关内容，在此不再赘述。

S550，在音区抑制得到的各个目标音区对应的音频数据中包括待识别音区的音频数据的情况下，将待识别音区的音频数据确定为待识别音频。

S560，利用待识别音频，识别针对目标车辆的控制指令。

具体地，S560与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

可选地，在一些实施例中，在将待识别音区的音频数据作为待识别音频的情况下，若未从待识别音频中识别得到控制指令，则可以重新获取多个原始音频，或者可以将除目标音区的音频数据之外的其他音区的音频数据作为待识别音频继续进行识别，对此不作具体限定。

另外，通过本实施例，在音区抑制得到的各个目标音区对应的音频数据包括待识别音区的音频数据时，可以对待识别音区的音频数据进行控制指令的识别，以及在不包括待识别音区的音频数据时，可以对其他音区的混合音频数据进行控制指令的识别，从而可以优先对待识别音区的音频数据进行识别，提高了识别精度。

图6示出了本公开实施例提供的再一种音频识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化，本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。

在本公开一些实施例中，图6所示的方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图6所示，该音频识别可以包括如下步骤。

S610，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置。

其中，S610与S110的具体实施方式相似，可以参见S110的相关内容，在此不再赘述。

S620，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据。

其中，S620与S120的具体实施方式相似，可以参见S120的相关内容，在此不再赘述。

S630，对音区抑制得到的各个目标音区的音频数据进行降噪处理，得到降噪后的音频数据。

其中，通过降噪处理，可以抑制各目标音区的音频数据中的环境噪声，提高了音频数据的质量。

在车载场景中，因为车辆运行过程中会产生各种噪音，比如引擎声音、散热风扇的声音等，通过降噪处理可以抑制掉上述各类噪声，仅包留各目标音区的说话人的声音，避免了上述各类噪音对音频识别的影响，从而提高了音频数据的识别精度。

S640，将降噪后的各个音频数据混合，得到待识别音频。

其中，S640与S130的具体实施方式相似，可以参见S130的相关内容，在此不再赘述。

S650，利用待识别音频，识别针对目标车辆的控制指令。

其中，S650与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

图7示出了本公开实施例提供的再一种音频识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化，本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。

在本公开一些实施例中，图7所示的方法可以应用于具有语音识别功能的车辆控制器或者服务器等，对此不作具体限定。

如图7所示，该音频识别可以包括如下步骤。

S710，获取至少一个原始音频。其中，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置。

其中，S710与S110的具体实施方式相似，可以参见S110的相关内容，在此不再赘述。

S720，针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据。

其中，S720与S120的具体实施方式相似，可以参见S120的相关内容，在此不再赘述。

S730，将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频。

其中，S730与S130的具体实施方式相似，可以参见S130的相关内容，在此不再赘述。

S740，利用待识别音频，识别针对目标车辆的控制指令。

其中，S740与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

S750，控制目标车辆的目标设备执行控制指令对应的操作。

可选地，目标设备可以是雨刷器、空调、远光灯等车辆器件。相应地，控制指令对应的操作可以是启动车辆器件、停止车辆器件或者改变车辆器件的工作速率的操作。

又或者，目标设备可以是蓝牙音箱、导航设备或者影音设备等车辆辅助设备，对此不作限定。相应地，控制指令可以是控制车辆辅助设备在相关app的搜索栏显示语音输入内容的操作等，对此不作具体限定。

其中，S750与S140的具体实施方式相似，可以参见S140的相关内容，在此不再赘述。

图8示出了本公开实施例提供的一种音频识别装置的结构示意图。

在本公开一些实施例中，图8所示的音频识别装置可以应用于具有语音识别功能的车辆控制器或者服务器，对此不作具体限定。

如图8所示，该音频识别装置800可以包括音频获取模块810、音频处理模块820、音频混合模块830以及音频识别模块840。

该音频获取模块810可以用于获取至少一个原始音频，每个原始音频对应至少一个目标音区，目标音区对应目标车辆的一个车厢位置；

该音频处理模块820可以用于针对目标音区，对原始音频中除目标音区之外的其他音区内的音频进行音区抑制，得到目标音区对应的音频数据；

该音频混合模块830可以用于将音区抑制得到的各个目标音区对应的音频数据混合，得到待识别音频；

该音频识别模块840可以用于利用待识别音频，识别针对目标车辆的控制指令。

在本公开的一些实施例中，音频识别模块840可以包括文本转换单元以及指令生成单元。

该文本转换单元可以用于对待识别音频进行文本转换，得到转换文本；

该指令生成单元可以用于根据转换文本，生成控制指令。

在本公开的一些实施例中，指令生成单元包括文本转换子单元和转换文本确定子单元。

该文本转换子单元可以用于对待识别音频进行文本转换，得到至少一个语音文本，每个语音文本对应一个发声对象；

该转换文本确定子单元可以用于将满足预设条件的语音文本，确定为转换文本。

在本公开的一些实施例中，预设条件包括以下一者：

起始时间最早的语音文本；结束时间最晚的语音文本；最早出现关键词的语音文本；与目标发声对象对应的语音文本，目标发声对象是待识别音区的发声对象。

在本公开的一些实施例中，转换文本为与目标发声对象对应的语音文本，目标发声对象是待识别音区的发声对象

音频识别装置800还包括对应关系记录模块

该对应关系记录模块可以用于记录至少一个语音文本与至少一个语音文本对应的发声对象之间的对应关系；

其中，该转换文本确定子单元可以具体用于：

确定目标发声对象；

基于所记录的对应关系，确定与目标发声对象对应的语音文本；

将语音文本确定为转换文本。在本公开的一些实施例中，音频识别装置800还包括判断模块。

该判断模块可以用于判断音区抑制得到的各个目标音区对应的音频数据中是否包括待识别音区的音频数据；

其中，音频混合模块830可以具体用于：

若音区抑制得到的各个目标音区对应的音频数据中不包括待识别音区的音频数据，对音区抑制得到的各个目标音区的音频数据进行混音处理，得到待识别音频；

若音区抑制得到的各个目标音区对应的音频数据中包括待识别音区的音频数据，将待识别音区的音频数据确定为待识别音频。

在本公开的一些实施例中，音频混合模块830可以包括调整量确定单元、音频调整单元以及音频生成单元。

该调整量确定单元可以用于按照音区抑制得到的各个目标音区的重要性排序，确定音区抑制得到的各个目标音区对应的音频数据的音频调整量；

该音频调整单元可以用于针对每一音频数据，按照音频数据的音频调整量对音频数据进行音频调整，得到调整后的音频数据；

该音频生成单元可以用于基于调整后的各个音频数据，生成待识别音频。

在本公开的一些实施例中，音频识别装置800还可以包括控制模块。

该控制模块可以用于控制目标车辆的目标设备执行控制指令对应的操作。

在本公开的一些实施例中，音频识别装置800还可以包括降噪模块。

该降噪模块可以用于针对每一音频数据，对音频数据进行降噪处理，得到降噪后的音频数据；

相应地，音频混合模块830可以具体用于：

将降噪后的各个音频数据混合，得到待识别音频。

需要说明的是，图8所示的音频识别装置700可以执行图1至图7所示的方法实施例中的各个步骤，并且实现图1至图7所示的方法实施例中的各个过程和效果，在此不做赘述。

图9示出了本公开实施例提供的一种音频识别设备的结构示意图。

如图9所示，该音频识别设备可以包括控制器901以及存储有计算机程序指令的存储器902。

具体地，上述控制器901可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器902可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器902可以包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器902可在综合网关设备的内部或外部。在特定实施例中，存储器902是非易失性固态存储器。在特定实施例中，存储器902包括只读存储器(Read-Only Memory，ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM，PROM)、可擦除PROM(Electrical Programmable ROM，EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM，EEPROM)、电可改写ROM(Electrically Alterable ROM，EAROM)或闪存，或者两个或及其以上这些的组合。

控制器901通过读取并执行存储器902中存储的计算机程序指令，以执行本公开实施例所提供的音频识别方法的步骤。

在一个示例中，该音频识别设备还可包括收发器903和总线904。其中，如图9所示，控制器901、存储器902和收发器903通过总线904连接并完成相互间的通信。

总线904包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture，EISA)总线、前端总线(Front Side BUS，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industrial Standard Architecture，ISA)总线、无限带宽互连、低引脚数(Low Pin Count，LPC)总线、存储器总线、微信道架构(MicroChannel Architecture，MCA)总线、外围控件互连(Peripheral Component Interconnect，PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment，SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus，VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线904可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

在一个示例中，该音频识别设备还可包括至少一个麦克风组件，麦克风组件可以通过总线与控制器901连接，每个麦克风组件可以用于采集一个原始音频。

本公开实施例还提供一种车辆，可以包括音频识别设备，该音区设备可以实现本公开实施例所提供的音频识别方法。

本公开实施例还提供了一种计算机可读存储介质，该存储介质可以存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现本公开实施例所提供的音频识别方法。

上述的存储介质可以例如包括计算机程序指令的存储器902，上述指令可由音频识别设备的处理器901执行以完成本公开实施例所提供的音频识别方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact DiscROM，CD-ROM)、磁带、软盘和光数据存储设备等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频识别方法，其特征在于，包括：

获取至少一个原始音频，每个所述原始音频对应至少一个目标音区，所述目标音区对应目标车辆的一个车厢位置；

针对所述目标音区，对所述原始音频中除所述目标音区之外的其他音区内的音频进行音区抑制，得到所述目标音区对应的音频数据；

将音区抑制得到的各个所述目标音区对应的所述音频数据混合，得到待识别音频；

利用所述待识别音频，识别针对所述目标车辆的控制指令。

2.根据权利要求1所述的方法，其特征在于，

所述利用所述待识别音频，识别针对所述目标车辆的控制指令，包括：

对所述待识别音频进行文本转换，得到转换文本；

根据所述转换文本，生成所述控制指令。

3.根据权利要求2所述的方法，其特征在于，

所述对所述待识别音频进行文本转换，得到转换文本，包括：

对所述待识别音频进行文本转换，得到至少一个语音文本，每个所述语音文本对应一个发声对象；

将满足预设条件的所述语音文本，确定为所述转换文本。

4.根据权利要求3所述的方法，其特征在于，

所述预设条件包括以下一者：

起始时间最早的语音文本；

结束时间最晚的语音文本；

最早出现关键词的语音文本；

与目标发声对象对应的语音文本，所述目标发声对象是待识别音区的发声对象。

5.根据权利要求3所述的方法，其特征在于，所述转换文本为与目标发声对象对应的语音文本，所述目标发声对象是待识别音区的发声对象；

在所述对所述待识别音频进行文本转换，得到至少一个语音文本之后，在所述将满足预设条件的语音文本，确定为所述转换文本之前，所述方法还包括：

记录所述至少一个语音文本与所述至少一个语音文本对应的发声对象之间的对应关系；

所述将满足预设条件的语音文本，确定为所述转换文本，包括：

确定所述目标发声对象；

基于所记录的所述对应关系，确定与所述目标发声对象对应的语音文本；

将所述语音文本确定为所述转换文本。

6.根据权利要求1所述的方法，其特征在于，在所述针对所述目标音区，对所述原始音频中除所述目标音区之外的其他音区内的音频进行音区抑制，得到所述目标音区对应的音频数据之后，所述方法还包括：

判断音区抑制得到的各个所述目标音区对应的音频数据中是否包括待识别音区的音频数据；

其中，所述将音区抑制得到的各个所述目标音区对应的所述音频数据混合，得到待识别音频，包括：

若音区抑制得到的各个所述目标音区对应的所述音频数据中不包括所述待识别音区的音频数据，对音区抑制得到的各个所述目标音区的音频数据进行混音处理，得到所述待识别音频；

若音区抑制得到的各个所述目标音区对应的音频数据中包括所述待识别音区的音频数据，将所述待识别音区的音频数据确定为所述待识别音频。

7.根据权利要求1所述的方法，其特征在于，所述音区抑制得到的各个所述目标音区对应的所述音频数据混合，得到待识别音频，包括：

按照音区抑制得到的各个所述目标音区的重要排序，确定音区抑制得到的各个目标音区对应的所述音频数据的音频调整量；

针对每一所述音频数据，按照所述音频数据的所述音频调整量对所述音频数据进行音频调整，得到调整后的所述音频数据；

基于调整后的各个所述音频数据，生成所述待识别音频。

8.根据权利要求1所述的方法，其特征在于，在所述利用所述待识别音频，识别针对所述目标车辆的控制指令之后，所述方法还包括：

控制所述目标车辆的目标设备执行所述控制指令对应的操作。

9.根据权利要求1所述的方法，其特征在于，在将音区抑制得到的各个所述目标音区对应的所述音频数据混合，得到待识别音频之前，所述方法还包括：

针对每一所述音频数据，对所述音频数据进行降噪处理，得到降噪后的音频数据；

将降噪后的各个音频数据混合，得到待识别音频。

10.一种音频识别装置，其特征在于，包括：

音频获取模块，用于获取至少一个原始音频，每个所述原始音频对应至少一个目标音区，所述目标音区对应目标车辆的一个车厢位置；

音频处理模块，用于针对所述目标音区，对所述原始音频中除所述目标音区之外的其他音区内的音频进行音区抑制，得到所述音区对应的音频数据；

音频混合模块，用于将音区抑制得到的各个所述目标音区对应的所述音频数据混合，得到待识别音频；

音频识别模块，用于利用所述待识别音频，识别针对所述目标车辆的控制指令。

11.一种音频识别设备，其特征在于，包括：

处理器；

存储器，用于存储可执行指令；

其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-9中任一项所述的音频识别方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现用上述权利要求1-9中任一项所述的音频识别方法。

13.一种车辆，其特征在于，包括音频识别设备，

其中，所述音频识别设备用于实现上述权利要求1-9中任一项所述的音频识别方法。