CN111968642A

CN111968642A - 语音数据处理方法、装置及智能车辆

Info

Publication number: CN111968642A
Application number: CN202010878262.3A
Authority: CN
Inventors: 周毅; 左声勇; 殷切; 陈真
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-11-20
Also published as: JP2021144248A; KR102553234B1; KR20210040854A

Abstract

本申请公开了一种语音数据处理方法、装置及智能车辆，涉及数据处理技术领域中的语音数据处理技术领域、自然语言处理技术领域、语音交互技术领域以及自动驾驶技术领域等。具体实现方案为：当多个麦克风采集的多路语音数据中都包括唤醒词，将多路语音数据中能量最大的语音数据对应的麦克风作为目标麦克风，并在后续通过目标麦克风采集的语音数据识别其中的指令。从而在终端设备在唤醒后，选择能量最大的语音数据对应的麦克风对语音数据中指令进行识别，防止使用其他麦克风无法识别指令或者识别错误指令的情况，提高车载终端对语音数据处理时识别的准确性。

Description

语音数据处理方法、装置及智能车辆

技术领域

本申请涉及数据处理技术中的语音数据处理技术领域、自然语言处理技术领域、语音交互技术领域以及自动驾驶技术领域等，尤其涉及一种语音数据处理方法、装置及智能车辆。

背景技术

目前，随着语音识别技术的不断发展，一些智能车辆上设置的车载终端可以接收麦克风采集车辆内人员说话时的语音数据，并通过语音识别技术确定语音数据中人员的指令，并执行该指令，从而实现了车辆内人员通过语音方式对车载终端进行控制，提高了车辆的智能化程度。

现有技术中，由于对语音数据中指令进行识别的算法复杂度较高，车载终端为了避免资源浪费，在接收到麦克风采集的语音数据后，首先对语音数据中的唤醒词进行识别，只有在识别到语音数据中包括唤醒词的情况下，才会识别唤醒词之后的语音数据中的指令，从而提高车载终端的工作效率。

但是，当车辆内设置多个麦克风时，多个麦克风都可能接收到语音数据并识别出唤醒词，由于识别唤醒词的算法精度较低，无法准确地确定出后续应该对哪一个麦克风的语音数据中的指令进行识别，进而导致语音数据中指令识别不准确，甚至识别出错误的指令，降低语音数据的处理准确性。

发明内容

本申请提供了语音数据处理方法、装置及智能车辆，用于解决现有技术中语音数据处理时准确性较差的技术问题。

本申请第一方面提供一种语音数据处理方法，包括：当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风；其中，所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集；获取所述目标麦克风在第二时间段采集的第二语音数据；其中，所述第二时间段位于所述第一时间段之后；识别所述第二语音数据中包括的指令。

综上，本实施例提供的语音数据处理方法，能够在车载终端被第一语音数据内的唤醒词唤醒后，选择能量最大的语音数据对应的目标麦克风的第二语音数据，对指令进行识别，由于该目标麦克风距离用户较近故能量较大，通过所采集的第二语音数据能够更准确地识别出用户所说出的指令，进而防止使用其他麦克风无法识别指令或者识别错误指令的情况，提高车载终端对语音数据处理时识别的准确性。

在本申请第一方面一实施例中，所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风，包括：从所述多路第一语音数据中，确定包括所述目标词汇的一路或多路候选第一语音数据；从所述一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

具体地，本实施例提供的语音数据处理方法中，由于多路第一语音数据中检测到了目标词汇，而可能并不是所有第一语音数据中都包括目标词汇，因此，车载终端在多路第一语音数据中包括目标词汇后，再将实际包括目标词汇的一路或多路第一语音数据的能量进行比较，而不是将所有第一语音数据的能量进行比较，从而减少了车载终端在对语音数据进行处理，确定目标麦克风时所需的计算量，进一步提高了车载终端对语音数据进行处理的效率。

在本申请第一方面一实施例中，所述从所述一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风，包括：从存储模块中，获取所述一路或多路候选第一语音数据在所述第一时间段的能量；其中，所述存储模块用于存储所述多个麦克风采集的语音数据的能量；根据所述一路或多路候选第一语音数据能量，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

具体地，本实施例提供的语音数据处理方法中，由于车载终端接收到第一语音数据后都进行存储，则车载终端确定多路第一语音数据包括目标词汇后，通过回溯的方式，从存储设备中直接读取所存储的能量，从而能够更快地对多路第一语音数据的能量值进行比较，进而提高了车载终端对语音数据进行处理的效率。

在本申请第一方面一实施例中，所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风之前，还包括：获取所述多个麦克风在所述第一时间段采集的多路第一语音数据；计算所述多路第一语音数据在所述第一时间段的能量；将所述多路第一语音数据在所述第一时间段的能量存入存储模块。

具体地，本实施例提供的语音数据处理方法中，对于车载终端，可以将麦克风实时采集的第一时间段的多路第一语音数据先计算能量后，将计算得到的能量值存入存储设备中，使得后续若通过唤醒模型识别出多路第一语音数据中包括目标词汇，同样可以从存储设备中直接读取所存储的能量，从而能够更快地对多路第一语音数据的能量值进行比较，也能够提高车载终端对语音数据进行处理的效率。

在本申请第一方面一实施例中，对于任一个第一语音数据，所述计算所述第一语音数据在所述第一时间段的能量，包括：按照预设时间窗口，对所述第一语音数据在所述第一时间段内进行加窗分帧处理，得到所述第一语音数据在所述第一时间段的多个频域特征；将所述多个频域特征的频域能量平均值，作为所述第一语音数据在所述第一时间段的能量。

具体地，本实施例提供的语音数据处理方法中，通过加窗分帧的处理方式，对第一语音数据的能量进行表示，由于频域特征更能体现信号中不同分量尤其是人发出的语音数据的特征，因此能够更好地对语音数据的能量进行表示，进一步提高了确定目标麦克风时的准确性，进而提高了对语音数据进行识别时的准确性。

在本申请第一方面一实施例中，作为执行主体的语音数据处理装置可以在获取第二语音数据后，直接识别第二语音数据中的指令；或者，还可以将第二数据发送给网络设备，由网络设备对第二语音数据中的指令识别后，语音数据处理装置可以直接接收网络设备发送的第二语音数据中的指令。使得本实施例能够应用在不同的识别场景中，并且在运算能力不足时，可以依靠网络设备的识别来提高对语音数据的处理效率；而在语音数据处理装置的运算能力支持的情况下，依靠自身对第二语音数据中的指令进行识别，还可以减少与网络设备的数据交互。

本申请第二方面提供一种语音数据处理装置，可用于执行如本申请第一方面的语音数据处理方法，该装置包括；确定模块，用于当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风；其中，所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集；获取模块，用于获取所述目标麦克风在第二时间段采集的第二语音数据；其中，所述第二时间段位于所述第一时间段之后；识别模块，用于识别所述第二语音数据中包括的指令。

在本申请第二方面一实施例中，所述确定模块具体用于，从所述多路第一语音数据中，确定包括所述目标词汇的一路或多路候选第一语音数据；从所述一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

在本申请第二方面一实施例中，所述确定模块具体用于，从存储模块中，获取所述一路或多路候选第一语音数据在所述第一时间段的能量；其中，所述存储模块用于存储所述多个麦克风采集的语音数据的能量；根据所述一路或多路候选第一语音数据能量，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

在本申请第二方面一实施例中，所述语音数据处理装置还包括：计算模块和存储模块；所述获取模块还用于，获取所述多个麦克风在所述第一时间段采集的多路第一语音数据；所述计算模块用于，计算所述多路第一语音数据在所述第一时间段的能量，并将所述多路第一语音数据在所述第一时间段的能量存入所述存储模块。

在本申请第二方面一实施例中，所述计算模块具体用于，按照预设时间窗口，对所述第一语音数据在所述第一时间段内进行加窗分帧处理，得到所述第一语音数据在所述第一时间段的多个频域特征；将所述多个频域特征的频域能量平均值，作为所述第一语音数据在所述第一时间段的能量。

在本申请第二方面一实施例中，识别模块可以识别第二语音数据中的指令；或者，还可以将第二数据发送给网络设备，由网络设备对第二语音数据中的指令识别后，识别模块可以直接接收网络设备发送的第二语音数据中的指令。

本申请第三方面提供一种智能车辆，包括多个麦克风和处理器；其中，多个麦克风用于采集智能车辆内部的语音数据；处理器用于当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风，随后，获取目标麦克风在第二时间段采集的第二语音数据，并识别第二语音数据中包括的指令；其中，多路第一语音数据由多个麦克风在第一时间段采集，第二时间段位于第一时间段之后。

在本申请第三方面一实施例中，处理器具体用于，从多路第一语音数据中，确定包括目标词汇的一路或多路候选第一语音数据；从一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

在本申请第三方面一实施例中，处理器具体用于，从存储模块中，获取一路或多路候选第一语音数据在第一时间段的能量；其中，存储模块用于存储多个麦克风采集的语音数据的能量；根据一路或多路候选第一语音数据能量，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

在本申请第三方面一实施例中，处理器还用于，获取多个麦克风在第一时间段采集的多路第一语音数据；计算多路第一语音数据在第一时间段的能量；将多路第一语音数据在第一时间段的能量存入存储模块。

在本申请第三方面一实施例中，处理器具体用于，按照预设时间窗口，对第一语音数据在第一时间段内进行加窗分帧处理，得到第一语音数据在第一时间段的多个频域特征；将多个频域特征的频域能量平均值，作为第一语音数据在第一时间段的能量。

在本申请第三方面一实施例中，处理器具体用于，向网络设备发送第二语音数据；接收网络设备发送的第二语音数据中包括的指令。

本申请第四方面提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请第一方面中任一项所述的方法。

本申请第五方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请第一方面中任一项所述的方法。

本实施例提供的语音数据处理方法、装置及智能车辆，作为执行主体的车载终端，当确定第一时间段内的语音数据包括目标词汇，则进一步确定多路第一语音数据中能量最大的第一语音数据对应的麦克风作为目标麦克风，并在随后仅通过所获取的目标麦克风采集的第二语音数据对用户在唤醒词后说出的指令进行识别，最终可以执行识别出的指令。因此，本实施例提供的语音数据处理方法，能够在车载终端被第一语音数据内的唤醒词唤醒后，选择能量最大的语音数据对应的目标麦克风的第二语音数据，对指令进行识别，由于该目标麦克风距离用户较近故能量较大，通过所采集的第二语音数据能够更准确地识别出用户所说出的指令，进而防止使用其他麦克风无法识别指令或者识别错误指令的情况，提高车载终端对语音数据处理时识别的准确性。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所应用场景的示意图；

图2为本申请提供的语音数据处理方法一实施例的流程示意图；

图3为本申请提供的车载终端确定根据多路第一语音数据的能量的逻辑示意图；

图4为本实施例提供的语音数据处理方法另一实施例的流程示意图；

图5为本实施例提供的语音数据的时间段示意图；

图6为本申请提供的语音数据方法一实施例中车载终端的处理逻辑示意图；

图7为本申请提供的语音数据处理装置一实施例的结构示意图；

图8为本申请提供的语音数据处理装置另一实施例的结构示意图；

图9所示是根据本申请实施例的语音数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面在正式介绍本申请实施例之前，先结合附图，对本申请所应用的场景，以及现有技术中存在的问题进行说明。

图1为本申请所应用场景的示意图，其中，在如图1所示的智能车辆1内设置有车载终端11，车辆驾驶员或者乘客可以通过车载终端11能够实现播放音乐、地图导航、接打电话等功能。同时，随着语音识别技术的不断发展，车载终端11也可以与车内人员通过语音方式交互，从而减少车内人员操作车载终端11给智能车辆1的正常行驶带来的安全隐患。

例如，当智能车辆1内的人员需要控制车载终端11实现相关功能时，可以直接说出“播放音乐”，则当车载终端11通过麦克风采集到包括用户说出的“播放音乐”的指令的语音数据后，通过语音识别技术，确定语音数据中用户所说出的指令是“播放音乐”，随后即可直接执行播放音乐的功能，而在上述整个过程中，智能车辆1内的人员仅仅说出了指令，就可以实现对车载终端11的控制，使得智能车辆1内的人员尤其是驾驶员在使用车载终端11时，双手不用离开方向盘、甚至目光也不用离开车辆前方，就可以向车载终端11发出指令，确保了智能车辆1内的人员、以及周围环境内其他车辆和行人的安全，同时，还提高了车载终端11的智能化程度，提高智能车辆1内人员的控制体验。

更为具体地，车载终端11在实现与用户进行语音交互时，一个重要的技术是对采集得到的语音数据中，用户说出的指令进行识别。而由于对对语音数据中指令进行识别的算法复杂度较高，所使用的识别模型的数据量较大，车载终端为了避免资源浪费，通常会设置“唤醒词”，例如“ABAB”。此时，用户在向车载终端11说出“播放音乐”的指令之前，还需要先说出唤醒词，例如“ABAB，播放音乐”。则对于车载终端11，将实时采集语音数据，并使用轻量级的唤醒模型对唤醒词进行识别，此时所使用的唤醒模型由于只需要对比语音数据中是否存在唤醒词，其算法复杂度较低、所使用的唤醒模型的数据量也较小。当车载终端11通过唤醒模型，确定第一时间段所采集的语音数据中包括唤醒词“ABAB”，则紧接着在第一时间段之后的第二时间段采集的语音数据通过识别模型，识别出其中包括的指令“播放音乐”，进而执行该指令。因此，在大部分时间内，车载终端11都可以使用轻量级的唤醒模型对语音数据进行处理，只有在检测到唤醒词后才使用识别模型对指令进行识别，从而降低了车载终端11在处理语音数据时的计算量，提高了车载终端11的工作效率。

在一些实现中，智能车辆内通常会设置不止一个麦克风来采集语音数据，例如，在如图1所示的智能车辆1内，可以按照车辆内座位的设置，在驾驶员座位旁设置第一麦克风121、在副驾驶座位旁设置第二麦克风122，在后排左右两侧分别设置第三麦克风123和第四麦克风124，车载终端11通过这四个麦克风可以对每个位置处人员的语音数据进行采集，从而保证每个位置的人员说出的唤醒词不会由于距离麦克风较远而未被识别，提高车载终端11唤醒的准确性。例如，智能车辆1内的驾驶员说出“ABAB”的唤醒词后，设置在驾驶员旁边的第一麦克风121采集到包括唤醒词的语音数据，随后，当车载终端11根据第一麦克风121的语音数据被唤醒，则使用识别模型，对第一麦克风121所采集的包括唤醒词之后的语音数据进行识别，进而识别出驾驶员说出的“播放音乐”的指令，由于第一麦克风121设置在驾驶员旁边，使用该麦克风的语音数据识别指令可以提高识别出指令的准确性，也能够保证后续根据指令执行相关功能准确。

在实际应用中，这种车辆内设置多个麦克风同时采集数据并识别唤醒词的场景，坐在驾驶员位置的驾驶员说出唤醒词后，除了设置在驾驶员旁边的第一麦克风121，其他麦克风可能也会采集到包括唤醒词的语音数据。使得车载终端11在对语音数据中的唤醒词进行检测时，可能在多个麦克风采集的多路语音数据中都检测到唤醒词。随后，车载终端11可以选择其中任一个麦克风的后续语音数据通过识别模型识别其中的指令。

假设驾驶员说出唤醒词后，使用设置在驾驶员旁边的第一麦克风121采集的语音数据，和后排设置的第四麦克风124采集的语音数据都识别到唤醒词，此时车载终端11若通过第四麦克风124采集的后续语音数据识别指令时，可能存在无法识别指令、或者错误识别指令的问题，降低车载终端11对语音数据处理时识别的准确性。

因此，为了解决上述车载终端11在对语音数据进行处理时，当多个麦克风采集的多路语音数据中都包括唤醒词，则可以将多路语音数据中能量最大的语音数据对应的麦克风作为目标麦克风，并在后续通过目标麦克风采集的语音数据识别其中的指令，最终执行识别出的指令。从而在终端设备在唤醒后，选择能量最大的语音数据对应的麦克风对语音数据中指令进行识别，由于该目标麦克风距离用户较近故能量较大，通过所采集的语音数据能够更准确地识别出其中包括的指令，进而防止使用其他麦克风无法识别指令或者识别错误指令的情况，提高车载终端对语音数据处理时识别的准确性。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请提供的语音数据处理方法一实施例的流程示意图，如图2所示的方法可以由如图1所示的智能车辆1内的车载终端11执行，或者，由其他设置在智能车辆1内的、可用于处理语音数据的语音数据处理装置，或者由语音数据处理装置中的处理器执行。并且智能车辆1内可以设置多个麦克风，每个麦克风设置在不同的位置，均可用于采集语音数据，并将采集的语音数据发送到车载终端11。此外需要说明的是，如图1所示的智能车辆1以设置四个麦克风作为示例，而非对其进行限定，智能车辆1内还可以设置2个、6个、8个或者其他数量的多个麦克风，均在本申请实施例的保护范围之内。

具体地，如图2所示的语音数据处理方法包括：

S101：当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风。

其中，所述多路第一语音数据是由设置在车辆内的多个麦克风在第一时间段所采集的语音数据，所述目标词汇可以是车载终端的语音功能的唤醒词。具体地，在如图1所示的智能车辆内，多个麦克风会实时采集语音数据，并发送给车载终端进行识别，例如，如图1所示的四个麦克风在t1-t2时间段内采集的四路语音数据发送给车载终端，由车载终端对这四路语音数据中是否包括唤醒词进行识别，若这四路语音数据中均不包括唤醒词，则车载终端继续识别四个麦克风在t2-t3时间段内采集并发送给车载终端的四路语音数据，若此时在t2-t3时间段内的四路语音数据中，任一路或者多路语音数据包括唤醒词，则执行S101。其中，将包括唤醒词的t2-t3时间段记为第一时间段、将第一时间段内多个麦克风采集的语音数据记为这多个麦克风分别所采集的第一语音数据。

因此，在S101中，当车载终端确定第一时间段内，多路第一语音数据中存在包括唤醒词的一路或者多路第一语音数据，则在S101中从多路第一语音数据中，确定能量最大的第一语音数据，并确定语音数据的能量最大的语音数据对应的麦克风，记为目标麦克风。

S102：车载终端获取目标麦克风在第二时间段所采集的第二语音数据。

其中，当车载终端通过S101确定目标麦克风后，车载终端在后续对智能车辆内的人员说出的语音数据中的指令进行识别时，只对目标麦克风所采集的语音数据进行识别。则在S102中，车载终端获取目标麦克风在第二时间段采集的语音数据。例如，若唤醒词为“ABAB”，则智能车辆内的人员说出“ABAB，播放音乐”后，多个麦克风在第一时间段内采集的语音数据中包括唤醒词“ABAB”。则车载终端根据S101确定目标麦克风之后，在第一时间段之后的第二时间段，即使多个麦克风也都还在采集语音数据，但是车载终端仅仅获取目标麦克风所采集到的第二语音数据，以对其中包括的“播放音乐”的指令进行识别。此时，将第一时间段之后相邻的时间段记为第二时间段，并且将目标麦克风采集的包括指令“播放音乐”的语音数据记为第二语音数据，第二时间段是第一时间段后相邻的第一个时间段。

S103：车载终端对第二语音数据中包括的指令进行识别。

具体地，在S103一种具体的实现方式中，终端设备对S102所获取的第二语音数据进行识别，例如识别出智能车辆人员说出的“ABAB，播放音乐”中第二语音数据内的“播放音乐”的指令，随后，车载终端指令该指令，开始播放音乐。可以理解的是，在S103中，车载终端并不对除了目标麦克风之外的其他麦克风所采集的语音数据进行识别。在本实现方式中，假设作为执行主体的语音数据处理装置的运算能力支持的情况下，即可依靠自身对第二语音数据中的指令进行识别，可以减少与网络设备的数据交互。

而在S103另一种具体的实现方式中，若作为执行主体的语音数据处理装置的运算能力不足时，可以依靠网络设备的识别来提高对语音数据的处理效率。具体地，语音数据处理装置可以将第二数据发送给网络设备，由网络设备对第二语音数据中的指令识别后，语音数据处理装置可以直接接收网络设备发送的第二语音数据中的指令。

综上，本实施例提供的语音数据处理方法，作为执行主体的车载终端，当确定第一时间段内的语音数据包括目标词汇，则进一步确定多路第一语音数据中能量最大的第一语音数据对应的麦克风作为目标麦克风，并在随后仅通过所获取的目标麦克风采集的第二语音数据对用户在唤醒词后说出的指令进行识别，最终可以执行识别出的指令。因此，本实施例提供的语音数据处理方法，能够在车载终端被第一语音数据内的唤醒词唤醒后，选择能量最大的语音数据对应的目标麦克风的第二语音数据，对指令进行识别，由于该目标麦克风距离用户较近故能量较大，通过所采集的第二语音数据能够更准确地识别出用户所说出的指令，进而防止使用其他麦克风无法识别指令或者识别错误指令的情况，提高车载终端对语音数据处理时识别的准确性。

更为具体地，图3为本申请提供的车载终端确定根据多路第一语音数据的能量的逻辑示意图，下面结合图3，对上述如图2所示的语音数据处理方法中，S101中车载终端具体通过多路第一数据的能量，确定目标麦克风的方法进行说明。

如图3所示的示例中，同样以如图1所示的智能车辆，以及智能车辆内设置四个麦克风为例。记智能车辆内设置的四个麦克风为麦克风1、麦克风2、麦克风3和麦克风4，这四个麦克风将实时采集语音数据，并发送到车载终端内，由车载终端对四个麦克风的语音数据进行处理。由于车载终端在处理语音数据时，为了识别出语音数据中的唤醒词或者指令，需要以时间段为单位对语音数据进行划分，并识别一段时间的语音内的唤醒词或者指令。因此，车载终端内可以设置存储模块，用于存储一段时间的语音数据，并在这段时间之后，通过回溯的方式，从存储模块内取出语音数据进行识别。

例如，在如图3所示的逻辑图中，四个麦克风在t1-t2时刻采集得到的四路语音数据分别发送至车载终端，车载终端通过四个队列对四个麦克风采集的语音数据进行存储，并在t2时刻之后，识别四个麦克风在t1-t2时间段内采集的四路语音数据中是否包括唤醒词，可以理解的是，在t2时刻车载终端在对t1-t2时间段内的语音数据进行唤醒识别的同时，四个麦克风仍然继续采集语音数据并发送至车载终端，车载终端也继续会对t2时刻之后四个麦克风采集的语音数据分别在队列中进行存储。

可选地，为了对四路语音数据中是否包括唤醒词进行识别，车载终端可以使用与四路语音数据一一对应的唤醒引擎，分别对每一路语音数据是否包括唤醒词进行识别，例如在图3中，麦克风1采集的语音数据通过唤醒引擎1进行识别、麦克风2采集的语音数据通过唤醒引擎2识别、麦克风3采集的语音数据通过唤醒引擎3识别，以及麦克风4采集的语音数据通过唤醒引擎4识别。车载终端内的多个唤醒引擎可以通过机器学习模型实现，并且每个机器学习模型在具体实现时可以相同或不同，每个机器学习模型均用于对语音数据中的唤醒词进行识别。

可以理解的是，在图3所示的示例中，若四个唤醒引擎对四个麦克风在t1-t2时间段内采集的四路语音数据进行识别后，确定四路语音数据都不包括唤醒词，则车载终端继续从存储模块中，获取t2-t3时间段内，四个麦克风所采集的四路语音数据，并通过四个唤醒引擎进行唤醒词的识别。

特别地，在本实施例中，车载终端内的存储模块还可以存储每一段语音数据的能量，例如图3中将能量以队列形式存储，可以命名为“能量缓存队列”。其中，对于每一个实际那段内的语音数据，可以通过加窗运算，计算该时间段内每一帧信号的频域能量，并平均值后，得到该路语音数据在时间段内的能量值。例如，以图3所示的麦克风1所采集的t1-t2时间段内的语音数据计算能量的过程作为示例性的说明，则当麦克风1采集t1-t2时间段的语音数据后，车载终端获取这段时间段的语音数据，通过加窗分帧处理，得到这一段时间内语音数据每一帧的频域特征。所述加窗计算可以将语音数据按照每一帧进行分帧并转换到频域，其具体实现及原理可参照现有技术，不再赘述。随后，假设通过加窗分帧处理，将麦克风1采集的t1-t2时间段的语音数据分为100个帧，则可以计算着100个帧的频域能量，所述频域能量的一种实现方式可以是频谱振幅的平方值，或者其他可能的能量表示方式，本实施例不作限定。最终，车载终端可以将上述100个帧的频域能量计算平均值后，得到麦克风1采集的t1-t2时间段的语音数据的能量，并存入能量缓存队列中。按照相同的方式，车载终端还可以计算不同时间段内不同麦克风的能量并分别存入各自的缓存队列中。

则在如图3所示的逻辑示意图中，当四个唤醒引擎中任一个或多个唤醒引擎识别出第一时间段的第一语音数据中包括唤醒词，则从能量队列中获取第一语音数据在第一时间段内第一语音数据的能量。例如，若车载终端通过四个唤醒引擎，从t2-t3时间段的第一语音数据中，由唤醒引擎1识别出麦克风1在t2-t3时间段的第一语音数据中包括唤醒词、麦克风2在t2-t3时间段的第一语音数据中包括唤醒词，则车载终端需要根据第一时间段的第一语音数据确定目标麦克风。

可选地，车载终端可以只从检测到唤醒词的语音数据中，确定目标麦克风。例如，车载终端通过四个唤醒引擎，从t2-t3时间段的第一语音数据中，由唤醒引擎1识别出麦克风1在t2-t3时间段的第一语音数据中包括唤醒词、麦克风2在t2-t3时间段的第一语音数据中包括唤醒词之后，将这两个麦克风在t2-t3时间段的第一语音数据作为候选第一语音数据，并从中确定能量最大的第一语音数据对应的麦克风为目标麦克风。例如，车载终端仅从能量缓存队列中获取麦克风1在t2-t3时间段的第一语音数据的能量N1、和麦克风2在t2-t3时间段的第一语音数据的能量N2，并仅对这两个第一语音数据的能量N1和N2进行比较，若N1＞N2，则将麦克风1作为目标麦克风，随后可以根据目标麦克风进行后续处理，例如根据目标麦克风采集的t3-t4的第二时间段的第二语音数据，识别第二语音数据中的指令。

图4为本实施例提供的语音数据处理方法另一实施例的流程示意图，如图4所示的方法在如图1所示实施例的基础上，S101之前还包括：

S201：车载终端接收多个麦克风发送的第一语音数据。其中，第一语音数据是麦克风在第一时间段采集的。结合如图3所示的逻辑图，S201对应于四个麦克风将采集到的第一语音数据发送给车载终端。

S202：车载终端计算多路第一语音数据的能量，其中，车载终端可以按照如图3所示实施例中，对语音数据进行加窗计算的方式，计算出每一路第一语音数据的能量值。

S203：车载终端将计算得到的多路第一语音数据的能量值存入存储模块中。对应于如图3所示的，具体可以将能量存入存储模块的能量缓存队列中。

S204：确定第一语音数据中包括目标词汇。其中，车载终端具体可以通过如图3所示的与多路第一语音数据一一对应的唤醒引擎，确定多路第一语音数据中一路或者多路的第一语音数据中包括唤醒词。

随后，有关S101-S103的描述可参照如图2所示的实施例，其实现方式与原理相同，不再赘述。

特别地，图5为本实施例提供的语音数据的时间段示意图，其中，示出了对于多个麦克风中任一个麦克风，所采集的语音数据在如图4所示的第一时间段和第二时间段之间的关系。如图5所示，车载终端对麦克风采集的语音数据按照时间段为单位进行处理，则可理解的是，麦克风将不断采集语音数据并发送到车载终端，车载终端对接收到的语音数据进行存储，并按照时间段t1-t2、t2-t3、t3-t4……的顺序，对每个时间段的语音数据进行唤醒词的识别，并假设在如图4的S201中接收到第一时间段为t2-t3的第一语音数据，并在S204中确定第一语音数据中包括唤醒词，即可在随后的S102中，识别第二时间段为t3-t4的第二语音数据中包括的指令。可以理解的是，如图4所示的S202-S101可以在如图5所示的第一时间段的结束时刻t3之后执行。

此外，本实施例还提供一种车载终端对语音数据进行处理的方法，可用于车载终端采集语音数据时对语音数据进行预处理，即，车载终端采集到语音数据并进行预处理后，再通过本申请任一实施例中的语音数据处理方法进行处理。

例如，图6为本申请提供的语音数据方法一实施例中车载终端的处理逻辑示意图，可应用于如图1所示的智能车辆的车载终端11中。其中，如图6所示的车载终端包括：声卡数字信号处理(Digital Signal Processing，简称：DSP)和只读存储器(Read-Only Memory，简称：ROM)。声卡DSP用于与多个麦克风连接，并接收多个麦克风发送的语音数据，而在接收到多路语音数据后，声卡DSP将信号传入时分多路复用数据帧(Time-DivisionMultiplexing Slot，简称：TDM slot)，对多路语音数据进行对其处理，并将对其后的多路语音数据发送到ROM。随后，由ROM通过音频编解码器(AudioCodec)读取到对其后的多路语音数据后，通过解交织算法将音频拆分为多路语音数据，并将多路语音数据通过SSRC协议传输给上层应用类的线程(例如AudioRecord)，由AudioRecord线程执行如图4所示的逻辑中，获取多路语音数据并缓存能量，以及通过多个唤醒引擎分别识别语音数据中的唤醒词等后续处理。

在前述实施例中，对本申请实施例提供的语音数据处理方法进行了介绍，而为了实现上述本申请实施例提供的方法中的各功能，作为执行主体的车载终端可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

例如，图7为本申请提供的语音数据处理装置一实施例的结构示意图，如图7所示的装置700中包括：确定模块701、获取模块702和识别模块703。其中，确定模块701用于当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风；其中，多路第一语音数据由设置在车辆内的多个麦克风在第一时间段采集；获取模块702用于获取目标麦克风在第二时间段采集的第二语音数据；其中，第二时间段位于第一时间段之后；识别模块703用于识别第二语音数据中包括的指令。

可选地，确定模块701具体用于，从多路第一语音数据中，确定包括目标词汇的一路或多路候选第一语音数据；从一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

可选地，确定模块701具体用于，从存储模块中，获取一路或多路候选第一语音数据在第一时间段的能量；其中，存储模块用于存储多个麦克风采集的语音数据的能量；根据一路或多路候选第一语音数据能量，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

图8为本申请提供的语音数据处理装置另一实施例的结构示意图，如图8所示的装置在如图7所示实施例的基础上，还包括：计算模块801和存储模块802。在如图8所示的装置中，获取模块702还用于，获取多个麦克风在第一时间段采集的多路第一语音数据；计算模块801用于，计算多路第一语音数据在第一时间段的能量，并将多路第一语音数据在第一时间段的能量存入存储模块802。

可选地，计算模块801具体用于，按照预设时间窗口，对第一语音数据在第一时间段内进行加窗分帧处理，得到第一语音数据在第一时间段的多个频域特征；将多个频域特征的频域能量平均值，作为第一语音数据在第一时间段的能量。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示是根据本申请实施例的语音数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音数据处理方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音数据处理方法对应的程序指令/模块(例如，附图7所示的确定模块701、获取模块702和识别模块703)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音数据处理方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音数据处理方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至语音数据处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音数据处理方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与语音数据处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风；其中，所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集；

获取所述目标麦克风在第二时间段采集的第二语音数据；其中，所述第二时间段位于所述第一时间段之后；

识别所述第二语音数据中包括的指令。

2.根据权利要求1所述的方法，其特征在于，所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风，包括：

从所述多路第一语音数据中，确定包括所述目标词汇的一路或多路候选第一语音数据；

从所述一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

3.根据权利要求2所述的方法，其特征在于，所述从所述一路或多路候选第一语音数据中，确定能量最大的第一语音数据对应的麦克风为目标麦克风，包括：

从存储模块中，获取所述一路或多路候选第一语音数据在所述第一时间段的能量；其中，所述存储模块用于存储所述多个麦克风采集的语音数据的能量；

根据所述一路或多路候选第一语音数据能量，确定能量最大的第一语音数据对应的麦克风为目标麦克风。

4.根据权利要求3所述的方法，其特征在于，所述确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风之前，还包括：

获取所述多个麦克风在所述第一时间段采集的多路第一语音数据；

计算所述多路第一语音数据在所述第一时间段的能量；

将所述多路第一语音数据在所述第一时间段的能量存入存储模块。

5.根据权利要求4所述的方法，其特征在于，对于任一个第一语音数据，所述计算所述第一语音数据在所述第一时间段的能量，包括：

按照预设时间窗口，对所述第一语音数据在所述第一时间段内进行加窗分帧处理，得到所述第一语音数据在所述第一时间段的多个频域特征；

将所述多个频域特征的频域能量平均值，作为所述第一语音数据在所述第一时间段的能量。

6.根据权利要求1-5任一项所述的方法，其特征在于，识别所述第二语音数据中包括的指令，包括：

向网络设备发送所述第二语音数据；

接收所述网络设备发送的所述第二语音数据中包括的指令。

7.一种语音数据处理装置，其特征在于，包括；

确定模块，用于当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风；其中，所述多路第一语音数据由设置在车辆内的多个麦克风在所述第一时间段采集；

获取模块，用于获取所述目标麦克风在第二时间段采集的第二语音数据；其中，所述第二时间段位于所述第一时间段之后；

识别模块，用于识别所述第二语音数据中包括的指令。

8.根据权利要求7所述的装置，其特征在于，所述确定模块具体用于，

9.根据权利要求8所述的装置，其特征在于，所述确定模块具体用于，

10.根据权利要求9所述的装置，其特征在于，还包括：计算模块和存储模块；

所述获取模块还用于，获取所述多个麦克风在所述第一时间段采集的多路第一语音数据；

所述计算模块用于，计算所述多路第一语音数据在所述第一时间段的能量，并将所述多路第一语音数据在所述第一时间段的能量存入所述存储模块。

11.根据权利要求10所述的装置，其特征在于，所述计算模块具体用于，

12.根据权利要求7-11任一项所述的方法，其特征在于，所述识别模块具体用于，

向网络设备发送所述第二语音数据；

接收所述网络设备发送的所述第二语音数据中包括的指令。

13.一种智能车辆，其特征在于，包括：

多个麦克风，用于采集所述智能车辆内部的语音数据；

处理器，用于当第一时间段的语音数据包括目标词汇，确定多路第一语音数据中能量最大的第一语音数据对应的麦克风为目标麦克风，随后，获取所述目标麦克风在第二时间段采集的第二语音数据，并识别所述第二语音数据中包括的指令；其中，所述多路第一语音数据由所述多个麦克风在所述第一时间段采集，所述第二时间段位于所述第一时间段之后。

14.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。