CN115273818A

CN115273818A - 语音处理方法、处理装置、处理设备、车辆和介质

Info

Publication number: CN115273818A
Application number: CN202211177957.4A
Authority: CN
Inventors: 李超; 秦斌; 王刚; 刘黎
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2022-11-01
Anticipated expiration: 2042-09-27
Also published as: CN115273818B

Abstract

本公开提出一种语音处理方法、处理装置、处理设备、车辆和介质，所述方法包括：获取车载终端采集到的语音的音频数据；在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果；向服务器发送音频数据，以使服务器对音频数据执行语音处理流程得到语音处理流程中最后一个处理环节的第三处理结果；向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程得到第二处理结果；根据三个处理结果对语音进行响应。本公开通过增加第二处理结果，提高了服务器接收到音频数据和车载终端本地接收到处理结果的可能性。

Description

语音处理方法、处理装置、处理设备、车辆和介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音处理方法、处理装置、处理设备、车辆和介质。

背景技术

语音交互是车内最简洁、最人性化、最安全的交互方式，也是未来最主要的车内交互方式。随着AI（Artificial Intelligence，人工智能）和硬件性能的增强，语音交互是未来汽车的主流。语音交互主要是车载自然语音识别与语音助手。

但是，车辆在高速行驶的状态下，不同时刻的网络状态会发生明显变化，这样可能会导致语音助手无法将音频信息上传至云端服务器，以及无法接收到云端服务器发送的处理结果。

发明内容

本公开提供一种语音处理方法、处理装置、处理设备、车辆和介质，以至少解决相关技术中语音助手由于网络状态发生变化导致的无法将音频信息上传至云端服务器，以及无法接收到云端服务器发送的处理结果的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提出一种语音处理方法，包括以下步骤：

获取车载终端采集到的语音的音频数据；

在所述车载终端本地对所述音频数据执行语音处理流程，以得到所述语音处理流程中最后一个处理环节的第一处理结果，以及所述语音处理流程中至少一个中间处理环节的第一中间结果；

向服务器发送所述音频数据，以使所述服务器对所述音频数据执行所述语音处理流程，以得到所述语音处理流程中最后一个处理环节的第三处理结果；

向所述服务器发送所述至少一个中间处理环节的第一中间结果，以使所述服务器对所述第一中间结果继续执行所述语音处理流程，以得到第二处理结果；

根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应。

在本公开的一个实施例之中，所述向所述服务器发送所述至少一个中间处理环节的第一中间结果，包括：

每当所述车载终端本地执行一个所述中间处理环节完毕，向所述服务器发送已执行完毕的中间处理环节的第一中间结果。

在本公开的一个实施例之中，所述向服务器发送所述音频数据，包括：

在所述语音处理流程中最后一个处理环节执行完毕的情况下，向所述服务器发送所述音频数据。

在本公开的一个实施例之中，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应，包括：

根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，采用机器学习模型对所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果；其中，所述置信度用于指示对应处理结果与所述语音的匹配程度；

基于所述目标处理结果，对所述语音进行响应。

根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定所述目标处理结果；其中，所述置信度用于指示对应处理结果与所述语音的匹配程度；

基于所述目标处理结果，对所述语音进行响应。

在本公开的一个实施例之中，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定目标处理结果，包括：

根据所述设定规则的指示，在所述第一处理结果的置信度大于或等于阈值的情况下，将所述第一处理结果作为所述目标处理结果；和/或，

根据所述设定规则的指示，在所述第一处理结果的置信度小于所述阈值的情况下，根据所述第二处理结果和所述第三处理结果中的至少一个，确定所述目标处理结果。

在本公开的一个实施例之中，所述根据所述第二处理结果和所述第三处理结果中的至少一个，确定所述目标处理结果，包括：

在设定时间内从所述服务器获取到所述第二处理结果和所述第三处理结果中的一个处理结果，将获取到的所述一个处理结果作为所述目标处理结果。

在本公开的一个实施例之中，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，采用机器学习模型对所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果，包括：

在所述第一处理结果的置信度小于所述阈值，且在设定时间内从所述服务器获取到所述第二处理结果和所述第三处理结果中的多个处理结果，则采用所述机器学习模型对所述多个处理结果进行融合，以得到所述目标处理结果。

在本公开的一个实施例之中，所述采用所述机器学习模型对所述多个处理结果进行融合，以得到所述目标处理结果，包括：

对所述多个处理结果进行语义特征提取，以得到所述多个处理结果的语义特征；

将所述多个处理结果的语义特征，以及所述多个处理结果的置信度，输入所述机器学习模型进行融合，以得到所述机器学习模型输出的所述目标处理结果。

根据本公开的第二方面，提出了一种语音处理装置，包括：

第一获取模块，用于获取车载终端采集到的语音的音频数据；

第二获取模块，用于在所述车载终端本地对所述音频数据执行语音处理流程，以得到所述语音处理流程中最后一个处理环节的第一处理结果，以及所述语音处理流程中至少一个中间处理环节的第一中间结果；

第一发送模块，用于向服务器发送所述音频数据，以使所述服务器对所述音频数据执行所述语音处理流程，以得到所述语音处理流程中最后一个处理环节的第三处理结果；

第二发送模块，用于向所述服务器发送所述至少一个中间处理环节的第一中间结果，以使所述服务器对所述第一中间结果继续执行所述语音处理流程，以得到第二处理结果；

响应模块，用于根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应。

在本公开的一个实施例之中，所述第二获取模块向所述服务器发送所述至少一个中间处理环节的第一中间结果时，包括：

在本公开的一个实施例之中，所述第一发送模块向服务器发送所述音频数据时，包括：

在本公开的一个实施例之中，所述响应模块根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应时，包括：

基于所述目标处理结果，对所述语音进行响应。

根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定目标处理结果；其中，所述置信度用于指示对应处理结果与所述语音的匹配程度；

基于所述目标处理结果，对所述语音进行响应。

在本公开的一个实施例之中，所述响应模块根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定目标处理结果时，包括：

在本公开的一个实施例之中，所述响应模块根据所述第二处理结果和所述第三处理结果中的至少一个，确定所述目标处理结果时，包括：

在本公开的一个实施例之中，所述响应模块根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，采用机器学习模型对所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果时，包括：

在本公开的一个实施例之中，所述响应模块采用所述机器学习模型对所述多个处理结果进行融合，以得到所述目标处理结果时，包括：

根据本公开实施例的第三方面，提出了一种语音处理设备，包括：处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现第一方面实施例提出的语音处理方法。

根据本公开实施例的第四方面，提出了一种车辆，其包括第三方面实施例提出的语音处理设备。

根据本公开实施例的第五方面，提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现第一方面实施例提出的语音处理方法。

本公开实施例提供的技术方案至少带来以下有益效果：

通过本公开的实施例，先获取车载终端采集到的语音的音频数据，然后，在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果，以及向服务器发送音频数据，以使服务器对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第三处理结果，以及向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程，以得到第二处理结果，最后，根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应。本公开通过增加第二处理结果，提高了服务器接收到车载终端本地上传音频数据的可能性，以及提高了车载终端本地接收到服务器发送的处理结果的可能性。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本公开实施例的语音处理方法的流程图；

图2是根据本公开一个实施例的语音处理方法的示意图；

图3是根据本公开实施例的语音处理装置的方框示意图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的语音处理方法、处理装置、处理设备、车辆和介质。

在介绍本公开实施例的语音处理方法之前，先来介绍下相关技术的语音交互方法。

相关技术中，对语音的音频数据进行处理的方式包括：离线方式和在线方式。其中，离线方式是在没有网络的状态下对语音的音频数据进行处理，这样就无法得到需要网络状态的内容如“天气”和“音乐”等；在线方式是将音频数据进行压缩后发送到云端服务器进行处理，虽然音频虽通过压缩等手段减少了网络传输，但是仍比文字传输内容多，处理超时的可能性也更大，这样就会导致车辆无法将音频信息上传至云端服务器，以及无法接收到云端服务器发送的处理结果。

为此，本公开提出了一种语音处理方法，该方法通过增加第二处理结果，提高了服务器接收到车载终端本地上传处理结果的可能性，进一步提高了车载终端本地接收到服务器发送的处理结果的可能性。

图1是根据本公开实施例的语音处理方法的流程图。

需要说明的是，本公开实施例的语音处理方法的执行主体为语音处理装置，该装置可被配置于语音处理设备中，以使该语音处理设备可以执行语音处理的功能。

如图1所示，本公开实施例的语音处理方法，包括以下步骤：

S101，获取车载终端采集到的语音的音频数据。

例如，可以由车载终端中的语音处理设备如车载语音助手采集语音的音频数据。其中，语音的音频数据可以包括有用户的上下文数据（如历史请求和当前车辆状态等）的语音数据。

S102，在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果。

在本公开的实施例之中，语音处理流程：对音频数据进行转换以得到文本数据（简称ASR）→对文本数据进行识别以得到语音识别结果（简称NLP-Parser）→对语音识别结果进行分析以得到语义分析结果（简称NLP-Provider）。

其中，ASR包括离线ASR和在线ASR，所述离线ASR是由车载终端本地中的语音处理设备直接进行ASR，但是离线ASR的转换效果会受内存、计算等资源限制，不如在线ASR，该在线ASR是由车载终端本地中的语音处理设备将所采集的音频数据上传给服务器，由服务器进行ASR；NLP-Parser是将文本数据利用机器学习模型进行分类和意图识别，判断用户请求对应哪个任务，即可得到语音识别结果，NLP-Parser包括离线NLP-Parser和在线NLP-Parser，所述离线NLP-Parser是由车载终端本地中的语音处理设备直接进行NLP-Parser，所述在线NLP-Parser由服务器进行NLP-Parser；NLP-Provider是对语音识别结果进行语义分析，以得到对应的服务即语义分析结果，例如，播放音乐、查询天气等内容，NLP-Provider包括离线NLP-Provider和在线NLP-Provider，该离线NLP-Provider是由车载终端本地中的语音处理设备直接进行NLP-Provider，所述在线NLP-Provider是由服务器进行NLP-Provider。

步骤S102的执行过程包括，由车载终端本地中的语音处理设备完成音频数据的采集后，继续由车载终端本地中的语音处理设备执行，以得到第一处理结果，该处理过程为：离线ASR→离线NLP-Parser→离线NLP-Provider。

步骤S102的执行过程还包括，由车载终端本地中的语音处理设备完成音频数据的采集后，继续由车载终端本地中的语音处理设备执行ASR，便可以得到离线ASR处理后得到的文本数据，或者，继续由车载终端本地中的语音处理设备执行ASR、NLP-Parser，便可以得到离线ASR→离线NLP-Parser处理后得到的语音识别结果，其中，离线ASR处理后得到的文本数据和离线ASR→离线NLP-Parser处理后得到的语音识别结果为语音处理流程中的中间处理环节的第一中间结果。

S103，向服务器发送音频数据，以使服务器对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第三处理结果。

步骤S103的执行过程包括，由车载终端本地中的语音处理设备完成音频数据的采集后，将音频数据上传至服务器，由服务器对音频数据执行语音处理流程，以得到第三处理结果，该处理过程为：在线ASR→在线NLP-Parser→在线NLP-Provider。

也就是说，步骤S103是在语音处理流程中最后一个处理环节执行完毕的情况下，再向语音处理设备发送处理结果，这样可以在车辆有网络的情况下，由车载终端本地将音频数据上传至服务器，由服务器对音频数据进行处理。

S104，向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程，以得到第二处理结果。

步骤104的执行过程包括，由车载终端本地中的语音处理设备完成音频数据的采集后，继续由车载终端本地中的音频数据对采集到的音频数据进行ASR，即离线ASR，之后发送给服务器，由服务器继续执行NLP-Parser和NLP-Provider，即在线NLP-Parser和在线NLP-Provider，以得到第二处理结果中的一个处理结果，该处理过程为：离线ASR→在线NLP-Parser→在线NLP-Provider；或者，由车载终端本地中的语音处理设备完成音频数据的采集后，继续由车载终端本地对采集得到的音频数据进行ASR和NLP-Parser，即离线ASR和离线NLP-Parser，之后发送给服务器，由服务器执行NLP-Provider，即在线NLP-Provider，以得到第二处理结果的另一个处理结果，该处理过程为：离线ASR→离线NLP-Parser→在线NLP-Provider。即言，每当车载终端本地执行一个中间处理环节完毕，向服务器发送已执行完毕的中间处理环节的第一中间结果，即可得到两个不同的第二处理结果。

S105，根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应。

在本公开的实施例之中，可以将由车载终端本地中的语音处理设备完整的执行语音处理过程称为离线通路，将包含有服务器执行的语音处理过程称为在线通路，参见图2，整个语音处理过程如下：

离线通路：

a）由车载终端本地中的语音处理设备收集语音的音频数据，之后可以将语音的音频数据上传给服务器，同时发送给本地语音处理设备；

b）由本地语音处理设备对音频数据进行离线ASR，以得到文本数据，之后可以将离线ASR得到的文本数据上传给服务器，同时发送给本地语音处理设备；

c）由本地语音处理设备对离线ASR得到的文本数据进行离线NLP-Parser，以得到语音识别结果，之后可以将离线NLP-Parser得到语音识别结果上传给服务器，同时发送给本地语音处理设备；

d）由本地语音处理设备对离线NLP-Parser得到语音识别结果进行离线NLP-Provider，以得到语义分析结果，即第一处理结果。

在线通路：

a）服务器接收到车载终端本地中语音处理设备上传的音频数据后，对音频数据进行在线处理，即在线ASR、在线NLP-Parser和在线NLP-Provider，这个处理过程是完整的在线通路，即在线ASR→在线NLP-Parser→在线NLP-Provider，通过该在线通路可以得到第三处理结果；

b）服务器接收到车载终端本地中语音处理设备发送的离线ASR得到的文本结果后，由服务器对离线ASR得到的文本结果依次进行在线NLP-Parser和在线NLP-Provider，这个处理过程也称为在线通路，即离线ASR→在线NLP-Parser→在线NLP-Provider，通过该在线通路可以得到第二处理结果中的一个处理结果；

c）服务器接收到车载终端本地中语音处理设备发送的离线NLP-Parser得到的语音识别结果后，由服务器对离线NLP-Parser得到的语音识别结果进行在线NLP-Provider，这个处理过程也称为在线通路，即离线ASR→离线NLP-Parser→在线NLP-Provider，通过该在线通路可以得到第二处理结果中的另一个处理结果。

然后，利用设定规则和/或机器学习模型对采用离线通路得到的一个处理结果和采用在线通路得到的三个处理结果进行融合，以得到融合结果，即可得到最后给用户展现（图形界面展现和语音回复展现）的结果。

由此，车辆在高速行驶的状态下，在不同时刻可以把音频数据、语音识别结果和语义分析结果上传给服务器，这样使得服务器可以按时处理。本公开的实质优势是增加了以下两个处理通路（离线ASR→在线NLP-Parser→在线NLP-Provider和离线ASR→离线NLP-Parser→在线NLP-Provider），从而提高了服务器收到车载终端本地上传结果的可能性和车载终端本地接收到处理结果的可能性。另外，由于这两条处理通路均是对音频数据进行的离线ASR，这样上传至服务器的文本数据的数据量大大减小，如小于直接将原始的音频数据上传至服务器，这样也会提高服务器处理用户请求的速度。

下面先介绍利用机器学习模型对采用离线通路得到的一个处理结果和采用在线通路得到的三个处理结果进行融合，以得到融合结果的过程。

在本公开的一个实施例之中，根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应，包括：根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，采用机器学习模型对第一处理结果、第二处理结果和第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果，其中，置信度用于指示对应处理结果与语音的匹配程度；基于目标处理结果，对语音进行响应。

在本公开的一个实施例之中，根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，采用机器学习模型对第一处理结果、第二处理结果和第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果，包括：在第一处理结果的置信度小于阈值，且在设定时间内从服务器获取到第二处理结果和第三处理结果中的多个处理结果，则采用机器学习模型对多个处理结果进行融合，以得到目标处理结果。

在本公开的一个实施例之中，采用机器学习模型对多个处理结果进行融合，以得到目标处理结果，包括：对多个处理结果进行语义特征提取，以得到多个处理结果的语义特征；将多个处理结果的语义特征，以及多个处理结果的置信度，输入机器学习模型进行融合，以得到机器学习模型输出的目标处理结果。

在该实施例中，如果离线通路的处理结果的置信度满足要求（如大于或等于阈值），且其它处理结果不依赖在线NLP-Provider，可以将离线通路得到的第一处理结果作为目标处理结果，这样不需要等待在线通路的三个处理结果。

如果采用离线通路得到的第一处理结果的置信度不满足要求（如小于阈值），且在设定时间内获取到了多个包含有在线NLP-Provider的在线通路返回的处理结果中至少一个处理结果，则对多个处理结果进行特征提取，以得到多个处理结果的语义特征，并将多个处理结果的语义特征，以及多个处理结果的置信度，输入到一个排序的机器学习模型中，挑选最优的处理结果作为目标处理结果。

下面再介绍利用设定规则对离线通路的一个处理结果和在线通路的三个处理结果进行融合，以得到融合结果的过程。

在本公开的一个实施例之中，根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应，包括：根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，依据设定规则从第一处理结果、第二处理结果和第三处理结果中确定目标处理结果，其中，置信度用于指示对应处理结果与语音的匹配程度；基于目标处理结果，对语音进行响应。

在本公开的一个实施例之中，根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，依据设定规则从第一处理结果、第二处理结果和第三处理结果中确定目标处理结果，包括：根据设定规则的指示，在第一处理结果的置信度大于或等于阈值的情况下，将第一处理结果作为目标处理结果；和/或，根据设定规则的指示，在第一处理结果的置信度小于阈值的情况下，根据第二处理结果和第三处理结果中的至少一个，确定目标处理结果。

在该实施例中，如果采用离线通路得到的第一处理结果的置信度满足要求（如大于或等于阈值），且采用离线通路得到的第一处理结果不依赖在线NLP-Provider的内容，即直接将采用离线通路得到的第一处理结果作为目标处理结果，这样不需要等待采用在线通路的处理结果。

如果采用离线通路得到的第一处理结果的置信度不满足要求（如小于阈值），或者其它处理结果需要依赖在线NLP-Provier，则需要在包含有在线NLP-Provier的在线通路得到的处理结果中选取目标处理结果。例如，可以在设定时间内从服务器中获取第二处理结果和第三处理结果中的一个处理结果，作为目标处理结果。

综上所述，本公开实施例的语音处理方法，先获取车载终端采集到的语音的音频数据，然后，在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果，以及向服务器发送音频数据，以使服务器对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第三处理结果，以及向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程，以得到第二处理结果，最后，根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应。本公开通过增加第二处理结果，提高了服务器接收到车载终端本地上传音频数据的可能性，以及提高了车载终端本地接收到服务器发送的处理结果的可能性。

图3是根据本公开实施例的语音处理装置的方框示意图。

需要说明的是，本公开实施例的语音处理装置用于执行上述的语音处理方法，其中，该语音处理装置可设置于语音处理设备中。

如图3所示，本公开实施例的语音处理装置300，包括：

第一获取模块310，用于获取车载终端采集到的语音的音频数据；

第二获取模块320，用于在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果；

第一发送模块330，用于向服务器发送音频数据，以使服务器对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第三处理结果；

第二发送模块340，用于向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程，以得到第二处理结果；

响应模块350，用于根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应。

在本公开的一个实施例之中，第二获取模块320向服务器发送至少一个中间处理环节的第一中间结果时，包括：

每当车载终端本地执行一个中间处理环节完毕，向服务器发送已执行完毕的中间处理环节的第一中间结果。

在本公开的一个实施例之中，第一发送模块330向服务器发送音频数据时，包括：

在语音处理流程中最后一个处理环节执行完毕的情况下，向服务器发送音频数据。

在本公开的一个实施例之中，响应模块350根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应时，包括：

根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，采用机器学习模型对第一处理结果、第二处理结果和第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果，其中，置信度用于指示对应处理结果与语音的匹配程度；

基于目标处理结果，对语音进行响应。

根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，依据设定规则从第一处理结果、第二处理结果和第三处理结果中确定目标处理结果；其中，置信度用于指示对应处理结果与语音的匹配程度；

基于目标处理结果，对语音进行响应。

在本公开的一个实施例之中，响应模块350根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，依据设定规则从第一处理结果、第二处理结果和第三处理结果中确定目标处理结果时，包括：

根据设定规则的指示，在第一处理结果的置信度大于或等于阈值的情况下，将第一处理结果作为目标处理结果；和/或，

根据设定规则的指示，在第一处理结果的置信度小于阈值的情况下，根据第二处理结果和第三处理结果中的至少一个，确定目标处理结果。

在本公开的一个实施例之中，响应模块350根据第二处理结果和第三处理结果中的至少一个，确定目标处理结果时，包括：

在设定时间内从服务器获取到第二处理结果和第三处理结果中的一个处理结果，将获取到的一个处理结果作为目标处理结果。

在本公开的一个实施例之中，响应模块350根据第一处理结果、第二处理结果和第三处理结果分别对应的置信度，采用机器学习模型对第一处理结果、第二处理结果和第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果时，包括：

在第一处理结果的置信度小于阈值，且在设定时间内从服务器获取到第二处理结果和第三处理结果中的多个处理结果，则采用机器学习模型对多个处理结果进行融合，以得到目标处理结果。

在本公开的一个实施例之中，响应模块350采用机器学习模型对多个处理结果进行融合，以得到目标处理结果时，包括：

对多个处理结果进行语义特征提取，以得到多个处理结果的语义特征；

将多个处理结果的语义特征，以及多个处理结果的置信度，输入机器学习模型进行融合，以得到机器学习模型输出的目标处理结果。

需要说明的是，本公开实施例的语音处理装置中未披露的细节，请参考本公开实施例的语音处理方法中所披露的细节，具体这里不再赘述。

根据本公开实施例的语音处理装置，通过第一获取模块获取车载终端采集到的语音的音频数据，通过第二获取模块在车载终端本地对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第一处理结果，以及语音处理流程中至少一个中间处理环节的第一中间结果，通过第一发送模块向服务器发送音频数据，以使服务器对音频数据执行语音处理流程，以得到语音处理流程中最后一个处理环节的第三处理结果，通过第二发送模块向服务器发送至少一个中间处理环节的第一中间结果，以使服务器对第一中间结果继续执行语音处理流程，以得到第二处理结果，通过响应模块根据第一处理结果、第二处理结果和第三处理结果中的至少一个，对语音进行响应。本公开的装置通过增加第二处理结果，提高了服务器接收到车载终端本地上传音频数据的可能性，以及提高了车载终端本地接收到服务器发送的处理结果的可能性。

基于上述实施例，本公开还提出了一种语音处理设备，其包括：处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现上述的语音处理方法。

基于上述实施例，本公开还提出了一种车辆，其包括上述的语音处理设备。

基于上述实施例，本公开还提出了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的语音处理方法。

基于上述实施例，本公开还提出了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行上述的语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音处理方法，其特征在于，包括以下步骤：

获取车载终端采集到的语音的音频数据；

2.根据权利要求1所述的方法，其特征在于，所述向所述服务器发送所述至少一个中间处理环节的第一中间结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述向服务器发送所述音频数据，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应，包括：

基于所述目标处理结果，对所述语音进行响应。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少一个，对所述语音进行响应，包括：

基于所述目标处理结果，对所述语音进行响应。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，依据设定规则从所述第一处理结果、所述第二处理结果和所述第三处理结果中确定目标处理结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二处理结果和所述第三处理结果中的至少一个，确定所述目标处理结果，包括：

8.根据权利要求4所述的方法，其特征在于，所述根据所述第一处理结果、所述第二处理结果和所述第三处理结果分别对应的置信度，采用机器学习模型对所述第一处理结果、所述第二处理结果和所述第三处理结果中的至少两个处理结果进行融合，以得到目标处理结果，包括：

在所述第一处理结果的置信度小于阈值，且在设定时间内从所述服务器获取到所述第二处理结果和所述第三处理结果中的多个处理结果，则采用所述机器学习模型对所述多个处理结果进行融合，以得到所述目标处理结果。

9.根据权利要求8所述的方法，其特征在于，所述采用所述机器学习模型对所述多个处理结果进行融合，以得到所述目标处理结果，包括：

10.一种语音处理装置，其特征在于，包括：

11.一种语音处理设备，其特征在于，包括：处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-9中任一项所述的语音处理方法。

12.一种车辆，其特征在于，包括：如权利要求11所述的语音处理设备。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9中任一项所述的语音处理方法。