CN113270098B

CN113270098B - 语音控制方法、车辆、云端和存储介质

Info

Publication number: CN113270098B
Application number: CN202110690389.7A
Authority: CN
Inventors: 郭华鹏; 张岩; 李智豪
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-05-13
Anticipated expiration: 2041-06-22
Also published as: EP3923271A3; CN113270098A; EP3923271A2

Abstract

本发明公开一种语音控制方法、车辆、云端以及存储介质。语音控制方法，包括：车机端获取语音指令并上传至云端；云端处理语音指令以获取相应的回复音频文件，并根据车辆场景确定时延数据并发送时延数据至车机端；车机端进行网络预言，获得预言结果；车机端根据时延数据和预言结果确定等待时长；车机端在超过等待时长没有接收到云端发送的回复音频文件的完整数据时，执行回复音频文件的合成操作，并播放合成好的回复音频文件；车机端在不超过等待时长接收到云端发送的回复音频文件的完整数据时，播放回复音频文件。上述语音控制方法，根据时延数据和预言结果确定等待时长，保证了服务的灵活性，减少网络条件不佳情况下的离线率。

Description

语音控制方法、车辆、云端和存储介质

技术领域

本发明涉及语音技术领域，特别涉及一种语音控制方法、车辆、云端和存储介质。

背景技术

在相关技术中，车辆一般通过TTS(Text to Speech)技术实现人机对话。通常地，因在线合成的音频文件音质甜美，有情感，因此当车辆需要语音回复客户时，优先通过在线合成音频文件进行播报。

然而，在网络条件不佳的情况下，容易造成网络交互时间较长，从而容易导致车辆长时间收不到云端完整音频文件，此时，车辆会执行离线合成音频文件，但这会导致用户听到的降低音质的离线音频，影响用户体验。

发明内容

本发明的实施方式提供一种语音控制方法、车辆、云端和存储介质。

本发明实施方式的一种语音控制方法，包括：车机端获取语音指令并上传至云端；

所述云端处理所述语音指令以获取相应的回复音频文件，并根据车辆场景确定时延数据并发送所述时延数据至所述车机端，所述时延数据为所述车机端是否需要对等待所述回复音频文件的默认等待时长进行调整以及调整值的数据；

所述车机端进行网络预言，获得预言结果；

所述车机端根据所述时延数据和预言结果确定等待时长；

所述车机端在超过所述等待时长没有接收到所述云端发送的所述回复音频文件的完整数据时，执行所述回复音频文件的合成操作，并播放合成好的回复音频文件；

所述车机端在不超过所述等待时长接收到所述云端发送的所述回复音频文件的完整数据时，播放所述回复音频文件。

在某些实施方式中，根据车辆场景确定时延数据并发送所述时延数据至所述车机端包括：

所述云端处理所述语音指令以获取相应的请求文本数据；

在所述请求文本数据包括预设关键字时，所述云端确定所述车辆场景为非时间敏感场景，确定所述时延数据为所述车机端需要对等待所述回复音频文件的默认等待时长进行调整及第一调整值；

在所述请求文本数据不包括预设关键字时，所述云端确定所述车辆场景为时间敏感场景，确定所述时延数据为所述车机端无需对等待所述回复音频文件的默认等待时长进行调整。

所述云端根据车速确定所述车辆场景；

在所述车速小于预设阈值时，所述云端确定所述车辆场景为非时间敏感场景，确定所述时延数据为所述车机端需要对等待所述回复音频文件的默认等待时长进行调整及第二调整值；

在所述车速不小于预设阈值时，所述云端确定所述车辆场景为时间敏感场景，确定所述时延数据为所述车机端无需对等待所述回复音频文件的默认等待时长进行调整。

在某些实施方式中，所述预言结果包括强网状态和弱网状态，根据所述时延数据和预言结果确定所述等待时长包括：

在所述强网状态时，所述车机端确定所述默认等待时长为所述等待时长；

在所述弱网状态且所述时延数据为所述车机端需要对等待所述回复音频文件的默认等待时长进行调整及调整值的数据时，所述车机端根据所述时延数据确定所述等待时长；

在所述弱网状态且所述时延数据为所述车机端无需对等待所述回复音频文件的默认等待时长进行调整时，所述车机端确定所述默认等待时长为所述等待时长。

在某些实施方式中，所述语音控制方法包括：

所述云端处理所述语音指令以得到自然语言理解结果，并根据所述自然语言理解结果合成所述回复音频文件并发送开始合成标识至所述车机端，并在所述回复音频文件合成完成时发送合成完成标识至所述车机端；

所述车机端在接收到所述开始合成标识时，进行网络预言；

所述车机端在超过所述等待时长没有接收到所述合成完成标识时，确定没有接收到所述云端发送的所述回复音频文件的完整数据；

所述车机端在不超过所述等待时长接收到所述合成完成标识时，确定接收到所述云端发送的所述回复音频文件的完整数据。

在某些实施方式中，车机端进行网络预言，获得预言结果包括：

所述车机端通过业务心跳机制进行网络预言。

在某些实施方式中，所述车机端通过业务心跳机制进行网络预言包括：

所述车机端按照预设频率发送请求报文到所述云端；

在超过一定时长没收到所述云端发送响应报文时，所述车机端确定所述预言结果为弱网状态；

在不超过一定时长收到所述云端发送响应报文时，所述车机端确定所述预言结果为强网状态。

本发明实施方式的一种车辆，包括：车身，和；

车机端，安装在所述车身，所述车机端用于：

获取语音指令并上传至云端，以使得所述云端处理所述语音指令以获得相应的回复音频文件；

接收所述云端根据车辆场景确定的时延数据，所述时延数据为所述车机端是否需要对等待所述回复音频文件的默认等待时长进行调整以及调整的数据；

进行网络预言，获得预言结果；

根据时延数据和预言结果确定所述等待时长；

在超过所述等待时长没有接收到所述云端发送的所述回复音频文件的完整数据时，执行所述回复音频文件的合成操作，并播放合成好的回复音频文件；

在不超过所述等待时长接收到所述云端发送的所述回复音频文件的完整数据时，播放所述回复音频文件。

本发明实施方式的一种云端，云端用于：获取车机端上传的语音指令，并处理所述语音指令以获取相应的回复音频文件；

在接收所述语音指令时，根据车辆场景确定时延数据并发送时延数据至所述车机端，所述时延数据为所述车机端是否需要对等待所述回复音频文件的默认等待时长进行调整以及调整值的数据，以供所述车机端根据所述时延数据和所述车机端进行网络预言获得的预言结果确定等待时长。

本发明实施方式又提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现上述任一实施方式的语音控制方法的步骤。

上述语音控制方法、车辆、云端和计算机可读存储介质，云端根据车辆场景确定时延数据，车机端可根据时延数据和网络预言结果来确定云端发送的回复音频文件的等待时长，可以针对不同的车辆场景和网络状态提高车机端接收云端的时间容忍度，云端可对特定场景进行干预，保证了服务的灵活性，动态调整回复音频的响应时延，减少网络条件不佳情况下的离线率，提升了用户体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施方式的语音控制方法的流程示意图；

图2是本发明实施方式的语音控制方法的模块示意图；

图3是本发明实施方式的语音控制方法的另一流程示意图；

图4是本发明实施方式的语音控制方法的又一流程示意图；

图5是本发明实施方式的语音控制方法的再一流程示意图；

图6是本发明实施方式的语音控制方法的再一流程示意图；

图7是本发明实施方式的语音控制方法的场景示意图；

图8是本发明实施方式的车辆的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1和图2，本发明实施方式提供的一种语音控制方法，包括：

步骤S10，车机端100获取语音指令并上传至云端200；

步骤S20，云端200处理语音指令以获取相应的回复音频文件，并根据车辆400场景确定时延数据并发送时延数据至车机端100，时延数据为车机端100是否需要对等待回复音频文件的默认等待时长进行调整以及调整值的数据；

步骤S40，车机端100进行网络预言，获得预言结果；

步骤S50，车机端100根据时延数据和预言结果确定等待时长；

步骤S60，车机端100在超过等待时长没有接收到云端200发送的回复音频文件的完整数据时，执行回复音频文件的合成操作，并播放合成好的回复音频文件；

步骤S70，车机端100在不超过等待时长接收到云端200发送的回复音频文件的完整数据时，播放回复音频文件。

上述语音控制方法，云端200根据车辆场景确定时延数据，车机端100可根据时延数据和预言结果来确定云端200发送的回复音频文件的等待时长，可以针对不同的车辆场景和网络状态提高车机端100接收云端200的时间容忍度，云端200可对特定场景进行干预，保证了服务的灵活性，动态调整回复音频的响应时延，减少网络条件不佳情况下的离线率，提升了用户体验。

具体地，相关技术中的语音控制方法，为车机端获取语音指令并上传至云端，云端处理语音指令以获取相应的回复音频文件，而云端获取相应的回复音频文件并发送至车机端需要一定时间，为了防止车机端等待云端发送的回复音频文件时间过长，影响用户体验，车机端设置默认等待时长，车机端在默认等待时长内接收到云端合成的回复音频文件，则播放该回复音频文件，若未接收到，则进行离线合成，播放离线合成的回复音频文件。然而，不同的车辆场景对车机端等待时长的要求不同，例如在用户询问当天天气状况、前方拥堵进行提醒等情况下，车机端接收云端的时间容忍度较高。

为方便理解，下面进行举例说明：在本发明一实施例中，用户问“今天天气如何”，车机端100获取语音指令“今天天气如何”并上传至云端200，云端200处理语音指令“今天天气如何”以获取相应的回复音频文件“今天天气挺暖和的”的时间为3000ms，车机端100的默认等待时长为2000ms，云端200在接收到语音指令“今天天气如何”时，根据车辆400场景确定时延数据为需要对默认等待时长2000ms进行调整以及调整值的数据为4000ms，车机端100根据时延数据和预言结果确定等待时长为4000ms，则车机端100可以在等待时长4000ms内接收到云端200发送的回复音频文件“今天天气挺暖和的”并播放“今天天气挺暖和的”。

具体地，在一个实施方式中，车机端100可以安装在车辆400上。车机端100可以是固定安装在车辆400上，车机端100也可以是可拆卸安装在车辆400上，在此不做具体限制。车辆400包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等。

云端200可以与车机端100进行有线或无线连接，以实现数据和信号传输。无线连接的方式包括但不限于WIFI、移动通信网络等。移动通信网络可包括4G、5G、6G等移动通信方式。

在一个实施方式中，云端200可以对语音指令进行自然语言理解，再根据自然语言理解的结果提供与自然语言理解的结果相应的回复文本数据。在一个实施方式中，云端200可以包括TTS(Text To Speech)云端，TTS云端可为整车厂商的服务器，或其它服务器，该服务器包括但不限于用于处理回复话术及合成回复音频文件等。

在一个实施方式中，请参阅图2，车机端100可以包括交互模块102、语音助手模块104以及离线引擎模块106。

交互模块102可包括显示屏，显示屏用于显示图形用户界面，例如控制面板界面，导航界面，音乐界面等。显示屏可以是触摸显示屏，除显示与车机终端相关的图形用户界面外，还提供用户输入的方式。用户通过触摸触摸显示屏上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中，显示屏可以包括车辆400的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆400上的按键或语音输入相关指令，进入到想要的图形用户界面。显示屏也可显示回复音频文件的文本内容，而且，显示的词与语音播报时所说的词可同步出现。

语音助手模块104用于采集用户语音并生成语音指令及播报音频，例如，语音助手模块104可包括麦克风和扬声器，语音助手模块104通过麦克风采集到用户语音并生成语音指令，发送给交互模块102，上传至云端200，云端200对该语音指令进行自然语言理解处理，获取相应的操作指令及回复文本数据。语音助手模块104可利用扬声器播放回复音频文件。

离线引擎模块106用于在车机端100超过等待时长没有接收到云端200发送的回复音频文件的完整数据时，离线合成回复音频文件，以供语音助手模块104播放。

值得注意的是，可以先进行步骤S30，再进行步骤S40，也可以先进行步骤S40，再进行步骤S30，还可以步骤S30与步骤S40一同进行，步骤S30和步骤S40的顺序在此不做具体限定。

在某些实施方式中，请参阅图3，步骤S20包括：

步骤S31：云端200处理语音指令以获取相应的请求文本数据；

步骤S32：在请求文本数据包括预设关键字时，云端200确定车辆场景为非时间敏感场景，确定时延数据为车机端100需要对等待回复音频文件的默认等待时长进行调整及第一调整值；

步骤S33：在请求文本数据不包括预设关键字时，云端200确定车辆场景为时间敏感场景，确定时延数据为车机端100无需对等待回复音频文件的默认等待时长进行调整。

如此，云端200通过确定请求文本数据是否包括预设关键字，即可确定车辆场景为时间敏感场景或非时间敏感场景，从而根据车辆场景确定时延数据，为确定等待时长提供依据。

具体的，语音指令可以是具有用户指令内容的音频，云端200可以对语音指令进行自然语言理解，再根据自然语言理解的结果提供与自然语言理解的结果相应的回复文本数据。例如：在本发明一实施方式中，语音指令为具有用户“打开空调”指令内容的音频，云端200对该语音指令进行自然语言理解，得到自然语言理解的结果“打开空调”，再根据自然语言理解的结果“打开空调”提供与自然语言理解的结果“打开空调”相应的回复文本数据“好的，已为您打开”。云端200也可根据该指令，下发打开空调的操作指令至车机端100，使车机端100控制车辆400的空调打开。

预设关键字的类型有很多种，例如，在一个实施方式中，预设关键字为“缓慢路段”，则当回复文本数据中包含“即将进入行驶缓慢路段，请减速慢行”时，确定车辆场景为非时间敏感场景，从而确定时延数据为车机端100需要对等待回复音频文件的默认等待时长进行调整，调整的第一调整值为4000ms；又如，在一实施方式中，预设关键字包括“天气”“暖和”。则当回复文本数据中包含“今天天气挺暖和的”时，确定车辆场景为非时间敏感场景，从而确定时延数据为车机端100需要对等待回复音频文件的默认等待时长进行调整，调整的第一调整值为5000ms。

值得注意的是，非时间敏感场景可以包括很多种，例如用户询问天气时，非时间敏感场景可以包括天气非时间敏感场景；又如，前方拥堵时，非时间敏感场景可以包括拥堵非时间敏感场景。可以根据不同的预设关键字确定不同的非时间敏感场景，不同的非时间敏感场景可以对应不同的第一调整值；也可以根据不同的预设关键字设置确定不同的非时间敏感场景，但将不同的非时间敏感场景设置相同的第一调整值；还可以根据不同的预设关键字设置相同的非时间敏感场景，从而确定相同的第一调整值，在此不做具体限制。

预设关键字可以由厂家在出厂前设置，也可以由用户自行设定，还可以由厂家在出厂后更新、维修等方式设置，在此不做具体限制。

在一个例子中，云端200可包括中控云端，中控云端可为整车厂商的服务器，该服务器包括但不限于用于进行自然语言理解。

在某些实施方式中，请参阅图4，步骤S20包括：

步骤S35：云端200根据车速确定车辆场景；

步骤S36：在车速小于预设阈值时，云端200确定车辆场景为非时间敏感场景，确定时延数据为车机端100需要对等待回复音频文件的默认等待时长进行调整及第二调整值；

步骤S37：在车速不小于预设阈值时，云端200确定车辆场景为时间敏感场景，确定时延数据为车机端100无需对等待回复音频文件的默认等待时长进行调整。

如此，云端200根据车速确定车辆场景为非时间敏感场景或非时间敏感场景，从而根据车辆场景确定时延数据，为确定等待时长提供依据。

具体的，预设阈值可以为5km/h、6km/h、7km/h、8km/h、9km/h、10km、15km、20km/h、30km/h等数据，其可以根据仿真、经验值等方式获取，在此不做具体限定。

第二调整值的数据可以根据预设阈值的大小、厂家根据仿真、经验值等方式获取的数据、用户的喜好等进行设定，第二调整值可以由厂家设定，也可以由用户自行设定，还可以由维修人员进行设定，在此不做具体限制。

值得说明的是，当既有第一调整值又有第二调整值时，可以将第一调整值与第二调整值相加、相乘、求和后除以二、取两者最大值、取两者最小值等方式获得时延数据的调整值的数据；当仅有第一调整值，没有第二调整值时，将第一调整值设为时延数据的调整值的数据；当仅由第二调整值，没有第一调整值时，将第二调整值设为时延数据的调整值的数据；当第一调整值以及第二调整值都没有时，即车辆场景为非时间敏感场景，则时延数据为默认等待时长。

在某些实施方式中，请参阅图5，预言结果包括强网状态和弱网状态，步骤S50包括：

步骤S51：在强网状态时，车机端100确定默认等待时长为等待时长；

步骤S52：在弱网状态且时延数据为车机端100需要对等待回复音频文件的默认等待时长进行调整及调整值的数据时，车机端100根据时延数据确定等待时长；

步骤S53：在弱网状态且时延数据为车机端100无需对等待回复音频文件的默认等待时长进行调整时，车机端100确定默认等待时长为等待时长。

如此，车机端100能够根据预言结果是强网状态还是弱网状态，确定是根据时延数据确定等待时长还是确定默认等待时长为等待时长。

具体的，当预言结果为强网状态时，云端200将处理语音指令获取的相应的回复音频文件发送至车机端100的时间较短，车机端100通常能够在强网状态下，于默认等待时长内接收到云端200合成的回复音频文件；当预言结果为弱网状态时，云端200将处理语音指令获取的相应的回复音频发送至车机端100的时间较长且难以预测，因而在时延数据为车机端100需要对等待回复音频文件的默认等待时长进行调整及调整值的数据时，车机端100根据时延数据确定等待时长既能够增加使用云端200合成的回复音频文件的概率，又可以避免车机端100等待云端200合成的回复音频文件的时间过长造成的用户体验不佳；当预言结果为弱网状态且时延数据为车机端100无需对等待回复音频文件的默认等待时长进行调整时，即当前为弱网状态且当前并非对回复时间容忍度较高的情况，因而确定默认等待时长为等待时长，避免用户等待时间过久。

值得说明的是，因为预言结果为强网状态时，无需考虑时延数据，因而可以先判断预言结果，再判断时延数据；也可以先判断时延数据，再判断预言结果；还可以时延数据与预言结果一同判断。

在某些实施方式中，语音控制方法包括：

步骤S81：云端200处理语音指令以得到自然语言理解结果，并根据自然语言理解结果合成回复音频文件并发送开始合成标识至车机端100，并在回复音频文件合成完成时发送合成完成标识至车机端100；

步骤S83：车机端100在接收到开始合成标识时，进行网络预言；

步骤S85：车机端100在超过等待时长没有接收到合成完成标识时，确定没有接收到云端200发送的回复音频文件的完整数据；

步骤S87：车机端100在不超过等待时长接收到合成完成标识时，确定接收到云端200发送的回复音频文件的完整数据。

如此，车机端100能够根据开始合成标识，开始进行网络预言，使得网络预言的结果更贴近云端200合成以及回复音频文件传输时的网络状态，提高了网络预言与实际网络状态的贴合度此外，车机端还能够根据是否在等待时长内接收到合成完成标识，判断车机端100是否在等待时长内接收到回复音频文件的完整数据，从而为是否播放云端200合成的回复音频文件提供依据，以及为是否执行回复音频文件的合成操作并播放合成好的回复音频文件提供依据。

值得说明的是，步骤S20可以包括步骤S81，即云端200处理语音指令以获取相应的回复音频文件的过程可以包括，云端200处理语音指令以得到自然语言理解结果，根据自然语言理解结果合成回复音频文件并发送开始合成标识至车机端100，并在回复音频文件合成完成时发送合成完成标识至车机端100；步骤S40可以包括步骤S83，即车机端100进行网络预言的过程可以包括车机端100在接收到开始合成标识时，进行网络预言，步骤S60可以包括步骤S85，即车机端100在超过等待时长没有接收到合成完成标识时，确定没有接收到云端200发送的回复音频文件的完整数据，从而执行回复音频文件的合成操作；步骤S70可以包括步骤S87，即车机端100在不超过等待时长接收到合成完成标识时，确定接收到云端200发送的回复音频文件的完整数据，播放回复音频文件。

在某些实施方式中，步骤S40包括：

步骤S41：车机端100通过业务心跳机制进行网络预言。

如此，车机端100通过业务心跳机制进行网络预言，获得预言结果，为确定等待时长提供依据。

具体的，在某些实施方式中，请参阅图6，步骤S41包括：

步骤S411：车机端100按照预设频率发送请求报文到云端200；

步骤S413：在超过一定时长没收到云端200发送响应报文时，车机端100确定预言结果为弱网状态；

步骤S415：在不超过一定时长收到云端200发送响应报文时，车机端100确定预言结果为强网状态。

如此，车机端100按照预设频率发送请求报文至云端200，云端200接收到请求报文后再发送响应报文至车机端100，通过判断车机端100是否在一定时长内接收到响应报文，即如果未在一定时长内接收到响应报文，则说明车机端100发送请求报文至云端200或云端200发送响应报文至车机端100的过程因网络原因有延迟；如果在一定时长内车机端100接收到响应报文，则说明当前网络状态较好，车机端100发送请求报文至云端200以及云端200发送响应报文至车机端100的过程较为顺畅。

值得说明的是，一定时长的具体数据可以根据仿真、调查等方式获得，在此就不一一列举了。

请参图7，图7所示的是，本发明实施方式的语音控制方法的一个场景图。在图7中，车机端100包括语音助手模块104、交互模块102以及离线引擎模块106。云端200可以包括TTS(Text To Speech)云端TTS云端可为整车厂商的服务器，该服务器包括但不限于用于进行自然语言理解、处理请求文本数据及合成回复音频文件等。

语音助手模块104收到用户语音请求，根据用户语音请求获得语音指令并发送至交互模块102；

交互模块102获取语音指令并上传至TTS云端；

TTS云端经过自然语音理解处理，得到用户意愿，生成请求文本数据；

TTS云端处理语音指令以获取相应的回复音频文件，并判断请求文本数据中是否包括预设关键字，从而返回包括第一调整值的时延数据至交互模块102；

TTS云端判断车速是否小于预设阈值，从而返回包括第二调整值的时延数据至交互模块102；

语音助手模块104按照预设频率发送请求报文“Ping”至TTS云端，TTS云端接收到请求报文“Ping”后发送响应报文“Pong”至语音助手模块104，根据语音助手模块104是否在一定时长内收到TTS云端发送的响应报文“Pong”，进行网络预言，获得预言结果；

语音助手模块104根据时延数据和预言结果确定等待时长；

若在等待时长内拿到完整回复音频文件，则语音助手模块104播放TTS云端合成的回复音频文件；

若超过等待时长未拿到完整回复音频文件，则语音助手模块104通过离线引擎模块106离线合成回复音频文件并播放。

以上处理完本次流程结束，本发明实施方式根据车辆场景确定时延数据，从而根据时延数据以及预言结果确定等待时长，使得针对不同的车辆场景和网络状态提高车机端100接收云端200的时间容忍度，减少网络条件不佳情况下的离线率，提升了用户体验。

请参阅图8，本发明实施方式的一种车辆400，包括：

车身402，和；

车机端100，安装在车身402，车机端100用于：

获取语音指令并上传至云端200，以使得云端200处理语音指令以获得相应的回复音频文件；

接收云端200根据车辆400场景确定的时延数据，时延数据为车机端100是否需要对等待回复音频文件的默认等待时长进行调整以及调整的数据；

进行网络预言，获得预言结果；

根据时延数据和预言结果确定等待时长；

在超过等待时长没有接收到云端200发送的回复音频文件的完整数据时，执行回复音频文件的合成操作，并播放合成好的回复音频文件；

在不超过等待时长接收到云端200发送的回复音频文件的完整数据时，播放回复音频文件。

上述车辆400进行网络预言，获得预言结果，在接收云端200根据车辆400场景确定的时延数据后，根据时延数据和预言结果来确定云端200发送的回复音频文件的等待时长，可以针对不同的车辆场景和网络状态提高车机端100接收云端200的时间容忍度，车辆400可对特定场景进行干预，保证了服务的灵活性，动态调整回复音频的响应时延，减少网络条件不佳情况下的离线率，提升了用户体验。

本发明实施方式的一种云端200，云端200用于：

获取车机端100上传的语音指令，并处理语音指令以获取相应的回复音频文件，根据车辆场景确定时延数据并发送时延数据至车机端100，时延数据为车机端100是否需要对等待回复音频文件的默认等待时长进行调整以及调整值的数据，以供车机端100根据时延数据和车机端100进行网络预言获得的预言结果确定等待时长。

上述云端200根据车辆场景确定时延数据，以供车机端100根据时延数据以及车机端100进行网络预言获得的预言结果确定等待时长，可以针对不同的车辆场景和网络状态提高车机端100接收云端200的时间容忍度，云端200可对特定场景进行干预，保证了服务的灵活性，动态调整回复音频的响应时延，减少网络条件不佳情况下的离线率，提升了用户体验。

本发明实施方式提供一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时，实现上述任一实施方式的语音控制方法的步骤。

计算机可读存储介质可设在车辆400，也可设在云端服务器。车辆400能够与云端服务器进行通讯来获取到相应的程序。可以理解，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。

计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

需要说明的是，上述对语音控制方法的实施方式和有益效果的说明，也适应于本发明实施方式的车辆400、云端200和计算机可读介质，为避免冗余，在此不再详细展开。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音控制方法，其特征在于，包括：

车机端获取语音指令并上传至云端；

所述车机端进行网络预言，获得预言结果，其中，所述车机端通过业务心跳机制进行网络预言，所述预言结果包括强网状态和弱网状态；

所述车机端根据所述时延数据和预言结果确定等待时长；

2.根据权利要求1所述的语音控制方法，其特征在于，根据车辆场景确定时延数据并发送所述时延数据至所述车机端包括：

所述云端处理所述语音指令以获取相应的请求文本数据；

3.根据权利要求1所述的语音控制方法，其特征在于，根据车辆场景确定时延数据并发送所述时延数据至所述车机端包括：

所述云端根据车速确定所述车辆场景；

4.根据权利要求1所述的语音控制方法，其特征在于，根据所述时延数据和预言结果确定所述等待时长包括：

5.根据权利要求1所述的语音控制方法，其特征在于，所述语音控制方法包括：

所述车机端在接收到所述开始合成标识时，进行网络预言；

6.根据权利要求1所述的语音控制方法，其特征在于，所述车机端通过业务心跳机制进行网络预言包括：

所述车机端按照预设频率发送请求报文到所述云端；

7.一种车辆，其特征在于，包括：

车身，和；

车机端，安装在所述车身，所述车机端用于：

接收所述云端根据车辆场景确定的时延数据，所述时延数据为所述车机端是否需要对等待所述回复音频文件的默认等待时长进行调整以及调整值的数据；

进行网络预言，获得预言结果，其中，所述车机端通过业务心跳机制进行网络预言，所述预言结果包括强网状态和弱网状态；

根据时延数据和预言结果确定所述等待时长；

8.一种云端服务器，其特征在于，所述云端服务器用于：

获取车机端上传的语音指令，并处理所述语音指令以获取相应的回复音频文件，并根据车辆场景确定时延数据并发送时延数据至所述车机端，所述时延数据为所述车机端是否需要对等待所述回复音频文件的默认等待时长进行调整以及调整值的数据，以供所述车机端根据所述时延数据和所述车机端进行网络预言获得的预言结果确定等待时长，其中，所述车机端通过业务心跳机制进行网络预言，所述预言结果包括强网状态和弱网状态。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现权利要求1-6任一项所述的语音控制方法的步骤。