CN114005448A

CN114005448A - 语音交互方法及其装置、模型训练方法、车辆和存储介质

Info

Publication number: CN114005448A
Application number: CN202111625845.6A
Authority: CN
Inventors: 王亭玉; 潘晓彤; 樊骏锋; 赵群; 宁洪珂; 赵恒艺
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-02-01

Abstract

本发明公开了一种语音交互方法及其装置、模型训练方法、车辆和可读存储介质。该语音交互方法包括：接收对车辆预设功能调节的语音请求，预设功能指模拟对车辆零部件的操作进行刻度调节的功能；若车辆的网络连接状态处于异常状态，则在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别；利用车辆上的精度识别模型对语音请求进行精度识别；根据意图识别结果和精度识别结果生成第一控制指令；执行第一控制指令对应的操作。本发明的语音交互方法可以使一些高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

Description

语音交互方法及其装置、模型训练方法、车辆和存储介质

技术领域

本发明涉及语音技术领域，特别涉及一种语音交互方法及其装置、模型训练方法、车辆和存储介质。

背景技术

目前在智能汽车场景中，存在着语音交互可以实现用户对车辆零部件设备的控制。

在无网状态下，用户也会有一些高频的需求需要被执行的情况，但是由于无网的原因导致不能请求在线流程，因此用户的高频语音请求在无网状态下许多操作不能得到响应，影响用户的体验。例如，在隧道中，相对于开阔环境较为闭塞，噪音大，光线暗，用户有增大导航声音和调节屏幕亮度的高频需求，此时由于弱网环境，用户的需求不能得到及时的反馈，影响用户的体验。

发明内容

本发明实施方式提供一种语音交互方法及其装置、模型训练方法、车辆和存储介质。

本发明实施方式提供一种语音交互方法。所述语音交互方法包括：接收对车辆预设功能调节的语音请求，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；若车辆的网络连接状态处于异常状态，则在所述语音请求的使用频率高于第一预设频率的情况下，利用所述车辆上的意图识别模型对所述语音请求进行意图识别；利用所述车辆上的精度识别模型对所述语音请求进行精度识别；根据所述意图识别结果和所述精度识别结果生成第一控制指令；执行所述第一控制指令对应的操作。

如此，本发明的语音交互方法可以在车辆的网络连接状态处于异常状态时，在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别，并利用车辆上的精度识别模型对语音请求进行精度识别，然后，根据意图识别结果和精度识别结果生成第一控制指令，最后执行第一控制指令对应的操作，使一些高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

所述模型训练方法包括：根据所述车辆零部件确定每个所述车辆零部件的默认调节范围。

如此，本发明的模型训练方法可以根据车辆零部件确定每个车辆零部件的默认调节范围，为实现根据用户精简语音请求精确调节用户需要的车辆零部件的刻度奠定基础。

所述根据所述意图识别结果和所述精度识别结果生成第一控制指令，包括：根据所述意图识别的结果确定所述语音请求对应的目标意图；根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值；根据所述目标意图和所述目标刻度调节精度值修改默认值；将所述目标意图和修改后的所述默认值融合生成所述第一控制指令。

如此，根据意图识别的结果确定语音请求对应的目标意图，并根据精度识别的结果确定语音请求对应的目标刻度调节精度值以修改默认值；将目标意图和修改后的默认值融合生成第一控制指令，从而实现根据用户精简语音请求精确调节用户需要的车辆零部件的刻度的效果，提升用户体验。

所述根据所述意图识别的结果确定所述语音请求对应的目标意图，包括：获取所述意图识别的结果对应各个预设意图的意图判别概率；将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述目标意图。

如此，可以获取意图识别的结果对应各个预设意图的意图判别概率，将意图判别概率大于第一概率阈值的一个预设意图确定为语音请求对应的目标意图，从而实现识别用户精准调节车辆零部件的意图。

所述预设意图包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。

如此，设置了多种预设意图可以进一步为识别用户的语音交互意图奠定基础，完善可能遇到的语音交互场景。

所述根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值，包括：获取所述精度识别的结果对应各个预设刻度调节精度值的精度判别概率；将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值，确定为所述目标刻度调节精度值。

如此，本发明的语音交互方法可以获取精度识别的结果对应各个预设刻度调节精度值的精度判别概率，确定精度判别概率大于第二概率阈值的预设刻度调节精度值为目标刻度调节精度值，从而进行精确的刻度调节。

所述语音交互方法包括：在所述语音请求的使用频率高于第二预设频率的情况下，根据语音请求与控制指令的端到端识别结果生成第二控制指令；执行所述第二控制指令对应的操作。

如此，在语音请求的使用频率高于第二预设频率的情况下，根据语音请求与控制指令的端到端识别结果生成第二控制指令，从而执行第二控制指令对应的操作，即对于精度需求常用高频语音请求建立端到端识别结果，可以在无网状态下对于高频语音请求建立快速的响应，不需要请求线上云端数据，节省大量的时间，车机端响应加快。

所述语音交互方法包括：在所述语音请求的使用频率不高于所述第一预设频率的情况下，将所述语音请求发送至服务器；接收所述服务器根据所述语音请求下发的第三控制指令；执行所述第三控制指令对应的操作。

如此，在语音请求的使用频率不高于第一预设频率的情况下，将语音请求发送至服务器，接收服务器根据语音请求下方的第三控制指令，并执行第三控制指令对应的操作，即，非高频语音请求在网络较弱的情况下可以通过服务器进行意图识别和精度识别，实现非高频语音请求中对应精度的调节。

所述语音交互方法包括：若车辆的网络连接状态处于正常状态，将所述语音请求发送至服务器；接收所述服务器根据所述语音请求下发的第四控制指令；执行所述第四控制指令对应的操作。

如此，若车辆的网络连接状态处于正常状态，则将语音请求发送至服务器，接收服务器根据语音请求下发的第四控制指令，并执行第四控制指令对应的操作，可以实现在网络连接状态为正常状态下，实现语音请求在有网的情况下快速实时响应。

本发明还提供一种模型训练方法，用于训练得到上述实施方式中任一项所述的语音交互方法中的意图识别模型和精度识别模型。所述模型训练方法包括：通过意图训练数据训练得到所述意图识别模型，所述意图训练数据与车辆零部件和所述车辆零部件的可调节范围相关；通过精度训练数据训练得到所述精度识别模型，所述精度训练数据与所述车辆零部件、所述车辆零部件的可调节范围和所述车辆零部件的刻度调节精度范围相关。

如此，本发明的模型训练方法可以通过意图训练数据训练得到意图识别模型，进而根据意图识别模型进行意图识别，实现精确识别用户的意图。另外，本发明的模型训练方法可以通过精度训练数据训练得到精度识别模型，根据精度识别模型对语音请求进行精度识别，可以确定语音请求对应的刻度调节精度值。

所述模型训练方法包括：确定所述车辆零部件的控制范围。

如此，本发明的模型训练方法可以确定车辆零部件的可控制范围，可为后续根据语音请求精确调节车辆零部件的刻度提供基础。

本发明还提供一种语音交互装置。所述语音交互装置包括：接收模块、意图识别模块、精度识别模块、控制指令生成模块和执行模块。所述接收模块用于接收对车辆预设功能调节的语音请求，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；所述意图识别模块用于若车辆的网络连接状态处于异常状态，则在所述语音请求的使用频率高于第一预设频率的情况下，利用所述车辆上的意图识别模型对所述语音请求进行意图识别；所述精度识别模块用于利用所述车辆上的精度识别模型对所述语音请求进行精度识别；所述控制指令生成模块用于根据所述意图识别结果和所述精度识别结果生成第一控制指令；所述执行模块用于执行所述第一控制指令对应的操作。

本发明还提供一种车辆。所述车辆包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述实施方式中任一项所述的语音交互方法。

如此，本发明的车辆可以在车辆的网络连接状态处于异常状态时，在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别，并利用车辆上的精度识别模型对语音请求进行精度识别，然后，根据意图识别结果和精度识别结果生成第一控制指令，最后执行第一控制指令对应的操作，使一些高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，实现上述实施方式中任一项所述的语音交互方法和/或上述实施方式中任一项所述的模型训练方法。

如此，本发明的计算机可读存储介质可以在车辆的网络连接状态处于异常状态时，在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别，并利用车辆上的精度识别模型对语音请求进行精度识别，然后，根据意图识别结果和精度识别结果生成第一控制指令，最后执行第一控制指令对应的操作，使一些高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

本发明实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明的语音交互方法的流程示意图之一；

图2是本发明的语音交互装置的结构示意图之一；

图3是本发明的模型训练方法的流程示意图；

图4是本发明的模型训练装置的结构示意图；

图5是本发明的语音交互方法的流程示意图之二；

图6是本发明的语音交互装置中第一控制指令生成模块的结构示意图；

图7是本发明的语音交互方法的流程示意图之三；

图8是本发明的语音交互装置中意图确定单元的结构示意图；

图9是本发明的语音交互方法的流程示意图之四；

图10是本发明的语音交互装置中精度确定单元的结构示意图；

图11是本发明的语音交互方法的流程示意图之五；

图12是本发明的语音交互装置的结构示意图之二；

图13是本发明的语音交互方法的流程示意图之六；

图14是本发明的语音交互装置的结构示意图之三；

图15是本发明的语音交互方法的流程示意图之七；

图16是本发明的车辆的结构示意图；

图17是本发明的计算机可读存储介质的结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1，本发明提供了一种语音交互方法。该语音交互方法包括：

01：接收对车辆预设功能调节的语音请求，预设功能指模拟对车辆零部件的操作进行刻度调节的功能；

03：若车辆的网络连接状态处于异常状态，则在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别；

05：利用车辆上的精度识别模型对语音请求进行精度识别；

07：根据意图识别结果和精度识别结果生成第一控制指令；

09：执行第一控制指令对应的操作。

请参阅图2，本发明还提供一种语音交互装置10。语音交互装置10包括：接收模块11、意图识别模块13、精度识别模块15、第一控制指令生成模块17和执行模块19。

步骤01可以由接收模块11实现，步骤03可以由意图识别模块13实现，步骤05可以由精度识别模块15实现，步骤07可以由第一控制指令生成模块17实现，步骤09可以由执行模块19实现。也即是说，接收模块11用于接收对车辆预设功能调节的语音请求，预设功能指模拟对车辆零部件的操作进行刻度调节的功能；意图识别模块13用于若车辆的网络连接状态处于异常状态，则在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别；精度识别模块15用于利用车辆上的精度识别模型对语音请求进行精度识别；第一控制指令生成模块17用于根据意图识别结果和精度识别结果生成第一控制指令；执行模块19用于执行第一控制指令对应的操作。

具体地，车辆预设功能调节的语音请求例如可以为“屏幕亮亮亮”、“音量大大大”、“屏幕亮亮亮亮”、“空调风量大大大”、“座椅后后后”，即为带有精简词的语音请求。其中，预设功能指模拟对车辆零部件的操作进行刻度调节的功能，其中的车辆零部件可以指机械旋钮或按钮等部件，这些是可以进行调节刻度的车辆零部件。

可以理解地，语音请求的使用频率可以分为高频语音请求、较高频语音请求和非高频语音请求。例如车辆在隧道中，常有导航音量调大以及屏幕调亮的需求，可将导航音量调大以及屏幕调亮的需求下的语音请求划分为高频语音请求。另外，对于车辆在隧道中，也常有座椅调节类、风量温度控制类的需求，可将座椅调节类、风量温度控制类的需求下的语音请求划分为较高频语音请求。对于车辆的氛围灯等的需求，可将车辆的氛围灯等的需求的相关语音请求划分为非高频语音请求。也即是，在网络异常的情况下，使用频率最高的语音请求为高频语音请求，使用频率较高的语音请求为较高频语音请求，使用频率最低的语音请求为非高频语音请求。

其中，使用频率高于第一预设频率的语音请求为较高频语音请求。第一预设频率可以是车辆系统默认的数值，也可以是用户自行设置的数值，在此不作限制。

若车辆的网络连接状态处于异常状态，则在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别，可以使较高频语音请求在无网状态下可以快速实时识别用户的语音请求对应的调节的意图，提升用户体验。

另外，在车辆的网络连接状态处于异常状态时，还可以利用车辆上的精度识别模型对语音请求进行精度识别，可以使高频语音请求在无网状态下可以快速实时识别用户的语音请求对应的调节精度，提升用户体验。可以理解地，对用户的指令进行离线的导航地图放大的指令识别，一方面降低了车机端相关芯片的使用率，另一方面提升了整体的意图识别效果，精度识别效果；另一方面可以实现在离线时进行意图到默认值转换，使得车机端能够正确接受相关语音请求并执行。

首先，在接收到用户对于车辆预设功能调节的语音请求后，通过语音识别技术进行语音识别，得到待识别文本以便后续处理，例如，对用户输入的语音请求“屏幕亮亮亮”进行语音识别，得到待识别文本“屏幕亮亮亮”。

可以理解地，在实际交互环境中，可能受车辆硬件限制，用户表述口语化或者方言化等原因，导致语音识别后得到的待识别文本不够清晰准确，需要通过预处理进行一些常规文本纠错，比如“音量深深深深深”纠正为“音量增增增增增”，以及一些无意义词语的去除等，比如“啊”，“请”等。

如此，利用车辆上的意图识别模型语音请求进行意图识别，利用车辆上的精度识别模型语音请求进行精度识别。语音请求经过意图识别和精度识别可以确定用户的意图和刻度调节精度值。

最后，根据意图识别结果和所精度识别结果生成第一控制指令，执行第一控制指令对应的操作。也即是，可以在车辆的网络连接状态处于异常状态时，根据用户语音请求对应识别得到的第一控制指令进行操作，从而使一些较高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

综上，本发明的语音交互方法可以使一些较高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

语音交互方法包括：确定车辆零部件控制范围及非控制范围。语音交互装置10用于确定车辆零部件控制范围及非控制范围。

可以理解地，车辆并非所有功能的调节都可以、能够或有需要进行精准的刻度调节。例如，座椅在各个方向上的移动可以通过车辆零部件进行调节。而车门则没有类似旋钮、按键等车辆零部件来实现刻度调节，而通常仅通过车门把手进行开关。因此，座椅调节是属于车辆零部件的控制范围、而车门调节则属于车辆零部件的非控制范围。

获取车辆零部件的信息，根据车辆零部件的信息，确定可通过车辆零部件进行刻度调节的硬件，确定为车辆零部件的控制范围，将不可通过车辆零部件进行调节的硬件确定为非控制范围。

首先，确定在车辆上可以进行刻度调节的车辆零部件，例如：“音量旋钮”，“屏幕亮度按钮”，“空调风量旋钮/按钮”，“座椅调节旋钮/按钮”等。进一步，确定车辆零部件的控制范围可包括：车载音响、车辆内的屏幕、车辆空调、车辆座椅、车内的氛围灯、车辆外部的车灯、或车窗等。车辆零部件的非控制范围可包括：车门、后视镜、后备箱等。

在后续语音交互的过程中，可在语音请求针对车辆零部件的非控制范围的情况下进行语音提示。

如此，通过收集车辆零部件信息，确认可通过车辆零部件进行刻度调节的功能，从而确定车辆零部件的控制范围，也即是可通过语音交互进行刻度调节的控制范围。

语音交互方法包括：确定车辆零部件的可调节范围。语音交互装置10用于确定车辆零部件的可调节范围。

在确定车辆零部件的控制范围和非控制范围后，需要针对控制范围中的每一个车辆零部件确定可调节范围。车辆零部件的可调节范围与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件，可调节范围可以是档位或量程。例如，屏幕亮度按钮累计连续按压5次，屏幕亮度依次调整1至5个档位的亮度至最大亮度，则该屏幕亮度按钮的可调节范围为1至5个档位。又如，对座椅进行前后调节的旋钮的总刻度值为90，则该座椅调节旋钮的可调节范围为刻度值1~90。

语音交互方法还包括：根据车辆零部件的可调节范围，纠正预设语音请求的意图。语音交互装置10用于根据车辆零部件的可调节范围，纠正预设语音请求的意图。

根据车辆零部件的可调节范围，对传统逻辑下将“音量大大大”的精简语音请求识别成“最大”“最小”意图的语音请求进行意图纠正，在精简词符合条件的情况下纠正为相对应的调大调小意图。

如此，可以在原先的传统逻辑的基础上达到用户指令中真正的精确调节的目的。

语音交互方法包括：将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度值。语音交互装置10用于将控制范围和可调节范围映射到预设意图和对应的预设刻度调节精度值。

将车辆零部件的控制范围和每个车辆零部件的可调节范围，映射到意图识别模型所能够理解的意图体系。针对车辆零部件的控制范围中的对象和对应的车辆零部件的可调节范围均制定一个相应的预设意图。例如：system_volume_up代表着预设意图“音量调大”和system_volume_down代表着预设意图“音量调小”。从而针对零部件控制范围和车辆零部件的可调节范围制定了一套具体的意图映射体系。

对于预设刻度调节精度，例如，语音交互模拟对车辆零部件的操作时音量每次调节3个刻度值，总刻度值为60，则预设刻度调节精度范围可以为1~20。又例如，语音交互模拟对车辆零部件的操作时座椅前后每次调节18个刻度，总刻度值为90，则预设刻度调节精度范围为1~5。

具体地，语音交互装置10可以将控制范围内每个车辆零部件的可调节范围，映射到一个预设意图，每个预设意图对应多个预设刻度调节精度值。其中，每个车辆零部件的可调节范围包括多个档位或多个刻度值，在建立映射时需要将对应每个车辆部件的可调节范围都映射到同一个预设意图。例如，空调风量调节按键的可调节范围包括5个档位，对应风量增大的语音请求的说法可包括从“风量大”到“风量大大大大大”共5个，需要将这5个风量调大的说法都映射到同一个预设意图，即风量调大。

如此，在语音交互过程中，使得对于同一车辆零部件不同调节刻度的语音请求都对应到相同的预设意图。

一个预设意图对应多个预设刻度调节精度值，例如“将车载音响的音量调大”的预设意图可以对应20个预设刻度调节精度值，若音量旋钮的可调节范围为60，即调节音量的总刻度为60，则每个预设刻度调节精度值对应调节的刻度值为3个刻度，也即是，每调节一个预设刻度调节精度值代表调节3个刻度。20个预设刻度调节精度值分别为：调节音量增大3个刻度，其对应语音请求为“音量大”；调节音量增大6个刻度，其对应语音请求为“音量大大”；调节音量增大9个档位，其对应语音请求为“音量大大大”……。

在本发明的其他实施例中，在用户允许的情况下可以关于同样预设意图对应收集不同的用户指令，如关于“音量大大大”的说法，用户可以有不同自由度的展开，如“音量增增增”，“音量升升升”，“音量高高高”，识别不同的展开词所识别得到的意图均为将音量调大。

语音交互方法包括：确定每个车辆零部件的默认调节范围。语音交互装置10用于确定每个车辆零部件的默认调节范围。

确定某个车辆零部件下的默认调节范围。例如，当需要调节的设备为车载音响时，语音请求模拟车辆零部件控制音量每次调节的默认值可以为3，若对应的调节音量的车辆零部件共有60个刻度，则默认调节范围为1~20。

根据预设意图与之前确认的默认调节范围，可以建立意图与默认值的映射表，供在线流程使用并进行下游操作。

例如，若语音请求模拟车辆零部件调节车载音响的调节音量共有60个刻度，默认调节范围为1~20，则每次调节3个刻度，在精度需求下，音量对应的预设意图分别为system_volume_up与system_volume_down。对应地，由车载音响的车辆零部件调节音量而建立的意图与默认值映射表可以为：

{system_volume_up：3；system_volume_down：3}。

若语音请求模拟车辆零部件调节空调风量每次调节1个档位，由车载空调的车辆零部件调节空调风量而建立的意图与默认值映射表为：

{ac_wind_up：1；ac_wind_down：1；}。

同理，本发明的语音交互方法还包括有屏幕亮度调节、车辆座椅高低前后等多个预设意图，多个预设意图与默认值的映射关系均可以根据上述方法确定，并将此映射关系存入数据库，供在线流程加载和读取。

请参阅图3，本发明还提供一种模型训练方法，用于训练得到本发明实施方式中任一项的语音交互方法中的意图识别模型和精度识别模型。模型训练方法包括：

11：通过意图训练数据训练得到意图识别模型，意图训练数据与车辆零部件和车辆零部件的可调节范围相关；

13：通过精度训练数据训练得到精度识别模型，精度训练数据与车辆零部件、车辆零部件的可调节范围和车辆零部件的刻度调节精度范围相关。

请结合图4，本发明还提供一种模型训练装置100。模型训练装置100包括意图训练模块110和精度训练模块130。

步骤11可以由意图训练模块110实现，步骤13可以由精度训练模块130实现。也即是，意图训练模块110用于通过意图训练数据训练得到意图识别模型，意图训练数据与车辆零部件和车辆零部件的可调节范围相关；精度训练模块130用于通过精度训练数据训练得到精度识别模型，精度训练数据与车辆零部件、车辆零部件的可调节范围和车辆零部件的刻度调节精度范围相关。

本发明通过机器学习的方式，由可进行刻度调节的车辆零部件和车辆零部件的可调节范围对应的训练数据训练得到意图识别模型，进而对语音请求进行意图识别，实现用户意图的准确识别。并由可进行刻度调节的车辆零部件、车辆零部件的可调节范围和零部件的刻度调节精度范围对应的训练数据训练得到精度识别模型，进而语音请求进行精度识别，实现用户刻度调节精度的准确识别。

其中，意图训练数据与可进行刻度调节的车辆零部件和零部件的可调节范围相关。车辆零部件指的是在智能汽车上可以进行刻度调节的零部件，例如：“音量旋钮”，“屏幕亮度按钮”，“空调风量旋钮/按钮”，“座椅调节旋钮/按钮”等。车辆零部件的可调节范围与与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件，可调节范围可以是档位或量程。

精度训练数据与可通过车辆零部件进行刻度调节的车辆零部件、零部件的可调节范围相关，指的是精度训练数据包括车辆中所有可以进行刻度调节的车辆零部件，例如“音量旋钮”，“屏幕亮度按钮”，“空调风量旋钮/按钮”，“座椅调节旋钮/按钮”等。刻度调节精度范围可以是每次语音请求调节的刻度值。

用于意图训练和精度训练的数据可以在取得相关用户权限的情况下，收集一定数量的用户语音请求的历史记录，对收集到的用户语音请求进行简单的筛选得到语义明确且包含具体目的语音请求，具体为：在筛选中去掉明显语义不明确的语音请求，以及一些只包含语气词，比如“啊”，“哦”等较短的语音请求，留下语义明确同时包含具体目的语音请求。

对筛选后的语音请求参照制定的预设意图进行标注，例如，语音请求为“屏幕亮亮亮”，可标注对应的意图为“屏幕调亮”，然后，对标注的数据进行质检，再次筛选去掉不符合预设意图的标注数据，留下可用于意图模型训练的标注数据。例如，语音请求为“车门开”，标注对应的意图为“打开车门”，而可进行刻度调节的零部件不用于调节车门，此时，可通过筛选将该语音请求去掉。

在意图训练过程中，将可用于意图模型训练的的标注数据作为意图训练数据并划分为意图训练集和意图验证集，划分比例可根据需求设定，在此不作限定。例如意图训练集80%，意图验证集为20%。利用意图训练集中的数据进行意图识别模型的训练。模型训练可以利用BERT、ALBERT、XLNet、RoBERTa等模型。

具体地，对于建立好的意图识别模型，先利用意图训练集中的至少部分数据用于训练意图识别模型，然后利用意图验证集的至少部分数据对训练后的意图识别模型的准确率进行意图验证。在意图验证的准确率没有达到意图准确率阈值的情况下，再次通过意图训练集的至少另一部分数据对意图识别模型进行训练，以及再次利用意图验证集的另一部分数据对再次训练后的意图识别模型的准确率进行意图验证，如此重复训练和意图验证的过程，直到意图验证的准确率达到意图准确率阈值时，可以认为意图识别模型已经达标，完成意图识别模型的训练。

由于车辆的运算资源有限，还可以通蒸馏技术对上述训练好的意图识别模型进行蒸馏，从而得到蒸馏后的意图识别模型，从而可以缩减模型大小，例如将训练好的意图识别模型蒸馏10M大小的小模型。然后，利用意图验证集中的至少一部分对蒸馏后的意图识别模型进行意图验证，若意图验证的准确率达到意图准确率阈值时，可以认为蒸馏后的意图识别模型已经达标，从而可以将蒸馏后的意图识别模型进行模型量化，例如从float32量化为int8，从而进一步对模型进行压缩，从而减少模型对车辆性能的依赖，最后将蒸馏和量化后的意图识别模型部署到车辆上。

而对蒸馏后的意图识别模型进行意图验证过程中，若意图验证的准确率未达到意图准确率阈值，则继续通过意图训练集的更多数据再次对上述训练好的意图识别模型进行训练，并重新对再次训练好的意图识别模型进行意图验证，直到蒸馏后的意图识别模型的意图验证的准确率达到意图准确率阈值。

需要说明的是，意图训练集和意图验证集中的每个数据均只使用一次，在意图识别模型遍历意图训练集和意图验证集的所有数据均未能训练达标的情况下，可以再次在用户允许的情况下收集更多的语音请求，从而筛选并标注得到更多的意图训练数据对意图识别模型进行训练，从而保证意图识别模型能够准确识别输入的语音请求对应的意图。

还可以对所述筛选后的语音请求按预设刻度精度值进行人工标注，需标注出用户想要调节的刻度调节精度值。例如，语音请求为“屏幕亮亮亮”，对应标注对车辆内屏幕亮度进行调节的刻度调节精度值为3。然后，基于槽位提取的方式建立精度识别模型，槽位提取可以使用的算法包括RNN槽填充，CRF等，将标注好的数据作为精度训练数据并划分得到精度训练集和精度验证集，划分比例可根据需求设定，在此不作限定。例如精度训练集80%，精度验证集为20%。利用精度训练集中的数据进行精度识别模型的训练。对于建立好的精度识别模型，先利用精度训练集中的至少部分数据用于训练精度识别模型，然后利用精度验证集的至少部分数据对训练后的精度识别模型的准确率进行精度验证。在精度验证的准确率没有达到精度准确率阈值的情况下，再次通过精度训练集的至少另一部分数据对精度识别模型进行训练，以及再次利用精度验证集的另一部分数据对再次训练后的精度识别模型的准确率进行精度验证，如此重复训练和精度验证的过程，直到精度验证的准确率达到精度准确率阈值时，可以认为精度识别模型已经达标，完成精度识别模型的训练。

相应地，还可以通蒸馏技术对上述训练达标的精度识别模型进行蒸馏，从而得到蒸馏后的精度识别模型，以缩减模型大小。然后，利用精度验证集中的至少一部分对蒸馏后的精度识别模型进行精度验证，若精度验证的准确率达到精度准确率阈值时，可以认为蒸馏后的精度识别模型已经达标，从而可以将蒸馏后的精度识别模型进行模型量化，从而进一步对模型进行压缩，从而减少模型对车辆性能的依赖，最后将蒸馏和量化后的精度识别模型部署到车辆上。

对蒸馏后的精度识别模型进行精度验证过程中，若精度验证的准确率未达到精度准确率阈值，则继续通过精度训练集的更多数据再次对上述训练达标的精度识别模型进行训练，并重新对再次训练达标的精度识别模型进行精度验证，直到蒸馏后的精度识别模型的精度验证的准确率达到精度准确率阈值。

需要说明的是，精度训练集和精度验证集中的每个数据均只使用一次，在精度识别模型遍历精度训练集和精度验证集的所有数据均未能训练达标的情况下，可以再次在用户允许的情况下收集更多的语音信息，从而筛选并标注得到更多的精度训练数据对精度识别模型进行训练，从而保证精度识别模型能够准确识别输入的语音请求对应的刻度调节精度。

如此，可以通过精度训练数据预先训练好精度识别模型对语音请求进行精度识别，从而识别出某个车辆零部件的调节精度，得到精度识别结果，最终确定目标刻度调节精度值。

请参阅图5，步骤07包括：

071：根据意图识别的结果确定语音请求对应的目标意图；

072：根据精度识别的结果确定语音请求对应的目标刻度调节精度值；

073：根据目标意图和目标刻度调节精度值修改默认值；

074：将目标意图和修改后的默认值融合生成第一控制指令。

请结合图6，第一控制指令生成模块17包括意图确定单元171、精度确定单元172、修改单元173和第一指令生成单元174。

步骤071可以由意图确定单元171实现，步骤072可以由精度确定单元172实现，步骤073可以由修改单元173实现，步骤074可以由第一指令生成单元174实现。也即是，意图确定单元171用于根据意图识别的结果确定语音请求对应的目标意图；精度确定单元172用于根据精度识别的结果确定语音请求对应的目标刻度调节精度值；修改单元173用于根据目标意图和目标刻度调节精度值修改默认值；第一指令生成单元174用于将目标意图和修改后的默认值融合生成第一控制指令。

具体地，根据目标意图和意图与默认值映射表确定默认值，也即是，如果用户的语音请求“音量大大大”的目标意图为将音量调大，则根据意图与默认值映射表可知，此时默认值可以为3，即语音请求模拟车辆零部件对音量进行调节时，每次调节3个刻度。

根据对用户语音请求“音量大大大”进行精度识别的结果可以为：识别得到目标刻度调节精度值为3，则根据目标刻度调节精度值修改默认值为3*3=9，即，修改后与用户语音请求“音量大大大”对应调节的刻度值为9。本发明的语音交互方法涉及到默认值的修改，进而根据目标意图和修改后的默认值生成控制指令，在融合语音请求传统逻辑的情况下，实现根据用户精简语音请求精确调节与语音请求对应的车辆零部件的刻度的效果。

请参阅图7，步骤071包括：

0711：获取意图识别的结果对应各个预设意图的意图判别概率；

0712：将意图判别概率大于第一概率阈值的一个预设意图确定为目标意图。

请参阅图8，意图确定单元171包括第一获取子单元1711和意图确定子单元1712。

步骤0711可以由第一获取子单元1711实现，步骤0712可以由意图确定子单元1712实现。也即是，第一获取子单元1711用于获取意图识别的结果对应各个预设意图的意图判别概率；意图确定子单元1712用于将意图判别概率大于第一概率阈值的一个预设意图确定为目标意图。

使用车辆的意图识别模型针对语音请求进行意图识别得到意图识别的结果，意图识别的结果中包括语音请求与各个预设意图相匹配的概率，即可以得到多个意图判别概率。若第一概率阈值为0.9，则意图识别的结果为某个类别的预设意图的意图判别概率超过0.9，那么认为当前用户的语音请求为对应类别的预设意图，也就是目标意图。第一概率阈值也可以为其他数值，第一概率阈值可以为默认设置的数值，也可以根据用户需要自行设定，在此不作限制。

本发明的预设意图可包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。

应当理解地，本发明中的预设意图仅为示意性说明，对于车辆中可进行刻度调节的对象都可以根据其实际的操作设定相应的预设意图。

如此，可根据车辆的具体情况制定多个预设意图，完善可能遇到的语音交互场景。

步骤071还包括：

0713：在各个预设意图的意图判别概率均不大于第一概率阈值的情况下，确定语音请求的意图为非刻度调节意图。

步骤0713可以由意图确定子单元1712实现，也即是，意图确定子单元1712用于在各个预设意图的意图判别概率均不大于第一概率阈值的情况下，确定语音请求的意图为非刻度调节意图。

例如，当多个类别的预设意图对应的判别概率均不大于第一概率阈值的情况，即根据语音请求得到用户的意图识别结果与多个类别预设意图相匹配的概率比较低，低于第一概率阈值，例如第一概率阈值为0.9，则确定该语音请求的意图为非刻度调节意图，非刻度调节意图指的是不用可进行刻度调节的车辆零部件来调节车辆预设功能的用户意图，例如，用户输入的语音请求为“车门开开开”，因为车门不能用带有刻度的车辆零部件进行调节，因此，该语音请求“车门开开开”的意图是非刻度调节意图。

请参阅图9，步骤072包括：

0721：获取精度识别的结果对应各个预设刻度刻度调节精度的精度判别概率；

0722：将精度判别概率大于第二概率阈值的一个预设刻度调节精度值，确定为目标刻度调节精度值。

请参阅图10，精度确定单元172包括第二获取子单元1721和精度确定子单元1722。

步骤0721可以由第二获取子单元1721实现，步骤0722可以由精度确定子单元1722实现。第二获取子单元1721用于获取精度识别的结果对应各个预设刻度刻度调节精度的精度判别概率；精度确定子单元1722用于将精度判别概率大于第二概率阈值的一个预设刻度调节精度值，确定为目标刻度调节精度值。

精度判别概率指的是识别该语音请求的精度与各个预设刻度调节精度值相匹配的概率。第二概率阈值例如可以为0.7、0.8、0.9或其他数值，在此不作限制。

当精度判别概率为1，第二概率阈值为0.9时，即精度判别概率为1超过第二概率阈值0.9，则确定语音请求“音量大大大大大”对应音量调节的目标刻度调节精度值为5。

步骤072还包括：

0723：在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下，确定语音请求的精度识别错误。

步骤0723可以由精度确定子单元1722实现。也即是说，精度确定子单元1722用于在各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况下，确定语音请求的精度识别错误。

各个预设刻度调节精度值的精度判别概率均不大于第二概率阈值的情况，说明输入的语音请求的精度识别有误，可以排除非刻度调节精度相关的语音请求。

请参阅图11，语音交互方法包括：

021：在语音请求的使用频率高于第二预设频率的情况下，根据语音请求与控制指令的端到端识别结果生成第二控制指令；

041：执行第二控制指令对应的操作。

请参阅图12，语音交互装置10包括第二控制指令生成模块121。

步骤021可以由第二控制指令生成模块121实现，步骤041可以由执行模块19实现。也即是，第二控制指令生成模块121用于在语音请求的使用频率高于第二预设频率的情况下，根据语音请求与控制指令的端到端识别结果生成第二控制指令；执行模块19用于执行第二控制指令对应的操作。

具体地，第二预设频率大于第一预设频率，即，使用频率高于第二预设频率的语音请求为高频语音请求。第二预设频率可以是车辆系统默认的数值，也可以是用户自行设置的数值，在此不作限制。

当车辆的网络连接状态处于异常状态时，对于具有精度需求对应的常用高频语音请求可以建立端到端识别结果，此时这类高频语音请求可以直接返回车机端可执行命令。例如对于高频语音请求“音量大大大”，可以直接进行车机端指令下发，下发车机端可执行的命令“音量调大两个刻度”，即生成第二控制指令“音量调大两个刻度”，从而实现在无网状态下对高频语音请求建立快速的响应，不需要请求线上云端服务器的数据，节省大量的时间，加快了车机端响应，提升用户体验。

请参阅图13，语音交互方法包括：

022：在语音请求的使用频率不高于第一预设频率的情况下，将语音请求发送至服务器；

042：接收服务器根据语音请求下发的第三控制指令；

062：执行第三控制指令对应的操作。

请参阅图14，语音交互装置10包括请求发送模块122和指令接收模块142。

步骤022可以由请求发送模块122实现，步骤042可以由指令接收模块142实现，步骤062可以由执行模块19实现。也即是，请求发送模块122用于在语音请求的使用频率不高于第一预设频率的情况下，将语音请求发送至服务器；指令接收模块142用于接收服务器根据语音请求下发的第三控制指令；执行模块19用于执行第三控制指令对应的操作。

具体地，使用频率不高于第一预设频率的语音请求为非高频语音请求，例如，车辆氛围灯在网络状态不佳或无网的情况下使用频率不高于第一预设频率，则将车辆的氛围灯等的需求的相关语音请求。

此时，网络状态不佳时，本发明的语音交互方法将非高频语音请求发送至服务器，接收服务器根据语音请求下发的第三控制指令，执行第三控制指令对应的操作，即进行在线请求服务器下发第三控制指令，然后再执行第三控制指令对应的操作。

如此，可以在网络不佳时，直接请求来自服务器的第三控制指令，执行第三控制指令对应的操作，使得非高频语音请求在网络较弱的情况下可以通过服务器进行意图识别和精度识别，实现非高频语音请求中对应精度的调节，减少非高频语音请求在对车辆性能的占用。

请参阅图15，语音交互方法包括：

023：若车辆的网络连接状态处于正常状态，将语音请求发送至服务器；

043：接收服务器根据语音请求下发的第四控制指令；

063：执行第四控制指令对应的操作。

步骤023可以由请求发送模块122实现，步骤043可以由指令接收模块142实现，步骤063可以由执行模块19实现。也即是，请求发送模块122用于若车辆的网络连接状态处于正常状态，将语音请求发送至服务器；指令接收模块142用于接收服务器根据语音请求下发的第四控制指令；执行模块19用于执行第四控制指令对应的操作。

具体地，当车辆的网络连接状态处于正常状态时，将语音请求发送至服务器，接收服务器根据语音请求下发的第四控制指令，并执行第四控制指令对应的操作，可以实现在网络连接状态为正常状态下，实现语音请求在有网的情况下快速实时响应。

请参阅图16，本发明还提供一种车辆20。该车辆20包括处理器21和存储器22，存储器22上存储有计算机程序221，当计算机程序221被处理器21执行时，实现上述任意一个实施例中所述的语音交互方法。

本发明的车辆20可以在车辆的网络连接状态处于异常状态时，在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别，并利用车辆上的精度识别模型对语音请求进行精度识别，然后，根据意图识别结果和精度识别结果生成第一控制指令，最后执行第一控制指令对应的操作，使一些高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

请参阅图17，本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质30。当计算机程序31被一个或多个处理器40执行时，实现上述任意实施示例的语音交互方法和模型训练方法。

例如，计算机程序31被处理器40执行时实现以下语音交互方法的步骤：

05：利用车辆上的精度识别模型对语音请求进行精度识别；

07：根据意图识别结果和精度识别结果生成第一控制指令；

09：执行第一控制指令对应的操作。

可以理解地，计算机程序31包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory)、随机存取存储器（RAM，Random Access Memory)、以及软件分发介质等。

本发明的计算机可读存储介质可以在车辆的网络连接状态处于异常状态时，在语音请求的使用频率高于第一预设频率的情况下，利用车辆上的意图识别模型对语音请求进行意图识别，并利用车辆上的精度识别模型对语音请求进行精度识别，然后，根据意图识别结果和精度识别结果生成第一控制指令，最后执行第一控制指令对应的操作，使一些高频语音请求在无网状态下可以快速实时响应，且无论在有网和无网状态下都能使用户得到较为一致的极速体验。

Claims

1.一种语音交互方法，其特征在于，包括：

接收对车辆预设功能调节的语音请求，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；

若车辆的网络连接状态处于异常状态，则在所述语音请求的使用频率高于第一预设频率的情况下，利用所述车辆上的意图识别模型对所述语音请求进行意图识别；

利用所述车辆上的精度识别模型对所述语音请求进行精度识别；

根据所述意图识别结果和所述精度识别结果生成第一控制指令；

执行所述第一控制指令对应的操作。

2.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

确定每个所述车辆零部件的默认调节范围。

3.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述意图识别结果和所述精度识别结果生成第一控制指令，包括：

根据所述意图识别的结果确定所述语音请求对应的目标意图；

根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值；

根据所述目标意图和所述目标刻度调节精度值修改默认值；

将所述目标意图和修改后的所述默认值融合生成所述第一控制指令。

4.根据权利要求3所述的语音交互方法，其特征在于，所述根据所述意图识别的结果确定所述语音请求对应的目标意图，包括：

获取所述意图识别的结果对应各个预设意图的意图判别概率；

将所述意图判别概率大于第一概率阈值的一个所述预设意图确定为所述目标意图。

5.根据权利要求4所述的语音交互方法，其特征在于，所述预设意图包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。

6.根据权利要求3所述的语音交互方法，其特征在于，所述根据所述精度识别的结果确定所述语音请求对应的目标刻度调节精度值，包括：

获取所述精度识别的结果对应各个预设刻度调节精度值的精度判别概率；

将所述精度判别概率大于第二概率阈值的一个所述预设刻度调节精度值，确定为所述目标刻度调节精度值。

7.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

在所述语音请求的使用频率高于第二预设频率的情况下，根据语音请求与控制指令的端到端识别结果生成第二控制指令；

执行所述第二控制指令对应的操作。

8.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

在所述语音请求的使用频率不高于所述第一预设频率的情况下，将所述语音请求发送至服务器；

接收所述服务器根据所述语音请求下发的第三控制指令；

执行所述第三控制指令对应的操作。

9.根据权利要求1所述的语音交互方法，其特征在于，所述语音交互方法包括：

若车辆的网络连接状态处于正常状态，将所述语音请求发送至服务器；

接收所述服务器根据所述语音请求下发的第四控制指令；

执行所述第四控制指令对应的操作。

10.一种模型训练方法，用于训练得到权利要求1-9任一项所述的语音交互方法中的意图识别模型和精度识别模型，其特征在于，包括：

通过意图训练数据训练得到所述意图识别模型，所述意图训练数据与车辆零部件和所述车辆零部件的可调节范围相关；

通过精度训练数据训练得到所述精度识别模型，所述精度训练数据与所述车辆零部件、所述车辆零部件的可调节范围和所述车辆零部件的刻度调节精度范围相关。

11.一种语音交互装置，其特征在于，所述语音交互装置包括：

接收模块，所述接收模块用于接收对车辆预设功能调节的语音请求，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；

意图识别模块，所述意图识别模块用于若车辆的网络连接状态处于异常状态，则在所述语音请求的使用频率高于第一预设频率的情况下，利用所述车辆上的意图识别模型对所述语音请求进行意图识别；

精度识别模块，所述精度识别模块用于利用所述车辆上的精度识别模型对所述语音请求进行精度识别；

控制指令生成模块，所述控制指令生成模块用于根据所述意图识别结果和所述精度识别结果生成第一控制指令；

执行模块，所述执行模块用于执行所述第一控制指令对应的操作。

12.一种车辆，其特征在于，所述车辆包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1-9任一项所述的语音交互方法。

13.一种包含有计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-9任一项所述的语音交互方法和/或权利要求10所述的模型训练方法。