CN111008532A

CN111008532A - 语音交互方法、车辆和计算机可读存储介质

Info

Publication number: CN111008532A
Application number: CN201911288463.1A
Authority: CN
Inventors: 易晖; 赵耀; 韩传宇; 翁志伟
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-14
Anticipated expiration: 2039-12-12
Also published as: CN111008532B

Abstract

本发明实施例提供了一种语音交互方法、车辆和计算机可读存储介质，其中方法包括：接收并对车辆内用户的语音请求进行语义识别；根据语义识别结果查询除语音模态外相关的模态信息；根据查询结果执行模态关系推理；根据推理获得的若干个候选方案，确定并执行最佳方案以响应语音请求。本发明中，语音交互的过程会结合除语音模态外相关的模态信息完成对话上下文的判断，不需要用户多次进行语音对话确认，即可完整推断出用户的言外之意，保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互，改善了车载环境下的使用体验。

Description

语音交互方法、车辆和计算机可读存储介质

技术领域

本发明涉及语音技术领域，特别是涉及一种语音交互方法、车辆和计算机可读存储介质。

背景技术

随着新一代智能网联汽车的逐步普及，人与车之间基于自然语音对话的人机交互方式成为强需求。

车载场景中人与车的交互过程是多模态交互，人对车的输入除了语音之外，还需要考虑车辆状态以及车载设备的状态，车内用户的表情和情绪，以及对车辆的操控和车载大屏的点击动作等。

当前的车载语音对话，使用基于语义的框架表示这种知识表示方法，对用户语音请求(Query)分类别定义好结构化的字段，便于理解和指令执行，这种方法只支持对用户对话在语音模态的上下文计算，无法很好的支持包括多模态交互的复杂场景下的对话。究其原因，是由于基于语义的框架表示方法需要预先设置字段定义，无法描述多模态的动态信息，也无法描述模态间的动态关系。

业界对于关系的描述常用的是知识图谱技术。该技术使用语义网络表示方法，将信息定义成实体+关系的网络结构，便于实现知识的查询和推理。但这种方法由于对实体有大量计算，难以描述复杂的模态信息。

由上可知，亟需一种支持车载场景下多模态交互的语音交互方法。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音交互方法、车辆和计算机可读存储介质。

为了解决上述问题，本发明实施例公开了一种语音交互方法，其特征在于，包括：

接收并对车辆内用户的语音请求进行语义识别；

根据语义识别结果查询除语音模态外相关的模态信息；

根据查询结果执行模态关系推理；

根据推理获得的若干个候选方案，确定并执行最佳方案以响应语音请求。

进一步地，该方法还包括：

通过知识表示方法建立包括结构化字段的模板；其中，该字段用于表示模态信息的语义；

采集车辆相关的所有数据；

利用模板对采集结果进行上下文信息处理，获得单个模态信息的知识表示。

进一步地，该方法还包括：预先建立包括模态类型和模态名称在内的多模态信息索引；

则根据语义识别结果查询除语音模态外其他的模态信息，包括：

根据语义识别结果，利用多模态信息索引查询除语音模态外其他的模态信息。

进一步地，根据语义识别结果，利用多模态信息索引查询除语音模态外相关的模态信息包括：

通过命名实体识别模型获得槽位实体信息；

将槽位实体信息映射到多模态信息索引中的模态类型；

查询该模态类型下对应的模态名称；

根据模态名称确定除语音模态外相关的模态信息。

进一步地，该方法还包括：

预先建立包括关系类型和关系在内的关系索引；

根据关系类型利用预设的关系规则模板，计算出模态信息间的关系值并存储到关系索引中。

进一步地，根据查询结果执行模态关系推理，包括：

根据对话意图分类映射到关系索引中，获得和当前意图匹配的关系类型；

利用意图信息在多模态信息索引中查找到匹配的模态类型；

根据匹配的关系类型和模态类型在关系索引中查询到匹配的关系；

根据匹配的关系确定相关车辆部件。

进一步地，根据推理结果获得若干个候选方案，包括：

根据相关车辆部件，获得包括相关车辆部件的执行指令的若干个候选方案。

进一步地，从候选方案中确定并执行最佳方案以响应语音请求，包括：

根据预设的业务规则，对若干个候选方案进行排序；

根据排序结果确定并执行最佳方案以响应语音请求。

本发明还提出一种车辆，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的语音交互方法的步骤。

本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述的语音交互方法的步骤。

本发明实施例包括以下优点：

本发明中，语音交互的过程会结合除语音模态外相关的模态信息完成对话上下文的判断，不需要用户多次进行语音对话确认，即可完整推断出用户的言外之意，保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互，改善了车载环境下的使用体验。

附图说明

图1是本发明的一种语音交互方法实施例的步骤流程图；

图2是本发明的一种车载多模态上下文信息示意图；

图3是本发明的又一种车载多模态上下文信息示意图；

图4是本发明的另一种车载多模态上下文信息示意图；

图5是本发明的再一种车载多模态上下文信息示意图；

图6是本发明的语音交互装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

大多数车载对话系统，使用基于语义的框架表示这种知识表示方法，对用户语音请求(Query)分类别定义好结构化的字段，便于理解和指令执行，这种方法只支持对用户对话语音模态的上下文计算，无法很好的支持多模态交互场景下的对话。

本发明实施例的核心构思之一在于，结合了车载场景下的各种模态信息来完成语音交互过程。具体地，在语音交互中能较好的结合当前车辆以及车载设备状态、用户对车辆的操控和车载大屏的点击动作、大屏界面上正在运行的应用程序(即App)、车内的温度等各种模态信息，推测出用户的真实意图。

比如：当车辆内的用户说“太热了”，对话系统可以结合车内温度和车外温度，判断是打开车窗通风、或者打开空调降温、或者同时进行等。

再比如当用户说“不听他的歌”，对话系统可以根据中控屏幕上正在播放的音乐，切换另外一个歌手。

参照图1，示出了本发明的一种语音交互方法实施例的步骤流程图，该方法的动作执行对象为车辆，具体可以包括如下步骤：

S1，接收并对车辆内用户的语音请求进行语义识别；

S2，根据语义识别结果查询除语音模态外相关的模态信息；

S3，根据查询结果执行模态关系推理；

S4，根据推理结果获得若干个候选方案；

S5，从候选方案中确定并执行最佳方案以响应语音请求。

本发明中，车辆对接收的语音请求进行语义识别后，查询除语音模态外相关的模态信息，并利用相关的模态信息执行模态关系推理，进而完成对话上下文的判断，然后输出若干个可供执行的候选方案，从这些候选方案中确定最佳方案来执行，整个过程不需要用户多次进行语音对话确认，即可完整推断出用户的言外之意，保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互，改善了车载环境下的使用体验。

下面具体来说明本方案中的语音交互全过程。

S1中，车辆内的用户向车辆上的语音助手或者人工智能(ArtificialIntelligence，缩写为AI)助手发出语音请求(Query)，车辆接收该请求并进行语义识别。语义识别的过程可以是由车辆在本地完成，也可以是由车辆通过与语音服务器之间的交互完成，在此不作限制。

通常语义识别结果包括领域(Domain)、意图(Intent)和槽位(Slot)等信息。这些信息可以通过NLU(Natural-language understanding)中的分类模型和填槽模型获得，例如，通过对话意图分类可以获得意图信息，通过命名实体识别模型可以获得槽位实体信息。

进一步地，本发明的语音交互方法还包括：

通过知识表示方法建立包括结构化字段的模板；其中，该字段用于表示模态信息的语义。

采集车辆相关的所有数据。

知识表示(knowledge representation)是指把知识客体中的知识因子与知识关联起来，便于人们识别和理解知识。狭义上，知识表示的结果是产生一种计算机可以接受的用于描述知识的数据结构。某种意义上讲，表示可视为数据结构及其处理机制的综合：即知识表示＝数据结构+处理机制。通常知识表示包括框架表示、可扩展标记语言(eXtensibleMarkup language，XML)表示、本体表示等多种知识表示方法。下面的实施例中，使用框架表示的知识表示方法来进行描述。

框架(Frame)是把某一特殊事件或对象的所有知识储存在一起的一种复杂的数据结构。其主体是固定的，表示某个固定的概念、对象或事件，其下层由一些槽(Slot)组成，表示主体每个方面的属性。框架是一种层次的数据结构，框架下层的槽可以看成一种子框架，子框架本身还可以进一步分层次为侧面。槽和侧面所具有的属性值分别称为槽值和侧面值。槽值可以是逻辑型或数字型的，具体的值可以是程序、条件、默认值或是一个子框架。相互关联的框架连接起来组成框架系统，或称框架网络。

具体地，先用框架表示的知识表示方法建立包括结构化字段的模板，例如：

车内温度：温度<int>状态<冷|热>

车外温度：温度<int>状态<冷|热>

车窗：列表

位置<主驾|副驾|后右|后左>

状态<打开|关闭>

空调：列表

位置<主驾|副驾>

状态<打开|关闭>

模式:<制冷|制热>

温度<int>

风量<1-5>

然后进行数据采集，采集包括车内温度、车外温度、车窗状态、空调状态等数据。

通过模板解析、数据处理、信息抽取和结构化字段输出，完成整个上下文信息处理过程，最终获得单个模态信息的知识表示。使用框架表示的知识表示方法来描述单个模态信息的示例如下：

示例1，车外温度模态信息的知识表示：

温度：10

状态：冷

示例2，车内温度模态信息的知识表示：

温度：28

状态：稍热

示例3，车窗模态信息的知识表示：

位置1：主驾

状态1：打开

位置2：副驾

状态2：关闭

示例4，空调模态信息的知识表示：

位置1：主驾

状态1：打开

模式1：制热

温度1：25

风量1：3

位置2：副驾

状态2：关闭

温度2：23

风量2：4

本发明的语音交互方法还包括：预先建立包括模态类型和模态名称在内的多模态信息索引。则S2具体包括：根据语义识别结果，利用多模态信息索引查询除语音模态外其他的模态信息。建立多模态信息索引有助于语音实时交互的过程中，快速定位到当前用户语音指令的相关模态信息。解决了模态信息匹配和查找的效率问题。

具体地，根据语义识别结果，利用多模态信息索引查询除语音模态外相关的模态信息包括：

通过命名实体识别模型获得槽位实体信息；

将槽位实体信息映射到多模态信息索引中的模态类型；

查询该模态类型下对应的模态名称；

根据模态名称确定除语音模态外相关的模态信息。

以用户Query为“太冷了”为例，语义识别可以获得：

领域：车控

意图：升高温度

槽位：温度类型-温度

即语义识别中可以通过命名实体识别模型来获得槽位实体信息。命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本发明中的命名实体识别模型可以使用包括但不限于有监督的学习方法、半监督的学习方法、无监督的学习方法或者混合方法中的任意一种来完成命名实体识别，在此不做限制。

由于多模态信息索引中包括了模态类型和模态名称，则可以将槽位实体信息映射到多模态信息索引中的模态类型，然后查询该模态类型下对应的模态名称，进而根据模态名称确定除语音模态外相关的模态信息。

多模态信息索引的一个示例可以详见以下表1：

模态类型	模态名称
		温度	车内温度
温度	车外温度
		车辆部件	空调
车辆部件	车窗

表1

以槽位实体信息是“温度”为例，可以映射到多模态信息索引中查找到“车内温度”和“车外温度”的模态名称，进而查找到这两个对应的模态信息如下：

模态信息1，车外温度模态信息的知识表示：

温度：10

状态：冷

模态信息2，车内温度模态信息的知识表示：

温度：28

状态：稍热

进一步地，本发明的语音交互方法还包括：

预先建立包括关系类型和关系在内的关系索引；根据关系类型利用预设的关系规则模板，计算出模态信息间的关系值并存储到关系索引中。关系索引有助于实时语音交互过程中完成动态关系推理，实现跨模态的查询和操作。

建立的关系索引的一个示例详见表2：

关系类型	关系	关系值
			<车窗部件，温度>	<车窗，车内温度>	降低
<车窗部件，温度>	<空调，车内温度>	升高
			<车内环境，车外环境>	<车外温度，车内温度>	高于

表2

关系规则模板的示例如下：

关系类型：<车辆部件，温度>

车辆部件：车窗

温度：车内温度

if(车外温度<车内温度)and(设备状态＝打开)

then关系＝降低

如上所述，关系规则模板包括了关系执行规则，上面示例的“车窗”这个车辆部件的关系执行规则，类似地，每个车辆部件都有对应的关系执行规则。具体形式上，可以是一个关系规则模板对应一条关系执行规则；也可以是一个关系规则模板对应多个关系执行规则，然后使用不同标记区分开。

对于关系规则模板，可以由运营人员人工编辑后输入，也可以由系统自动生成，在此不做限制。

如图2所示，图2是本发明的一种包括模态信息间关系值的车载多模态上下文信息示意图。例如，对于车外温度、车内温度和车窗这几种模态信息，车外温度是10度比车内温度28度低，主驾车窗是打开的状态，所以根据关系规则模板，车内温度和车窗二个模态信息之间的关系值是“降低”，表示车外温度更低的情况下打开主驾车窗后车内温度会降低。

计算出各个模态信息间的关系值后，可以存储到关系索引中。

进一步地，根据查询结果执行模态关系推理，包括：

利用意图信息在多模态信息索引中查找到匹配的模态类型；

根据匹配的关系确定相关车辆部件。

具体地，收到语音Query为“太热了”，则语义识别结果包括：

领域：车控

意图：降低温度

槽位：温度类型-温度

通过对话意图分类结果，可以获得意图信息为“降低温度”。然后在关系索引中查询到和当前意图匹配的关系类型是<车窗部件，温度>，利用意图信息“降低温度”在多模态信息索引中查找到匹配的模态类型为“温度”，则对应的相关的模态信息包括车内温度和车外温度，据此可以获得关系类型<车窗部件，温度>下匹配的关系包括<车窗，车内温度>和<空调，车内温度>，根据匹配的关系确定出相关车辆部件包括车窗和空调。其中，相关车辆部件是实体的车辆部件，例如车窗、空调等，也可以是虚拟的车辆部件，例如运行在车载系统中的音乐App或者导航App。

具体地，根据推理结果获得若干个候选方案，包括：

例如，通过车辆的麦克风监听，获得语音Query是“太冷了”，则语义识别结果包括：

领域：车控

意图：升高温度

槽位：温度类型-温度

其中，通过对话意图分类，可以获得意图信息为“升高温度”，然后通过关系推理确定相关车辆部件包括空调和车窗，则可以根据关系执行规则和当前多模态信息获得若干个候选方案，每个候选方案包括方案名称、待执行的相关车辆部件名称、相关车辆部件的执行指令和关系执行规则等信息，具体地，上述语音Query“太冷了”经过关系推理后，可以获得的候选方案包括：候选方案一是调高空调温度，候选方案二是关闭主驾车窗。其中，候选方案一中，让“空调”这个相关车辆部件“调高温度”是相关车辆部件的执行指令的一种具体示例，在此不做限制，此处省略了方案名称等信息。

根据上面获得的几个候选方案，可以按照一定原则来确定最佳方案，例如用户历史数据、用户喜好等来确定。

根据预设的业务规则，对若干个候选方案进行排序；根据排序结果确定并执行最佳方案以响应语音请求。

例如，按照车辆部件执行后的耗电量和/或估算的降温效果等业务规则，对上面两个候选方案进行排序，然后选择候选方案二作为最佳方案(耗电量少且降温效果不错)，然后执行“关闭主驾车窗”的操作，以此响应用户“太冷了”的语音请求。

再以根据导航目的地计算续航的示例来说明，通过车辆的麦克风监听，获得语音Query是“电量够不够去那”，则语义识别结果包括：

领域：车控

意图：电量查询计算

槽位：实体类型-电量

其中，通过对话意图分类，可以获得意图信息为“电量查询计算”，然后查询到相关的模态信息为车内电量，已经生成的车载多模态上下文信息详见图3，通过图3的车载多模态上下文信息进行关系推理，获得相关车辆部件为导航App，根据从关系规则模板中获得的导航App对应的关系执行规则和当前多模态上下文信息，可以获得候选方案为通过导航App执行“计算导航所需电量和查询剩余电量”的操作，最终可以通过语音反馈回复用户“剩余电量足够导航到中关村，请放心！”。

另一个示例中，车载环境使用音乐时根据大屏信息做指代消解，通过车辆的麦克风监听，获得语音Query是“不听他的歌”，则语义识别结果包括：

领域：音乐

意图：操作大屏应用

槽位：

实体-大屏应用

动作：切换

内容：歌曲

歌手：他(指代词)

其中，通过对话意图分类，可以获得意图信息为“操作大屏应用”，然后查询到相关的模态信息为音乐App，已经生成的车载多模态上下文信息详见图4，通过图4的车载多模态上下文信息或者通过查询关系索引中的关系值，获得相关车辆部件为音乐App，然后根据查询到的模态信息进行指代消解，即根据音乐App的模态信息确定当前播放歌曲的歌手是“刘德华”，则“不听他的歌”中的他为歌手刘德华，根据从关系规则模板中获得的音乐App的关系执行规则和当前多模态上下文信息，获得候选方案为通过音乐App执行“在音乐App中切换歌曲(不听刘德华的歌)”的操作，以响应用户“不听他的歌”的语音Query。

再一个示例中，车控方面的示例，即根据天气选择打开不同车灯。通过车辆的麦克风监听，获得语音Query是“看不见路了”，则语义识别结果包括：

领域：车控

意图：提升车外可见度

槽位：

实体-车外可见度

动作：提升

其中，通过对话意图分类，可以获得意图信息为“提升车外可见度”，然后查询到相关的模态信息为打开近光灯和打开防雾灯，已经生成的车载多模态上下文信息详见图5，通过图5的车载多模态上下文信息或者通过查询关系索引中的关系值，获得相关车辆部件为近光灯和防雾灯，然后根据从关系规则模板中获得的近光灯和防雾灯各自的关系执行规则结合当前多模态上下文信息获得候选方案如下：

候选方案一：打开近光灯

候选方案二：打开防雾灯

按照车外天气和/或提升可见度强弱能力等业务规则对上面候选方案排序，确定最佳方案为候选方案二，执行“打开防雾灯”的操作，以响应用户“看不见路了”的语音Query。

综上所述，本发明中，语音交互的过程会结合除语音模态外相关的模态信息完成对话上下文的判断，不需要用户多次进行语音对话确认，即可完整推断出用户的言外之意，例如车内主驾用户说出“太冷了”，语音助手则可以推断出含义，并且执行“关闭主驾车窗”的操作，保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互，改善了车载环境下的使用体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种语音交互装置实施例的结构框图，具体可以包括如下模块：

接收模块，用于接收并对车辆内用户的语音请求进行语义识别；

查询模块，用于根据语义识别结果查询除语音模态外相关的模态信息；

推理模块，用于根据查询结果执行模态关系推理；

获得模块，用于根据推理结果获得若干个候选方案；

执行模块，用于从候选方案中确定并执行最佳方案以响应语音请求。

进一步地，语音交互装置还包括：

第一模板建立模块，用于通过知识表示方法建立包括结构化字段的模板；其中，该字段用于表示模态信息的语义。

采集模块，用于采集车辆相关的所有数据；

处理模块，用于利用模板对采集结果进行上下文信息处理，获得单个模态信息的知识表示。

进一步地，语音交互装置还包括：

第一索引建立模块，用于预先建立包括模态类型和模态名称在内的多模态信息索引。

相应地，查询模块具体用于根据语义识别结果，利用多模态信息索引查询除语音模态外其他的模态信息。

进一步地，查询模块包括：

槽位单元，用于通过命名实体识别模型获得槽位实体信息；

映射单元，用于将槽位实体信息映射到多模态信息索引中的模态类型；

名称查询单元，用于查询该模态类型下对应的模态名称；

确定单元，用于根据模态名称确定除语音模态外相关的模态信息。

进一步地，语音交互装置还包括：

第二索引建立模块，用于预先建立包括关系类型和关系在内的关系索引；

计算模块，用于根据关系类型利用预设的关系规则模板，计算出模态信息间的关系值并存储到关系索引中。

进一步地，推理模块包括：

关系类型匹配单元，用于根据对话意图分类映射到关系索引中，获得和当前意图匹配的关系类型；

模态类型匹配单元，用于利用意图信息在多模态信息索引中查找到匹配的模态类型；

关系匹配单元，用于根据匹配的关系类型和模态类型在关系索引中查询到匹配的关系；

相关部件确定单元，用于根据匹配的关系确定相关车辆部件。

进一步地，获得模块，具体用于根据相关车辆部件，获得包括相关车辆部件的执行指令的若干个候选方案。

进一步地，执行模块具体用于根据预设的业务规则，对若干个候选方案进行排序；根据排序结果确定并执行最佳方案以响应语音请求。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种车辆，包括：

包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述语音交互方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音交互方法、车辆和计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音交互方法，其特征在于，包括：

接收并对车辆内用户的语音请求进行语义识别；

根据语义识别结果查询除语音模态外相关的模态信息；

根据查询结果执行模态关系推理；

根据推理结果获得若干个候选方案；

从候选方案中确定并执行最佳方案以响应语音请求。

2.如权利要求1所述语音交互方法，其特征在于，该方法还包括：

采集车辆相关的所有数据；

3.如权利要求2所述语音交互方法，其特征在于，该方法还包括：预先建立包括模态类型和模态名称在内的多模态信息索引；

4.如权利要求3所述语音交互方法，其特征在于，根据语义识别结果，利用多模态信息索引查询除语音模态外相关的模态信息包括：

通过命名实体识别模型获得槽位实体信息；

将槽位实体信息映射到多模态信息索引中的模态类型；

查询该模态类型下对应的模态名称；

根据模态名称确定除语音模态外相关的模态信息。

5.如权利要求4所述语音交互方法，其特征在于，该方法还包括：

预先建立包括关系类型和关系在内的关系索引；

6.如权利要求5所述语音交互方法，其特征在于，根据查询结果执行模态关系推理，包括：

利用意图信息在多模态信息索引中查找到匹配的模态类型；

根据匹配的关系确定相关车辆部件。

7.如权利要求6所述语音交互方法，其特征在于，根据推理结果获得若干个候选方案，包括：

8.如权利要求7所述语音交互方法，其特征在于，从候选方案中确定并执行最佳方案以响应语音请求，包括：

根据预设的业务规则，对若干个候选方案进行排序；

根据排序结果确定并执行最佳方案以响应语音请求。

9.一种车辆，其特征在于，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-8中任一项所述的语音交互方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音交互方法的步骤。