CN114005447A

CN114005447A - 一种语音对话交互方法、装置、车辆及介质

Info

Publication number: CN114005447A
Application number: CN202111345478.4A
Authority: CN
Inventors: 赵晓朝
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-01

Abstract

本发明公开了一种语音对话交互方法、装置、车辆及介质。该方法包括：获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息；分别对每条人机对话消息做出响应。本发明实施例通过对人机对话语音数据的多路语义理解，解决了全车语音交互系统无法同时处理多条交互请求的问题，全面提升了全车语音交互方案，实现了有问必答、自然交互的用户体验。

Description

一种语音对话交互方法、装置、车辆及介质

本发明实施例涉及计算机技术，尤其涉及一种语音对话交互方法、装置、车辆及介质。

背景技术

随着智能车渐渐走入千家万户，人们在体验到智能交互给行车带来的便捷操控的同时，也对车内的交互体验提出更高的要求——全车语音交互。

全车语音交互系统的实现通常依赖多音区语音识别技术。多音区语音识别技术目前相对成熟，这就为全车语音交互奠定了信号感知层面的基础。多音区语音识别技术包括全车多路拾音、人声定位、降噪、回声消除和语音唤醒，能够定位语音指令的发出者以及识别结果。现有的多音区语音识别技术已经可以支持4路以上人声分离和6路以上音区检测，声源定位准确率高达95％，能够基本满足车载场景的多音区语音识别需求。

然而，现有的全车语音交互系统通常遵循“谁唤醒听谁的”原则，不能满足多人同时提出交互请求的场景，给用户(尤其是后排乘客)带来需求难以满足的问题；遵循“谁唤醒听谁的”原则，导致车内需要每次通过唤醒来切换与车辆对话的人，大大降低了语音交互的智能感和操作便捷性；同时，对于多说话人对话场景(混合了人人对话和人机对话)，目前的交互系统缺乏会话边界的系统性分辨能力，导致误触发系统技能或者未响应用户。因此需要解决全车语音交互中无法同时处理多条交互请求的问题，打破当前“谁唤醒听谁的”的交互模式。

发明内容

本发明实施例提供一种语音对话交互方法、装置及系统，能够全面提升全车语音交互方案，实现有问必答、自然交互的用户体验。

第一方面，本发明实施例提供了一种语音对话交互方法，应用于车辆，语音对话交互方法包括：

获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；

对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息；

分别对每条人机对话消息做出响应。

第二方面，本实施例还提供了一种语音对话交互装置，语音对话交互装置安装在车辆上，语音对话交互装置包括：

数据获取模块，用于获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；

消息提取模块，用于对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息；

消息响应模块，用于分别对每条人机对话消息做出响应。

第三方面，本发明实施例还提供了一种车辆，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如本发明实施例中任一项的语音对话交互方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一项的语音对话交互方法。

本发明实施例中，通过获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息；分别对每条人机对话消息做出响应。本发明实施例通过对人机对话语音数据的多路语义理解，解决了全车语音交互系统无法同时处理多条交互请求的问题，全面提升了全车语音交互方案，实现了有问必答、自然交互的用户体验。

附图说明

图1为本发明实施例的语音对话交互方法的一个流程示意图；

图2是本发明实施例的语音对话交互方法的另一流程示意图；

图3是本发明实施例的语音对话交互装置的一个结构示意图；

图4为本发明实施例的车辆的一个结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外，在本发明实施例中，“可选的”或者“示例性的”等词用于表示作例子、例证或说明。本发明实施例中被描述为“可选的”或者“示例性的”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“可选的”或者“示例性的”等词旨在以具体方式呈现相关概念。

图1是本发明实施例的语音对话交互方法的一个流程示意图，该方法可适用在车辆中进行语音交互的场景，该方法可以由本发明实施例提供的语音对话交互装置来执行，该装置可以采用软件和/或硬件的方式实现。在一个具体的实施例中，该装置可以集成在车辆中。以下实施例将以该装置集成在车辆中为例进行说明，参考图1，本发明实施例的方法具体包括如下步骤：

S101、获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据。

其中，人机对话是指机器理解和引用自然语言实现人和机器之间的交流。

具体的，当人机进行对话时，获取人机对话语音数据，例如可以是，通过录音功能直接对人机对话语音数据进行录取，或者可以是，通过调用wavrecord()函数对人机对话语音数据进行录制，得到语音文件等，本实施例对此不进行限定。录取的人机对话语音数据包含至少两条人机对话消息，实现多人同时与车辆对话的场景下的人机交互。

示例性的，一个车辆内存在两个请求用户，两个请求用户同时对车辆发送请求，例如用户A发送开窗请求、用户B发送放音乐请求，此时车辆同时得两条人机对话消息，这两条人机对话消息共同组成人机对话语音数据。

S120、对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息。

其中，多路语义理解是指当多个用户同时与车辆进行人机对话的时候，对人机对话语音数据进行语义分析和语用分析，分析每个用户的需求和意图。语义分析通常由意图和槽位信息构成，一个意图对应一个用户的需求，每个任务有多种类型的意图，每个意图有多个槽位信息。语用分析主要是分析用户的交际功能，例如询问、回答和陈述等。

具体的，当多个用户同时进行人机交互，得到人机对话语音数据，再分离提取多条人机对话消息，理解每条人机对话消息的内容和意图。

示例性的，当用户A发起一个请求，同时用户B发起另一个请求，譬如用户A发送打开音乐播放功能的请求，用户B发送电影票预定的请求，每个请求对应一条人机对话消息，车辆同时接收到包括这两条人机对话消息的人机对话语音数据，理解到用户A的意图是播放音乐，用户A的语用是陈述一个动作；用户B的意图是电影票预定和取消预定等，用户B的语用是询问，是否有电影院，某天几点去看，几个人等。

S130、分别对每条人机对话消息做出响应。

具体的，车辆接收到不同的用户发出的多条人机对话消息，分别对多条人机对话消息做出响应的结果。

示例性的，当用户A发出打开主驾驶车窗的人机对话消息和用户B发出播放音乐的人机对话消息时，车辆将同时对两种人机对话请求进行执行，在打开主驾驶车窗的同时播放音乐。

可选的，每条人机对话消息相互独立。

具体的，每条人机对话消息之间相互不影响，可以分别对不同用户的每一条人机对话进行执行处理。

示例性的，当用户A和用户B分别进行人机对话时，车辆分别对用户A和用户B的请求同时进行执行，而不是依次执行或者只执行一个用户的人机对话消息。这样设置的好处在于：解决全车语音交互系统无法同时处理多条交互请求的问题，全面提升车内语音交互的体验。

本发明实施例的技术方案中，通过获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息；分别对每条人机对话消息做出响应。本发明实施例通过对人机对话语音数据的多路语义理解，解决了全车语音交互系统无法同时处理多条交互请求的问题，全面提升了全车语音交互方案，实现了有问必答、自然交互的用户体验。

图2是本发明实施例的语音对话交互方法的另一流程示意图，该语音对话交互方法在上述实施例的基础上，对获取人机对话语音数据进一步优化，该方法具体包括如下步骤：

S210、获取语音对话数据，语音对话数据包括人机对话语音数据和人人对话语音数据。

其中，人机对话语音数据是指在车辆中，用户和车辆之间的对话；人人对话语音数据是指车辆内用户和用户之间的对话。

S220、对语音对话数据进行会话分割，去除人人对话语音数据，得到人机对话语音数据。

具体的，首先对于获取的语音对话数据进行自然语言理解，把用户话语分析为预定义的语义槽，通常是句子级别的分类，例如，用户意图和句子的种类；还可以是词级别的信息抽取。然后对输入的对话数据(包含人机对话和人人对话)进行进一步的分割，确定哪些是人人对话语音数据，哪些是人机对话语音数据。

进一步的，对语音对话数据进行会话分割，去除人人对话语音数据，得到人机对话语音数据，包括：

(1)获取基于深度学习构建的判别模型。

其中，基于深度学习，使用深度神经网络(Deep Neural Networks，DNN)构建判别模型，提取多人对话语音数据的音频特征，例如可以是，Fbank(FilterBank)特征，或者可以是，梅尔频率倒谱系数(Mel-frequency cepstral coefficients，MFCC)等，本实施例对此不进行限定。

具体的，通过深度神经网络，输入多人对话语音数据，并进行处理提取深度语音特征，并且利用自动语音识别(Automatic Speech Recognition，ASR)，通过Bert神经网络模型，对多人对话语音数据进行预训练处理，将人的语音识别为文本，提取深度语义特征；进一步结合深度语音特征和深度语义特征，经过神经网络的注意力机制进行特征融合，实现基于深度学习构建的判别模型。

(2)将语音对话数据输入判别模型，得到人机对话语音数据和人人对话语音数据。

具体的，将获取的语音对话数据输入通过结合深度语音特征和深度语义特征构建的判别模型，获取深入融合特征，然后将深度融合特征输入到DNN神经网络中，进行分类处理，最后输出分类结果，得到人机对话语音数据和人人对话语音数据。示例性的，当我们采集了人人对话语音数据有50条，人机对话语音数据有50条，依次对这100条对话语音数据进行标签，人人对话语音数据为标签1，人机对话语音数据为标签2，然后随机从这100条对话语音数据中选择60％作为训练集，剩余40％作为测试集，输入神经网络模型进行训练，最后得到判别模型，当再一次输入语音对话数据后，系统可以自动判断语音对话数据中哪些是人人对话语音数据哪些是人机对话语音数据。

(3)去除人人对话语音数据。

具体的，根据神经网络模型分割输入的语音对话数据，再将得到的人人对话语音数据直接滤除。

S230、对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息。

S240、分别对每条人机对话消息进行意图识别和槽位提取，确定每条人机对话消息的请求用户和请求内容。

其中，意图识别是指根据人机对话消息，判断用户要做什么，比如用户问了一个问题，于是判断这个用户问的是天气、旅游等；槽位提取是意图的具体分类，每一个意图都对应多个槽位提取信息，比如当用户输入人机对话消息是电影院预定，在电影院预定这个意图中对应的槽位有影院、看电影的日期和看电影的人数等多个槽位提取，分别确定每条对信息的请求用户是哪一位，每一位的请求内容又是那些。

具体的，基于Bert模型和DNN网络模型进行各路独立意图识别，通过Bert模型和条件随机场(Conditional Random Field，CRF)模型进行槽位提取，确定每条人机对话消息的实体内容，然后得到每条人机对话消息的请求用户和请求内容。

示例性的，在四座车辆内，当副驾驶说“打开车窗”，同时后排右侧乘客说“播放最新一期某某综艺”，那么同时将副驾-“打开车窗”和右后“播放最新一期某某综艺”输入判别模型，然后对应输出副驾：“意图”-“打开车窗”，“槽位”-“车窗位置：副驾”；同时输出右后：“意图”-“播放最新一期某某综艺”，“槽位”-“名称：某某综艺、期数：最新一期”。

可选的，本发明提供的方案还可以判断至少两条人机对话消息的请求内容是否发生冲突；若判断结果为是，则去除发生冲突的人机对话消息；若判断结果为否，则保留至少两条人机对话消息。

具体的，对多条人机对话消息的请求内容进行语义融合，车内有多个用户和多个位置分别相对应，经过融合每一个车位置上的语义理解结果，推理出不同位置上的用户发出的不同指令，根据不同用户发出的指令，去推理判断。

示例性的，在四座车辆内，当副驾驶说“打开车窗”，同时后排右侧乘客说“播放最新一期某某综艺”，此时车辆会同时理解多个说话的用户，经过综合分析发现，副驾驶和右后排都是跟车辆进行语音信息交互，且需求的内容是不容的内容信息，所以需求不曾存在冲突，返回输出的结果是：“副驾-打开车窗和右后-播放最新一期某某综艺”。如果副驾驶要求打开氛围灯，同时右后的用户要求氛围灯关闭，此时判断语音意图冲突，返回输出无法执行的结果是：“语义冲突，无法执行”。

S250、分别对每条人机对话消息做出响应。

S260、将每条人机对话消息的请求用户和请求内容填充至模板槽位，生成并播放语音响应数据。

其中，模板槽位是指对每条人机对话语音数据有对应的模板结构，例如可以是，传统的基于规则模板的自然语言生成技术系统；或者可以是，基于长短期记忆网络(LongShort-Term Memory，LSTM)的encoder-decoder的形式，将问题信息、语义槽位和对话类型结合，利用注意力机制来处理对解码器当前解码状态的关键信息，根据不同的语义类型生成不同的回复，本实施例对此不进行限定。

具体的，将每条人机对话消息的请求用户和请求内容进行语义解析并且填充至模板对应的槽位，根据人机对话消息的内容和意图生成不同的回复模型，同时通过车辆人机交互的麦克风播放语音响应数据。

示例性的，当用户发送请求“想看最新一期某某综艺”，本对话通过系统解析，解析到的意图是搜索音频，槽位包括名称是某某综艺、期数是最新一期，然后系统通过内容提供商接口查询视频数据内容，结果检索到一条视频，视频内容包括名称是某某综艺、期数是第五期、副标题是XXX和出品人是张三，此时需要把搜索内容通过播报的形式通知用户，若提前设置了一个搜索音频意图的模板，如“为您找到一个视频(名称)(期数)”，马上为您播放，那么车辆人机交互会结合搜索数据，把数据视频中的槽位填充到模板对应的位置，生成一句回复，如：为您找到一个视频(某某综艺)(第五期)，马上为您播放。

图3是本发明实施例的语音对话交互装置的一个结构示意图，如图3所示，该语音对话交互装置具体包括：数据获取模块310、消息提取模块320和消息响应模块330。其中，

数据获取模块310、用于获取人机对话语音数据，人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；

消息提取模块320、用于对人机对话语音数据进行多路语义理解，提取至少两条人机对话消息；

消息响应模块330、用于分别对每条人机对话消息做出响应。

可选的，数据获取模块310，具体用于：获取语音对话数据，语音对话数据包括人机对话语音数据和人人对话语音数据；对语音对话数据进行会话分割，去除人人对话语音数据，得到人机对话语音数据。

可选的，数据获取模块310，具体用于：获取基于深度学习构建的判别模型；将语音对话数据输入所述判别模型，得到人机对话语音数据和人人对话语音数据；去除人人对话语音数据。

可选的，该装置还包括消息确定模块，用于：分别对每条人机对话消息进行意图识别和槽位提取，确定每条人机对话消息的请求用户和请求内容。

可选的，消息确定模块，具体用于：判断所述至少两条人机对话消息的请求内容是否发生冲突；若判断结果为是，则去除发生冲突的人机对话消息；若判断结果为否，则保留所述至少两条人机对话消息。

可选的，该装置还包括语音播放模块，用于：将每条人机对话消息的请求用户和请求内容填充至模板槽位，生成并播放语音响应数据。

可选的，每条人机对话消息相互独立。

本发明实施例所提供的一种语音对话交互装置，可执行本发明任意实施例所提供的语音对话交互方法，具备执行方法相应的功能模块和有益效果。

图4为本发明实施例的车辆的一个结构示意图，如图4所示，该车辆包括处理器410、存储器420、输入装置430和输出装置440；车辆中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；车辆中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音对话交互方法对应的程序指令/模块(例如语音对话交互装置中的数据获取模块310、消息提取模块320和消息响应模块330)，处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行车辆的各种功能应用以及数据处理，即实现上述的语音对话交互方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与车辆的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

本发明实施例还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种语音对话交互方法，该方法包括：

分别对每条人机对话消息做出响应。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音对话交互方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音对话交互方法，其特征在于，包括：

获取人机对话语音数据，所述人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；

对所述人机对话语音数据进行多路语义理解，提取所述至少两条人机对话消息；

分别对每条人机对话消息做出响应。

2.根据权利要求1所述的语音对话交互方法，其特征在于，所述获取人机对话语音数据，包括：

获取语音对话数据，所述语音对话数据包括人机对话语音数据和人人对话语音数据；

对所述语音对话数据进行会话分割，去除所述人人对话语音数据，得到所述人机对话语音数据。

3.根据权利要求2所述的语音对话交互方法，其特征在于，所述对所述语音对话数据进行会话分割，去除所述人人对话语音数据，得到所述人机对话语音数据，包括：

获取基于深度学习构建的判别模型；

将所述语音对话数据输入所述判别模型，得到所述人机对话语音数据和所述人人对话语音数据；

去除所述人人对话语音数据。

4.根据权利要求1-3中任一所述的语音对话交互方法，其特征在于，在提取所述至少两条人机对话消息后，还包括：

分别对每条人机对话消息进行意图识别和槽位提取，确定每条人机对话消息的请求用户和请求内容。

5.根据权利要求4所述的语音对话交互方法，其特征在于，还包括：

判断所述至少两条人机对话消息的请求内容是否发生冲突；

若判断结果为是，则去除发生冲突的人机对话消息；

若判断结果为否，则保留所述至少两条人机对话消息。

6.根据权利要求4所述的语音对话交互方法，其特征在于，在分别对每条人机对话消息做出响应后，还包括：

将每条人机对话消息的请求用户和请求内容填充至模板槽位，生成并播放语音响应数据。

7.根据权利要求1-3、5-6中任一所述的语音对话交互方法，其特征在于，每条人机对话消息相互独立。

8.一种语音对话交互装置，其特征在于，所述装置包括：

数据获取模块，用于获取人机对话语音数据，所述人机对话语音数据包括至少两条人机对话消息，每条人机对话消息为一个请求用户与车辆的对话数据；

消息提取模块，用于对所述人机对话语音数据进行多路语义理解，提取所述至少两条人机对话消息；

消息响应模块，用于分别对每条人机对话消息做出响应。

9.一种车辆，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的语音对话交互方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的语音对话交互方法。