CN111209383A

CN111209383A - 多轮对话的处理方法及处理装置、车辆、存储介质

Info

Publication number: CN111209383A
Application number: CN202010009323.2A
Authority: CN
Inventors: 申众; 于淼
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-05-29
Anticipated expiration: 2040-01-06
Also published as: CN111209383B

Abstract

本发明公开了一种多轮对话的处理方法及处理装置、车辆、存储介质。多轮对话的处理方法，包括：基于多任务联合训练模型提取查询文本的多个特征，多任务联合训练模型包括基于预训练模型进行多任务联合微调训练获得的模型；对多个特征进行映射以获取特征结构；将特征结构作为对话状态模型的输入以预测回复文本。本发明实施方式的多轮对话的处理方法，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

Description

多轮对话的处理方法及处理装置、车辆、存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种多轮对话的处理方法及处理装置、车辆、存储介质。

背景技术

智能汽车的人机交互过程中，车载显示屏和语音是两个主要的交互通道，通过语音和中控显示屏进行多轮问答交互也成为车载场景中获取信息的重要方式。在多轮对话状态跟踪中，需要不同维度的特征来对用户的回复进行预测。在相关技术中，认为意图识别、槽位预测或提取是不同独立的任务，因而采用多个模型来分别预测。然而，在真实场景中，需要考虑多模型预测带来架构的复杂性及耗时更高的问题。

发明内容

本发明实施方式提供一种多轮对话的处理方法及处理装置、车辆、存储介质。

本发明实施方式的多轮对话的处理方法，包括：

基于多任务联合训练模型提取查询文本的多个特征，所述多任务联合训练模型包括基于预训练模型进行多任务联合微调训练获得的模型；

对所述多个特征进行映射以获取特征结构；

将所述特征结构作为对话状态模型的输入以预测回复文本。

本发明实施方式的多轮对话的处理方法中，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

在某些实施方式中，基于多任务联合训练模型提取查询文本的多个特征，包括：

基于所述预训练模型对所述查询文本进行多任务联合微调训练以使每个任务的损失函数收敛；

在所述每个任务的损失收敛的情况下，对所述查询文本提取所述多个特征。

在某些实施方式中，基于所述预训练模型对所述查询文本进行多任务联合微调训练以使每个任务的损失函数收敛，包括：

基于所述预训练模型对所述查询文本进行处理以使所述预训练模型输出隐含层向量；

采用所述隐含层向量作为所述多任务的每个任务的输入；

根据所述输入分别确定所述每个任务的损失及所述损失的权重；

根据所述损失的权重交替训练所述每个任务以使对应的损失函数收敛。

在某些实施方式中，根据所述损失的权重交替训练所述每个任务以使对应的损失函数收敛，包括：

确定所述多任务在每个训练周期的一个目标任务；

遮掩除所述目标任务的其他任务的损失，并训练所述目标任务；

交替训练直至完成所述每个任务对应的损失函数收敛。

在某些实施方式中，确定所述多任务在每个训练周期的一个目标任务，包括：

根据所述每个任务对应的损失的权重确定所述目标任务。

在某些实施方式中，所述多个特征包括领域、意图、实体和/或槽位，所述多任务包括领域分类任务、意图分类任务、实体和/或槽位识别任务。

在某些实施方式中，所述特征结构与所述对话状态模型的类型相关。

在某些实施方式中，所述处理方法包括：

获取查询语音；

将所述查询语音转换为所述查询文本。

本发明实施方式的多轮对话的处理装置包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述程序时，实现上述任一实施方式的处理方法。

本发明实施方式的多轮对话的处理装置中，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

本发明实施方式的车辆包括上述实施方式的处理装置。

本发明实施方式的车辆中，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

本发明实施方式的计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行的情况下，实现上述任一实施方式的处理方法。

本发明实施方式的计算机可读存储介质中，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施方式的多轮对话的处理方法的流程示意图；

图2是本发明实施方式的多轮对话的处理方法的过程示意图；

图3是本发明实施方式的多任务联合训练模型的结构示意图；

图4是本发明实施方式的编码器的结构示意图；

图5-图7是本发明实施方式的多轮对话的处理方法的流程示意图；

图8是本发明实施方式的多轮对话的流程示意图；

图9是本发明实施方式的长短期记忆网络模型的结构示意图；

图10是本发明实施方式的多轮对话的处理方法的流程示意图；

图11是本发明实施方式的多轮对话的处理方法的过程示意图；

图12是本发明实施方式的多轮对话的车辆的模块示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1-图3，本发明实施方式提供一种多轮对话的处理方法。处理方法包括：

步骤S12：基于多任务联合训练模型提取查询文本的多个特征，多任务联合训练模型包括基于预训练模型进行多任务联合微调训练获得的模型；

步骤S14：对多个特征进行映射以获取特征结构；

步骤S16：将特征结构作为对话状态模型的输入以预测回复文本。

在本发明实施方式中，可只采用一个模型对用户的查询文本进行预测提取特征，用较小的资源代价即可完成多个特征的预测提取。

具体地，在某些实施方式中，多个特征包括领域、意图、实体和/或槽位，多任务包括领域分类任务、意图分类任务、实体和/或槽位识别任务。可以理解，有些查询文本包括领域、意图、实体和槽位等特征，有些查询文本包括领域、意图和实体等特征，有些查询文本包括领域、意图和槽位等特征。任务与特征相对应，当查询文本的特征包括实体和槽位时，多任务包括实体和槽位识别任务；当查询文本的特征包括实体不包括槽位时，多任务包括实体识别任务；当查询文本的特征包括槽位不包括实体时，多任务包括槽位识别任务。

在其他实施方式中，多个特征可以是其他特征，多任务可以是其他任务，特征与任务相对应，在此不作具体限定。下文以多个特征包括领域、意图、实体和槽位，多任务联合微调训练包括f₁(x₁x₂...x_n)领域分类任务，f₂(x₁x₂...x_n)意图分类任务，f₃(x₁x₂...x_n)实体和槽位识别任务为例进行详细说明。

可以理解，预训练模型+微调训练的模型在不同的自然语言处理(NaturalLanguage Processing，NLP)任务中展现出良好的效果。预训练模型可采用来自Transformer的双向编码器表征(Bidirectional Encoder Representations fromTransformers，BERT)模型，其中，BERTBASE:L＝12，H＝768，A＝12，Total训练模型Parameters＝110M。BERT将Transformer应用于语言模型，Transformer包含两个独立的机制：一个读取文本输入的编码器(encoder)和一个为任务生成预测的解码器(decoder)。由于BERT的目标是生成一个语言模型，所以只需要encoder机制。

预训练模型作为多任务的共享网络层，包括12个编码器，每一个编码器均包括12个attention head。请参阅图4，每个编码器包括两个子层，子层1是多头自注意力(multi-head self-attention)机制，子层2是前馈神经网络。多头自注意力机制能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。通过多头注意力(multi-head self-attention)机制处理数据，然后将数据进行层正则化(LayerNorm(x+z))，再把数据送给前馈(Feed Forward)神经网络，通过相加&正则化(Add&Normalize)得到的输出会输入到下一个编码器。

在编码器中，两个子层间采用残差连接，然后进行层正则化。残差连接允许梯度直接流过前馈神经网络而不经过非线性激活函数，这样做是因为非线性激活函数本质上是非线性的，容易导致梯度爆炸或消失。正则化有助于解决内部协变量偏移的问题。当网络学习并且权重被更新时，网络中特定层的输出分布发生变化，迫使较高层适应该漂移，这会减慢学习速度。

预训练模型作为多任务的共享网络层，其输出作为多任务联合微调训练的输入。在图3的实施例中，多任务包括领域分类任务、意图分类任务、实体和槽位识别任务，三者的微调网络结构分别连接共享网络层。可以理解，在预训练模型的基础上开展多任务联合微调训练可得到多任务联合训练模型。

请参阅图5，在某些实施方式中，步骤S12包括：

步骤S122：基于预训练模型对查询文本进行多任务联合微调训练以使每个任务的损失函数收敛；

步骤S124：在每个任务的损失收敛的情况下，对查询文本提取多个特征。

如此，使对查询文本所提取的多个特征具备良好的精度。每个任务的损失函数收敛，即每个任务的损失收敛。损失收敛，可理解为损失在一定区间的抖动。

进一步地，请参阅图6，步骤S122包括：

步骤S1222：基于预训练模型对查询文本进行处理以使预训练模型输出隐含层向量；

步骤S1224：采用隐含层向量作为多任务的每个任务的输入；

步骤S1226：根据输入分别确定每个任务的损失及损失的权重；

步骤S1228：根据损失的权重交替训练每个任务以使对应的损失函数收敛。

可以理解，用户的查询文本通常为一句话。在步骤S1222中，将用户的查询文本转换成一个向量序列[h1，h2...hn]，hi代表一句话中的第i个字。hi可经过线性转换为qi，ki，vi(query，key，value)三个向量，通过计算qi和ki向量的softmax正则点积来代表字对之间的注意力(attention)权重：

将权重与vi向量的乘积相加求和得到输出：

o_i代表一个attention head的输出，每一个编码器使用12个attentionhead处理。经过12个编码器处理之后，共享网络层(即预训练模型)最终输出隐含层向量[x1，x2...xn]，n与共享网络层的网络结构相关。

步骤S1224中，多任务中的每个任务采用共享网络层的输出(隐含层向量)作为各自输入。设Li代表第i个任务的Loss，wi代表对应Loss的权重，多任务子层的整体损失函数定义为：

在步骤S1226中，根据隐含层向量[x1，x2...xn]分别确定每个任务的损失及损失的权重，以用于步骤S1228中进行多任务微调联合训练。

在步骤S1228中，微调训练阶段对多任务中的每个任务采用交替训练的方法。微调训练阶段包括多个训练周期(epoch)。交替训练是指在不同训练周期，向共享网络层输入(feed)不同任务的训练数据，每个训练周期选择不同的任务。每个训练周期的学习目标是使对应目标任务的损失函数收敛，优化目标任务的损失。

在本实施方式中，对于领域、意图等分类任务来说损失函数可以用交叉熵来表示，其中K代表类别标签的个数，p(y_k)代表在第k个标签的概率，在微调训练阶段其损失函数可以定义为：

对于实体和槽位识别任务，可以看作序列标注(sequence tagging)任务，使用共享网络层的输出作为该任务的编码器输出，则只需要重新考虑解码器阶段。假如设计上需要n类标签(tags)，则定义转移矩阵W∈R^n×k和b∈Rⁿ，s代表一个打分向量：s∈Rⁿ＝W·h+b。s(i)则代表词w被预测成第i类标签的概率。对于输入长度为k的一句话，则学习目标就是找到一个最大概率序列y(s1，s2...sk)，si代表第i个词被预测的标签。上述过程可以通过线性链条件随机场(Conditional Random Field，CRF)来找到W同时找到最佳的得分序列。在训练阶段，

代表正确的标注序列，其损失函数可以定义为：

的概率定义为：

localsoftmax:

其中，C代表序列的CRF得分，Z代表对所有可能序列的CRF得分和的softmax形式。

更进一步地，请参阅图7，步骤S1228包括：

步骤S12282：确定多任务在每个训练周期的一个目标任务；

步骤S12284：遮掩除目标任务的其他任务的损失，并训练目标任务；

步骤S12286：交替训练直至完成每个任务对应的损失函数收敛。

具体地，步骤S12282包括：根据每个任务对应的损失的权重确定目标任务。

假设x是输入，f_w(x)是共享网络层的输出，对于分类任务来说，x在任务y的概率可以表示为：

p(y|f_w(x))＝softmax(f_w(x))。

对于多个子任务[y1，y2...yn]来说，概率定义如下：

p(y₁y₂...y_n|f_w(x))＝p(y₁|f_w(x))·p(y₂|f_w(x))...p(y_n|f_w(x))。

从似然的角度来看，对于某个具体分类任务在共享网络条件下，输入为x预测为该任务标签c的概率可以表示为：

考虑两个分类任务：

由上述公式可知，在训练阶段采用遮掩其他任务损失的前提下，先训练其中一个目标任务，最终通过任务不断交替学习可完成整体任务收敛，使每个任务对应的损失函数收敛，优化对应任务的损失。在本发明实施方式中，训练阶段的任务选择器根据每个任务的损失的权重wi转化成概率选出参与训练的目标任务，其他任务的微调网络结构被遮掩参数不更新，只有被选中的目标任务的微调网络结构进行参数更新。在当前训练周期的目标任务训练完成后，根据每个任务的损失的权重wi转化成概率选出下一个训练周期参与训练的目标任务，不断交替训练直至完成每个任务对应的损失函数收敛。例如，当前训练周期参与训练的目标任务为意图分类任务，则领域分类任务、实体和槽位识别任务的微调网络结构被遮掩，只有意图分类任务的微调网络结构进行参数更新。每一个训练周期，共享网络层均参与梯度传递并且参数一直更新。任务的损失的权重wi可以采用随机或者根据数据集数量，以及数据分布等因素来确定。

在一个实施例中，多任务联合微调训练包括领域分类任务、意图分类任务、实体和槽位识别任务。在微调训练阶段，包括99个训练周期，随机分配进行训练，则每个任务训练33个训练周期。在其他实施方式中，可以根据对应任务的损失的权重wi确定训练的训练周期数量。

请参阅表1和表2，对查询文本“G3白色尊享版何时能交付”提取领域、意图、实体和槽位多个特征。其中，表1表示多任务联合训练模型的输入是什么，多任务联合训练模型的输出是什么。表2定义从一句话中抽出来的东西是哪些及其类别。

表1

表2

领域(Domain)：售前
	意图(Intent)：车辆交付时间
实体(Entity)：交付/何时
	槽位(Slot)：白色/尊享版/G3

请参阅图8，在整个多轮对话的过程中，步骤S14的特征映射起着关键的作用，其主要作用是将不同类型的特征通过映射转化为下一步模型处理的特征结构。整个多轮对话的主要流程如下：

1.用户发起查询会话；

2.对话管理根据用户标识(uid)请求对话堆栈；

3.对话堆栈返回用户历史对话信息；

4.对话管理请求自然语言理解(Natural Language Understanding，NLU)；

5.多任务联合训练模型返回明文的领域、意图、实体和槽位等特征；

6.对话管理请求将多轮特征进行特征映射；

7.将明文的特征根据特征映射映射转换为特征结构；

8.对话管理请求对话状态模型预测回复文本；

9.对话状态模型返回回复文本。

在本实施例中，根据联合训练得出的内容将第一阶段预测出来的领域、意图、实体和槽位等特征进行特征选择和转换，根据特征映射(feature_map)将特征转化成适合对话状态模型需要的特征结构。可以理解，特征结构与对话状态模型的类型相关。对话状态模型包括长短期记忆网络(Long Short-Term Memory，LSTM)模型、双向长短期记忆网络(bidirectional Long Short-Term Memory，Bi-LSTM)模型，注意力(Attention)模型，深度强化学习(Deep Reinforce learning，Deep RL)模型，可以采用其中任一种模型来预测回复文本。通过特征映射，可以将步骤S12提取的多个特征灵活地转为对话状态模型直接需要的特征结构，通过特征映射，可以使用更丰富的特征表示形式，以适配多种对话状态模型。在对话状态模型的类型为长短期记忆网络模型的情况下，特征结构为特征矩阵。特征映射示例如下：

意图：1000元电卡更换家充桩 0

意图：APP如何显示车辆信息 1

意图：APP如何查看车辆状态 2

.........

实体：item_car_type 146

实体：item_money 147

实体：close_sound_state_forever 148

实体：close_sound_state_tmp 149

........

槽位：g3_color_0 170

槽位：g3_edition_0 171

槽位：g3_endurance_0 172

其中，意图：1000元电卡更换家充桩0，“意图：1000元电卡更换家充桩”为特征，“1000元电卡更换家充桩”为意图的标签，“0”代表在向量中的索引位置。

明文的特征，例如：{“意图交付时间_意图_text”，“G3_车型槽位_text”，“白色_颜色槽位_text”“交付_实体_text”......}。假设用户的对话窗口显示5轮历史对话，并且每一轮包含一个问题和一个回答，而特征维度是n，以对话状态模型为长短期记忆网络模型为例，领域、意图、实体和槽位等特征经过特征映射获取的特征结构是一个10×n的特征矩阵：

[[0,0,0,0,0,0,0......0]

......

[0,1,0,1,0,0,0......1]

]

请参阅图9，以对话状态模型为长短期记忆网络模型为例，领域、意图、实体和槽位等特征经过特征映射获取的特征结构是一个10×n的特征矩阵，特征矩阵包括特征向量[x0，x1，...x10]。在步骤S16中，将步骤S14输出的特征向量[x0，x1，...x10]输入到图9所示的LSTM网络中。

将每一轮的回复对话可以转化为多分类预测问题，对“G3何时能交付”场景来说，整理不同的回复文本类别示例如下：

补充颜色
	补充内饰颜色
补充续航里程
	补充车型配置(尊享版、智享版、悦享版)
你选择的车型最早于XXXX年XX月交付
	......

请参阅图10，在某些实施方式中，处理方法包括：

步骤S10：获取查询语音；

步骤S11：将查询语音转换为查询文本。

可以理解，查询文本可由用户输入的查询语音转换而成。具体地，可利用自动语音识别技术(Automatic Speech Recognition，ASR)将用户的查询语音转换为查询文本，以便后续对查询文本进行处理。

本发明实施方式的多轮对话的处理方法可应用于车辆。在用户启动车辆的多轮对话功能的情况下，可通过车载麦克风采集用户的查询语音，在获取查询语音后将查询语音转换为查询文本，以便对查询文本进行后续处理预测回复文本。回复文本可通过车载显示屏(如中控大屏)显示，或扬声器语音播放。当然，回复文本也可以发送到与车辆通信的移动终端，通过移动终端显示或语音播报回复文本。移动终端可以是手机、平板电脑、智能可穿戴设备等。

请参阅图11，图11为本发明实施方式的多轮对话的处理方法的具体实施例。

请参阅图12，本发明实施方式一种多轮对话的处理装置10。处理装置10包括存储器12和处理器14。存储器12存储有计算机程序，处理器14执行程序时，实现上述任一实施方式的处理方法。

本发明实施方式的多轮对话的处理装置10中，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

可以理解，存储器12存储有多任务联合训练模型、特征映射关系、对话状态模型等，处理器14可从存储器12调用相关模型或数据以执行程序，从而实现上述实施方式的处理方法。上述实施方式的多轮对话的处理方法的解释说明和有益效果也适用于本实施方式的多轮对话的处理装置10，为避免冗余，在此不再详细展开。

在本发明中，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。存储器12可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器14可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

请参图12，本发明实施方式提供一种车辆100，车辆100包括上述实施方式的处理装置10。

本发明实施方式的多轮对话的车辆中，采用多任务联合训练模型提取查询文本的多个特征，然后进行特征映射并预测回复文本。由于只采用多任务联合训练模型对查询文本进行预测，减少了使用资源，架构相对简单且方便扩展。

可以理解，处理装置10可以是车辆100的车载控制器的一部分。车辆100还包括麦克风20和车载显示屏30等。麦克风20可以采集用户的查询语音，处理装置10可以通过语音识别将查询语音转换为查询文本，通过对查询文本的处理预测回复文本，车载显示屏30可以作为对话窗口以显示历史对话及回复文本。

本发明实施方式的计算机可读存储介质，其上存储有计算机程序，程序被处理器执行的情况下，实现上述任一实施方式的处理方法。

例如，程序被处理器执行的情况下，实现以下处理方法：

步骤S14：对多个特征进行映射以获取特征结构；

计算机可读存储介质可设置在车辆，也可设置在服务器等终端，车辆能够与终端进行通讯来获取到相应的程序。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多轮对话的处理方法，其特征在于，包括：

对所述多个特征进行映射以获取特征结构；

将所述特征结构作为对话状态模型的输入以预测回复文本。

2.根据权利要求1所述的处理方法，其特征在于，基于多任务联合训练模型提取查询文本的多个特征，包括：

3.根据权利要求2所述的处理方法，其特征在于，基于所述预训练模型对所述查询文本进行多任务联合微调训练以使每个任务的损失函数收敛，包括：

采用所述隐含层向量作为所述多任务的每个任务的输入；

4.根据权利要求3所述的处理方法，其特征在于，根据所述损失的权重交替训练所述每个任务以使对应的损失函数收敛，包括：

确定所述多任务在每个训练周期的一个目标任务；

交替训练直至完成所述每个任务对应的损失函数收敛。

5.根据权利要求4所述的处理方法，其特征在于，确定所述多任务在每个训练周期的一个目标任务，包括：

根据所述每个任务对应的损失的权重确定所述目标任务。

6.根据权利要求1-5任一项所述的处理方法，其特征在于，所述多个特征包括领域、意图、实体和/或槽位，所述多任务包括领域分类任务、意图分类任务、实体和/或槽位识别任务。

7.根据权利要求1所述的处理方法，其特征在于，所述特征结构与所述对话状态模型的类型相关。

8.根据权利要求1所述的处理方法，其特征在于，所述处理方法包括：

获取查询语音；

将所述查询语音转换为所述查询文本。

9.一种多轮对话的处理装置，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述程序时，实现权利要求1-8任一项所述的处理方法。

10.一种车辆，其特征在于，包括权利要求9所述的处理装置。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行的情况下，实现权利要求1-8任一项所述的处理方法。