CN116483960B

CN116483960B - 对话识别方法、装置、设备以及存储介质

Info

Publication number: CN116483960B
Application number: CN202310332714.1A
Authority: CN
Inventors: 任爱林
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2024-01-02
Anticipated expiration: 2043-03-30
Also published as: CN116483960A

Abstract

本公开提供了一种对话识别方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及语言识别、图像识别、语义理解、自动驾驶等技术领域。具体实现方案为：根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息，其中，该至少一条第一对话包括在该第二对话之前发生的对话；对该待处理信息进行指令识别，得到指令识别结果。根据本公开实施例，可以将第二对话之前发生的第一对话与第二对话的多模态信息结合，能够得到更加准确的识别结果的准确性。

Description

对话识别方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语言识别、图像识别、语义理解、自动驾驶等技术领域。

背景技术

在采用语音助手识别人机交互对话应用，全双工可以指语音助手和人可以同时说和听以实现双向沟通。在全双工的场景下，人们之间的交谈可能影响语音助手的识别结果。例如，车辆内部空间小，人与人之间的距离近，人与车机的距离也近。车机中的车载语音助手可能无法准确识别出，某个对话是人与人之间的对话，还是需要人机交互的对话。

发明内容

本公开提供了一种对话识别方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种对话识别方法，包括：

根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息；其中，该至少一条第一对话包括在该第二对话之前发生的对话；

根据该待处理信息进行指令识别，得到指令识别结果。

根据本公开的另一方面，提供了一种对话切分模型的训练方法，包括：

将至少一条样本对话输入待训练的对话切分模型，得到该待训练的对话切分模型输出的切分标签；

根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签，对该待训练的对话切分模型进行更新；

在更新后的对话切分模型满足训练完成条件的情况下，得到训练后的对话切分模型。

根据本公开的另一方面，提供了一种对话识别装置，包括：

信息获取模块，用于根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息；其中，该至少一条第一对话包括在该第二对话之前发生的对话；

指令识别模块，用于根据该待处理信息进行指令识别，得到指令识别结果。

根据本公开的另一方面，提供了一种对话切分模型的训练装置，包括：

处理模块，用于将至少一条样本对话输入待训练的对话切分模型，得到该待训练的对话切分模型输出的切分标签；

更新模块，用于根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签，对该待训练的对话切分模型进行更新；

训练完成模块，用于在更新后的对话切分模型满足训练完成条件的情况下，得到训练后的对话切分模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

根据本公开实施例，可以将第二对话之前发生的第一对话与第二对话的多模态信息结合，能够得到更加准确的识别结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的对话识别方法的流程示意图；

图2是根据本公开另一实施例的对话识别方法的流程示意图；

图3是根据本公开另一实施例的对话识别方法的流程示意图；

图4是根据本公开另一实施例的对话识别方法的流程示意图；

图5是根据本公开另一实施例的对话识别方法的流程示意图；

图6是根据本公开另一实施例的对话识别方法的流程示意图；

图7是根据本公开一实施例的对话切分模型的训练方法的流程示意图；

图8是根据本公开另一实施例的对话切分模型的训练方法的流程示意图；

图9是根据本公开另一实施例的对话切分模型的训练方法的流程示意图；

图10是根据本公开的对话识别流程图；

图11是根据本公开的模型架构图；

图12是根据本公开一实施例的对话识别装置的结构示意图；

图13是根据本公开另一实施例的对话识别装置的结构示意图；

图14是根据本公开一实施例的对话切分模型的训练装置的结构示意图；

图15是根据本公开另一实施例的对话切分模型的训练装置的结构示意图；

图16是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在全双工的场景下，车载语音助手和人可以同时说和听，从而完成双向沟通，用户的体验会更好。例如，车载语音助手的拒识方案包括单模态方案或多模态方案。其中，单模态方案是仅通过语音识别识别之后的指令文本，来进行是否为人机交互的二分类。多模态方案可以使用视觉信息、文本信息及语音信息进行多模态的融合，再对指令进行是否为人机交互的二分类。

采用多模态方案，对于聊天场景下不是人机交互但类似人机交互的指令的对话，可能会发生误判。比如，主驾和副驾在聊天过程中，有一句对话“你唱一首XXX这首歌”。单独通过该对话的多模态信息进行识别，并不能准确判断出是否包括人机交互的指令。

图1是根据本公开一实施例的对话识别方法的流程示意图，该方法包括：

S101、根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息；其中，该至少一条第一对话包括在该第二对话之前发生的对话；

S102、根据该待处理信息进行指令识别，得到指令识别结果。

本公开实施例中，对话可以包括人们交谈过程中的视频、音频等数据。一条对话可以包括人们说一句话对应的音频和/或视频，也可以包括人们说多句话对应的音频和/或视频等数据。多模态信息是相较于单模态信息而言的，单模态信息包括一种类型的数据。例如，单模态信息包括从音频中识别出的文本数据。多模态信息可以包括多种类型的数据。多模态信息也可以称为多模态数据。例如，多模态信息可以包括音频数据、视频数据、从音频数据中识别出的文本信息和文本特征，从视频数据或图像中识别出的视觉特征、对话发生的时间信息、对话被拒识的记录等的一种或多种。

在一些示例中，第一对话可以为历史对话，第二对话可以为当前对话。第一对话在第二对话之前发生。历史对话的多模态信息可以按照时间顺序保存在某些存储空间中。

在一些示例中，在通过声音采集装置和/或图像采集装置采集到当前对话后，可以从该存储空间中读取与该当前对话连续的几句历史对话的多模态信息。例如，车辆内，副驾正在说话，车载传感器如麦克风，按照时间顺序接收了如下音频，“你好”，“我是A”，“请到XX大厦”。其中，当前的第二对话可以为“请到XX大厦”，“你好”和“我是A”可以分别为两个第一对话，也可以一起作为一个第一对话。此外，车载传感器如摄像头，还可以录制副驾这段时间的视频，并将音频和视频按时间戳一起存储或分别存储。

在一些示例中，可以定期对历史对话进行切分，得到多个对话片段。在通过声音采集装置和/或图像采集装置采集到当前对话后，然后读取与当前对话时间间隔最近的对话片段的多模态信息。

本公开实施例中，可以选取一个或多条第一对话的多模态信息或者与当前对话时间间隔最近的对话片段的多模态信息后，可以与第二对话的多模态信息一起组合得到待处理信息。例如，先获取第一对话D11、D12、D13的多模态信息和第二对话D2的多模态信息，然后将第一对话D12、D13和该第二对话D21的多模态信息组合为待处理信息A。再如，先获取包括第一对话D14、D15、D16的对话片段，将该对话片段的多模态信息和第二对话D22的多模态信息组合为待处理信息B。

一轮对话切分所使用的第二对话，在下一轮可以作为历史对话。例如，在第N轮将历史对话D1、D2和当前对话D3的多模态信息组合为待处理信息C。在第N+1轮，D3变成历史对话，将历史对话D2、D3和当前对话D4的多模态信息组合为待处理信息D。

例如，车辆的主驾和副驾的对话包括：副驾转头朝向主驾问(视频)：“那首歌你听了没？《XXX》。”(音频)。主驾皱着眉想了想，回答(视频)：“《XXX》，小王唱的？”(音频)。将主驾与副驾的当前对话与历史对话一起组合的待处理信息可以包括上述两句对话的音频和视频的多模态信息。

再如，车辆的主驾和副驾的历史对话包括：副驾转头朝向主驾问(视频)：“那首歌你听了没？叫《XXX》。”(音频)。主驾皱着眉想了想，回答(视频)：“没听过。”(音频)。副驾对着车机说(视频)：“请播放《XXX》”(音频)。最新采集的当前对话包括：主驾撇撇嘴说(视频)：“不好听。”其中，前两句历史对话可以切分为1个对话片段，最后一句历史对话可以切分为1个对话片段。将包括最后一句的对话片段与最新采集的当前对话的音频和视频的多模态信息，一起组合得到待处理信息。

本公开实施例中，指令可以是能够被车机执行的命令，有些指令可以对应有具体的系统操作。例如，驾驶模式切换指令、多媒体控制指令、空调系统控制指令、车窗状态控制指令、导航系统控制指令等，本公开对此不做限定。指令识别结果可以包括从对话片段中识别出能够被车机执行的指令，该指令对应的置信度，从对话片段中未识别出指令，拒绝识别等。例如，主驾和副驾对话包括：副驾问“那首歌你听了没？《XXX》。”，主驾答“《XXX》，小王唱的？”。将这两句切分为一个对话片段后，基于上下文的语义理解，指令识别结果可以包括：1、播放音乐《XXX》，置信度0.2，可以不输入车载语音助手。2、闲聊，置信度0.7，可以指示车载语音助手拒绝识别。

根据本公开实施例，可以将第二对话之前发生的第一对话与第二对话的多模态信息结合，能够得到更加准确的识别结果的准确性。例如，在车载全双工的场景下，通过将历史对话(第一对话)和当前对话(第二对话)的多模态信息一起切分，并对切分后拼接的待处理信息进行指令识别，得到识别结果可以为该待处理信息包括指令或不包括指令。如果该待处理信息包括指令，可以基于识别出的指令控制车辆等设备的软件或硬件。如果该待处理信息不包括指令，可以将当前对话判定为拒绝识别(简称拒识)。这样可以提高全双工场景下指令识别的准确性。进一步地，可以基于当前对话的识别结果判定是否需要人机交互，减少车机对指令的误读和误执行，提高了用户的体验。此外，本公开实施例的对话识别方法应用于全双工的场景下，用户在向车机发送指令时，无需唤醒车机的指令接收模块，不仅可以使得人机交互更加灵活，还可以提高指令识别的效率和准确性。

图2是根据本公开另一实施例的对话识别方法的流程示意图，该方法可以包括上述对话识别方法的一个或多个特征。在一种实施方式中，S101可以包括：

S201、利用滑动窗口获取该至少一条第一对话的多模态信息和该第二对话的多模态信息。该第二对话为当前对话，该第一对话为在该第二对话之前发生且符合该滑动窗口的长度的对话。

S202、根据该至少一条第一对话对应的切分标签，得到保留的第一对话的多模态信息。

S203、将该保留的第一对话的多模态信息和该第二对话的多模态信息拼接为该待处理信息。

本公开实施例中，滑动窗口可以用于选择需要进行切分的目标对话，滑动窗口的长度可以为时间长度，也可以为单个语句的数量，也可以为数据量，还可以为切分标签的数量等。

本公开实施例中，利用滑窗可以同时获取历史对话和当前对话的多模态信息。例如，滑动窗口长度为时间长度例如5s，对于主驾和副驾对话，可以从当前对话开始或结束的时刻回溯，获取5s时长对应的第一对话的多模态信息。又例如，滑动窗口数量为单个语句的数量例如3句。对于主驾和副驾对话，可以从当前对话向前回溯2句，总共取3句对话的多模态信息。

本公开实施例中，对话的切分标签可以标识该对话是否是其上一句对话的继续。例如，对话的切分标签为0标识该对话不是其上一句对话的继续，对话的切分标签为1标识该对话是其上一句对话的继续。不仅可以采用数值区分不同的切分标签，也可以采用向量等方式区分不同的切分标签。例如，对话的切分标签的向量的模为负，标识该对话不是其上一句对话的继续。，对话的切分标签的向量的模为正，标识该对话是其上一句对话的继续。

本公开实施例中，一条第一对话可以具有一个切分标签。如果先采用滑动窗口获取了多条第一对话D11、D12和D13。其中，D11的切分标签标识该D11是其上一句对话的继续。D12的切分标签标识该D12不是其上一句对话的继续。D13的切分标签标识该D13是其上一句对话的继续。这种情况下，可以去掉D11，保留D12、D13。将D12、D13和当前对话D21一起切分为一个对话片段。

根据本公开实施例，使用滑动窗口获取待切分的第一对话，并按照切分标签确定保留的第一切分，可以得到上下文连续的对话片段，为意图和指令识别提供了更为可靠和丰富的参考数据，可以提升指令识别结果的可靠性和准确性。

在一种实施方式中，在S203之后，该方法还包括：

S204、将该待处理信息输入对话切分模型，得到该对话切分模型输出的该第二对话的切分标签。

本公开实施例中，在S202基于切分标签得到保留的第一对话后，可以将该保留的第一对话的多模态信息和该第二对话的多模态信息拼接后输入对话切分模型，得到该第二对话的切分标签。基于第二对话的切分标签可以确定该第二对话是否是其上一句的继续。然后在下一轮可以将第二对话作为历史对话参与对话切分。

根据本公开实施例，通过切分标签可以将具有关联的对话拼接到待处理信息中，使得待处理信息的语义连续或语义关联，从而提高指令识别结果的准确性。并且，参考历史对话和当前对话的多模态信息确定切分标签，可以提高当前对话的切分标签的准确性，从而使得后续继续切分的对话的多模态信息的语义连续或语义关联。

图3是根据本公开另一实施例的对话识别方法的流程示意图，该方法可以包括上述对话识别方法的一个或多个特征。在一种实施方式中，S101可以包括：

S301、利用滑动窗口获取该至少一条第一对话的多模态信息；

S302、根据该至少一条第一对话对应的切分标签，将该至少一条第一对话的多模态信息切分得到至少一个对话片段的多模态信息；

S303、将该至少一个对话片段的多模态信息和该第二对话的多模态信息拼接为该待处理信息。

本公开实施例中，利用滑窗可以获取历史对话的多模态信息。例如，提前将历史对话中的一条或多条第一对话切分为对话片段。如果采集到当前对话，可以将与当前对话的时间最近的对话片段的多模态信息与当前对话的信息组合得到待处理信息。根据本公开实施例，通过切分标签可以将具有关联的对话切分到一个对话片段中，使得对话片段的语义连续或语义关联，从而提高指令识别结果的准确性。提前执行切分对话片段的步骤，还可以提高整体处理效率。

在一种实施方式中，在S303之后，该方法还包括：

S304、将该待处理信息输入对话切分模型，得到该对话切分模型输出的该第二对话的切分标签。可以参见S204的相关描述。

本公开实施例中，在S202之后，可以将保留的第一对话和该第二对话的多模态信息采用分隔符拼接，得到拼接信息、即待处理信息。然后将该拼接信息输入对话切分模型，得到该对话切分模型输出的该第二对话的切分标签。

本公开实施例中，在S302之后，可以与第二对话的时间最近的对话片段的多模态信息和该第二对话的多模态信息采用分隔符拼接，得到拼接信息、即待处理信息。然后将该拼接信息输入对话切分模型，得到该对话切分模型输出的该第二对话的切分标签。其中，与第二对话的时间最近的对话片段中可以包括一句或者多句对话。

本公开实施例中，使用分隔符拼接多模态信息后，可以使用拼接信息确定第二对话的切分标签。拼接信息可以体现出多模态信息间关联关系。例如，可以使用分隔符Token:SEP拼接：[视频特征]Token:SEP[音频特征]Token:SEP[文本特征]Token:SEP[历史识别结果]。多模态信息如[视频特征]、[音频特征]、[文本特征]可以包括使用对应的特征提取模型提取的字符串、特征向量、特征矩阵或特征值等。

本公开实施例中，可以将拼接信息输入训练好的对话切分模型中，经对话切分模型处理后，可以得到切分标签。例如，输入的拼接信息，经处理后，得到第二对话的切分标签的值为0，即第二对话不是前一句的继续。

根据本公开实施例，使用相关对话的多模态信息的拼接信息确定当前对话的切分标签，可以使切分标签的更准确、更可靠。

在一种实施方式中，S204或S304可以包括：

将该待处理信息输入对话切分模型的转换层，得到该转换层输出的分类向量；

将该分类向量输入对话切分模型的分类层进行二分类，得到该第二对话的切分标签。

本公开实施例中，对话切分模型可以包括Transformer预训练模型、卷积神经网络(Convolutional Neural Network，CNN)模型、循环神经网络(Recurrent neuralnetworks，RNN)模型、长短期记忆(Long/short termmemory，LSTM)模型、前馈神经网络(Feed forward neural networks，FFNN)模型、生成式对抗网络(Generative adversarialnetworks，GAN)模型等的一种或多种。本公开对此不作限定。

本公开实施例中，以来自Transformers的双向编码器表示(BidirectionalEncoder Representations from Transformers，BERT)模型为例进行说明。本BERT包括转换(Transformer)层、线性(Linear)二分类层、软性最大值(softmax)层。可以先将拼接信息输入Transformer层，经Transformer层将拼接信息中的各个多模态信息转换为对应的分类向量例如[CLS]向量。然后，将Transformer层输出的分类向量输入Linear二分类层进行分类，得到表示当前对话是否是前一句对话的继续的二分类值。该二分类值可以作为切分标签。例如，将主驾和副驾的对话片段的拼接信息输入Transformer层后，通过自注意力(self-attention)机制，使用多个编码器(Encoders)对拼接信息进行编码，得到拼接信息的编码结果。然后，将编码结果输入多个解码器(Decoder)进行解码，输出分类向量。将分类向量输入Linear层，得到二分类值后，可以将该二分类值输入softmax层，使用softmax函数对二分类值进行归一化，得到0和1的切分标签。

根据本公开实施例，对话切分模型可以基于Transformer模型构建，可以实现对对话的自动切分，切分结果更加精确，且可以提高对话切分的效率。

在一种实施方式中，该对话切分模型的输入特征包括对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔。

本公开实施例中，视觉特征可以通过视觉特征提取模型获得，文本信息可以通过语音识别模型获得，文本特征可以通过文本特征提取模型获得，是否拒识可以通过指令识别模型获得，是否为唤醒之后可以表示是否先识别到唤醒词使得指令识别模型处于激活状态。

在一种实施方式中，第一对话和/或第二对话的切分标签包括：是上一句的继续，或不是上一句的继续。基于切分标签可以确定从多条第一对话的何处切分。

根据本公开实施例，可以丰富用于确定切分标签的数据集，从多个维度估计对话的连续性，提高了切分标签的准确性。

图4是根据本公开另一实施例的对话识别方法的流程示意图，该方法可以包括上述对话识别方法的一个或多个特征。在一种实施方式中，该方法还包括：

S401、对待处理对话进行识别得到该待处理对话的多模态信息。

在一种实施方式中，该待处理对话的多模态信息包括视觉特征、文本信息和文本特征的至少之一，距离前一条对话的时间间隔。

在一种实施方式中，该待处理对话包括该第一对话和/或该第二对话。

本公开实施例中，待处理对话可以是历史对话，也可以是当前对话。通过视觉特征提取模型可以从对话的图像或视频中提取视觉特征。通过自动语音识别(AutomaticSpeech Recognition，ASR)模型可以从对话的音频中提取文本信息。通过自然语言理解(Natural Language Understanding,NLU)模型可以从文本信息中提取文本特征。NLU模型可以是基于Ernie、BERT的Transformer模型，也可以是基于LSTM的循环神经网络等，在此不做限制。距离前一条对话的时间间隔可通过当前对话开始或结束的时间戳，与前一条对话开始或结束的时间戳的时间差来获得。

本公开实施例中，当距离前一条对话的时间间隔大于阈值时，可以判定当前对话不是前一条对话的继续。例如，当前对话开始时的时间戳为21:00，阈值为30秒，而前一条对话的时间戳为8:00，时间间隔过大，远大于阈值，这两条对话不太可能具有连续性，对话的情景不太可能相同。根据时间间隔，如果可以直接判断当前对话不是前一句对话的继续，则不需要再执行标签分类处理。再如，当前对话开始时的时间戳为21:00，阈值为120秒，而前一条对话的时间戳为20:59，时间间隔小于120秒，小于阈值，这两条对话可能具有连续性。根据时间间隔，如果不能直接判断当前对话是不是前一句对话的继续，可以采用对话切分模型识别出当前对话的切分标签。

根据本公开实施例，在设备例如车机启动或重新启动的情况下，也可以不考虑历史对话，而是直接识别当前对话中是否包括有效的指令，针对有效的指令进行响应。这样可以提高人机交互的效率和指令识别的实时性，提升了用户体验。

图5是根据本公开另一实施例的对话识别方法的流程示意图，该方法可以包括上述对话识别方法的一个或多个特征。在一种实施方式中，S401对待处理对话进行识别得到该待处理对话的多模态信息，包括以下至少之一：

S501、对该待处理对话中的图像进行编码，得到视觉特征；

S502、对该待处理对话中的语音转化为文本信息，并从该文本信息中提取文本特征。

本公开实施例中，待处理对话可以包括视觉输入和语音输入等。其中，视觉输入可以包括每隔一段时间间隔的采集的图像，也可以包括连续采集的视频(包括很多图像帧)。语音输入可以包括通过麦克风阵列等采集到音频数据等。

通过视觉特征提取模型可以从图像或视频中提取的视觉特征可以包括头部姿势、嘴部开合度、是否有唇动、是否在打电话等，本公开对此不做限定。视觉特征提取模型可以为人体关键点检测模型、人脸检测模型、物体识别模型等，本公开对此不做限定。

例如，在检测头部姿势时，可通过人脸检测模型，确定当前帧的人脸形变值。根据形变值与预先输入的标准方向的形变值，计算得出头在各个方向的偏转角度。

又例如，在检测嘴部开合度和是否有唇动时，可以使用人体关键点检测模型，分别确定上唇和下唇的关键点。通过计算上唇关键点和下唇关键点间的相对距离。当相对距离大于阈值时，判定嘴部处于张开的状态。比较至少两帧间相对距离的差值，当差值大于阈值时，判断为发生唇动。

再例如，在检测是否在打电话时，可以使用物体识别模型，检测蓝牙耳机是否处于工作状态。也可以检测手机与人脸间的距离，当手机与人脸间的距离小于阈值时，判定为在接打电话。另外，还可以使用音频检测模型，根据对话的音频内容来判断是否在接打电话。

本公开实施例中，从对话的音频数据中可以提取对应的文本信息。文本信息也可以称为文本数据、文本内容等。一种实施方式中，可以通过E模型从音频数据中提取对应的文本数据。例如，将对话的音频数据经过短时傅里叶变换(short-time Fouriertransform，STFT)转化为梅尔频谱(mel spectrogram)图，并根据梅尔频谱图提取特征向量。然后采用预先训练好的ASR模型，根据特征向量匹配文本数据，获得音频数据对应的文本数据。具体例如，根据副驾说话得到音频数据包括：“播放XX的《XXX》。”使用ASR模型从该音频数据中可以识别得到“播放XX的《XXX》”的文本信息。

本公开实施例中，从文本信息中可以提取文本特征。例如，文本特征可以包括领域(Domain)、意图(Intent)、词槽(Slots)等特征。这些文本特征可以表示该对话的语义。采用Ernie模型、BERT模型、Transformer模型、LSTM模型等NLU模型可以从文本信息中提取得到文本特征，本公开对NLU模型的种类不做限定。例如，以BERT模型为例，从文本“播放XX的《XXX》”中可以提取以下特征：Domain：{音乐}、Intent：{播放}、Slots：{曲名：《XXX》、作者：XX}。本公开实施例中，还可以使用联合(Joint)多任务学习的方法，基于一个文本信息预测出Domain、Intent及Slots特征。

根据本公开实施例，从对话的音视频数据中提取视觉特征、文本信息和文本特征的一种或多种，可以为后续进行对话识别提供更丰富的多模态信息，提高对话识别结果的准确性。

在一种实施方式中，该方法还包括：

S503、将提取的文本信息、文本特征和视觉特征的至少之一按照时间顺序保存在队列中。

本公开实施例中，可以将提取的对话的多模态信息，如文本特征的Domain、Intent、Slots，视觉特征的特征向量，按照时间戳，依次存储在队列中。在使用滑窗进行对话切分时，可以按照队列中的索引、时间戳等，提取符合滑窗长度的对话的多模态信息。此外，队列中还可以存储对话的指令识别结果，例如，该对话中的指令是否为拒识等。

根据本公开实施例，可以按照时间顺序保存对话的多模态信息，便于后续自由设定需要使用的历史对话的长度。如果使用较长的历史对话，可以提高切分标签识别和指令识别的准确性；如果使用较短的历史对话，可以提高切分标签识别和指令识别的速度。

图6是根据本公开另一实施例的对话识别方法的流程示意图，该方法可以包括上述对话识别方法的一个或多个特征。在一种实施方式中，S102包括：S601、将该待处理信息输入指令识别模型，得到该指令识别模型输出指令识别结果。

在一种实施方式中，该指令识别结果包括是否拒识及其对应的置信度。

本公开实施例中，指令识别模型的输入特征可以包括视觉特征、文本信息、文本特征、置信度、指令是否为拒识、指令是否为唤醒之后、时间戳等多模态信息。

本公开实施例中，可将多模态信息输入指令识别模型进行对齐和融合。例如，指令识别模型基于Transformer的自注意力机制对多模态信息进行处理，输出一个隐式的表达向量。再使用Linear分类器对隐式的表达向量进行二分类，然后使用softmax函数进行归一化处理，得到指令识别结果以及对应的置信度。例如，指令识别结果可以包括：不识别当前对话中的指令(即拒识)，或识别当前对话中的指令(即不拒识)。此外，也可以按照置信度，决定是否拒识当前指令。例如，拒识的置信度高于不拒识的置信度，则语音助手可以拒识该指令。再如，不拒识的置信度高于设定阈值，则语音助手可以识别并响应该指令。

根据本公开实施例，通过融合多模态的数据，可以提高在全双工的场景下，指令识别的效率和准确性，增加人机交互的实时性，优化用户体验。

图7是根据本公开一实施例的对话切分模型的训练方法的流程示意图，该方法包括：

S701、将至少一条样本对话输入待训练的对话切分模型，得到该待训练的对话切分模型输出的切分标签；

S702、根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签，对该待训练的对话切分模型进行更新；

S703、在更新后的对话切分模型满足训练完成条件的情况下，得到训练后的对话切分模型。

本公开实施例中，样本对话中可以包括标注的切分标签。将至少一条样本对话输入原始对话切分模型，可以识别得到切分标签。例如，将N条样本对话的多模态信息输入原始对话切分模型以得到切分标签。样本对话的多模态信息可以包括例如文本信息、文本特征、视觉特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔等。将某一条样本对话标注的切分标签与原始对话切分模型输出的切分标签进行对比，可以得到两者的差距。例如可以采用损失函数计算两者的差距。当两者差距未达到预期时，可以调整对话切分模型的参数。当两者差距达到预期时，可以停止模型训练，将当前对话切分模型作为训练后的对话切分模型。此外，在使用过程中，还可以继续迭代更新训练后的对话切分模型。通过标注的切分标签和模型输出的切分标签进行比较，可以对模型进行持续更新，提高模型输出结果的准确性。

图8是根据本公开另一实施例的对话切分模型的训练方法的流程示意图，该方法可以包括上述对话切分模型的训练方法的一个或多个特征。在一种实施方式中，该方法还包括：

S801、采用滑动窗口获取该至少一条样本对话。

例如，采用滑动窗口(简称滑窗)可以从样本对话集合中获取所需的至少一条样本对话。例如，如果滑动窗口的长度为10条对话，可以从样本对话集合中获取10条样本对话。再如，如果滑动窗口的长度为5s，可以从样本对话集合中获取5s内的样本对话。通过滑窗可以控制每次使用的样本对话的数量或时长等，灵活选取样本对话，从而提高对话切分模型的准确性和灵活性。

图9是根据本公开另一实施例的对话切分模型的训练方法的流程示意图，该方法可以包括上述对话切分模型的训练方法的一个或多个特征。在一种实施方式中，S701将该至少一条样本对话输入待训练的对话切分模型，得到该待训练的对话切分模型输出的切分标签，包括：

S901、将该至少一条样本对话的多模态信息或拼接信息输入对话切分模型的转换层，得到该转换层输出的分类向量。

在一种实施方式中，该对话切分模型输入特征包括样本对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔。

在一种实施方式中，该样本对话的多模态信息对应的切分标签包括：是上一句的继续，或不是上一句的继续。

S902、将该分类向量输入分类层进行二分类，得到该至少一条样本对话中最后一条对话的切分标签。

本公开实施例中，对话切分模型的转换层可以包括transformer层，分类层可以包括Linear二分类层和/或softmax层。对话切分模型的输出结果可以包括N个样本对话的最后一条对话的切分标签。将最后一条样本对话的标注的切分标签与对话切分模型输出的切分标签进行对比，可以得到两者的差距。根据二者的差距构建损失函数，更新模型的参数例如转换层和分类层的参数，直至得到训练后的对话切分模型。此外，在使用过程中，还可以继续迭代更新训练后的对话切分模型。通过模型的转换层和分类层可以快速输出对话的切分标签，基于模型输出的分类标签和标注的分类标签的差距，可以对模型进行持续更新，提高模型输出结果的准确性。

在一种实施方式中，S702根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签，对该待训练的对话切分模型进行更新，包括：

S903、根据该至少一条样本对话中最后一条对话标注的切分标签和模型输出的切分标签，计算该待训练的对话切分模型的交叉熵损失函数；

S904、根据该交叉熵损失函数，对该待训练的对话切分模型进行更新。

本公开实施例中，交叉熵损失函数可以用于度量两个概率分布间的差异性。例如，交叉熵损失函数可以衡量真实标注的切分标签的概率分布与模型的预测切分标签的概率分布的相似性。基于交叉熵损失函数，可以提高模型训练速率，减少输出误差。

在一种实施方式中，S904根据该交叉熵损失函数，对该待训练的对话切分模型进行更新，包括：当该交叉熵损失函数大于设定值时，调整该待训练的对话切分模型中的特征参数。

在一种实施方式中，该模型训练完成的条件可以包括以下至少之一：

该待训练的对话切分模型迭代次数达到次数上限；

该待训练的对话切分模型输出的切分标签与该样本对话的切分标签一致；

该交叉熵损失函数小于设定值。

一个示例性的对话识别系统中，如图10所示，对话的输入包括视觉输入、语音输入。视觉输入可以包括每隔一段时间间隔采集的图像。然后通过视觉特征提取模块，将图像编码为向量，并提取视觉高级特征，比如是否在打电话、嘴部开合度、头姿等信息。语音输入可以包括通过麦克风阵列采集到到音频数据。通过ASR识别模块，可以将语音数据转化为指令文本。通过NLU模型，可以将指令文本转化为Domain、Intent、Slots等高级特征。NLU的模型可以是基于Ernie、BERT的Transformer模型，也可以是基于LSTM的循环神经网络。如果使用Joint多任务学习的方法，罗同时基于一个指令文本预测出Domain、Intent及Slots。

对话管理及分割模块负责对话历史的管理及切分。对话历史中可以包括多条历史对话。在系统中使用一个队列，按照时间顺序来管理对话历史。队列中可以保存不同音区的对话历史，比如主驾、副驾、后排对话等，以及历史指令(历史对话中的质量)是否为拒识。对话分割可以包括：根据不同历史对话例如询问(query)的时间间隔、指令所在音区、以及指令文本等，通过LSTM模型或者Transformer模型等对对话历史进行切分，例如切分为一个个的对话片段。并且，可以继续获取最新的对话片段。一个对话片段中可能包含至少一句的指令的多模态信息。

在队列中按照时间顺序保存多模态信息。例如，可以设定保存的最大历史消息的个数，比如20条，即包含当前轮及之前的共20条多模态信息。每个条数据可能来自主驾、副驾、后排等位置。

每条对话的多模态信息可以包括以下至少之一：(1)视觉特征：如头姿(头的上下前后偏转角度)、嘴部开合度、是否有唇动、是否在打电话；(2)文本信息例如query文本；(3)NLU特征例如：Domain、Intent、Slot及其置信度(4)是否为拒识；(5)是否为唤醒之后；(6)距离前一条数据的时间间隔，例如单位为s。

每条对话的数据标注可以包括：标签为是否是上一句的继续，如果是则为1，如果不是则为0。

收集训练数据。以Transformer预训练模型。比BERT为例：模型输入视觉特征、NLU特征、是否为拒识、是否唤醒之后、query文本、距离前一条query的时间间隔。将所有信息，使用特殊的Token:SEP(分隔符)进行拼接。设置滑动窗口，该滑动窗口可以规定输入的历史对话的个数或时长。然后拼接滑动窗口内的所有历史数据例如历史对话的多模态信息。利用标记器(Tokenizer)对输入的拼接信息进行编码(得到向量)并输入Transformer层。将Transformer层的输出[CLS]向量(分类向量)作为整个历史信息的表达，再将该表达输入到一个Linear层(分类层)中，进行二分类。二分类使用的标签可以为上述的0/1，训练使用的损失函数可以为交叉熵。

然后，根据二分类的分数(或置信度)，来判断一句对话是否为其上一句的继续。这样可以将所有历史切分为一个个的对话片段。然后利用最新的切分片段参与下一步的多模态拒识。

多模态融合模块可以融合最近一个对话片段中的所有对话的指令文本及其对应的多模态信息例如：(1)视觉特征：如头姿势(头的偏转角度)、嘴部开合度、是否有唇动、是否在打电话等；(2)指令文本(3)NLU特征：Domain、Intent、Slots及置信度；(4)历史指令是否为拒识(本轮指令可能没有拒识结果，历史Query有拒识结果)；(5)指令是否为唤醒之后；(6)时间戳等。多模态融合模块可以将不同模态的信息进行对齐、融合，一般使用基于Transformer的自注意力机制。输出一个隐式的表达向量。再对隐式的表达向量进行0/1的二分类。使用的分类器为线性分类器。最终输出是否拒识，并给出置信度，置信度越高代表可靠度越高。

基于对话历史的多模态指令识别模型可以包括：

1.数据处理、标注及示例

每条对话的多模态信息可以包括：(1)视觉特征：如头姿(头的上下前后偏转角度)、嘴部开合度、是否有唇动、是否在打电话(2)query文本(3)NLU特征：Domain、Intent、Slot及其置信度(4)是否为拒识(5)是否为唤醒之后(6)时间戳。

每条对话的数据标注可以包括：标签为是否需要拒识，如果是则为1，如果不是则为0。收集训练数据。

2.模型架构及训练过程

模型架构如图11所示，切分的最近的对话片段的多模态信息，经过拼接后输入到Transformer层中，然后将Transformer层输出[CLS]向量经过Linear层的二分类，再经过softmax层获得是否拒识的概率，再根据设定的阈值来判断是否要进行拒识。对话切分模型的架构和指令识别模型的架构都可以参见图11，对话切分模型的输出结果可以改成是否是上一句的继续。

本公开实施例可以使用对话的多模态信息，不单可以利用文本的信息，还可以利用视觉、是否唤醒、NLU理解结果等信息，还可以将多音区的聊天历史进行分割，充分利用了多模态、对话上下文的信息进行拒识，拒识结果更可靠，用户体验效果更好。

例如，车载语音助手在主驾或者主副驾等多路开启全双工模式，对单路或多路的多模态异构数据进行管理，并通过算法进行对话切分，然后基于切分后的对话片段，判断说话是否是人机交互。如果判断为非人机交互，则语音助手不执行该指令，如果判断为人机交互，则需要执行指令。使用多模态历史信息与当前对话的信息可以相互补充、相互增强，可以更好的利用上下文对话信息，提高拒识的准确率，从而提高人机交互体验。

图12是根据本公开一实施例的对话识别装置的结构示意图，该装置包括：

信息获取模块1201，用于根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息，其中，该至少一条第一对话包括在该第二对话之前发生的对话；

指令识别模块1202，用于对该待处理信息进行指令识别，得到指令识别结果。

图13是根据本公开另一实施例的对话识别装置的结构示意图，在一种实施方式中，该切分模块1201，包括：

第一滑窗子模块1301，用于利用滑动窗口获取该至少一条第一对话的多模态信息和该第二对话的多模态信息，该第二对话为当前对话，该第一对话为在该第二对话之前发生且符合该滑动窗口的长度的对话；

第一切分子模块1302，用于根据该至少一条第一对话对应的切分标签，得到保留的第一对话的多模态信息；

第一拼接子模块1303，用于将该保留的第一对话的多模态信息和该第二对话的多模态信息拼接为该待处理信息。

在一种实施方式中，该信息获取模块，包括：

第二滑窗子模块1304，用于利用滑动窗口获取该至少一条第一对话的多模态信息；

第二切分子模块1305，用于根据该至少一条第一对话对应的切分标签，将该至少一条第一对话的多模态信息切分得到至少一个对话片段的多模态信息；

第二拼接子模块1306，用于将该至少一个对话片段的多模态信息和该第二对话的多模态信息拼接为该待处理信息。

在一种实施方式中，该装置还包括：

标注模块1203，用于将该待处理信息输入对话切分模型，得到该对话切分模型输出的该第二对话的切分标签。

在一种实施方式中，该标注模块1203包括：

转换子模块1307，用于将该待处理信息输入对话切分模型的转换层，得到该转换层输出的分类向量；

分类子模块1308，用于将该分类向量输入该对话切分模型的分类层进行二分类，得到该第二对话的切分标签。

在一种实施方式中，该装置的输入特征包括对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔；

第一对话和/或第二对话的切分标签包括：是上一句的继续，或不是上一句的继续。

在一种实施方式中，如图13所示，该装置还包括：

信息识别模块1204，用于对待处理对话进行识别得到该待处理对话的多模态信息；其中，该待处理对话的多模态信息包括视觉特征、文本信息和文本特征的至少之一，距离前一条对话的时间间隔；该待处理对话包括该第一对话和/或该第二对话。

在一种实施方式中，如图13所示，该信息识别模块1204，包括以下至少之一：

视觉特征子模块1309，用于对该待处理对话中的图像进行编码，得到视觉特征；

文本特征子模块1310，用于对该待处理对话中的语音转化为文本信息，并从该文本信息中提取文本特征。

在一种实施方式中，如图13所示，该装置还包括：

保存模块1205，用于将提取的文本信息、文本特征和视觉特征的至少之一按照时间顺序保存在队列中。

在一种实施方式中，如图13所示，该指令识别模块1202用于将该待处理信息输入指令识别模型，得到该指令识别模型输出指令识别结果，该指令识别结果包括是否拒识及其对应的置信度。

图14是根据本公开一实施例的对话切分模型的训练装置的结构示意图，该装置包括：

处理模块1401，用于将至少一条样本对话输入待训练的对话切分模型，得到该待训练的对话切分模型输出的切分标签；

更新模块1402，用于根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签，对该待训练的对话切分模型进行更新；

训练完成模块1403，用于在更新后的对话切分模型满足训练完成条件的情况下，得到训练后的对话切分模型。

图15是根据本公开另一实施例的对话切分模型的训练装置的结构示意图，在一种实施方式中，该装置还包括：

样本获取模块1404，用于采用滑动窗口获取该至少一条样本对话；

在一种实施方式中，如图15所示，该处理模块1401，包括：

输入子模块1501，用于将该至少一条样本对话的多模态信息或拼接信息输入对话切分模型的转换层，得到该转换层输出的分类向量；其中，该对话切分模型输入特征包括该样本对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔；该样本对话的多模态信息对应的切分标签包括：是上一句的继续，或不是上一句的继续。

标注子模块1502，用于将该分类向量输入分类层进行二分类，得到该至少一条样本对话中最后一条对话的切分标签。

在一种实施方式中，如图15所示，该更新模块1402，包括：

计算子模块1503，用于根据该至少一条样本对话中最后一条对话标注的切分标签和模型输出的切分标签的，计算交叉熵损失函数；

更新子模块1504，用于根据该交叉熵损失函数，对该待训练的对话切分模型进行更新。

在一种实施方式中，该更新子模块1504，还用于当该交叉熵损失函数大于设定值时，调整该待训练的对话切分模型中的特征参数。

在一种实施方式中，该训练完成条件的情况，包括以下至少之一：

该待训练的对话切分模型迭代次数达到次数上限；

该交叉熵损失函数小于该设定值。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图16示出了可以用来实施本公开的实施例的示例电子设备1600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图16所示，设备1600包括计算单元1601，其可以根据存储在只读存储器(ROM)1602中的计算机程序或者从存储单元1608加载到随机访问存储器(RAM)1603中的计算机程序，来执行各种适当的动作和处理。在RAM 1603中，还可存储设备1600操作所需的各种程序和数据。计算单元1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。

设备1600中的多个部件连接至I/O接口1605，包括：输入单元1606，例如键盘、鼠标等；输出单元1607，例如各种类型的显示器、扬声器等；存储单元1608，例如磁盘、光盘等；以及通信单元1609，例如网卡、调制解调器、无线通信收发机等。通信单元1609允许设备1600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1601执行上文所描述的各个方法和处理，例如对话识别方法和/或对话切分模型的训练方法。在一些实施例中对话识别方法和/或对话切分模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1602和/或通信单元1609而被载入和/或安装到设备1600上。当计算机程序加载到RAM 1603并由计算单元1601执行时，可以执行上文描述的对话识别方法和/或对话切分模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行对话识别方法和/或对话切分模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对话识别方法，包括：

根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息，包括：根据所述至少一条第一对话对应的切分标签，对所述至少一条第一对话的多模态信息进行切分，将切分后的第一对话的多模态信息与所述第二对话的多模态信息拼接为所述待处理信息；其中，所述至少一条第一对话包括在所述第二对话之前发生的对话；所述第一对话和/或所述第二对话的切分标签包括：是上一句的继续，或不是上一句的继续；所述切分标签用于确定所述至少一条第一对话的切分位置；

根据所述待处理信息进行指令识别，得到指令识别结果。

2.根据权利要求1所述的方法，其中，根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息，包括：

利用滑动窗口获取所述至少一条第一对话的多模态信息和所述第二对话的多模态信息，所述第二对话为当前对话，所述第一对话为在所述第二对话之前发生且符合所述滑动窗口的长度的对话；

根据所述至少一条第一对话对应的切分标签，得到保留的第一对话的多模态信息；

将所述保留的第一对话的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。

3.根据权利要求1所述的方法，其中，根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息，包括：

利用滑动窗口获取所述至少一条第一对话的多模态信息；

根据所述至少一条第一对话对应的切分标签，将所述至少一条第一对话的多模态信息切分得到至少一个对话片段的多模态信息；

将与所述第二对话时间最近的对话片段的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。

4.根据权利要求2或3所述的方法，还包括：

将所述待处理信息输入对话切分模型，得到所述对话切分模型输出的所述第二对话的切分标签。

5.根据权利要求4所述的方法，其中，将所述待处理信息输入对话切分模型，得到所述对话切分模型输出的所述第二对话的切分标签，包括：

将所述待处理信息输入对话切分模型的转换层，得到所述转换层输出的分类向量；

将所述分类向量输入所述对话切分模型的分类层进行二分类，得到所述第二对话的切分标签。

6.根据权利要求4所述的方法，其中，所述对话切分模型的输入特征包括对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔。

7.根据权利要求1至3中任一项所述的方法，还包括：

对待处理对话进行识别得到所述待处理对话的多模态信息；其中，所述待处理对话的多模态信息包括视觉特征、文本信息和文本特征的至少之一，距离前一条对话的时间间隔；所述待处理对话包括所述第一对话和/或所述第二对话。

8.根据权利要求7所述的方法，其中，对待处理对话进行识别得到所述待处理对话的多模态信息，包括以下至少之一：

对所述待处理对话中的图像进行编码，得到视觉特征；

对所述待处理对话中的语音转化为文本信息，并从所述文本信息中提取文本特征。

9.根据权利要求7所述的方法，还包括：

将提取的文本信息、文本特征和视觉特征的至少之一按照时间顺序保存在队列中。

10.根据权利要求1至3中任一项所述的方法，其中，对所述待处理信息进行指令识别，得到指令识别结果，包括：

将所述待处理信息输入指令识别模型，得到所述指令识别模型输出指令识别结果，所述指令识别结果包括是否拒识及其对应的置信度。

11.一种对话切分模型的训练方法，包括：

将至少一条样本对话输入待训练的对话切分模型，得到所述待训练的对话切分模型输出的切分标签；其中，所述切分标签包括：是上一句的继续，或不是上一句的继续；所述切分标签用于确定所述至少一条样本对话的切分位置；

根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签，对所述待训练的对话切分模型进行更新；

12.根据权利要求11所述的方法，还包括：

采用滑动窗口获取所述至少一条样本对话。

13.根据权利要求11或12所述的方法，其中，将所述样本对话输入待训练的对话切分模型，得到所述待训练的对话切分模型输出的切分标签，包括：

将所述至少一条样本对话的多模态信息或拼接信息输入对话切分模型的转换层，得到所述转换层输出的分类向量；其中，所述对话切分模型输入特征包括所述样本对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔；所述样本对话的多模态信息对应的切分标签包括：是上一句的继续，或不是上一句的继续；

将所述分类向量输入分类层进行二分类，得到所述至少一条样本对话中最后一条对话的切分标签。

14.根据权利要求13所述的方法，其中，根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签，对所述待训练的对话切分模型进行更新，包括：

根据所述至少一条样本对话中最后一条对话标注的切分标签和模型输出的切分标签，计算所述待训练的对话切分模型的交叉熵损失函数；

根据所述交叉熵损失函数，对所述待训练的对话切分模型进行更新。

15.一种对话识别装置，包括：

信息获取模块，用于根据至少一条第一对话的多模态信息和第二对话的多模态信息，得到待处理信息，包括：根据所述至少一条第一对话对应的切分标签，对所述至少一条第一对话的多模态信息进行切分，将切分后的第一对话的多模态信息与所述第二对话的多模态信息拼接为所述待处理信息；其中，所述至少一条第一对话包括在所述第二对话之前发生的对话；所述第一对话和/或所述第二对话的切分标签包括：是上一句的继续，或不是上一句的继续；所述切分标签用于确定所述至少一条第一对话的切分位置；

指令识别模块，用于根据所述待处理信息进行指令识别，得到指令识别结果。

16.根据权利要求15所述的装置，其中，所述信息获取模块，包括：

第一滑窗子模块，用于利用滑动窗口获取所述至少一条第一对话的多模态信息和所述第二对话的多模态信息，所述第二对话为当前对话，所述第一对话为在所述第二对话之前发生且符合所述滑动窗口的长度的对话；

第一切分子模块，用于根据所述至少一条第一对话对应的切分标签，得到保留的第一对话的多模态信息；

第一拼接子模块，用于将所述保留的第一对话的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。

17.根据权利要求15所述的装置，其中，所述信息获取模块，包括：

第二滑窗子模块，用于利用滑动窗口获取所述至少一条第一对话的多模态信息；

第二切分子模块，用于根据所述至少一条第一对话对应的切分标签，将所述至少一条第一对话的多模态信息切分得到至少一个对话片段的多模态信息；

第二拼接子模块，用于将与所述第二对话时间最近的对话片段的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。

18.根据权利要求16或17所述的装置，还包括：

标注模块，用于将所述待处理信息输入对话切分模型，得到所述对话切分模型输出的所述第二对话的切分标签。

19.根据权利要求18所述的装置，其中，所述标注模块，包括：

转换子模块，用于将所述待处理信息输入对话切分模型的转换层，得到所述转换层输出的分类向量；

分类子模块，用于将所述分类向量输入所述对话切分模型的分类层进行二分类，得到所述第二对话的切分标签。

20.根据权利要求18所述的装置，其中，所述对话切分模型的输入特征包括对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔。

21.根据权利要求15至17中任一项所述的装置，还包括：

信息识别模块，用于对待处理对话进行识别得到所述待处理对话的多模态信息；其中，所述待处理对话的多模态信息包括视觉特征、文本信息和文本特征的至少之一，距离前一条对话的时间间隔；所述待处理对话包括所述第一对话和/或所述第二对话。

22.根据权利要求21所述的装置，其中，所述信息识别模块，包括以下至少之一：

视觉特征子模块，用于对所述待处理对话中的图像进行编码，得到视觉特征；

文本特征子模块，用于对所述待处理对话中的语音转化为文本信息，并从所述文本信息中提取文本特征。

23.根据权利要求21所述的装置，还包括：

保存模块，用于将提取的文本信息、文本特征和视觉特征的至少之一按照时间顺序保存在队列中。

24.根据权利要求15至17中任一项所述的装置，其中，所述指令识别模块用于将所述待处理信息输入指令识别模型，得到所述指令识别模型输出指令识别结果，所述指令识别结果包括是否拒识及其对应的置信度。

25.一种对话切分模型的训练装置，包括：

处理模块，用于将至少一条样本对话输入待训练的对话切分模型，得到所述待训练的对话切分模型输出的切分标签；其中，所述切分标签包括：是上一句的继续，或不是上一句的继续；所述切分标签用于确定所述至少一条样本对话的切分位置；

更新模块，用于根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签，对所述待训练的对话切分模型进行更新；

26.根据权利要求25所述的装置，还包括：

样本获取模块，用于采用滑动窗口获取所述至少一条样本对话。

27.根据权利要求25或26所述的装置，其中，所述处理模块，包括：

输入子模块，用于将所述至少一条样本对话的多模态信息或拼接信息输入对话切分模型的转换层，得到所述转换层输出的分类向量；其中，所述对话切分模型输入特征包括所述样本对话的以下多模态信息的至少之一：视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔；所述样本对话的多模态信息对应的切分标签包括：是上一句的继续，或不是上一句的继续；

标注子模块，用于将所述分类向量输入分类层进行二分类，得到所述至少一条样本对话中最后一条对话的切分标签。

28.根据权利要求27所述的装置，其中，所述更新模块，包括：

计算子模块，用于根据所述至少一条样本对话中最后一条对话标注的切分标签和模型输出的切分标签的，计算交叉熵损失函数；

更新子模块，用于根据所述交叉熵损失函数，对所述待训练的对话切分模型进行更新。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。