CN114365121A

CN114365121A - 用于对话响应生成系统的系统和方法

Info

Publication number: CN114365121A
Application number: CN202080063045.7A
Authority: CN
Inventors: 堀智织; A·谢里安; T·马克斯; 堀贵明
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-09-13
Filing date: 2020-07-22
Publication date: 2022-04-15
Also published as: WO2021049199A1; EP3857459B1; JP7313558B2; US20210082398A1; JP2022539620A; EP3857459A1; US11264009B2

Abstract

提供了一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法包括：布置用于对话响应生成或视频描述的第一多模式编码器‑解码器，第一多模式编码器‑解码器具有第一输入端和第一输出端，其中，已经通过用视频描述语句训练视听数据集预训练了第一多模式编码器‑解码器；布置用于对话响应生成的第二多模式编码器‑解码器，第二多模式编码器‑解码器具有第二输入端和第二输出端；向第一多模式编码器‑解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集，其中，第一编码器‑解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值；将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器‑解码器。在这种情况下，第二多模式编码器‑解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。

Description

用于对话响应生成系统的系统和方法

技术领域

本发明总体上涉及用于训练对话响应生成系统的系统和方法，并且尤其涉及用于对话响应生成系统的训练系统和训练方法以及由其训练的对话响应生成系统。

背景技术

可以处理口语对话的人机界面彻底改变了我们与智能手机数字助理、汽车导航系统、语音控制的智能扬声器和面向人的机器人交互的方式。展望未来，此类系统将需要适应其它输入模式(包括视觉)的能力，以在不同的用户上下文中生成足够的响应或处理训练期间无法使用的新情况。然而，当前最先进的对话系统缺乏处理此类动态场景所需的多模式感官输入(例如视觉、声音和文本)的有效模型，因此可能无法在会话中生成合适的响应。

为了与人类就用户周围的环境信息进行交互，系统需要了解环境的上下文和用户的自然语言输入。这种场景感知对话方法对于现实世界应用的人机界面是必不可少的。为了响应人类行为，机器需要使用由任何类型的物理信号(特征)(诸如音频和视频等)组成的多模式信息来理解场景。用自然语言描述场景的多模式信息的语义表示是帮助生成系统响应的最有效方式。因此，需要开发通过多模式场景理解来提高对话响应生成质量的方法。

最近，提出了一种使用多模式信息处理的新对话任务，被称为视听场景感知对话(AVSD)。AVSD专注于用于对话系统的响应语句生成，旨在回答用户关于所提供视频的问题，其中，系统可以使用视频中的视听信息以及直到用户最后一个问题的对话历史。可选地，解释视频剪辑的手动视频描述语句也可用作系统的输入。最近在第7届对话系统技术挑战赛(7^th Dialog System Technology Challenge，DSTC7)中提出的对AVSD任务的方法表明，声音、视觉和文本信息的多模式融合可有效提高响应质量。此外，发现当应用从“手动”视频描述语句中提取的文本特征时，可以实现最佳性能。然而，这样的手动视频描述语句在现实世界中是不可用的，这在部署期间带来了挑战。

为了在推理阶段不使用手动视频描述语句来提高响应生成的性能，需要一种新方法来转移通过在训练时应用手动视频描述语句获得的性能增益以生成更准确的响应。

发明内容

根据本发明的一些实施方式，可以提供一种用于训练对话响应生成系统的计算机实现方法和对话响应生成系统。该方法可以包括：布置用于对话响应生成或视频描述的第一多模式编码器-解码器，第一多模式编码器-解码器具有第一输入端和第一输出端，其中，第一多模式编码器-解码器已经通过利用训练视频描述语句训练视听数据集而被预训练；布置用于对话响应生成的第二多模式编码器-解码器，第二多模式编码器-解码器具有第二输入端和第二输出端；向第一多模式编码器-解码器的第一输入端提供具有第一对应视频描述语句的第一视听数据集，其中，第一编码器-解码器基于具有第一对应描述语句的第一视听数据集生成第一输出值；将不包括第一对应视频描述语句的第一视听数据集提供给第二多模式编码器-解码器。在这种情况下，第二多模式编码器-解码器基于没有第一对应视频描述语句的第一视听数据集生成第二输出值。

在某些情况下，从第一多模式编码器-解码器输出的自动视频描述语句可以被输入到第二多模式编码器-解码器中以用于对话响应生成。此外，视频描述特征(其是从用于自动视频描述的第一多模式编码器-解码器提取的上下文向量)可以嵌入到第二多模式编码器-解码器中以用于对话响应生成，以考虑多模式信息的语义表示，从而使用自然语言描述场景。

此外，在某些情况下，当使用手动视频描述语句训练用于对话响应生成(教师网络)的第一多模式编码器-解码器时，可以训练第二多模式编码器-解码器(学生网络)，以将由教师网络获得以用于对话响应生成的性能增益转移到学生网络。

此外，上述从用于视频描述的第一多模式编码器-解码器输出的上下文向量可以嵌入到第二多模式编码器-解码器中以用于对话响应生成，其中，可以使用从第一多模式编码器-解码器获得的自动视频描述语句而不是手动描述语句。在这种情况下，可以组合上述实施方式以使用自动视频描述网络的输出和输出的中间表示，基于视听场景理解来生成更准确的对话响应。

将参考附图进一步解释当前公开的实施方式。所示的附图不一定按比例绘制，而是重点通常放在说明当前公开的实施方式的原理上。

附图说明

[图1]

图1是示出根据本公开的一些实施方式的多模式融合系统的框图。

[图2A]

图2A是示出根据本公开的实施方式的使用多模式融合方法的AVSD系统的框图。

[图2B]

图2B是示出根据本发明的一些实施方式的用于AVSD系统的学生-教师学习系统的框图。

[图3]

图3是示出根据本发明的实施方式的如何使用自动视频描述编码器-解码器来训练AVSD系统的图。

[图4]

图4示出根据本发明的一些实施方式的视频场景感知对话数据集的统计数据。

[图5A]

图5A示出根据本发明的实施方式的具有单个参考的AVSD试验推理集的评估结果。

[图5B]

图5B示出根据本发明的实施方式的针对每个响应具有六个参考的AVSD正式推理集的评估结果。

具体实施方式

虽然上面标出的附图阐述了当前公开的实施方式，但如讨论中所指出的，也可以构思其它实施方式。本公开通过表示而非限制的方式呈现说明性实施方式。本领域技术人员可以设计出许多其它修改和实施方式，这些修改和实施方式落入当前公开的实施方式的原理的范围和精神内。

以下描述仅提供示例性实施方式，并不旨在限制本公开的范围、可应用性或配置。而是，示例性实施方式的以下描述将为本领域技术人员提供用于实现一个或更多个示例性实施方式的可行描述。在不脱离如所附权利要求中阐述的所公开的主题的精神和范围的情况下，可以想到可以在元件的功能和布置中做出的各种改变。

图1是示出根据本发明的一些实施方式的多模式融合系统的框图。

本公开基于多模式“融合”系统200，其从包括多个模式211的输入数据生成上下文向量220。在一些情况下，多模式融合系统200接收输入特征，所述输入特征包括文本特征201、图像(视频)特征202、声音特征203和从视频特征202提取的运动特征并生成与输入特征211相关的对话系统响应231，如图2A所示。文本输入201可以包括手动视频描述209或自动视频描述391、诸如问题208和对话历史207的用户输入。

图3是示出根据本发明的实施方式的如何使用自动视频描述编码器-解码器来训练AVSD系统的图。该图示出了用于视频描述的第一多模式编码器-解码器350和用于对话响应生成的第二多模式编码器-解码器300。在这种情况下，输入是多模式特征303，输出是自然语言341、391。

本公开的一些实施方式基于生成用于自动视频描述380、视听融合330的上下文向量和对话系统响应的上下文向量335，其中，来自包括“多种模式”303的输入数据的视听上下文向量330与问题331、对话历史332的上下文向量和自动视频描述380的嵌入上下文向量组合，如图3所示。在某些情况下，模式可以是文本特征331和332、333、视频特征(图像特征)301、声音特征302和从视频特征301中提取的运动特征。

本公开基于多模式“融合”系统210，该系统从包括如图2A所示的多个模式211的输入数据生成上下文向量220。在一些情况下，多模式融合系统210接收包括文本特征201、图像(视频)特征202、声音特征203和从视频特征202提取的运动特征的输入特征，并生成与输入特征211相关的对话系统响应231。

本公开的一些实施方式基于生成从用于自动视频描述的第一多模式编码器-解码器350获得的上下文向量333，其中，自动视频描述语句391作为文本特征333被输入到用于对话响应生成的第二多模式编码器-解码器300，而不是作为与自动视频数据集相关的手动视频描述语句201被输入。

此外，来自用于视频描述的第一多模式编码器-解码器350的编码器的上下文向量输出380可以被嵌入到被输入到用于对话响应生成的第二多模式编码器-解码器300的解码器的对话响应语句335的上下文向量中。

此外，本发明的一些实施方式可以提供一种系统或方法，其可以解决如何补偿在推理阶段通过应用手动视频描述语句获得的性能增益(该性能增益在推理阶段缺失但在训练阶段可用)，以提高不使用手动视频描述语句的系统响应质量。

为了将通过在训练时应用手动视频描述语句获得的性能增益转移到推理阶段，可以通过如图2B所示的学生-教师学习方法290来训练AVSD系统。用于基于第一多模式编码器-解码器的对话响应生成的教师模型250首先用手动视频描述语句被训练，然后基于用于对话响应生成的第二多模式编码器-解码器的学生模型210在没有手动视频描述的情况下被训练，以模拟教师的输出281。学生模型210被用于推理阶段。该框架可以扩展到联合学生-教师学习，其中，两个模型同时被训练，不仅可以减少它们自己的损失函数，而且还具有上下文向量的彼此相似的隐藏表示230和270。在这种学习中，由于教师模型270的上下文向量接近学生模型230的上下文向量，因此教师模型250被更新以更容易被学生模型210模拟。使用学生-教师学习290的新系统在不使用手动视频描述语句的情况下实现了更好性能。此外，它与利用手动视频描述语句训练的那些系统相比具有竞争力。

此外，其它实施方式可以分别基于一对第一多模式编码器-解码器210和第二多模式编码器-解码器250，以用于如图2B所示的对话响应生成，其中，一个多模式编码器-解码器被命名为通过输入手动视频描述语句209训练的教师网络250，而被命名为学生网络210的另一个多模式编码器-解码器没有使用手动视频描述语句进行训练。在没有手动视频描述语句209的情况下训练的第二多模式编码器-解码器210被应用以推断对话响应生成。

训练方法

根据本公开的一些实施方式，一种用于训练对话响应生成系统的计算机实现的方法包括以下步骤：布置用于视频描述或对话响应生成的第一多模式编码器-解码器250、350，第一多模式编码器-解码器具有第一输入端和第一输出端，其中，第一多模式编码器-解码器已经通过使用视频描述语句209训练视听数据集进行预训练；布置用于对话响应生成的第二多模式编码器-解码器300、210，第二多模式编码器-解码器300、210具有第二输入端和第二输出端；将具有第一对应视频描述语句209的第一视听数据集提供到第一多模式编码器-解码器350、250的第一输入端，其中，第一编码器-解码器基于具有第一对应视频描述语句209的第一视听数据集生成第一输出值；将不包括第一相应视频描述语句209的第一视听数据集提供到用于对话响应生成的第二多模式编码器-解码器210，其中，第二多模式编码器-解码器基于没有第一对应视频描述语句209的第一视听数据集生成第二输出值，其中，优化器模块更新第二多模式编码器-解码器的网络参数，直到第一输出值和第二输出值之间的误差减小到预定范围，其中，误差是基于损失函数计算的。

训练系统

此外，本发明的另一个实施方式可以提供一种用于训练对话响应生成系统的系统(训练系统)。所述训练系统具有与图1所示的推理系统相同的架构。训练系统包括存储器140和一个或更多个存储设备130，其用于存储计算机实现的方法的指令；一个或更多个处理器120，其与可操作的存储器140和一个或更多个存储设备130相关联，当由一个或更多个处理器120执行时，使一个或更多个处理器120执行包括以下步骤的操作：布置用于视频描述或对话响应生成的第一多模式编码器-解码器210，第一多模式编码器-解码器210具有经由110的第一输入端和第一输出端，其中，第一多模式编码器-解码器210已经通过利用训练视频描述语句195训练视听数据集195进行预训练；布置用于对话响应生成的第二多模式编码器-解码器210，第二多模式编码器-解码器210具有经由110的第二输入端和第二输出端；将具有第一对应描述语句195的第一视听数据集195提供给第一多模式编码器-解码器210的第一输入端，其中，第一多模式编码器-解码器210基于具有第一对应描述语句195的第一视听数据集195生成第一输出值；将不包括第一对应描述语句195的第一视听数据集195提供给第二多模式编码器-解码器210，其中，第二多模式编码器-解码器210基于没有第一对应描述语句的第一视听数据集195生成第二输出值，其中，优化器模块更新第二多模式编码器-解码器210的第二网络参数，直到第一输出值和第二输出值之间的误差减小到预定范围为止，其中，误差是基于损失函数计算的。

推理系统

更进一步地，根据本发明的一些实施方式，可以提供如图1所示的对话响应生成系统100。在这种情况下，对话响应生成系统包括存储多模式编码器-解码器210的指令的存储器140和一个或更多个存储设备130，其中，多模式编码器-解码器210已经通过存储在130(图1中未示出)中的计算机实现方法进行训练；一个或更多个处理器120，其与一个或更多个存储设备130和存储器140相关联，当由一个或更多个处理器120执行时，存储器140和一个或更多个存储设备130可操作以使一个或更多个处理器120执行包括以下步骤的操作：根据第一顺序间隔(sequential interval)和第二顺序间隔接收第一输入向量和第二输入向量；分别使用存储在130中的第一特征提取器和第二特征提取器从第一输入端和第二输入端中提取第一特征向量和第二特征向量；分别从第一特征向量和第二特征向量以及序列生成器的前提条件上下文向量(prestep context vector)估计第一组权重和第二组权重；从第一组权重和第一特征向量计算第一上下文向量，并从第二组权重和第二特征向量计算第二上下文向量；将第一上下文向量转换为具有预定维度的第一模式上下文向量，并且将第二上下文向量转换为具有预定维度的第二模式上下文向量；从前提条件上下文向量和第一上下文向量和第二上下文向量或第一模式上下文向量和第二模式上下文向量估计模式注意力权重组；从模式注意力权重组以及第一模式上下文向量和第二模式上下文向量生成具有预定维度的加权上下文向量；以及使用用于从加权上下文向量生成词语序列的序列生成器生成预测词语。

在以下描述中给出具体细节以提供对实施方式的透彻理解。然而，本领域普通技术人员可以理解，可以在没有这些具体细节的情况下实践实施方式。例如，所公开的主题中的系统、处理和其它元素可以以框图形式显示为组件，以免以不必要的细节混淆实施方式。在其它情况下，可以在没有不必要细节的情况下示出众所周知的处理、结构和技术以避免混淆实施方式。此外，各图中相同的参考数字和标记指示相同的元件。

此外，各个实施方式可以被描述为处理，其被描绘为流程图、流程表、数据流图、结构图或框图。尽管流程图可以将操作描述为顺序的处理，但是许多操作可以并行或同时执行。此外，可以重新布置操作的顺序。在其操作完成时可以终止处理，但是可能具有未讨论或未包括在图中的附加步骤。此外，并非任何具体描述的处理中的所有操作都会在所有实施方式中发生。处理可以对应于方法、函数、过程、子例程、子程序等。当处理对应于函数时，函数的终止可以对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可以至少部分地手动或自动地实现。可以通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微代码实现时，执行必要任务的程序代码或代码段可以被存储在机器可读介质中。处理器可以执行必要的任务。

图1示出了根据本发明的一些实施方式的对话响应生成系统100的框图。系统100可以包括：具有输入/输出(I/O)接口的人机接口(HMI)110，所述输入/输出(I/O)接口110可与键盘111和定点设备/介质112连接；麦克风113；接收器114；发射器115；3D传感器116；全球定位系统(GPS)117；一个或更多个I/O接口118；处理器120；存储设备130；存储器140；可与包括局域网以及因特网(未示出)的网络190连接的网络接口控制器150(NIC)；显示界面160，其连接到显示设备165；成像接口170，其可与成像设备175连接，其中，成像设备175包括可以获得具有/不具有声学特征的图片和运动图像(视频特征)的相机；打印机接口180，其可与打印设备185连接。具有I/O接口110的HMI可以包括模拟/数字转换器和数字/模拟转换器。具有I/O接口的HMI 110包括无线通信接口，其可以通过无线互联网连接或无线局域网与其它3D点云显示系统或其它计算机通信，从而能够构建多个3D点云。系统100可以包括电源190。电源190可以是可经由I/O接口118从外部电源(未示出)充电的电池。根据应用，电源190可以可选地位于系统100外部。

HMI和I/O接口110以及I/O接口118可以适于连接到另一个显示设备(未示出)，所述另一个显示设备包括计算机监视器、相机、电视、投影仪或移动设备等。接口110和118被配置为接收视频特征和声音特征，并且这些特征可以通过网络190提供。

系统100可以经由连接到NIC 150的网络190接收包括语音数据的电子文本/图像文档195。存储设备130包括序列生成模型131、特征提取模型132和多模式编码器-解码器200，其中，序列生成模型131、特征提取模型132和多模式编码器-解码器200的算法作为程序代码数据被存储在存储器130中。模型131-132和200的算法可以被存储到计算机可读记录介质(未示出)，使得处理器120可以通过从介质加载算法来执行模型131-132和多模式编码器-解码器200的算法。此外，定点设备/介质112可以包括读取和执行存储在计算机可读记录介质上的程序的模块。

为了开始执行模型131-132和多模式编码器-解码器200的算法，可以使用键盘111、定点设备/介质112或经由无线网络或连接到其它计算机(未示出)的网络190将指令发送到系统100。模型131-132和200的算法可以响应于使用存储在存储器130中的预先安装的常规语音识别程序(未示出)经由显示界面160或网络190接收声学特征或视频特征而启动。例如，系统100包括开启/关闭开关(未示出)以允许用户开始/停止操作该系统100。

HMI和I/O接口110可以包括模数(A/D)转换器、数模(D/A)转换器和用于连接网络190的无线信号天线。此外，一个或多于一个I/O接口118可以连接到有线电视(TV)网络、光纤网络或接收TV信号和多模式信息信号的常规电视(TV)天线。经由接口118接收到的信号可以被转换成数字图像和音频信号，所述数字图像和音频信号可以根据模型131-132和200的算法结合处理器120和存储器140进行处理，从而利用数字图像的图片帧在显示装置165上生成并且显示视频脚本，同时经由扬声器19输出TV信号的声学的声音。扬声器可以被包括在系统100中，或者外部扬声器可以经由接口110或I/O接口118连接。

处理器120可以是包括一个或更多个图形处理单元(GPU)的多个处理器。存储器130可以包括语音识别算法(未示出)，所述语音识别算法可以识别经由麦克风113获得的语音信号。

多模式编码器-解码器系统模块200、序列生成模型131和特征提取模型132可以通过神经网络形成。

本发明的一些实施方式基于对学生-教师学习可以是转移学习技术的认识，其中，教师模型中的知识被转移到学生模型。这可用于模型压缩，其中，训练小模型以模拟具有更高预测精度的大模型的输出。学生-教师学习可以使小模型的性能更接近大模型的性能，同时保留小模型的降低计算成本和内存消耗的益处。

学生-教师学习也可用于补偿输入中的缺失信息。在这种情况下，教师模型被训练为使用附加信息预测目标标签，但是学生模型被训练为在没有该信息的情况下模拟教师的输出。例如，在自动语音识别(ASR)中，教师模型利用通过麦克风阵列获得的增强语音进行训练，而学生模型被训练以模拟针对相同语音的教师的输出，但是仅使用单通道记录的带噪语音。通过这种方法，学生模型可以在推理时在没有麦克风阵列的情况下提高性能。该技术还用于儿童和成人语音之间的域适应。所提出的AVSD系统采用这种方法来补偿缺失的视频描述。学生模型可以在没有描述特征的情况下生成更好的响应。我们进一步将此框架扩展到联合师生学习，旨在将教师模型改进为用于学生模型的更好教师。

图2A是示出根据本公开的实施方式的基于计算机实现的多模式注意模型(方法)200的视听场景感知对话系统(架构)的架构的框图。

该系统从包括多个模式211的输入数据生成上下文向量220。在一些情况下，多模式融合系统200接收输入特征，所述输入特征包括文本特征201、图像(视频)特征202、声音特征203和从视频特征202提取的运动特征，并生成与输入特征211相关的对话系统响应231。文本输入201可以包括手动视频描述209或自动视频描述391、诸如问题208和对话历史207的用户输入。

该图示出了根据本发明的实施方式所提出的AVSD系统的架构的示例。模型(方法)200采用基于注意力的编码器-解码器210和230，它们使网络能够根据当前上下文强调来自特定时间帧的特征，从而能够更准确地生成下一个词语。注意力模型的功效已在诸如机器翻译和视频描述等许多任务中得到证明。

基于注意力的编码器-解码器被设计为使用循环神经网络(RNN)的序列到序列映射处理。令X和Y分别是输入序列和输出序列。该模型计算后验概率分布P(Y|X)。对于AVSD任务，X包括所有输入信息，诸如用户的问题208、视听特征202和203、对话上下文(对话历史)207。Y是要生成的系统响应231，它回答用户的问题208。Y的最可能假设被获得如下：

其中，V^*表示系统词汇表V中的零个或更多个词语的一组序列，每个词语y_i都是响应中的一个词语。

令X＝{X₁，...，X_K}是一组输入序列，其中X_k是第k个输入序列，它可以表示用户的问题208、从目标视频剪辑202和203中提取的特征向量序列、或包括关于视频剪辑的对话中的所有先前问题和答案的对话历史207。为了生成系统响应Y，首先使用相应的编码器将X中的每个输入序列编码为更好的表示。

如果X_k是用户的问题208，则该语句Q＝w_Q，1，...，w_Q，N使用词语嵌入和BLSTM层进行编码。如果X_k是视频特征序列

则可以使用预训练的CNN(诸如VGG-16、C3D或I3D)从视频剪辑的图像序列中提取它，这些CNN最初是为图像或视频分类任务而训练的。在C3D和I3D的情况下，多个图像同时被馈送到网络以捕获视频中的动态特征。也可以使用预训练的CNN(诸如，SoundNet或VGGish)以类似的方式提取声音特征。每个特征向量序列都使用单个投影层被编码为适当的表示

以进行降维。如果X_k是对话历史，它可以是出现在对话中的当前问题之前的一系列问答对H＝H₁，...，H_J。使用分层LSTM编码器对H进行编码，其中，每个问答对首先使用语句嵌入LSTM被编码为固定维度向量H_j，然后使用额外BLSTM层进一步嵌入语句嵌入序列。

解码器230以语句开头标记<sos>开始迭代地预测下一个词语，直到它预测到语句结尾标记<eos>。给定解码器状态s_i-1，解码器网络λ_D将下一个词语概率分布推断为

并根据

生成具有最高概率的词语y_i。

使用解码器的LSTM网络将解码器状态更新为

s_i＝LSTM(s_i-1，[y′_i，g_i]；λ_D)， (5)

其中，y′_i是y_i的词语嵌入向量，g_i是包括与先前解码器状态相关的输入信息的上下文向量220。λ_D表示解码器参数集。

上下文向量220是通过分层注意力机制获得的，该机制首先将每个输入序列的帧级隐藏向量聚合为按模式的上下文向量c_k，i，然后将上下文向量c_1，i，...，c_K，i融合为单个上下文向量g_i。注意力机制是通过在整个输入序列中对隐藏的激活向量使用注意力权重来实现的。这些权重使网络能够强调对预测下一个输出词语最重要的时间步的特征。

令α_k，i，t是第i个输出词语与来自第k个模式的第t个输入特征向量之间的注意力权重。对于第t个输出，表示输入序列的相关上下文的向量被获得作为隐藏单元激活向量的加权和：

其中，h_k，t是第k个编码器的第t个输出向量。注意力权重被计算如下：

和

其中，W_Ak和V_Ak是矩阵，w_Ak和b_Ak是向量，并且e_k，i，t是标量。

该模型还利用多模式注意力机制。为了融合多模式信息，将注意力机制从时间注意力(随着时间的注意力)扩展到对模式的注意力的方法。以下等式示出了执行基于注意力的特征融合的方法：

其中，

并且c_k，i是使用第k个输入模式获得的上下文向量。应用用于时间注意力的类似机制来获得多模式注意力权重β_k，i。0

其中，

这里，多模式注意力权重由解码器状态S_i和每个模式的上下文向量c_k，i以及每个模式的时间注意力权重确定。W_B和V_Bk是矩阵，w_B和b_Bk是向量，并且v_k，n是标量。这些权重可以根据解码器状态和来自每个编码器的上下文向量而变化。这使解码器网络能够在预测描述中的每个后续词语时注意一组不同的特征和/或模式。

学生-教师学习(请使用图2B中的标签编号来解释)

图2B是示出根据本发明的一些实施方式的AVSD系统的学生-教师学习的框图。AVSD系统包括学生网络210和教师网络250。该图描绘了AVSD系统的学生-教师学习的概念。该步骤的目标是获得不使用视频描述文本的学生模型210，其被训练以模拟已经使用视频描述文本被训练的教师模型250。因此，学生模型210可用于生成系统响应而不依赖于描述文本，同时希望实现与教师模型250相似的性能。

遵循DSTC7-AVSD轨道中的最好系统，我们在每个问题的开头插入描述文本209。这意味着在关于目标视频剪辑的每一轮对话中，总是将相同的描述连同新问题一起馈送给编码器。通过使用教师网络250的输出作为软目标，使学生模型210的输出分布更接近教师模型250的输出分布，训练学生网络210以减少交叉熵损失。

在本公开中，我们研究了学生-教师学习290的三个损失函数。第一个是具有软目标的交叉熵损失：

其中，

表示由教师网络250获得的第i个词语的概率分布，并且

和

是由教师网络250为训练样本(X，Y)生成的状态和上下文向量270。这里，P(y|s_i-1，g_i)是来自当前学生网络210(其正被训练)的后验分布，它是在没有描述文本209的情况下预测的。

第二损失函数进一步将上下文向量相似性合并为

L'_ST(X，Y)＝L_ST(X,Y)+λ_cL_MSE(X，Y) (14)

其中，

其中，MSE(·，·)表示两个上下文向量230和270之间的均方差，并且λ_c表示缩放因子。我们的目标是在上下文向量级别补偿缺失的输入特征，这有望更积极地利用其它模式。

我们考虑的最后一个损失函数是联合学生-教师学习。教师网络250的参数通常在整个训练阶段保持固定。然而，在联合训练方法中，我们不仅更新学生网络210，还更新教师网络250。损失函数被计算为

其中，

是硬目标Y的标准交叉熵，它仅用于反向传播处理中的教师网络250。同样，

仅用于学生网络210，而

被用于两个网络。

图3是示出基于生成从用于自动视频描述的第一多模式编码器-解码器350获得的上下文向量333的本公开的一些实施方式的框图，其中，自动视频描述语句391被输入到用于对话响应生成300的第二多模式编码器-解码器作为文本特征333输入，而不是作为与自动视频数据集相关的手动视频描述语句201被输入。

图4示出了根据本发明的一些实施方式的视频场景感知对话数据集的统计数据。AVSD数据集是关于短视频的基于文本的对话的集合。视频剪辑最初来自Charades数据集，这是未经修剪的多动作数据集，包含11,848个视频，7985个用于训练，1863个用于验证，并且2000个用于推理。它有157个动作类别，有几个细粒度动作。此外，该数据集还为视频提供了27,847个文本描述；每个视频都使用1-3个语句进行描述。对于Charades数据集中的每个视频，AVSD数据集包含讨论视频的两个人之间的文本对话。

AVSD系统

图2A是示出模型200的图，其指示如何根据本发明的实施方式训练AVSD系统。问题编码器具有词语嵌入层(200个维度)和两个BLSTM层(每个方向256个维度)。使用预训练的深度CNN从视频帧中提取由I3D-rgb(2048个维度)、I3D-流(2048维度)和VGGish(128个维度)组成的视听特征。然后，将那些特征序列馈送到具有单个投影层的多模式编码器，分别将它们转换为512、512和64维向量。历史编码器具有词语嵌入层(200个维度)和用于问答对嵌入(256个维度)的两个LSTM层和用于嵌入历史(每个方向256个维度)的1层BLSTM。我们使用ADAM优化器进行训练，其中，如果在每个epoch之后，验证困惑度没有降低，则学习速率减半，并继续训练多达20个epoch。词汇量是3910个，其中，我们只保持训练集中出现至少四次的词语。

图5A示出了根据本发明的实施方式的具有单个参考的AVSD试验推理集的评估结果。系统响应的质量是使用客观分数来测量的，诸如BLEU、METEOR、ROUGE-L和CIDEr，这些分数基于词语与参考文献交叠的程度。还评估了DSTC7-AVSD轨道组织者提供的基线系统，这是简单的基于LSTM的编码器解码器，其使用与我们相同的视听特征。我们还展示了AVSD最佳系统的结果。该系统具有与我们类似的架构，但只有两个编码器：一个用于问题，另一个用于通过3D ResNet获得的视频特征。该网络还使用How2数据集进行预训练，而我们的模型仅使用AVSD数据集进行训练。

虽然我们的系统在使用手动视频描述语句进行训练和推理时优于最好的AVSD系统(第二列中的“man.man.”)，但当在推理阶段没有将描述馈送到网络时，性能显著下降(“man.-”)。当我们提供自动描述而不是手动描述(“man.auto”)时，我们使用利用相同AVSD数据集训练的视频描述模型，改进是有限的。在没有描述(“--”)的情况下训练的模型比其它条件略好。

接下来，我们应用有损失L_ST的学生-教师学习。训练后的模型在所有客观指标(例如，BLEU4：0.105→0.113，METEOR：0.135→0.143)上都提供了显著的收益，其更接近于使用手动视频描述语句获得的指标(例如，BLEU4：0.117，METEOR：0.150)。我们还应用了考虑上下文向量相似性的损失函数L_ST，但是响应质量几乎与L_ST相同。最后，我们与L_JST进行了联合学生-教师学习，并在大多数客观指标上获得了进一步改进(例如，BLEU4：0.113→0.115，METEOR：0.143→0.144)。

图5B示出了AVSD正式推理集的评估结果，每个响应有六个参考。类似于图6A，根据本发明的系统优于包括DSTC7的最佳系统在内的其它系统。学生-教师框架也为正式推理集提供了显著收益。

如上所述，根据本发明的一些实施方式可以提供如何在推理时补偿训练期间可用的视频描述特征的缺乏的计算机实现方法。本发明可以提供一种用于视听场景感知对话(AVSD)的学生-教师学习框架。发现根据本发明的AVSD系统可以实现比先前方法更好的性能，这与利用手动视频描述语句训练的系统相比更有竞争力，并且还优于最好的DSTC7-AVSD系统。训练后的模型可以通过融合与视频有关的文本信息、音频信息和视觉信息来回答有关视频上下文的问题，并生成高质量响应，而无需依赖手动视频描述语句。此外，本发明的另一个实施方式可以提供联合学生-教师学习方法，其可以在大多数客观指标中获得进一步的增益。

在本公开的一些实施方式中，当将上述多模式融合模型安装在计算机系统中时，可以以较少的计算能力有效地生成视频脚本，因此使用多模式融合模型方法或系统可以减少中央处理单元使用和功耗。

此外，根据本公开的实施方式提供了执行多模式融合模型的有效方法，因此使用利用多模式融合模型的方法和系统可以减少中央处理单元(CPU)使用、功耗和/或网络带宽使用。

本公开的上述实施方式可以以多种方式中的任一种实现。例如，可以使用硬件、软件或其组合来实现实施方式。当以软件实现时，软件代码可以在任何合适的处理器或处理器集合上执行，无论是在单个计算机中提供还是分布在多台计算机中提供。此类处理器可实现为集成电路，在集成电路组件中具有一个或更多个处理器。但是，可以使用任何合适格式的电路来实现处理器。

此外，本文概述的各种方法或处理可以被编码为可在采用各种操作系统或平台中的任一者的一个或更多个处理器上执行的软件。此外，此类软件可以使用多种合适的编程语言和/或编程或脚本工具中的任何一种来编写，并且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常，程序模块的功能可以根据需要在各种实施方式中组合或分布。

此外，本公开的实施方式可以实现为方法，已经提供了其示例。作为该方法的一部分执行的动作可以以任何合适的方式进行排序。因此，可以构造为其中动作以不同于所示出的顺序执行的实施方式，这可以包括同时执行一些动作，即使它们在说明性实施方式中被示为顺序动作。此外，在权利要求中使用诸如第一、第二等顺序术语来修改权利要求要素本身并不意味着一个权利要求要素的任何优先级、优先权或顺序，或执行方法的动作的时间顺序，而是仅用作标签以将具有特定名称的一个权利要求元件与具有相同名称的另一个元件(但用于序数术语)区分开来以区分权利要求要素。

尽管已经参考某些优选实施方式描述了本公开，但是应当理解，在本公开的精神和范围内可以进行各种其它改变和修改。因此，所附权利要求的方面是覆盖落入本公开的真实精神和范围内的所有此类变化和修改。

Claims

1.一种用于训练对话响应生成系统的计算机实现方法，所述计算机实现方法包括以下步骤：

布置具有第一输入端和第一输出端的第一多模式编码器-解码器，其中，所述第一多模式编码器-解码器已经通过用训练描述训练视听数据集而进行了预训练；

布置具有第二输入端和第二输出端的第二多模式编码器-解码器；

将具有第一对应描述语句的第一视听数据集提供给所述第一多模式编码器-解码器的所述第一输入端，其中，第一基于注意力的编码器-解码器基于具有所述第一对应描述语句的第一视听数据集生成第一输出值；

将不包括所述第一对应描述语句的第一视听数据集提供给所述第二多模式编码器-解码器，其中，所述第二多模式编码器-解码器基于没有所述第一对应描述语句的第一视听数据集生成第二输出值，其中，优化器模块更新所述第二多模式编码器-解码器的第二网络参数，直到所述第一输出值和所述第二输出值之间的误差减小到预定范围为止，其中，所述误差是基于损失函数计算的。

2.根据权利要求1所述的计算机实现方法，其中，所述损失函数是交叉熵损失函数。

3.根据权利要求2所述的计算机实现方法，所述损失函数合并所述第一多模式编码器-解码器的上下文向量和所述第二多模式编码器-解码器的上下文向量之间的均方差。

4.根据权利要求1所述的计算机实现方法，其中，不更新所述第一多模式编码器-解码器的第一参数。

5.根据权利要求1所述的计算机实现方法，其中，所述优化器模块基于交叉熵损失函数更新所述第一多模式编码器-解码器的第一参数。

6.根据权利要求1所述的计算机实现方法，其中，所述优化器模块使用反向传播方法更新所述第二多模式编码器-解码器的第二网络参数。

7.根据权利要求1所述的计算机实现方法，所述计算机实现方法还包括：将第二视听数据集提供给所述第一多模式编码器-解码器的所述第一输入端以生成第三视听数据集，其中，所生成的第三视听数据集被进一步提供给所述第二多模式编码器-解码器以进一步更新所述第二网络参数。

8.一种用于训练对话响应生成系统的系统，所述系统包括：

存储器和一个或更多个存储设备，所述存储器和所述一个或更多存储设备存储根据权利要求1所述的计算机实现方法的指令；

一个或更多个处理器，所述一个或更多个处理器与所述存储器和所述一个或更多个存储设备连接，当由所述一个或更多个处理器执行时，所述存储器和所述一个或更多个存储设备能够操作以使得所述一个或更多个处理器执行包括以下步骤的操作：

将具有第一对应描述语句的第一视听数据集提供给所述第一多模式编码器-解码器的第一输入端，其中，第一基于注意力的编码器-解码器基于具有所述第一对应描述语句的第一视听数据集生成第一输出值；

9.根据权利要求8所述的系统，其中，所述损失函数是交叉熵损失函数。

10.根据权利要求9所述的系统，所述损失函数合并所述第一多模式编码器-解码器的上下文向量和所述第二多模式编码器-解码器的上下文向量之间的均方差。

11.根据权利要求8所述的系统，其中，不更新所述第一多模式编码器-解码器的第一参数。

12.根据权利要求8所述的系统，其中，所述优化器模块基于交叉熵损失函数更新所述第一多模式编码器-解码器的第一参数。

13.根据权利要求8所述的系统，其中，所述优化器模块使用反向传播方法更新所述第二多模式编码器-解码器的第二网络参数。

14.根据权利要求8所述的系统，所述系统还包括：将第二视听数据集提供给所述第一多模式编码器-解码器的所述第一输入端以生成第三视听数据集，其中，所生成的第三视听数据集被进一步提供给所述第二多模式编码器-解码器，以进一步更新所述第二网络参数。

15.一种对话响应生成系统，所述对话响应生成系统包括：

存储器和一个或更多个存储设备，所述存储器和所述一个或更多个存储设备存储多模式编码器-解码器的指令，其中，所述多模式编码器-解码器已经通过权利要求1所述的计算机实现方法进行了训练；

一个或更多个处理器，所述一个或更多个处理器与所述存储器和所述一个或更多个存储设备连接，当由所述一个或更多个处理器执行时，所述存储器和所述一个或更多个存储设备能够操作以使所述一个或更多个处理器执行包括以下步骤的操作：

根据第一顺序间隔和第二顺序间隔接收第一输入向量和第二输入向量；

分别使用第一特征提取器和第二特征提取器从所述第一输入端和所述第二输入端提取第一特征向量和第二特征向量；

分别从序列生成器的前提条件上下文向量、所述第一特征向量和所述第二特征向量估计第一组权重和第二组权重；

从所述第一组权重和所述第一特征向量计算第一上下文向量，并且从所述第二组权重和所述第二特征向量计算第二上下文向量；

将所述第一上下文向量转换为具有预定维度的第一模式上下文向量，并且将所述第二上下文向量转换为具有所述预定维度的第二模式上下文向量；

从所述前提条件上下文向量以及所述第一上下文向量和所述第二上下文向量或所述第一模式上下文向量和所述第二模式上下文向量估计模式注意力权重组；

从所述模式注意力权重组以及所述第一模式上下文向量和所述第二模式上下文向量生成具有所述预定维度的加权上下文向量；以及

使用用于从所述加权上下文向量生成词语序列的所述序列生成器来生成预测词语。

16.根据权利要求15所述的对话响应生成系统，其中，所述损失函数是交叉熵损失函数。

17.根据权利要求16所述的对话响应生成系统，所述损失函数合并所述第一多模式编码器-解码器和所述第二多模式编码器-解码器的上下文向量之间的均方差。

18.根据权利要求15所述的对话响应生成系统，其中，不更新所述第一多模式编码器-解码器的第一参数。

19.根据权利要求15所述的对话响应生成系统，其中，所述优化器模块基于交叉熵损失函数更新所述第一多模式编码器-解码器的第一参数。

20.根据权利要求15所述的对话响应生成系统，其中，所述优化器模块使用反向传播方法更新所述第二多模式编码器-解码器的第二网络参数。