CN114416934B

CN114416934B - 多模态的对话生成模型的训练方法、装置及电子设备

Info

Publication number: CN114416934B
Application number: CN202111598876.7A
Authority: CN
Inventors: 吴文权; 郭振
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2023-02-07
Anticipated expiration: 2041-12-24
Also published as: CN114416934A

Abstract

本公开提供了一种多模态的对话生成模型的训练方法、装置及电子设备，涉及计算机技术领域，尤其涉及自然语言处理、深度学习、计算机视觉等人工智能技术领域。包括：获取第一训练数据集，其中，第一训练数据集中包括第一对话语料对；基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型；获取第二训练数据集，其中，第二训练数据集中包括第二对话语料对及对应的人脸图像；基于第二训练数据集及第一预设的调整权重，对参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型。由此，使得生成的多模态的对话生成模型既能具有较强的文本对话能力，又能准确地预测出语音输入信号对应的答复信号。

Description

多模态的对话生成模型的训练方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及自然语言处理、深度学习、计算机视觉等人工智能技术领域，具体涉及一种多模态的对话生成模型的训练方法、装置及电子设备。

背景技术

随着人工智能技术地不断发展和完善，其已经在与人类日常生活相关的各个领域扮演着极其重要的作用。例如，人工智能已经在语音对话领域取得显著的进步。相关技术中，可以将输入语音信号转化为文本，并对文本进行语义分析以确定答复语句，进而再合成答复信号。由于相关技术中仅根据输入语音信号中包含的文本这一单一的特征，确定答复语句，从而可能导致最终确定的答复信号的准确性较低。因此，如何提高答复信号的准确性成为重点的研究方向。

发明内容

本公开提供了一种多模态的对话生成模型的训练方法、装置及电子设备。

根据本公开的第一方面，提供了一种多模态的对话生成模型的训练方法，包括：

获取第一训练数据集，其中，所述第一训练数据集中包括第一对话语料对；

基于所述第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型；

获取第二训练数据集，其中，所述第二训练数据集中包括第二对话语料对及对应的人脸图像；

基于所述第二训练数据集及第一预设的调整权重，对所述参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型。

根据本公开的第二方面，提供了一种多模态的对话生成方法，包括：

获取语音输入信号及对应的图像数据；

对所述图像数据进行识别，以确定所述图像数据所属的类型；

在所述图像数据中包含人脸的情况下，将所述人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定所述人脸图像对应的人脸特征，其中，所述多模态对话生成模型为基于如权利要求1-3任一所述的方法训练生成的；

将所述人脸特征及所述语音输入信号，分别输入所述多模态对话生成模型中的对话生成网络，以获取答复信号。

根据本公开的第三方面，提供了一种多模态的对话生成模型的训练装置，包括：

第一获取模块，用于获取第一训练数据集，其中，所述第一训练数据集中包括第一对话语料对；

第一生成模块，用于基于所述第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型；

第二获取模块，用于获取第二训练数据集，其中，所述第二训练数据集中包括第二对话语料对及对应的人脸图像；

第三获取模块，用于基于所述第二训练数据集及第一预设的调整权重，对所述参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型。

根据本公开的第四方面，提供了一种多模态的对话生成装置，包括：

第四获取模块，用于获取语音输入信号及对应的图像数据；

第一确定模块，用于对所述图像数据进行识别，以确定所述图像数据所属的类型；

第二确定模块，用于在所述图像数据中包含人脸的情况下，将所述人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定所述人脸图像对应的人脸特征，其中，所述多模态对话生成模型为基于第一方面所述的装置训练生成的；

第五获取模块，用于将所述人脸特征及所述语音输入信号，分别输入所述多模态对话生成模型中的对话生成网络，以获取答复信号。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的多模态的对话生成模型的训练方法，或者执行如第二方面所述的多模态的对话生成方法。

根据本公开第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的多模态的对话生成模型的训练方法，或者执行如第二方面所述的多模态的对话生成方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现如第一方面所述的多模态的对话生成模型的训练方法的步骤，或者实现如第二方面所述的多模态的对话生成方法。

本公开提供的多模态的对话生成模型的训练方法、装置及电子设备，存在如下有益效果：

本公开实施例中，先获取第一训练数据集，之后基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型，再获取第二训练数据集，其中，第二训练数据集中包括第二对话语料对及对应的人脸图像，最后基于第二训练数据集及第一预设的调整权重，对参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型。由此，根据包含人脸图像的第二训练数据集对参考对话生成模型及网络特征提取模型进行修正训练，从而使得生成的多模态的对话生成模型既能具有较强的文本对话能力，又能准确地预测出包含人脸图像的语音输入信号对应的答复信号。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图；

图2是根据本公开又一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图；

图3是根据本公开又一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图；

图4是根据本公开一实施例提供的一种多模态的对话生成方法的流程示意图；

图5是根据本公开又一实施例提供的一种多模态的对话生成方法的流程示意图；

图6是根据本公开一实施例提供的一种多模态的对话生成模型的训练装置的结构示意图；

图7是根据本公开又一实施例提供的一种多模态的对话生成装置的结构示意图；

图8是用来实现本公开实施例的多模态的对话生成模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例涉及计算机视觉、深度学习等人工智能技术领域。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1是根据本公开一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图。

其中，需要说明的是，本实施例的多模态的对话生成模型的训练方法的执行主体为多模态的对话生成模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

如图1所示，该多模态的对话生成模型的训练方法包括：

S101：获取第一训练数据集，其中，第一训练数据集中包括第一对话语料对。

其中，第一训练数据集，用于对初始对话生成模型进行训练，第一训练数据集中包含大量的第一对话语料对。

其中，第一对话语料对中可以包含第一源语句及第一目标语句。第一源语句可以为对话语料对中用于咨询的语句。比如，“今天的天气怎么样”。第一目标语句为对话语料对中用于答复第一源语句的语句。比如，“今天的天气很晴朗”。

可选的，本公开实施例中的第一对话语料对可以为音频数据，也可以为文本数据。本公开对此不做限定。

可选的，在第一对话语料对为文本数据的情况下，可以从网络信息中自动挖掘大量的文本对话语料，作为第一对话语料对。或者也可以从小说、剧本、漫画中抽取文本对话语料，作为第一对话语料。

或者，在第一对话语料对为音频数据的情况下，可以先从网络信息中自动挖掘大量的文本对话语料，之后对文本对话语料进行人工配音，将配音得到的音频数据作为第一对话语料对。

需要说明的是，本公开实施例中可以采取任何可取的方式获取第一对话语料对，本公开对此不做限定。

S102：基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型。

可选的，初始对话生成模型的结构可以为基于循环神经网络(Recurrent NeuralNetwork，RNN)或Transformer的编码器-解码器结构。本公开对此不做限定。

本公开实施例中，可以将第一训练数据集中第一对话语料对中的第一源语句输入初始对话生成模型中，获取初始对话生成模型模型输出的预测目标语句，之后根据预测目标语句与第一对话语料对中的第一目标语句之间的差异对初始对话生成模型进行修正，以生成参考对话生成模型。

S103：获取第二训练数据集，其中，第二训练数据集中包括第二对话语料对及对应的人脸图像。

其中，第二对话语料对中可以包含第二源语句及第二目标语句。第二源语句可以为对话语料对中用于咨询的语句。比如，“今天的温度为多少度”。第二目标语句为对话语料对中用于答复第二源语句的语句。比如，“今天的温度为10℃-15℃”。

其中，人脸图像可以为，第二源语句对应的说话者在说第二源语句时，对应的人脸图像。

需要说明的是，本公开实施例中的第二对话语料对可以为音频数据。因此，可以先从网络信息中自动挖掘大量的文本对话语料，之后对文本对话语料进行人工配音，将配音得到的音频数据作为第二对话语料对。之后在人工配音时，获取第二源语句对应说话者的人脸图像。

需要说明的是，本公开实施例中可以采取任何可取的方式获取第二对训练数据集，本公开对此不做限定。

可选的，可以采用图像采集设备，如相机、摄像机等，获取说话者的人脸图像，本公开对此不做限定。

S104：基于第二训练数据集及第一预设的调整权重，对参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型。

其中，第一预设的调整权重可以是参考对话生成模型对应的调整权重；或者也可以为图像特征提取网络对应的调整权重；或者，也可以为参考对话生成模型及图像特征提取网络分别对应的调整权重。

需要说明的是，参考对话生成模型对应的第一预设的调整权重与图像特征提取网络对应的第一预设的调整权重可以相同，也可以不同。本公开对此不做限定。

其中，图像特征提取网络可用于对第二训练数据集中包括人脸图像进行特征提取。本公开实施例中，对图像特征提取网络的结构不做限定，卷积神经网络(ConvolutionalNeural Networks，CNN)。

可选的，图像特征提取网络的结构可以为卷积神经网络(Convolutional NeuralNetworks，CNN)，或者，也可以为深度神经网络(Deep Neural Network，DNN)。本公开对此不做限定。

本公开实施例中，可以先利用大量的第一对话语料对初始对话生成模型进行预训练，以生成参考对话生成模型，之后，再结合数据量相对少的包含人脸图像的第二训练数据集对参考对话生成模型、及图像特征提取网络进行修正训练，以使生成的多模态的对话生成模型可以融合人脸图像特征，而且在修正训练的过程中，可以尽可能地修正图像特征提取网络的参数，小范围地修正参考对话生成模型的参数，进而使得生成的多模态的对话生成模型既能具有较强的文本对话能力，又能准确地预测出包含人脸图像的语音输入信号对应的答复信号。

图2是根据本公开又一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图。如图2所示，该多模态的对话生成模型的训练方法包括：

S201：获取第一训练数据集，其中，第一训练数据集中包括第一对话语料对。

S202：基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型。

S203：获取第二训练数据集，其中，第二训练数据集中包括第二对话语料对及对应的人脸图像。

其中，步骤S201-步骤S203的具体实现形式，可参照本公开其他各实施例中的详细步骤，此处不再详细赘述。

S204：将人脸图像输入图像特征提取网络，以获取人脸图像对应的人脸特征。

其中，人脸特征可以为人脸的表情特征。比如，悲伤、生气、愤怒、开心等。

S205：将人脸特征及第二对话语料对中的第二源语句输入参考对话生成模型，以获取第一预测语句。

其中，第一预测语句可以为参考对话生成模型预测的第二源语句对应的应答语句。

本公开实施例中，可以先提取人脸图像对应的人脸特征，之后根据第二对话语料对及说话者的人脸特征对图像特征提取网络进行修正训练，从而可以使生成的多模态的对话生成模型可以学习说话者的人脸特征。

S206：根据第一预测语句与第二对话语料对中的第二目标语句间的差异及第一预设的调整权重，确定参考对话生成模型及图像特征提取网络分别对应的第一修正梯度。

其中，第一修正梯度用于分别对参考对话生成模型及图像特征提取网络进行修正。

可选的，在参考对话生成模型及图像特征提取网络分别对应一个第一预设的调整权重的情况下，可以根据参考对话生成模型对应的第一预设的调整权重及第一预测语句与第二目标语句间的差异，确定参考对话生成模型对应的第一修正梯度。根据图像特征提取网络对应的第一预设的调整权重及第一预测语句与第二目标语句间的差异，确定图像特征提取网络对应的第一修正梯度。

S207：基于第一修正梯度，分别对参考对话生成模型及图像特征提取网络进行修正，以获取多模态的对话生成模型。

可以理解的是，基于参考对话生成模型对应的第一修正梯度，对参考对话生成模型进行修正；基于图像特征提取网络对应的第一修正梯度，对图像特征提取网络进行修正，从而可以提高参考对话生成模型及图像特征提取网络的收敛性及鲁棒性，使得通过图像特征提取网络获取的人脸特征更加准确，进而可以提高多模态的对话生成模型的收敛性及鲁棒性，使得生成的多模态的对话生成模型可以更加准确地预测输入语句对应的应答语句。

本公开实施例中，先根据人脸图像，判断说话者的人脸特征，进而根据人脸特征及第二对话语料对，对参考对话生成模型及图像特征提取网络进行修正训练，从而可以使得生成的多模态的对话生成模型不仅可以准确地预测出包含人脸图像的语音输入信号对应的答复信号，而且可以使预测的答复信号更加贴合说话者的情绪。

本公开实施例中，先基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型，之后将第一训练数据集中的人脸图像输入图像特征提取网络，以获取人脸图像对应的人脸特征，再将人脸特征及第二对话语料对中的第二源语句输入参考对话生成模型，以获取第一预测语句，之后根据第一预测语句与第二对话语料对中的第二目标语句间的差异及第一预设的调整权重，确定参考对话生成模型及图像特征提取网络分别对应的第一修正梯度，最后基于第一修正梯度，分别对参考对话生成模型及图像特征提取网络进行修正，以获取多模态的对话生成模型。由此，先根据人脸图像，判断说话者的人脸特征，进而根据人脸特征与第二对话语料对，对参考对话生成模型及图像特征提取网络进行修正训练，从而使得生成的多模态的对话生成模型不仅可以准确地预测出包含人脸图像的语音输入信号对应的答复信号，而且可以使预测的答复信号更加贴合说话者的情绪。

图3是根据本公开又一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图。如图3所示，该多模态的对话生成模型的训练方法包括：

S301：获取第一训练数据集，其中，第一训练数据集中包括第一对话语料对。

S302：基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型。

S303：获取第二训练数据集，其中，第二训练数据集中包括第二对话语料对及对应的人脸图像。

S304：将人脸图像输入图像特征提取网络，以获取人脸图像对应的人脸特征。

S305：将人脸特征及第二对话语料对中的第二源语句输入参考对话生成模型，以获取第一预测语句。

S306：根据第一预测语句与第二对话语料对中的第二目标语句间的差异及第一预设的调整权重，确定参考对话生成模型及图像特征提取网络分别对应的第一修正梯度。

其中，步骤S301-步骤S306的具体实现形式，可参照本公开其他各实施例中的详细步骤，此处不再详细赘述。

S307：将第一对话语料对中的第一源语句，输入音频特征提取网络，以确定第一源语句对应的音频特征。

可选的，音频特征提取网络的结构可以为CNN网络结构，也可以为Transformer网络结构等等，本公开对次不做限制。

其中，第一源语句对应的音频特征可以包括幅值特征、频率特征、能量特征、发音帧数特征等。本公开对此不做限定。

其中，幅值特征可以包括：高幅值、中幅值及低幅值。可选的，可以根据第一源语句对应的最高的幅值所在的范围，确定幅值特征。本公开对此不做限定。

其中，频率特征可以包括：高频、中频及低频等。可选的，可以根据第一源语句对应的最高的频率所在的范围，确定频率特征。本公开对此不做限定。

其中，能量特征指的是第一源语句对应的功率谱特征，可通过功率谱求和得到。

其中，发音帧数特征指的是第一源语句内发音帧的数量大小，该发音帧的数量大小也可以通过比例值来衡量。例如第一源语句内发音帧和不发音帧的数量分别为n1和n2，则发音帧数和不发音帧数的比例为p2＝n1/n2，发音帧数和总帧数的比例为：p3＝n1/(n1+n2)。本公开对此不做限定。

需要说明的是，语音信号的音频特征可以反映出第一源语句对应的说话者的情绪信息。比如，第一源语句对应的语音信号的频率较高、发音帧数较多，表示说话者语速较快，情绪可能较为急躁；第一源语句的幅值较高、能量较大时，表示说话者的声音较大，情绪可能较为高涨时。第一源语句对应的幅值较低、能量较小时，表示说话者的声音较小，情绪可能较为低迷。

S308：将音频特征及第一源语句，输入参考对话生成模型，以获取第二预测语句。

其中，第二预测语句，可以为参考对话生成模型根据音频特征及第一源语句，预测的第一源语句对应的应答语句。

可以理解的是，由于参考对话生成模型不能学习到所有取值的频率或幅值，因此，本公开实施例中，可以将频率或幅值按范围划分为不同的等级，即高幅值、中幅值、低幅值及高频、中频、低频等，从而可以提高参考对话生成模型的泛化能力。

本公开实施例中，可以先提取第一源语句对应的音频特征，之后根据第一对话语料对及说话者的音频特征对音频特征提取网络进行修正训练，从而使生成的多模态的对话生成模型可以学习说话者的人脸特征。

S309：根据第二预测语句与第一对话语料对中的第一目标语句间的差异及第二预设的调整权重，确定参考对话生成模型及音频特征提取网络分别对应的第二修正梯度。

其中，参考对话生成模型对应的第二修正梯度可以用于对第一修正梯度进行更新。音频特征提取网络对应的第二修正梯度可以用于对音频特征提取网络进行修正。

其中，第二预设的调整权重可以是参考对话生成模型对应的调整权重；或者也可以为音频特征提取网络对应的调整权重；或者，也可以为参考对话生成模型及音频特征提取网络分别对应的调整权重。

需要说明的是，参考对话生成模型对应的第二预设的调整权重与音频特征提取网络对应的第二预设的调整权重可以相同，也可以不同。本公开对此不做限定。

可选的，在参考对话生成模型及音频特征提取网络分别对应一个第二预设的调整权重的情况下，可以根据参考对话生成模型对应的第二预设的调整权重及第二预测语句与第一目标语句间的差异，确定参考对话生成模型对应的第二修正梯度。根据音频特征提取网络对应的第二预设的调整权重及第二预测语句与第一目标语句间的差异，确定音频特征提取网络对应的第二修正梯度。

S310：基于参考对话生成模型对应的第二修正梯度，对第一修正梯度进行更新。

可以理解的是，本公开实施例中，基于参考对话生成模型对应的第二修正梯度，对第一修正梯度进行更新，从而使确定的参考对话生成模型对应的修正梯度更加准确，使参考对话生成模型不仅可以学习说话者的人脸特征，而且可以学习第一源语句对应的音频特征。

S311：基于更新后的修正梯度、第一修正梯度及第二修正梯度，分别对参考对话生成模型、图像特征提取网络及音频特征提取网络进行修正，以获取多模态的对话生成模型。

可以理解的是，基于更新后的修正梯度对参考对话生成模型进行修正；不仅可以使参考对话生成模型学习说话者的人脸特征及第一源语句对应的音频特征，而且可以提高参考对话生成模型的收敛性及鲁棒性。基于第一修正梯度对图像特征提取网络进行修正，从而提高图像特征提取网络的收敛性及鲁棒性，使得通过图像特征提取网络获取的人脸特征更加准确。基于第二修正梯度对音频特征提取网络进行修正，从而提高音频特征提取网络的收敛性及鲁棒性，使得通过音频特征提取网络获取的音频特征更加准确。

本公开实施例中，先基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型，之后通过图像特征提取网络，获取人脸图像对应的人脸特征，通过音频特征提取网络确定第一源语句对应的音频特征，之后基于人脸特征及音频特征对参考对话生成模型、图像特征提取网络、音频特征提取网络进行修正训练，在修正训练的过程中，尽可能地调整图像特征提取网络及音频特征提取网络的参数，小幅度地调整参考对话生成模型的参数，从而使得生成的对话生成模型不仅具有较强的文本对话能力，而且可以学习输入语音信号的音频特征、及说话者的人脸特征等多模态信息，进而使得预测的答复语音更加准确，更加贴合说话者的情绪。

本公开实施例中，先基于第一训练数据集对初始对话生成模型进行预训练，以生成参考对话生成模型，之后采用图像特征提取网络，获取人脸图像对应的人脸特征，之后基于人脸特征，确定参考对话生成模型及图像特征提取网络分别对应的第一修正梯度，之后再采用音频特征提取网络，确定第一源语句对应的音频特征，基于音频特征，确定参考对话生成模型及音频特征提取网络分别对应的第二修正梯度，最后基于参考对话生成模型对应的第二修正梯度，对第一修正梯度进行更新，根据更新后的修正梯度、第一修正梯度及第二修正梯度，分别对参考对话生成模型、图像特征提取网络及音频特征提取网络进行修正，以获取多模态的对话生成模型。由此，使得生成的对话生成模型不仅具有较强的文本对话能力，而且可以学习输入语音信号的音频特征、及说话者的人脸特征等多模态信息，进而使得预测的答复语音更加准确，更加贴合说话者的情绪。

图4是根据本公开一实施例提供的一种多模态的对话生成方法的流程示意图。如图4所示，该多模态的对话生成方法包括：

S401：获取语音输入信号及对应的图像数据。

其中，获取的语音输入信号可以为需要根据语音中包含的内容生成相应的答复信号的语音。语音输入信号可以为一段连续的语音，例如一个句子、一段话等，本公开对此不做限定。

可选的，可以通过语音采集设备，例如麦克风、声音传感器等获取语音输入信号，还可以通过从存储语音的存储空间中读取语音输入信号，本实施例对语音输入信号的获取方式不做限制。

其中，图像数据中可以包括语音输入信号对应的说话者的人脸图像，也可以不包括语音输入信号对应的说话者的人脸图像。本公开对此不做限定。

可选的，可以在监测到采集的语音数据中包含用户语音的情况下，启动图像采集组件，以获取语音输入信号对应的图像数据。

其中，图像采集组件可以为具有拍照功能的组件。比如，具有交互功能的手机设备、平板设备中包含的摄像头组件。

或者，根据语音输入信号的获取时间，从采集的视频流中截取与语音输入信号对应的图像数据。

本公开实施例中，在监测到采集的语音数据中包含用户语音的情况下，获取语音输入信号对应的图像数据；或者，根据输入语音的获取时间，从采集的视频流中截取与语音输入信号对应的图像数据，从而使获取的图像数据中可以尽可能的包含语音输入信号对应的说话者的人脸。

S402：对图像数据进行识别，以确定图像数据所属的类型。

其中，图像数据所属的类型可以包括：包含人脸和不包含人脸。本公开对此不做限定。

可选的，可以通过对图像数据进行人脸检测，以确定图像数据中是否包含人脸。

需要说明的是，本公开实施例中可以采用任何可取的方式，对图像数据进行人脸检测。比如，可以采用基于模板匹配的方法对图像数据进行人脸检测。即将人脸的面部特征用一个标准的人脸模板来描述，在进行人脸检测时，先计算图像数据与标准人脸模板之间的相关值，之后再将求得的相关值与事先设定的阈值进行比较,以判别图像数据中是否包含人脸。

S403：在图像数据中包含人脸的情况下，将人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定人脸图像对应的人脸特征。

其中，多模态的对话生成模型为基于本公开实施例中任一实施例训练生成的。

S404：将人脸特征及语音输入信号，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。

其中，答复信号可用于回复语音输入信号中包含的内容。

可选的，答复信号中还可以包含答复语调，即用答复语调对应的语调播放答复语句。

需要说明的是，在两个语音输入信号相同的情况下，若每个语音输入信号对应的人脸特征不同，则多模态对话生成模型输出的答复信号也可能不相同，即可以根据说话者的情绪做出对应的答复信号，使生成的答复信号更加贴合语音输入信号对应的说话者的情绪。

本公开实施例中，先获取语音输入信号及对应的图像数据，之后对图像数据进行识别，以确定图像数据所属的类型，进而在图像数据中包含人脸的情况下，将人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定人脸图像对应的人脸特征，最后将人脸特征及语音输入信号，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。由此，将人脸特征及语音输入信号同时输入多模态的对话生成模型中，以获取语音输入信号对应的答复信号，从而不仅提高了生成的答复信号的准确性，而且使得生成的答复信号更加贴合语音输入信号对应的说话者的情绪。

图5是根据本公开又一实施例提供的一种多模态的对话生成模型的训练方法的流程示意图。如图5所示，该多模态的对话生成模型的训练方法包括：

S501：获取语音输入信号及对应的图像数据。

S502：对图像数据进行识别，以确定图像数据所属的类型。

S503：在图像数据中包含人脸的情况下，将人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定人脸图像对应的人脸特征。

其中，步骤S501-步骤S503的具体实现形式，可参照本公开其他各实施例中的详细步骤，此处不再详细赘述。

可选的，在图像数据中未包含人脸的情况下，将语音输入信号输入多模态对话生成模型中的对话生成网络，以获取答复信号。

可以理解的是，若图像数据中未包含人脸，则表示未获取到语音输入信号对应的说话者的表情特征，因此，只需将语音输入信号输入多模态对话生成模型中的对话生成网络，获取语音输入信号对应的答复信号。

S504：将语音输入信号输入多模态对话生成模型中的音频特征提取网络，以确定语音输入信号对应的音频特征。

其中，音频特征可以包括幅值特征和频率特征。其中，幅值特征可以包括：高幅值、中幅值及低幅值；频率特征可以包括：高频、中频及低频等。

S505：将人脸特征、语音输入信号及音频特征，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。

可以理解的是，本公开实施例中，在获取的图像数据包含人脸的情况下，可以将语音输入信号对应的说话者的人脸特征、语音输入信号及语音输入信号对应的音频特征，同时输入多模态对话生成模型中，以获取多模态对话生成模型输出的答复信号，从而不仅进一步提高了生成的答复信号的准确性，而且简化了获取答复信号的处理逻辑，提高了获取答复信号的效率。

本公开实施例中，先获取语音输入信号及对应的图像数据，之后对图像数据进行识别，以确定图像数据所属的类型，再在图像数据中包含人脸的情况下，将人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定人脸图像对应的人脸特征，之后将语音输入信号输入多模态对话生成模型中的音频特征提取网络，以确定语音输入信号对应的音频特征，最后，将人脸特征、语音输入信号及音频特征，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。由此，基于语音输入信号、语音输入信号对应的音频特征、及语音输入信号对应的说话者的人脸特征等多模态数据，确定语音输入信号对应的答复信号，从而不仅进一步提高了生成的答复信号的准确性，而且使得生成的答复信号更加贴合语音输入信号对应的说话者的情绪。

图6是根据本公开一实施例提供的一种多模态的对话生成模型的训练装置的结构示意图。如图6所示，该多模态的对话生成模型的训练装置600，包括：

第一获取模块610，用于获取第一训练数据集，其中，第一训练数据集中包括第一对话语料对；

第一生成模块620，用于基于第一训练数据集，对初始对话生成模型进行预训练，以生成参考对话生成模型；

第二获取模块630，用于获取第二训练数据集，其中，第二训练数据集中包括第二对话语料对及对应的人脸图像；

第三获取模块640，用于基于第二训练数据集及第一预设的调整权重，对参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型。

在本公开的一些实施例中，第三获取模块640，包括：

第一获取单元，用于将人脸图像输入图像特征提取网络，以获取人脸图像对应的人脸特征；

第一获取单元，用于将人脸特征及第二对话语料对中的第二源语句输入参考对话生成模型，以获取第一预测语句；

第一确定单元，用于根据第一预测语句与第二对话语料对中的第二目标语句间的差异及第一预设的调整权重，确定参考对话生成模型及图像特征提取网络分别对应的第一修正梯度；

第二获取单元，用于基于第一修正梯度，分别对参考对话生成模型及图像特征提取网络进行修正，以获取多模态的对话生成模型。

在本公开的一些实施例中，第二获取单元，具体用于：

将第一对话语料对中的第一源语句，输入音频特征提取网络，以确定第一源语句对应的音频特征；

将音频特征及第一源语句，输入参考对话生成模型，以获取第二预测语句；

根据第二预测语句与第一对话语料对中的第一目标语句间的差异及第二预设的调整权重，确定参考对话生成模型及音频特征提取网络分别对应的第二修正梯度；

基于参考对话生成模型对应的第二修正梯度，对第一修正梯度进行更新；

基于更新后的修正梯度、第一修正梯度及第二修正梯度，分别对参考对话生成模型、图像特征提取网络及音频特征提取网络进行修正，以获取多模态的对话生成模型。

需要说明的是，前述对多模态的对话生成模型的训练方法的解释说明也适用于本实施例的多模态的对话生成模型的训练装置，此处不再赘述。

图7是根据本公开又一实施例提供的一种多模态的对话生成装置的结构示意图。如图7所示，该多模态的对话生成模型的训练装置700，包括：

第四获取模块710，用于获取语音输入信号及对应的图像数据；

第一确定模块720，用于对图像数据进行识别，以确定图像数据所属的类型；

第二确定模块730，用于在图像数据中包含人脸的情况下，将人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定人脸图像对应的人脸特征，其中，多模态对话生成模型为基于图6所示的装置训练生成的；

第五获取模块740，用于将人脸特征及语音输入信号，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。

在本公开的一些实施例中，第五获取模块740，具体用于：

将语音输入信号输入多模态对话生成模型中的音频特征提取网络，以确定语音输入信号对应的音频特征；

将人脸特征、语音输入信号及音频特征，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。

在本公开的一些实施例中，还包括：

第六获取模块，用于在图像数据中未包含人脸的情况下，将语音输入信号输入多模态对话生成模型中的对话生成网络，以获取答复信号。

在本公开的一些实施例中，第四获取模块710，具体用于：

响应于监测到采集的语音数据中包含用户语音的情况下，启动图像采集组件，以获取语音输入信号对应的图像数据；

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如多模态的对话生成模型的训练方法，或多模态的对话生成方法。例如，在一些实施例中，多模态的对话生成模型的训练方法，或多模态的对话生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的多模态的对话生成模型的训练方法的一个或多个步骤，或多模态的对话生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法多模态的对话生成模型的训练方法，或多模态的对话生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本实施例中，先获取语音输入信号及对应的图像数据，之后对图像数据进行识别，以确定图像数据所属的类型，进而在图像数据中包含人脸的情况下，将人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定人脸图像对应的人脸特征，最后将人脸特征及语音输入信号，分别输入多模态对话生成模型中的对话生成网络，以获取答复信号。由此，将人脸特征及语音输入信号同时输入多模态的对话生成模型中，以获取语音输入信号对应的答复信号，从而不仅提高了生成的答复信号的准确性，而且使得生成的答复信号更加贴合语音输入信号对应的说话者的情绪。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本公开的描述中，所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“在……情况下”。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多模态的对话生成模型的训练方法，包括：

将所述人脸图像输入图像特征提取网络，以获取所述人脸图像对应的人脸特征；

将所述人脸特征及所述第二对话语料对中的第二源语句输入所述参考对话生成模型，以获取第一预测语句；

根据所述第一预测语句与所述第二对话语料对中的第二目标语句间的差异及第一预设的调整权重，确定所述参考对话生成模型及图像特征提取网络分别对应的第一修正梯度；

基于所述第一修正梯度，分别对所述参考对话生成模型及图像特征提取网络进行修正，以获取多模态的对话生成模型。

2.如权利要求1所述的方法，其中，所述基于所述第一修正梯度，分别对所述参考对话生成模型及图像特征提取网络进行修正，以获取所述多模态的对话生成模型，包括：

将所述第一对话语料对中的第一源语句，输入音频特征提取网络，以确定所述第一源语句对应的音频特征；

将所述音频特征及所述第一源语句，输入所述参考对话生成模型，以获取第二预测语句；

根据所述第二预测语句与所述第一对话语料对中的第一目标语句间的差异及第二预设的调整权重，确定所述参考对话生成模型及音频特征提取网络分别对应的第二修正梯度；

基于所述参考对话生成模型对应的第二修正梯度，对所述第一修正梯度进行更新；

基于更新后的修正梯度、所述第一修正梯度及所述第二修正梯度，分别对所述参考对话生成模型、所述图像特征提取网络及所述音频特征提取网络进行修正，以获取所述多模态的对话生成模型。

3.一种多模态的对话生成方法，包括：

获取语音输入信号及对应的图像数据；

在所述图像数据中包含人脸的情况下，将所述人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定所述人脸图像对应的人脸特征，其中，所述多模态对话生成模型为基于如权利要求1-2任一所述的方法训练生成的；

4.如权利要求3所述的方法，其中，所述获取答复信号，包括：

将所述语音输入信号输入所述多模态对话生成模型中的音频特征提取网络，以确定所述语音输入信号对应的音频特征；

将所述人脸特征、所述语音输入信号及所述音频特征，分别输入所述多模态对话生成模型中的对话生成网络，以获取答复信号。

5.如权利要求3或4所述的方法，其中，在所述确定所述图像数据所属的类型之后，还包括：

在所述图像数据中未包含人脸的情况下，将所述语音输入信号输入所述多模态对话生成模型中的对话生成网络，以获取答复信号。

6.如权利要求3或4所述的方法，其中，所述获取语音输入信号及对应的图像数据，包括：

响应于监测到采集的语音数据中包含用户语音的情况下，启动图像采集组件，以获取所述语音输入信号对应的图像数据；

或者，根据所述语音输入信号的获取时间，从采集的视频流中截取与所述输入信号对应的图像数据。

7.一种多模态的对话生成模型的训练装置，包括：

第三获取模块，用于基于所述第二训练数据集及第一预设的调整权重，对所述参考对话生成模型及图像特征提取网络进行修正训练，以获取多模态的对话生成模型；

所述第三获取模块，包括：

第一获取单元，用于将所述人脸图像输入所述图像特征提取网络，以获取所述人脸图像对应的人脸特征；

第一获取单元，用于将所述人脸特征及所述第二对话语料对中的第二源语句输入所述参考对话生成模型，以获取第一预测语句；

第一确定单元，用于根据所述第一预测语句与所述第二对话语料对中的第二目标语句间的差异及所述第一预设的调整权重，确定所述参考对话生成模型及图像特征提取网络分别对应的第一修正梯度；

第二获取单元，用于基于所述第一修正梯度，分别对所述参考对话生成模型及图像特征提取网络进行修正，以获取所述多模态的对话生成模型。

8.如权利要求7所述的装置，其中，所述第二获取单元，具体用于：

9.一种多模态的对话生成装置，包括：

第四获取模块，用于获取语音输入信号及对应的图像数据；

第二确定模块，用于在所述图像数据中包含人脸的情况下，将所述人脸图像输入多模态对话生成模型中的图像特征提取网络，以确定所述人脸图像对应的人脸特征，其中，所述多模态对话生成模型为基于如权利要求7-8任一所述的装置训练生成的；

10.如权利要求9所述的装置，其中，所述第五获取模块，具体用于：

11.如权利要求9或10所述的装置，其中，还包括：

第六获取模块，用于在所述图像数据中未包含人脸的情况下，将所述语音输入信号输入所述多模态对话生成模型中的对话生成网络，以获取答复信号。

12.如权利要求9或10所述的装置，其中，第四获取模块，具体用于：

或者，根据所述语音输入信号的获取时间，从采集的视频流中截取与所述语音输入信号对应的图像数据。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-2中任一项所述的方法，或者执行权利要求3-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-2中任一项所述的方法，或者执行权利要求3-6中任一项所述的方法。