CN111625660A

CN111625660A - 对话生成方法、视频评论方法、装置、设备及存储介质

Info

Publication number: CN111625660A
Application number: CN202010462032.9A
Authority: CN
Inventors: 魏瑶; 高俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04

Abstract

本发明提供了一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质；方法包括：分别对输入语句以及多媒体信息进行编码处理，得到对应输入语句的编码向量、以及对应多媒体信息的编码向量；对输入语句的编码向量以及多媒体信息的编码向量进行编码处理，得到多媒体信息的特征向量；对输入语句的编码向量以及多媒体信息的特征向量进行融合处理，得到融合向量；对融合向量进行解码处理，得到用于回复输入语句的回复语句。通过本发明，能够自动并准确地生成对话，增强参与视频的互动的吸引力。

Description

对话生成方法、视频评论方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

相关技术中缺乏模拟真实用户就多媒体信息进行对话的有效方案，主要依赖于人工方案，例如根据多媒体信息的内容，对关于多媒体信息进行讨论的输入语句进行回复，使得回复语句能够承接输入语句。但是，这种方式效率太低，无法适用于线上应用。

发明内容

本发明实施例提供一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质，能够自动并准确和高效地形成针对多媒体信息的对话。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的对话生成方法，包括：

分别对输入语句以及多媒体信息进行编码处理，得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量；

对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理，得到所述多媒体信息的特征向量；

对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理，得到融合向量；

对所述融合向量进行解码处理，得到用于回复所述输入语句的回复语句。

上述技术方案中，所述对所述融合向量进行解码处理，得到用于回复所述输入语句的回复语句，包括：

对所述融合向量以及已经生成的词语进行线性映射，得到所述下一个待生成词语的概率分布；

将所述概率分布中最大概率所对应的词语确定为下一个生成的词语；

根据生成词语的顺序，将所述生成词语组成用于回复所述输入语句的回复语句。

上述技术方案中，所述方法还包括：

通过对话生成模型，对训练样本中输入语句的编码向量以及多媒体信息的编码向量进行还原处理，得到对应所述训练样本中输入语句的各还原词语的概率；

根据所述对应所述训练样本中输入语句的各还原词语的概率，构建所述对话生成模型的编码损失函数；

通过所述对话生成模型，对所述训练样本中的融合向量进行预测处理，得到每个生成词语的概率；

根据所述每个生成词语的概率，构建所述对话生成模型的解码损失函数；

将所述编码损失函数与所述解码损失函数相加，以得到所述对话生成模型的整体损失函数；

更新所述对话生成模型的参数直至所述整体损失函数收敛，将所述整体损失函数收敛时所述对话生成模型的更新的参数，作为训练后的所述对话生成模型的参数。

本发明实施例提供一种基于人工智能的视频评论方法，包括：

呈现视频中的内容；

根据所述内容的视频信息和音频信息，生成关于所述内容的对话形式的评论信息；

呈现所述对话形式的评论信息。

本发明实施例提供一种基于人工智能的对话生成装置，包括：

编码模块，用于分别对输入语句以及多媒体信息进行编码处理，得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量；

自编码模块，用于对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理，得到所述多媒体信息的特征向量；

解码模块，用于对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理，得到融合向量；

生成模块，用于对所述融合向量进行解码处理，得到用于回复所述输入语句的回复语句。

上述技术方案中，所述编码模块还用于根据所述输入语句的输入内容，获得所述输入语句的语义向量以及位置向量；

对所述输入语句的语义向量以及位置向量进行融合处理，得到所述输入语句的编码向量。

上述技术方案中，所述编码模块还用于对所述输入语句的词序列进行词编码处理，得到所述输入语句的语义向量；

对所述输入语句中各词语的位置进行位置编码处理，得到所述输入语句的位置向量。

上述技术方案中，所述多媒体信息包括视频信息和音频信息；所述编码模块还用于根据所述视频信息的图像内容，获得所述视频信息的语义向量以及位置向量，并对所述视频信息的语义向量以及位置向量进行融合处理，以得到所述视频信息的编码向量；

根据所述音频信息的音频内容，获得所述音频信息的语义向量以及位置向量，并对所述音频信息的语义向量以及位置向量进行融合处理，以得到所述音频信息的编码向量。

上述技术方案中，所述编码模块还用于对所述视频信息中的每个图像帧进行特征提取处理，得到所述每个图像帧的特征向量，并对所述每个图像帧的特征向量进行组合，得到所述视频信息的特征向量；

对所述视频信息的特征向量进行非线性映射处理，得到所述视频信息的中间特征向量；

对所述视频信息中的每个图像帧的位置进行位置编码处理，得到所述视频信息的位置向量；

将所述视频信息的中间特征向量与所述位置向量相加，以得到所述视频信息的编码向量。

上述技术方案中，所述多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量；所述自编码模块还用于对所述输入语句的编码向量进行自注意力处理，得到所述输入语句的注意力向量；

对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理，得到所述视频信息的特征向量，并

对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理，得到所述音频信息的特征向量。

上述技术方案中，所述自编码模块还用于通过自编码器的第i层编码层，对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理，得到所述第i层编码层的输入语句的注意力向量；

其中，1<i≤N，i、N为自然数，N为所述自编码器的编码层的总层数；

通过所述自编码器的第i层编码层，对所述第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特征向量进行多头注意力处理，得到所述第i层编码层的视频信息的特征向量；

通过所述自编码器的第i层编码层，对所述第i层编码层的视频信息的特征向量、以及第i-1层编码层输出的音频信息的编码向量进行多头注意力处理，得到所述第i层编码层的音频信息的特征向量。

上述技术方案中，所述编码模块还用于对文本信息进行编码处理，得到所述文本信息的编码向量；

所述解码模块还用于通过解码器分别对所述输入语句的编码向量、所述文本信息的编码向量以及所述多媒体信息的特征向量进行解码处理，得到对应所述输入语句的解码向量、对应所述文本信息的解码向量以及对应所述多媒体信息的解码向量；

对所述输入语句的解码向量、所述文本信息的解码向量以及所述多媒体信息的解码向量进行拼接处理，得到所述融合向量。

上述技术方案中，所述解码模块还用于通过所述解码器对所述文本信息的编码向量进行自注意力处理，得到所述文本信息的解码向量；

对所述文本信息的解码向量以及所述输入语句的编码向量进行多头注意力处理，得到所述输入语句的解码向量，并

对所述输入语句的解码向量以及所述多媒体信息的特征向量进行多头注意力处理，得到所述多媒体信息的解码向量。

上述技术方案中，所述多媒体信息的特征向量包括视频信息的特征向量和音频信息的特征向量；所述解码模块还用于对所述输入语句的解码向量以及所述视频信息的特征向量进行多头注意力处理，得到所述视频信息的解码向量；

对所述视频信息的解码向量以及所述音频信息的特征向量进行多头注意力处理，得到所述音频信息的解码向量。

上述技术方案中，所述生成模块还用于对所述融合向量以及已经生成的词语进行线性映射，得到所述下一个待生成词语的概率分布；

上述技术方案中，所述装置还包括：

训练模块，用于通过对话生成模型，对训练样本中输入语句的编码向量以及多媒体信息的编码向量进行还原处理，得到对应所述训练样本中输入语句的各还原词语的概率；

本发明实施例提供一种基于人工智能的视频评论装置，包括：

呈现模块，用于呈现视频中的内容；

处理模块，用于根据所述内容的视频信息和音频信息，生成关于所述内容的对话形式的评论信息；

呈现模块，还用于呈现所述对话形式的评论信息。

上述技术方案中，所述处理模块还用于当所述视频是直播视频时，获取主播发表的评论所述内容的输入语句；

调用对话生成模型执行以下操作：根据所述内容的视频信息和音频信息，生成一个或多个虚拟观众用于回复所述输入语句的回复语句。

上述技术方案中，所述处理模块还用于当所述视频是直播视频时，获取第一观众发表的评论所述内容的输入语句；

调用对话生成模型执行以下操作：根据所述内容的视频信息和音频信息，生成第二观众用于回复所述输入语句的回复语句；

其中，所述第一观众和所述第二观众中的至少一个为虚拟观众。

本发明实施例提供一种用于对话生成的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的对话生成方法。

本发明实施例提供一种用于视频评论的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的视频评论方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的对话生成方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的视频评论方法。

本发明实施例具有以下有益效果：

通过对输入语句以及多媒体信息进行编解码，得到用于回复输入语句的回复语句，从而能够自动地生成针对多媒体信息的对话，提高针对多媒体信息的对话生成的效率，适用于线上应用；进而，对输入语句以及多媒体信息进行融合，将得到的融合向量进行解码处理，以得到能够承接输入语句的回复语句，即能够充分利用多媒体信息的知识，针对多媒体信息的输入语句准确地生成回复语句，提高回复语句的准确率，从而提高对话的连贯性。

附图说明

图1是本发明实施例提供的视频评论系统10的应用场景示意图；

图2是本发明实施例提供的用于对话生成的电子设备的结构示意图；

图3A-3B是本发明实施例提供的基于人工智能的对话生成方法的流程示意图；

图4是本发明实施例提供的用于视频评论的电子设备的结构示意图；

图5是本发明实施例提供的图像推荐方法的流程示意图；

图6是本发明实施例提供的视频直播的界面示意图；

图7是本发明实施例提供的多模态Transformer模型的结构示意图；

图8是本发明实施例提供的文本序列编码器的结构示意图；

图9是本发明实施例提供的视频编码器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)模态：每一种信息的来源或者形式，都可以称为一种模态，例如语音、视频、文本等形式的信息，每个形式的信息都可以称为一种模态的信息。模态可以区分为单模态与多模态；单模态为将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量，而多模态为通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

例如，多媒体信息可以包括以下几个模态的信息：图像信息(即视频模态的信息)、语音信息(即音频模态的信息)；还可包括文本信息，即为文本形式的信息。

2)循环神经网络(Recurrent Neural Network，RNN)：一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)，且所有节点(循环单元)按链式连接的递归神经网络。循环神经网络具有记忆性、参数共享且图灵完备(Turing completeness)的特点，因此，在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(Natural Language Processing，NLP)，例如语音识别、语言建模、机器翻译等领域有应用。

本发明实施例提供了一种基于人工智能的对话处理方法、基于人工智能的视频评论方法、装置、电子设备及计算机可读存储介质，能够自动并准确地生成用于回复输入语句的回复语句，以提高对话生成的效率。

下面说明本发明实施例提供的用于对话处理的电子设备的示例性应用。

本发明实施例提供的用于对话处理的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。以服务器为例，服务器接收到输入语句以及多媒体信息(视频信息以及音频信息)后，服务器调用封装的对话生成的程序，根据输入语句以及多媒体信息，生成用于回复输入语句的回复语句，从而实现自动生成回复语句，以形成对话，并将回复语句反馈至对应的客户端，以在客户端中显示该回复语句，以便用户可以在某视频中看到关于该视频的对话，并通过生成的对话，提高该视频的人气以及关注度。

参见图1，图1是本发明实施例提供的视频评论系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200可以被用来获取输入语句以及多媒体信息，例如，观众通过终端打开某视频后，终端自动获取该视频的输入语句以及多媒体信息(视频信息和音频信息)。

在一些实施例中，终端200本地执行本发明实施例提供的基于人工智能的视频评论方法，来完成自动生成对话形式的评论信息，例如，在终端200上安装视频应用(Application，APP)，观众在视频APP中打开某视频后，终端200呈现视频中的内容，并调用对话生成的程序，根据视频内容的视频信息和音频信息，生成关于内容的对话形式的评论信息，并将评论信息显示在终端200的显示界面210上，以便观众可以在该视频中看到关于该视频的评论，并通过生成的评论信息，提高该视频的人气以及关注度。

在一些实施例中，终端200也可以通过网络300向云端的服务器100发送观众在终端200上打开的视频的地址，并调用服务器100提供的对话生成功能(封装的对话生成的程序)，服务器100通过本发明实施例提供的基于人工智能的对话生成方法，生成对话形式的评论信息，例如，在终端200上安装视频应用，观众在视频应用中，打开某视频，终端200通过网络300向服务器100发送该视频的地址，服务器100接收到该视频的地址后，根据该视频的地址获取视频内容的视频信息和音频信息，调用封装的对话生成的程序，根据视频内容的视频信息和音频信息，生成关于内容的对话形式的评论信息，并将评论信息返回至视频应用，将评论信息显示在终端200的显示界面210上，以便观众可以在该视频中看到关于该视频的评论，并通过生成的评论信息，提高该视频的人气以及关注度。

下面说明本发明实施例提供的用于对话生成的电子设备的结构，用于对话生成的电子设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的用于对话生成的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于对话生成的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本发明实施例提供的基于人工智能的对话生成装置可以采用软件方式实现，图2示出了存储在存储器550中的基于人工智能的对话生成装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括编码模块5551、自编码模块5552、解码模块5553、生成模块5554以及训练模块5555；其中，编码模块5551、自编码模块5552、解码模块5553以及生成模块5554用于实现本发明实施例提供的对话生成的功能，训练模块5555用于实现对对话生成模型的训练。

根据上文可以理解，本发明实施例提供的基于人工智能的对话生成方法可以由各种类型的用于对话生成的电子设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的对话生成方法。参见图3A，图3A是本发明实施例提供的基于人工智能的对话生成方法的流程示意图，结合图3A示出的步骤进行说明。

在步骤101中，分别对输入语句以及多媒体信息进行编码处理，得到对应输入语句的编码向量、以及对应多媒体信息的编码向量。

作为获取输入语句以及多媒体信息的示例，观众可以在终端打开某视频，例如某综艺视频，终端可以将该视频的地址转发至服务器，以使服务器根据该视频的地址获取关于该视频的输入语句以及多媒体信息(视频信息以及音频信息，例如视频和音频)，从而根据输入语句以及多媒体信息，获得对应输入语句的编码向量以及对应多媒体信息的编码向量，并根据输入语句的编码向量以及多媒体信息的编码向量，以生成用于回复输入语句的回复语句。

在一些实施例中，为了提高输入语句的编码向量的准确性，对输入语句进行编码处理，得到输入语句的编码向量，包括：根据输入语句的输入内容，获得输入语句的语义向量以及位置向量；对输入语句的语义向量以及位置向量进行融合处理，得到输入语句的编码向量。

例如，当服务器获得了输入语句后，例如该输入语句为“你们觉不觉得小哥哥很有运动范？”，则根据该输入语句的内容以及内容中每个词语的位置，获得输入语句中每个词语的语义向量以及位置向量，并融合每个词语的语义向量以及位置向量，以得到输入语句的编码向量，使得输入语句的编码向量中融入了输入语句的内容以及内容中每个词语的位置信息，从而输入语句的编码向量还能够表征输入信息中位置序列信息，以提高输入语句的编码向量的准确性，以便后续根据准确的输入语句的编码向量，进行融合处理以及解码处理，得到准确的回复语句。

在一些实施例中，根据输入语句的输入内容，获得输入语句的语义向量以及位置向量，包括：对输入语句的词序列进行词编码处理，得到输入语句的语义向量；对输入语句中各词语的位置进行位置编码处理，得到输入语句的位置向量。

例如，通过词编码器对输入语句的词序列进行词编码，以得到输入语句的语义向量。通过位置编码器对输入语句中各词语的位置进行位置编码，以得到输入语句的位置向量。在得到输入语句的语义向量以及位置向量后，将输入语句的语义向量与位置向量相加，以得到输入语句的编码向量，从而在输入语句的编码向量中融入输入语句中各词语的位置信息。

在一些实施例中，多媒体信息包括视频信息和音频信息。为了提高多媒体信息的编码向量的准确性，对多媒体信息进行编码处理，得到多媒体信息的编码向量，包括：根据视频信息的图像内容，获得视频信息的语义向量以及位置向量，并对视频信息的语义向量以及位置向量进行融合处理，以得到视频信息的编码向量；根据音频信息的音频内容，获得音频信息的语义向量以及位置向量，并对音频信息的语义向量以及位置向量进行融合处理，以得到音频信息的编码向量。

例如，当服务器获得了视频的视频信息(图像帧序列)和音频信息(音频帧序列)后，则根据视频信息的图像内容以及每个图像帧的位置，获得每个图像帧的语义向量以及位置向量，并融合每个图像帧的语义向量以及位置向量，以得到视频信息的编码向量，使得视频信息的编码向量中融入了每个图像帧的语义向量以及位置向量，从而视频信息的编码向量还能够表征图像帧的位置序列信息，以提高视频信息的编码向量的准确性。根据音频信息的音频内容以及每个音频帧的位置，获得每个音频帧的语义向量以及位置向量，并融合每个音频帧的语义向量以及位置向量，以得到音频信息的编码向量，使得音频信息的编码向量中融入了每个音频帧的语义向量以及位置向量，从而音频信息的编码向量还能够表征音频帧的位置序列信息，以提高音频信息的编码向量的准确性。以便后续根据准确的视频信息的编码向量以及音频信息的编码向量，进行后续的融合处理以及解码处理，得到准确的回复语句。

在一些实施例中，根据视频信息的图像内容，获得视频信息的语义向量以及位置向量，并对视频信息的语义向量以及位置向量进行融合处理，以得到视频信息的编码向量，包括：对视频信息中的每个图像帧进行特征提取处理，得到每个图像帧的特征向量，并对每个图像帧的特征向量进行组合，得到视频信息的特征向量；对视频信息的特征向量进行非线性映射处理，得到视频信息的中间特征向量；对视频信息中的每个图像帧的位置进行位置编码处理，得到视频信息的位置向量；将视频信息的中间特征向量与位置向量相加，以得到视频信息的编码向量。

例如，在提取视频信息中的每个图像帧的特征向量后，组合每个图像帧的特征向量，以得到视频信息的特征向量，对视频信息的特征向量进行非线性映射处理，得到视频信息的中间特征向量，从而改变视频信息的特征向量的向量维度，以适应位置向量的向量维度。通过位置编码器对视频信息中的每个图像帧的位置进行位置编码，以得到视频信息的位置向量。在得到视频信息的中间特征向量与位置向量后，将视频信息的中间特征向量与位置向量相加，以得到视频信息的编码向量，从而在视频信息的编码向量中融入每个图像帧的位置信息。

在一些实施例中，根据音频信息的音频内容，获得音频信息的语义向量以及位置向量，并对音频信息的语义向量以及位置向量进行融合处理，以得到音频信息的编码向量，包括：对音频信息中的每个音频帧进行特征提取处理，得到每个音频帧的特征向量，并对每个音频帧的特征向量进行组合，得到音频信息的特征向量；对音频信息的特征向量进行非线性映射处理，得到音频信息的中间特征向量；对音频信息中的每个音频帧的位置进行位置编码处理，得到音频信息的位置向量；将音频信息的中间特征向量与位置向量相加，以得到音频信息的编码向量。

例如，在提取音频信息中的每个音频帧的特征向量后，组合每个音频帧的特征向量，以得到音频信息的特征向量，对音频信息的特征向量进行非线性映射处理，得到音频信息的中间特征向量，从而改变音频信息的特征向量的向量维度，以适应位置向量的向量维度。通过位置编码器对音频信息中的每个音频帧的位置进行位置编码，以得到音频信息的位置向量。在得到音频信息的中间特征向量与位置向量后，将音频信息的中间特征向量与位置向量相加，以得到音频信息的编码向量，从而在音频信息的编码向量中融入每个音频帧的位置信息。

在步骤102中，对输入语句的编码向量以及多媒体信息的编码向量进行编码处理，得到多媒体信息的特征向量。

为了融合输入语句以及多媒体信息，在服务器获得输入语句的编码向量以及多媒体信息的编码向量后，编码输入语句的编码向量以及多媒体信息的编码向量，以得到融入输入语句的多媒体信息的特征向量，以便后续根据多媒体信息的特征向量，生成准确的回复语句。

在一些实施例中，多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量；对输入语句的编码向量以及多媒体信息的编码向量进行编码处理，得到多媒体信息的特征向量，包括：对输入语句的编码向量进行自注意力处理，得到输入语句的注意力向量；对输入语句的注意力向量以及视频信息的编码向量进行多头注意力处理，得到视频信息的特征向量，并对视频信息的特征向量以及音频信息的编码向量进行多头注意力处理，得到音频信息的特征向量。

其中，多媒体信息的特征向量包括视频信息的特征向量和音频信息的特征向量。通过自注意力机制对输入语句的编码向量进行自注意力处理，得到输入语句的注意力向量，使得输入语句的注意力向量更加关注输入语句中重要的部分。通过多头注意力机制，对输入语句的注意力向量以及视频信息的编码向量进行多头注意力处理，得到视频信息的特征向量，使得视频信息的特征向量更加关注输入语句和图像帧中的重要部分。通过多头注意力机制，对视频信息的特征向量以及音频信息的编码向量进行多头注意力处理，得到音频信息的特征向量，使得音频信息的特征向量更加关注输入语句、图像帧以及音频帧中的重要部分。即通过注意力机制，使得视频信息的特征向量和音频信息的特征向量更加关注重要的信息，从而避免视频信息的特征向量和音频信息的特征向量遗漏视频信息以及音频信息的重要信息。

在一些实施例中，对输入语句的编码向量进行自注意力处理，得到输入语句的注意力向量，包括：通过自编码器的第i层编码层，对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理，得到第i层编码层的输入语句的注意力向量；其中，1<i≤N，i、N为自然数，N为自编码器的编码层的总层数；对输入语句的注意力向量以及视频信息的编码向量进行多头注意力处理，得到视频信息的特征向量，并对视频信息的特征向量以及音频信息的编码向量进行多头注意力处理，得到音频信息的特征向量，包括：通过自编码器的第i层编码层，对第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特征向量进行多头注意力处理，得到第i层编码层的视频信息的特征向量；通过自编码器的第i层编码层，对第i层编码层的视频信息的特征向量、以及第i-1层编码层输出的音频信息的编码向量进行多头注意力处理，得到第i层编码层的音频信息的特征向量。

例如，通过自编码器对输入语句、视频信息以及音频信息进行编码处理，以得到视频信息的特征向量以及音频信息的特征向量。其中，自编码器包括N层相同的编码层。通过自编码器的第i层编码层，对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理，以得到第i层编码层的输入语句的注意力向量，其中，第1层编码层的输入为输入语句的编码向量。通过自编码器的第i层编码层，对第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特征向量进行多头注意力处理，得到第i层编码层的视频信息的特征向量，其中，第1层编码层的输入为第1层编码层的输入语句的注意力向量、以及视频信息的编码向量。通过自编码器的第i层编码层，对第i层编码层的视频信息的特征向量、以及第i-1层编码层输出的音频信息的编码向量进行多头注意力处理，得到第i层编码层的音频信息的特征向量，其中，第1层编码层的输入为第1层编码层的视频信息的特征向量、以及音频信息的编码向量。通过N层编码层，不断提炼出输入语句、视频信息以及音频信息的重要信息，从而避免视频信息的特征向量和音频信息的特征向量遗漏视频信息以及音频信息的重要信息。

在步骤103中，对输入语句的编码向量以及多媒体信息的特征向量进行融合处理，得到融合向量。

为了后续能够根据输入语句以及多媒体信息，得到用于回复输入语句的回复语句，在服务器得到输入语句的编码向量以及多媒体信息的特征向量后，融合输入语句的编码向量以及多媒体信息的特征向量，以得到融合向量，后续可以对融合向量进行解码，生成回复语句。

在一些实施例中，为了融合对话的各种模态信息，还可以在融合向量中融合文本信息。因此，在得到融合向量之前，对文本信息进行编码处理，得到文本信息的编码向量。从而，对输入语句的编码向量以及多媒体信息的特征向量进行融合处理，得到融合向量，包括：通过解码器分别对输入语句的编码向量、文本信息的编码向量以及多媒体信息的特征向量进行解码处理，得到对应输入语句的解码向量、对应文本信息的解码向量以及对应多媒体信息的解码向量；对输入语句的解码向量、文本信息的解码向量以及多媒体信息的解码向量进行拼接处理，得到融合向量。

例如，文本信息包括视频的内容摘要、关于视频的历史对话以及视频的标题等文本信息。通过词编码器对文本信息的词序列进行词编码，以得到文本信息的语义向量。通过位置编码器对文本信息中各词语的位置进行位置编码，以得到文本信息的位置向量。在得到文本信息的语义向量以及位置向量后，将文本信息的语义向量与位置向量相加，以得到文本信息的编码向量，从而在文本信息的编码向量中融入输入语句中各词语的位置信息。

其中，在服务器获得文本信息的编码向量后，先通过解码器分别对输入语句的编码向量、文本信息的编码向量以及多媒体信息的特征向量进行解码处理，得到对应输入语句的解码向量、对应文本信息的解码向量以及对应多媒体信息的解码向量，然后拼接输入语句的解码向量、文本信息的解码向量以及多媒体信息的解码向量，以得到融合向量。

在一些实施例中，通过解码器分别对输入语句的编码向量、文本信息的编码向量以及多媒体信息的特征向量进行解码处理，得到对应输入语句的解码向量、对应文本信息的解码向量以及对应多媒体信息的解码向量，包括：通过解码器对文本信息的编码向量进行自注意力处理，得到文本信息的解码向量；对文本信息的解码向量以及输入语句的编码向量进行多头注意力处理，得到输入语句的解码向量，并对输入语句的解码向量以及多媒体信息的特征向量进行多头注意力处理，得到多媒体信息的解码向量。

其中，通过自注意力机制对文本信息的编码向量进行自注意力处理，得到输入语句的注意力向量，使得文本信息的解码向量更加关注文本信息的编码向量中重要的部分。通过多头注意力机制，对文本信息的解码向量以及输入语句的编码向量进行多头注意力处理，得到文本信息的解码向量，使得文本信息的解码向量更加关注文本信息的解码向量以及输入语句的编码向量中的重要部分。通过多头注意力机制，对输入语句的解码向量以及多媒体信息的特征向量进行多头注意力处理，得到多媒体信息的解码向量，使得多媒体信息的解码向量更加关注输入语句的解码向量以及多媒体信息的特征向量中的重要部分。即通过注意力机制，使得文本信息的解码向量、输入语句的解码向量和多媒体信息的解码向量更加关注重要的信息，从而避免漏文本信息的编码向量、输入语句的编码向量以及多媒体信息的特征向量的重要信息。

例如，通过解码器对输入语句的编码向量以及多媒体信息的特征向量进行融合处理，得到融合向量。其中，解码器包括N层相同的解码层。通过解码器的第i层解码层，对第i-1层解码层输出的文本信息的注意力向量进行自注意力处理，以得到第i层解码层的文本信息的注意力向量，其中，第1层解码层的输入为文本信息的编码向量，第N层解码层的输出为文本信息的解码向量。通过解码器的第i层解码层，对第i层解码层的文本信息的注意力向量、以及第i-1层解码层输出的输入语句的解码向量进行多头注意力处理，得到第i层解码层的输入语句的解码向量，其中，第1层解码层的输入为第1层解码层的文本信息的注意力向量、以及输入语句的编码向量。通过解码器的第i层解码层，对第i层解码层的输入语句的解码向量、以及第i-1层解码层输出的多媒体信息的解码向量进行多头注意力处理，得到第i层解码层的多媒体信息的解码向量，其中，第1层解码层的输入为第1层解码层的输入语句的解码向量、以及多媒体信息的特征向量。通过N层解码层，不断提炼出输入语句、视频信息以及音频信息的重要信息，从而避免遗漏文本信息以及多媒体信息的重要信息。

其中，当多媒体信息的特征向量包括视频信息的特征向量和音频信息的特征向量时，对输入语句的解码向量以及多媒体信息的特征向量进行多头注意力处理，得到多媒体信息的解码向量，包括：对输入语句的解码向量以及视频信息的特征向量进行多头注意力处理，得到视频信息的解码向量；对视频信息的解码向量以及音频信息的特征向量进行多头注意力处理，得到音频信息的解码向量。

在步骤104中，对融合向量进行解码处理，得到用于回复输入语句的回复语句。

其中，在服务器得到视频的融合向量后，可以通过生成网络对融合向量进行预测，从而得到用于回复输入语句的回复语句。服务器将回复语句反馈至终端，终端接收到回复语句后，在播放视频的界面上呈现回复语句，可以以弹幕的方式呈现回复语句，还可以以列表的方式呈现回复语句。

在一些实施例中，对融合向量进行解码处理，得到用于回复输入语句的回复语句，包括：对融合向量以及已经生成的词语进行线性映射，得到下一个待生成词语的概率分布；将概率分布中最大概率所对应的词语确定为下一个生成的词语；根据生成词语的顺序，将生成词语组成用于回复输入语句的回复语句。

例如，当需要生成第一个词语时，对融合向量以及开始符进行词库的线性映射，从而得到第一个待生成词语的概率分布，并将第一个待生成词语的概率分布中最大概率所对应的词语确定为第一个生成的词语，并将第一个生成的词语用于继续生成下一个词语。对融合向量以及已经生成的词语进行词库的线性映射，得到下一个待生成词语的概率分布，并将概率分布中最大概率所对应的词语确定为下一个生成的词语，将生成词语组成用于回复输入语句的回复语句。

参见图3B，图3B是本发明实施例提供的基于人工智能的对话生成方法的一个可选的流程示意图，为了通过训练后的对话生成模型，生成回复语句，需要对对话生成模型进行训练，则图3B还包括步骤105-110：在步骤105中，通过对话生成模型，对训练样本中输入语句的编码向量以及多媒体信息的编码向量进行还原处理，得到对应训练样本中输入语句的各还原词语的概率；在步骤106中，根据对应训练样本中输入语句的各还原词语的概率，构建对话生成模型的编码损失函数；在步骤107中，通过对话生成模型，对训练样本中的融合向量进行预测处理，得到每个生成词语的概率；在步骤108中，根据每个生成词语的概率，构建对话生成模型的解码损失函数；在步骤109中，将编码损失函数与解码损失函数相加，以得到对话生成模型的整体损失函数；在步骤110中，更新对话生成模型的参数直至整体损失函数收敛，将整体损失函数收敛时对话生成模型的更新的参数，作为训练后的对话生成模型的参数。

其中，步骤105-110与步骤101至步骤104并无明显的先后顺序。当服务器生成训练样本中输入语句的各还原词语(还原词语与原输入语句对应，当还原词语与原输入语句越相似，则说明还原效果越好，生成的多媒体信息的特征向量越准确)以及生成的回复语句后，根据训练样本中输入语句的各还原词语的概率、以及生成的回复语句中每个生成词语的概率，确定对话生成模型的整体损失函数的值后，可以判断整体损失函数的值是否超出预设阈值，当整体损失函数的值超出预设阈值时，基于整体损失函数确定对话生成模型的误差信号，将误差信息在对话生成模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛，其中，对话生成模型属于神经网络模型。

下面结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的基于人工智能的视频评论方法。参见图4，图4是本发明实施例提供的用于视频评论的电子设备600的结构示意图，图4所示的用于视频评论的电子设备600包括：至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中，处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似，即操作系统651、网络通信模块652的功能分别与操作系统551、网络通信模块552的功能类似，不做赘述。

在一些实施例中，本发明实施例提供的图像推荐装置可以采用软件方式实现，图4示出了存储在存储器650中的基于人工智能的视频评论装置655，其可以是程序和插件等形式的软件，并包括一系列的模块，包括呈现模块6551以及处理模块6552；其中，呈现模块6551以及处理模块6552用于实现本发明实施例提供的基于人工智能的视频评论方法。

下面结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的图像推荐方法。参见图5，图5是本发明实施例提供的基于人工智能的视频评论方法的流程示意图，结合图5示出的步骤进行说明。

在步骤201中，呈现视频中的内容。

例如，观众可以在终端(包括客户端，例如视频客户端)打开某视频，例如某综艺视频或者直播视频，则在终端的显示界面上呈现视频中的内容，例如综艺视频的综艺节目，或者直播视频的直播内容。

在步骤202中，根据内容的视频信息和音频信息，生成关于内容的对话形式的评论信息。

例如，在终端呈现视频中的内容的同时，终端可以调用对话生成模型，通过对话生成模型，融合内容的视频信息和音频信息，以生成关于内容的对话形式的评论信息。分别对输入语句(即当前对话的输入信息，还可以是空白的语句，或者设定的语句)以及多媒体信息(内容的视频信息和音频信息)进行编码处理，得到对应输入语句的编码向量、以及对应多媒体信息的编码向量，对输入语句的编码向量以及多媒体信息的编码向量进行编码处理，得到多媒体信息的特征向量，对输入语句的编码向量以及多媒体信息的特征向量进行融合处理，并对得到的融合向量进行解码处理，以得到用于回复输入语句的回复语句，从而形成关于内容的对话形式的评论信息。

如图5所示，步骤202可以通过步骤2021-2022实现。在步骤2021中，当视频是直播视频时，获取主播发表的评论内容的输入语句；在步骤2022中，调用对话生成模型执行以下操作：根据内容的视频信息和音频信息，生成一个或多个虚拟观众用于回复输入语句的回复语句。

例如，该视频为直播视频时，可以获取当前直播视频中主播发表的评论内容的输入语句，并通过对话生成模型融合内容的视频信息和音频信息，生成一个或多个虚拟观众用于回复输入语句的回复语句，从而模拟出直播间有很多观众正在观看该直播视频，从而提高该直播视频的人气。

其中，在对话生成模型生成一个或多个虚拟观众用于回复输入语句的回复语句后，将该回复语句作为新的输入语句，以结合直播视频实时呈现的内容(视频信息和音频信息)，生成新的回复语句，从而使得生成的对话形式的评论信息不断持续下去，大大地提升新主播或低人气主播的关注度，避免直播视频冷场。

在一些实施例中，根据内容的视频信息和音频信息，生成关于内容的对话形式的评论信息，包括：当视频是直播视频时，获取第一观众发表的评论内容的输入语句；调用对话生成模型执行以下操作：根据内容的视频信息和音频信息，生成第二观众用于回复输入语句的回复语句；其中，第一观众和第二观众中的至少一个为虚拟观众。

例如，该视频为直播视频时，可以获取当前直播视频中第一观众发表的评论内容的输入语句，并通过对话生成模型融合内容的视频信息和音频信息，生成第二观众用于回复输入语句的回复语句，从而模拟出直播间有很多观众正在观看该直播视频，从而提高该直播视频的人气。

其中，在对话生成模型生成一个或多个虚拟观众用于回复输入语句的回复语句后，将该回复语句作为新的输入语句，并结合直播视频实时呈现的内容(视频信息和音频信息)，生成新的回复语句，从而使得生成的对话形式的评论信息不断持续下去，大大地提升新主播或低人气主播的关注度，避免直播视频冷场。

其中，作为第一观众发表的评论内容的输入语句的示例，可以通过对话生成模型对内容的视频信息和音频信息进行编码处理，得到视频信息的编码向量和音频信息的编码向量，对视频信息的编码向量和音频信息的编码向量进行编码处理，得到视频信息的特征向量和音频信息的特征向量，对视频信息的特征向量和音频信息的特征向量进行融合处理，并对得到的融合向量进行解码处理，以得到第一虚拟观众发表的评论内容的输入语句。

其中，在对话生成模型生成第二观众用于回复输入语句的回复语句后，将该第二观众用于回复输入语句的回复语句作为新的输入语句，并结合直播视频实时呈现的内容(视频信息和音频信息)，生成第一观众用于回复新的输入语句的回复语句，从而使得第一观众和第二观众的对话不断持续下去，大大地提升新主播或低人气主播的关注度，避免直播视频冷场。

在步骤203中，呈现对话形式的评论信息。

通过对话生成模型模拟出对话形式的评论信息后，可以以列表或者弹幕的方式在视频中呈现对话形式的评论，从而模拟出大量虚拟观众正在观看视频，以提高该视频的人气。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

视频直播作为一种新兴的娱乐方式近年来吸引了大量用户。在视频直播时，用户可以通过文字评论的方式在直播间与主播或者其他用户进行互动，可以增加直播间的活跃度。但是，新主播或人气较低的直播作品往往缺乏评论和关注度。通过自动生成直播视频的评论(针对输入信息的回复信息)，可以有效提升新主播或低人气主播的关注度。

因此，本发明实施例可以应用于视频直播的应用场景中，如图1所示，终端200通过网络300连接部署在云端的服务器100，在终端200上安装视频直播应用，观众在视频直播应用中，打开某直播间后，终端200通过网络300向服务器100发送该直播间的地址，服务器100接收到直播间的地址后，根据直播间的地址，确定出直播间的相关信息，例如直播间当前播放的音视频、直播间的历史评论信息、直播视频的摘要等，并根据直播间的相关信息，确定出对应直播间当前评论信息的回复信息，并将回复信息返回至视频直播应用，并将回复信息显示在终端200的显示界面210上，以便观众可以看到各种关于直播间的评论信息，以提高该直播间的人气以及关注度。

如图6所示的直播示例，界面601展示了直播的摘要或标题，体现直播的核心内容，例如，根据标题“帅气小哥哥给你展示动感十足穿搭，时尚运动，等你来选购”可知，该直播的核心内容与男性的穿搭有关，界面602展示了直播时的连续时间画面，界面603展示关于直播的一问一答的评论。其中，本发明实施例中生成的评论，可以是模拟各用户之间问答评论，还可以是针对主播的回复信息，还可以是针对用户的回复信息，例如，界面603中的“Q1：哇，XX出的这款裤装感觉好青春呀！”为主播的输入信息，针对主播的输入信息，生成回复信息“对，XX这裤子用了很舒适的微弹新潮面料，是主推款”；界面603中的“Q1：哇，XX出的这款裤装感觉好青春呀！”为模拟的用户的输入信息，则针对模拟的用户的输入信息，自动生成回复信息“对，XX这裤子用了很舒适的微弹新潮面料，是主推款”；界面603中的“Q1：哇，XX出的这款裤装感觉好青春呀！”为某用户的输入信息，则针对该用户的输入信息，自动生成回复信息“对，XX这裤子用了很舒适的微弹新潮面料，是主推款”。因此，通过自动生成直播视频的回复信息，可以有效增加直播间的活跃度，以提升新主播或低人气主播的关注度。从而，可以吸引其他的观众，还可以通过热门的评论激励主播发布更多的优秀的作品。

相关技术中，主要通过三种方法自动生成评论，该三种方法分别为：通过一种用于视觉评论生成的神经编译码器模型，可以自动生成评论，该神经编译码器模型包含三个编码器，即后期融合(Late Fusion)编码器、层次循环编码器和记忆网络，以及两个解码器(生成网络和辨别器网络)；对基于监督学习的视频评论生成模型进行了扩展，使用深度强化学习技术来优化视频评论生成模型的评论生成策略，以通过视频评论生成模型自动生成评论；采用输入感知的注意力机制，使得视频评论生成模型能够关注与对话上下文最相关的部分，以通过视频评论生成模型自动生成评论。

其中，生成视频评论需要根据一段视频的视觉(图像)和语音两个方面来生成评论。相比单纯基于图片或文字的评论生成任务，基于视频的评论生成任务要更具挑战性。其难点主要有两个方面：1)视频的特征空间跨越多个画面，对语义信息的获取较为困难；2)视频评论生成必须能够处理来自不同模态的信息(音频、视频、字幕等)，以获得全面的理解。

虽然，相关技术可以自动生成评论。但是，由于多模态的长时序列信息较为复杂，相关技术在处理视频帧这种长时序列信息时，会丢失较多的原始信息。为了解决上述问题，本发明实施例提出了一种多模态变压器(Transformer)模型(对话生成模型)，其可以对视频帧中的复杂序列信息进行建模，同时还可以融合不同模态信息，并在自编码器中设计了一种注意力机制，用于从非文本模式中提取与输入文本相关的特征。在生成视频评论的任务上，多模态Transformer模型可以通过联合处理不同特征空间的信息来对多模态信息进行复杂推理，从而更容易融合来自不同模态的信息，避免丢失原始信息，提高生成的评论信息的准确性。

其中，视频直播间主要包含一段视频的视觉(图像、视频)部分，语音(声音、音频)部分以及用户的评论(文本)。除此之外，还有一些额外的信息，例如，直播视频的内容介绍或摘要。其中，用户的评论是由多段文本构成，每一段都是一个用户的评论文本，多段用户评论构成了对话的上下文历史。因此，本发明实施例可以根据上述给定的信息来生成一段当前时刻的用户评论，即给定一个视频输入V、视频标题C、对话的上下文(历史对话){(Q₁,A₁),...,(Q_t-1,A_t-1)}以及当前时刻的输入文本Q_t，可以对应生成一个针对输入信息并与视频内容对应的回复A_t。例如，此处对话的上下文可以是两端文本{Q1:哇，XX出的这款裤装感觉好青春呀！A1:对，XX这裤子用了很舒适的微弹新潮面料，是主推款。}，当前时刻的输入文本为“Q2:你们觉不觉得小哥哥很有运动范？”，多模态Transformer模型的任务则是输出当前时刻的评论“A2:是呀，我也想这么活力十足呢！”。本发明实施例基于Transformer网络提出一种新的架构多模态Transformer网络用于融合多模态特征。多模态Transformer网络可以通过关注不同模态的特征来实现对视频这种长序列信息的复杂推理。在本发明实施例中，多模态Transformer模型主要考虑文本、语音和图像这三个模态。

本发明实施例中的多模态Transformer模型包含三个模块：编码层、解码层和自编码层。其中，编码层主要用于对视频输入(文本输入、语音输入和图像输入)进行编码得到输入信息的连续向量表示，还通过位置编码器分别对视频序列和文本序列的位置进行编码，从而得到不同时间序列的位置信息；解码层负责生成目标序列，并且在解码时，解码层会通过多头注意力机制(multi-head attention mechanism)来对多个编码特征进行推理；自编码层通过带有输入感知的注意力机制来增加视频的视觉和语音方面的特征。如图7所示的多模态Transformer模型的整体架构，在测试模式下，多模态Transformer模型首先通过编码层将对话历史、视频标题、输入文本、视频的视觉信息以及视频的语音信息进行编码得到对应的五个向量表示，即对话历史的向量表示z_his、视频标题的向量表示z_cap、输入文本的向量表示z_s、视频的视觉信息的向量表示f_v和视频的语音信息的向量表示f_a。随后，多模态Transformer模型的自编码层分别使用三个注意力模块将z_s、f_v和f_a作为输入，以得到视频的视觉特征向量

和语音特征向量

最后，解码层将z_his、z_cap、z_s、

和

同时作为输入，并输出最终的向量表示m_s，后续生成网络根据m_s生成评论A_t(回复信息)。此外，在多模态Transformer模型训练时，自编码层会根据视频特征的向量表示(f_v和f_a)和输入文本的向量表示(z_s)还原输入文本来使得视频特征向量f_v和f_a能够更多地引入输入文本的信息。

下面将具体介绍多模态Transformer模型中的编码层、解码层、自编码层和生成网络：

A)编码层

编码层包含两种模块：文本序列编码器和视频编码器。其中，对话历史编码器、视频摘要编码器、输入文本编码器为文本序列编码器，而视频(视觉/图像)编码器与视频(语音)编码器为视频编码器。

其中，文本序列编码器用于将对话历史、视频标题以及输入文本进行编码得到对应的对话历史的向量表示z_his、视频标题的向量表示z_cap、输入文本的向量表示z_s。文本序列编码器将每个输入文本序列(x₁,...,x_n)(例如，文本序列为(Q2:你们觉不觉得小哥哥很有运动范？))映射到一个连续向量表示z＝(z₁,...,z_n)∈R^d。如图8所示的文本序列编码器的结构，文本序列编码器由词编码器、位置编码器以及层归一化(Layer Normalization)模块三个部分组成。其中，词编码器用于获取输入文本的语义信息，位置编码器用于融合源端输入的序列信息，Layer Normalization模块用于加速模型收敛和提升特征向量表示能力。其中，词编码器和位置编码器都使用相同的维度向量表示。最后，文本序列的信息是将词编码器和位置编码器输出的向量表示进行相加得到的。其中，位置编码器用于计算位置向量(Position Embedding，PE)，计算公式如公式(1)所示：

PE(pos,2i)＝sin(pos/10000²ⁱ) (1)

其中，sin()表示正弦三角函数，pos表示词的位置，i表示设置的位置向量维度。

其中，视频编码器用于将视频的视觉信息以及视频的语音信息进行编码得到视频的视觉信息的向量表示f_v和视频的语音信息的向量表示f_a。对于一个给定的视频输入V，本发明实施例使用一个v帧长度的滑动窗口来提取视频特征

f_m表示模态m(m可以表示视觉v或语音a两个模态)的v帧长度视频序列的特征向量。本发明实施例同时考虑了视觉和语音两个方面的特征。如图9所示视频编码器的整体结构，对于一组视频序列s₁,...,s_v，通过视频编码器编码得到的模态m的特征向量为f_m＝(f₁,...,f_v)。视频编码器首先使用一层线性网络(Linear)以及激活函数(ReLU)将通过视频特征提取后得到的d_m维度的特征向量转化为d维度的特征向量。随后，视频编码器同样使用一个位置编码器得到序列信息，并将序列信息与d维度的特征向量相加，以得到特征向量f_m。

B)自编码层

如图7所示，由于多头注意力机制是通过动态规划的方式选择输入信息中较为重要的部分，使用注意力机制所获得的视频特征可能不是最优的。因此，本发明实施例针对输入文本使用一个独立注意力计算模块(即输入文本自编码器)来加强视频特征表示。输入文本自编码器可以专注对输入文本的信息进行编码，采用无监督的方式来实现输入文本的自编码器。其中，自编码层总共包含N层网络，每层网络都包含一个输入文本自注意力模块和针对输入文本的视频注意力模块(视觉注意力模块和语音注意力模块)，即每层网络的子模块的数量为3。对于自注意力模块，其参数q、k、v都相同，都使用前一层的输出，多头自注意力机制的计算公式如公式(2)、(3)所示：

其中，

为自编码层中第n层网络的自注意力模块的输出，Attn()表示多头自注意力函数，h_i,n+1表示自编码层中第n+1层网络中字注意力模块的输出。

针对输入文本的视频注意力模块(视觉注意力模块和语音注意力模块)，其参数q、k、v不相同，q为当前层输入文本自注意力模块的输出，k和v为前一层的视频注意力模块的输出，多头自注意力机制的计算公式如公式(4)所示：

其中，

为自编码层中第n+1层网络中自注意力模块的输出，Attn()表示多头自注意力函数，

表示自编码层中第n层网络的视频注意力模块的输出，h_i,n+1表示自编码层中第n+1层网络的视频注意力模块的输出。其中，自编码层中第N层网络的视频注意力模块的输出为视频的视觉特征向量

和语音特征向量

C)解码层

当给定一个输入文本的向量表示z_s，解码层(解码器)根据z_s生成一个输出序列y₁,...,y_m。解码器包含N层相同的模块，每层模块包含5个子模块，分别为对话历史注意力模块、视频摘要注意力模块、输入文本注意力模块、视觉注意力模块以及语义注意力模块。其中，每个子模块都使用独立的注意力机制分别对对话历史的向量表示z_his、视频标题的向量表示z_cap、输入文本的向量表示z_s、视频的视觉特征向量

和语音特征向量

进行编码。其中，对话历史注意力模块包含一个多头自注意力机制，多头自注意力机制对向量z_his编码的计算公式如公式(5)所示：

其中，

为解码层中第n层网络的对话历史注意力模块的输出，Attn()表示多头自注意力函数，h_i,n+1表示自编码层中第n+1层网络中对话历史注意力模块的输出。

视频摘要注意力模块、输入文本注意力模块。视觉注意力模块以及语义注意力模块也都分别包含一个多头自注意力机制，多头自注意力机制对向量z(z_cap、z_s、

或

)编码的计算公式如公式(6)所示：

其中，Attn()表示多头自注意力函数，z_m,n表示解码层中第n层网络的当前注意力模块的输出，

为解码层中第n+1层网络中前一注意力模块的输出，h_i,n+1表示解码层中第n+1层网络的当前注意力模块的输出，例如

为解码层中第n+1层网络中输入文本注意力模块的输出，则z_m,n表示解码层中第n层网络的视觉注意力模块的输出，h_i,n+1表示解码层中第n+1层网络的视觉注意力模块的输出。其中，解码层中第N层网络的对话历史注意力模块的输出为h₁、视频摘要注意力模块的输出为h₂、输入文本注意力模块的输出为h₃、视觉注意力模块的输出为h₄、语义注意力模块的输出为h₅。

其中，解码层最后输出的融合向量的计算公式如公式(7)所示：

m_s＝Concat(h₁,...,h₅)W^O (7)

其中，

Concat()表示拼接操作，m_s表示解码层最终的向量表示，随后将m_s输入生成网络，以进行文本输出。

其中，在解码器和编码器中可以增加残差网络以提升模型性能，Transofrmer网络可以为CNN网络，自编码器可以为变分自编码器。本发明实施例并不局限于解码器、编码器、Transofrmer网络和自编码器的结构。

D)生成网络

如图7所示，生成网络对应多模态Transformer模型结构图中的线性转换层和激活函数(Linear&Softmax)模块。根据解码层得到的向量m_s，依次计算生成下个词的概率分布。

在训练多模态Transformer模型时，给定训练样本的输入文本的向量表示z_s以及目标输出的向量表示z_t(标签)，Linear&Softmax模块最后生成一个输出序列y₁,...,y_m。其中，在自编码层同样采用Linear&Softmax模块，根据输入文本和视频特征的向量来还原输入文本。因此，多模态Transformer模型在训练时的损失函数为解码层和编码层的对数损失相加，计算公式如公式(8)所示：

其中，L表示整体损失，L(T)表示解码层的解码损失，L(Q)表示自编码层的编码损失，y₁,...,y_m-1,y_m表示训练时依次生成的词，x₁,...,x_n-1,x_n表示训练时依次还原出的还原词。

综上，本发明实施例提出一种多模态Transformer模型，可以根据输入文本生成输出序列，即评论语句或者回复语句，从而在直播间中可以自动生成用户评论，增加直播间的活跃度。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的对话生成方法，下面继续说明本发明实施例提供的基于人工智能的对话生成装置555中各个模块配合实现对话生成的方案。

编码模块5551，用于分别对输入语句以及多媒体信息进行编码处理，得到对应所述输入语句的编码向量、以及对应所述多媒体信息的编码向量；自编码模块5552，用于对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理，得到所述多媒体信息的特征向量；解码模块5553，用于对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理，得到融合向量；生成模块5554，用于对所述融合向量进行解码处理，得到用于回复所述输入语句的回复语句。

在一些实施例中，所述编码模块5551还用于根据所述输入语句的输入内容，获得所述输入语句的语义向量以及位置向量；对所述输入语句的语义向量以及位置向量进行融合处理，得到所述输入语句的编码向量。

在一些实施例中，所述编码模块5551还用于对所述输入语句的词序列进行词编码处理，得到所述输入语句的语义向量；对所述输入语句中各词语的位置进行位置编码处理，得到所述输入语句的位置向量。

在一些实施例中，所述多媒体信息包括视频信息和音频信息；所述编码模块5551还用于根据所述视频信息的图像内容，获得所述视频信息的语义向量以及位置向量，并对所述视频信息的语义向量以及位置向量进行融合处理，以得到所述视频信息的编码向量；根据所述音频信息的音频内容，获得所述音频信息的语义向量以及位置向量，并对所述音频信息的语义向量以及位置向量进行融合处理，以得到所述音频信息的编码向量。

在一些实施例中，所述编码模块5551还用于对所述视频信息中的每个图像帧进行特征提取处理，得到所述每个图像帧的特征向量，并对所述每个图像帧的特征向量进行组合，得到所述视频信息的特征向量；对所述视频信息的特征向量进行非线性映射处理，得到所述视频信息的中间特征向量；对所述视频信息中的每个图像帧的位置进行位置编码处理，得到所述视频信息的位置向量；将所述视频信息的中间特征向量与所述位置向量相加，以得到所述视频信息的编码向量。

在一些实施例中，所述多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量；所述自编码模块5552还用于对所述输入语句的编码向量进行自注意力处理，得到所述输入语句的注意力向量；对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理，得到所述视频信息的特征向量，并对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理，得到所述音频信息的特征向量。

在一些实施例中，所述自编码模块5552还用于通过自编码器的第i层编码层，对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理，得到所述第i层编码层的输入语句的注意力向量；其中，1<i≤N，i、N为自然数，N为所述自编码器的编码层的总层数；通过所述自编码器的第i层编码层，对所述第i层编码层的输入语句的注意力向量、以及第i-1层编码层输出的视频信息的特征向量进行多头注意力处理，得到所述第i层编码层的视频信息的特征向量；通过所述自编码器的第i层编码层，对所述第i层编码层的视频信息的特征向量、以及第i-1层编码层输出的音频信息的编码向量进行多头注意力处理，得到所述第i层编码层的音频信息的特征向量。

在一些实施例中，所述编码模块5551还用于对文本信息进行编码处理，得到所述文本信息的编码向量；所述解码模块5553还用于通过解码器分别对所述输入语句的编码向量、所述文本信息的编码向量以及所述多媒体信息的特征向量进行解码处理，得到对应所述输入语句的解码向量、对应所述文本信息的解码向量以及对应所述多媒体信息的解码向量；对所述输入语句的解码向量、所述文本信息的解码向量以及所述多媒体信息的解码向量进行拼接处理，得到所述融合向量；

在一些实施例中，所述解码模块5553还用于通过所述解码器对所述文本信息的编码向量进行自注意力处理，得到所述文本信息的解码向量；对所述文本信息的解码向量以及所述输入语句的编码向量进行多头注意力处理，得到所述输入语句的解码向量，并对所述输入语句的解码向量以及所述多媒体信息的特征向量进行多头注意力处理，得到所述多媒体信息的解码向量。

在一些实施例中，所述多媒体信息的特征向量包括视频信息的特征向量和音频信息的特征向量；所述解码模块5553还用于对所述输入语句的解码向量以及所述视频信息的特征向量进行多头注意力处理，得到所述视频信息的解码向量；对所述视频信息的解码向量以及所述音频信息的特征向量进行多头注意力处理，得到所述音频信息的解码向量。

在一些实施例中，所述生成模块5554还用于对所述融合向量以及已经生成的词语进行线性映射，得到所述下一个待生成词语的概率分布；将所述概率分布中最大概率所对应的词语确定为下一个生成的词语；根据生成词语的顺序，将所述生成词语组成用于回复所述输入语句的回复语句。

在一些实施例中，所述基于人工智能的对话生成装置555还包括：训练模块5555，用于通过对话生成模型，对训练样本中输入语句的编码向量以及多媒体信息的编码向量进行还原处理，得到对应所述训练样本中输入语句的各还原词语的概率；根据所述对应所述训练样本中输入语句的各还原词语的概率，构建所述对话生成模型的编码损失函数；通过所述对话生成模型，对所述训练样本中的融合向量进行预测处理，得到每个生成词语的概率；根据所述每个生成词语的概率，构建所述对话生成模型的解码损失函数；将所述编码损失函数与所述解码损失函数相加，以得到所述对话生成模型的整体损失函数；更新所述对话生成模型的参数直至所述整体损失函数收敛，将所述整体损失函数收敛时所述对话生成模型的更新的参数，作为训练后的所述对话生成模型的参数。

至此已经结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的基于人工智能的视频评论方法，下面继续说明本发明实施例提供的基于人工智能的视频评论装置655中各个模块配合实现视频评论的方案。

呈现模块6551，用于呈现视频中的内容；处理模块6552，用于根据呈现的视频中的内容的视频信息和音频信息，生成关于所述内容的对话形式的评论信息；呈现模块6551，还用于呈现所述对话形式的评论信息。

在一些实施例中，所述处理模块6552还用于当所述视频是直播视频时，获取主播发表的评论所述内容的输入语句；调用对话生成模型执行以下操作：根据所述内容的视频信息和音频信息，生成一个或多个虚拟观众用于回复所述输入语句的回复语句。

在一些实施例中，所述处理模块6552还用于当所述视频是直播视频时，获取第一观众发表的评论所述内容的输入语句；调用对话生成模型执行以下操作：根据所述内容的视频信息和音频信息，生成第二观众用于回复所述输入语句的回复语句；其中，所述第一观众和所述第二观众中的至少一个为虚拟观众。

本发明实施例还提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的对话生成方法或基于人工智能的视频评论方法，例如，如图3A-3B示出的基于人工智能的对话生成方法，或如图5示出的基于人工智能的视频评论方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的对话生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对输入语句进行编码处理，得到所述输入语句的编码向量，包括：

根据所述输入语句的输入内容，获得所述输入语句的语义向量以及位置向量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述输入语句的输入内容，获得所述输入语句的语义向量以及位置向量，包括：

对所述输入语句的词序列进行词编码处理，得到所述输入语句的语义向量；

4.根据权利要求1所述的方法，其特征在于，

所述多媒体信息包括视频信息和音频信息；

所述对多媒体信息进行编码处理，得到所述多媒体信息的编码向量，包括：

根据所述视频信息的图像内容，获得所述视频信息的语义向量以及位置向量，并对所述视频信息的语义向量以及位置向量进行融合处理，以得到所述视频信息的编码向量；

5.根据权利要求4所述的方法，其特征在于，所述根据所述视频信息的图像内容，获得所述视频信息的语义向量以及位置向量，并对所述视频信息的语义向量以及位置向量进行融合处理，以得到所述视频信息的编码向量，包括：

对所述视频信息中的每个图像帧进行特征提取处理，得到所述每个图像帧的特征向量，并对所述每个图像帧的特征向量进行组合，得到所述视频信息的特征向量；

6.根据权利要求1所述的方法，其特征在于，

所述多媒体信息的编码向量包括视频信息的编码向量和音频信息的编码向量；

所述对所述输入语句的编码向量以及所述多媒体信息的编码向量进行编码处理，得到所述多媒体信息的特征向量，包括：

对所述输入语句的编码向量进行自注意力处理，得到所述输入语句的注意力向量；

7.根据权利要求6所述的方法，其特征在于，所述对所述输入语句的编码向量进行自注意力处理，得到所述输入语句的注意力向量，包括：

通过自编码器的第i层编码层，对第i-1层编码层输出的输入语句的注意力向量进行自注意力处理，得到所述第i层编码层的输入语句的注意力向量；

所述对所述输入语句的注意力向量以及所述视频信息的编码向量进行多头注意力处理，得到所述视频信息的特征向量，并对所述视频信息的特征向量以及所述音频信息的编码向量进行多头注意力处理，得到所述音频信息的特征向量，包括：

8.根据权利要求1所述的方法，其特征在于，

所述得到融合向量之前，还包括：

对文本信息进行编码处理，得到所述文本信息的编码向量；

所述对所述输入语句的编码向量以及所述多媒体信息的特征向量进行融合处理，得到融合向量，包括：

通过解码器分别对所述输入语句的编码向量、所述文本信息的编码向量以及所述多媒体信息的特征向量进行解码处理，得到对应所述输入语句的解码向量、对应所述文本信息的解码向量以及对应所述多媒体信息的解码向量；

9.根据权利要求8所述的方法，其特征在于，所述通过解码器分别对所述输入语句的编码向量、所述文本信息的编码向量以及所述多媒体信息的特征向量进行解码处理，得到对应所述输入语句的解码向量、对应所述文本信息的解码向量以及对应所述多媒体信息的解码向量，包括：

通过所述解码器对所述文本信息的编码向量进行自注意力处理，得到所述文本信息的解码向量；

10.一种基于人工智能的视频评论方法，其特征在于，包括：

呈现视频中的内容；

呈现所述对话形式的评论信息。

11.根据权利要求10所述的方法，其特征在于，所述根据所述内容的视频信息和音频信息，生成关于所述内容的对话形式的评论信息，包括：

当所述视频是直播视频时，获取主播发表的评论所述内容的输入语句；

12.根据权利要求10所述的方法，其特征在于，所述根据所述内容的视频信息和音频信息，生成关于所述内容的对话形式的评论信息，包括：

当所述视频是直播视频时，获取第一观众发表的评论所述内容的输入语句；

13.一种基于人工智能的对话生成装置，其特征在于，包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的基于人工智能的对话生成方法，或者权利要求10至12任一项所述的基于人工智能的视频评论方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至9任一项所述的基于人工智能的对话生成方法，或者权利要求10至12任一项所述的基于人工智能的视频评论方法。