CN110325982A

CN110325982A - 在会话中提供多媒体文档的摘要

Info

Publication number: CN110325982A
Application number: CN201780087285.9A
Authority: CN
Inventors: 吴先超
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-10-11
Anticipated expiration: 2037-11-24
Also published as: EP3714380A1; WO2019100350A1; EP3714380A4; CN110325982B; US20200320116A1; US11500917B2

Abstract

本公开内容提出了用于在会话中提供多媒体文档的摘要的方法和装置。在一些实现中，可以在会话中从用户接收消息，该会话在用户和电子会话代理之间。可以至少基于该消息来获得该多媒体文档。可以提取多媒体文档中的情绪信息。可以至少基于该消息和所提取的情绪信息来生成多媒体文档的摘要。可以将包括所生成的多媒体文档的摘要的响应提供给用户。

Description

在会话中提供多媒体文档的摘要

背景技术

人工智能(AI)聊天机器人变得越来越流行，并且正在越来越多的场景中得到应用。聊天机器人被设计用于模拟人类的对话，并且可以通过文本、语音、图像等与用户聊天。通常，聊天机器人可以扫描用户输入的消息中的关键词，或者对该消息应用自然语言处理，并向用户提供匹配最多的关键词或者最相似的措辞模式的响应。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开内容的实施例提出了用于在会话中提供多媒体文档的摘要的方法和装置。在一些实现中，可以在会话中从用户接收消息，该会话在用户和电子会话代理之间。可以至少基于该消息来获得该多媒体文档。可以提取多媒体文档中的情绪信息。可以至少基于该消息和所提取的情绪信息，来生成多媒体文档的摘要。可以将包括所生成的多媒体文档的摘要的响应提供给用户。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以其中使用各个方面的原理的多种方式，并且本公开内容旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的聊天机器人的示例性应用场景。

图2示出了根据实施例的示例性聊天机器人系统。

图3示出了根据实施例的示例性用户界面。

图4A-图4D示出了根据实施例的示例性聊天窗口。

图5示出了根据实施例的示例性基于概念的知识图(CKG)。

图6示出了根据实施例的示例性依赖关系解析。

图7示出了根据实施例的示例性情绪轮。

图8根据实施例，示出了用于获得训练数据集以进行情绪分析的示例性过程。

图9根据实施例，示出了用于文本到情绪分类器的示例性神经网络结构。

图10根据实施例，示出了用于将对话会话中的话题的生命周期进行分类的示例性结构。

图11A示出了根据实施例的示例性神经网络语言模型。

图11B示出了根据实施例的示例性基于注意的编码器。

图12根据实施例，示出了用于图像编码的示例性残余学习块。

图13根据实施例，示出了用于图像到情绪分类器的示例性神经网络结构。

图14根据实施例，示出了用于对图像的感兴趣区域(ROI)执行情绪分析的示例性过程。

图15根据实施例，示出了用于从图像中生成文本的示例性神经网络。

图16根据实施例，示出了用于语音到情绪分类器的示例性神经网络结构。

图17根据实施例，示出了用于生成语音摘要的示例性过程。

图18根据实施例，示出了用于视频到情绪分类的示例性过程。

图19根据实施例，示出了一种示例性聊天窗口。

图20根据实施例，示出了用于在会话中提供多媒体文档的摘要的示例性方法的流程图。

图21根据实施例，示出了用于在会话中提供多媒体文档的摘要的示例性装置。

图22根据实施例，示出了用于在会话中提供多媒体文档的摘要的另一种示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开内容。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开内容的实施例，而并非建议对本公开内容的范围的任何限制。

当人们浏览诸如文章、新闻、与聊天机器人或其他人等的个人或群组聊天的历史对话记录之类的文本文档时，他们可能想要检查这些文本文档中的重要或感兴趣的信息。人们可能需要花费很多时间才能从文本文档中找到这些重要的或者感兴趣的信息，该过程可能非常无聊并且生产力也较低。

本发明的实施例建议利用聊天机器人，通过摘要生成方法以简单的方式向用户提供文本文档的摘要。聊天机器人可能通过审阅文本文档并自动地生成文本文档的摘要，而从文本文档中过滤出重要的或者感兴趣的信息。除了文本文档之外，本发明的实施例所提出的摘要生成方法也可以应用于其它形式的文档，比如图像文档、语音文档、视频文档等等。也可以将这些文本文档、图像文档、语音文档、视频文档等等统称为多媒体文档。

本公开内容的实施例可以审阅多媒体文档，以及在会话中向用户提供其摘要。会话可以指代两个聊天参与者之间的时间连续的对话，其涉及通过聊天机器人回答来自用户的问题，并且可以在对话中包括消息和响应。本文的“消息”是指用户输入的任何信息，例如，来自用户的查询/问题、用户对来自聊天机器人的问题的回答、用户指示的文档、用户的意见等等，“响应”是指由聊天机器人提供的任何信息，例如，多媒体文档的摘要、聊天机器人对来自用户的问题的回答、聊天机器人的评论等等。术语“消息”和术语“查询”也可以互换地使用。

在一些方面，聊天机器人可以基于情绪分析来提供多媒体文档的摘要。一方面，可以基于情绪分析来确定该摘要。另一方面，聊天机器人可以向用户提供该摘要的情绪分析分布信息。

通过本公开内容的实施例，用户可以在无需阅读的情况下在短时间内了解多媒体文档的重要或者感兴趣的信息，收听或者查看完整的多媒体文档。

图1示出了根据实施例的聊天机器人的示例性应用场景100。

在图1中，网络110被应用于在终端设备120、聊天机器人服务器130和信息源140之间进行互连。

网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话、AI终端等。尽管在图1中仅示出了一个终端设备120，但是应当理解，可以有不同数量的终端设备连接到网络110。

在一种实现中，终端设备120可以由用户使用。终端设备120可以包括聊天机器人客户端122，其可以向用户提供自动聊天服务。在一些实现中，聊天机器人客户端122可以与聊天机器人服务器130进行交互。例如，聊天机器人客户端122可以将由用户输入的消息发送到聊天机器人服务器130，并且从聊天机器人服务器130接收与该消息相关联的响应。然而，应当理解，在其它实现中，聊天机器人客户端122也可以本地生成对用户输入的消息的响应，而不是与聊天机器人服务器130进行交互。

聊天机器人服务器130可以连接到或者并入到聊天机器人数据库132。聊天机器人数据库132可以包括聊天机器人服务器130能够用于生成响应的信息。

信息源140可以指代能够提供各种多媒体文档或信息的网站、电子邮件箱、新闻频道、电影频道、无线电广播、社交网络应用程序、电子商务应用程序、视频监视系统等等。关于多媒体文档的上下文信息也可以存储在信息源140中，其可以用于补充多媒体文档的背景或上下文以生成多媒体文档的摘要。

在一些实现中，聊天机器人服务器130可以从信息源140收集多媒体文档，以及确定用于终端设备120的用户的多媒体文档的摘要。聊天机器人客户端122可以与聊天机器人服务器130进行交互，以及向用户呈现所确定的摘要。

应当理解，图1中所示的所有网络实体都是示例性的，根据具体的应用需求，应用场景100可以涉及任何其它网络实体。

图2示出了根据实施例的示例性聊天机器人系统200。

聊天机器人系统200可以包括用于呈现聊天窗口的用户界面(UI)210。聊天机器人可以使用该聊天窗口与用户进行交互。UI 210可以是特定于聊天机器人的，或者也可以并入到第三方应用中，比如，Facebook、Wechat、LINE、LinkedIn、Slack或者任何其它社交网络应用。

聊天机器人系统200可以包括核心处理模块220。核心处理模块220被配置用于通过与聊天机器人系统200的其它模块的协作，在聊天机器人的运行期间提供处理能力。

核心处理模块220可以获得用户在聊天窗口中输入的消息，并将消息存储在消息队列230中。消息可以采用各种多媒体形式，例如文本、语音、图像、视频等。

核心处理模块220可以用先进先出的方式处理消息队列230中的消息。核心处理模块220可以调用应用程序接口(API)模块250中的处理单元来处理各种形式的消息。API模块250可以包括文本处理单元252、语音处理单元254、图像处理单元256等。

对于文本消息，文本处理单元252可以对文本消息执行文本理解，并且核心处理模块220可以进一步确定文本响应。

对于语音消息，语音处理单元254可以对语音消息执行语音到文本转换以获得文本句子，文本处理单元252可以对所获得的文本句子执行文本理解，并且核心处理模块220可以进一步确定文本响应。如果确定以语音提供响应，则语音处理单元254可以对文本响应执行文本到语音转换以生成相应的语音响应。

对于图像消息，图像处理单元256可以对图像消息执行图像识别以生成相应的文本，并且核心处理模块220可以进一步确定文本响应。在一些情况下，图像处理单元246也可以用于基于文本响应来获得图像响应。

此外，尽管在图2中未示出，但API模块250还可以包括任何其它处理单元。例如，API模块250可以包括视频处理单元，该视频处理单元用于与核心处理模块220协作以处理视频消息并确定响应。

核心处理模块220可以通过数据库260来确定响应。数据库260可以包括可由核心处理模块220检索以确定响应的多个索引项。

数据库260可以包括纯聊天索引集262。纯聊天索引集262可以包括准备用于聊天机器人和用户之间的自由聊天的索引项，以及可以使用来自于例如社交网络的数据来建立。纯聊天索引集262中的索引项可以采用也可以不采用问题-回答(QA)对的形式，例如，<问题、回答>。问题-回答对还可以称为消息-响应对。

数据库260可以包括知识图264。这里，知识图264可以指代各种域中的单个知识图或者多个知识图。例如，知识图264可以包括基于概念的知识图(CKG)。这里，CKG中的“概念”可以指代由CKG指示的实体的属性或描述。可以根据网络上的网站(例如，维基百科、百度百科、互动百科等等)来建立知识图264。知识图264中的知识信息可以是元组的形式或者具有“键-值(key-value)”风格。

数据库260可以包括用户日志266。用户日志266可以包括与用户有关的所有信息，例如，聊天机器人和用户之间的会话期间的对话记录、用户的个性化信息、用户电子邮箱中的电子邮件、用户拍摄或存储的照片和视频、用户收听或下载的音乐等等。

聊天机器人系统200可以包括模块集270，其是可以由核心处理模块220操作以生成或者获得多媒体文档的摘要的功能模块的集合。

模块集270可以包括多媒体文档获得模块272，其可以被配置为获得多媒体文档。在一些情况下，用户可以在与聊天机器人的会话中上载或提及多媒体文档，因此，多媒体文档获得模块272可以从会话、从用户日志266、从网络或者从预先建立的数据库中获得多媒体文档，其中该多媒体文档可以具有各种形式，比如文本、语音、图像、视频等等。此外，多媒体文档获得模块272还可以从用户日志266或者从知识图264中，获得关于多媒体文档的上下文信息。

模块集270可以包括情绪信息提取模块274。情绪信息提取模块274可以被配置为通过情绪分析，提取多媒体文档中的情绪信息。可以基于诸如循环神经网络(RNN)连同SoftMax层一起来实现情绪信息提取模块274。情绪信息可以例如用矢量的形式表示，并可以进一步用于导出情绪类别。

模块集270可以包括摘要生成模块276。摘要生成模块276可以被配置为基于多媒体文档的情绪信息，来生成多媒体文档的摘要。可以在提供给用户的响应中包括该摘要。

核心处理模块220可以将生成的响应提供给响应队列或响应高速缓存240。例如，响应高速缓存240可以确保能够以预定义的时间流来显示响应序列。假设对于一个消息，由核心处理模块220生成了不少于两个的响应，则对响应的时间延迟设置可能是必要的。例如，如果用户输入的消息是“你吃早餐了吗？”，则可能生成两个响应，例如，第一响应是“是的，我吃了面包”，第二响应是“你呢？还觉得饿吗？”。在这种情况下，通过响应高速缓存240，聊天机器人可以确保立即向用户提供第一响应。此外，聊天机器人可以确保以例如1或2秒的时间延迟来提供第二响应，使得第二响应将在第一响应之后的1或2秒被提供给用户。由此，响应高速缓存240可以管理将要发送的响应以及针对每个响应的适当定时。

可以将响应队列或响应高速缓存240中的响应进一步传送到UI 210，以便可以在聊天窗口中将响应显示给用户。

应当理解，图2中的聊天机器人系统200中所示的所有单元都是示例性的，并且根据具体的应用需求，在聊天机器人系统200中可以省略任何所示的单元并且可以包含任何其它单元。

图3示出了根据实施例的示例性用户界面300。

用户界面300可以包括在终端设备中，并且可以包括聊天机器人图标310、呈现区域320、控制区域330和输入区域340。聊天机器人图标310可以是表示聊天机器人的照片或图片，比如，聊天机器人的标识、名称和主页URL。呈现区域320可以显示聊天窗口，其中该聊天窗口可以包含用户与聊天机器人之间的会话中的消息和响应。控制区域330可以包括用于用户执行消息输入设置的多个虚拟按钮。例如，用户可以通过控制区域330，选择进行语音输入、附加图像文件、选择表情符号、制作当前屏幕的快捷方式、激活相机、与聊天机器进行语音通话或视频对话等等。用户可以使用输入区域340来输入消息。例如，用户可以通过输入区域340来键入文本。用户界面300还可以包括用于确认发送输入消息的虚拟按钮350。如果用户触摸虚拟按钮350，则在输入区域340中输入的消息可以被发送到呈现区域320。

应当理解的是，图3中所示出的所有单元及其布局都是示例性的。根据具体的应用需求，图3中的用户界面可以省略或添加任何元素，并且图3的用户界面中的元素的布局也可以以各种方式改变。例如，虽然在呈现区域320中以文本形式示出了消息和响应，但消息和响应也可以是语音形式。因此，聊天机器人和用户可以通过语音进行聊天。

图4A根据实施例，示出了用于提供文本文档的摘要的示例性聊天窗口410。

当聊天机器人接收到来自用户的关于“我想获知开心的消息”的消息时，聊天机器人可以检查用户日志以获得包括各种消息或者用户的信息的多媒体文档。例如，聊天机器人可以检查用户的电子邮件箱，以及至少基于电子邮件箱中的电子邮件的情绪类别、以及来自用户的消息中包含的“开心”的情绪类别，来选择其中具有诸如“喜悦”、“欣喜”等等的情绪类别的内容的电子邮件。聊天机器人可以基于所选的电子邮件中的内容来形成所选电子邮件的摘要，以及向用户提供包括该摘要的响应，比如，“OK。这里有个好消息要告诉您。您刚刚收到一封电子邮件，说您提交给ACL会议的论文已被接受！”在一些实施例中，所选的电子邮件可能只提到“已被接受”或者“您的论文已被接受”。在该情况下，可以进一步基于从电子邮件箱中的其它相关电子邮件获得的上下文信息来生成摘要。例如，上下文信息可以包括在用户的电子邮件箱中的一个或多个先前的电子邮件中提到的关于用户提交给ACL会议的论文的信息。

图4B根据实施例，示出了用于提供图像文档的摘要的示例性聊天窗口420。

用户在聊天窗口420中提供图像，并且询问“图像中的他们是谁？”。聊天机器人可以识别图像中的感兴趣区域(RoI)(例如，人脸)，将这些RoI与来自根据诸如网站和/或用户日志所建立的知识图的信息进行匹配。通过匹配，聊天机器人可以发现图像中两个人的脸部与名为“罗马假日”的电影相关联，图像中的两个人分别是Princess Ann和Joe Bradley。因此，聊天机器人可以向用户提供“罗马假日电影中的Princess Ann和Joe Bradly”的响应。同时，可以向用户提供带有Princess Ann和Joe Bradley注释的更新图像，其包括突出显示的块和名称。

用户进一步询问“图像谈论的是什么？”。聊天机器人可以确定用户想要知道图像和/或电影的重要信息。聊天机器人可以针对图像的RoI，识别事实信息和/或情绪信息，其中事实信息可以反映图像中的事实或事件，例如，两个人正在喝酒，情绪信息可以反映RoI的情绪类别，例如，在人脸上的情绪“喜悦”等等。聊天机器人可以至少基于针对每个识别的RoI所确定的情绪信息、指示用户想要知道的内容的接收消息和/或从知识图获得的关于电影“罗马假日”中的“Ann”和“Joe”的上下文信息，来生成图像的摘要，并向用户提供包括所生成的摘要的响应，比如，“Ann和Joe非常高兴地在一起喝酒”。

随后，用户可能想要知道更多相关的信息。聊天机器人可以从CKG或用户日志获得一些另外的上下文信息，并将其提供给用户，如图4B中所示。

图4C根据实施例，示出了用于提供语音文档的摘要的示例性聊天窗口430。

通常，如果语音文档的持续时间很长，则人们需要花费很多时间来收听整个语音文档以获得特定的语音片段，例如，关于咆哮的语音片段。相比而言，根据本公开内容的实施例的聊天机器人可以帮助用户找到被解释成语音文档的摘要的这种语音片段。

在聊天窗口430中，用户可以向聊天机器人提供语音文档，作为[记录1(Recording1)]。当从用户接收到该语音文档和消息“你能得到上面的语音文档吗？”时，聊天机器人可以基于纯聊天索引集，给出响应“是的，我得到了”。

如果用户输入示例性消息“当两个人开始彼此咆哮时告诉我”，那么聊天机器人可以从语音文档中识别语音片段，确定每个语音片段的情绪信息。聊天机器人可以将每个语音片段的情绪信息和与“咆哮”相关联的情绪信息进行比较，保持匹配的语音片段(例如，在时间20.15的片段和在时间35.13的片段)连同相应的情绪信息。随后，聊天机器人可以对匹配的语音片段进行合并以生成语音文档中的咆哮部分的摘要，以及向用户提供包括所生成的摘要的响应，例如，聊天窗口420中的[记录1的摘要]。在一种实现中，在生成摘要时，还可以考虑每个语音片段的事实信息。

应当理解的是，语音文档可以具有任何音频格式，例如，mp3、wav、wma等等

图4D根据实施例，示出了用于提供视频文档的摘要的示例性聊天窗口440。

如聊天窗口440中所示，当从用户接收到消息“请提供下面视频的摘要：[VideoURL]”时，聊天机器人可以通过该视频URL获取完整的视频，识别包含图像和语音的每个视频剪辑，通过确定视频剪辑中的图像部分和/或语音部分的情绪信息来确定每个视频剪辑的情绪信息，以及至少基于整个视频的情绪类别和相关联的视频剪辑来生成视频的摘要。例如，如果整个视频的情绪类别是悲伤，则聊天机器人可以通过保持视频剪辑以及将该视频剪辑与情绪类别“悲伤”进行组合来生成视频的摘要，并将包括所生成的概要的响应提供给用户。

当用户要求聊天机器人只显示视频的战斗部分时，聊天机器人可以将每个视频剪辑的情绪信息与和“战斗”相关联的情绪信息进行比较，保持匹配的视频剪辑，基于匹配的视频剪辑来生成关于战斗部分的摘要，以及向用户提供包括所生成的摘要的响应。

应当理解的是，聊天窗口410、420、430和440中的聊天流程只是示例性的，本发明的实施例并不限于聊天窗口410、420、430和440中的任何详细表示或过程。

图5示出了根据实施例的示例性基于概念的知识图(CKG)500。

CKG中的数据可以具有文本、图像、语音和视频的形式。在一些实现中，可以将图像、语音和视频文档转换成文本形式并存储在CKG中以用于CKG挖掘。例如，对于图像文档而言，可以通过使用图像到文本转换模型(例如，循环神经网络-卷积神经网络(RNN-CNN)模型)，将图像转换成文本。对于语音文档而言，可以通过使用语音识别模型，将语音转换成文本。对于包括语音部分和图像部分的视频文档而言，可以通过使用语音识别模型将语音部分转换成文本，通过使用2D/3D卷积网络将图像部分转换成文本，以将视频信息投影到密集空间向量并进一步使用图像到文本模型。可以通过基于注意的编码解码模型来处理视频，以捕捉针对视频的文本描述。

在构建CKG时，可以将时间相关信息和位置相关信息视为概念和/或作为名词式概念的属性。可以以<节点、边、节点>或<概念、关系、概念>的形式来构建CKG。由CKG指导的话题或实体可以涉及概念列表，以及可以通过具有诸如“开始”、“成长”、“退化”、“完成”、“取消”等等之类的状态的生命周期来定义，其中，生命周期的当前状态可以通过生命周期标志来指示。在一些实现中，CKG中的一个节点是一个概念，其可以对应于一个可视的或者可想象的对象。例如，“狗”是一个可视的概念，而“经济”是一个可想象的概念，它可能没有可视的形式，但是可以用间接的方式或者思想来观察。以CKG 500为例，节点可以包括“Michelangelo”、“David”、“Poetry”、“罗马，罗马教皇”等等。在CKG 500中，节点“Michelangelo”是主节点，其它节点是辅助节点。在一些实现中，CKG中的一条边是形成该边的两个节点之间的关系描述(例如，谓词式或者属性式的关系描述)。以CKG 500为例，边可以包括“著名的作品”、“已知的”、“死亡/位置”、“肖像”等等。例如，节点“Michelangelo”和“David”之间的边“著名的作品”描述了关于“David”是“Michelangelo”的著名作品的关系。每个边以及其对应的辅助节点可以处于“键-值”风格。例如，假定边“出生/日期”是一个键，那么这个键的值可以是“1475年3月6日”，该对边和节点可以表示为<出生/日期，3月6日，1475>。

为了从各种知识源(例如，网站上的网页)提取基于概念的知识图，定义了许多启发式规则。可以将知识源分为两种类型，一种是格式良好的样式(例如，维基百科上的网页)，另一种是纯文本样式。对于具有格式良好的样式的知识源，来自这些知识源的信息可以按照与CKG 500的构建方式类似的方式进行组织，从而可以容易地形成CKG。对于具有纯文本样式的知识源而言，可以对纯文本执行依赖性解析。纯文本中的句子的语法结构可以通过依赖性分析来识别，然后从句子的依赖关系树中提取知识元组。这些知识元组可以进一步形成基于概念的知识图。

图6根据实施例，示出了用于从句子的依赖关系树中提取知识元组的示例性依赖关系解析600。对示例性句子“Michelangelo在三十岁之前雕刻了他最著名的两幅作品‘圣母怜子图’和‘大卫’”执行依赖关系解析600。通过对该句子执行语法依赖关系解析600来获得依赖关系树。可以从句子的依赖关系树中提取知识元组。该提取过程可以遵循将具有参数(argument)的谓语与具有句法关系的链接实体链接在一起的依赖关系弧。

从图6中的句子中提取的知识元组可以包括：<Michelangelo、nsubj-sculpted-dobj、他最著名的两部作品>、<Michelangelo、nsubj-sculpted-dobj、Pieta>、<Michelangelo、nsubj-sculpted-dobj、David>等等。这里，“nsubj”表示诸如“Michelangelo”和“sculpted”之间的“名词主观论证”关系，“dobj”表示诸如“sculpted”和“David”之间的“直接对象论证”关系。此外，“Pieta”和“David”是如CKG中的节点的两个概念。通过这些链接或关系，可以建立概念之间的连接，概念之间的这种连接可以用于指导问题-回答的实现，这可以作为CKG对于信息提炼的特殊应用。

应当理解的是，这里可以使用各种依赖关系解析技术来执行依赖关系解析。

图7示出了根据实施例的示例性情绪轮700。情绪轮700规定了一个情绪集合，其也称为Plutchik的情绪轮。

如图7中所示，定义了八种“基本”情绪，其包括：快乐、信任、恐惧、惊奇、悲伤、厌恶、愤怒和期待。规定每种基本情绪具有三个强度等级，包括“弱”、“中”和“强”。例如，对于基本情绪“愤怒”，具有弱强度的情绪是“烦恼”，中等强度的情绪是“愤怒”，具有强的强度的情绪是“盛怒”。具有弱强度的情绪和具有强的强度的情绪可以视作是相应基本情绪的变型。

此外，在图7中还规定了不具有“强度”的八种“组合”情绪，包括：爱、屈服、敬畏、不赞成、悔恨、蔑视、侵略性和乐观。每个组合的情绪是基于两个相邻的基本情绪来定义的。例如，基于基本情绪“快乐”和基本情绪“信任”来规定组合情绪“爱”。

因此，在情绪轮700中包含总共32种类型的情绪。但是，应当理解的是，本公开内容的实施例并不限于采用情绪集合900中的情绪，还可以采用规定更多或者更少的情绪的任何其它类型的情绪集合。

为了训练细粒度的分类模型，应当获得<文本、情绪类别>形式的大规模训练数据集，其中“情绪类别”可以指代情绪轮700中的32种情绪里的一种，或者指代8种基本情绪中的一种连同相应的强度等级或者8种组合情绪中的一种。图8示出了根据一个实施例的用于获得训练数据集以进行情绪分析的示例性过程800。可以执行过程800，以通过扩展种子情绪词来生成情绪词典，以及进一步通过使用情绪词典来确定训练数据集。

在810处，可以获得种子情绪词。这里，种子情绪词可以包括与32种情绪中的每一种相对应的情绪词。例如，种子情绪词可以包括与情感“快乐”相对应的多个词，诸如“幸福”、“高兴”、“快乐”等等。可以从现有的手动构建的情绪词典获得种子情绪词，其中该手动构建的情绪词典包含具有手动标记的情绪极性的词。这些手动构建的情绪词典只能提供有限数量的种子情绪词，这些词不足以获得用于情绪分析的训练数据集。

在820处，可以基于种子情绪词来执行Word2vec词扩展，以便扩展种子情绪词。可以计算每个种子情绪词和来自语料库的词的Word2vec余弦相似性分数。用此方式，可以为每个情绪词收集来自语料库的具有计算得分的多个词，然后可以将多个排名最高的词确定成对该种子情绪词的扩展。例如，如图8中所示，对于种子情绪词“悲伤”而言，可以基于计算出的Word2vec余弦相似性分数来确定扩展词“伤心”、“不高兴”，“悲痛”、“幸福”等等。

应当理解的是，根据诸如句子中词语的位置来计算Word2vec余弦相似性分数。因此，Word2vec词语扩展不能保证所有的扩展词语与相应的种子情绪词具有相似的语义含义。例如，在图8中，将“幸福”确定成种子情绪词“悲伤”的扩展词，但是，这两个词具有不同的语义含义。因此，过程800还包括基于双语词对齐的修剪机制，以便从相应的种子情绪词中去除具有不同语义含义或者语义相关性较弱的那些扩展词。

在830处，可以执行双语词对齐。这种双语词对齐可以用于通过两种不同语言之间的往返翻译来查找相对种子词的语义相关词。可以将第一种语言的种子情绪词翻译成第二种语言的词。例如，可以将英文的种子情绪词“悲伤”翻译成中文的“伤心”、“不高兴”和“悲痛”。随后，可以将第二种语言的词语翻译回第一种语言的词语。例如，可以将中文的词“伤心”、“不高兴”和“悲痛”翻译回英文的“悲伤”、“不快乐”和“悲伤”。因此，可以通过针对种子情绪词“悲伤”的双语词对齐，来获得“悲伤”、“不快乐”和“悲伤”的词语列表。

在840处，可以对通过820处的Word2vec词语扩展获得的扩展词语和在830处的双语词对齐获得的词语列表执行交集操作。该交集操作可以用于去除通过Word2vec词语扩展获得的、具有与相应的种子情绪词不同的语义含义或弱的语义相关性的那些扩展词语。例如，在图8中，通过交集操作，可以保留词语“悲伤”和“不快乐”，而去除与“悲伤”具有弱语义相关性的词语“悲痛”以及与“悲伤”具有不同语义含义的词语“幸福”。

通过交集操作保留的词语可以被附加到情绪词典850中。在一种实现中，可以通过相应的表情符号(例如，emoji或者kaomoji)进一步添加情绪词典850中的词语。在860处，可以针对每一种类型的情绪，从网络中收集emoji或者kaomoji。例如，对于情绪“悲伤”而言，其相应的表情可以包括诸如“＞＜”，等等。因此，可以将这些表情附加到与情绪词典850中的情绪“悲伤”相对应的词语“悲伤”、“悲痛”和“不快乐”。

如上面所讨论的，通过对种子情绪词执行Word2vec词语扩展和双语词对齐，来建立情绪词典850，且情绪词典850可以包括比手动构建的情绪词典更多的词语。情绪词典850可以用于从网络数据870中抓取包含情绪词典850中的至少一个词的文本句子。这些抓取的文本句子可以被用作候选训练数据。

在一些情况下，候选训练数据可以包括一些干扰句子，它们具有模糊的情绪或者难以识别情绪。示例性干扰句子可以包括可以从原始情绪切换到相反情绪的词“不”或者其等价物。另一个示例性的干扰句子可以以混合的方式包括肯定词和否定词，例如，“先赞扬后批评”。此外，在一些情况下，一个种子情绪词的“强度”与一个包含该种子情绪词的句子的“强度”之间可能存在差距。也就是说，该句子不能确保遵循种子情绪词的完全一样的强度。例如，对于种子情绪词“愤怒”而言，“愤怒”的强度是“中等”。但是，在类似于“他非常生气，而且他握着枪的扳机”的句子中，总的句子的情绪应当被注释为“强”愤怒，也就是说，具有强的强度的情绪“愤怒”，而不是只有中等强度的情绪“愤怒”。此外，种子情绪词可以扩展一些新的同义词，使其强度与原始的种子情绪词发生改变。

为了缓解上述问题，可以使用支持向量机(SVM)分类器880，从候选训练数据中滤除干扰句子或者校正一些候选训练数据的不适当情绪注释。SVM分类器880可以使用三字符作为特征。可以获得一组种子训练数据来训练SVM分类器880。例如，种子训练数据可以包括针对每个情绪8的1000个手动注释的实例。在一种情况下，实例中的句子可以通过八种基本情绪中的一种或者八种组合情绪中的一种来注释，以及如果注释了一种基本情绪，则应进一步注释强度等级。在另一种情况下，实例中的句子可以直接通过情感轮700中的32种情绪之一来注释。

SVM分类器880可以对基于情绪词典850获得的候选训练数据进行二次判断。通过SVM分类器880的操作，可以将候选训练数据中具有相对较高置信概率的那些句子最后附加到训练数据集890。训练数据集890可以用于训练情绪分类模型。

应当理解的是，820处的Word2vec同义词扩展的操作、860处的附加表情符号的操作以及SVM分类器880的操作在过程800中都是可选的。因此，在其它实现中，可以从过程800中省略这些操作中的任何一个或多个。

图9根据实施例，示出了用于文本到情绪分类器的示例性神经网络结构900。

神经网络结构900可以包括字符级别循环卷积神经网络(RCNN)。该字符级别RCNN能够对来自字符的语义和拼写信息进行编码，可以包括嵌入层、卷积层、循环层和输出层。应当理解的是，对于字符式语言(例如，日文、中文等等)的文本句子而言，可以将句子中的字符作为用于嵌入的基本单位，而对于词语式语言(例如，英文)的文本句子而言，可以将句子中的单词而不是字母作为用于嵌入的基本单位。当嵌入层中的基本单位是“字符”时，卷积层将找出词语的最好组合，其中每个词是由几个字符组成的。当中的基本单位是“单词”时，卷积层将找出短语的最佳组合，其中每个短语是由几个单词组成的。虽然下面的讨论针对于“字符”的情况，但类似的技术手段也可以应用于“单词”的情况。

嵌入层可以将文本句子转换成密集向量空间，例如为句子中的每个字符生成向量。

卷积层可以基于CNN，并且可以对来自嵌入层的向量执行卷积运算，例如，以各种核大小来转换向量。

令是一个字符嵌入矩阵，其中d是字符嵌入的维数，V是字符词汇集。假定一个单词w＝c₁,…,c_l，它有l个字符c_j。随后，w的字符级表示通过矩阵来给出，其中C^w的第j列对应于c_j的字符嵌入，其进一步是Q的第j列。在C^w和滤波器或卷积函数之间应用窄卷积，其中宽度为f。图9示出了宽度为f＝3、5和7的三个示例性滤波器。随后，增加偏差，应用非线性变换以获得特征映射f^w的第i个元素可以给出为：

f^w[i]＝tanh(<C^w[*,i:i+f-1],H>+b) 式(1)

其中，C^w[*,i:i+f-1]是C^w的第i到第(i+f-1)列，<A,B>＝Tr(AB^T)是Frobenius内积。

在一种实现中，卷积层上的CNN可以采用诸如随着时间的最大池化(pooling)。

循环层可以对卷积层的输出执行循环操作。应当理解的是，虽然图11示出了循环层中的双向循环操作，但是在循环层中也可以应用单向循环操作。循环层也可以称为循环神经网络(RNN)层，其可以采用长短时记忆(LSTM)单元。LSTM可以通过在每个时间步(timestep)，使用存储单元矢量来扩增传统的RNN，来解决长距离相关性和梯度消失问题的学习问题。LSTM的一步是将x_t、h_t-1、c_t-1作为输入，并经由以下中间计算产生h_t、c_t：

i_t＝σ(Wⁱx_t+Uⁱh_t-1+bⁱ) 式(2)

f_t＝σ(W^fx_t+U^fh_t-1+b^f) 式(3)

o_t＝σ(W^ox_t+U^oh_t-1+b^o) 式(4)

g_t＝tanh(W^gx_t+U^gh_t-1+b^g) 式(5)

其中，σ(.)和tanh(.)是元素对元素S形和双曲正切函数，是元素对元素乘法运算符，i_t、f_t、o_t分别表示输入门、忘记门和输出门。当t＝1时，将h₀和c₀初始化成零向量。要在LSTM中训练的参数是矩阵W^j、U^j和偏差向量b^j，其中j∈{i,f,o,g}。

输出层可以被配置为将RNN状态从循环层传送到神经网络结构900中的softmax层。

softmax层可以被配置用于不同的情绪分类策略。在第一策略中，可以基于情绪轮700中的32种情绪(包括具有“中等”强度的8种基本情绪、8种弱情绪、8种强情绪和8种组合情绪)来规定情绪类别。softmax层可以是完全连接层，其输出与32种情绪类别相对应的情绪向量。在第二策略中，可以基于情绪和强度的组合来规定情绪类别。例如，根据情绪轮700，可以规定8种基本情绪和8种组合情绪，其中，这8种基本情绪中的每一种都进一步规定有强度等级，而这8种组合情绪没有规定有任何强度等级。在该情况下，softmax层可以是完全连接层，其输出与8种基本情绪、8种基本情绪的强度等级和8种组合情感相对应的情绪向量。对于第一策略和第二策略二者而言，可以将softmax层输出的情绪向量解释成输入文本句子的情绪信息。

神经网络结构900可以用于对文本句子执行情绪分析。例如，当获得文本文档时，聊天机器人可以通过神经网络900，对文本文档中的句子执行情绪分析，以便获得文本文档的情绪信息，进一步推导出文本文档的情绪类别。

根据本公开内容的实施例，可以确定对话会话中话题的生命周期。可以将每个话题的生命周期分类成多个潜在时间敏感状态。话题可以附加生命周期标志以指示该话题的当前状态，例如“开始”、“成长”、“退化”、“完成”、“取消”、“后讨论”等等。这些状态可以从一个状态转变成另一个状态。在一种实现中，可以通过对与该话题关联的当前会话日志执行情绪分析来确定该话题的情绪类别。根据情绪类别是否改变为正面还是负面，可以相应地改变话题的当前状态。

接着，将提供用户与聊天机器人之间的对话会话中的两种示例性场景，以描述<话题、状态>形式的话题的生命周期。

示例性场景1：

用户：“我感到孤独。”

聊天机器人：“看电影怎么样？”<话题＝看电影，状态＝开始>

用户：“当然，有什么建议？”<话题＝看电影，状态＝扩展>

聊天机器人：“‘蜘蛛侠’最近一集怎么样？”<话题＝蜘蛛侠，状态＝开始；父主题＝看电影，状态＝扩展>

用户：“听起来不错。”<话题＝蜘蛛侠，状态＝正面意图；父主题＝看电影，状态＝扩展>

聊天机器人：“距离最近的电影院有10分钟路程，下一次放映在30分钟内。你需要买票吗？“<话题＝票，状态＝开始；父主题＝蜘蛛侠，状态＝正面意图；第2父主题＝看电影，状态＝扩展>

用户：“当然。请买一张票。”

{一天之后}

用户：“这部电影很有意思。”<话题＝蜘蛛侠，状态＝完成和正面评论；

父主题＝看电影，状态＝完成>

在该示例性场景中，“看电影”的话题是由基于CKG的聊天机器人来确定的，例如，基于具有<概念、关系、概念>形式的CKG中的元组<看电影、治愈、孤独>。

示例性场景2：

用户：“我感到孤独。”

用户：“不是那么感兴趣”。<话题＝看电影，状态＝负面意图>

聊天机器人：“那蓝色风格的音乐怎么样？”<话题＝蓝色风格的音乐，状态＝开始>

用户：“听起来不错。”<话题＝蓝色风格的音乐，状态＝正面意图>

{在这里播放音乐}

用户：“我喜欢它。”<话题＝蓝色风格的音乐，状态＝完成和正面评论>

聊天机器人：“很高兴你喜欢它。”

在该示例性场景中，聊天机器人基于CKG确定“蓝色风格的音乐”的话题，例如基于CKG中的元组<蓝色风格的音乐、结盟、孤独>。另外地或可选地，可以基于用户对该话题的意图或情绪的改变来确定话题的当前状态。

在一些实现中，可以通过基于CKG中的话题和概念之间的基于语义相似性的链接来搜索预先构建的CKG，来确定话题。可以通过将相似性分数分配给CKG中的候选概念并使用至少三种类型的特征，采用梯度增强决策树(GBDT)来进行链接。例如，一种类型的特征是基于表面n-gram字符/词/短语的相似性分数；第二类型的特征是基于同义词典(例如，WordNet)来计算的；第三类型的特征是潜在的语义相似性分数，其中潜在的语义信息是通过使用从上下文信息中训练的神经网络语言模型来获得的。举例而言，下面提供了一个特征列表以评估CKG中的话题t与概念c之间的相似性：

·t和c之间基于字符的编辑距离；

·t和c之间基于词语的编辑距离；

·相同的3-gram字符的数量除以t中的3-gram字符的数量；

·相同2-gram词语的数量除以t中2-gram词语的数量；

·相同2-gram词语的数量除以c中2-gram词语的数量；

·在t和c之间，在WordNet中是否有同义关系；

·在WordNet中，t可以到达c的距离，或反之亦然；以及

·由word2vec产生的t和c的密集空间向量之间的余弦相似性分数。

聊天机器人可以采用如上面所讨论的话题确定和话题的生命周期分类，以指导下一个响应的生成，总结长时间的对话会话的标题。

本公开内容的实施例可以采用分层RNN，用于对于对话会话中的话题的生命周期进行分类。RNN可以将会话编码成向量，进一步通过例如softmax函数将编码向量投影到每个话题的状态概率列表。

图10根据实施例，示出了用于对于对话会话中的话题的生命周期进行分类的示例性结构1000。结构1000包括多层神经网络，例如，四层神经网络，其中，矩形可以表示向量，箭头可以表示函数(例如，矩阵向量乘法)。

层1是输入层。假定在层1中，输入会话中有针对m个话题的m个句子集合。可以在层1中生成一组向量，每个向量x_t是在m个句子集合之一中的句子中的词语的Word2vec样式嵌入。该句子集合中的每个句子可以附加有话题词，其指示在该句子中包含该话题词。

层2是用于在与相同话题相对应的句子的词语之中执行循环操作的双向RNN层。层2的目的是将整个句子集合转换成一个向量。可以通过将h_t和x_t进行线性组合，并附加诸如RNN(.)之类的逐元素非线性变换函数，来计算层2中的向量h_t+1。虽然此处采用RNN(.)，但应当理解的是，逐元素非线性变换函数还可以采用例如tanh或sigmoid或者LSTM/GRU计算块。

假定T是展开RNN层2的步数，h_T是最终向量。考虑在两个方向上执行循环操作，即从左到右和从右到左，可以通过在两个方向上的向量的级联来形成h_T，例如h_T＝[h_{left-to-right},h_{right-to-left}]^T。

层3是用于在会话中的m个话题之间执行循环操作的另一个双向RNN层。层3的目的是获得整个会话的密集向量表示。双向RNN层3将来自层2的h_T作为输入。将层3的输出表示成其中m是输入会话中的句子集合的数量。

层4是输出层。层4可以被配置为确定每个话题在预先给定的状态列表中的可能状态的概率，例如，针对一个话题的生命周期状态列表。话题词可以对应于概率p_i的列表，其中i的范围从1到状态数|P|。在该层中的过程可以包括首先计算作为的线性函数的y，随后使用softmax函数将y投影到概率空间中，确保P＝[p₁,p₂,…,p_|P|]^T遵循概率的定义。对于误差反向传播而言，可以应用与每个话题词的P的负对数函数相对应的交叉熵损失。

上面讨论的结构1000是容易实现的。但是，随着T变得越来越大，梯度将会消失。例如，从h_T回到h₁的(0,1)中的梯度将逐渐接近零，使得参数的随机梯度下降(SGD)式更新不可行。因此，在一些实现中，为了减轻在使用简单的非线性函数(例如，tanh或sigmoid)时发生的这种问题，可以采用其它类型的函数来通过h_t和x_t表达h_t+1，比如门控循环单元(GRU)、长短时记忆(LSTM)等等。

以LSTM为例，LSTM可以通过在每个时间步，利用存储器单元矢量来扩增传统的RNN，以解决长距离相关性和梯度消失问题的学习问题。LSTM的一步是将x_t、h_t-1、c_t-1作为输入，经由先前定义的式(2)-式(7)来产生h_t、c_t。

根据本公开内容的实施例，可以采用具有注意模型的神经网络来生成文本文档的摘要。

图11A示出了根据实施例的示例性神经网络语言模型(NNLM)1110。NNLM 1110可以用于生成文本文档的摘要。NNLM 1110采用编码器-解码器结构，其包括基于注意的编码器。

NNLM 1110以x作为输入文档，其包括输入文档的事实向量和输入文档的情绪向量。可以将y_c认为是窗口大小为c的输出。NNLM 1110根据标准的前馈NNLM进行调整，并且可以用于估计摘要中的下一个词语的上下文概率。可以用下式来公式化表示NNLM 1110：

其中，θ＝(E,U,V,W)，E∈R^D*V是词语嵌入矩阵，每个词语具有D维，U∈R^(CD)*H、V∈R^V ^*H、W∈R^V*H是权重矩阵，h是大小为H的隐藏层。黑盒功能单元enc是一个上下文编码器，其返回表示输入和当前输出上下文的大小为H的向量。

图11B示出了根据实施例的示例性基于注意的编码器1120。将表示成enc₃的基于注意的编码器1120利用下式进行公式化表示：

其中，F∈R^D*V是输入的嵌入，G∈R^D*V是输出上下文的嵌入，P∈R^H*(CD)是上下文嵌入和输入嵌入之间的新的权重矩阵参数映射，Q是一个平滑窗。

基于注意的编码器中的主要部分可以是学习输入x与输出y之间的软对齐P。该软对齐可以用于在构建表示时，对输入x的平滑版本进行加权。例如，如果当前上下文与位置i保持良好对齐，则由编码器对词x_i-Q、...、x_i+Q进行高度加权。

在训练期间，可以将负对数似然(NLL)使用成目标函数，如下所示：

其中，可以通过使用最小批量随机梯度下降来使NLL最小化。

在解码过程中，可以采用波束搜索解码器。该波束搜索解码器可以维持完整的词汇表V，同时将其自身限制在摘要生成过程的每个位置处的K个潜在假设，其中：

本公开内容的实施例可以对图像执行情绪分析。

可以采用深度神经网络来将图像投影到密集向量中。例如，可以采用残余网络(ResNet)来对图像进行编码。ResNet可以包括多个残余学习块。图12根据实施例，示出了用于图像编码的示例性残余学习块1200。

在形式上，对于输入x，可以将期望的底层映射表示为H(x)，并且堆叠的非线性层可以拟合F(x):＝H(x)-x的另一映射。可以将原始的映射重新投射到F(x)+x中。假设与优化原始的未引用的映射相比，优化残余映射更容易。在极端情况下，如果单位映射是最优的，那么将残余推送为零比通过一堆非线性层来拟合单位映射更容易。非线性活动函数是整流线性单元(relu)，其可以表示整流线性单元，并可以定义为：Relu(x)＝max(0,x)。

基于图12中所示出的残余学习块，可以建立残余网络(ResNet)。图13根据实施例，示出了用于图像到情绪分类器的示例性神经网络结构1300。神经网络结构1300可以具有用于对图像进行编码的示例性34层ResNet，其可以提供相对良好的准确性和快速的训练/测试。

在图13中，例如，“3*3conv,64”表示存在64个滤波器，每个滤波器具有卷积内核或者函数，其规模为3*3像素。“/2”表示双跨步。“池化”表示池化操作，“平均池化”表示平均池化操作。平均池化操作的输出是图像事实向量，其是输入图像的密集向量表示。

图像事实向量可以被进一步提供给根据不同的情绪分类策略配置的softmax层。图13中的softmax层可以以与图9中的softmax层类似的方式进行操作。例如，图13中的softmax层可以输出与32种情绪相对应的情绪向量，也可以输出与8种基本情绪、8种基本情绪的强度等级和8种组合情绪相对应的情绪向量。可以将softmax层输出的情绪向量解释成输入图像的情绪信息。

神经网络结构1300可以用于对图像执行情绪分析。例如，当获得图像文档时，聊天机器人可以通过神经网络结构1300，对图像文档中的图像执行情绪分析，以便获得图像文档的情绪信息，以及进一步推导图像文档的情绪类别。

应当理解的是，ResNet是可以在图像编码中采用的示例性技术，在图像编码中可以采用任何其它技术，比如AlexNet、GoogleNet、VGG-Net等等。

在一些实施例中，可以识别图像的RoI，以及神经网络结构1300还可以对这些RoI执行情绪分析，以获得这些RoI的情绪信息。这里，“RoI”可以指代包括面部图片的图像中的面部区域。在一些情况下，一个图像可能包含多于一个人，这些人可能会有各自的情绪。例如，假设图像中有两个人，一个人正在哭，另一个人正在冷静地尝试与该哭泣的人进行交流。显然，这两个人的面部区域可能代表不同的情绪。如果可以识别这两个面部区域并且可以确定每个面部区域的情绪，那么对于理解整个图像具有什么样的情绪将是有益的。

图14根据实施例，示出了用于对图像的RoI执行情绪分析的示例性过程1400。

在1402处，可以获得输入图像。在1404处，可以从输入图像中检测到至少一个RoI。在1406处，可通过诸如图13中所示出的ResNet，将RoI投影到特征图1408中。随后，在1410处，可以使用RoI池化层来对特征图1408执行诸如最大池化，以便将特征图1408转换成较小的特征图。例如，假设RoI是h×w矩形窗口，则可以将该RoI窗口划分成(h/H)×(w/W)个子窗口，RoI池化层可以对每个子窗口中的值执行最大池化，并且输出大小为H×W的较小特征图。参数H和W可以是独立于任何特定RoI的层超参数。在1412处，可以将该较小的特征图提供给连接到两个分支的至少一个全连接层。一个分支到达softmax层1414，其可以与图13中的softmax层相同，以及输出RoI的情绪向量1416。另一分支到达边界框回归器1418，其可以输出RoI位置向量1420，该RoI位置向量1420指示该RoI的左上角的坐标和该RoI的右下角的坐标。

在一种实现中，可以将图像中的RoI的情绪向量和整个图像的情绪向量组合在一起，作为图像的情绪信息。

为了训练图像-情绪分类模型，应当获得<图像、情绪类别>形式的大规模训练数据集。在一种实现中，可以将图8中的情绪词典850发送到基于文本的图像搜索引擎，以便收集与如情绪词典中包括的情绪词语和/或它们的强度等级相关联的大量图像。所收集的图像连同相应的情绪词语和/或它们的强度等级可以被手动地判断为“匹配”或者“不匹配”。如果在图像中出现多于一个的脸部，且针对该图像已经给出了“匹配”判断，则可以在图像中，对该图像中的RoI(例如，脸部区域)(其与情绪词语和/或其强度等级对齐)进行进一步手动绘制。用于获得训练数据集的上述过程可以简化注释任务，使人的级别判断更容易。

本公开内容的实施例可以执行能从图像中生成文本的图像到文本转换。

图15根据实施例，示出了用于从图像中生成文本的示例性神经网络1500。神经网络1500基于CNN-RNN框架，其中，图15右边的深度CNN可以用于获得输入图像的事实向量，图15左边的RNN可以用于生成文本句子。图15中的深度CNN可以是基于图13中的ResNet。神经网络1500的基本思想是在潜在的语义空间中匹配图像和文本句子，其中通过深度CNN将图像投影到密集的向量空间中，通过RNN将该句子投影到另一个密集的向量空间。

用于神经网络1500的训练数据可以具有<图像、文本>的形式。例如，可以使用电影“罗马假日”中的图像和描述该图像的“Ann和Joe在一起喝酒”的文本句子作为训练数据的实例，其中该图像表示被提供给深度CNN，该文本句子被提供给RNN。在一些情况下，可以将训练数据中的句子分解成一些词语，可以提取所有这些词语以形成词汇集合。随后，可以基于来自输入图像的线索，对来自不同句子的词语进行重新组合以形成新的句子，其中该句子被优化以适合基于生成概率的输入图像。

神经网络1500的句子生成过程可以如下工作。将输入图像的事实向量I提供给RNN的多模态层。softmax层可以计算目标词汇集合中的词语的概率，选择具有最大概率的至少一个词语。在一种实现中，可以使用波束搜索来保持前B个候选词的记录，其中B是波束大小。例如，当B是3时，这意味着具有最高概率的前3个词被保持记录在softmax层中。

可以通过RNN的输入层，输入一个或多个先前生成的词{w₁,w₂,…,w_i-1}。可以通过RNN的嵌入层1和2来获得向量w(t)。可以通过RNN的循环层来获得向量r(t)。可以将向量w(t)和r(t)连同输入图像的事实向量I一起作为三个输入向量来提供给多模态层。在多模态层，可以将这三个输入向量通过以下方式一起进行相加：

m(t)＝g(V_w*w(t)+V_r*r(t)+V_I*I) 式(18)

其中，“+”表示逐元素相加，m表示多模态层特征向量，g(x)是逐元素缩放双曲正切函数，g(x)＝1.7159*tanh(2x/3)。函数g(x)强迫梯度进入最非线性的数值范围，且导致比基本双曲正切函数更快的训练过程。

基于来自多模态层的输出，softmax层将从词语集合中选择下一个词或者前B个可能的接着的词。

可以迭代地执行上述生成过程，直到表示文本句子结束的</s>符号才停止。

应当理解的是，在一些实现中，还可以在图15中的句子生成过程中，考虑输入图像的情绪类别。在该情况下，在上面的讨论中涉及的输入图像的向量I可以变成输入图像的事实向量和输入图像的情绪向量的组合。因此，神经网络1500所生成的文本句子可以是关于输入图像的情绪描述或者评论。例如，如果输入图像是关于正在哭泣的人，则所生成的文本句子可以是类似于“这幅画讲述了一个悲伤的故事”，其包含用于指示该图像传达了情绪“悲伤”的情绪表达。

图16示出了根据实施例用于语音到情绪分类器的示例性神经网络结构1600。神经网络结构1600可以将输入语音片段x投影到密集向量表示，以通过softmax层进行进一步情绪分类。

可以在输入层中输入语音片段x⁽ⁱ⁾。该语音片段x⁽ⁱ⁾可以是具有长度为T⁽ⁱ⁾的时间序列，每个切片是音频特征的向量，其表示为x_t ⁽ⁱ⁾，其中t＝1,2,…,T⁽ⁱ⁾。频谱图可以使用成输入特征。

如图16中所示，存在5层的隐藏单元，其表示为层1到层5。对于输入序列x而言，将层l中的隐藏单元表示为h^(l)，其中特殊情形是h⁽⁰⁾代表输入序列。

层1、层2和层3不是循环层。对于层1而言，在每个时间t，输出取决于谱图帧x_t以及每边上的S帧的上下文。根据经验，可以从使值集合的错误率最小化的{3,5,7,9}中选择S的值。层2和层3在每个时间步上操作独立的数据。因此，对于每个时间t，可以将前三层计算为：

在式(19)中，使用修剪后的整流线性激活函数g(z)，W^(l)和b^(l)分别是针对层l的权重矩阵和偏差参数。在该例子中，l的取值取自于1、2、3。函数g(z)可以表示为g(z)＝min{max{α,z},β}，其中α和β是超参数，并可以根据经验进行调整。

层4是双向门控重复单元(GRU)。该层包括两组隐藏单元，一组用于前向的从左到右循环h_t ^(f)，另一组用于后向的从右到左循环h_t ^(b)。

层5是非循环层，其以层4中的前向单元和后向单元的级联作为输入，并可以计算为：

其中，h_t ⁽⁴⁾是h_t ^(f)和h_t ^(b)的级联。

可以根据层5的输出来生成密集向量表示。通过如上面所讨论的RNN-GRU编码，可以获得用于语音输入的密集向量表示。

可以将该密集向量表示进一步提供给根据不同的情绪分类策略配置的softmax层。图16中的softmax层可以以与图9中的softmax层类似的方式进行操作。例如，图16中的softmax层可以输出与32种情绪相对应的情绪向量，也可以输出与8种基本情绪、8种基本情绪的强度等级和8种组合情绪相对应的情绪向量。可以将softmax层输出的情绪向量解释成输入语音的情绪信息。

可以基于包括语音部分和相对应的文本部分的现有语音识别数据，来获得用于语音到情绪分类器的大规模训练数据集。例如，可以收集现有的语音识别数据，如图9中所示，可以通过文本到情绪分类器的情绪标签，自动地对数据的文本部分进行注释。随后，可以将语音部分和相关联的情绪标签使用成训练数据。

图17示出了根据实施例用于生成语音摘要的示例性过程1700。

当生成语音文档的摘要时，具有诸如LSTM或GRU单元的双向RNN层可以用于将语音文档中的每个语音片段的语音向量链接在一起。这里，语音向量可以指代语音片段的情绪向量。在一些应用场景中，语音摘要可以指代具有指定情绪类别的一个或多个语音片段，在该情况下，可以在语音摘要的生成中采用情绪信息，例如，情绪向量。

在RNN层中处理用于语音片段的语音向量x1、x2、x3、x4、...、xn，随后将其提供给softmax层以选择将保持在语音摘要中的语音片段。例如，当从softmax层输出针对于语音片段的语音向量的值0时，则可以不将该语音片段保持在语音摘要中。而如果从softmax层输出针对于语音片段的语音向量的值1，则可以将该语音片段保持在语音摘要中。如图17中所示出的例子，输入语音片段的输出值为{1,0,1,0,...0}，则可以保持与值1相对应的第一和第三语音片段以形成该语音文档的语音摘要。softmax层中的语音片段的选择可以考虑在来自用户的消息中指示的指定的情绪类别，使得只有那些与指定的情绪类别相关联的语音片段才被选择。在一些实现中，用于生成语音文档的语音摘要的上述过程可以进一步基于语音文档中的语音片段的上下文信息。语音片段的上下文信息可以指代例如语音片段中的背景语音。例如，当用户想要听到语音文档中关于两个人在咆哮的部分，并将关于该意图的消息发送给聊天机器人时，聊天机器人可以至少基于接收到的指示用户的意图和语音片段的情绪向量的消息来生成所获得的语音文档的语音摘要。在语音摘要的生成期间，如果在语音片段的背景中有婴儿哭闹的声音，则可以将婴儿的哭声解释为该语音片段的上下文信息，而这个语音片段可以被赋予更高的权重，这是因为上下文信息可以增强语音片段与用户意图所指示的情绪类别之间的相关性。在一些实现中，上面讨论的“语音向量”可以进一步包括语音片段的事实向量，因此语音摘要的生成可以进一步基于语音片段的事实向量。例如，softmax层可以被配置为基于语音片段的情绪向量和事实向量来选择语音片段。

图18示出了根据实施例用于视频到情绪分类的示例性过程1800。由于可以将视频文档分为图像部分和相应的语音部分，所以视频-情绪分类可以基于图像-情绪分类或者语音-情绪分类或者它们的组合。为了简单起见，过程1800示出了基于图像-情绪分类来实现视频-情绪分类。应当理解的是，视频-情绪分类还可以基于语音-情绪分类来实现。

如图18中所示，可以根据帧和剪辑来处理输入视频1802。对于视频1802的帧1804而言，可以执行2D CNN编码1808。2D CNN编码1808可以采用各种技术，例如ResNet、AlexNet、GoogLeNet、VGG-Net等等。对于视频1802的剪辑1806而言，可以执行3D CNN编码1810。3D CNN编码1810可以采用各种技术，例如，通过卷积3D滤波器编码等等。可以对2DCNN编码1808的输出和3D CNN编码1810的输出的组合执行平均池化操作1812，以便获得视频1802的密集向量表示1814。

可以进一步将密集向量表示1814提供给根据不同情绪分类策略配置的softmax层1816。softmax层1816可以以与图9中的softmax层类似的方式进行操作。例如，softmax层1816可以输出与32种情绪相对应的情绪向量，也可以输出与8种基本情绪、8种基本情绪的强度等级和8种组合情绪相对应的情绪向量。可以将softmax层1816输出的情绪向量解释成输入视频的情绪信息。

此外，类似于用于生成语音摘要的过程1700，可以为视频文档生成视频摘要。在一些应用场景中，视频摘要可以指代视频文档中具有指定情绪类别的一个或多个视频剪辑，在该情况下，情绪向量可以有助于视频摘要的产生。当生成视频文档的摘要时，可以在RNN层中处理视频文档中的视频剪辑的视频向量，随后将其提供给softmax层以选择要保留在视频摘要中的视频剪辑。这里，视频剪辑的视频向量可以包括这些视频剪辑的图像向量和/或语音向量，并且每个图像或者语音向量可以进一步包括相对应的事实和/或情绪向量。当从softmax层针对视频剪辑输出值0时，则该视频剪辑可能不会保留在语音片段中，否则，如果从softmax层针对视频剪辑输出值1，则可以将该视频剪辑保留在视频摘要中。

应当理解的是，如上所述的图像摘要、语音摘要和视频摘要的生成也可以间接地执行。例如，图像文档、语音文档或视频文档可以先转换成文本文档，再对该文本文档执行文本摘要生成过程，以获得文本文档的文本摘要。随后，可以将文本摘要转换成图像摘要、语音摘要或者视频摘要。

根据本公开内容的实施例，可以通过预测模型来预测视频文档中的至少一个对象的下一个状态。以足球比赛视频作为视频文档的一个例子，视频中的足球运动员是感兴趣的对象，本公开内容的实施例可以预测或者建议如何在球员之间传球，以造成游戏中的进球。当根据用户的消息确定用户想要知道视频文档中将发生什么或下一步要做什么的用户意图时，预测模型可以被配置为：获得视频文档的最新或者当前图像，例如，视频文档中的最新或当前视频剪辑的图像部分；识别当前图像中的RoI，其中每个RoI对应于一个对象；确定所识别的RoI中的对象的当前状态；预测RoI之间的可能的关系或方向；以及选择排名最高的关系或方向来形成最终建议。最终建议可以具有图像或视频剪辑的形式，以及可以包括与排名靠前的关系或方向相对应的RoI的注释(例如，围绕这些RoI的块)、以及排名靠前的关系或方向(例如，从一个RoI到另一个RoI的箭头)的注释。在一种实现中，预测模型的预测可以基于具有softmax层的神经网络。对神经网络的输入可以是RoI的事实向量，以及softmax层可以被配置为用于至少基于用户的意图、视频文档中的对象的当前状态、以及在最新的或者当前图像中的RoI之间的关系，来选择与排名靠前的关系或方向相关联的RoI。可以如下所述地获得用于具有softmax层的神经网络的训练数据集。以足球比赛视频作为视频文档的例子。足球比赛视频可以包括多个视频剪辑，以及可以检测到视频剪辑的语音部分中的情绪变化。例如，如果足球射入到球门中，则相关视频剪辑中的语音情绪可能会从期望变为狂喜。这种语音的情绪改变可以表明这些视频剪辑与球射入球门的场景相关联。因此，可以收集这些视频剪辑中的RoI以及这些RoI之间的关系，并用作训练数据。

图19示出了根据一个实施例的示例性聊天窗口1900。如图19所示，当用户想要知道在游戏的下一步如何射门时，聊天机器人可以从当前视频帧中识别出RoI，随后确定RoI之间的哪些关系可以满足用户的意图。例如，如果两个RoI之间的关系满足用户的意图，则将它标记为1，并与这两个RoI一起保留。在聊天窗口1900中，将保持的关系或者方向连同这两个相关的RoI用标记显示成对用户的建议。

图20示出了根据实施例用于在会话中提供多媒体文档的摘要的示例性方法2000的流程图。当聊天机器人与用户进行聊天时，可以实现方法2000。

在2010处，可以在会话中从用户接收消息，其中该会话在用户和电子会话代理之间。

在2020处，可以至少基于所述消息来获得多媒体文档。

在2030处，可以提取多媒体文档中的情绪信息。

在2040处，可以至少基于所述消息和所提取的情绪信息，生成多媒体文档的摘要。

在2050处，可以将包括所生成的多媒体文档的摘要的响应提供给用户。

在一种实现中，还基于多媒体文档的上下文信息来生成摘要，其中该上下文信息是从用户日志和知识图中的至少一个获得的。

在一种实现中，多媒体文档包括与会话相关联的文本文档，文本文档包括会话中的多个话题，并且每个话题附加有指示该话题的当前状态的生命周期标志。至少基于针对会话中的每个话题的情绪信息的改变，确定针对该话题的生命周期标志。

在一种实现中，多媒体文档包括图像文档，以及生成图像文档的摘要还通过：识别图像文档中的至少一个RoI；确定每个RoI的情绪信息；根据所述消息来确定用户意图；至少基于每个RoI的情绪信息和用户意图，生成图像文档的摘要。

在一种实现中，还基于每个RoI的事实信息来生成图像文档的摘要。

在一种实现中，多媒体文档包括语音文档，并且语音文档的摘要还通过以下来生成：识别语音文档中的至少一个语音片段；确定每个语音片段的情绪信息；根据所述消息来确定用户意图；以及至少基于每个语音片段的情绪信息和用户意图，生成语音文档的摘要。

在一种实现中，还基于每个语音片段的事实信息来生成语音文档的摘要。

在一种实现中，多媒体文档包括视频文档，并且视频文档的摘要还通过以下来生成：识别视频文档中的至少一个视频剪辑；确定每个视频剪辑的情绪信息；根据所述消息来确定用户意图；以及至少基于每个视频剪辑的情绪信息和用户意图，生成视频文档的摘要。

在一种实现中，每个视频剪辑包括图像部分和语音部分中的至少一个，以及每个视频剪辑的情绪信息还通过以下来确定：确定视频剪辑中的图像部分和语音部分中的至少一个的情绪信息。

在一种实现中，还通过以下来确定视频剪辑中的图像部分的情绪信息：识别图像部分中的至少一个RoI，确定每个RoI的情绪信息，以及通过组合图像部分中的每个RoI的情绪信息来获得该图像部分的情绪信息。

在一种实现中，还通过以下来确定视频剪辑中的语音部分的情绪信息：识别语音部分中的至少一个语音片段，确定每个语音片段的情绪信息，以及通过组合语音部分中的每个语音片段的情绪信息来获得该语音部分的情绪信息。

在一种实现中，方法2000还可以包括：至少基于用户意图、所述视频文档中的至少一个对象的当前状态以及当前视频剪辑的图像部分中的RoI之间的关系，预测所述至少一个对象的下一个状态。

在一种实现中，所述消息包括文本消息、图像消息、语音消息和视频消息中的至少一个

应当理解的是，方法2000还可以包括：用于根据如上面所提及的本公开内容的实施例，在会话中提供多媒体文档的摘要的任何步骤/处理。

图21示出了根据实施例用于在会话中提供多媒体文档的摘要的示例性装置2100。

装置2100可以包括：消息接收模块2110，用于在会话中从用户接收消息，其中该会话在用户和电子会话代理之间；多媒体文档获得模块2120，用于至少基于该消息来获得多媒体文档；情绪信息提取模块2130，用于提取多媒体文档中的情绪信息；摘要生成模块2140，用于至少基于所述消息和所提取的情绪信息，生成多媒体文档的摘要；以及响应提供模块2150，用于将包括所生成的多媒体文档的摘要的响应提供给用户。

在一种实现中，摘要生成模块2140还基于多媒体文档的上下文信息，生成多媒体文档的摘要。该上下文信息是从用户日志和知识图中的至少一个获得的。

在一种实现中，多媒体文档包括与会话相关联的文本文档，文本文档包括会话中的多个话题，每个话题附加有指示该话题的当前状态的生命周期标志。

在一种实现中，多媒体文档包括图像文档，以及摘要生成模块2140还被配置为：识别图像文档中的至少一个RoI；确定每个RoI的情绪信息；根据所述消息来确定用户意图；以及至少基于每个RoI的情绪信息和用户意图，生成图像文档的摘要。

在一种实现中，多媒体文档包括语音文档，以及摘要生成模块2140还被配置为：识别语音文档中的至少一个语音片段；确定每个语音片段的情绪信息；根据所述消息来确定用户意图；以及至少基于每个语音片段的情绪信息和用户意图，生成语音文档的摘要。

在一种实现中，多媒体文档包括视频文档，以及摘要生成模块2140还被配置为：识别视频文档中的至少一个视频剪辑；确定每个视频剪辑的情绪信息；根据所述消息来确定用户意图；以及至少基于每个视频剪辑的情绪信息和用户意图，生成视频文档的摘要。

此外，装置2100还可以包括：被配置为根据如上面所提及的本公开内容的实施例，在会话中提供多媒体文档的摘要的任何其它模块。

图22示出了根据实施例用于在会话中提供多媒体文档的摘要的另一种示例性装置2200。

装置2200可以包括至少一个处理器2210。装置2200还可以包括与处理器2210相连接的存储器2220。存储器2220可以存储计算机可执行指令，当这些计算机可执行指令被执行时，使得处理器2210执行用于根据如上面所提及的本公开内容的实施例，在会话中提供多媒体文档的摘要的方法的任何操作。

本公开内容的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器根据如上面所述的本公开内容的实施例，执行用于在会话中提供多媒体文档的摘要的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及被配置用于执行贯穿本公开描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地解释为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移除盘。尽管在贯穿本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，高速缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员是显而易见的，并且本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将通过引用而明确地包含到本文中，并且旨在由权利要求所覆盖。

Claims

1.一种用于在会话中提供多媒体文档的摘要的方法，包括：

在所述会话中从用户接收消息，其中所述会话在所述用户和电子会话代理之间；

至少基于所述消息来获得所述多媒体文档；

提取所述多媒体文档中的情绪信息；

至少基于所述消息和所提取的情绪信息，生成所述多媒体文档的所述摘要；以及

将包括所生成的多媒体文档的摘要的响应提供给所述用户。

2.根据权利要求1所述的方法，其中，生成所述摘要还基于所述多媒体文档的上下文信息，其中所述上下文信息是从用户日志和知识图中的至少一个获得的。

3.根据权利要求1所述的方法，其中，所述多媒体文档包括与所述会话相关联的文本文档，所述文本文档包括所述会话中的多个话题，每个话题附加有指示所述话题的当前状态的生命周期标志。

4.根据权利要求3所述的方法，其中，至少基于针对所述会话中的每个话题的情绪信息的改变，确定针对所述话题的所述生命周期标志。

5.根据权利要求1所述的方法，其中，所述多媒体文档包括图像文档，生成所述图像文档的所述摘要还包括：

识别所述图像文档中的至少一个感兴趣区域(RoI)；

确定每个RoI的情绪信息；

根据所述消息来确定用户意图；以及

至少基于每个RoI的所述情绪信息和所述用户意图，生成所述图像文档的所述摘要。

6.根据权利要求5所述的方法，其中，生成所述图像文档的所述摘要还基于每个RoI的事实信息。

7.根据权利要求1所述的方法，其中，所述多媒体文档包括语音文档，生成所述语音文档的所述摘要还包括：

识别所述语音文档中的至少一个语音片段；

确定每个语音片段的情绪信息；

根据所述消息来确定用户意图；以及

至少基于每个语音片段的所述情绪信息和所述用户意图，生成所述语音文档的所述摘要。

8.根据权利要求7所述的方法，其中，生成所述语音文档的所述摘要还基于每个语音片段的事实信息。

9.根据权利要求1所述的方法，其中，所述多媒体文档包括视频文档，生成所述视频文档的所述摘要还包括：

识别所述视频文档中的至少一个视频剪辑；

确定每个视频剪辑的情绪信息；

根据所述消息来确定用户意图；以及

至少基于每个视频剪辑的所述情绪信息和所述用户意图，生成所述视频文档的所述摘要。

10.根据权利要求9所述的方法，其中，每个视频剪辑包括图像部分和语音部分中的至少一个，其中确定每个视频剪辑的情绪信息还包括：确定所述视频剪辑中的所述图像部分和所述语音部分中的至少一个的情绪信息。

11.根据权利要求10所述的方法，其中，确定所述视频剪辑中的所述图像部分的所述情绪信息还包括：识别所述图像部分中的至少一个感兴趣区域(RoI)，确定每个RoI的情绪信息，以及通过组合所述图像部分中的每个RoI的所述情绪信息来获得所述图像部分的所述情绪信息，以及

其中，确定所述视频剪辑中的所述语音部分的所述情绪信息还包括：识别所述语音部分中的至少一个语音片段，确定每个语音片段的情绪信息，以及通过组合所述语音部分中的每个语音片段的所述情绪信息来获得所述语音部分的所述情绪信息。

12.根据权利要求10所述的方法，还包括：

至少基于所述用户意图、所述视频文档中的至少一个对象的当前状态以及当前视频剪辑的图像部分中的感兴趣区域(RoI)之间的关系，预测所述至少一个对象的下一个状态。

13.根据权利要求1所述的方法，其中，所述消息包括文本消息、图像消息、语音消息和视频消息中的至少一个。

14.一种用于在会话中提供多媒体文档的摘要的装置，包括：

消息接收模块，用于在所述会话中从用户接收消息，所述会话在所述用户和电子会话代理之间；

多媒体文档获得模块，用于至少基于所述消息来获得所述多媒体文档；

情绪信息提取模块，用于提取所述多媒体文档中的情绪信息；

摘要生成模块，用于至少基于所述消息和所提取的情绪信息，生成所述多媒体文档的所述摘要；以及

响应提供模块，用于将包括所生成的多媒体文档的摘要的响应提供给所述用户。

15.根据权利要求14所述的装置，其中，所述摘要生成模块还基于所述多媒体文档的上下文信息，生成所述多媒体文档的所述摘要，其中所述上下文信息是从用户日志和知识图中的至少一个获得的。

16.根据权利要求14所述的装置，其中，所述多媒体文档包括与所述会话相关联的文本文档，所述文本文档包括所述会话中的多个话题，每个话题附加有指示所述话题的当前状态的生命周期标志。

17.根据权利要求14所述的装置，其中，所述多媒体文档包括图像文档，以及所述摘要生成模块还被配置为：

识别所述图像文档中的至少一个感兴趣区域(RoI)；

确定每个RoI的情绪信息；

根据所述消息来确定用户意图；以及

18.根据权利要求14所述的装置，其中，所述多媒体文档包括语音文档，以及所述摘要生成模块还被配置为：

识别所述语音文档中的至少一个语音片段；

确定每个语音片段的情绪信息；

根据所述消息来确定用户意图；以及

19.根据权利要求14所述的装置，其中，所述多媒体文档包括视频文档，以及所述摘要生成模块还被配置为：

识别所述视频文档中的至少一个视频剪辑；

确定每个视频剪辑的情绪信息；

根据所述消息来确定用户意图；以及

20.一种用于在会话中提供多媒体文档的摘要的装置，包括：

一个或多个处理器；以及

存储计算机可执行指令的存储器，当所述计算机可执行指令被执行时，使得所述一个或多个处理器执行以下操作：

在所述会话中从用户接收消息，所述会话在所述用户和电子会话代理之间；

至少基于所述消息来获得所述多媒体文档；

提取所述多媒体文档中的情绪信息；

将包括所生成的多媒体文档的摘要的响应提供给所述用户。