CN117251595A

CN117251595A - 视频录像处理

Info

Publication number: CN117251595A
Application number: CN202210656882.1A
Authority: CN
Inventors: 陈川石; 郭敬如; 周张艳; 曹文文; 夏小博; 应倩岚; 王荣钊; 陈高均
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-12-19
Also published as: WO2023239477A1

Abstract

本公开提供了用于处理目标应用的视频录像的方法、装置、计算机程序产品和非暂时性计算机可读介质。可以获得所述目标应用的视频录像。可以获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一。可以基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一。可以至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。

Description

视频录像处理

背景技术

视频是一种长的、线性的且在体验上孤立的内容格式。这使得在对视频的使用和协作方面存在挑战。例如，由于视频本身的特性，可能需要较大的努力以对视频执行格式转换、编辑、内容提取等处理。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于处理目标应用的视频录像的方法、装置、计算机程序产品和非暂时性计算机可读介质。可以获得所述目标应用的视频录像。可以获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一。可以基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一。可以至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的处理目标应用的视频录像的示例性过程。

图2示出了根据实施例的文本摘要生成的示例性过程。

图3示出了根据实施例的视频摘要生成的示例性过程。

图4示出了根据实施例的热门话题检测和热门话题视频片段提取的示例性过程。

图5示出了根据实施例的提及时刻描述生成和提及时刻视频片段提取的示例性过程。

图6示出了根据实施例的任务描述生成和任务视频片段提取的示例性过程。

图7示出了目标应用的示例性用户界面。

图8示出了根据实施例的提供关于目标内容的提示的示例。

图9示出了根据实施例的目标应用的示例性用户界面。

图10示出了根据实施例的目标应用的示例性用户界面。

图11示出了根据实施例的提供共享消息卡片的示例。

图12示出了根据实施例的更新共享消息卡片的示例。

图13示出了根据实施例的用于处理目标应用的视频录像的示例性方法的流程图。

图14示出了根据实施例的用于处理目标应用的视频录像的示例性装置。

图15示出了根据实施例的用于处理目标应用的视频录像的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

应用的视频录像(recording)是一种常见的视频类型。例如，在一个应用的运行期间，可以通过录制在屏幕中呈现的该应用的用户界面、在该应用中所产生的音频等来得到该应用的视频录像。受到视频本身的特性的限制，与视频录像的交互通常局限于简单地播放视频录像、人为地受限制地编辑视频录像等，并且人们难以从视频录像中快速地找到所期望的信息或感兴趣的内容。

本公开的实施例提出了自动地对目标应用的视频录像执行有效的处理以确定多种目标内容。在本文中，目标应用可以指从中产生了视频录像的各种应用。术语“应用”可以广泛地涵盖软件、程序、客户端、Web应用、微件、插件等。示例性地，目标应用可以包括例如在线会议应用、视频聊天应用、游戏应用、虚拟现实(VR)应用、元宇宙(Meta-verse)应用或者任何其他能够产生视频录像的应用。此外，在本文中，目标内容可以指从视频录像中所获得或生成的各种所期望的信息或感兴趣的内容。

在一些方面中，本公开的实施例可以从目标应用的视频录像中获得包括多种不同模态的数据的多模态数据，基于多模态数据来生成多模态特征，并且利用多模态特征来确定与视频录像相关联的多种目标内容。所确定的目标内容可以包括例如文本摘要、视频摘要、热门话题、热门话题视频片段、提及时刻描述、提及时刻视频片段、任务描述、任务视频片段等中的至少一个。

根据本公开的实施例，目标应用可以自动地确定与视频录像相关联的目标内容，使得用户可以在目标应用中沉浸式地消费目标内容、执行基于目标内容的协作等。得益于所确定的目标内容，用户可以容易地获知或导航到视频录像中的关键信息、感兴趣的内容等，并且可以方便地与其他用户对目标内容进行共享或协作。从而，本公开的实施例可以显著地改进目标应用的智能化程度和用户体验。

应当理解，尽管在以下讨论的多个部分中以在线会议应用作为目标应用的示例并且以在线会议应用的会议视频录像作为目标应用的视频录像的示例，但是本公开的实施例并不局限于在线会议应用的场景，而是也可以通过类似的方式而被采用在任何其他类型的目标应用中。

图1示出了根据实施例的处理目标应用的视频录像的示例性过程100。过程100可以是在目标应用102中执行的。

在110处，可以获得目标应用102的视频录像。在一种情况下，该视频录像可以是由目标应用102的用户通过操作目标应用102而录制的。在一种情况下，该视频录像可以是目标应用102自动地录制的。在任何一种情况下，在110处，目标应用102可以通过任意方式从存储了该视频录像的存储空间中提取该视频录像的文件。

在120处，可以获得视频录像的多模态数据。多模态数据可以包括视频录像中的多种模态的数据。过程100可以通过采用多模态数据来更准确地确定目标内容。

在一种实现方式中，多模态数据可以包括语音转录(speech transcript)。视频录像可能包括来自用户或讲话者的语音。例如，在线会议应用、视频聊天应用等中的讲话者可以是参与者，游戏应用、虚拟现实应用、元宇宙应用等中的讲话者可以是游戏角色或玩家，等等。语音转录可以指包含从语音所转换得到的文本的文件。语音转录可以是按照时间顺序的多个语音转录条目的集合，每个语音转录条目可以包括一个讲话者的标识和与来自该讲话者的语音相对应的文本。一个示例性的语音转录条目为<Jim Brown：“下面我将介绍项目进展…”>，其中，“Jim Brown”是讲话者的标识，例如讲话者的名字，而“下面我将介绍项目进展…”是与来自Jim Brown的语音相对应的文本。此外，每个语音转录条目还可以包含时间信息，以指示该语音所发生的时间点。应当理解，本公开的实施例并不局限于语音转录的任何具体形式。在120处的获得多模态数据的操作可以包括通过将视频录像中的多段语音转换为多段对应的文本并且识别每段语音的讲话者、时间信息等来形成语音转录。应当理解，本公开的实施例并不局限于用于形成语音转录的任何特定技术，例如，本公开的实施例可以采用任何已知的语音识别技术、讲话者识别技术等。

在一种实现方式中，多模态数据可以包括视频。视频录像可以至少包括录制了目标应用102的用户界面的视觉呈现的视频。以在线会议应用为例，当多个会议参与者正在开在线会议时，在线会议应用的用户界面可以为会议参与者提供虚拟工作空间，相应地，会议视频录像可以包括随着时间而录制了该用户界面的视频。

在一种实现方式中，多模态数据可以包括图像，例如，在视频录像的视频帧中所包含的图像。在本文中，图像可以指在目标应用的用户界面中所呈现的各种图像元素。以在线会议应用为例，图像可以包括例如用户头像、在共享屏幕窗口中所呈现的图像、在聊天窗口中所呈现的图像等。以游戏应用为例，图像可以包括例如游戏角色形象、游戏场景图像、玩家头像等。在120处的获得多模态数据的操作可以包括从视频录像中识别和提取图像。应当理解，本公开的实施例并不局限于用于识别和提取图像的任何特定技术。

在一种实现方式中，多模态数据可以包括文本，例如，在视频录像的视频帧中所包含的文本。在本文中，文本可以指在目标应用的用户界面中所呈现的各种文本元素。以在线会议应用为例，文本可以包括例如在共享屏幕窗口中所呈现的文本、在聊天窗口中所呈现的聊天文本等。在120处的获得多模态数据的操作可以包括从视频录像中识别和提取文本。应当理解，本公开的实施例并不局限于用于识别和提取文本的任何特定技术，例如，本公开的实施例可以采用任何已知的光学字符识别(OCR)技术等。

在一种实现方式中，多模态数据可以包括事件信息。事件可以指在目标应用中发生的使用实例，而事件信息可以指关于事件的各种信息。相应地，视频录像可以是与特定的事件相关联的。事件信息可以包括例如事件题目、事件介绍、事件时间、事件涉及人员列表等。以在线会议应用为例，假设多个用户正在参加特定的在线会议A，则该在线会议A对应于事件，而关于该在线会议A的各种信息对应于事件信息。例如，在线会议A的事件信息可以包括会议题目、会议介绍、会议时间、参与者列表、被邀请者列表等。相应地，在110处所获得的视频录像可以是关于该在线会议A的视频录像。应当理解，由于事件是在目标应用中发生的，因此，在120处的获得多模态数据的操作可以包括由目标应用通过任意方式来获得与视频录像相对应的事件的各种事件信息。

应当理解，尽管以上描述了多模态数据可能包括的多种示例性数据，但是本公开的实施例并不局限于在120处获得这些数据中的任何一种或多种，并且也可以获得任何其他类型的数据。

在130处，可以基于所获得的多模态数据来生成视频录像的多模态特征。多模态特征是用于表征多模态数据的特征，其可在后续由预定的机器学习模型、神经网络等使用以确定目标内容。可以针对不同类型的多模态数据来分别生成不同类型的多模态特征。例如，多模态特征可以包括与多模态数据中的语音转录、视频、图像、文本、事件信息等分别对应的语音转录特征、视频特征、图像特征、文本特征、事件特征等。在一种实现方式中，可以通过对多模态数据执行编码过程，以生成多模态特征。例如，每一种模态的数据可以被施加对应的编码器，以得到与该种模态的数据相对应的编码特征。

在140处，可以至少基于多模态特征来确定与视频录像相关联的目标内容。例如，可以基于不同类型的多模态特征的组合来分别确定多种目标内容。目标内容的确定可以是至少通过采用特定于目标内容的机器学习模型、神经网络等来执行的。

在一种实现方式中，目标内容可以包括文本摘要。相应地，在140处的目标内容的确定可以包括至少基于多模态特征来生成视频录像的文本摘要。文本摘要是对视频录像中的关键内容的描述，其可以用文本的形式来帮助用户快速地了解视频录像中的关键内容。可以生成多种类型的文本摘要，例如，提取性(extractive)摘要、抽象性(abstractive)摘要等。提取性摘要是至少基于语音转录特征来生成的，其包括从与视频录像中的关键内容相对应的语音所转换的文本。提取性摘要旨在利用与来自讲话者的实际语音相对应的文本来反映视频录像中的关键内容。抽象性摘要是至少基于语音转录特征或者提取性摘要来生成的，其包括概括性的自然语言文本并且该文本可能包含在语音转录之外的词语、短语等。抽象性摘要旨在利用具有更高可读性的文本来反映视频录像中的关键内容。

在一种实现方式中，目标内容可以包括视频摘要。相应地，在140处的目标内容的确定可以包括至少基于多模态特征来生成视频录像的视频摘要。视频摘要是视频录像的简短视觉概要，其通过从视频录像中选择最具有代表性、信息性和重要性的视频片段来对视频录像的内容进行概括。例如，视频摘要可以是由视频录像中的至少一部分视频帧来形成的。视频摘要是对视频录像中的关键内容的视频描述，其可以用视频片段的形式来帮助用户快速地了解视频录像中的关键内容。

在一种实现方式中，目标内容可以包括热门话题和/或热门话题视频片段。相应地，在140处的目标内容的确定可以包括至少基于多模态特征来检测视频录像中的至少一个热门话题和/或提取与至少一个热门话题相关联的至少一个热门话题视频片段。热门话题是在视频录像中被频繁提及的、具有较高关注度和重要性的话题。热门话题可以采用例如词语、短语等形式。与一个热门话题相关联的热门话题视频片段是在视频录像中的出现了该热门话题的视频录像片段。例如，在热门话题视频片段中，来自特定的讲话者的话语包含了该热门话题。热门话题采用文本形式，而热门话题视频片段采用视频录像片段形式，二者都可以帮助用户直观快速地了解视频录像中的关键内容。

在一种实现方式中，目标内容可以包括提及时刻描述和/或提及时刻视频片段。相应地，在140处的目标内容的确定可以包括至少基于多模态特征来生成提及时刻描述和/或提取提及时刻视频片段。在一些情况下，在视频录像中，在特定的时间点处，一个讲话者可能在所讲的话语中提及了另一个目标用户，相应地，该时间点可以对应于提及时刻。提及时刻描述是对目标用户被提及的情形进行描述的文本。提及时刻描述可以包括例如讲话者的标识、提及时刻、目标用户的标识、所提及的事项等。提及时刻描述可以是通过自然语言语句来表达的。提及时刻视频片段是在视频录像中的在提及时刻处的视频录像片段。提及时刻描述采用文本形式，而提及时刻视频片段采用视频录像片段形式，二者都可以帮助用户直观快速地了解视频录像中的目标用户被提及的情形。

在一种实现方式中，目标内容可以包括任务描述和/或任务视频片段。相应地，在140处的目标内容的确定可以包括至少基于多模态特征来生成任务描述和/或提取任务视频片段。在一些情况下，在视频录像中，在特定的时间点处，一个讲话者可能在所讲的话语中涉及到与目标用户相关联的任务，相应地，该时间点可以对应于任务时刻，其中，讲话者可能与目标用户相同或不同。例如，如果讲话者与目标用户不同，则讲话者可能在所讲的话语中向目标用户请求或分配了任务。例如，如果讲话者与目标用户相同，则该讲话者或用户可能在所讲的话语中承诺或接受了任务。任务描述是对与目标用户相关联的任务进行描述的文本。任务描述可以包括例如讲话者的标识、任务时刻、目标用户的标识、任务内容等。任务描述可以是通过自然语言语句来表达的。任务视频片段是在视频录像中的在任务时刻处的视频录像片段。任务描述采用文本形式，而任务视频片段采用视频录像片段形式，二者都可以帮助用户直观快速地了解视频录像中的与目标用户相关联的任务。

应当理解，尽管以上描述了多种示例性目标内容，但是本公开的实施例并不局限于在140处确定这些目标内容中的任何一种或多种，并且也可以确定任何其他类型的目标内容。

在150处，可以提供关于目标内容的提示和/或呈现目标内容。

在一个方面，在150处，可以通过各种方式来将关于在140处所确定的目标内容的提示提供给目标应用102的用户。接收提示的用户可以是与视频录像有关的用户或事件涉及人员，例如，在与视频录像相关联的事件中涉及的参与者、被邀请者等。在一种方式中，目标应用可以调用电子邮件应用，以生成提示电子邮件并将该提示电子邮件发送给用户。提示电子邮件可以包括对与视频录像相关联的事件介绍以及与视频录像相关联的目标内容。从而，接收到该提示电子邮件的用户可以方便地通过该提示电子邮件来了解到该视频录像中的关键内容，而无需观看整个视频录像。优选地，提示电子邮件可以是特定于目标用户的，该目标用户是在视频录像中被提及的用户、与任务相关联的用户等。从而，作为提示电子邮件收件人的目标用户可以方便地通过提示电子邮件来获知在视频录像中该目标用户被提及的情形、与该目标用户相关联的任务等。在另一种方式中，目标应用可以调用聊天工具软件，以生成提示消息并将该提示消息发送给用户。提示消息可以包括与上述的提示电子邮件相类似的内容。在另一种方式中，取代调用电子邮件应用、聊天工具软件等，目标应用102可以设立视频录像中心(hub)，该视频录像中心可以保存分别与不同事件相关联的多个视频录像以及针对每个视频录像所确定的目标内容。当在140处确定了与特定视频录像相关联的目标内容后，可以将该视频录像与相关联的目标内容保存到视频录像中心，并且在目标应用102内向用户发送提示通知以告知用户可以去视频录像中心查看该视频录像和目标内容。应当理解，本公开的实施例并不局限于通过上述的示例性方式中的任何一种或多种来提供关于目标内容的提示，而是还可以采用任何其他方式来提供关于目标内容的提示。此外，应当理解，以上提及的电子邮件应用、聊天工具软件等可以与目标应用处于一个统一的集成软件环境中，例如，这些应用和软件是该集成软件环境所提供的不同功能，或者电子邮件应用、聊天工具软件等可以独立于目标应用，例如，其可以作为第三方应用而被目标应用访问。

在一个方面，在150处，可以向目标应用102的用户呈现目标内容。该用户可以是与视频录像有关的用户或事件涉及人员。在一种实现方式中，目标应用102可以包括特定的目标内容呈现用户界面。在目标内容呈现用户界面内，用户可以直观方便地访问视频录像、目标内容等。目标内容呈现用户界面可以是响应于用户对关于目标内容的提示的预定操作而显示在目标应用中的。例如，当用户点击了提示电子邮件、提示消息、提示通知等中的特定区域时，可以触发在目标应用中显示目标内容呈现用户界面。应当理解，本公开的实施例并不局限于目标内容呈现用户界面的任何特定设计、布局等。

假设用户想要在目标内容呈现用户界面中将特定的目标内容共享给至少一个接收方，则过程100可以可选地包括在160处响应于接收到将目标内容共享给至少一个接收方的请求，生成与目标内容相关联的共享消息卡片，以及在170处将共享消息卡片提供给所述至少一个接收方。示例性地，目标应用可以调用聊天工具软件以将共享消息卡片提供给接收方。共享消息卡片可以是专用设计用于共享目标内容的信息卡片，其可以包括例如关于作为共享发起者的用户的标识、来自共享发起者的评论、所共享的目标内容的描述和链接等。此外，可选地，共享消息卡片还可以具有评论功能。例如，该共享消息卡片的共享发起者、接收方等可以在该共享消息卡片中发表评论，并且共享消息卡片具有特定的评论区域以用于动态地收集评论。从而，共享发起者和接收方可以方便地在该共享消息卡片中进行针对所共享的目标内容的讨论等。

应当理解，以上结合图1所描述的过程100中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程100可以包括更多或更少的操作或步骤，并且本公开的实施例将涵盖对过程100所做的任意方式的修改。此外，在本文中，词语“用户”也可以与目标应用的用户、事件涉及人员、讲话者、参与者、被邀请者、玩家等互换使用。

图2示出了根据实施例的文本摘要生成的示例性过程200。过程200是图1中的步骤120至步骤140的示例性实现方式。

假设已经通过图1中的步骤120而获得了视频录像的多模态数据中的语音转录202。根据过程200，可以进而将语音转录202划分为多个转录分段(segment)204。在一种实现方式中，可以逐个语句地执行转录分段划分，使得每个转录分段中包括从语音转换得到的一个语句。例如，每个转录分段可以包括一个讲话者的标识和与来自该讲话者的语音相对应的一个语句文本。相应地，转录分段可以是语音转条目的更细粒度的划分，例如，一个语音转录条目可能以语句为基础而被划分为多个转录分段。通过将语音转录划分为多个转录分段并且逐个转录分段地执行后续处理，可以更准确地生成文本摘要。此外，每个转录分段还可以包含时间信息，以指示讲话者讲出该转录分段中的语句的时间点。本公开的实施例可以采用任何已知的技术，例如音频停顿(audio pause)检测、镜头边界(shotboundary)检测等，来执行转录分段划分。应当理解，本公开的实施例并不局限于采用任何特定的技术来执行转录分段划分。

过程200可以采用估计器210来分析每个转录分段，以识别该转录分段是否应当被包含到提取性摘要中。估计器210可以是预先训练的机器学习模型、神经网络等，例如，其可以是基于变换器的自然语言处理模型。示例性地，估计器210可以包括编码器212和解码器214。编码器212可以对每一个输入的转录分段进行编码，以得到对应的转录分段特征。利用编码器212基于转录分段来生成转录分段特征的过程可以被视为是在图1中的步骤130处生成语音转录特征的示例性实现。例如，与多个转录分段204分别对应的多个转录分段特征一起形成了语音转录特征。解码器214可以基于语音转录特征来确定是否应当将当前的转录分段包括到提取性摘要中。利用解码器214基于转录分段特征来确定将要被包括到提取性摘要中的转录分段的过程可以被视为是在图1中的步骤140处生成文本摘要的示例性实现。估计器210可以被训练为从多个转录分段204中识别出能够反映视频录像中的关键内容并从而应当被包括到提取性摘要中的转录分段子集。相应地，估计器210将输出由所识别出的转录分段子集所形成的提取性摘要220。

一个示例性的提取性摘要可以是：[…，<Jim Brown：“截止6月底，我们已经完成了这个项目的第一阶段的工作”>，<Beth Jones：“下一步，需要加快完成项目报告”>，…]。该示例性提取性摘要至少包括了能够反映视频录像中的关键内容的、与来自若干讲话者的语音相对应的文本，例如，与由Jim Brown所讲的话语相对应的文本“截止6月底，我们已经完成了这个项目的第一阶段的工作”、与由Beth Jones所讲的话语相对应的文本“下一步，需要加快完成项目报告”等。

根据过程200，可选地，可以基于提取性摘要220来生成抽象性摘要240。在一种实现方式中，可以采用生成器230以基于提取性摘要220来生成抽象性摘要240。生成器230可以是预先训练的机器学习模型、神经网络等，例如，其可以是序列到序列(sequence-to-sequence)模型。示例性地，生成器230可以包括编码器232和解码器234。编码器232可以对抽象性摘要240中的每一个转录分段进行编码，以得到对应的转录分段特征。解码器234可以基于转录分段特征来生成对应的自然语言语句，并将该自然语言语句包括到抽象性摘要中。优选地，提取性摘要220中的每一个转录分段都具有在抽象性摘要240中的一个对应的自然语言语句。利用生成器230基于提取性摘要220来生成抽象性摘要240的过程可以被视为在图1中的步骤140处生成文本摘要的进一步示例性实现。作为示例，假设提取性摘要至少包括转录分段<Jim Brown：“截止6月底，我们已经完成了这个项目的第一阶段的工作”>，则抽象性摘要可以至少包括与该转录分段相对应的自然语言语句，例如，<Jim Brown谈到已经在6月底完成了第一阶段项目工作>。

替代地，过程200也可以针对多个转录分段204而直接生成抽象性摘要240。在这种情况下，生成器230可以被训练用于直接基于多个转录分段204来生成抽象性摘要中的多个自然语言语句。相应地，编码器232可以将每一个输入的转录分段编码为对应的转录分段特征，从而得到整个语音转录特征。利用编码器232基于多个转录分段来生成语音转录特征的过程可以被视为是在图1中的步骤130处生成语音转录特征的示例性实现。解码器234可以基于语音转录特征来生成抽象性摘要中的多个自然语言语句。利用解码器234基于语音转录特征来生成抽象性摘要240的过程可以被视为是在图1中的步骤140处生成文本摘要的示例性实现。

应当理解，提取性摘要220和抽象性摘要240中的任意一者或两者可以被作为视频录像的文本摘要。此外，本公开的实施例并不局限于通过以上描述的估计器210和生成器230来生成文本摘要，也并不局限于用于训练估计器210和生成器230的任何特定技术。

根据过程200，可选地，可以在250处至少利用多模态数据中的文本206来校准提取性摘要220和/或抽象性摘要240，例如，利用文本206中的词语来更正或替换提取性摘要220和/或抽象性摘要240中的不正确的或错误拼写的词语等。假设已经通过图1中的步骤120而获得了视频录像的多模态数据中的文本206。例如，文本206可以是在共享屏幕窗口中所呈现的文本、在聊天窗口中所呈现的聊天文本等。以在线会议应用为例，用户界面可以包括共享屏幕窗口，会议参与者可以在该共享屏幕窗口中共享特定的文档或屏幕，相应地，在共享屏幕窗口中可能呈现文本206。此外，例如，在线会议应用的用户界面还可以包括聊天窗口，会议参与者可以在该聊天窗口中通过输入文本、图像等来进行聊天，相应地，在聊天窗口中可能呈现文本206。文本206可能包含与来自讲话者的语音相关联的词语，而这些词语可能是讲话者所真正想表达的词语。因此，如果提取性摘要220和/或抽象性摘要240中包含不正确的或错误拼写的词语，则可以利用文本206中的词语来对这些不正确的或错误拼写的词语进行修改或替换。优选地，可以通过例如命名实体识别(NER)等技术来从文本206中识别专有词语，例如，技术术语、专业术语、人名等。然后，可以利用从文本206中所识别的专有词语来对提取性摘要220和/或抽象性摘要240中的对应词语进行校准。通过在250处执行校准，可以使得提取性摘要220和/或抽象性摘要240中的表述更为准确。

应当理解，以上结合图2所描述的过程200中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程200可以包括更多或更少的操作或步骤，并且本公开的实施例将涵盖对过程200所做的任意方式的修改。

图3示出了根据实施例的视频摘要生成的示例性过程300。过程300是图1中的步骤120至步骤140的示例性实现方式。

假设已经通过图1中的步骤120而获得了视频录像的多模态数据中的语音转录302、视频304、图像306和文本308中的至少一个。

编码器310可以对语音转录302进行编码，以得到语音转录特征。优选地，编码器310可以通过与例如图2中的编码器212相类似的方式对语音转录302中的每一个转录分段进行编码以得到对应的转录分段特征，并利用多个转录分段特征来形成语音转录特征。优选地，编码器310可以对文本模态中的上下文信息进行编码，其可以是语句级别编码器、分级文档级别编码器等。示例性地，编码器310可以是基于循环神经网络(RNN)架构的，其可以采用例如长短期记忆(LSTM)单元、门控循环单元(GRU)等。

编码器320可以对视频304进行编码，以得到视频特征。在一种实现方式中，编码器320可以对视频304中的每个视频帧进行编码以得到对应的视频帧特征，并利用多个视频帧特征来形成视频特征。此外，由编码器320对视频304的编码还可以包括序列编码过程。优选地，编码器320可以是基于循环神经网络(CNN)架构的，其能够捕获视频帧的上下文信息。

编码器330可以对图像306进行编码，以得到图像特征。优选地，编码器330可以是基于CNN架构的，其类似于编码器320。

编码器340可以对文本308进行编码，以得到文本特征。优选地，编码器340可以对文本模态中的上下文信息进行编码。示例性地，编码器340可以是基于RNN架构的，其类似于编码器310。

利用编码器310、320、330和340来分别生成语音转录特征、视频特征、图像特征和文本特征的过程可以被视为是在图1中的步骤130处生成多模态特征的示例性实现。

在350处，可以对语音转录特征、视频特征、图像特征和文本特征中的至少一个进行融合来获得融合特征。可以采用各种融合策略以执行350处的融合。在基于特征级联的融合策略中，可以将语音转录特征、视频特征、图像特征和文本特征的向量表示直接进行级联，以得到融合特征。在基于加权求和的融合策略中，可以对语音转录特征、视频特征、图像特征和文本特征的向量表示分别施加相应的权重并进行求和，以得到融合特征。在基于注意力的融合策略中，可以利用注意力机制来对语音转录特征、视频特征、图像特征和文本特征进行组合，以便增强这些特征中的一部分特征的影响而削弱另一部分特征的影响，从而，消除噪声并关注相关信息。应当理解，本公开的实施例并不局限于以上讨论的融合策略中的任何一种或多种，并且还可以采用任何其他融合策略。

根据过程300，可以进而基于融合特征来从视频录像中选择至少一部分视频帧，以形成视频摘要362。例如，可以采用视频摘要生成器360以基于融合特征来生成视频摘要362。视频摘要生成器360可以是被训练用于从视频录像中选择具有代表性、信息性和重要性的视频帧以形成视频摘要的机器学习模型、神经网络等。视频摘要生成器360可以是基于各种技术来实现的。在一种实现方式中，视频摘要生成器360可以是基于序列生成网络来实现的。例如，视频摘要生成器360可以是变换器模型。在一种实现方式中，视频摘要生成器360可以是基于图网络来实现的。生成视频摘要的过程可以被归纳为图分析问题。基于图的技术可以有效地解决传统序列模型在长距离依存捕获方面的不足。此外，图网络也可以在摘要生成过程中更好地保留视频内容和短级别依存性。在一种实现方式中，视频摘要生成器360可以是基于增强学习网络来实现的。生成视频摘要的过程可以被归纳为序列决策过程。增强学习网络可以为每一个视频帧预测一个概率，其指示该视频帧有多大可能被选择。然后，增强学习网络可以基于概率分布来采取动作以选择多个视频帧，以便形成视频摘要。应当理解，本公开的实施例并不局限于以上讨论的视频摘要生成器的任何一种或多种实现方式，并且还可以采用任何其他方式来实现视频摘要生成器。

在350处的融合、在360处的视频摘要生成等可以被视为是在图1中的步骤140处确定目标内容的示例性实现。

应当理解，以上结合图3所描述的过程300中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程300可以包括更多或更少的操作或步骤，并且本公开的实施例将涵盖对过程300所做的任意方式的修改。例如，尽管过程300涉及利用语音转录302、视频304、图像306和文本308来生成视频摘要，但是也可以仅利用语音转录302、视频304、图像306和文本308中的一个或多个来生成视频摘要。此外，优选地，过程300还可以包括对语音转录302、视频304、图像306和文本308进行时序上的对齐，以便在确定一个视频帧是否应当被选择添加到视频摘要中时可以综合地考虑在该视频帧所对应的时间点处的多模态数据。此外，尽管以上单独地描述了各种编码器和视频摘要生成器，但是这些编码器和视频摘要生成器可以是被联合训练的，并且本公开的实施例并不局限于任何特定的训练方式。

图4示出了根据实施例的热门话题检测和热门话题视频片段提取的示例性过程400。过程400是图1中的步骤120至步骤140的示例性实现方式。

假设已经通过图1中的步骤120而获得了视频录像的多模态数据中的语音转录402、视频404和事件信息406中的至少一个。

在410处，可以对语音转录402执行候选话题识别，以从语音转录402中识别出多个候选话题412。在一种实现方式中，可以基于预定规则来识别候选话题。例如，可以基于词语或短语的出现频率，从语音转录402中选择出现频率最高的多个词语或短语以作为候选话题。本公开的实施例并不局限于以上讨论的识别候选话题的方式，而是也可以采用任何其他方式来从语音转录402中识别出候选话题。

编码器420可以对语音转录402进行编码，以得到语音转录特征。编码器420的实现可以类似于图3中的编码器310。

编码器430可以对视频404进行编码，以得到视频特征。编码器430的实现可以类似于图3中的编码器320。

编码器440可以对事件信息406进行编码，以得到事件特征，例如，事件信息的向量表示。优选地，编码器440可以是基于RNN架构的。此外，优选地，由编码器440进行编码的事件信息406可以是包括事件题目、事件介绍等的非结构化数据，例如，在在线会议应用的场景下的会议题目、会议介绍等。

利用编码器420、430和440来分别生成语音转录特征、视频特征和事件特征的过程可以被视为是在图1中的步骤130处生成多模态特征的示例性实现。

在450处，可以执行热门话题选择，以便基于语音转录特征、视频特征和事件特征中的至少一个来从候选话题412中选择至少一个热门话题454。例如，在450处的热门话题选择可以至少采用评分模型452。评分模型452可以被训练用于将语音转录特征、视频特征和事件特征中的至少一个以及候选话题412作为输入，并且输出每个候选话题的分数。评分模型452可以是例如基于深度神经网络的模型。在获得了每个候选话题的分数后，可以选择评分最高的至少一个候选话题作为热门话题454。

优选地，过程400还可以包括在460处执行视频片段提取，以从视频录像中提取与至少一个热门话题454相关联的至少一个热门话题视频片段462。在一种实现方式中，对于一个热门话题，可以识别出包含该热门话题的转录分段以及该转录分段的开始时间点。然后，可以从视频录像中提取在至少包含该开始时间点的时间范围内的视频片段，以作为与该热门话题相关联的热门话题视频片段。

在450处的热门话题选择、在460处的视频片段提取等可以被视为是在图1中的步骤140处确定目标内容的示例性实现。

应当理解，以上结合图4所描述的过程400中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程400可以包括更多或更少的操作或步骤，并且本公开的实施例将涵盖对过程400所做的任意方式的修改。例如，尽管过程400涉及利用语音转录402、视频404和事件信息406来检测热门话题，但是也可以仅利用语音转录402、视频404和事件信息406中的一个或多个来检测热门话题。此外，优选地，过程400还可以包括对语音转录402和视频404进行时序上的对齐。此外，尽管以上单独地描述了各种编码器和评分模型，但是这些编码器和评分模型可以是被联合训练的，并且本公开的实施例并不局限于任何特定的训练方式。

图5示出了根据实施例的提及时刻描述生成和提及时刻视频片段提取的示例性过程500。过程500是图1中的步骤120至步骤140的示例性实现方式。

假设已经通过图1中的步骤120而获得了视频录像的多模态数据中的语音转录502和事件信息504中的至少一个。

编码器510可以对语音转录502进行编码，以得到语音转录特征。编码器510的实现可以类似于图3中的编码器310。

编码器520可以对事件信息504进行编码，以得到事件特征。编码器520的实现可以类似于图4中的编码器440。优选地，由编码器520进行编码的事件信息504可以是包括事件题目、事件介绍等的非结构化数据。

利用编码器510和520来分别生成语音转录特征和事件特征的过程可以被视为是在图1中的步骤130处生成多模态特征的示例性实现。

在530处，可以执行提及目标用户的转录分段检测，以便基于语音转录特征和事件特征中的至少一个来检测语音转录502中提及目标用户的至少一个转录分段534。例如，在530处的转录分段检测可以至少采用词条标记模型532。词条标记模型532可以被训练用于基于语音转录特征和事件特征中的至少一个来检测在与语音相对应的文本中包含人名的转录分段。作为示例，对于转录分段<Jim Brown：“我想要感谢David和他的团队，很好地解决了项目预算问题”>，词条标记模型532可以从该转录分段中检测到人名“Jim Brown”和“David”，其中，“Jim Brown”是讲话者，而“David”是被“Jim Brown”所提及的目标用户。应当理解，本公开的实施例并不局限于采用任何特定的方式来实现和训练词条标记模型532。

在540处，可以执行描述生成，以基于至少一个转录分段534和事件信息504来生成与至少一个转录分段534相对应的至少一个提及时刻描述542。优选地，用于生成提及时刻描述的事件信息504可以是包括例如事件时间、事件涉及人员列表等的结构化数据，例如，在在线会议应用的场景下的会议时间、参与者列表、被邀请者列表等。在一种实现方式中，可以首先将在转录分段534中所检测到的人名与事件信息504中的事件涉及人员列表进行比较，以确定完整的人名。通常，事件涉及人员列表可以包括在当前事件中所涉及的人员的完整名字。例如，假设从转录分段中检测到人名“David”，而事件涉及人员列表中包括人名“David Wilson”，则可以确定被提及的目标用户“David”的完整名字为“David Wilson”。类似地，可以确定讲话者的完整名字。可以确定与转录分段534相对应的提及时刻。然后，可以至少利用转录分段534、目标用户和讲话者的完整名字、提及时刻等来生成提及时刻描述。例如，可以采用预先训练的语句生成模型以生成采用自然语言语句来表达的提及时刻描述。提及时刻描述可以包括例如讲话者的标识、提及时刻、目标用户的标识、所提及的事项等。假设提及目标用户的转录分段为<Jim Brown：“我想要感谢David和他的团队，很好地解决了项目预算问题”>，目标用户的完整名字为“David Wilson”，且提及时刻为视频录像的第31分41秒(即，31m41s)，则所生成的提及时刻描述可以为“Jim Brown在31m41s处关于项目预算问题而提到了David Wilson”，其中“项目预算问题”是所提及的事项。可选地，如果该提及时刻描述将要被提供给目标用户David本人，则所生成的提及时刻描述也可以为“Jim Brown在31m41s处关于项目预算问题而提到了你”。

根据过程500，可选地，可以在550处执行视频片段提取，以基于至少一个转录分段534来从视频录像中提取至少一个提及时刻视频分段552。在一种实现方式中，对于一个转录分段，可以识别出与该转录分段相对应的提及时刻。然后，可以从视频录像中提取在至少包含该提及时刻的时间范围内的视频片段，以作为与该转录分段相关联的提及时刻视频片段。

在530处的提及目标用户的转录分段检测、在540处的描述生成、在550处的视频片段提取等可以被视为是在图1中的步骤140处确定目标内容的示例性实现。

应当理解，以上结合图5所描述的过程500中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程500可以包括更多或更少的操作或步骤，并且本公开的实施例将涵盖对过程500所做的任意方式的修改。例如，尽管过程500涉及利用语音转录502和事件信息504来检测提及目标用户的转录分段，但是也可以仅利用语音转录502和事件信息504中的一个来检测提及目标用户的转录分段。

图6示出了根据实施例的任务描述生成和任务视频片段提取的示例性过程600。过程600是图1中的步骤120至步骤140的示例性实现方式。

假设已经通过图1中的步骤120而获得了视频录像的多模态数据中的语音转录602和事件信息604中的至少一个。

编码器610可以对语音转录602进行编码，以得到语音转录特征。编码器610的实现可以类似于图3中的编码器310。

编码器620可以对事件信息604进行编码，以得到事件特征。编码器620的实现可以类似于图4中的编码器440。优选地，由编码器620进行编码的事件信息604可以是包括事件题目、事件介绍等的非结构化数据。

利用编码器610和620来分别生成语音转录特征和事件特征的过程可以被视为是在图1中的步骤130处生成多模态特征的示例性实现。

在630处，可以执行包含与目标用户相关联的任务的转录分段检测，以便基于语音转录特征和事件特征中的至少一个来检测语音转录602中包含与目标用户相关联的任务的至少一个转录分段634。例如，在630处的转录分段检测可以至少采用分类模型632。分类模型632可以被训练用于基于语音转录特征和事件特征中的至少一个来检测包含与目标用户相关联的任务的转录分段。示例性地，分类模型632可以将输入的转录分段分类到无任务、请求任务、承诺任务等中的一个。具有无任务类型的转录分段不包含任何任务。具有请求任务类型的转录分段可以表明在该转录分段中讲话者请求目标用户去执行特定任务，例如，在转录分段<Beth Jones：“David需要在下周一之前完成报告”>中，讲话者“Beth Jones”请求或分配给David在下周一之前完成报告的任务。具有承诺任务类型的转录分段可以表明在该转录分段中讲话者就是目标用户并且讲话者承诺了要去完成特定任务，例如，在转录分段<David Wilson：“我会尽量在下周一之前完成报告”>中，讲话者“David Wilson”承诺或接受了在下周一完成报告的任务。应当理解，本公开的实施例并不局限于采用任何特定的方式来实现和训练分类模型632，也并不局限于将转录分段分类到以上的示例性类型。

在640处，可以执行描述生成，以基于至少一个转录分段634和事件信息604来生成与至少一个转录分段634相对应的至少一个任务描述642。优选地，用于生成任务描述的事件信息604可以是包括例如事件时间、事件涉及人员列表等的结构化数据。在一种实现方式中，类似于图5中的步骤540，可以首先将在转录分段634中所检测到的人名与事件信息604中的事件涉及人员列表进行比较，以确定完整的人名。可以确定与转录分段634相对应的任务时刻。然后，可以至少利用转录分段634、目标用户和讲话者的完整名字、任务时刻等来生成任务描述。例如，可以采用预先训练的语句生成模型以生成采用自然语言语句来表达的任务描述。任务描述可以包括例如讲话者的标识、任务时刻、目标用户的标识、任务内容等。假设包含与目标用户相关联的任务的转录分段为<Beth Jones：“David需要在下周一之前完成报告”>，目标用户的完整名字为“David Wilson”，且任务时刻为视频录像的第37分17秒(即，37m17s)，则所生成的任务描述可以为“Beth Jones在37m17s处分配给David Wilson在7月5日之前完成报告的任务”，其中“在7月5日之前完成报告”是任务内容。可选地，如果该任务描述将要被提供给目标用户David本人，则所生成的任务描述也可以为“Beth Jones在37m17s处分配给你在7月5日之前完成报告的任务”，其中，目标用户的名字被第二人称“你”代替。应当理解，任务内容中包含的任务所要被完成的时间“在7月5日之前”可以是基于转录分段中的时间相关表述“下周一”和事件信息中的事件时间所推算出的。例如，根据当前事件所发生的事件时间而推算出“下周一”指示“7月5日”。

根据过程600，可选地，可以在650处执行视频片段提取，以基于至少一个转录分段634来从视频录像中提取至少一个任务视频分段652。在一种实现方式中，对于一个转录分段，可以识别出与该转录分段相对应的任务时刻。然后，可以从视频录像中提取在至少包含该任务时刻的时间范围内的视频片段，以作为与该转录分段相关联的任务视频片段。

在630处的包含与目标用户相关联的任务的转录分段检测、在640处的描述生成、在650处的视频片段提取等可以被视为是在图1中的步骤140处确定目标内容的示例性实现。

应当理解，以上结合图6所描述的过程600中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程600可以包括更多或更少的操作或步骤，并且本公开的实施例将涵盖对过程600所做的任意方式的修改。例如，尽管过程600涉及利用语音转录602和事件信息604来检测包含与目标用户相关联的任务的转录分段，但是也可以仅利用语音转录602和事件信息604中的一个来检测包含与目标用户相关联的任务的转录分段。

图7示出了目标应用的示例性用户界面700。作为示例，图7中的目标应用可以是在线会议应用，相应地，用户界面700可以是当多个用户或会议参与者正在进行线上会议时在特定用户的终端设备屏幕上所呈现的在线会议应用的用户界面。

用户界面700可以包括在顶部区域中示出的当前会议的会议题目“环境保护项目进展”。

用户界面700可以包括参与者区域710。在参与者区域710中示出了参加该会议的用户列表，其中，每个用户具有对应的头像或图标。

用户界面700可以包括共享屏幕窗口720。假设用户Jim当前正在共享屏幕窗口720中展示幻灯片。如图所示，该幻灯片可以包括图像、文字等。

用户界面700可以包括聊天窗口730。参加该会议的用户可以在聊天窗口730内进行聊天。在聊天窗口730中示出了历史聊天记录，其可以包括文字、图像等。

参加会议的用户可以通过开启各自的麦克风来以语音的方式进行交流，或者进而通过开启各自的摄像头来以视频的方式进行交流。

可以随着会议的进行而对用户界面700、来自参加会议的用户的语音等进行录制，以形成视频录像。

应当理解，以上结合图7所描述的用户界面700中的所有元素都是示例性的。本公开的实施例并不受到图7中呈现的任何细节的限制，并且用户界面700可以包括更多或更少的元素、可以采用任何其他方式的布局等。

图8示出了根据实施例的提供关于目标内容的提示的示例。在图8中，以提示电子邮件的方式来提供关于目标内容的提示。图8的示例是对图7的示例的延续。

假设在根据图7的场景而获得了视频录像之后，根据本公开的实施例而生成了与该视频录像相关联的目标内容。进而，在线会议应用可以调用电子邮件应用，以生成提示电子邮件800并将该提示电子邮件800发送给用户David。用户David可以在电子邮件应用的收件箱中查看该提示电子邮件800。用户David可以是会议的参与者或被邀请者。

提示电子邮件800可以在区域810中呈现关于该会议的介绍，例如，会议题目、会议时间、会议视频录像链接等。

提示电子邮件800可以在区域820中呈现该会议的视频录像的文本摘要，例如“环境保护项目组的同事讨论了…”。

提示电子邮件800可以在区域830中呈现视频录像中与用户David相关联的内容，例如，提及时刻描述“Jim Brown在31m41s处关于项目预算问题而提到了你”、任务描述“Beth Jones在37m17s处分配给你在7月5日之前完成报告的任务”等。如图所示，在提及时刻描述和任务描述之后还附加了对应的提及时刻视频片段和任务视频片段内的链接图标。

提示电子邮件800可以在区域840中呈现视频录像中的热门话题，例如“项目进展”、“加速”、“数据分析报告”等。

应当理解，以上结合图8所描述的提示电子邮件800中的所有元素都是示例性的。本公开的实施例并不受到图8中呈现的任何细节的限制，并且提示电子邮件800可以包括更多或更少的元素、可以采用任何其他方式的布局等。例如，提示电子邮件800可以包括更多或更少的目标内容、可以以任何其他方式来呈现目标内容等。此外，应当理解，本公开的实施例可以基于预定的策略而向该会议的任何一个或多个参与者或被邀请者发送提示电子邮件。

图9示出了根据实施例的目标应用的示例性用户界面900。图9的示例是对图8的示例的延续。假设用户David在图8所示的提示电子邮件800中通过例如点击所呈现的目标内容、视频片段链接、视频录像链接等而请求进一步查看目标内容，则可以在用户David的终端设备上显示在线会议应用的用户界面900。用户界面900可以是被设计用于访问视频录像和目标内容的目标内容呈现用户界面。

用户界面900可以包括播放区域910。在播放区域910中可以播放用户所选择的视频内容。

用户界面900可以包括视频摘要区域920，其呈现了视频摘要链接。

用户界面900可以包括重要片段区域，其包括例如提及时刻区域930、任务区域940、热门话题区域950等。例如，在提及时刻区域930中呈现了提及时刻描述和提及时刻视频片段链接，在任务区域940中呈现了任务描述和任务视频片段链接，在热门话题区域950中呈现了热门话题和热门话题视频片段链接，等等。应当理解，为了适应显示尺寸的限制，用户界面900中所呈现的关于提及时刻描述、任务描述、热门话题等的信息可以是基于预定的策略而在原始的提及时刻描述、任务描述、热门话题等的基础上得到的简略或变换版本。

在用户界面900中，响应于用户对视频摘要链接、提及时刻视频片段链接、任务视频片段链接等的点击或选择，可以在播放区域910中播放所选择的视频摘要或视频片段。

用户界面900可以包括共享按钮960。假设用户想要将用户界面900中的特定的目标内容共享给其他用户或接收方，则用户可以选择所要共享的目标内容并且点击共享按钮960以触发共享过程。

应当理解，以上结合图9所描述的用户界面900中的所有元素都是示例性的。本公开的实施例并不受到图9中呈现的任何细节的限制，并且用户界面900可以包括更多或更少的元素、可以采用任何其他方式的布局等。例如，用户界面900还可以呈现视频录像的文本摘要、可以以任何其他方式来呈现目标内容等。

图10示出了根据实施例的目标应用的示例性用户界面1000。图10的示例是对图9的示例的延续。用户界面1000可以对应于图9中的用户界面900。假设用户在图9中选择了热门话题区域950，并且点击了共享按钮960，则可以进而在用户界面1000中呈现共享设置页面1010。

共享设置页面1010可以被设计用于使得用户能够对共享操作进行设置。共享设置页面1010可以包括共享发起者评论输入区域1020，以由共享发起者输入评论。如图所示，示例性地，作为共享发起者的用户David在共享发起者评论输入区域1020中输入了“Beth在会议中谈到项目进展很顺利”。共享设置页面1010可以包括共享内容区域1030，其呈现了关于被共享的目标内容的信息。共享设置页面1010可以包括接收方指定区域1040。用户可以在接收方指定区域1040中输入或选择接收方。假设用户David在接收方指定区域1040中的候选接收方中选择了“团队A”作为接收方。当用户点击了共享设置页面中的“发送”按钮时，则将产生将选定的目标内容共享给指定接收方的请求。本公开的实施例可以进而响应于该请求而生成共享消息卡片并代表用户David将共享消息卡片提供给接收方。

应当理解，以上结合图10所描述的用户界面1000和共享设置页面1010中的所有元素都是示例性的。本公开的实施例并不受到图10中呈现的任何细节的限制，并且用户界面1000和共享设置页面1010可以包括更多或更少的元素、可以采用任何其他方式的布局等。此外，本公开的实施例还支持用户指定和共享视频录像中的特定视频片段。例如，用户可以指定该特定视频片段的开始时间点和结束时间点，并且本公开的实施例可以通过与上述共享目标内容相类似的方式来共享该特定视频片段。

图11示出了根据实施例的提供共享消息卡片的示例。图11的示例是对图10的示例的延续。

假设目标应用调用聊天工具软件以将共享消息卡片提供给接收方“团队A”。图11示出了聊天工具软件中接收方“团队A”的群组聊天的用户界面1100。用户界面1100呈现了来自用户David Wilson的共享消息卡片1110。共享消息卡片1110是根据本公开的实施例响应于图10中的用户的请求而生成的。共享消息卡片1110可以包括关于被共享的目标内容的信息，例如，热门话题视频片段链接、关于热门话题的描述“Beth Jones谈到了#项目进展”等。共享消息卡片1110可以包括共享发起者的评论“Beth在会议中谈到项目进展很顺利”。共享消息卡片1110还可以包括“回复”按钮，以使得接收到该共享消息卡片1110的用户可以发表评论。在这个实例中，接收方“团队A”中的所有团队成员都可以在群组聊天中查看到该共享消息卡片1110，从而，都可以利用回复按钮来发表评论。

应当理解，以上结合图11所描述的用户界面1100和共享消息卡片1110中的所有元素都是示例性的。本公开的实施例并不受到图11中呈现的任何细节的限制，并且用户界面1100和共享消息卡片1110可以包括更多或更少的元素、可以采用任何其他方式的布局等。此外，本公开的实施例也并不局限于用于生成共享消息卡片的任何特定技术。

图12示出了根据实施例的更新共享消息卡片的示例。图12的示例是对图11的示例的延续。图12中的共享消息卡片1200可以对应于图11中的共享消息卡片1110。根据本公开的实施例，共享消息卡片可以具有评论功能。如图12所示，共享消息卡片1200包括评论区域1210，该评论区域1210动态地收集并呈现了已经收到的评论。评论区域1210可以随着从共享发起者和接收方处接收到更多的评论而不断动态地更新。应当理解，本公开的实施例并不局限于共享消息卡片的评论功能的任何特定实现方式。此外，本公开的实施例也并不局限于评论区域1210呈现评论的任何特定方式，例如，可以采用折叠方式、展开方式等。

应当理解，尽管以上结合图7至图12描述了在目标应用是在线会议应用的场景下的示例，但是本公开的实施例也可以被应用于任何其它类型的目标应用，并且提供与这些目标应用相适应的用户界面、交互操作等。

图13示出了根据实施例的用于处理目标应用的视频录像的示例性方法1300的流程图。

在1310处，可以获得所述目标应用的视频录像。

在1320处，可以获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一。

在1330处，可以基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一。

在1340处，可以至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。

在一种实现方式中，所述确定目标内容可以包括：生成所述视频录像的文本摘要。

所述生成文本摘要可以包括以下至少之一：至少基于所述语音转录特征来生成提取性摘要；以及至少基于所述语音转录特征或者所述提取性摘要来生成抽象性摘要。

方法1300还可以包括：至少利用所述文本来校准所述提取性摘要和/或所述抽象性摘要。

在一种实现方式中，所述确定目标内容可以包括：生成所述视频录像的视频摘要，所述视频摘要包括所述视频录像中的至少一部分视频帧。

所述生成视频摘要可以包括：基于所述语音转录特征、所述视频特征、所述图像特征和所述文本特征中至少之一来获得融合特征；以及基于所述融合特征来从所述视频录像中选择所述至少一部分视频帧，以形成所述视频摘要。

在一种实现方式中，所述确定目标内容可以包括：检测所述视频录像中的至少一个热门话题。

所述检测至少一个热门话题可以包括：从所述语音转录中识别候选话题；以及基于所述语音转录特征、所述视频特征和所述事件特征中至少之一来从所述候选话题中选择所述至少一个热门话题。

方法1300还可以包括：从所述视频录像中提取与所述至少一个热门话题相关联的至少一个热门话题视频片段。

在一种实现方式中，所述确定目标内容可以包括：至少基于所述语音转录特征来检测所述语音转录中提及目标用户的至少一个转录分段；以及基于所述至少一个转录分段和所述事件信息来生成至少一个提及时刻描述，和/或基于所述至少一个转录分段来从所述视频录像中提取至少一个提及时刻视频片段。

在一种实现方式中，所述确定目标内容可以包括：至少基于所述语音转录特征来检测所述语音转录中包含与目标用户相关联的任务的至少一个转录分段；以及基于所述至少一个转录分段和所述事件信息来生成至少一个任务描述，和/或基于所述至少一个转录分段来从所述视频录像中提取至少一个任务视频片段。

在一种实现方式中，方法1300还可以包括：提供关于所述目标内容的提示；和/或呈现所述目标内容。

在一种实现方式中，方法1300还可以包括：响应于接收到将所述目标内容共享给至少一个接收方的请求，生成与所述目标内容相关联的共享消息卡片；以及将所述共享消息卡片提供给所述至少一个接收方。

所述共享消息卡片可以具有评论功能。

在一种实现方式中，所述目标应用可以是在线会议应用、视频聊天应用、游戏应用、虚拟现实应用和元宇宙应用中至少之一。

应当理解，方法1300还可以包括根据上述本公开实施例的用于处理目标应用的视频录像的任何其他步骤/过程。

图14示出了根据实施例的用于处理目标应用的视频录像的示例性装置1400。

装置1400可以包括：视频录像获得模块1410，用于获得所述目标应用的视频录像；多模态数据获得模块1420，用于获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一；多模态特征生成模块1430，用于基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一；以及目标内容确定模块1440，用于至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。此外，装置1400还可以包括被配置用于执行根据上述本公开实施例的用于处理目标应用的视频录像的方法的任何步骤/过程的任何其他模块。

图15示出了根据实施例的用于处理目标应用的视频录像的示例性装置1500。

装置1500可以包括至少一个处理器1510。装置1500还可以包括与至少一个处理器1510连接的存储器1520。存储器1520可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得至少一个处理器1510：获得所述目标应用的视频录像；获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一；基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一；以及至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。

在一种实现方式中，所述确定目标内容可以包括以下至少之一：生成所述视频录像的文本摘要；生成所述视频录像的视频摘要，所述视频摘要包括所述视频录像中的至少一部分视频帧；以及检测所述视频录像中的至少一个热门话题。

此外，所述至少一个处理器1510还可以被配置为执行根据上述本公开实施例的用于处理目标应用的视频录像的方法的任何其他步骤/过程。

本公开的实施例提出了用于处理目标应用的视频录像的计算机程序产品。所述计算机程序产品可以包括计算机程序，所述计算机程序被至少一个处理器运行用于：获得所述目标应用的视频录像；获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一；基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一；以及至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。所述计算机程序还可以被所述至少一个处理器运行用于执行根据上述本公开实施例的用于处理目标应用的视频录像的方法的任何其他步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于处理目标应用的视频录像的方法的任何步骤/过程。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其他等同变换。

另外，除非另有规定或者从上下文能清楚得知针对单数形式，否则如本说明书和所附权利要求书中所使用的冠词“一(a)”和“一个(an)”通常应当被解释为意指“一个”或者“一个或多个”。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其他适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其他适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其他方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于处理目标应用的视频录像的方法，包括：

获得所述目标应用的视频录像；

获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一；

基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一；以及

至少基于所述多模态特征来确定与所述视频录像相关联的目标内容。

2.如权利要求1所述的方法，其中，所述确定目标内容包括：

生成所述视频录像的文本摘要。

3.如权利要求2所述的方法，其中，所述生成文本摘要包括以下至少之一：

至少基于所述语音转录特征来生成提取性摘要；以及

至少基于所述语音转录特征或者所述提取性摘要来生成抽象性摘要。

4.如权利要求3所述的方法，还包括：

至少利用所述文本来校准所述提取性摘要和/或所述抽象性摘要。

5.如权利要求1所述的方法，其中，所述确定目标内容包括：

生成所述视频录像的视频摘要，所述视频摘要包括所述视频录像中的至少一部分视频帧。

6.如权利要求5所述的方法，其中，所述生成视频摘要包括：

基于所述语音转录特征、所述视频特征、所述图像特征和所述文本特征中至少之一来获得融合特征；以及

基于所述融合特征来从所述视频录像中选择所述至少一部分视频帧，以形成所述视频摘要。

7.如权利要求1所述的方法，其中，所述确定目标内容包括：

检测所述视频录像中的至少一个热门话题。

8.如权利要求7所述的方法，其中，所述检测至少一个热门话题包括：

从所述语音转录中识别候选话题；以及

基于所述语音转录特征、所述视频特征和所述事件特征中至少之一来从所述候选话题中选择所述至少一个热门话题。

9.如权利要求7所述的方法，还包括：

从所述视频录像中提取与所述至少一个热门话题相关联的至少一个热门话题视频片段。

10.如权利要求1所述的方法，其中，所述确定目标内容包括：

至少基于所述语音转录特征来检测所述语音转录中提及目标用户的至少一个转录分段；以及

基于所述至少一个转录分段和所述事件信息来生成至少一个提及时刻描述，和/或基于所述至少一个转录分段来从所述视频录像中提取至少一个提及时刻视频片段。

11.如权利要求1所述的方法，其中，所述确定目标内容包括：

至少基于所述语音转录特征来检测所述语音转录中包含与目标用户相关联的任务的至少一个转录分段；以及

基于所述至少一个转录分段和所述事件信息来生成至少一个任务描述，和/或基于所述至少一个转录分段来从所述视频录像中提取至少一个任务视频片段。

12.如权利要求1所述的方法，还包括：

提供关于所述目标内容的提示；和/或

呈现所述目标内容。

13.如权利要求1所述的方法，还包括：

响应于接收到将所述目标内容共享给至少一个接收方的请求，生成与所述目标内容相关联的共享消息卡片；以及

将所述共享消息卡片提供给所述至少一个接收方。

14.如权利要求13所述的方法，其中，

所述共享消息卡片具有评论功能。

15.如权利要求1所述的方法，其中，

所述目标应用是在线会议应用、视频聊天应用、游戏应用、虚拟现实应用和元宇宙应用中至少之一。

16.一种用于处理目标应用的视频录像的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使得所述至少一个处理器：

获得所述目标应用的视频录像，

获得所述视频录像的多模态数据，所述多模态数据包括语音转录、视频、图像、文本和事件信息中至少之一，

基于所述多模态数据生成所述视频录像的多模态特征，所述多模态特征包括语音转录特征、视频特征、图像特征、文本特征和事件特征中至少之一，以及

17.如权利要求16所述的装置，其中，所述确定目标内容包括以下至少之一：

生成所述视频录像的文本摘要；

生成所述视频录像的视频摘要，所述视频摘要包括所述视频录像中的至少一部分视频帧；以及

检测所述视频录像中的至少一个热门话题。

18.如权利要求16所述的装置，其中，所述确定目标内容包括：

19.如权利要求16所述的装置，其中，所述确定目标内容包括：

20.一种用于处理目标应用的视频录像的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器运行用于：

获得所述目标应用的视频录像；