CN113992973B

CN113992973B - 视频摘要生成方法、装置、电子设备和存储介质

Info

Publication number: CN113992973B
Application number: CN202111107531.7A
Authority: CN
Inventors: 杨浩; 陈大友; 张迎亚; 潘攀; 徐盈辉
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-06-11
Anticipated expiration: 2041-09-22
Also published as: CN113992973A

Abstract

本申请实施例提供了视频摘要生成方法、装置、电子设备和存储介质。所述方法的实施例包括：对源视频进行语音识别，得到源视频对应的语音文本；抽取语音文本中用作问题答案的答案文本片段；截取源视频中与各答案文本片段对应的视频片段，以整合生成源视频的视频摘要。该实施方式提高了对镜头较少的视频的适用性和视频摘要的逻辑性。

Description

视频摘要生成方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及计算机技术领域，特别是涉及一种视频摘要生成方法、装置、电子设备和存储介质。

背景技术

视频摘要是将原始视频中的关键片段剪辑组合后所生成的短视频。

现有技术中，通常利用镜头分隔算法进行视频分割，再基于分割后视频得到视频摘要，这种方式无法适用于镜头较少的视频(如单一镜头拍摄的视频)，且所生成视频摘要的逻辑性较低。

发明内容

本申请实施例提出了视频摘要生成方法、装置、电子设备和计算机可读介质，以提高对镜头较少的视频的适用性以及提高视频摘要的逻辑性。

第一方面，本申请实施例提供了一种视频摘要生成方法，包括：对源视频进行语音识别，得到所述源视频对应的语音文本；抽取所述语音文本中用作问题答案的答案文本片段；截取所述源视频中与各答案文本片段对应的视频片段，以整合生成所述源视频的视频摘要。

第二方面，本申请实施例提供了一种视频摘要生成方法，包括：提供交互页面，所述交互页面包括视频上传控件；根据对视频上传控件的触发，将源视频上传至服务端，以便所述服务端基于所述源视频对应的语音文本中用作问题答案的答案文本片段，截取所述源视频中对应的视频片段并整合生成视频摘要；接收所述视频摘要。

第三方面，本申请实施例还提供了一种视频摘要生成方法，包括：对直播视频进行语音识别，得到所述直播视频对应的口播文本；抽取所述口播文本中用作问题答案的答案文本片段；截取所述直播视频中与各答案文本片段对应的视频片段，以整合生成所述直播视频的视频摘要。

第四方面，本申请实施例还提供了一种电子设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的视频摘要生成方法。

第五方面，本申请实施例还提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的视频摘要生成方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，通过对源视频进行语音识别以得到对应的语音文本，而后抽取语音文本中用作问题答案的答案文本片段，最后截取源视频中与各答案文本片段对应的视频片段，从而可以整合生成源视频的视频摘要。一方面，由于视频摘要基于源视频的语音文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。另一方面，由于使用了问答的方式抽取语音文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1A为本申请的视频摘要生成方法的一个应用场景的示意图；

图1B是本申请的视频摘要生成方法的一个实施例的流程图；

图1C是本申请的视频摘要生成方法的一种问答抽取过程的示意图；

图1D是本申请的视频摘要生成方法的又一种问答抽取过程的示意图；

图1E是本申请的视频摘要生成方法的一种视频摘要的效果图；

图1F是本申请的视频摘要生成方法的又一种视频摘要的效果图；

图2是本申请的视频摘要生成方法的又一个实施例的流程图；

图3是本申请的视频摘要生成方法的再一个实施例的流程图；

图4是本申请的视频摘要生成方法的又一个应用场景的示意图；

图5是本申请的视频摘要生成装置的一个实施例的结构示意图；

图6是本申请的视频摘要生成装置的又一个实施例的结构示意图；

图7是本申请的视频摘要生成装置的再一个实施例的结构示意图；

图8是本申请的一个实施例提供的示例性装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请实施例可应用于视频摘要生成场景。视频摘要是将源视频中的关键片段剪辑组合后所生成的短视频，可用于对源视频内容进行概括表达，使得用户可以通过观看少量视频内容快速浏览源视频内容。

针对不同的视频摘要生成场景，本申请实施例可以采取不同方式来获取待识别的源视频。作为示例，本申请实施例可以应用在大数据处理的场景中，可以设定目标信息，并获取与目标信息相关的源视频。作为又一示例，本申请实施例也可以应用在视频数据存储场景中，每获取到一个待存储的源视频，可以自动提取其视频摘要，并进行存储。作为再一示例，本申请实施例还可以应用在通过服务端提供视频摘要生成服务的场景中，可以提供视频上传接口或者视频链接上传接口，以基于视频上传接口或者视频链接上传接口接收或查询源视频，从而对源视频进行处理，得到源视频的视频摘要。

另外，如图1A所示的应用场景的示意图，本申请实施例还可以应用于服务端与终端的相互场景中。服务端既可以是本地服务端，也可以是云端。在此场景中，服务端可以向终端提供交互页面，以基于交互页面获取源视频或者源视频的获取地址等，从而对源视频进行处理，得到源视频的视频摘要。在服务端生成视频摘要后，可将该视频摘要反馈给终端。用户可通过终端进行视频摘要的浏览，也可以对该视频摘要进行进一步编辑。用户可以是请求视频摘要生成服务的各类人员，如运维人员、消费者等。需要说明的是，上述源视频可以是采用各种拍摄方式拍摄的视频，如采用固定机位拍摄的单镜头视频、采用多机位轮换拍摄的多镜头视频等。上述源视频可以包括但不限于直播视频、新闻视频等、比赛视频、影视剧视频、动画视频等。

其中，服务端在获取到源视频后，可以对源视频进行语音识别，得到源视频对应的语音文本。而后，可以抽取语音文本中用作问题答案的答案文本片段。最后，可以截取源视频中与各答案文本片段对应的视频片段，从而将视频片段进行整合，生成源视频的视频摘要。由于视频摘要基于源视频的语音文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。此外，由于使用了问答的方式抽取语音文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

请参见图1B，图1B为本申请的视频摘要生成方法的一个实施例的流程图。该视频摘要生成方法可应用于处理端，处理端可以理解为对源视频提取视频摘要的电子设备。

该视频摘要生成方法的流程包括以下步骤：

步骤101，对源视频进行语音识别，得到源视频对应的语音文本。

在本实施例中，源视频可以指包含音频数据(voice data)和视频数据(visiondata)的音视频数据。视频摘要生成方法的执行主体(如上述电子设备)可以通过语音识别技术(Automatic Speech Recognition，ASR)对源视频中的音频数据进行语音识别，得到源视频对应的语音文本。其中，语音识别技术用于将语音中的词汇内容转换为计算机可读的输入，如字符序列。通过语音识别技术对上述音频数据进行语音识别后所得到的字符序列，即可作为源视频对应的语音文本。

步骤102，抽取语音文本中用作问题答案的答案文本片段。

在本实施例中，在得到源视频对应的语音文本后，上述执行主体可以从该语音文本中抽取能够作为问题答案的答案文本片段。此处，能够作为问题答案的答案文本片段可以是语音文本中的关键语句。关键语句可以是包含关键信息的语句。例如，若语音文本为对某一物品的介绍，则关键语句可以包括但不限于描述该物品的颜色的语句、描述该物品的尺寸的语句、描述该物品的材质的语句等。通过抽取语音文本中用作问题答案的答案文本片段，可有效过滤语音文本中大量无价值的信息，使得后续生成的视频摘要更精简。

在一些示例中，可以采用提取的关键语句的方式，得到语音文本中的答案文本片段。例如，可以首先通过关键词匹配，定位出答案文本片段中的关键词。之后将关键词所在语句作为关键语句，从而得到语音文本中用作问题答案的答案文本片段。

在另一些示例中，可以采用问答抽取的方式抽取语音文本中的答案文本片段。问答抽取可以包括以下至少一项：根据给定问题抽取对应的答案、根据给定文本生成对应的问题。上述执行主体可以采用一种或多种问答抽取方式进行答案文本片段的抽取。通过问答抽取的方式抽取信息，可使得抽取的文本具有更强的逻辑性，因此提高了后续所生成的视频摘要的逻辑性，更加有利于观众的理解。

在一些可选的实现方式中，上述执行主体可以采用根据给定问题抽取对应的答案的问答抽取方式，进行答案文本片段的抽取。具体地，上述执行主体中可以预先存储有问题文本集。问题文本集可采用列表等形式表示。问题文本集中的问题文本可如“有几种颜色”、“尺寸多少”、“什么材质”等。上述执行主体中还可以部署有问答(Question Answering，QA)模型。问答模型可用于从一文本中抽取与问题文本对应的答案文本。上述执行主体可以首先获取预设的问题文本集，而后逐一将问题文本集中的问题文本和语音文本一并输入至预先训练的问答模型，得到问题文本集中的各问题文本对应的答案文本片段。其中，各答案文本片段来自于上述语音文本。

作为示例，图1C为此实现方式中的问答抽取过程的示意图。如图1C所示，问题文本集包含n(n为正整数)个问题文本，如“问题1：有几种颜色”、“问题2：穿起来舒服吗”等。可依次将每一个问题文本和语音文本组成一个二元组，将该二元组输入至问答模型。问答模型可以准确检测语音文本中是否含有所输入的问题文本对应的答案，若含有，则可以输出该问题文本对应的答案。由此，在依次针对n个问题文本执行上述操作后，若语音文本中分别包含着n个问题文本对应的答案，即可得到n个答案文本片段。通过给定问题抽取对应的答案的方式进行答案文本片段的抽取，能够对所抽取的内容进行有效控制，从而提高所生成的视频摘要的精准性。

其中，上述问答题模型可采用机器学习方法(如有监督学习方法)预先训练得到。训练问答模型所使用的基础模型可以包括但不限于：ELECTRA(Efficiently Learning anEncoder that Classifies Token Replacements Accurately，高效地学习对令牌替换进行准确分类的编码器)模型、BERT(Bidirectional Encoder Representations fromTransformer，基于变换器的双向编码器表示)模型等。训练问答模型所使用的样本集中可包括多个样本，每个样本可以是一个二元组，二元组中可以包括问题文本以及答案样板。答案样板可以是具有答案起始位置标注和结束位置标注的文本。

以ELECTRA模型为例，在训练过程中，可以逐一地将样本输入至ELECTRA模型，得到ELECTRA模型输出的检测结果。该检测结果可包括预测出的答案文本的起始位置和结束位置。通过该起始位置和结束位置，即可确定模型所预测出的答案文本片段的范围。而后，可以基于检测结果与所输入的样本中的答案样板的答案起始位置标注和结束位置标注，确定损失值。上述损失值为损失函数(loss function)的值，损失函数是一个非负实值函数，可以用于表征检测结果与真实结果的差异。一般情况下，损失值越小，模型的鲁棒性就越好。损失函数可以根据实际需求来设置。之后，可以利用该损失值，更新ELECTRA模型的参数。由此，每输入一次样本，可以基于该样本对应的损失值，对ELECTRA模型的参数进行一次更新，直至ELECTRA模型训练完成。实践中，可以通过多种方式确定是否训练完成。作为示例，当模型输出的检测结果的准确性达到预设值时(例如95％)，可确定训练完成。作为又一示例，若模型的训练次数等于预设次数时，可以确定训练完成。此处，若模型训练完成，即可将训练后的模型确定为问答模型。

在一些可选的实现方式中，上述执行主体可以采用根据给定文本生成对应的问题的问答抽取方式，进行答案文本片段的抽取。具体地，上述执行主体中还可以部署有问题文本生成模型。问题文本生成模型可以智能地捕捉输入至其中的文本中的关键性的描述词语，从而生成高质量、信息量高、智能化的问题文本。所输出的问题文本既可以是所输入文本中的语句，也可以是所输入文本中不存在的语句。问题文本生成模型也可采用机器学习方法(如有监督学习方法)预先训练得到。例如，用于训练问题文本生成模型的样本可以是历史问答文本对，所使用的基础模型可以是端对端模型。可将历史问答文本对中的历史答案文本作为基础模型(如递归神经网络、)输入，所输入的历史答案文本对应的历史问题文本，训练该基础模型的参数。通过迭代多次训练，即可得到问题文本生成模型。

此处，上述执行主体首先可以对源视频进行视觉分析，以提取源视频中的目标视频片段。目标视频片段可以是具有关键视频信息的片段。以电商直播场景为例，可以通过目标检测方式检测源视频中各帧中的对象(如产品)，以及不同对象是否存在重合区域(如主播的手部与目标产品是否存在重合区域)，从而基于检测结果确定该帧是否保留，并所保留的将包含同一对象(如产品)的帧汇总为一个目标视频片段，以得到分别与不同产品对应的多个目标视频片段。而后，可确定语音文本中与各目标视频片段对应的语音文本片段。之后可抽取语音文本片段中的答案文本片段，并将所抽取的各答案文本片段输入至上述问题文本生成模型，得到各答案文本片段对应的问题文本。

其中，上述执行主体中可以部署有文本分类模型，上述文本分类模型可以用于确定文本的类别。该文本分类模型可以采用机器学习方法预先训练得到。可以采用各种具有分类功能的模型训练该文本分类模型，如CNN(Convolutional Neural Network，卷积神经网络)、SVM(Support Vector Machine，支持向量机)等。在抽取语音文本片段中的答案文本片段时，对于每一个语音文本片段，可将该语音文本片段中的各语句输入至预先训练的文本分类模型，以确定各语句的类别。例如，某一语音文本为对介绍某一产品的电商直播视频片段所对应的文本，则类别可以包括但不限于该产品材料类、生产方式类、使用人群类、无类别等。之后，可将同属于目标类别(如产品材料类、生产方式类、使用人群类等)语句进行汇总，得到答案文本片段。实践中，通常同一类型的语句连续出现，因此在进行语句汇总时，可直接按照语句在语音文本判断中的先后顺序进行拼接，以得到答案文本片段。

作为示例，图1D为此实现方式中的问答抽取过程的示意图。如图1D所示，共有n个答案文本片段，对应的类别可以如“产品材料”、“生成方式”、“使用人群”等。针对每一个语音文本，在将n个答案文本片段中的每一个输入至问题文本生成模型后，即可得到该答案文本片段对应的问题文本。例如，第一个答案文本片段介绍的内容为鞋子，对应的类别为“产品材料”，其对应的问题文本可以为“这双酷炫的鞋子是什么材质的？”。第二个答案文本片段介绍的内容为毛衣，对应的类别为“生产方式”，其对应的问题文本可以为“这件印花毛衣是纯手工织的吗？”。第n个答案文本片段介绍的内容为裙子，对应的类别为“适用人群”，其对应的问题文本可以为“双排扣的裙子孕妇推荐穿吗？”等。通过基于答案文本片段逆向生成问题的方式来进行视频摘要生成，能够使得较为随机性的问题及答案信息得以产生。

进一步地，在通过此实现方式得到各答案文本片段对应的问题文本后，上述执行主体还可以将这些问题文本中的一个或多个作为预设的问题文本集的补充，或者，可以将这些问题文本发送至运维人员的设备，以根据运维人员的指示确定是否进行问题文本集的补充。具体地，上述执行主体可以接收对预设的问题文本集的补充指令，提供问题文本集管理控件，以基于问题文本集管理控件确定所得到问题文本中的待补充问题文本，从而将待补充问题文本添加至问题文本集。

在一些可选的实现方式中，上述执行主体还可以先采用根据给定问题抽取对应的答案的问答抽取方式进行答案文本片段的抽取，而后采用根据给定文本生成对应的问题的问答抽取方式进行答案文本片段的补充。由此，能够对所抽取的内容进行有效控制，提高所生成的视频摘要的准确性，还可以丰富视频摘要的内容。

在一些可选的实现方式中，上述执行主体还可以对所抽取的答案文本片段进行去重，以避免视频摘要中出现重复内容。具体地，可以获取各答案文本片段所对应的视频片段的起始时间戳和结束时间戳，并基于各视频片段的起始时间戳和结束时间戳，对所生成的问答文本对进行去重。例如，对于每两个答案文本片段，可基于相应的两个视频片段(可分别记为v_i、v_j)的起始时间戳(可分别记为T^<i,start>、T^<j,start>)和结束时间戳(可分别记为T^<i,end>、T^<j,end>)，确定这两个视频片段的交并比(可记为IoU(v_i,v_j))。若交并比大于预设阈值(如0.25)，则可认为这两个答案文本片段重复，从而可进行去重处理。其中，交并比可按照如下公式计算：

在一些可选的实现方式中，在对所抽取的答案文本片段进行去重后，还可以获取各答案文本片段的置信度，依据置信度对答案文本片段进行排序，并基于排序结果对答案文本片段进行进一步筛选，以提高视频摘要的精简性。具体地，在抽取答案文本片段时，问答模型可计算并输出答案文本片段的起始位置的置信度以及结束位置的置信度。此外，还可以采用其他规则计算答案文本片段的起始位置的置信度以及结束位置的置信度，例如可将语音文本进行语段区间划分，不同语段区间对应不同置信度，根据起始位置和结束位置所位于的语段区间，确定起始位置的置信度以及结束位置的置信度。在得到各答案文本片段的置信度的起始位置的置信度和结束位置的执行度后，针对每一个答案文本片段，可以将其起始位置的置信度以及结束位置的置信度的乘积作为该答案文本片段的得分。上述执行主体可基于答案文本片段的得分，对各答案文本片段进行排序，并根据排序结果保留若干答案文本片段，滤除其他答案文本片段(如按照得分保留前K个问答文本对中的答案文本片段，其中K为预设的正整数)。

步骤103，截取源视频中与各答案文本片段对应的视频片段，以整合生成源视频的视频摘要。

在本实施例中，上述执行主体可以截取源视频中与各答案文本片段对应的视频片段。例如，对于某一答案文本片段，可以首先确定答案文本片段的起始位置对应到源视频中的起始时间戳、以及答案文本片段的结束位置对应到源视频中的结束时间戳。而后，可以截取位于起始时间戳和结束时间戳之间的视频帧，得到与该答案文本片段对应的视频片段。

在得到与各答案文本片段对应的视频片段后，上述执行主体可以对所截取的视频片段进行重新剪辑，以得到源视频的视频摘要。例如，可按照起始时间戳的先后顺序对所截取的视频片段进行拼接，得到源视频的视频摘要。

在一些可选的实现方式中，在整合生成源视频的视频摘要后，上述执行主体可以直接显示该视频摘要，也可以将该视频摘要发送至运维人员所使用的设备中。此情况下，若接收到对视频摘要的调整指令，上述执行主体可提供视频摘要编辑控件，以基于视频摘要编辑控件获取视频摘要调整操作，从而基于视频摘要调整操作对视频摘要进行调整。其中，视频摘要调整操作可以包括但不限于视频片段的调序操作、删减操作、文本插入操作中的至少一项。

在一些可选的实现方式中，上述执行主体在截取源视频中与各答案文本片段对应的视频片段后，还可以各将各答案文本片段对应的问题文本和视频片段进行整合，生成上述源视频的视频摘要。例如，如图1E所示的电商直播场景，对于每个答案文本片段(如介绍一款包的颜色的文本片段)，可以在该答案文本片段对应的视频片段中添加对应的问题文本(如“这款包包有什么颜色？”)，以便于用户了解即将浏览的视频片段的内容。之后将添加问题文本后的视频片段进行拼接，得到上述源视频的视频摘要。需要说明的是，问题文本可以在视频片段的每一帧中添加，也可以在视频片段的前N帧(N为正整数)添加，此处不作具体限定。

需要说明的是，上述执行主体还可以采用其他方式将各答案文本片段对应的问题文本和视频片段进行整合，例如，对于每个答案文本片段，可将该答案文本片段对应的问题文本转换成语音，并以此语音创建问题视频片段。而后，可将该答案文本片段对应的视频片段作为答案视频片段，将问题视频片段和答案视频片段进行拼接，得到与问答对(即该问题文本和答案文本片段所构成的文本对)对应的一个视频。将各问答对对应的视频进行拼接，即可得到上述源视频的视频摘要。

在一些可选的实现方式中，在整合生成源视频的视频摘要后，上述执行主体还可以基于各答案文本片段和各答案文本片段对应的问题文本，抽取各视频片段的引导标签，从而在上述视频摘要中分段显示各视频片段的引导标签。引导标签可以是答案文本片段及其对应的问题文本中的关键词。例如，如图1F所示，某一答案文本片段用于描述物品颜色，其对应的问题文本为“此产品有什么颜色？”，该答案文本片段对应的视频片段的引导标签可以是“产品颜色”。再例如，某一答案文本片段用于描述鞋子材质，其对应的问题文本可以为“这双酷炫的鞋子是什么材质的？”，该答案文本片段对应的视频片段的引导标签可以是“产品材质”。引导标签的可以显示于视频摘要的进度条附近，也可以显示于其他视频画面之外，此处不作限定。

继续参考图2，其示出了本申请的视频摘要生成方法的又一个实施例的流程图。该视频摘要生成方法可应用在终端。终端可以理解为上传待处理的目标视频并接收摘要视频的电子设备。终端可以与服务端进行交互，以向服务端上传待处理的目标视频。服务端可以理解为对源视频提取视频摘要的电子设备。服务端在得到源视频的视频摘要之后，可以向终端反馈识别结果。

该视频摘要生成方法的流程，包括以下步骤：

步骤201，提供交互页面，交互页面包括视频上传控件。

步骤202，根据对视频上传控件的触发，将源视频上传至服务端，以便服务端基于源视频对应的语音文本中用作问题答案的答案文本片段，截取源视频中对应的视频片段并整合生成视频摘要。

步骤203，接收视频摘要。

本实施例各步骤与上述实施例对应步骤描述类似，具体可参见上述实施例的描述。

本申请的上述实施例提供的方法，服务端可以向终端提供交互页面，以基于交互页面向终端提供视频摘要生成的服务，用户可以在交互页面中触发视频上传控件，以通过终端将待处理的源视频上传给服务端，服务端可以对源视频进行语音识别，得到对应的语音文本，并可以从语音文本中提取用作问题答案的答案文本片段，从而截取源视频中与答案文本片段对应的视频片段，以整合生成视频摘要。服务端得到视频摘要后，可以将视频摘要反馈给终端，以便在终端播放该视频摘要。

继续参考图3，其示出了本申请的视频摘要生成方法的再一个实施例的流程图。该视频摘要生成方法可应用在直播视频的视频摘要生成场景。该视频摘要生成方法的流程，包括以下步骤：

步骤301，对直播视频进行语音识别，得到直播视频对应的口播文本。

在本实施例中，视频摘要生成方法的执行主体可以通过语音识别技术对直播视频进行语音识别，得到直播视频对应的口播文本。本申请实施例对直播视频的内容不作具体限定。例如，直播视频可以是电商直播视频如用于介绍若干产品的完整直播视频；也可以是以产品为单位对电商直播视频进行切分后所生成的短视频；还可以是非产品推广类的直播视频，如旅游直播视频、游戏直播视频等。

以电商直播场景为例，主播可以通过终端进行直播，并同时进行直播视频的录制。在直播过程中，所录制的视频数据会实时上传至服务端进行存储。在一些场景中，可将主播直播过程中所产生的全部视频数据所构成的视频，作为电商直播视频，以针对该电商直播视频执行本实施例中的步骤。

在另一些场景中，可预先以产品为单位对直播数据进行切分，得到针对该产品的短视频。此处，可将针对每个产品的短视频作为电商直播视频，以针对每个电商直播视频(即切分后的短视频)执行本实施例中的步骤。例如，在直播过程中，主播介绍了鞋子、毛衣和裙子等多种产品，可预先基于目标检测模型对所录制的各视频帧中的主播、鞋子、毛衣和裙子进行检测，以确定主播与鞋子交互过程的视频片段、与鞋子交互过程中的视频片段、以及与裙子交互过程中的视频片段。可将这三个视频片段作为与三个产品分别对应的电商直播视频。之后，可以针对每一个产品对应的电商直播视频，获取其所对应的口播文本。

实践中，由于所录制的视频数据会实时上传至服务端进行存储，因此，服务端可以实时检测所接收到的视频数据中各视频帧中，主播是否与产品进行交互(如手、脸、躯干位置存在重合)。对于某一目标产品(如鞋子)，若针对某一帧检测出主播是否与该目标产品(如鞋子)进行交互，可提取该帧。最终，可将针对该目标产品所提取的各帧按时间顺序进行拼接，得到针对该目标产品的短视频。

步骤302，抽取口播文本中用作问题答案的答案文本片段。

在本实施例中，在得到直播视频对应的口播文本后，上述执行主体可以从该口播文本中抽取能够作为问题答案的答案文本片段。此处，能够作为问题答案的答案文本片段可以是口播文本中的关键语句。关键语句可以是包含关键信息的语句。作为示例，在电商直播场景中，用作问题答案的答案文本片段答案文本片段可以为用作电商直播问题的答案的文本片段。电商直播问题可以是针对电商直播中的产品的问题，如“产品什么颜色”、“产品尺寸多大”等。答案文本片段可用于描述产品以下至少一项：颜色、尺寸、功能、材质、生产方式、适用人群。通过抽取口播文本中用作问题答案的答案文本片段，可有效过滤口播文本中大量无价值的信息，使得后续生成的视频摘要更精简。

在一些可选的实现方式中，可以采用问答抽取的方式抽取口播文本中的答案文本片段。问答抽取可以包括以下至少一项：根据给定问题抽取对应的答案、根据给定文本生成对应的问题。上述执行主体可以采用一种或多种问答抽取方式进行答案文本片段的抽取。通过问答抽取的方式抽取信息，可使得抽取的文本具有更强的逻辑性，因此提高了后续所生成的视频摘要的逻辑性，更加有利于观众的理解。

在一些可选的实现方式中，上述执行主体可以采用根据给定问题抽取对应的答案的问答抽取方式，进行答案文本片段的抽取。具体地，上述执行主体中可以预先存储有问题文本集。问题文本集可采用列表等形式表示。问题文本集中的问题文本可如“有几种颜色”、“尺寸多少”、“什么材质”等。上述执行主体中还可以部署有问答模型。问答模型可用于从一文本中抽取与问题文本对应的答案文本。上述执行主体可以首先获取预设的问题文本集，而后逐一将问题文本集中的问题文本和口播文本一并输入至预先训练的问答模型，得到口播文本中与问题文本集中的各问题文本对应的答案文本片段。通过给定问题抽取对应的答案的方式进行答案文本片段的抽取，能够对所抽取的内容进行有效控制，从而提高所生成的视频摘要的精准性。

在一些可选的实现方式中，上述执行主体可以采用根据给定文本生成对应的问题的问答抽取方式，进行答案文本片段的抽取。具体地，上述执行主体中还可以部署有问题文本生成模型。问题文本生成模型可以智能地捕捉输入至其中的文本中的关键性的描述词语，从而生成高质量、信息量高、智能化的问题文本。所输出的问题文本既可以是所输入文本中的语句，也可以是所输入文本中不存在的语句。此处，上述执行主体首先可以对直播视频进行视觉分析，以提取直播视频中的目标视频片段。目标视频片段可以是具有关键视频信息的片段。以电商直播场景为例，可以通过目标检测方式检测直播视频中各帧中的对象(如产品)，以及不同对象是否存在重合区域(如主播的手部与目标产品是否存在重合区域)，从而基于检测结果确定该帧是否保留，并所保留的将包含同一对象(如产品)的帧汇总为一个目标视频片段，以得到分别与不同产品对应的多个目标视频片段。而后，可确定口播文本中与各目标视频片段对应的口播文本片段。之后可抽取口播文本片段中的答案文本片段，并将所抽取的各答案文本片段输入至上述问题文本生成模型，得到各答案文本片段对应的问题文本。

其中，上述执行主体中可以部署有文本分类模型，上述文本分类模型可以用于确定文本的类别。该文本分类模型可以采用机器学习方法预先训练得到。在抽取口播文本片段中的答案文本片段时，对于每一个口播文本片段，可将该口播文本片段中的各语句输入至预先训练的文本分类模型，以确定各语句的类别。例如，某一口播文本为对介绍某一产品的电商直播视频片段所对应的文本，则类别可以包括但不限于该产品材料类、生产方式类、使用人群类、无类别等。之后，可将同属于目标类别(如产品材料类、生产方式类、使用人群类等)语句进行汇总，得到答案文本片段。实践中，通常同一类型的语句连续出现，因此在进行语句汇总时，可直接按照语句在口播文本判断中的先后顺序进行拼接，以得到答案文本片段。

在一些可选的实现方式中，上述执行主体还可以先采用根据给定问题抽取对应的答案的问答抽取方式进行答案文本片段的抽取，而后采用根据给定文本生成对应的问题的问答抽取方式进行答案文本片段的补充。由此，不能能够对所抽取的内容进行有效控制，提高所生成的视频摘要的准确性，还可以丰富视频摘要的内容。

在一些可选的实现方式中，上述执行主体还可以对所抽取的答案文本片段进行去重，以避免视频摘要中出现重复内容。具体地，可以获取各答案文本片段所对应的视频片段的起始时间戳和结束时间戳，并基于各视频片段的起始时间戳和结束时间戳，对所生成的问答文本对进行去重。通过去重，可使得视频摘要更为精简。

在一些可选的实现方式中，在对所抽取的答案文本片段进行去重后，上述执行主体还可以获取各答案文本片段的置信度，依据置信度对答案文本片段进行排序，并基于排序结果对答案文本片段进行进一步筛选，以提高视频摘要的精简性。

步骤303，截取直播视频中与各答案文本片段对应的视频片段，以整合生成直播视频的视频摘要。

在本实施例中，上述执行主体可以截取直播视频中与各答案文本片段对应的视频片段，而后对所截取的视频片段进行重新剪辑，以得到直播视频的视频摘要。

在一些可选的实现方式中，在整合生成直播视频的视频摘要后，上述执行主体可以直接显示该视频摘要，也可以将该视频摘要发送至运维人员所使用的设备中。此情况下，若接收到对视频摘要的调整指令，上述执行主体可提供视频摘要编辑控件，以基于视频摘要编辑控件获取视频摘要调整操作，从而基于视频摘要调整操作对视频摘要进行调整。其中，视频摘要调整操作可以包括但不限于视频片段的调序操作、删减操作、文本插入操作中的至少一项。

在一些可选的实现方式中，上述执行主体在截取直播视频中与各答案文本片段对应的视频片段后，还可以各将各答案文本片段对应的问题文本和视频片段进行整合，生成上述直播视频的视频摘要。例如，对于每个答案文本片段，可以在该答案文本片段对应的视频片段中添加对应的问题文本(如作为字幕)，以便于用户了解即将浏览的视频片段的内容。之后将添加问题文本后的视频片段进行拼接，得到上述直播视频的视频摘要。需要说明的是，问题文本可以在视频片段的每一帧中添加，也可以在视频片段的前N帧(N为正整数)添加，此处不作具体限定。

需要说明的是，上述执行主体还可以采用其他方式将各答案文本片段对应的问题文本和视频片段进行整合，例如，对于每个答案文本片段，可将该答案文本片段对应的问题文本转换成语音，并以此语音创建问题视频片段。而后，可将该答案文本片段对应的视频片段作为答案视频片段，将问题视频片段和答案视频片段进行拼接，得到与问答对(即该问题文本和答案文本片段所构成的文本对)对应的一个视频。将各问答对对应的视频进行拼接，即可得到上述直播视频的视频摘要。

作为示例，图4是本申请的视频摘要生成方法的再一个应用场景的示意图。如图4所示，对介绍某手提包的电商直播视频进行语音识别后，可得到口播文本，如“这款产品共有三个颜色可以选择，分别有红色、蓝色和绿色。这款绿色是那种很有高级感的草绿色……此外，这款产品非常小巧，长度是30厘米，高度是25厘米，厚度是10厘米，非常适合小个子女生……它的表面是头层牛皮，荔枝纹路，内里是无纺布……”。之后，可提取口播文本中用作问题答案的答案文本片段，可得到“这款产品共有三个颜色可以选择，分别有红色、蓝色和绿色。这款绿色是那种很有高级感的草绿色”、“这款产品非常小巧，长度是30厘米，高度是25厘米，厚度是10厘米”、“它的表面是头层牛皮，荔枝纹路，内里是无纺布”共三个答案文本片段。最后，可截取直播视频中与各答案文本片段对应的视频片段，从而可以整合生成该电商直播视频的视频摘要。

在一些可选的实现方式中，在整合生成直播视频的视频摘要后，上述执行主体还可以基于各答案文本片段和各答案文本片段对应的问题文本，抽取各视频片段的引导标签，从而在上述视频摘要中分段显示各视频片段的引导标签。引导标签可以是答案文本片段及其对应的问题文本中的关键词。例如，某一答案文本片段用于描述物品颜色，其对应的问题文本为“此产品有什么颜色？”，该答案文本片段对应的视频片段的引导标签可以是“产品颜色”。再例如，某一答案文本片段用于描述鞋子材质，其对应的问题文本可以为“这双酷炫的鞋子是什么材质的？”，该答案文本片段对应的视频片段的引导标签可以是“产品材质”。

在本申请实施例中，通过对直播视频进行语音识别以得到对应的口播文本，而后抽取口播文本中用作问题答案的答案文本片段，最后截取直播视频中与各答案文本片段对应的视频片段，从而可以整合生成直播视频的视频摘要。一方面，由于视频摘要基于直播视频的口播文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。另一方面，由于使用了问答的方式抽取口播文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

本申请实施例还提供一种视频摘要生成方法，可以应用在视频会议场景，如对视频会议的录制视频的视频摘要生成场景。具体的，上述方法包括：

对视频会议的录制视频进行语音识别，得到对应的会议内容文本；

抽取会议内容文本中用作问题答案的答案文本片段；

截取视频会议的录制视频中与各答案文本片段对应的视频片段，以整合生成视频会议的录制视频的视频摘要。

本申请实施例中，视频会议的录制视频可以理解为在视频会议过程中所产生的视频或者所录制的视频，如可包括但不限于网课视频、公司会议视频等。在一些场景中，视频会议中可以包含主讲人和参与人。答案文本片段可以是主讲人的话语中的片段。

本申请实施例中，问题可以从会议内容文本中提取，如可识别会议内容文本中的疑问句，作为问题文本。此外，问题也可以从视频会议的录制视频的画面中提取，如可通过对视频画面进行文本识别，来截取其所显示的幻灯片中的问题文本。

本实施例的实施方式与上述实施例的实施方式类似，具体实施方式可以参考上述实施例的具体实施方式，此处不再赘述。

通过对视频会议的录制视频进行语音识别以得到对应的会议内容文本，而后抽取会议内容文本中用作问题答案的答案文本片段，最后截取视频会议的录制视频与各答案文本片段对应的视频片段，从而可以整合生成视频会议的录制视频的视频摘要。一方面，由于视频摘要基于视频会议的录制视频的会议内容文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。另一方面，由于使用了问答的方式抽取会议内容文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

本申请实施例还提供一种视频摘要生成方法，可以应用在文娱场景，如记者采访视频的视频摘要生成场景。具体的，上述方法包括：

对媒体视频进行语音识别，得到对应的采访内容文本；

抽取采访内容文本中用作问题答案的答案文本片段；

截取媒体视频中与各答案文本片段对应的视频片段，以整合生成媒体视频的视频摘要。

本申请实施例中，媒体视频可以理解在媒体场景下所产生的视频，如记者采访视频。在一些场景中，媒体视频中可以包含采访者和被采访者。问题可以是采访内容文本中的采访者的提问文本，答案文本片段可以是被采访者的答复文本中的关键内容。

通过对媒体视频进行语音识别以得到对应的采访内容文本，而后抽取采访内容文本中用作问题答案的答案文本片段，最后截取媒体视频与各答案文本片段对应的视频片段，从而可以整合生成媒体视频的视频摘要。一方面，由于视频摘要基于媒体视频的采访内容文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。另一方面，由于使用了问答的方式抽取采访内容文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

进一步参考图5，在上述实施例的基础上，本申请提供了一种视频摘要生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的视频摘要生成装置500包括：语音识别单元501，用于对源视频进行语音识别，得到上述源视频对应的语音文本；抽取单元502，用于抽取上述语音文本中用作问题答案的答案文本片段；视频摘要生成单元503，用于截取上述源视频中与各答案文本片段对应的视频片段，以整合生成上述源视频的视频摘要。

在本实施例的一些可选的实现方式中，上述装置还包括调整单元，用于接收对上述视频摘要的调整指令，提供视频摘要编辑控件，以基于上述视频摘要编辑控件获取视频摘要调整操作，上述视频摘要调整操作包括视频片段的调序操作、删减操作、文本插入操作中的至少一项；基于上述视频摘要调整操作对上述视频摘要进行调整。

在本实施例的一些可选的实现方式中，上述抽取单元502，进一步用于获取预设的问题文本集；逐一将上述问题文本集中的问题文本和上述语音文本一并输入至预先训练的问答模型，得到上述语音文本中与各问题文本对应的答案文本片段。

在本实施例的一些可选的实现方式中，上述装置还包括：问题文本生成单元，用于对上述源视频进行视觉分析，以提取上述源视频中的目标视频片段；确定上述语音文本中与上述目标视频片段对应的语音文本片段；抽取上述语音文本片段中的答案文本片段，并将所抽取的各答案文本片段输入至预先训练的问题文本生成模型，得到各答案文本片段对应的问题文本。

在本实施例的一些可选的实现方式中，上述问题文本生成单元，进一步用于对于每一个语音文本片段，将该语音文本片段中的各语句输入至预先训练的文本分类模型，以确定各语句的类别；将同属于目标类别语句进行汇总，得到答案文本片段。

在本实施例的一些可选的实现方式中，上述装置还包括添加单元，用于接收对预设的问题文本集的补充指令，提供问题文本集管理控件，以基于上述问题文本集管理控件确定所得到问题文本中的待补充问题文本；将上述待补充问题文本添加至上述问题文本集。

上述

在本实施例的一些可选的实现方式中，上述装置还包括：去重单元，用于获取各答案文本片段所对应的视频片段的起始时间戳和结束时间戳，并基于各视频片段的起始时间戳和结束时间戳，对答案文本片段进行去重。

在本实施例的一些可选的实现方式中，上述装置还包括：筛选单元，用于获取各答案文本片段的置信度，并基于各答案文本片段的置信度，对各答案文本片段进行排序；基于排序结果，保留预设数量的答案文本片段，并滤除其余答案文本片段。

在本实施例的一些可选的实现方式中，上述视频摘要生成单元503，进一步用于获取各答案文本片段对应的问题文本；将各答案文本片段对应的问题文本和视频片段进行整合，生成上述源视频的视频摘要。

在本实施例的一些可选的实现方式中，上述视频摘要生成单元503，进一步用于在各答案文本片段对应的视频片段中添加对应的问题文本；将添加问题文本后的视频片段进行拼接，得到上述源视频的视频摘要。

在本实施例的一些可选的实现方式中，上述装置还包括显示单元，用于基于各答案文本片段和各答案文本片段对应的问题文本，抽取各视频片段的引导标签；在上述视频摘要中分段显示各视频片段的引导标签。本申请的上述实施例提供的装置，通过对源视频进行语音识别以得到对应的语音文本，而后抽取语音文本中用作问题答案的答案文本片段，最后截取源视频中与各答案文本片段对应的视频片段，从而可以整合生成源视频的视频摘要。一方面，由于视频摘要基于源视频的语音文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。另一方面，由于使用了问答的方式抽取语音文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

进一步参考图6，在上述实施例的基础上，本申请提供了一种视频摘要生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的视频摘要生成装置600包括：交互单元601，用于提供交互页面，上述交互页面包括视频上传控件；上传单元602，用于根据对视频上传控件的触发，将源视频上传至服务端，以便上述服务端基于上述源视频对应的语音文本中用作问题答案的答案文本片段，截取上述源视频中对应的视频片段并整合生成视频摘要；接收单元603，用于接收上述视频摘要。

本申请实施例中，服务端可以向终端提供交互页面，以基于交互页面向终端提供视频摘要生成的服务，用户可以在交互页面中触发视频上传控件，以通过终端将待处理的源视频上传给服务端，服务端可以对源视频进行语音识别，得到对应的语音文本，并可以从语音文本中提取用作问题答案的答案文本片段，从而截取源视频中与答案文本片段对应的视频片段，以整合生成视频摘要。服务端得到视频摘要后，可以将视频摘要反馈给终端，以便在终端播放该视频摘要。

进一步参考图7，在上述实施例的基础上，本申请提供了一种视频摘要生成装置的一个实施例，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的视频摘要生成装置700包括：语音识别单元701，用于对直播视频进行语音识别，得到上述直播视频对应的口播文本；抽取单元702，用于抽取上述口播文本中用作问题答案的答案文本片段；视频摘要生成单元703，用于截取上述直播视频中与各答案文本片段对应的视频片段，以整合生成上述直播视频的视频摘要。

在本实施例的一些可选的实现方式中，上述抽取单元702，进一步用于获取预设的问题文本集；逐一将上述问题文本集中的问题文本和上述口播文本一并输入至预先训练的问答模型，得到上述口播文本中与各问题文本对应的答案文本片段。

在本实施例的一些可选的实现方式中，上述装置还包括：问题文本生成单元，用于对上述直播视频进行视觉分析，以提取上述直播视频中的目标视频片段；确定上述口播文本中与上述目标视频片段对应的口播文本片段；抽取上述口播文本片段中的答案文本片段，并将所抽取的各答案文本片段输入至预先训练的问题文本生成模型，得到各答案文本片段对应的问题文本。

在本实施例的一些可选的实现方式中，上述问题文本生成单元，进一步用于对于每一个口播文本片段，将该口播文本片段中的各语句输入至预先训练的文本分类模型，以确定各语句的类别；将同属于目标类别语句进行汇总，得到答案文本片段。

上述

在本实施例的一些可选的实现方式中，上述视频摘要生成单元703，进一步用于获取各答案文本片段对应的问题文本；将各答案文本片段对应的问题文本和视频片段进行整合，生成上述直播视频的视频摘要。

在本实施例的一些可选的实现方式中，上述视频摘要生成单元703，进一步用于在各答案文本片段对应的视频片段中添加对应的问题文本；将添加问题文本后的视频片段进行拼接，得到上述直播视频的视频摘要。

在本实施例的一些可选的实现方式中，上述装置还包括显示单元，用于基于各答案文本片段和各答案文本片段对应的问题文本，抽取各视频片段的引导标签；在上述视频摘要中分段显示各视频片段的引导标签。

本申请的上述实施例提供的装置，通过对直播视频进行语音识别以得到对应的口播文本，而后抽取口播文本中用作问题答案的答案文本片段，最后截取直播视频中与各答案文本片段对应的视频片段，从而可以整合生成直播视频的视频摘要。一方面，由于视频摘要基于直播视频的口播文本中的内容生成，而非基于镜头切分生成，因此避免了固定机位拍摄的视频无法进行镜头切分的问题，提高了对固定机位拍摄的视频的适用性。另一方面，由于使用了问答的方式抽取口播文本中的信息，此信息更具有逻辑性，因此基于该信息对应的视频片段进行视频摘要的整合，可提高视频摘要的逻辑性。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括终端设备、服务器(集群)等电子设备。图8示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置800。

对于一个实施例，图8示出了示例性装置800，该装置具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的控制模块(芯片组)804、被耦合到控制模块804的存储器806、被耦合到控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到控制模块804的一个或多个输入/输出设备810，以及被耦合到控制模块804的网络接口812。

处理器802可包括一个或多个单核或多核处理器，处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置800能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置800可包括具有指令814的一个或多个计算机可读介质(例如，存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令814以实现模块从而执行本公开中所述的动作的一个或多个处理器802。

对于一个实施例，控制模块804可包括任意适当的接口控制器，以向(一个或多个)处理器802中的至少一个和/或与控制模块804通信的任意适当的设备或组件提供任意适当的接口。

控制模块804可包括存储器控制器模块，以向存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器806可被用于例如为装置800加载和存储数据和/或指令814。对于一个实施例，存储器806可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块804可包括一个或多个输入/输出控制器，以向NVM/存储设备808及(一个或多个)输入/输出设备810提供接口。

例如，NVM/存储设备808可被用于存储数据和/或指令814。NVM/存储设备808可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备808可包括在物理上作为装置800被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备810进行访问。

(一个或多个)输入/输出设备810可为装置800提供接口以与任意其他适当的设备通信，输入/输出设备810可以包括通信组件、音频组件、传感器组件等。网络接口812可为装置800提供接口以通过一个或多个网络通信，装置800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器802中的至少一个可与控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置800可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置800可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的视频摘要生成方法、装置、电子设备和存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频摘要生成方法，其特征在于，所述方法包括：

对源视频进行语音识别，得到所述源视频对应的语音文本；

抽取所述语音文本中用作问题答案的答案文本片段；

截取所述源视频中与各答案文本片段对应的视频片段，以整合生成所述源视频的视频摘要。

2.根据权利要求1所述的方法，其特征在于，在整合生成所述源视频的视频摘要后，所述方法还包括：

接收对所述视频摘要的调整指令，提供视频摘要编辑控件，以基于所述视频摘要编辑控件获取视频摘要调整操作，所述视频摘要调整操作包括视频片段的调序操作、删减操作、文本插入操作中的至少一项；

基于所述视频摘要调整操作对所述视频摘要进行调整。

3.根据权利要求1所述的方法，其特征在于，所述抽取所述语音文本中用作问题答案的答案文本片段，包括：

获取预设的问题文本集；

逐一将所述问题文本集中的问题文本与所述语音文本一并输入至预先训练的问答模型，得到所述语音文本中与各问题文本对应的答案文本片段。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述源视频进行视觉分析，以提取所述源视频中的目标视频片段；

确定所述语音文本中与所述目标视频片段对应的语音文本片段；

抽取所述语音文本片段中的答案文本片段，并将所抽取的各答案文本片段输入至预先训练的问题文本生成模型，得到各答案文本片段对应的问题文本。

5.根据权利要求4所述的方法，其特征在于，所述抽取所述语音文本片段中的答案文本片段，包括：

对于每一个语音文本片段，将该语音文本片段中的各语句输入至预先训练的文本分类模型，以确定各语句的类别；

将同属于目标类别语句进行汇总，得到答案文本片段。

6.根据权利要求4所述的方法，其特征在于，在得到各答案文本片段对应的问题文本后，所述方法还包括：

接收对预设的问题文本集的补充指令，提供问题文本集管理控件，以基于所述问题文本集管理控件确定所得到问题文本中的待补充问题文本；

将所述待补充问题文本添加至所述问题文本集。

7.根据权利要求1所述的方法，其特征在于，在抽取所述语音文本中用作问题答案的答案文本片段之后，所述方法还包括：

获取各答案文本片段所对应的视频片段的起始时间戳和结束时间戳，基于各视频片段的起始时间戳和结束时间戳，对答案文本片段进行去重。

8.根据权利要求1所述的方法，其特征在于，所述整合生成所述源视频的视频摘要，包括：

获取各答案文本片段对应的问题文本；

将各答案文本片段对应的问题文本和视频片段进行整合，生成所述源视频的视频摘要。

9.根据权利要求8所述的方法，其特征在于，在生成所述源视频的视频摘要后，所述方法还包括：

基于各答案文本片段和各答案文本片段对应的问题文本，抽取各视频片段的引导标签；

在所述视频摘要中分段显示各视频片段的引导标签。

10.一种视频摘要生成方法，其特征在于，所述方法包括：

提供交互页面，所述交互页面包括视频上传控件；

根据对视频上传控件的触发，将源视频上传至服务端，以便所述服务端基于所述源视频对应的语音文本中用作问题答案的答案文本片段，截取所述源视频中对应的视频片段并整合生成视频摘要；

接收所述视频摘要。

11.一种视频摘要生成方法，其特征在于，所述方法包括：

对直播视频进行语音识别，得到所述直播视频对应的口播文本；

抽取所述口播文本中用作问题答案的答案文本片段；

截取所述直播视频中与各答案文本片段对应的视频片段，以整合生成所述直播视频的视频摘要。

12.根据权利要求11所述的视频摘要生成方法，其特征在于，所述直播视频包括以下至少一项：电商直播视频、以产品为单位对电商直播视频进行切分后所生成的短视频；

所述答案文本片段为用作电商直播问题的答案的文本片段，所述答案文本片段用于描述产品的以下至少一项：颜色、尺寸、功能、材质、生产方式、适用人群。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12中一个或多个所述的方法。

14.一种机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-12中一个或多个所述的方法。