CN115022733B

CN115022733B - 摘要视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN115022733B
Application number: CN202210689675.6A
Authority: CN
Inventors: 刘钊
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-09-15
Anticipated expiration: 2042-06-17
Also published as: CN115022733A

Abstract

本申请涉及大数据技术，公开了一种摘要视频生成方法、装置、设备及介质，方法包括：获取对话视频，提取对话视频对应的对话录音，根据对话录音与对话视频生成待处理视频，从待处理视频中提取得到多个图像帧，根据图像帧生成至少一个邻近相似帧集合，确定邻近相似帧集合所对应的特征帧，根据特征帧从至少一个邻近相似帧集合中确定目标帧集合，获取目标帧集合对应的目标声轨，根据目标声轨生成对话段落，根据对话段落与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频，以将对话视频中的冗杂信息进行筛除，并生成精炼程度与逻辑关联程度较佳的摘要视频，以进一步提升后续视频分析的效果并降低分析难度。

Description

摘要视频生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及大数据领域，尤其涉及一种摘要视频生成方法、装置、计算机设备及存储介质。

背景技术

目前，诸多行业的销售过程主要是由拜访者向受访者进行拜访及对话。为了针对性地提升实际的拜访效果，可以在拜访过程中对包括拜访者与受访者在内的目标人物进行视频录像，并通过分析拜访视频优化拜访策略。

但视频录像的时长较多且存在大量无关的冗杂信息，不适于进行视频分析，而现有摘要视频方法输出的摘要视频中，视频的精炼程度与逻辑关联程度较差，导致摘要视频的分析价值与可看性都难以令人满意。

发明内容

本申请实施例提供一种摘要视频生成方法、装置、设备及介质，旨在将对话视频中的冗杂信息进行筛除，并生成精炼程度与逻辑关联程度较佳的摘要视频，以进一步提升后续视频分析的效果并降低分析难度。

第一方面，本申请实施例提供了一种摘要视频生成方法，包括：

获取对话视频，其中，对话视频包含至少一个目标人物的对话内容；

提取对话视频对应的对话录音，并根据对话录音与对话视频生成对应目标人物的待处理视频；

从待处理视频中提取得到多个图像帧，并根据图像帧生成至少一个邻近相似帧集合；

确定邻近相似帧集合所对应的特征帧，并根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合；

获取目标帧集合对应的目标声轨，并根据目标声轨生成对应目标人物的对话段落；

根据对话段落与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频。

在一些实施方式中，根据对话录音与对话视频生成对应目标人物的待处理视频，包括：

提取对话录音的有效声轨；

获取目标人物对应的目标声纹特征，并根据目标声纹特征在有效声轨中提取对话声轨；

基于对话声轨与对话视频确定对话图像轨，并合成对话声轨与对话图像轨得到待处理视频。

在一些实施方式中，根据图像帧生成至少一个邻近相似帧集合，包括：

获取图像帧的时间节点以及图像特征向量；

根据时间节点及图像特征向量对多个图像帧分类得到至少一个邻近相似帧集合，其中，邻近相似帧集合中的多个图像帧对应的时间节点连续。

在一些实施方式中，根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合，包括：

获取目标人物对应的目标面部特征；

对特征帧进行面部识别，以获取特征帧中包含的样本面部特征；

当样本面部特征与目标面部特征的特征相似度大于预设阈值，将特征帧对应的邻近相似帧集合作为目标帧集合。

在一些实施方式中，目标人物至少包括第一目标人物与第二目标人物；

根据目标声轨生成对应目标人物的对话段落包括：

获取第一目标人物的第一声纹特征与第二目标人物的第二声纹特征，并根据第一声纹特征与第二声纹特征从目标声轨提取对应的第一目标声轨与第二目标声轨；

识别第一目标声轨获取第一段落及对应的第一时间节点；

识别第二目标声轨获取第二段落及对应的第二时间节点；

根据第一时间节点与第二时间节点拼贴第一段落与第二段落得到对话段落。

在一些实施方式中，根据对话段落与待处理视频生成关键对话视频，包括：

将第一段落与第二段落划分为若干单句；

根据单句在对话段落中的重复次数确定对应的重复度系数；

根据单句在对话段落中的初次出现时间确定对应的优先度系数；

根据第一段落信息与第二段落信息确定单句与对话段落之间的关联度系数；

基于重复度系数、关联度系数、及优先度系数在若干单句中确定关键单句，并根据关键单句与待处理视频生成关键对话视频。

在一些实施方式中，根据第一段落与第二段落确定单句与对话段落之间的关联度系数，包括：

当单句源于第一段落时，对单句与第二段落进行语义分析，以根据分析结果确定第二段落中对应单句的应答出现次数，并作为关联度系数；和/或

当单句源于第一段落时，对单句与第一段落进行语义分析，以根据分析结果确定第一段落中对应单句的应答出现次数，并作为关联度系数。

第二方面，本申请实施例还提供了一种摘要视频生成装置，包括：

对话视频获取模块，用于获取对话视频，对话视频包含至少一个目标人物的对话；

录音提取模块，用于提取对话视频对应的对话录音，并根据对话录音与对话视频生成对应目标人物的待处理视频；

帧集合生成模块，用于从待处理视频中提取得到多个图像帧，并根据图像帧生成至少一个邻近相似帧集合；

目标帧集合确定模块，用于确定邻近相似帧集合所对应的特征帧，并根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合；

对话段落生成模块，用于获取目标帧集合对应的目标声轨，并根据目标声轨生成对应目标人物的对话段落；

对话视频拼贴模块，用于根据对话段落与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频。

第三方面，本申请实施例还提供了一种计算机设备，其特征在于，计算机设备包括存储器和处理器；

存储器，用于存储计算机程序；

处理器，用于执行的计算机程序并在执行的计算机程序时实现如本申请说明书任一实施例提供的摘要视频生成方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时使处理器实现如本申请说明书任一实施例提供的摘要视频生成方法。

本申请实施例提供了一种摘要视频生成方法、装置、设备及介质，其中，摘要视频生成方法包括：获取对话视频，其中，对话视频包含至少一个目标人物的对话内容，提取对话视频对应的对话录音，并根据对话录音与对话视频生成对应目标人物的待处理视频，从待处理视频中提取得到多个图像帧，并根据图像帧生成至少一个邻近相似帧集合，确定邻近相似帧集合所对应的特征帧，并根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合，获取目标帧集合对应的目标声轨，并根据目标声轨生成对应目标人物的对话段落，根据对话段落与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频，以将对话视频中的冗杂信息进行筛除，并生成精炼程度与逻辑关联程度较佳的摘要视频，以进一步提升后续视频分析的效果并降低分析难度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种摘要视频生成方法的步骤流程示意图；

图2是图1摘要视频生成方法中待处理视频生成步骤的流程示意图；

图3是图1摘要视频生成方法中关键对话视频生成步骤的流程示意图；

图4是图关键对话视频生成步骤中关联度系数确定步骤的流程示意图；

图5是本申请实施例提供的一种摘要视频生成装置的模块结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

目前，诸多行业的销售过程主要是由拜访者向受访者进行拜访及对话。为了针对性地提升实际的拜访效果，可以在拜访过程中对包括拜访者与受访者在内的目标人物进行视频录像，并通过分析拜访视频优化拜访策略。但视频录像的时长较多且存在大量无关的冗杂信息，不适于进行视频分析，而现有摘要视频方法输出的摘要视频中，视频的精炼程度与逻辑关联程度较差，导致摘要视频的分析价值与可看性都难以令人满意。

基于此，本申请实施例提供一种摘要视频生成方法、装置、设备及介质，旨在将对话视频中的冗杂信息进行筛除，并生成精炼程度与逻辑关联程度较佳的摘要视频，以进一步提升后续视频分析的效果并降低分析难度。其中，本摘要视频生成方法可应用于计算机、智能机器人、独立的服务器或服务器集群等电子设备，在此不做限定。

本实施例中，以该摘要视频生成方法应用于计算机为例进行说明，但不局限于摘要视频生成方法仅可以用于计算机。

下面结合附图，对本申请的一些实施方式作详细说明，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1为本申请实施例提供的一种摘要视频生成方法的步骤示意流程图，该方法具体包括以下步骤S1-S6。

步骤S1、获取对话视频，所述对话视频包含至少一个目标人物的对话内容。

获取原始的对话视频，所述对话视频包含至少一个目标人物的对话内容，其中，目标人物包括但不限于拜访者与受访者中的任意一者，而拜访者与受访者的数量可以是一位或多位，目标人物的对话内容可以是拜访者与受访者中的任意一者的对话行为。

示例性的，获取对话视频可以是由执行本方法的计算机接收对话视频的视频链接，并基于视频链接下载以获取该对话视频，也可以是由执行本方法的计算机直接接收该对话视频。

应理解的是，对话视频可以是多段的对话视频或一段连续的对话视频，当对话视频为多段时，在获取对话视频时可以是：首先确定每一段对话视频的视频时长，然后获取视频时长大于预设时长阈值的对话视频。通过视频时长对多段的对话视频进行筛选获取，避免了获取时长过短的对话视频，从而剔除多段对话视频中冗杂的部分对话视频。

步骤S2、提取所述对话视频对应的对话录音，并根据所述对话录音与所述对话视频生成对应所述目标人物的待处理视频。

应理解，对应的对话录音包含了对话视频中的声轨信息。在获取对话视频后，对该对话视频的声轨进行提取可获得与对话视频对应的对话录音，然后根据对话录音与对话视频生成对应目标人物的待处理视频，其中，目标人物包括但不限于拜访者与受访者中的任意一者。

如图2所示，在一些实施方式中，根据对话录音与对话视频生成对应目标人物的待处理视频，包括步骤S21-S23：

步骤S21：提取对话录音的有效声轨。

具体地，执行本方法的计算机首先提取对话录音的有效声轨，其中，对话录音的有效声轨可以是对话录音的完整声轨，也可以是对话录音完整声轨中的部分声轨片段。

在一些实施方式中，提取对话录音的有效声轨包括：提取对话录音的完整声轨并将该完整声轨划分为多个声轨片段，基于预设的语音识别模型对多个声轨片段，进行识别以确定包含语言声音的声轨片段，并以包含语言声音的声轨片段作为有效声轨，其中，将该完整声轨划分为多个声轨片段可以是根据预设的划分规则进行划分，例如根据预设的时间间距均匀地将完整声轨划分为多个声轨片段。

可以理解的是，基于预设的语音识别模型对声轨片段进行识别，若识别得到声轨片段对应的文字，可确定声轨片段包含语言声音，若无法识别得到声轨片段对应的文字，可认为声轨片段不包含语言声音或声轨片段的清晰度过低，从而将不含具体内容的声轨片段或声音过于模糊的声轨片段筛除。因此，仅需确定针对该声轨该片段能否识别得到对应的文字便可确定是否将该声轨片段进行筛除，简单高效地剔除了部分冗杂的声轨片段。

步骤S22：获取目标人物对应的目标声纹特征，并根据目标声纹特征在有效声轨中提取对话声轨。

对于提取得到的有效声轨，执行本方法的设备获取目标人物对应的目标声纹特征，并根据目标声纹特征与预设的声纹特征模型在有效声轨中提取对话声轨。可以理解的是，有效声轨中可能存在不同人物的声音，不同人物声音对应的声纹特征不同，而目标人物对应于特定的目标声纹特征，因此可以利用机器学习建立声纹特征模型。示例性地，声纹特征模型可以使用的特征数据包括：声学特征数据；词法特征数据；韵律特征数据。

具体地，根据预设的声纹特征模型件将有效声轨拆分为多个对应不同声纹特征的声轨分轨，然后根据目标声纹特征在拆分得到的多个声轨分轨中确定与目标人物对应的对话声轨。其中，目标声纹特征包括基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、及感知线性预测中的至少一者。

在一些实施方式中，当目标人物的数量为两个或以上时，可以根据不同目标人物的目标声纹特征提取得到两条或以上的对话声轨，也可以根据不同目标人物的目标声纹特征提取并合成得到一条的对话声轨。

在一些实施方式中，声纹特征模型是利用目标人物的语音数据输入到预设神经网络模型训练获得。预设的声纹特征模型可以是利用目标人物的声纹特征数据进行训练获取，以使声纹特征模型拆分有效声轨的结果更为准确。实际应用中，声纹特征数据包括基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、感知线性预测数据中的至少一者。

步骤S23：基于对话声轨与对话视频确定对话图像轨，并合成对话声轨与对话图像轨得到待处理视频。

在提取对话声轨之后，识别该对话声轨以确定对话声轨中存在有声音信息的时间戳，根据该时间戳与对话视频确定对话图像轨，然后合成对话声轨与对话图像轨得到待处理视频。

应理解，对话声轨对应于目标人物的对话，而在目标人物停顿或没有进行对话的时间，对话声轨上对应的时间戳不存在有声音信息，因此可以通过识别该对话声轨以确定以确定对话声轨中存在有声音信息的时间戳。

还应理解，对话声轨与对话视频关联于同一时间轴，因此根据时间戳与对话视频确定对话图像轨确定对话图像轨，并按照时间戳在时间轴上的顺序将对话声轨与对话图像轨进行合成可以得到待处理视频。

以下将以目标人物的数量为两个或以上且提取得到两条或以上的对话声轨的情况进行说明，应理解，两条或以上的对话声轨关联于同一时间轴，执行本方法的设备分别对每一个对话声轨进行识别，以获取对话声轨中存在有声音信息的时间戳，然后根据对话视频和对话声轨的时间轴、对话声轨中存在有声音信息的时间戳以及对话视频确定对话图像轨，然后按照时间戳在时间轴上的顺序将两条或以上的对话声轨以及对话图像轨进行合成得到待处理视频。

通过提取对话录音的有效声轨、借助目标人物对应的目标声纹特征进一步提取对话声轨、并基于对话声轨与对话视频生成待处理视频，剔除了对话视频中不存在目标人物对话的部分片段，提升了生成的待处理视频的有效信息密度。

步骤S3、从所述待处理视频中提取得到多个图像帧，并根据所述图像帧生成至少一个邻近相似帧集合。

具体地，待处理视频中包括多个图像帧，将多个图像帧的其中部分或全部提取出来，并将提取出来的图像帧进行分类以生成至少一个邻近相似帧集合。

获取图像帧的时间节点以及图像特征向量；

具体地，首先是获取图像帧的时间节点以及图像特征向量，比对多个图像帧之间的图像特征向量，以将多个图像帧分类得到向量相似帧集合；然后读取向量相似帧集合中多个图像帧对应的时间节点，将对应时间节点连续的多个图像帧进行分类聚合得到至少一个的邻近相似帧集合，因此邻近相似帧集合中的多个图像帧对应的时间节点连续。通过根据时间节点及图像特征向量获取邻近相似帧集合，便于后续确定目标帧集合以生成对应目标人物的对话段落。

步骤S4、确定所述邻近相似帧集合所对应的特征帧，并根据所述特征帧从至少一个的所述邻近相似帧集合中确定目标帧集合。

执行本方法的设备确定邻近相似帧集合所对应的特征帧，具体的，每个邻近相似帧集合对应的特征帧可以是一个或至少两个，确定邻近相似帧集合所对应的特征帧可以是以邻近相似帧集合中对应的时间节点最早、最晚或中间的图像帧作为特征帧，又或，以邻近相似帧集合中对应的图像特征向量处于预设向量范围的图像帧作为特征帧。

在确定邻近相似帧集合对应的特征帧之后，根据特征帧从至少一个的邻近相似帧集合中确定与目标人物对应的目标帧集合。

获取目标人物对应的目标面部特征；

具体的，对于邻近相似帧集合，执行本方法的设备获取目标人物对应的目标面部特征，根据预设的面部识别模型对特征帧进行面部识别，以获取特征帧中包含的样本面部特征，当样本面部特征与目标面部特征的特征相似度大于预设阈值，将特征帧对应的邻近相似帧集合作为目标帧集合。

需理解的是，特征帧中可能存在不同人物的面部，不同人物面部对应的面部特征不同，而目标人物对应于特定的目标面部特征，因此可以利用机器学习建立面部识别模型。示例性地，面部特征模型可以使用的特征数据包括：肤色特征数据；器官特征数据；表情特征数据。

还需理解的是，当样本面部特征与目标面部特征的特征相似度大于预设阈值，可认为特征帧中出现的人物面部即为目标人物的面部，因此将特征帧对应的邻近相似帧集合作为目标帧集合，可以将目标人物出现的邻近相似帧筛选出来。

步骤S5、获取所述目标帧集合对应的目标声轨，并根据所述目标声轨生成对应所述目标人物的对话段落。

应理解的是，图像帧与对话视频关联于同一个时间轴，目标帧集合中的多个图像帧对应的时间节点连续，因此可根据目标帧集合中图像帧的时间节点以及对话视频获取目标帧集合对应的目标声轨。获取目标声轨后，对目标声轨进行识别以生成对应目标人物的对话段落。

在一些实施方式中，目标人物至少包括第一目标人物与第二目标人物，根据目标声轨生成对应目标人物的对话段落包括：

识别第一目标声轨获取第一段落及对应的第一时间节点；

识别第二目标声轨获取第二段落及对应的第二时间节点；

应理解，大部分的访问过程涉及两位目标人物的交流，因此对应的对话视频中应包含两位目标人物，对应的目标声轨也应至少包含第一目标声轨与第二目标声轨，其中，第一目标声轨与第一目标人物的对话对应，第二目标声轨与第二目标人物的对话对应。示例性地，第一目标人物与第二目标人物可以分别是拜访过程中的拜访者与受访者。

还应理解，不同人物声音对应的声纹特征不同，而第一目标人物对应于特定的第一声纹特征，第二目标人物对应于特定的第二声纹特征。

具体地，执行本方法的设备首先获取第一目标人物的第一声纹特征与第二目标人物的第二声纹特征，并根据第一声纹特征与第二声纹特征从目标声轨提取对应的第一目标声轨与第二目标声轨；然后识别第一目标声轨获取第一段落及对应的第一时间节点，识别第二目标声轨获取第二段落及对应的第二时间节点；再根据第一时间节点与第二时间节点拼贴第一段落与第二段落得到对话段落。

在一些实施方式中，第一段落和/或第二段落可以包括文本信息，识别第一目标声轨获取第一段落具体包括：基于预设的语音识别模型对第一目标进行识别以获取第一段落；识别第二目标声轨获取第二段落具体包括：基于预设的语音识别模型对第二目标进行识别以获取第二段落。

其中，第一段落与第二段落的数量可以是一个或至少两个，根据第一时间节点与第二时间节点拼贴第一段落与第二段落得到对话段落具体包括：确定每一第一段落对应的第一时间节点与第二段落对应的第二时间节点在时间轴上上的先后顺序，并根据该先后顺序将每一第一段落与第二段落进行拼贴得到对话段落。

在一些实施方式中，第一声纹特征与第二声纹特征是利用第一目标人物与第二目标人物的语音数据输入到预设神经网络模型训练获得，以使根据第一声纹特征与第二声纹特征提取第一目标声轨与第二目标声轨的结果更为准确。

步骤S6、根据所述对话段落与所述待处理视频生成关键对话视频，并拼贴所述关键对话视频得到目标摘要视频。

根据对话段落与待处理视频生成至少一个关键对话视频，并根据时间轴拼贴关键对话视频得到目标摘要视频。应理解，对话段落、待处理视频、及对话视频关联于同一个时间轴。

还应理解，对话段落中包括多个单句，且每一单句与待处理视频及对话视频关联于同一时间轴，因此根据单句在时间轴上对应的时间节点对待处理视频进行截取可以生成至少一个关键对话视频，再根据关键对话视频在时间轴上对应的时间节点拼贴关键对话视频可得到目标摘要视频。

如图3所示，在一些实施方式中，在对话段落是由第一段落与第二段落拼贴得到的情况下，根据对话段落与待处理视频生成关键对话视频，具体包括步骤S61-S65：

步骤S61：将第一段落与第二段落划分为若干单句；

步骤S62：根据单句在对话段落中的重复次数确定对应的重复度系数；

步骤S63：根据单句在对话段落中的初次出现时间确定对应的优先度系数；

步骤S64：根据第一段落信息与第二段落信息确定单句与对话段落之间的关联度系数；

步骤S65：基于重复度系数、关联度系数、及优先度系数在若干单句中确定关键单句，并根据关键单句与待处理视频生成关键对话视频。

具体的，将第一段落与第二段落划分为若干单句，根据单句在对话段落中的重复次数确定对应的重复度系数，根据单句在对话段落中的初次出现时间确定对应的优先度系数，根据第一段落信息与第二段落信息确定单句与对话段落之间的关联度系数，基于重复度系数、关联度系数、及优先度系数在若干单句中确定关键单句，并根据关键单句与待处理视频生成关键对话视频。

在一些实施方式中，步骤S61将第一段落与第二段落划分为若干单句可以包括：基于预设的分段算法和/或第三方分段工具将包括第一段落与第二段落的段落信息分段为若干语义连续的单句。

其中，常见的第三方分词工具包括但不限于：Stanford NLP分段工具、ICTClAS分段系统、ansj分段工具和HanLP中文分段工具等。

其中，分段算法包括但不限于：最大正向匹配(Maximum Matching，简称MM)算法、逆向最大匹配(Reverse Direction Maximum Matching Method，简称RMM)算法、双向最大匹配(Bi-directional Matching method，简称BM)算法、隐马尔科夫模型(Hidden MarkovModel，简称HMM)和N-gram模型等。

容易理解地，通过从包括第一段落与第二段落的段落信息中提取若干单句，可以使获得的单句语义连续统一并且使不同的单句之间语义相互独立。

应理解的是，重复度系数用于表征单句在对话段落中的重复次数，当某一单句越重要时，该单句在对话段落中的重复次数越多，则重复度系数越高；优先度系数用于表征单句在对话段落中初次出现的时间节点，当某一单句越重要时，该单句对应的时间节点在时间轴上的位置越靠前，则优先度系数越高；而关联度系数用于表征该单句与对话段落中其它单句内容的逻辑关联度，当某一单句越重要时，该单句与对话段落中其它单句内容的逻辑关联度越高，则重复度系数越高。由此，基于重复度系数、关联度系数、及优先度系数在第一段落与第二段落的若干单句中确定关键单句，并根据关键单句与待处理视频生成关键对话视频，可以从重复次数、初次出现时间以及与整体对话段落的逻辑关联度三个维度去评判某一单句在第一段落与第二段落中的重要程度、以及评判某一单句是否为值得保留的关键单句。

在一些实施方式中，基于重复度系数、关联度系数、及优先度系数在若干单句中确定关键单句可以是基于预设的加权因子，并结合重复度系数、关联度系数、及优先度系数计算出用于表征单句在对话段落中重要程度的加权系数；然后根据加权系数在若干单句中确定关键单句。

具体地，根据加权系数在若干单句中确定关键单句可以是当某一单句的加权系数大于预设的系数阈值时，以该单句作为关键单句；也可以是比较多个单句的加权系数，当某一单句的加权系数大于预设数量的其它单句的加权系数时，以该单句作为关键单句。

如图4所示，在一些实施方式中，步骤S64具体包括步骤S641-S642：

步骤S641：当单句源于第一段落时，对单句与第二段落进行语义分析，以根据分析结果确定第二段落中对应单句的应答出现次数，并作为关联度系数；和/或

步骤S642：当单句源于第二段落时，对单句与第一段落进行语义分析，以根据分析结果确定第一段落中对应单句的应答出现次数，并作为关联度系数。

可以理解的是，第一段落与第二段落分别对应第一目标人物的对话与第二目标人物的对话，基于第一目标人物与第二目标人物的对话，可通过语义分析的结果确定单句与对应单句的应答，并根据对应应答的出现系数确定关联度系数。

具体地，当单句源于第一段落时，对单句与第二段落进行语义分析，以根据分析结果确定第二段落中对应单句的应答出现次数，并作为关联度系数；和/或，当单句源于第二段落时，对单句与第一段落进行语义分析，以根据分析结果确定第一段落中对应单句的应答出现次数，并作为关联度系数。

以第一段落对应访问者，而第二段落对应受访者为例对关联度系数的生成过程进行具体说明：譬如第一段落中某一单句为：“请您分享一下A产品的使用体验”，将该单句与受访者对应的第二段落进行语义分析，以将与“A产品”及“使用体验”相关的单句作为应答，譬如第二段落中出现的“A产品适合婴幼儿人群”、“用起来比较耗电”这类的单句，然后根据应答出现次数作为关联度系数。

通过对第一段落、第二段落及单句进行语义分析，可以根据单句的应答出现次数确定单句的关联度系数，以表征单句与前后对话的逻辑关联程度，从而在确定关键单句时将逻辑关联程度较好的单句选出，并根据选出的关键单句生成精炼程度与逻辑关联程度较佳的关键对话视频。

在获取目标声轨后，根据关键单句与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频。应理解，关键单句与待处理视频关联于同一时间轴，根据关键单句在时间轴上对应的时间节点对待处理视频进行截取可获得与关键单句对应的关键对话视频，按照多个关键对话视频在时间轴上的先后顺序将多个关键对话视频进行拼接便得到了精炼程度与逻辑关联程度较佳的目标摘要视频。

综上，本发明提供的摘要视频生成方法可应用于服务器，旨在将对话视频中的冗杂信息进行筛除，并生成精炼程度与逻辑关联程度较佳的摘要视频，以进一步提升后续视频分析的效果并降低分析难度。摘要视频生成方法具体包括：获取对话视频，其中，对话视频包含至少一个目标人物的对话内容；提取对话视频对应的对话录音，并根据对话录音与对话视频生成对应目标人物的待处理视频；从待处理视频中提取得到多个图像帧，并根据图像帧生成至少一个邻近相似帧集合；确定邻近相似帧集合所对应的特征帧，并根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合；获取目标帧集合对应的目标声轨，并根据目标声轨生成对应目标人物的对话段落；根据对话段落与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频。本申请提供的摘要视频生成方法通过根据对话段落与待处理视频生成关键对话视频，以拼贴关键对话视频得到目标摘要视频，提高了生成的目标摘要视频的精炼程度与逻辑关联程度。

图5为本申请实施例提供的一种摘要视频生成装置的模块结构示意图，如图5所示，摘要视频生成装置700包括：

对话视频获取模块701，用于获取对话视频，其中，对话视频包含至少一个目标人物的对话内容；

录音提取模块702，用于提取对话视频对应的对话录音，并根据对话录音与对话视频生成对应目标人物的待处理视频；

帧集合生成模块703，用于从待处理视频中提取得到多个图像帧，并根据图像帧生成至少一个邻近相似帧集合；

目标帧集合确定模块704，用于确定邻近相似帧集合所对应的特征帧，并根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合；

对话段落生成模块705，用于获取目标帧集合对应的目标声轨，并根据目标声轨生成对应目标人物的对话段落；

对话视频拼贴模块706，用于根据对话段落与待处理视频生成关键对话视频，并拼贴关键对话视频得到目标摘要视频。

在一些实施方式中，录音提取模块702根据对话录音与对话视频生成对应目标人物的待处理视频，具体包括：

提取对话录音的有效声轨；

在一些实施方式中，帧集合生成模块703根据图像帧生成至少一个邻近相似帧集合，具体包括：

获取图像帧的时间节点以及图像特征向量；

在一些实施方式中，目标帧集合确定模块704根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合，具体包括：

获取目标人物对应的目标面部特征；

在一些实施方式中，目标人物至少包括第一目标人物与第二目标人物，对话段落生成模块705根据目标声轨生成对应目标人物的对话段落，具体包括：

识别第一目标声轨获取第一段落及对应的第一时间节点；

识别第二目标声轨获取第二段落及对应的第二时间节点；

在一些实施方式中，对话视频拼贴模块706根据对话段落与待处理视频生成关键对话视频，具体包括：

将第一段落与第二段落划分为若干单句；

根据单句在对话段落中的重复次数确定对应的重复度系数；

在一些实施方式中，对话视频拼贴模块706根据第一段落与第二段落确定单句与对话段落之间的关联度系数，具体包括：

请参阅图6，图6为本申请实施例提供的一种计算机设备的结构示意性框图。

如图6所示，计算机设备800包括处理器801和存储器802，处理器801和存储器802通过总线803连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器801用于提供计算和控制能力，支撑整个计算机设备的运行。处理器801可以是中央处理单元(Central Processing Unit，CPU)，该处理器801还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器802可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请实施例提供的任意一种的摘要视频生成方法。

在一些实施方式中，处理器801用于运行存储在存储器802中的计算机程序，并在执行计算机程序时实现如下步骤：

在一些实施方式中，处理器801在根据对话录音与对话视频生成对应目标人物的待处理视频时，包括：

提取对话录音的有效声轨；

在一些实施方式中，处理器801在根据图像帧生成至少一个邻近相似帧集合时，包括：

获取图像帧的时间节点以及图像特征向量；

在一些实施方式中，处理器801在根据特征帧从至少一个的邻近相似帧集合中确定目标帧集合时，包括：

获取目标人物对应的目标面部特征；

在一些实施方式中，目标人物至少包括第一目标人物与第二目标人物，处理器801在根据目标声轨生成对应目标人物的对话段落时，包括：

识别第一目标声轨获取第一段落及对应的第一时间节点；

识别第二目标声轨获取第二段落及对应的第二时间节点；

在一些实施方式中，处理器801在根据对话段落与待处理视频生成关键对话视频时，包括：

将第一段落与第二段落划分为若干单句；

根据单句在对话段落中的重复次数确定对应的重复度系数；

在一些实施方式中，处理器801在根据第一段落与第二段落确定单句与对话段落之间的关联度系数时，包括：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述摘要视频生成方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序可被一个或者多个处理器执行，以实现如本申请实施例说明书提供的任一项摘要视频生成方法的步骤。

其中，所述存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本申请的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种摘要视频生成方法，其特征在于，所述方法包括：

获取对话视频，所述对话视频包含至少一个目标人物的对话内容；

提取所述对话视频对应的对话录音，并根据所述对话录音与所述对话视频生成对应所述目标人物的待处理视频；

从所述待处理视频中提取得到多个图像帧，并根据所述图像帧生成至少一个邻近相似帧集合；

确定所述邻近相似帧集合所对应的特征帧，并根据所述特征帧从至少一个的所述邻近相似帧集合中确定目标帧集合；

获取所述目标帧集合对应的目标声轨，并根据所述目标声轨生成对应所述目标人物的对话段落，所述对话段落包括对应第一目标人物的第一段落与对应第二目标人物的第二段落；

将所述第一段落与所述第二段落划分为若干单句；

确定所述单句的重复度系数、优先度系数及关联度系数；

基于所述重复度系数、所述关联度系数及所述优先度系数在所述单句中确定关键单句，并根据所述关键单句与所述待处理视频生成关键对话视频；

拼贴所述关键对话视频得到目标摘要视频；

其中，确定所述单句的关联度系数包括：

当所述单句源于所述第一段落时，根据所述第二段落中对应所述单句的应答出现次数确定所述关联度系数；和/或，

当所述单句源于所述第二段落时，根据所述第一段落中对应所述单句的应答出现次数确定作为所述关联度系数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述对话录音与所述对话视频生成对应所述目标人物的待处理视频，包括：

提取所述对话录音的有效声轨；

获取所述目标人物对应的目标声纹特征，并根据所述目标声纹特征在所述有效声轨中提取对话声轨；

基于所述对话声轨与所述对话视频确定对话图像轨，并合成所述对话声轨与所述对话图像轨得到所述待处理视频。

3.根据权利要求1所述的方法，其特征在于，所述根据所述图像帧生成至少一个邻近相似帧集合，包括：

获取所述图像帧的时间节点以及图像特征向量；

根据所述时间节点及所述图像特征向量对多个所述图像帧分类得到至少一个所述邻近相似帧集合，其中，所述邻近相似帧集合中的多个所述图像帧对应的时间节点连续。

4.根据权利要求1所述的方法，其特征在于，所述根据所述特征帧从至少一个的所述邻近相似帧集合中确定目标帧集合，包括：

获取所述目标人物对应的目标面部特征；

对所述特征帧进行面部识别，以获取所述特征帧中包含的样本面部特征；

当所述样本面部特征与所述目标面部特征的特征相似度大于预设阈值，将所述特征帧对应的所述邻近相似帧集合作为所述目标帧集合。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述目标人物至少包括第一目标人物与第二目标人物；

所述根据所述目标声轨生成对应所述目标人物的对话段落包括：

获取所述第一目标人物的第一声纹特征与所述第二目标人物的第二声纹特征，并根据所述第一声纹特征与所述第二声纹特征从所述目标声轨提取对应的第一目标声轨与第二目标声轨；

识别所述第一目标声轨获取第一段落及对应的第一时间节点；

识别所述第二目标声轨获取第二段落及对应的第二时间节点；

根据所述第一时间节点与所述第二时间节点拼贴所述第一段落与所述第二段落得到所述对话段落。

6.根据权利要求5所述的方法，其特征在于，所述确定所述单句的重复度系数、优先度系数及关联度系数，包括：

根据所述单句在所述对话段落中的重复次数确定对应的重复度系数；

根据所述单句在所述对话段落中的初次出现时间确定对应的优先度系数；

根据所述第一段落与所述第二段落确定所述单句与所述对话段落之间的关联度系数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一段落与所述第二段落确定所述单句与所述对话段落之间的关联度系数，包括：

当所述单句源于所述第一段落时，对所述单句与所述第二段落进行语义分析，以根据分析结果确定所述第二段落中对应所述单句的应答出现次数，并作为所述关联度系数；和/或

当所述单句源于所述第二段落时，对所述单句与所述第一段落进行语义分析，以根据分析结果确定所述第一段落中对应所述单句的应答出现次数，并作为所述关联度系数。

8.一种摘要视频生成装置，其特征在于，包括：

对话视频获取模块，用于获取对话视频，所述对话视频包含至少一个目标人物的对话；

录音提取模块，用于提取所述对话视频对应的对话录音，并根据所述对话录音与所述对话视频生成对应所述目标人物的待处理视频；

帧集合生成模块，用于从所述待处理视频中提取得到多个图像帧，并根据所述图像帧生成至少一个邻近相似帧集合；

目标帧集合确定模块，用于确定所述邻近相似帧集合所对应的特征帧，并根据所述特征帧从至少一个的所述邻近相似帧集合中确定目标帧集合；

对话段落生成模块，用于获取所述目标帧集合对应的目标声轨，并根据所述目标声轨生成对应所述目标人物的对话段落，所述对话段落包括对应第一目标人物的第一段落与对应第二目标人物的第二段落；

对话视频拼贴模块，用于将所述第一段落与所述第二段落划分为若干单句；

确定所述单句的重复度系数、优先度系数及关联度系数；

基于所述重复度系数、所述关联度系数、及所述优先度系数在所述单句中确定关键单句，并根据所述关键单句与所述待处理视频生成关键对话视频；拼贴所述关键对话视频得到目标摘要视频；

其中，确定所述单句的关联度系数包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的摘要视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的摘要视频生成方法。