CN112511854A

CN112511854A - 一种直播视频精彩片段生成方法、装置、介质和设备

Info

Publication number: CN112511854A
Application number: CN202011361584.7A
Authority: CN
Inventors: 刘亚虹
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-16
Anticipated expiration: 2040-11-27
Also published as: CN112511854B

Abstract

本发明涉及一种直播视频精彩片段生成方法、装置、介质和设备。根据本发明实施例提供的方案，可以按照预先设置的每一种特征类型的特征，实现精彩片段的自动生成。保证直播视频精彩片段生成效率的同时，有效降低直播视频精彩片段生成的复杂度。进一步的，还可以将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，基于多种特征类型的特征来获得精彩片段。其中，在进行时间边界整合时，可以基于特征聚类的密集度来确定精彩片段的起点和终点。另外，还可以基于多模态特征，来自动生成精彩片段对应的标签。此外，还可以根据用户反馈，选择正样本和负样本，实现模型的周期性自动迭代，保证生成的精彩片段可以更好地满足用户需求。

Description

一种直播视频精彩片段生成方法、装置、介质和设备

技术领域

本发明涉及互联网技术领域，特别涉及一种直播视频精彩片段生成方法、装置、介质和设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

网络直播可以理解为在现场随着事件的发生、发展进程，同步制作信息，并通过网络发布信息的方式。随着4G/5G移动互联网和智能手机的快速普及，以网络直播为载体的内容供给越来越丰富，在各行业的应用越来越广。特别是在电商，在线教育，游戏，旅游，房产，汽车等领域，网络直播已经成为一种高效的信息传播和业务开展途径。

短视频或小视频通常由作者提前进行内容构思和设计，通过精细剪辑获得，内容信息承载密度比较高。而直播视频(即以网络直播的方式发布的视频)不同于占用较短时长的短视频(例如，60秒)或小视频(例如，5分钟)，通常占用较长时长(例如，45分钟)，更强调连续性，中间会有很多互动和过渡，内容会相对发散，会有多个话题，精彩部分也可能分散在一场网络直播的多个部分。

网络直播具有实时性，很多用户可能在直播视频实时播放时没有时间看，在直播视频实时播放结束后，会希望观看直播视频回放，由此产生了针对回放的直播视频生成精彩片段的需求。生成的精彩片段，可以为用户提供快速的预览功能，使得用户观看生成的精彩片段，即可以满足观看需求，而无需观看整个直播视频。例如，可以对内容为商品带货的直播视频按照商品维度进行切分生成精彩片段，用户针对性地观看其关心的某个商品对应的精彩片段即可。又如，可以对内容为题目讲解的直播视频按照题目维度进行切分生成精彩片段，用户针对性地观看其关心的某个题目对应的精彩片段即可。另外，生成的精彩片段，也是对短视频和小视频内容源非常好的补充。

目前直播视频精彩片段的生成，要么通过人工观看的方式，由人工对直播视频进行裁剪，生成精彩片段。要么与主播约定，在网络直播过程中用比较明显的手势或者道具来表示精彩片段的起点和终点，通过机器识别约定手势或者道具，来对直播视频进行裁剪，生成精彩片段。

人工观看的方式存在效率较低，人力成本高的问题。且对观看人的注意力要求较高，一旦观看人的注意力分散，容易出现精彩片段生成不够准确的问题。

而与主播约定的方式，实现较为复杂，需要对主播进行培训，且为了避免主播不正确地使用手势或道具，需要对生成的精彩片段进行人工校验，同样存在成本较高的问题。此外，针对无主播的网络直播，则无法按照此方式生成精彩片段，此种方式的适用性存在较大的局限。

发明内容

本发明实施例提供一种直播视频精彩片段生成方法、装置、介质和设备，用于解决直播视频精彩片段生成效率低或实现复杂的问题。

第一方面，本发明提供了一种直播视频精彩片段生成方法，所述方法包括：

获取待生成精彩片段的直播视频；

针对从所述直播视频的第一个时间切片向最后一个时间切片滑动的滑动窗口，其中，所述时间切片通过对所述直播视频按照设定时长切分得到，所述滑动窗口对应至少两个时间切片时长，执行以下操作：

针对预先配置的至少一种特征类型，利用预先建立的特征生成模型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征；

分别针对每一种特征类型的特征，利用预先建立的特征聚类模型，对所述滑动窗口当前对应的各时间切片进行特征聚类，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段；

将所述滑动窗口滑动指定数量的时间切片时长，返回执行针对预先配置的至少一种特征类型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，直至所述滑动窗口当前对应的各时间切片为所述直播视频末尾的时间切片。

可选的，分别针对每一种特征类型的特征，对所述滑动窗口当前对应的各时间切片进行特征聚类，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段之后，将所述滑动窗口滑动指定数量的时间切片时长之前，所述方法还包括：

将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段。

可选的，所述方法还包括：

确定打分最高的设定数量的整合片段，其中，利用预先建立的打分模型，按照一个整合片段所对应的特征中的至少一个，对该整合片段进行打分。

可选的，所述方法还包括：

确定每个打分最高的设定数量的整合片段对应的标签信息，其中，根据一个整合片段所对应的各权重最大的聚类对应的特征中的至少一个，确定该整合片段对应的标签信息。

可选的，将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段，包括：

确定第一子时间切片，所述第一子时间切片为针对每一种特征类型的特征，获得的每个聚合片段中，开始时间最早和开始时间最晚的时间边界之间，权重最大的各个聚类对应的各个特征出现次数最多的子时间切片；以及，

确定第二子时间切片，所述第二子时间切片为针对每一种特征类型的特征，获得的每个聚合片段中，结束时间最早和结束时间最晚的时间边界之间，权重最大的各个聚类对应的各个特征出现次数最少的子时间切片；

将所述第一子时间切片，作为整合片段的起始子时间切片，将所述第二子时间切片，作为所述整合片段的结束子时间切片；

其中，所述子时间切片为对所述时间切片按照指定时长切分得到。

可选的，预先配置的至少一种特征类型包括文本类型、视觉类型、情绪类型和行为类型；

其中，所述文本类型的特征用于描述可以获取的文本形式的信息；

所述视觉类型的特征用于描述可以观看到的物体；

所述情绪类型的特征用于描述主播的情绪；

所述行为类型的特征用于描述用户的观看行为。

可选的，针对预先配置的至少一种特征类型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，包括：

若所述直播视频对应的粉丝数小于设定值，则利用预先训练出的特征预测模型，预测滑动窗口当前对应的各时间切片，对应的至少一个特征；

其中，所述特征预测模型通过对对应的粉丝数不小于设定值的直播视频对应的特征预测模型进行迁移学习获得。

可选的，所述方法还包括：

根据选择出的正样本和负样本，对所述特征生成模型、所述特征聚类模型和所述打分模型中的至少一个进行迭代；

其中，所述正样本和负样本为按照设定周期和设定方式，从资源候选池中的直播视频精彩片段中选择出的。

第二方面，本发明还提供了一种直播视频精彩片段生成装置，所述装置包括：

获取模块，用于获取待生成精彩片段的直播视频；

生成模块，用于针对从所述直播视频的第一个时间切片向最后一个时间切片滑动的滑动窗口，其中，所述时间切片通过对所述直播视频按照设定时长切分得到，所述滑动窗口对应至少两个时间切片时长，执行以下操作：

利用特征生成子模块针对预先配置的至少一种特征类型，利用预先建立的特征生成模型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征；

利用聚合子模块分别针对每一种特征类型的特征，利用预先建立的特征聚类模型，对所述滑动窗口当前对应的各时间切片进行特征聚类，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段；

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

第四方面，本发明还提供了一种直播视频精彩片段生成设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现如上所述的方法步骤。

根据本发明实施例提供的方案，可以对直播视频按照设定时长进行切分得到各个时间切片，并设置滑动窗口，对滑动窗口每次滑动后对应的各时间切片，分别进行精彩片段生成。其中，对滑动窗口对应的各时间切片，可以分别按照每种特征类型的特征进行特征聚类，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段。从而按照预先设置的每一种特征类型的特征，实现精彩片段的自动生成。保证直播视频精彩片段生成的效率的同时，还可以有效降低直播视频精彩片段生成的复杂度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的直播视频精彩片段生成方法的流程示意图；

图2为本发明实施例提供的针对滑动窗口，实现直播视频的精彩片段生成的流程示意图；

图3为本发明实施例提供的直播视频精彩片段生成装置的结构示意图；

图4为本发明实施例提供的直播视频精彩片段生成设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供一种高效的直播视频精彩片段机器自动生成方案。其中，可以通过人工智能(AI)技术，结合多模态信息理解，例如，声音，图像，文本，手势，人脸表情等各种不同模态的信号，基于对预先配置的每种特征类型的特征的理解，分别实现直播视频时间切片的自动聚合，获得对应的精彩片段，提高精彩片段生成效率，降低精彩片段生成复杂度的同时，还可以有效降低成本，保证精彩片段生成的准确性，并具有适用性较广的优点。

进一步，本申请还可以针对相同的时间切片，对基于对每种特征类型的特征的理解聚合出的各对应的聚合片段进行整合，进一步通过整合获得对应的精彩片段。

更进一步的，本申请还可以对整合得到的各精彩片段进行打分，从而可以获得分值最高的设定数量的精彩片段。

此外，本申请除了可以实现精彩片段的自动生成，还可以实现精彩片段标签的自动生成。

基于上述说明，本发明实施例提供一种直播视频精彩片段生成方法，该方法的步骤流程可以如图1所示，包括：

步骤101、获取待生成精彩片段的直播视频。

在本步骤中，可以获取需要进行精彩片段自动生成的直播视频。

需要说明的是，在本实施例中，待生成精彩片段的直播视频可以是正在实时播放的直播视频(可以理解为直播过程中的流式片段形式的直播视频)，也可以是已经实时播放完毕，用于回放的直播视频。

也就是说，本实施例提供的方案，不仅可以针对用于回放的直播视频生成精彩片段，也可以针对正在实时播放的直播视频生成精彩片段。

步骤102、针对滑动窗口，进行直播视频的精彩片段生成。

在本实施例中，可以对获取的直播视频按照设定时长(例如，5秒)切分得到各时间切片。并可以设置一个滑动窗口，滑动窗口对应至少两个(例如，30个)时间切片时长。可以理解为，滑动窗口对应的时间切片数量可以根据精彩片段可能的最大时长进行设定。例如，精彩片段可能的最大时长为3分钟，一个时间切片时长为10秒，则滑动窗口对应的时间切片数量可以为18个。

在本步骤中，可以针对从直播视频的第一个时间切片向最后一个时间切片滑动的滑动窗口，执行步骤1021～步骤1023，以针对滑动窗口，实现直播视频的精彩片段生成。针对滑动窗口，实现直播视频的精彩片段生成的步骤流程可以如图2所示。

步骤1021、针对预先配置的至少一种特征类型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征。

在本步骤中，可以针对预先配置的至少一种特征类型，利用预先建立的特征生成模型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征。

针对预先配置的至少一种特征类型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征可以通过任意方式实现。

需要说明的是，如果待生成精彩片段的直播视频是用于回放的直播视频，那么在一种可能的实现方式中，可以预先通过离线方式，获取待生成精彩片段的直播视频每个时间切片，针对每种预先配置的特征类型的特征。

且在一种可能的实现方式中，可以按照直播视频的时间轴，加入时间戳维度来存储直播视频每个时间切片对应的各种特征类型的特征，以便于后续可以根据时间戳维度，快速获得保存的每个时间切片对应的各特征。当然，时间戳维度对应的时长粒度可以比时间切片时长粒度小，例如时间切片时长为5秒，时间戳维度可以精确到1秒。

此时在本步骤中，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，即可以直接获得预先离线获取的滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，以简化精彩片段生成过程的特征提取过程。

在一种可能的实现方式中，预先配置的至少一种特征类型可以包括文本类型、视觉类型、情绪类型和行为类型。当然，预先配置的至少一种特征类型也可以包括文本类型、视觉类型、情绪类型和行为类型中的至少一种。

其中，所述文本类型的特征用于描述可以获取的文本形式的信息，例如，该类型的特征可以是对主播语音进行识别获得的文本信息(例如，通过自动语音识别技术(ASR)对主播语音识别获得的文本信息)通过断句、切词和实体词抽取获得的关键词(例如，通过来自变换器的双向编码器表征量(BERT)模型，根据文本信息获得关键词对应的高维向量)，也可以是对用户评论进行识别获得的文本信息(例如，通过文本抽取对用户评论识别获得的文本信息)通过断句、切词和实体词抽取获得的关键词，也可以是对直播视频画面进行识别获得的文本信息(例如，通过文本抽取对直播视频字幕识别获得的文本信息，或者，通过光学字符识别(OCR)对直播视频画面中的图片识别获得文本信息)通过断句、切词和实体词抽取获得的关键词等等；

所述视觉类型的特征用于描述可以观看到的物体，例如，该类型的特征可以是人脸标识(例如，通过人脸识别模型识别获得的直播视频画面出现的人脸标识)，也可以是动作标识(例如，通过对主播动作进行识别获得的动作标识)，也可以是商品标识(例如，通过商品识别模型识别获得的直播视频画面出现的商品标识)，也可以是景点标识(例如，通过对景点识别模型识别获得的直播视频画面出现的景点标识)等等；

所述情绪类型的特征用于描述主播的情绪，例如，该类型的特征可以是主播的语速，也可以是主播的语调，也可以是主播的脸部表情，也可以是主播的动作频率等等；

所述行为类型的特征用于描述用户的观看行为，例如，该类型的特征可以是用户的加入、也可以是用户的点赞、也可以是用户的关注、也可以是用户的打赏、也可以是用户的下单、也可以是用户的评论、也可以是用户的离开、也可以是用户的取消关注、也可以是用户的举报等等。

当然，在本实施例中，特征类型除了可以按照上述方式定义为文本类型、视觉类型、情绪类型和行为类型外，可以根据需要进行任意定义，只要能表征一类特征的共同特点即可。按照特征类型不同定义方式，需要确定的滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，可以理解为是每个预先配置的、按照任意的定义方式定义的特征类型的至少一个特征。

需要说明的是，预先配置的至少一种特征类型包括文本类型、视觉类型、情绪类型和行为类型，可以从获得的文本信息角度、可以观看到的物体角度、主播的情绪角度以及用户的观看行为角度分别对直播视频的特点进行描述。这样，后续根据每种特征类型的特征进行精彩片段生成，可以从各个角度反映直播视频的精彩程度。

且，预先配置的特征类型包括上述四种特征类型，可以使得特征既可以体现与直播视频播放的内容有关的特征(可以记为先验特征)，又可以体现与用户对直播视频的反馈有关的特征(可以记为后验特征)，后续根据每种特征类型的特征进行精彩片段生成，既可以考虑到直播视频内容的精彩程度，又可以兼顾用户反馈的热烈程度，可以使得精彩片段的生成准确性更好，能更准确地生成精彩片段。

另外需要说明的是，如果直播视频对应的粉丝数较少，那么直播视频对应的与用户对直播视频的反馈有关的特征(后验特征)，例如行为类型的特征，可能会较少，后续根据相关特征进行精彩片段生成，将无法保证精彩片段生成的准确性。

为了提高精彩片段生成的准确性，在一种可能的实现方式中，可以针对对应的粉丝数不小于设定值的直播视频，获得一个特征预测模型，通过与直播视频播放的内容有关的特征(先验特征)，来预测与用户对直播视频的反馈有关的特征(后验特征)。并可以通过迁移学习的方式，进行信号泛化，根据该特征预测模型，获得对应的粉丝数小于设定值的直播视频对应的特征预测模型。进而可以利用该特征预测模型，针对对应的粉丝数小于设定值的直播视频，预测至少一个后验特征。

即，在本实施例中，若直播视频对应的粉丝数小于设定值，则可以利用预先训练出的特征预测模型，预测滑动窗口当前对应的各时间切片，对应的至少一个特征。

步骤1022、分别针对每一种特征类型的特征，获得一个聚合片段。

在本步骤中，可以分别针对每一种特征类型的特征，利用预先建立的特征聚类模型，对滑动窗口当前对应的各时间切片进行特征聚类(例如，利用隐含狄利克雷分布(LDA)模型或K均值(K-means)聚类算法进行特征聚类)，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段。需要说明的是，聚合片段对应连续的时间切片，从而使得聚合片段满足观看的连续性要求。

例如，如果预先配置的至少一种特征类型包括文本类型、视觉类型、情绪类型和行为类型，那么：

可以针对文本类型的特征，对滑动窗口当前对应的各时间切片进行特征聚类，例如，获得的聚类包括商品、地点和人物。进而可以按照设定方式(例如查询预先配置的权重与聚类对应关系表)，确定其中权重最大的一个聚类，例如，确定出的权重最大的一个聚类为商品。那么，可以将商品聚类对应的各个特征出现次数最多的两个时间切片，按照其对应的时间顺序，分别作为起始时间切片和结束时间切片，获得一个聚合片段，例如，商品聚类对应的两个特征为Iphone11和耳机，那么可以将Iphone11和耳机这两个特征出现次数最多的两个时间切片，假设两个时间切片分别为10分30秒至10分35秒，以及10分45秒至10分50秒，分别作为起始时间切片和结束时间切片，获得直播视频的10分30秒至10分50秒作为一个聚合片段。此时可以将直播视频的10分30秒至10分50秒作为一个精彩片段。

可以针对视觉类型的特征，对滑动窗口当前对应的各时间切片进行特征聚类，例如，获得的聚类包括手机、衣服和吹风机。进而可以按照设定方式(例如查询预先配置的权重与聚类对应关系表)，确定其中权重最大的一个聚类，例如，确定出的权重最大的一个聚类为手机。那么，可以将手机聚类对应的各个特征出现次数最多的两个时间切片，按照其对应的时间顺序，分别作为起始时间切片和结束时间切片，获得一个聚合片段，例如，手机聚类对应的两个特征为Iphone11和耳机，那么可以将Iphone11和耳机这两个特征出现次数最多的两个时间切片，假设两个时间切片分别为10分15秒至10分20秒，以及10分50秒至10分55秒，分别作为起始时间切片和结束时间切片，获得直播视频的10分20秒至10分55秒作为一个聚合片段。此时可以将直播视频的10分20秒至10分55秒作为一个精彩片段。

可以针对情绪类型的特征，对滑动窗口当前对应的各时间切片进行特征聚类，例如，获得的聚类包括喜爱、愉快和厌恶。进而可以按照设定方式(例如查询预先配置的权重与聚类对应关系表)，确定其中权重最大的一个聚类，例如，确定出的权重最大的一个聚类为喜爱。那么，可以将喜爱聚类对应的各个特征出现次数最多的两个时间切片，按照其对应的时间顺序，分别作为起始时间切片和结束时间切片，获得一个聚合片段，例如，喜爱聚类对应的两个特征为语速大于第一阈值和语调为指定语调，那么可以将语速大于第一阈值和语调为指定语调这两个特征出现次数最多的两个时间切片，假设两个时间切片分别为10分35秒至10分45秒，以及11分5秒至11分10秒，分别作为起始时间切片和结束时间切片，获得直播视频的10分35秒至11分10秒作为一个聚合片段。此时可以将直播视频的10分35秒至11分10秒作为一个精彩片段。

可以针对行为类型的特征，对滑动窗口当前对应的各时间切片进行特征聚类，例如，获得的聚类包括正向反馈、负向反馈。进而可以按照设定方式(例如查询预先配置的权重与聚类对应关系表)，确定其中权重最大的一个聚类，例如，确定出的权重最大的一个聚类为正向反馈。那么，可以将正向反馈聚类对应的各个特征出现次数最多的两个时间切片，按照其对应的时间顺序，分别作为起始时间切片和结束时间切片，获得一个聚合片段，例如，正向反馈聚类对应的两个特征为下单和点赞，那么可以将下单和点赞这两个特征出现次数最多的两个时间切片，假设两个时间切片分别为10分5秒至10分10秒，以及11分15秒至11分20秒，分别作为起始时间切片和结束时间切片，获得直播视频的10分10秒至11分20秒作为一个聚合片段。此时可以将直播视频的10分10秒至11分20秒作为一个精彩片段。

步骤1023、判断滑动窗口当前对应的各时间切片是否为直播视频末尾的时间切片。

在本步骤中，可以判断滑动窗口当前对应的各时间切片是否为直播视频末尾的时间切片，如果是，则可以结束本流程，认为已经对直播视频完成了精彩片段生成。否则，可以将滑动窗口滑动指定数量(例如，一个)的时间切片时长，并返回执行步骤1021，以继续对滑动后的滑动窗口对应的各时间切片，进行精彩片段生成。

需要说明的是，在步骤1022之后，步骤1023之前，还可以进一步包括步骤1022’，对相同的时间切片对应的聚合片段进行整合，将整合片段作为生成的精彩片段，进一步保证精彩片段的精彩程度：

步骤1022’、将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段。

进一步的，在本实施例中，还可以将获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段。使得整合片段可以综合考虑每个特征类型的特征，更准确地表示直播视频中的精彩片段。其中，整合片段对应直播视频中一段连续的时长，从而使得整合片段满足观看的连续性要求。

对每个聚合片段对应的时间边界进行整合的方式可以为任意方式。例如，将各个聚合片段对应的各个作为片段起始的时间切片(可以记为起始时间切片)中，开始时间最早(或最晚)的一个起始时间切片作为起始时间切片，将各个聚合片段对应的各个作为片段结束的时间切片(可以记为结束时间切片)中，结束时间最晚(或最早)的一个结束时间切片作为结束时间切片，获得一个整合片段等等。

在一种可能的实现方式中，如果获得的特征对应的时长粒度小于时间切片时长粒度，那么可以按照获得的特征对应的时长粒度，对时间切片进一步按照指定时长切分得到子时间切片，此时，对每个聚合片段对应的时间边界进行整合可以通过以下方式实现，从而在基于粒度较大的时间切片快速获得每个聚合片段的基础上，可以进一步基于粒度更小的子时间切片获得时间边界更加精确的精彩片段：

将所述第一子时间切片，作为整合片段的起始子时间切片，将所述第二子时间切片，作为所述整合片段的结束子时间切片。

仍接步骤1022中所给出的例子，如果针对文本类型的特征、视觉类型的特征、情绪类型的特征和行为类型的特征，针对滑动窗口当前对应的各时间切片，获得的聚合片段分别为直播视频的10分30秒至10分50秒，直播视频的10分20秒至10分55秒，直播视频的10分35秒至11分10秒以及直播视频的10分10秒至11分20秒。

那么可以从直播视频的10分10秒至10分35秒之间，确定权重最大的各个聚类(商品聚类、手机聚类、喜爱聚类和正向反馈聚类)对应的各个特征(Iphone11(其对应商品聚类)、耳机(其对应商品聚类)、Iphone11(其对应手机聚类)、耳机(其对应手机聚类)、语速大于第一阈值、语调为指定语调、下单和点赞)出现次数最多的子时间切片(假设每个子时间切片时长为1秒)，假设确定出的子时间切片为直播视频的10分15秒至10分16秒，将该子时间切片作为第一子时间切片。

并可以从直播视频的10分50秒至11分20秒之间，确定权重最大的各个聚类(商品聚类、手机聚类、喜爱聚类和正向反馈聚类)对应的各个特征(Iphone11(其对应商品聚类)、耳机(其对应商品聚类)、Iphone11(其对应手机聚类)、耳机(其对应手机聚类)、语速大于第一阈值、语调为指定语调、下单和点赞)出现次数最少的子时间切片，假设确定出的子时间切片为直播视频的11分15秒至11分16秒，将该子时间切片作为第二子时间切片。

将第一子时间切片，作为整合片段的起始子时间切片，将第二子时间切片，作为整合片段的结束子时间切片，获得直播视频的10分15秒至11分16秒作为一个聚合片段。此时可以将直播视频的10分15秒至11分16秒作为一个精彩片段。

进一步的，本实施例还可以包括步骤103，通过打分，从获得的整合片段中进一步选择部分整合片段，作为生成的精彩片段，更进一步地保证生成的精彩片段的精彩程度：

步骤103、确定打分最高的设定数量的整合片段。

在本步骤中，可以利用预先建立的打分模型，按照一个整合片段所对应的特征中的至少一个，例如预先配置的至少一种特征类型包括文本类型、视觉类型、情绪类型和行为类型时，可以按照一个整合片段所对应的文本类型的特征、视觉类型的特征、情绪类型的特征和行为类型的特征中的至少一个，对该整合片段进行打分，从而确定打分最高的设定数量的整合片段。

例如，可以按照下列公式计算打分score：

score＝fn1(词频相关性，直播视频画面出现商品频率，主播语调等级)+fn2(下单频率，评论数，点赞数，人均观看时长)。

即，可以根据一个整合片段所对应的特征，确定相关信息(如上式，相关信息包括词频相关性，直播视频画面出现商品频率，主播语调等级，下单频率，评论数，点赞数，人均观看时长)，进而可以通过相关函数(如上式，fn1和fn2)，对该整合片段进行打分。

假设针对一个直播视频获得了十个整合片段，可以针对每个整合片段进行打分，并可以确定打分最高的三个整合片段。此时，可以将这三个整合片段作为针对该直播视频生成的精彩片段。

需要说明的是，在本实施例中，还可以针对生成的精彩片段(可以是聚合片段，也可以是整合片段，也可以是打分最高的设定数量的整合片段)自动生成标签信息，以便于后续可以基于标签信息对生成的精彩片段进行各种操作，例如推荐或搜索等。

假设本实施例将打分最高的设定数量的整合片段作为最终为直播视频生成的精彩片段，则本实施例还可以进一步包括步骤104，以针对打分最高的设定数量的整合片段生成标签信息：

步骤104、确定每个打分最高的设定数量的整合片段对应的标签信息。

在本步骤中，可以针对每个打分最高的设定数量的整合片段，根据该整合片段所对应的各权重最大的聚类对应的特征中的至少一个，确定该整合片段对应的标签信息。整合片段对应的标签信息可以为任意信息，例如，一个整合片段对应的标签信息可以包括Iphone11，薇娅，又如，一个整合片段对应的标签信息可以包括手表，高圆圆，飞亚达等等，以便后续根据标签信息，对每个打分最高的设定数量的整合片段进行操作。

其中，仍接步骤1022’中所给出的例子，根据一个整合片段所对应的各权重最大的聚类对应的特征中的至少一个，确定该整合片段对应的标签信息，可以为：

根据一个整合片段所对应的各权重最大的聚类(商品聚类、手机聚类、喜爱聚类和正向反馈聚类)对应的特征(Iphone11(其对应商品聚类)、耳机(其对应商品聚类)、Iphone11(其对应手机聚类)、耳机(其对应手机聚类)、语速大于第一阈值、语调为指定语调、下单和点赞)中的至少一个，确定该整合片段对应的标签信息。

当然，在本实施例中，生成标签信息不限于在步骤103之后执行，也可以先针对直播视频对应的每个整合片段确定对应的标签信息，再执行步骤103，确定打分最高的设定数量的整合片段。

在步骤103之后执行步骤104，可以仅针对每个打分最高的设定数量的整合片段，确定对应的标签信息即可，还具有有效减少计算量，减轻系统负荷的优点。

需要进一步说明的是，在针对每个直播视频生成精彩片段后，例如，将打分最高的设定数量(例如，TOP5)的整合片段作为生成的精彩片段后，可以通过常规的机器审核以及设定数量(例如，10％)的人工抽检，将生成的精彩片段发送至资源候选池，以便基于资源候选池实现线上推荐、搜索等服务。

即，本实施例还可以进一步包括步骤105：

步骤105、对生成的精彩片段进行审核。

对生成的精彩片段的审核，可以是机器审核，和/或，设定数量(例如，10％)的人工抽检，确保发送至资源候选池的精彩片段的准确性较高。

本实施例中以步骤105在步骤104之后执行为例进行说明，当然，步骤105不限于在步骤104之后执行。

在实现线上推荐、搜索等服务的同时，还可以记录指定信息，例如，用户的点击观看信息、观看时长信息、内容跳过信息等到指定的数据库。

进一步的，可以按照设定周期(例如，每天)，根据指定数据库中保存的指定信息，按照设定方式，以1:1的比例选择正样本和负样本，例如，根据利用指定信息获得的点击率、长播率和跳出率，以1:1的比例选择正样本和负样本。并可以基于选择出的正样本和负样本，按照设定周期进行迭代，对直播视频的精彩片段生成涉及的各个模型进行调整，使得后续可以更准确地获得精彩片段，更好地满足用户需求。

即，本实施例还可以进一步包括步骤106：

步骤106、对精彩片段生成涉及的模型进行自动迭代。

在本步骤中，可以根据选择出的正样本和负样本，对特征生成模型、特征聚类模型和打分模型中的至少一个进行迭代，其中，正样本和负样本为按照设定周期和设定方式，从资源候选池中的直播视频精彩片段中选择出的。

当然，步骤106不限于在步骤105之后执行，本实施例仅以步骤106在步骤105之后执行为例进行说明。

另外，本发明实施例提供的方案中，还可以针对各直播视频的精彩片段生成，设置一个管理平台，从而可以通过管理平台对保存的每个直播视频各时间切片对应的特征进行操作，例如查看、修正等等。还可以通过管理平台统计获得各种标签信息对应的统计值，例如，可以通过管理平台统计获得标签信息包括Iphone的精彩片段数量为20万个，对应的直播视频数量为10万个，标签信息包括某个指定主播标识的精彩片段数量为120个，对应的直播视频数量为35个。此外，对生成的精彩片段的人工抽检、对精彩片段生成涉及的各个模型的迭代，也可以基于管理平台来实现。

根据本发明实施例提供的方案，可以按照四类多模态的特征：文本类型的特征、视觉类型的特征、情绪类型的特征和行为类型的特征，来对直播视频的时间分片进行聚合，并进一步对按照每一类多模态的特征聚合出的片段进行整合，进而将整合出的片段中得分最高的设定数量的片段作为生成的精彩片段，充分利用AI深度学习对直播视频内容进行理解，并对用户行为信号充分利用，结合直播视频的先验特征和后验特征，实现精彩片段的高效、便捷、准确生成。

与提供的方法对应的，进一步提供以下的装置。

本发明实施例提供一种直播视频精彩片段生成装置，该装置的结构可以如图3所示，包括：

获取模块11用于获取待生成精彩片段的直播视频；

生成模块12用于针对从所述直播视频的第一个时间切片向最后一个时间切片滑动的滑动窗口，其中，所述时间切片通过对所述直播视频按照设定时长切分得到，所述滑动窗口对应至少两个时间切片时长，执行以下操作：

利用特征生成子模块121针对预先配置的至少一种特征类型，利用预先建立的特征生成模型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征；

利用聚合子模块122分别针对每一种特征类型的特征，利用预先建立的特征聚类模型，对所述滑动窗口当前对应的各时间切片进行特征聚类，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段；

可选的，所述生成模块12还用于利用整合子模块123将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段。

可选的，所述生成模块12还用于利用打分子模块124确定打分最高的设定数量的整合片段，其中，利用预先建立的打分模型，按照一个整合片段所对应的特征中的至少一个，对该整合片段进行打分。

可选的，所述生成模块12还用于利用标签生成子模块125确定每个打分最高的设定数量的整合片段对应的标签信息，其中，根据一个整合片段所对应的各权重最大的聚类对应的特征中的至少一个，确定该整合片段对应的标签信息。

可选的，所述生成模块12利用整合子模块123将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段，包括：

利用整合子模块123确定第一子时间切片，所述第一子时间切片为针对每一种特征类型的特征，获得的每个聚合片段中，开始时间最早和开始时间最晚的时间边界之间，权重最大的各个聚类对应的各个特征出现次数最多的子时间切片；以及，

所述视觉类型的特征用于描述可以观看到的物体；

所述情绪类型的特征用于描述主播的情绪；

所述行为类型的特征用于描述用户的观看行为。

可选的，所述生成模块12利用特征生成子模块121针对预先配置的至少一种特征类型，利用预先建立的特征生成模型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，包括：

可选的，所述生成模块12还用于利用模型迭代子模块126根据选择出的正样本和负样本，对所述特征生成模型、所述特征聚类模型和所述打分模型中的至少一个进行迭代；

本发明上述实施例提供的各装置的各功能单元的功能，可以通过上述对应的各方法的步骤来实现，因此，本发明实施例提供的各装置中的各个功能单元的具体工作过程和有益效果，在此不复赘述。

基于同一发明构思，本发明实施例提供以下的设备和介质。

本发明实施例提供一种直播视频精彩片段生成设备，该设备的结构可以如图4所示，包括处理器21、通信接口22、存储器23和通信总线24，其中，所述处理器21，所述通信接口22，所述存储器23通过所述通信总线24完成相互间的通信；

所述存储器23，用于存放计算机程序；

所述处理器21，用于执行所述存储器上所存储的程序时，实现本发明上述方法实施例所述的步骤。

可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，Application Specific Integrated Circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，Field Programmable Gate Array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器21可以包括至少一个处理核心。

可选的，所述存储器23可以包括只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。

本发明实施例还提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明上述方法实施例提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种直播视频精彩片段生成方法，其特征在于，所述方法包括：

获取待生成精彩片段的直播视频；

2.如权利要求1所述的方法，其特征在于，分别针对每一种特征类型的特征，对所述滑动窗口当前对应的各时间切片进行特征聚类，将获得的聚类中，确定出的权重最大的一个聚类对应的各个特征出现次数最多的两个时间切片，分别作为起始时间切片和结束时间切片，获得一个聚合片段之后，将所述滑动窗口滑动指定数量的时间切片时长之前，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求2～4任一所述的方法，其特征在于，将针对每一种特征类型的特征，获得的每个聚合片段对应的时间边界进行整合，获得对应的整合片段，包括：

6.如权利要求1～4任一所述的方法，其特征在于，预先配置的至少一种特征类型包括文本类型、视觉类型、情绪类型和行为类型；

所述视觉类型的特征用于描述可以观看到的物体；

所述情绪类型的特征用于描述主播的情绪；

所述行为类型的特征用于描述用户的观看行为。

7.如权利要求1～4任一所述的方法，其特征在于，针对预先配置的至少一种特征类型，利用预先建立的特征生成模型，确定滑动窗口当前对应的各时间切片，针对每种特征类型对应的特征，包括：

8.如权利要求3所述的方法，其特征在于，所述方法还包括：

9.一种直播视频精彩片段生成装置，其特征在于，所述装置包括：

获取模块，用于获取待生成精彩片段的直播视频；

10.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～8任一所述的方法。

11.一种直播视频精彩片段生成设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1～8任一所述的方法步骤。