CN113569668A

CN113569668A - 确定视频中高光片段的方法、介质、装置和计算设备

Info

Publication number: CN113569668A
Application number: CN202110784214.2A
Authority: CN
Inventors: 肖强; 展丽霞; 李双江; 虞勇波
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-29

Abstract

本公开的实施方式提供了一种确定视频中高光片段的方法、介质、装置和计算设备。在需要向用户推荐视频的情况下，采用视频中对应于不同场景的视频片段与用户特征作为模型输入，利用模型计算用户对不同视频片段的偏好度，然后根据不同视频片段对应的偏好度的大小，确定高光片段。

Description

确定视频中高光片段的方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及信息技术领域，更具体地，本公开的实施方式涉及一种确定视频中高光片段的方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

目前，互联网平台向用户提供的视频选择界面中，通常会展示多个视频的高光片段，用户如果被某个高光片段所吸引，则往往会进一步打开该高光片段对应的视频进行观看。

在相关技术中，由人工判断视频中的某个片段可能会吸引用户，进而将该片段作为高光片段。然而，这种确定视频的高光片段的方式不够有效。

发明内容

在本上下文中，本公开的实施方式期望提供一种确定视频中高光片段的方法、介质、装置和计算设备，以便从视频中确定出的高光片段更好地满足用户的个性化偏好，更容易吸引用户观看视频。

在本公开实施方式的第一方面中，提供了一种确定视频中高光片段的方法，包括：

确定待推荐给用户的视频，并获取所述视频中对应于不同场景的至少两个视频片段；

将所述用户的用户特征与所述至少两个视频片段分别对应的视频片段特征，输入目标模型，输出所述用户分别对所述至少两个视频片段的偏好度；

根据所述至少两个视频片段分别对应的偏好度的大小，从所述至少两个视频片段中确定高光片段。

在本公开的一个实施例中，获取所述视频中对应于不同场景的至少两个视频片段，包括：

针对所述视频的每个单位时长，提取该单位时长内的视频帧；

计算所述视频的各单位时长分别对应的视频帧之间的相似度，将相似度小于指定阈值的若干单位时长合并为一个时段；

从所述视频中提取对应于不同时段的至少两个视频片段，作为对应于不同场景的至少两个视频片段。

在本公开的一个实施例中，还包括：

针对所述至少两个视频片段中每个视频片段，从该视频片段中提取多个关键视频帧，并确定提取的每个关键视频帧对应的图像特征；

将包含每个关键视频帧对应的图像特征的集合，作为该视频片段对应的视频片段特征。

在本公开的一个实施例中，从该视频片段中提取多个关键视频帧，包括：

计算该视频片段中多个视频帧对应的平均像素值；

针对该视频片段中的每个视频帧，若该视频帧对应的像素值与所述平均像素值之间的差值小于指定值，则将该视频帧确定为一个关键视频帧。

在本公开的一个实施例中，计算该视频片段中多个视频帧对应的平均像素值，包括：

计算该视频片段中多个视频帧的指定位置像素点的像素值的平均值，作为该多个视频帧对应的平均像素值。

在本公开的一个实施例中，键视频帧对应的图像特征是基于以下至少一种特征确定的：

颜色特征；亮度特征；对比度特征；清晰度特征；包含的人脸所对应的人脸特征。

在本公开的一个实施例中，将包含每个关键视频帧对应的图像特征的集合，作为该视频片段对应的视频片段特征，包括：

按照每个关键视频帧在该视频片段中的顺序，将每个关键视频帧对应的图像特征排列成图像特征序列，作为该视频片段对应的视频片段特征。

在本公开的一个实施例中，还包括：

针对所述至少两个视频片段中每个视频片段，将该视频片段的每个关键视频帧在该视频片段中的位置信息，作为该视频片段对应的视频片段特征。

在本公开的一个实施例中，还包括：

根据所述视频对应的介绍性文本、标题文本、字幕文本中的至少一个，确定所述视频对应的文本特征；

针对所述至少两个视频片段中每个视频片段，将所述视频对应的文本特征，作为该视频片段对应的视频片段特征。

在本公开的一个实施例中，根据所述视频对应的介绍性文本、标题文本、字幕文本中的至少一个，确定所述视频对应的文本特征，包括：

根据所述视频对应的介绍性文本、标题文本、字幕文本中的至少一个，得到待处理文本；

对所述待处理文本进行分词，得到对应的词序列；

将所述词序列中相邻的至少两个词组成的文本作为一个正文本样本，得到多个正文本样本；

基于所述多个正文本样本，训练文本分类模型，并根据训练好的所述文本分类模型的模型参数集，确定所述视频对应的文本特征。

在本公开的一个实施例中，所述文本分类模型是采用神经网络算法构建的，所述文本分类模型包括至少一个隐层；

根据训练好的所述文本分类模型的模型参数集，确定所述视频对应的文本特征，包括：

将训练好的所述文本分类模型对应的隐层权重矩阵，作为所述视频对应的文本特征。

在本公开的一个实施例中，构建所述文本分类模型所采用的神经网络算法包括：Bert算法，或，word2vec算法。

在本公开的一个实施例中，所述用户特征用于表征所述用户的视频偏好。

在本公开的一个实施例中，所述目标模型对所述用户特征与所述至少两个视频片段分别对应的视频片段特征进行的处理包括：

针对所述至少两个视频片段中每个视频片段，基于自注意力机制，将该视频片段对应的视频片段特征进行映射，得到该视频片段对应的映射特征；

根据所述用户特征与该视频片段对应的映射特征，计算得到所述用户对该视频片段的偏好度。

在本公开的一个实施例中，所述目标模型的训练方法包括：

获取视频样本集合；

针对每个视频样本，获取该视频样本中对应于不同场景的至少两个视频片段样本；

将用户特征与该至少两个视频片段样本分别对应的视频片段特征，输入目标模型进行模型训练，输出用户分别对该至少两个视频片段样本的预测偏好度；

其中，该至少两个视频片段样本中被用户选定为高光片段的视频片段样本对应的预测偏好度为A，该至少两个视频片段样本中未被用户选定为高光片段的视频片段样本对应的预测偏好度集合为B_i，i＝1、……、N，N为未被用户选定为高光片段的视频片段样本的数量；

所述目标模型的训练目标为，将所述预测偏好度A与所述预测偏好度集合B_i的差距最大化处理。

在本公开实施方式的第二方面中，提供了一种确定视频中高光片段的装置，包括：

获取模块，确定待推荐给用户的视频，并获取所述视频中对应于不同场景的至少两个视频片段；

分析模块，将所述用户的用户特征与所述至少两个视频片段分别对应的视频片段特征，输入目标模型，输出所述用户分别对所述至少两个视频片段的偏好度；

确定模块，根据所述至少两个视频片段分别对应的偏好度的大小，从所述至少两个视频片段中确定高光片段。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例的确定视频中高光片段的方法。

在本公开实施方式的第四方面中，提供了一种计算设备，包括存储器、处理器；所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的确定视频中高光片段的方法。

根据本公开实施方式的确定视频中高光片段的方法、介质、装置和计算设备，在需要向用户推荐视频的情况下，采用用户特征以及视频中对应于不同场景的视频片段作为模型输入，利用模型计算用户对不同视频片段的偏好度，然后根据不同视频片段对应的偏好度的大小，确定高光片段。如此确定出的高光片段可以更好地满足用户的个性化偏好，更容易吸引用户观看视频。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1是本公开示例性提供的一种视频选择界面的示意图；

图2是本公开示例性提供的一种确定视频中高光片段的方法的流程示意图；

图3是本公开示例性提供的一种确定视频片段对应的视频片段特征的方法流程图；

图4是本公开示例性提供的一种目标模型的结构示意图；

图5是本公开提供的一种模型训练方法的流程示意图；

图6是本公开提供的一种确定视频中高光片段的装置的结构示意图；

图7是本公开提供的一种计算机可读存储介质的示意图；

图8是本公开提供的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种确定视频中高光片段的方法、介质、装置和计算设备。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

目前，互联网平台为了更好地吸引用户点击观看视频，通常会在视频选择界面中播放推荐给用户的视频的高光片段。

图1是本公开示例性提供的一种视频选择界面的示意图。如图1所示，视频选择界面包含若干信息展示区域，每个信息展示区域用于展示不同视频的高光片段，用户点击某个信息展示区域，可以触发进入相应视频的播放界面。在用户浏览视频选择界面的过程中，每个信息区域中的高光片段可以自动播放。或者，在用户浏览视频选择界面的过程中，每个信息区域可以响应于用户与视频选择界面的交互，开始自动播放高光片段，例如，视频选择界面中各信息区域初始化时可以不自动开始播放高光片段，而是静态展示高光片段包含的一个视频帧，用户长按某个信息区域内的视频图片，可以触发该信息区域开始自动播放高光片段。

用户可以花费较短时间在视频选择界面中浏览高光片段，以高光片段为参考，判断相应的视频是否是自己感兴趣的视频。用户如果被某个高光片段所吸引，则往往会进一步打开该高光片段对应的视频进行观看。可见，从视频中确定出的高光片段能否对用户产生足够的吸引力，能否切中用户的偏好，是至关重要的。

发明人发现，同一视频的同一高光片段对于不同用户的吸引力是不同的，因此，为了使得不同用户对同一视频都容易产生兴趣，可以在向不同用户推荐同一视频时，向不同用户展示不同的高光片段。

此外，发明人还发现，视频所呈现的信息内容往往可以被划分为不同场景，播放视频的过程，其实就是在对应于不同场景的不同视频片段间切换的过程。而吸引用户观看视频的主要因素往往是视频中的某个场景的信息内容，因此，可以在视频的对应于不同场景的视频片段中确定高光片段。

本公开提供的确定视频中高光片段的方法，在需要向用户推荐视频的情况下，采用用户特征以及视频中对应于不同场景的视频片段作为模型输入，利用模型计算用户对不同视频片段的偏好度，然后根据不同视频片段对应的偏好度的大小，确定高光片段。如此确定出的高光片段可以更好地满足用户的个性化偏好，更容易吸引用户观看视频。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

图2是本公开示例性提供的一种确定视频中高光片段的方法的流程示意图，包括以下步骤：

S200：确定待推荐给用户的视频，并获取所述视频中对应于不同场景的至少两个视频片段。

在一些实施例中，待推荐给用户的视频需要满足一定的质量要求。

例如，仅包含一个或少量几个视频帧的视频(可以称为静态视频)，能够提供给用户的信息内容很有限，属于不符合质量要求的视频，因此，可以不将静态视频推荐给用户。

本公开提供一种识别静态视频的方法。可以抽取待识别视频中零散分布的多个视频帧(例如等间隔抽取视频帧)，计算抽取的这些视频帧之间的相似度，如果计算得到的相似度大于第一预设阈值，则可以认定这些视频帧非常相似，待识别视频属于静态视频。

又例如，视频开头或者结尾包含多个黑色视频帧的视频(可以称为黑屏视频)，带给用户的观看体验比较差，也属于不符合质量要求的视频，因此，可以不将黑屏视频推荐给用户，或者，对黑屏视频进行优化处理(例如，可以将开头和/或结尾的连续几个黑色视频帧删除)后再推荐给用户。

本公开提供一种识别黑屏视频的方法。提取待识别视频的开头连续几个视频帧，计算提取的每个视频帧中像素点的像素值的平均值，如果计算得到的平均值与黑色像素值的差值小于第二预设阈值，则确定相应的视频帧是黑色视频帧，如果计算得到的平均值与黑色像素值的差值不小于第二指定阈值，则确定相应的视频帧不是黑色视频帧。如果视频的开头连续几个视频帧都属于黑色视频帧，那么可以认定待识别视频属于黑屏视频。此外，还可以提取待视频视频的结尾连续几个视频帧，并采用类似方法结尾连续几个视频帧是否为黑色视频帧，进而判断是否属于黑屏视频。

在需要利用视频选择界面向用户推荐视频的情况下，可以针对待推荐给用户的每个视频，执行图2所示的方法流程。为了描述的方便，以如何确定单个视频的高光片段为例，对图2所示的方法流程进行说明。

需要说明的是，视频所呈现的信息内容可以仅包含一个场景，这种情况下，可以直接从视频中提取一个视频片段作为高光片段，可以无需应用图2所示方法。

如果视频所呈现的信息内容包含至少两个不同场景，那么可以从视频中提取对应于不同场景的至少两个视频片段，这至少两个视频片段可以是视频所呈现的信息内容包含的全部场景分别对应的视频片段，也可以是视频所呈现的信息内容包含的部分场景分别对应的视频片段。

在一些实施例中，视频本身可能包含了用于区分不同场景的标记，例如，视频制作者可以在视频中每个场景对应的最后一个视频帧中加入的水印，又如，视频中每个场景对应的最后一个视频帧是黑色视频帧。如此，可以则可以直接根据标签来提取视频中对应于不同场景的至少两个视频片段。

在一些实施例中，如果视频本身未包含用于区分不同场景的标记，那么可以利用图像处理技术从视频中划分出对应于不同场景的视频片段。

例如，可以针对所述视频的每个单位时长，提取该单位时长内的视频帧(一个或多个)；接着计算所述视频的各单位时长分别对应的视频帧之间的相似度，将相似度小于指定阈值的若干单位时长合并为一个时段；然后从所述视频中提取对应于不同时段的至少两个视频片段，作为对应于不同场景的至少两个视频片段。

需要说明的是，在计算视频的各单位时长分别对应的视频帧之间的相似度时，如果有的单位时长对应的视频帧有多个，那么可以先对该单位时长对应的多个视频帧进行平均化处理或者合并化处理，得到该单位时长对应的一个视频帧。之后，在计算各单位时长分别对应的一个视频帧之间的相似度。

通常，同一场景内的视频帧之间的相似度足够小，相似度足够小的各视频帧分别对应的单位时长也往往是连续的，可以合并为一个时段。自然地，视频中的不同时段就可以对应于不同的场景。

S202：将所述用户的用户特征与所述至少两个视频片段分别对应的视频片段特征，输入目标模型，输出所述用户分别对所述至少两个视频片段的偏好度。

在一些实施例中，可以根据视频片段在图像维度上的信息，确定视频片段对应的片段特征。例如，可以根据视频片段包含的所有视频帧的图像信息，确定视频片段对应的视频片段特征。

又如，可以根据视频片段包含的若干关键帧的图像信息，确定视频片段对应的视频片段特征。可以针对从视频中获取的所述至少两个视频片段中每个视频片段，从该视频片段中提取多个关键视频帧，并确定提取的每个关键视频帧对应的图像特征；然后将包含每个关键视频帧对应的图像特征的集合，作为该视频片段对应的视频片段特征。

本公开提供一种从视频片段中提取关键帧的方法。可以计算视频片段中多个视频帧对应的平均像素值；然后针对视频片段中的每个视频帧，若该视频帧对应的像素值与所述平均像素值之间的差值小于指定值，则将该视频帧确定为一个关键视频帧。

其中，视频帧对应的像素值，可以是指定位置(如中心像素点)的像素值，也可以是所有像素点的平均像素值。多个视频帧对应的平均像素值，可以是多个视频帧分别对应的像素值的平均值。

视频帧的图像特征可以是基于以下至少一种特征确定的：

颜色特征；亮度特征；对比度特征；清晰度特征；包含的人脸所对应的人脸特征。其中，可以将用于表征人脸的好看程度的颜值特征作为人脸特征。

此外，不仅可以根据视频片段在图像维度上的信息，确定视频片段对应的片段特征，还可以根据视频在文本维度上的信息，确定视频片段对应的片段特征。换言之，视频片段对应的片段特征，不仅可以包含图像特征，还可以包含文本特征。

此处需要说明，如果获取的视频对应的文本特征与视频片段对应的图像特征不在一个特征空间内，则还需要通过dense操作将视频对应的文本特征与视频片段对应的图像特征映射到同一特征空间之后，再组合成视频片段对应的视频片段特征。

在一些实施例中，可以根据视频对应的介绍性文本、标题文本、字幕文本中的至少一个，确定所述视频对应的文本特征；然后针对从视频中获取的至少两个视频片段中每个视频片段，将所述视频对应的文本特征，作为该视频片段对应的视频片段特征。

例如，可以将视频对应的介绍性文本、标题文本、字幕文本中的至少一个映射成文本编码，作为所述视频对应的文本特征。

又如，可以根据所述视频对应的介绍性文本、标题文本、字幕文本中的至少一个，得到待处理文本；对所述待处理文本进行分词，得到对应的词序列；将所述词序列中相邻的至少两个词组成的文本作为一个正文本样本，得到多个正文本样本；基于所述多个正文本样本，训练文本分类模型，并根据训练好的所述文本分类模型的模型参数集，确定所述视频对应的文本特征。其中，可以将词序列中不相邻的至少两个词组成的文本作为一个负文本样本，或者，另行获取一些没有关联的词组成负文本样本。

由于文本分类模型本质上是基于视频对应的文本语义训练的，因此，这样训练得到的文本分类模型可以学习到匹配于视频的文本语义的模型参数集，基于这样的模型参数集确定出的视频对应的文本特征，相对于视频对应的表面文本语义，更能够表征更深层面的抽象文本语义。

上述的文本分类模型可以采用神经网络算法(如Bert算法，或，word2vec算法)构建，这样的文本分类模型包括至少一个隐层。可以将训练好的所述文本分类模型对应的隐层权重矩阵，作为所述视频对应的文本特征。

在另一些实施例中，也可以针对从视频中获取的每个视频片段，根据该视频片段对应的字幕文本，确定该视频片段对应的文本特征，作为该视频片段对应的视频片段特征。

步骤S202中的用户特征，可以是与用户有关的任何属性，例如可以包括年龄、性别、所属地域等。此外，用户特征也可以包括用于表征用户的视频偏好的特征(基于用户观看视频的时长、喜欢看的视频的风格、类型、出产地域等等统计信息确定)。互联网平台通常在对用户进行服务的过程中，逐渐对用户的用户画像进行描摹，得到越来越精准的用户画像，该用户画像可以从多个维度描摹用户，尤其是描摹出用户的视频偏好，因此，可以将用户画像作为用户特征。

需要说明的是，可能对于有些用户，获取的这些用户的属性信息比较少，或者为这些用户提供服务的时间不够长(导致对用户画像的描摹不够到位)，意味着这些用户的用户特征的分布比较稀疏，这种情况下，可以对这些用户的用户特征进行dense操作，使得这些用户的用户特征的分布稠密化。

还需要说明的是，如果用户特征与视频片段特征不在一个特征空间内，则也需要通过dense操作，将用户特征与视频片段特征映射到一个特征空间。

图3是本公开示例性提供的一种确定视频片段对应的视频片段特征的方法流程图。参见图3，从视频中获取对应于不同场景的两个视频片段，分别为视频片段A和视频片段B。接着确定视频片段A的3个关键帧，并确定每个关键帧对应的图像特征；确定视频片段B的3个关键帧，并确定每个关键帧对应的图像特征。然后将视频片段A的3个关键帧分别对应的图像特征以及视频对应的文本特征，组成视频片段A对应的片段特征。类似地，也将视频片段B的3个关键帧分别对应的图像特征以及视频对应的文本特征，组成视频片段B对应的片段特征。

本公开中所述的目标模型，是用于根据输入的用户特征与视频片段特征，预测用户对视频片段的偏好度的模型。在构建目标模型时，可以定义目标模型的结构，即定义目标模型所采用的计算函数，该计算函数用于根据用户特征与视频片段特征计算用户对视频片段的偏好度。

目标模型通常需要经过训练之后，才能获得比较好的预测效果。训练目标模型的过程，实际上就是优化计算函数中参数(称为模型参数)的过程。

可以采用各种算法思想定义目标模型的计算函数，用于根据用户特征与视频片段特征计算用户对视频片段的偏好度的计算函数，皆应在本公开记载的范围之内。此处示例性提供一种目标模型，目标模型对所述用户特征与所述至少两个视频片段分别对应的视频片段特征进行的处理可以包括：

针对视频中至少两个视频片段中每个视频片段，基于自注意力机制，将该视频片段对应的视频片段特征进行映射，得到该视频片段对应的映射特征；根据所述用户特征与该视频片段对应的映射特征，计算得到所述用户对该视频片段的偏好度。

此处需要说明，自注意力机制，是一种神经网络算法，擅长捕捉数据的内部相关性，加大数据内部关键信息的权重。利用自注意力机制对视频片段对应的视频片段特征进行映射处理后，得到的映射特征更能够表征视频片段特征的内部相关性，并且能够加大视频片段特征所蕴含的关键信息的权重，例如，如果视频片段特征包含多个关键帧对应的图像特征，那么，利用自注意力机制，可以捕捉到这些关键帧之间的相关性，并且将一些更能代表视频片段的关键帧对应的图像特征的权重加大。

视频片段特征经过自注意力机制处理后得到映射特征，可以视为优化后的视频片段特征。根据用户特征与优化后的视频片段特征计算得到用户对视频片段的偏好度更加能够反映出用户对视频片段的偏好程度。

此外，在基于自注意力机制构建目标模型的实施例中，可以针对所述至少两个视频片段中每个视频片段，将该视频片段的每个关键视频帧在该视频片段中的位置信息，作为该视频片段对应的视频片段特征。此处的位置信息可以是指关键视频帧在视频片段中各视频帧中的顺序。将每个关键视频帧的位置信息也提供给自注意力机制，可以有助于自注意力机制更好的捕捉各关键视频帧之间的相关性。

另外，在基于自注意力机制构建目标模型的实施例中，可以按照每个关键视频帧在该视频片段中的顺序(由前到后，或者由后到前)，将每个关键视频帧对应的图像特征排列成图像特征序列，作为该视频片段对应的视频片段特征。还可以在每个关键视频帧对应的图像特征序列中添加视频对应的文本特征，得到特征序列。由于特征序列中已经包含了各关键视频帧的顺序，因此，相当于包含了每个关键视频帧在视频片段中的位置信息。

图4是本公开示例性提供的一种目标模型的结构示意图。如图4所示，目标模型包括输入层、自注意力机制层、池化层、输出层。其中，输入层用于承载输入到目标模型的用户特征与至少两个视频片段分别对应的视频片段特征；自注意力机制层用于对至少两个视频片段分别对应的视频片段特征进行映射，得到至少两个视频片段分别对应的映射特征。池化层用于对数据进行降维处理，节省计算量，提升计算效率。输出层用于根据用户特征与至少两个视频片段分别对应的映射特征计算用户分别对至少两个视频片段的偏好度。

S204：根据所述至少两个视频片段分别对应的偏好度的大小，从所述至少两个视频片段中确定高光片段。

在一些实施例中，可以将偏好度最大的一个视频片段确定为高光片段。

在另一些实施例中，可以根据偏好度由大到小顺序，对所述至少两个视频片段进行排序，将前几个视频片段确定为高光片段。在实际向用户进行展示时，可以依次播放多个高光片段，也可以从中选择一个高光片段进行展示。

此外，对本公开所采用的目标模型的训练方法进行说明。

图5是本公开提供的一种模型训练方法的流程示意图，包括如下步骤：

S500：获取视频样本集合。

S502：针对每个视频样本，获取该视频样本中对应于不同场景的至少两个视频片段样本。

S504：将用户特征与该至少两个视频片段样本分别对应的视频片段特征，输入目标模型进行模型训练，输出用户分别对该至少两个视频片段样本的预测偏好度。

为了区分目标模型的应用阶段与训练阶段，将训练阶段采用的视频称为视频样本，对每个视频样本的处理类似于应用阶段对于待推荐给用户的视频的处理，可以参照前文理解，不再赘述。

在一些实施例中，可以为不同用户训练专用的目标模型，如此，在训练某个用户的专用的目标模型时，仅能使用该用户的用户特征作为模型输入。换言之，也就是让目标模型只学习该用户对每个视频样本中各视频片段的偏好程度。

在另一些实施例中，可以为各用户训练通用的目标模型，如此，在训练通用的目标模型时，需要使用各个用户的用户特征作为模型输入。换言之，也就是让目标模型针对每个用户，学习该用户对每个视频样本中各视频片段的偏好程度。

可以采用有监督学习的思路训练目标模型。可以定义偏好度是介于0和1之间的概率值，偏好度与用户对视频片段的喜好程度正相关。可以预先对同一视频样本的每个视频片段样本进行标注，将用户选定为高光片段的视频片段样本标注为“偏好度为1”，表示完全喜欢；将用户未选定为高光片段的视频片段样本标注为“偏好度为0”，表示完全不喜欢。

在开始训练目标模型之前，需要设定目标模型的训练目标。

在为不同用户训练专用的目标模型的实施例中，可以将训练目标定义为，针对同一视频样本的每个视频片段样本，最小化模型输出的用户对该视频片段样本的预测偏好度与该视频片段样本的标注偏好度之间的差距。

在为不同用户训练专用的目标模型的实施例中，同一视频样本的至少两个视频片段样本中被用户选定为高光片段的视频片段样本对应的预测偏好度记为A，该至少两个视频片段样本中未被用户选定为高光片段的视频片段样本对应的预测偏好度集合为B，B由B_i组成，i＝1、……、N，N为未被用户选定为高光片段的视频片段样本的数量。那么，所述目标模型的训练目标可以被定义为，将所述预测偏好度A与B_i的差距最大化处理。

在为全部用户训练通用的目标模型的实施例中，假设用户数量为M，以用户j代表第j个用户，j＝1、2、……、M。将同一视频样本的至少两个视频片段样本中被用户j选定为高光片段的视频片段对应的预测偏好度定义为A_j，将该至少两个视频片段样本中未被用户j选定为高光片段的视频片段对应的预测偏好度集合定义为B_j，B_j由B_ji组成，i＝1、……、N，N为未被用户选定为高光片段的视频片段样本的数量。那么，所述目标模型的训练目标可以被定义为，将A_j与B_ji的差距最大化处理。

基于上述的为全部用户训练通用的目标模型的实施例，本公开提供更具体的实施例。在此实施例中：

可以针对同一视频样本的多个视频片段样本，进行视频片段样本的两两组合，得到一对视频片段样本。例如，可以将同一视频样本的第1个视频片段样本与第2个视频片段样本进行组合，将第2个视频片段样本与第3个视频片段样本进行组合，将第N-1个视频片段样本与第N个视频片段样本进行组合。

并且，针对每个用户，在训练目标模型的过程中，可以使一个用户对一对视频片段样本中进行二选一，用户选定为高光片段的一个视频片段样本被标记为“偏好度为1”，另一个视频片段样本被标记为“偏好度为0”。针对每个用户，将该用户的用户特征、一对视频片段样本，作为一组模型输入，输入到模型进行训练，将这对视频片段样本的标记作为这组模型输入对应的模型输出。如此，模型训练过程，可以学习一个用户对一对视频片段样本的偏好，并且模型训练的目标是最大化一个用户对一对视频片段样本的偏好差异。

此处示例性给出损失函数为：

其中，loss代表损失函数，u代表单个用户，s代表单个用户在一对视频片段样本中进行二选一时选定为高光片段的视频片段样本，w代表单个用户在一对视频片段样本中进行二选一时未选定为高光片段的视频片段样本。D代表包含每个用户、每一对视频片段样本的数据域。p_u代表单个用户的用户特征，q_s代表s对应的视频片段特征，q_w代表w对应的视频片段特征。σ与α是可以根据经验指定的系数。用p和q的点积代表偏好度。

是正则项，用于防止训练过拟合。

上述损失函数的值越小，从整个数据域的角度来说，代表用户(各个用户)对同一视频样本(各个视频样本)的一对视频片段样本的偏好差距的总和越大。

相应的，如果采用上述的这种方法训练目标模型，那么在应用目标模型对待推荐的视频中各视频片段进行偏好度计算时，也需要将待推荐视频的各视频片段以两两组合的方式输入到目标模型进行两两比较。最终，经过两两比较，将最终胜出的视频片段确定为高光片段。

图6是本公开提供的一种确定视频中高光片段的装置的结构示意图，包括：

获取模块601，确定待推荐给用户的视频，并获取所述视频中对应于不同场景的至少两个视频片段；

分析模块602，将所述用户的用户特征与所述至少两个视频片段分别对应的视频片段特征，输入目标模型，输出所述用户分别对所述至少两个视频片段的偏好度；

确定模块603，根据所述至少两个视频片段分别对应的偏好度的大小，从所述至少两个视频片段中确定高光片段。

所述获取模块601，针对所述视频的每个单位时长，提取该单位时长内的视频帧；计算所述视频的各单位时长分别对应的视频帧之间的相似度，将相似度小于指定阈值的若干单位时长合并为一个时段；从所述视频中提取对应于不同时段的至少两个视频片段，作为对应于不同场景的至少两个视频片段。

所述获取模块601，针对所述至少两个视频片段中每个视频片段，从该视频片段中提取多个关键视频帧，并确定提取的每个关键视频帧对应的图像特征；将包含每个关键视频帧对应的图像特征的集合，作为该视频片段对应的视频片段特征。

所述获取模块601，计算该视频片段中多个视频帧对应的平均像素值；针对该视频片段中的每个视频帧，若该视频帧对应的像素值与所述平均像素值之间的差值小于指定值，则将该视频帧确定为一个关键视频帧。

所述获取模块601，计算该视频片段中多个视频帧的指定位置像素点的像素值的平均值，作为该多个视频帧对应的平均像素值。

关键视频帧对应的图像特征是基于以下至少一种特征确定的：

所述获取模块601，按照提取的每个关键视频帧在该视频片段样本中的顺序，由先到后将提取的每个关键视频帧对应的图像特征排列成图像特征序列，作为该视频片段样本对应的视频片段特征。

所述获取模块601，针对所述至少两个视频片段中每个视频片段，将该视频片段的每个关键视频帧在该视频片段中的位置信息，作为该视频片段对应的视频片段特征。

所述获取模块601，根据所述视频对应的介绍性文本、标题文本、字幕文本中的至少一个，确定所述视频对应的文本特征；针对所述至少两个视频片段中每个视频片段，将所述视频对应的文本特征，作为该视频片段对应的视频片段特征。

所述获取模块601，根据所述视频对应的介绍性文本、标题文本、字幕文本中的至少一个，得到待处理文本；对所述待处理文本进行分词，得到对应的词序列；将所述词序列中相邻的至少两个词组成的文本作为一个正文本样本，得到多个正文本样本；基于所述多个正文本样本，训练文本分类模型，并根据训练好的所述文本分类模型的模型参数集，确定所述视频对应的文本特征。

所述文本分类模型是采用神经网络算法构建的，所述文本分类模型包括至少一个隐层；

所述获取模块601，将训练好的所述文本分类模型对应的隐层权重矩阵，作为所述视频对应的文本特征。

构建所述文本分类模型所采用的神经网络算法包括：Bert算法，或，word2vec算法。

所述用户特征用于表征所述用户的视频偏好。

所述目标模型对所述用户特征与所述至少两个视频片段分别对应的视频片段特征进行的处理包括：

所述目标模型的训练方法包括：

获取视频样本集合；

将若干用户的用户特征与该至少两个视频片段样本分别对应的视频片段特征，输入目标模型进行模型训练，输出每个用户分别对该至少两个视频片段样本的偏好度；

其中，将该至少两个视频片段样本中被用户i选定为高光片段的视频片段样本集合定义为A_i，将该至少两个视频片段样本中未被用户i选定为高光片段的视频片段样本集合定义为B_i，i＝1、……、N，N为所述若干用户的数量；所述目标模型的训练目标为，最大化所述目标模型输出的用户i对A_i的偏好度与用户i对B_i的偏好度之间的差距。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

图7是本公开提供的一种计算机可读存储介质的示意图，该介质70上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例的确定视频中高光片段的方法。

本公开还提供了一种计算设备，包括存储器、处理器；所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的确定视频中高光片段的方法。

图8是本公开提供的一种计算设备的结构示意图，如图8所示，该计算设备130可以包括但不限于：处理器131、存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

其中，存储器132存储有计算机指令，该计算机指令可以被处理器131执行，使得处理器131能够执行本公开任一实施例的确定视频中高光片段的方法。存储器132可以包括随机存取存储单元RAM1321、高速缓存存储单元1322和/或只读存储单元ROM1323。该存储器132还可以包括：具有一组程序模块1324的程序工具1325，该程序模块1324包括但不限于：操作系统、一个或多个应用程序、其他程序模块和程序数据，这些程序模块一种或多种组合可以包含网络环境的实现。

总线133例如可以包括数据总线、地址总线和控制总线等。该计算设备130还可以通过I/O接口134与外部设备135通信，该外部设备135例如可以是键盘、蓝牙设备等。该计算设备130还可以通过网络适配器136与一个或多个网络通信，例如，该网络可以是局域网、广域网、公共网络等。如图8所示，该网络适配器136还可以通过总线133与计算设备130的其他模块进行通信。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种确定视频中高光片段的方法，包括：

2.如权利要求1所述方法，获取所述视频中对应于不同场景的至少两个视频片段，包括：

3.如权利要求1所述方法，还包括：

4.如权利要求3所述方法，还包括：

5.如权利要求1所述方法，所述用户特征用于表征所述用户的视频偏好。

6.如权利要求1所述方法，所述目标模型对所述用户特征与所述至少两个视频片段分别对应的视频片段特征进行的处理包括：

7.如权利要求1所述方法，所述目标模型的训练方法包括：

获取视频样本集合；

8.一种确定视频中高光片段的装置，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1至7任一所述的方法。

10.一种计算设备，包括存储器、处理器；所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至7任一所述的方法。