CN113032624A

CN113032624A - 视频观影兴趣度确定方法、装置、电子设备及介质

Info

Publication number: CN113032624A
Application number: CN202110432673.4A
Authority: CN
Inventors: 郭梦非; 张徵
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-06-25
Anticipated expiration: 2041-04-21
Also published as: CN113032624B

Abstract

本发明实施例提供了一种视频观影兴趣度确定方法、装置、电子设备及介质，涉及数据处理技术领域，可以确定未上线的视频的观影兴趣度。本发明实施例包括：提取指定剧本中包括的对话文本，并生成对话文本包括的每句台词的句向量。然后根据生成的句向量，构建多个句向量序列。再分别将每个句向量序列输入分数预测模型，获取分数预测模型针对每个句向量序列输出的得分序列。其中，句向量序列包括的句向量与得分序列包括的得分一一对应，每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数。其中，分数预测模型为基于训练集对神经网络模型进行训练得到的模型。

Description

视频观影兴趣度确定方法、装置、电子设备及介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种视频观影兴趣度确定方法、装置、电子设备及介质。

背景技术

用户对视频的观影兴趣度可以表现为在观看视频的过程中是否存在快进、跳过等操作行为，而用户对视频的观影兴趣度一般与用户观影习惯和视频内容的精彩程度相关。为了给用户提供更好的产品使用体验，“绿镜”技术应运而生，“绿镜”技术能够根据用户观看视频过程中的操作行为以及视频本身的特征信息，计算出视频观影兴趣度曲线。其中，观影兴趣度曲线基于各视频帧的观影兴趣度分数构建，观影兴趣度曲线能够表现用户在观看视频过程中对视频的观影兴趣度变化。使得用户在观看视频的过程中，若开启了绿镜功能，则视频播放器可以自动跳过观影兴趣度分数较低的片段，从而减少用户的手动操作。

然而，对于还未上线的视频，由于无法获取到用户在观看这类视频时的操作行为，所以无法确定这类视频的观影兴趣度。

发明内容

本发明实施例的目的在于提供一种视频观影兴趣度确定方法、装置、电子设备及介质，以确定未上线的视频的观影兴趣度。具体技术方案如下：

第一方面，本发明实施例提供了一种视频观影兴趣度确定方法，所述方法包括：

提取指定剧本中包括的对话文本，并生成所述对话文本包括的每句台词的句向量；

根据生成的句向量，构建多个句向量序列；

分别将每个句向量序列输入分数预测模型，获取所述分数预测模型针对每个句向量序列输出的得分序列；所述句向量序列包括的句向量与所述得分序列包括的得分一一对应，每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数；

其中，所述分数预测模型为基于训练集对神经网络模型进行训练得到的模型，所述训练集包括多个样本句向量序列和每个样本句向量序列对应的样本得分序列，所述样本句向量序列包括已上线视频对应的样本剧本中的台词的句向量，所述样本得分序列包括的每个得分用于表示一个样本句向量所对应的台词所属视频片段的观影兴趣度分数。

可选的，所述分数预测模型通过以下步骤训练获得：

将所述训练集中的样本句向量序列输入所述神经网络模型，并获取所述神经网络模型针对输入的样本句向量序列输出的预测得分序列；

基于输入所述神经网络模型的样本句向量序列对应的样本得分序列和所述神经网络模型针对输入的样本句向量序列输出的预测得分序列，计算损失函数值；

基于所述损失函数值，确定所述神经网络模型是否收敛；

若所述神经网络模型未收敛，则基于所述损失函数值，调整所述神经网络模型的网络参数，并返回所述将所述训练集中的样本句向量序列输入所述神经网络模型的步骤；

若所述神经网络模型收敛，则将当前的神经网络模型作为所述分数预测模型。

可选的，所述训练集通过以下步骤得到：

提取已上线视频对应的样本剧本中的样本对话文本，并生成所述样本对话文本包括的每句台词的样本句向量；

确定每句台词在所述已上线视频中对应的时间区间；

获取所述已上线视频中各时间点的观影兴趣度分数；

针对所述样本对话文本包括的每句台词，将该台词在所述已上线视频中对应的时间区间内各时间点的观影兴趣度分数的平均值，作为该台词所属视频片段的观影兴趣度分数；

根据所述样本对话文本包括的各句台词的样本句向量，构建多个样本句向量序列；

针对每个样本句向量序列，将该样本句向量序列包括的样本句向量对应的台词所属视频片段的观影兴趣度分数，构建为该样本句向量序列对应的样本得分序列；

将每个样本句向量序列与样本得分序列对应，构建为所述训练集。

可选的，所述确定每句台词在所述已上线视频中对应的时间区间，包括：

获取所述已上线视频包括的各条字幕，以及每条字幕在所述已上线视频中对应的时间区间；

针对所述样本对话文本包括的每句台词，确定与该台词匹配的字幕，并确定该台词在所述已上线视频中对应的时间区间为与该台词匹配的字幕在所述已上线视频中对应的时间区间。

可选的，所述根据所述样本对话文本包括的各句台词的样本句向量，构建多个样本句向量序列，包括：

步骤一，选择所述已上线视频对应的样本剧本的第一个常规场次和第二个常规场次中的对话文本，作为目标文本，所述常规场次包括的台词在所述已上线视频中对应的时间区间的时长小于预设时长；

步骤二，将所述目标文本包括的台词在所述已上线视频中对应的时间区间的总时长与所述预设时长比较；

步骤三，如果所述目标文本包括的台词对应的总时长大于或等于所述预设时长，则将所述目标文本包括的台词的句向量构建为一个样本句向量序列，并将所述样本剧本中在所述目标文本之后两个常规场次中的对话文本，作为所述目标文本，返回所述步骤二；

步骤四，如果所述目标文本包括的台词对应的总时长小于所述预设时长，则将所述样本剧本中在所述目标文本之后的一个常规场次中的对话文本加入所述目标文本；

步骤五，将所述目标文本包括的台词在所述已上线视频中对应的时间区间的总时长与所述预设时长比较；

步骤六，如果所述目标文本包括的台词对应的总时长大于所述预设时长，则将所述目标文本包括的目标常规场次中的对话文本包括的台词的句向量构建为一个样本句向量序列，并将所述样本剧本中在所述目标常规场次之后的两个常规场次中的对话文本，作为所述目标文本，返回所述步骤二；其中，所述目标常规场次为所述目标文本中除最后一个常规场次以外的常规场次；

步骤七，如果所述目标文本包括的台词对应的总时长等于所述预设时长，则将目标文本包括的台词的句向量构建为一个样本句向量序列，并将所述样本剧本中在所述目标文本之后的两个常规场次中的对话文本，作为所述目标文本，返回所述步骤二；

步骤八，如果所述目标文本包括的台词对应的总时长小于所述预设时长，则将所述样本剧本中在所述目标文本之后的一个常规场次中的对话文本加入所述目标文本，并返回所述步骤五。

第二方面，本发明实施例提供了一种视频观影兴趣度确定装置，所述装置包括：

生成模块，用于提取指定剧本中包括的对话文本，并生成所述对话文本包括的每句台词的句向量；

构建模块，用于根据所述生成模块生成的句向量，构建多个句向量序列；

输入模块，用于分别将所述构建模块构建的每个句向量序列输入分数预测模型，获取所述分数预测模型针对每个句向量序列输出的得分序列；所述句向量序列包括的句向量与所述得分序列包括的得分一一对应，每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数；

可选的，所述装置还包括训练模块，所述训练模块用于：

基于所述损失函数值，确定所述神经网络模型是否收敛；

可选的，所述构建模块，还用于：

确定每句台词在所述已上线视频中对应的时间区间；

获取所述已上线视频中各时间点的观影兴趣度分数；

可选的，所述构建模块，具体用于：

可选的，所述构建模块，具体用于执行：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一视频观影兴趣度确定方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一视频观影兴趣度确定方法的步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一视频观影兴趣度确定方法的步骤。

本发明实施例提供的视频观影兴趣度确定方法、装置、电子设备及介质，通过从指定剧本中提取对话文本，并生成对话文本包括的每句台词的句向量，然后将根据句向量生成的句向量序列输入分数预测模型，进而获得得分序列。由于得分序列的每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数，而且视频片段为指定剧本对应的视频中的视频片段，因此能够获得指定剧本对应的指定视频中各视频片段的观影兴趣度分数，从而获得视频的观影兴趣度。即本发明实施例可以利用视频对应的剧本，确定视频的观影兴趣度，由于未上线的视频存在对应的剧本，因此本发明实施例能够确定未上线的视频的观影兴趣度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中的一种视频观影兴趣度确定方法的流程图；

图2为本发明实施例中的一种分数预测模型训练方法的流程图；

图3为本发明实施例中的一种构建样本句向量序列的方法流程图；

图4为本发明实施例中的另一种视频观影兴趣度确定方法的流程图；

图5为本发明实施例中的另一种视频观影兴趣度确定方法的流程图；

图6为本发明实施例中的一种视频观影兴趣度确定装置的结构示意图；

图7为本发明实施例中的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了确定未上线的视频的观影兴趣度，本发明实施例提供了一种视频观影兴趣度确定方法，该方法可以应用于电子设备，其中电子设备可以是服务器、计算机或者平板电脑等具备文本数据处理能力的设备。如图1所示，该方法包括以下步骤：

S101，提取指定剧本中包括的对话文本，并生成对话文本包括的每句台词的句向量。

S102，根据生成的句向量，构建多个句向量序列。

S103，分别将每个句向量序列输入分数预测模型，获取分数预测模型针对每个句向量序列输出的得分序列。

其中，句向量序列包括的句向量与得分序列包括的得分一一对应，每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数。

在本发明实施例中，分数预测模型为基于训练集对神经网络模型进行训练得到的模型，训练集包括多个样本句向量序列，样本句向量序列的标签为样本得分序列，样本句向量序列包括的样本句向量为已上线视频对应的样本剧本中的台词的句向量，样本得分序列包括的每个得分用于表示：样本句向量序列包括的样本句向量所对应的台词在所述已上线视频中对应的视频片段的观影兴趣度分数。

本发明实施例提供的视频观影兴趣度确定方法，通过从指定剧本中提取对话文本，并生成对话文本包括的每句台词的句向量，然后将根据句向量生成的句向量序列输入分数预测模型，进而获得得分序列。由于得分序列的每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数，而且视频片段为指定剧本对应的视频中的视频片段，因此能够获得指定剧本对应的指定视频中各视频片段的观影兴趣度分数，从而获得视频的观影兴趣度。即本发明实施例可以利用视频对应的剧本，确定视频的观影兴趣度，由于未上线的视频存在对应的剧本，因此本发明实施例能够确定未上线的视频的观影兴趣度。

在本发明实施例中，上述S103中的分数预测模型可以是变压器(Transformer)模型或者其他可以进行序列处理的模型，本发明实施例对此不作具体限定。

参见图2，上述S103中的分数预测模型可以通过以下步骤训练获得：

S201，将训练集中的样本句向量序列输入神经网络模型，并获取神经网络模型针对输入的样本句向量序列输出的预测得分序列。

其中，预测得分序列与样本句向量序列一一对应，预测得分序列中的每个得分表示：样本句向量序列包括的一个样本句向量所对应的台词所属视频片段的预测观影兴趣度分数。样本句向量对应的台词所属视频片段是样本剧本对应的视频中的视频片段。

S202，基于输入神经网络模型的样本句向量序列对应的样本得分序列和神经网络模型针对输入的样本句向量序列输出的预测得分序列，计算损失函数值。

一种实施方式中，基于输入神经网络模型的样本句向量序列对应的样本得分序列和神经网络模型针对输入的样本句向量序列输出的预测得分序列，利用均方误差损失函数(Mean Squared Error，MSE)，计算损失函数值。

在计算损失函数值时，除了均方误差损失函数以外，可以利用平方损失函数、绝对值损失函数、平均绝对误差损失函数或者交叉熵损失函数等，本发明实施例对此不作具体限定。

S203，基于损失函数值，确定神经网络模型是否收敛。若神经网络模型未收敛，则执行S204；若神经网络模型收敛，则执行S205。

一种实施方式中，对比迭代过程中本次计算的损失函数值和上次计算的损失函数值之间的差值是否超过预设差值，若超过，则确定神经网络模型未收敛。若未超过，则确定神经网络模型收敛。

另一种实施方式中，对比迭代过程中本次计算的损失函数值是否大于预设阈值，若大于，则确定神经网络模型未收敛。若不大于，则确定神经网络模型收敛。

S204，基于损失函数值，调整神经网络模型的网络参数，并返回S201。

一种实施方式中，可以基于预设学习率，采用梯度下降的方式，调整神经网络模型的各网络层的网络参数，并基于调整后的神经网络模型，执行S201。

S205，将当前的神经网络模型作为分数预测模型。

由于本发明实施例在训练分数预测模型时，利用反向传播的训练方式，基于预测得分序列与样本得分序列之间的差距，调整神经网络模型，使得调整后得到的分数预测模型预测的得分序列，更接近于输入分数预测模型的句向量序列包括的句向量对应的台词所属视频片段的实际的观影兴趣度分数，提高了分数预测模型的预测准确度。

在本发明实施例中，可以基于多个已上线视频对应的剧本，生成上述训练神经网络模型的训练集。利用每个已上线视频对应的剧本构建训练集的方式相同，以下以基于一个已上线视频对应的剧本生成训练集为例，对生成训练集的方式进行说明。训练集通过以下步骤得到：

步骤1，提取已上线视频对应的样本剧本中的样本对话文本，并生成样本对话文本包括的每句台词的样本句向量。

其中，已上线视频指的是：已发布且获取到用户对视频的观影兴趣度的视频。

在本发明实施例中，剧本中的人物对话一般以某某人说：“........”的形式，可以识别样本剧本中的冒号与双引号的组合，然后提取该组合中双引号中的文本，作为样本对话文本。再分别针对样本对话文本包括的每句台词，生成一个样本句向量。

一种实施方式中，可以将样本对话文本包括的每句台词，分别输入来自变压器的双向编码表示(Bidirectional Encoder Representation from Transformers，BERT)模型，并获取BERT输出的台词的句向量。其中，BERT是一种预训练模型。

或者还可以使用其他方式确定台词的句向量，本发明实施例对此不作具体限定。

步骤2，确定每句台词在已上线视频中对应的时间区间。

一种实施方式中，针对每句台词，将已上线视频中播放该台词的时间区间，作为该台词已上线视频中对应的时间区间。

在本发明实施例中，台词在已上线视频中对应的时间区间为：台词在已上线视频中所属视频片段的时长。

步骤3，获取已上线视频中各时间点的观影兴趣度分数。

一种实施方式中，数据库中已上线视频的观影兴趣度的表现形式可以是随播放时长变化的曲线，在这种情况下，可以以秒为单位，获取每个整数秒对应的观影兴趣度分数。

在本发明实施例中，除了以秒为单位确定时间点以外，还可以指定时间点，例如，每隔0.5秒确定一个时间点。本发明实施例对于时间点具体指的播放时刻不作具体限定。

步骤4，针对样本对话文本包括的每句台词，将该台词在已上线视频中对应的时间区间内各时间点的观影兴趣度分数的平均值，作为该台词所属视频片段的观影兴趣度分数。

例如，各时间点的观影兴趣度分数L2：[第1秒得分,第2秒得分,…,第M秒得分]，其中，M为已上线视频的总秒数。以每句台词为键(key)，以台词在已上线视频中对应的时间区间为值(value)，得到的字典M2：{第1句台词:时间区间1,第2句台词:时间区间2,…,第n句台词：时间区间n}，其中，n为该样本剧本包括的台词句数。将L2与M2匹配，得到各台词在已上线视频中，分别对应的时间区间内各时间点的观影兴趣度分数M3：{第1句台词:[第1秒得分,第2秒得分],第2句台词:[第3秒得分,第4秒得分],…第n句台词:[第(M-1)秒得分,第M秒得分]}。然后对每句台词对应的得分求平均值，得到字典M4：{第1句台词的样本句向量:得分均值1,第2句台词的样本句向量:得分均值2,…,第n句台词的样本句向量:得分均值n}。其中，台词的样本句向量维度可以设置为128。

步骤5，根据样本对话文本包括的各句台词的样本句向量，构建多个样本句向量序列。

其中，每个样本句向量序列是由多个样本句向量组成的序列。

步骤6，针对每个样本句向量序列，将该样本句向量序列包括的样本句向量对应的台词所属视频片段的观影兴趣度分数，构建为该样本句向量序列对应的样本得分序列。

例如，一个样本句向量序列为[样本句向量1，样本句向量2，样本句向量3]，样本句向量1对应的台词所属视频片段的观影兴趣度分数为分数1，样本句向量2对应的台词所属视频片段的观影兴趣度分数为分数2，样本句向量3对应的台词所属视频片段的观影兴趣度分数为分数3。这个样本句向量序列对应的样本得分序列为：[分数1，分数2，分数3]。

步骤7，将每个样本句向量序列与样本得分序列对应，构建为训练集。

一种实施方式中，可以将每个样本句向量序列和样本句向量序列对应的样本得分序列，处理为Tfrecord数据格式，组成训练集。其中，Tfrecord是TensorFlow中一种常用的数据打包格式，TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统。

由于本发明实施例将剧本与其对应的已上线视频的观影兴趣度得分进行关联，构建训练集，使得用该训练集训练出的得分预测模型，能够基于视频的剧本，预测视频的观影兴趣度。

针对上述步骤2，确定每句台词在已上线视频中对应的时间区间的方式，可以利用以下两个步骤实现：

步骤(1)，获取已上线视频包括的各条字幕，以及每条字幕在已上线视频中对应的时间区间。

一种实施方式中，视频一般存在对应的字幕文件，字幕文件中包括视频中的各条字幕，以及每条字幕在该视频中对应的时间区间。在这种情况下，可以直接获取已上线视频对应的字幕文件。

另一种实施方式中，可以获取已上线视频包括的各视频帧的画面，以及在已上线视频中各视频帧对应的时间点。然后针对已上线视频包括的每个视频帧的画面，利用光学字符识别(Optical Character Recognition，OCR)算法，提取视频帧的画面中的字幕。再通过去重处理，得到每条字幕在已上线视频中对应的时间区间。

步骤(2)，针对样本对话文本包括的每句台词，确定与该台词匹配的字幕，并确定该台词在已上线视频中对应的时间区间为与该台词匹配的字幕在已上线视频中对应的时间区间。

一种实施方式中，针对样本对话文本包括的每句台词，可以将与该台词完全相同的字幕，作为与该台词匹配的字幕。

另一种实施方式中，由于演员临场发挥或者导演现场改词等原因，可能导致剧本中的台词与演员演戏时说的台词不一样，由于字幕与演员演戏时说的台词一致，使得剧本中的台词与视频中的字幕不完全一致。因此针对样本对话文本包括的每句台词，可以计算视频中的各条字幕与该台词的相似度，将相似度大于预设相似度阈值的字幕，作为与该台词匹配的字幕。例如相似度阈值可以设置为95％。

结合步骤(1)和步骤(2)举例，样本剧本中的对话文本包括的台词按顺序表示为列表L1：[第1句台词,第2句台词,…,第n句台词]。然后将已上线视频中的每条字幕作为key，将每条字幕在已上线视频中分别对应的时间区间作为value，得到字典M1：{字幕1:时间区间1,字幕2:时间区间2,…,字幕N:时间区间N}。再将台词与字幕匹配，得到每句台词在已上线视频中对应的时间区间，即得到字典M2：{第1句台词:时间区间1,第2句台词:时间区间2,…,第n句台词：时间区间n}。其中，n为该样本剧本包括的台词句数，N为已上线视频包括的字幕条数。

本发明实施例通过将剧本中的台词与视频的字幕匹配的方式，提升了确定台词在视频中对应的时间区间的准确性。

针对上述步骤5，参见图3，构建样本句向量序列的方式可以通过以下步骤实现：

S301，选择已上线视频对应的样本剧本的第一个常规场次和第二个常规场次中的对话文本，作为目标文本。

可以理解的，剧本内容按照场次划分，一个场次一般指一个场景，即单一空间内发生的动作。例如，角色1和角色2在房间内争吵，角色1生气地走出房间，角色2也追了出去。这是两个场景，即两个场次，一个场次在房间内，一个场次在房间外。

剧本中的每个场次存在标识，例如每个场次开始前标记有场次序号，本发明实施例可以根据每个场次的标识区分各个场次。

其中，常规场次包括的台词在已上线视频中对应的时间区间的时长小于预设时长。例如，预设时长为5分钟。

本发明实施例中，将包括的台词在已上线视频中对应的时间区间的时长小于预设时长的场次，记作常规场次；将包括的台词在已上线视频中对应的时间区间的时长不小于预设时长的场次，记作特殊场次。由于特殊场次的台词较多，若利用特殊场次的台词构建训练样本，则使得模型的计算过程复杂，且不利于模型学习不同场次包括的台词之间的联系，因此本发明实施例不利用特殊场次的对话文本构建训练集。

S302，将目标文本包括的台词在已上线视频中对应的时间区间的总时长与预设时长比较。

S303，如果目标文本包括的台词对应的总时长大于或等于预设时长，则将目标文本包括的台词的句向量构建为一个样本句向量序列，并将样本剧本中在目标文本之后两个常规场次中的对话文本，作为目标文本，返回S302。

其中，目标文本包括的台词对应的总时长指的是：目标文本包括的台词在已上线视频中对应的时间区间的总时长。

例如，目标文本包括场次1和场次2的对话文本，场次1包括的台词的句向量为句向量1和句向量2，场次2包括的台词的句向量为句向量3。利用目标文本包括的台词的句向量构建的样本句向量序列为[向量1，句向量2，句向量3]。并将场次2之后的两个常规场次中的对话文本作为目标文本，返回S302。

S304，如果目标文本包括的台词对应的总时长小于预设时长，则将样本剧本中在目标文本之后的一个常规场次中的对话文本加入目标文本。

例如，目标文本包括场次1和场次2的对话文本，场次1和场次2之后的一个常规场次为场次3，将场次3中的对话文本加入目标文本，得到的目标文本包括场次1、场次2和场次3的对话文本。

S305，将目标文本包括的台词在已上线视频中对应的时间区间的总时长与预设时长比较。

S306，如果目标文本包括的台词对应的总时长大于预设时长，则将目标文本包括的目标常规场次中的对话文本包括的台词的句向量构建为一个样本句向量序列，并将样本剧本中在目标常规场次之后的两个常规场次中的对话文本，作为目标文本，返回S302。

其中，目标常规场次为目标文本中除最后一个常规场次以外的常规场次。

例如，目标文本包括场次1、场次2和场次3的对话文本，将目标文本包括的目标常规场次(即场次1和场次2)中，对话文本包括的台词的句向量构建为一个样本句向量序列。并将样本剧本中在场次1和场次2之后的两个常规场次中的对话文本，作为目标文本，返回S302。

S307，如果目标文本包括的台词对应的总时长等于预设时长，则将目标文本包括的台词的句向量构建为一个样本句向量序列，并将样本剧本中在目标文本之后的两个常规场次中的对话文本，作为目标文本，返回S302。

S308，如果目标文本包括的台词对应的总时长小于预设时长，则将样本剧本中在目标文本之后的一个常规场次中的对话文本加入目标文本，并返回S305。

S308中在目标文本中加入常规场次中的对话文本的方式与上述S304的方式相同，可参考上述描述，此处不再赘述。

可选的，S301-S308可以在确定至剧本的最后一个场次时结束。

由于本发明实施例能够基于多个场次的对话文本，构建样本句向量序列，使得模型能够学习不同场次的台词之间的联系。而且本发明实施例限制每个场次的台词在已上线视频中对应的时间区间的长度，利用时间区间较短的常规场次构建样本句向量序列，更有利于模型学习相邻的多个场次的台词之间的联系。

针对上述S101，S101中提取指定剧本中包括的对话文本，并生成对话文本包括的每句台词的句向量的方式，与上述步骤1记载的方式相同，可参见上述步骤1中的相关描述，此处不再赘述。

针对上述S102，S102中构建多个句向量序列的方式与图3记载的方式相同，可参见上述图3中的相关描述，此处不再赘述。

针对上述S103，S103中的分数预测模型，可以是利用图2所示的方式训练得到的模型。

在S103之后，针对指定剧本中的每句台词，确定该台词在指定视频中所属视频片段，设置确定的视频片段的观影兴趣度分数为该台词对应的观影兴趣度分数，从而得到指定视频中各视频片段的观影兴趣度分数，即得到了指定视频的观影兴趣度曲线。

本发明实施例能够基于视频对应的剧本，预测视频的观影兴趣度。因此能够预测用户对未上线的视频的观影兴趣度，使得在该视频新上线时，能够为用户提供“绿镜”功能，帮助用户区分视频内容相对精彩的部分，提升用户观影体验。

参见图4，以下通过一个完整的实例，对本发明实施例提供的视频观影兴趣度确定方法的流程进行说明。

步骤一，利用已成片剧本，以及已成片剧本对应的电影的观影兴趣度，构建训练集。

其中，已成片剧本指的是已上线的电影对应的剧本。

构建训练集的步骤可参考上述步骤1至7中的相关描述，此处不再赘述。

步骤二，利用训练集训练神经网络模型，得到分数预测模型。

训练获得分数预测模型的步骤可参考图2中的相关描述，此处不再赘述。

步骤三，利用未成片剧本，构建预测样本。

其中，未成片剧本指的是未上线的电影对应的剧本。

在本发明实施例中，预测样本为基于未成片剧本构建的句向量序列。基于未成片剧本构建的句向量序列的方式可参考上述S102中的相关描述，此处不再赘述。

步骤四，将构建的预测样本输入分数预测模型，得到分数预测模型针对预测样本输出的得分序列。

得到得分序列的方式可参考上述S103中的相关描述，此处不再赘述。

参见图5，以下通过一个实例，对上述步骤三和步骤四的流程进行说明。

步骤(一)，将未成片剧本中的各台词输入BERT模型，得到各台词的句向量。

例如，图5中，将未成片剧本中的台词1至台词n输入BERT模型，得到BERT模型输出的句向量1至句向量n，每个句向量对应一句台词。其中，n为从该未成片剧本提取的台词句数。

步骤(二)，将句向量构建为句向量序列，输入基于Transformer的分数预测模型，得到分数预测模型输出的得分序列。

基于相同的发明构思，对应于上述方法实施例，本发明实施例提供了一种视频观影兴趣度确定装置，如图6所示，该装置包括：生成模块601、构建模块602和输入模块603；

生成模块601，用于提取指定剧本中包括的对话文本，并生成对话文本包括的每句台词的句向量；

构建模块602，用于根据生成模块601生成的句向量，构建多个句向量序列；

输入模块603，用于分别将构建模块602构建的每个句向量序列输入分数预测模型，获取分数预测模型针对每个句向量序列输出的得分序列；句向量序列包括的句向量与得分序列包括的得分一一对应，每个得分用于表示一个句向量对应的台词所属视频片段的观影兴趣度分数；

其中，分数预测模型为基于训练集对神经网络模型进行训练得到的模型，训练集包括多个样本句向量序列和每个样本句向量序列对应的样本得分序列，样本句向量序列包括已上线视频对应的样本剧本中的台词的句向量，样本得分序列包括的每个得分用于表示一个样本句向量所对应的台词所属视频片段的观影兴趣度分数。

可选的，装置还包括训练模块，训练模块用于：

将训练集中的样本句向量序列输入神经网络模型，并获取神经网络模型针对输入的样本句向量序列输出的预测得分序列；

基于输入神经网络模型的样本句向量序列对应的样本得分序列和神经网络模型针对输入的样本句向量序列输出的预测得分序列，计算损失函数值；

基于损失函数值，确定神经网络模型是否收敛；

若神经网络模型未收敛，则基于损失函数值，调整神经网络模型的网络参数，并返回将训练集中的样本句向量序列输入神经网络模型的步骤；

若神经网络模型收敛，则将当前的神经网络模型作为分数预测模型。

可选的，构建模块602，还用于：

提取已上线视频对应的样本剧本中的样本对话文本，并生成样本对话文本包括的每句台词的样本句向量；

确定每句台词在已上线视频中对应的时间区间；

获取已上线视频中各时间点的观影兴趣度分数；

针对样本对话文本包括的每句台词，将该台词在已上线视频中对应的时间区间内各时间点的观影兴趣度分数的平均值，作为该台词所属视频片段的观影兴趣度分数；

根据样本对话文本包括的各句台词的样本句向量，构建多个样本句向量序列；

将每个样本句向量序列与样本得分序列对应，构建为训练集。

可选的，构建模块602，具体用于：

获取已上线视频包括的各条字幕，以及每条字幕在已上线视频中对应的时间区间；

针对样本对话文本包括的每句台词，确定与该台词匹配的字幕，并确定该台词在已上线视频中对应的时间区间为与该台词匹配的字幕在已上线视频中对应的时间区间。

可选的，构建模块602，具体用于执行：

步骤一，选择已上线视频对应的样本剧本的第一个常规场次和第二个常规场次中的对话文本，作为目标文本，常规场次包括的台词在已上线视频中对应的时间区间的时长小于预设时长；

步骤二，将目标文本包括的台词在已上线视频中对应的时间区间的总时长与预设时长比较；

步骤三，如果目标文本包括的台词对应的总时长大于或等于预设时长，则将目标文本包括的台词的句向量构建为一个样本句向量序列，并将样本剧本中在目标文本之后两个常规场次中的对话文本，作为目标文本，返回步骤二；

步骤四，如果目标文本包括的台词对应的总时长小于预设时长，则将样本剧本中在目标文本之后的一个常规场次中的对话文本加入目标文本；

步骤五，将目标文本包括的台词在已上线视频中对应的时间区间的总时长与预设时长比较；

步骤六，如果目标文本包括的台词对应的总时长大于预设时长，则将目标文本包括的目标常规场次中的对话文本包括的台词的句向量构建为一个样本句向量序列，并将样本剧本中在目标常规场次之后的两个常规场次中的对话文本，作为目标文本，返回步骤二；其中，目标常规场次为目标文本中除最后一个常规场次以外的常规场次；

步骤七，如果目标文本包括的台词对应的总时长等于预设时长，则将目标文本包括的台词的句向量构建为一个样本句向量序列，并将样本剧本中在目标文本之后的两个常规场次中的对话文本，作为目标文本，返回步骤二；

步骤八，如果目标文本包括的台词对应的总时长小于预设时长，则将样本剧本中在目标文本之后的一个常规场次中的对话文本加入目标文本，并返回步骤五。

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述方法实施例中的方法步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的视频观影兴趣度确定方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频观影兴趣度确定方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频观影兴趣度确定方法，其特征在于，所述方法包括：

根据生成的句向量，构建多个句向量序列；

2.根据权利要求1所述的方法，其特征在于，所述分数预测模型通过以下步骤训练获得：

基于所述损失函数值，确定所述神经网络模型是否收敛；

3.根据权利要求1或2所述的方法，其特征在于，所述训练集通过以下步骤得到：

确定每句台词在所述已上线视频中对应的时间区间；

获取所述已上线视频中各时间点的观影兴趣度分数；

4.根据权利要求3所述的方法，其特征在于，所述确定每句台词在所述已上线视频中对应的时间区间，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述样本对话文本包括的各句台词的样本句向量，构建多个样本句向量序列，包括：

6.一种视频观影兴趣度确定装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块用于：

基于所述损失函数值，确定所述神经网络模型是否收敛；

8.根据权利要求6或7所述的装置，其特征在于，所述构建模块，还用于：

确定每句台词在所述已上线视频中对应的时间区间；

获取所述已上线视频中各时间点的观影兴趣度分数；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。