CN113642495B

CN113642495B - 用于评价时序提名的模型的训练方法、设备、程序产品

Info

Publication number: CN113642495B
Application number: CN202110963278.9A
Authority: CN
Inventors: 吴文灏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2023-03-24
Anticipated expiration: 2041-08-20
Also published as: CN113642495A

Abstract

本公开提供的用于评价时序提名的模型的训练方法、设备、程序产品，涉及计算机视觉和深度学习技术，包括：获取用于训练模型的样本时序提名，以及样本时序提名的标签，其中，标签包括用于表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中包括的背景信息；利用样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，识别偏移信息、识别背景信息用于确定待处理的时序提名的分数。本公开提供的方案中，在训练模型时加入了样本时序提名的背景信息，进而提高模型的抗噪能力，从而提高模型输出的识别结果的准确性。

Description

用于评价时序提名的模型的训练方法、设备、程序产品

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，尤其涉及一种用于评价时序提名的模型的训练方法、设备、程序产品。

背景技术

时序提名在视频集锦生成、视频推荐、检索等方面有巨大应用潜力，时序提名是指根据视频内容定位的行为片段，具体可以将视频输入到模型中，通过模型在视频中识别出多个时序提名。

其中，时序提名的准确性决定了时序提名在应用场景中产生的效果。现有技术中，可以通过预先训练的网络对时序提名进行评价，以确定时序提名的准确性。

但是，目前训练用于评价时序提名的网络时，采用的样本标签定义为预测时序提名与真实时序提名的IoU(交并比，Intersection over Union)，这导致一个待处理的时序提名中包括多个真实时序提名时，网络会因为噪声输出该待处理时序提名的质量欠佳的置信度分数，导致评价结果不准确的问题。

发明内容

本公开提供了一种用于评价时序提名的模型的训练方法、设备、程序产品，以解决现有技术中网络对包括多个真实时序提名进行评价时，评价结果不准确的问题。

根据本公开的第一方面，提供了一种用于评价时序提名的模型的训练方法，包括：

获取用于训练模型的样本时序提名，以及所述样本时序提名的标签，其中，所述标签包括用于表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中包括的背景信息；

利用所述样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，所述模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，所述识别偏移信息、识别背景信息用于确定所述待处理的时序提名的分数。

根据本公开的第二方面，提供了一种用于评价时序提名的方法，包括：

将候选时序提名输入用于评价时序提名的模型，所述模型用于输出所述候选时序提名的识别偏移信息、识别背景信息；所述模型是基于第一方面所述的方法训练得到的；

根据所述候选时序提名的识别偏移信息、识别背景信息确定所述候选时序提名的分数，若所述候选时序提名的分数达到预设值，则确定所述候选时序提名为真实时序提名。

根据本公开的第三方面，提供了一种用于评价时序提名的模型的训练装置，包括：

获取单元，用于获取用于训练模型的样本时序提名，以及所述样本时序提名的标签，其中，所述标签包括用于表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中包括的背景信息；

训练单元，用于利用所述样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，所述模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，所述识别偏移信息、识别背景信息用于确定所述待处理的时序提名的分数。

根据本公开的第四方面，提供了一种用于评价时序提名的装置，包括：

识别单元，用于将候选时序提名输入用于评价时序提名的模型，所述模型用于输出所述候选时序提名的识别偏移信息、识别背景信息；所述模型是利用第一方面所述的方法训练得到的；

确定单元，用于根据所述候选时序提名的识别偏移信息、识别背景信息确定所述候选时序提名的分数，若所述候选时序提名的分数达到预设值，则确定所述候选时序提名为真实时序提名。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面或第二方面所述的方法

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面或第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。

本公开提供的用于评价时序提名的模型的训练方法、设备、程序产品，在训练用于评价时序提名的模型时，加入了样本时序提名的背景信息，进而提高模型的抗噪能力，从而提高模型输出的识别结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开一示例性实施例示出的用于评价时序提名的模型的训练方法的流程示意图；

图2为本公开另一示例性实施例示出的用于评价时序提名的模型的训练方法的流程示意图；

图3为本公开一示例性实施例示出的组合边界位置得到样本时序提名的示意图；

图4为本公开一示例性实施例示出的与样本时序提名对应的真实时序提名的示意图；

图5为本公开一示例性实施例示出的样本时序提名、真实时序提名的交集示意图；

图6为本公开一示例性实施例示出的样本时序提名、真实时序提名的并集示意图；

图7为本公开一示例性实施例示出的样本时序提名的背景信息的示意图；

图8为本公开一示例性实施例示出的样本时序提名的偏移信息的示意图；

图9为本公开一示例性实施例示出的用于评价时序提名的方法的流程示意图；

图10为本公开一示例性实施例示出的用于评价时序提名的模型的训练装置的结构示意图；

图11为本公开另一示例性实施例示出的用于评价时序提名的模型的训练装置的结构示意图；

图12为本公开一示例性实施例示出的用于评价时序提名的装置的结构示意图；

图13是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前网络中存在很多长视频，这些视频时间较长，对于时间不充裕的用户来说，不可能浏览大量的长视频。而为了向这部分用户提供视频内容，或者向这部分用户推荐视频内容，则可以通过时序动作提名的方式，从视频中提取出时序提名，从而利用时序提名进行视频推荐，还可以制作视频集锦，还可以用于视频检索。

目前可以对视频的特征序列进行简单的时序信息融合，然后使用基于边界预测的方法或者是基于预定义锚点框回归的方法生成可能包含人体动作的大量候选时序提名，最后对生成的大量候选时序提名进行置信度评估。

在一些实现方式中，可以训练用于评估候选时序提名的网络，具体可以利用候选时序提名与真实时序提名的IoU训练网络。但是，这种方式中，当一个待处理的时序提名中包括多个真实时序提名时，网络会因为噪声输出该待处理时序提名的质量欠佳的评价结果，导致评价结果不准确的问题。

为了解决上述技术问题，本公开提供的方案中，用于训练网络的样本时序提名具有的标签包括表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中的包括的背景信息，通过加入时序提名的背景信息能够训练出评价更加准确的网络，从而提高评价网络输出的评价结果的准确性。

图1为本公开一示例性实施例示出的用于评价时序提名的模型的训练方法的流程示意图。

如图1所示，本公开提供的用于评价时序提名的模型的训练方法，包括：

步骤101，获取用于训练模型的样本时序提名，以及样本时序提名的标签，其中，标签包括用于表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中的包括的背景信息。

本公开提供的方法应用于具备计算能力的电子设备中，具体可以由用于训练用于评价时序提名的模型的电子设备执行。

可选地，可以预先准备用于训练模型的样本，该样本具体可以是样本时序提名，每个样本时序提名具有标签。样本时序提名可以是从完整的视频中提取的视频片段，从视频中拆解出样本时序提名后，用户可以标注各样本时序提名对应的真实时序提名，再利用样本时序提名及其对应的真实时序提名确定各样本时序提名的标签。

可选地，可以提取视频的时序特征序列，再根据时序特征序列确定视频中各画面的边界信息，该边界信息具体用于表征一帧画面是时序提名的边界画面的概率程度。比如，一个画面的边界信息为10，另一画面的边界信息为5，则结果为10的画面更有可能是边界画面。

可选地，可以在完整的视频中确定多个边界画面，再对各边界画面进行组合，可以得到多个样本时序提名。

可选地，用户可以根据各样本时序提名，以及完整视频中的视频内容，确定与每个样本时序提名对应的真实时序提名。电子设备可以根据样本时序提名、真实样本时序提名生成样本时序提名的标签。比如，可以将样本时序提名、真实样本时序提名的交集与并集的比值，作为样本时序提名与真实时序提名之间的偏移信息；将样本时序提名、真实样本时序提名的交集与样本时序提名的比值，作为样本时序提名中包括的背景信息。

可选地，可以在开始训练前准备用于训练模型的样本时序提名及其标签。

可选地，还可以预先搭建模型，通过对该模型进行训练能够得到用于评价时序提名的模型。比如，可以构建神经网络，从而得到模型。

可选地，在对模型进行训练时，可以获取于训练模型的样本时序提名，以及样本时序提名的标签，每次可以获取多个样本时序提名，从而利用多个样本时序提名对模型进行一次训练，经过多次的训练，能够得到用于评价时序提名的模型。

步骤102，利用样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，识别偏移信息、识别背景信息用于确定待处理的时序提名的分数。

可选地，可以利用获取的时序提名及其标签对预先搭建的模型进行训练。具体可以将时序提名输入模型中，模型能够输出该时序提名的识别结果，识别结果具体包括识别偏移信息、识别背景信息。

可选地，电子设备可以根据时序提名的标签以及识别结果，对模型本身进行优化，提高模型识别结果的准确度。具体的利用时序提名的标签以及识别结果确定损失函数值，再通过损失函数值对模型中的参数进行优化，使得模型输出的时序提名的识别结果更贴近于其标签。

可选地，搭建的模型具备输出时序提名的识别偏移信息、识别背景信息的功能。

可选地，可以获取分多批次获取样本时序提名及其标签，从而对模型进行多轮次的训练，得到用于评价时序提名的模型。

这种实施方式中，在训练用于评价时序提名的模型时，加入了样本时序提名的背景信息，进而提高模型的抗噪能力，从而提高模型输出的识别结果的准确性。

可选地，可以将待处理的时序提名输入到训练完毕的用于评价时序提名的模型中，该模型能够输出时序提名的识别偏移信息、识别背景信息，再利用时序提名的识别偏移信息、识别背景信息，确定待处理的时序提名的分数。这种处理方式能够结合时序提名中的偏移信息以及背景信息评价该时序提名，从而可以得到更准确的评价结果。

本公开提供的用于评价时序提名的模型的训练方法，包括：获取用于训练模型的样本时序提名，以及样本时序提名的标签，其中，标签包括用于表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中包括的背景信息；利用样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，识别偏移信息、识别背景信息用于确定待处理的时序提名的分数。本公开提供的方法在训练用于评价时序提名的模型时，加入了样本时序提名的背景信息，进而提高模型的抗噪能力，从而提高模型输出的识别结果的准确性。

图2为本公开另一示例性实施例示出的用于评价时序提名的模型的训练方法的流程示意图。

如图2所示，本公开提供的用于评价时序提名的模型的训练方法，包括：

步骤201，在预设视频中确定行为片段的边界信息，根据边界信息生成样本时序提名。

可选地，可以预先准备预设视频，通过对预设视频处理，可以得到样本时序提名。预设视频的数量可以为多个，从而能够从多个预设视频中提取出大量的样本时序提名。

可选地，可以通过自动化处理的方式从预设视频中提取样本时序提名，以提高生成样本时序提名的效率。

可选地，电子设备可以在预设视频中确定行为片段的边界信息，行为片段是指包括人物行为的视频片段，电子设备可以确定预设视频中各画面是否为边界的边界信息，比如，电子设备可以确定每一帧画面的分数，通过该分数确定画面是否为边界画面。

可选地，可以利用预设的特征提取模型提取预设视频的特征序列；将特征序列输入预设的边界识别网络，得到边界识别网络用于输出的预设视频中包括的画面的边界分数。

可选地，可以预先设置特征提取模型，将预设视频输入到该特征提取模型中，特征提取模型能够输出预设视频的特征序列。特征序列中可以包括每一帧画面中包括的特征。

可选地，还可以预先设置边界识别网络，可以将预设视频的特征序列输入到该边界识别网络，该边界识别网络可以对特征序列进行处理，输出预设视频中包括的多帧画面的多个边界分数。比如，可以输出每帧画面的边界分数，还可以每隔几帧画面输出一边界分数。这种实施方式中，边界信息中包括边界分数。

通过这种实施方式，电子设备能够自动在预设视频中确定画面的边界信息，进而能够通过边界信息生成用于训练模型的样本时序提名，以达到快速生成样本时序提名的效果，进而从整体上提高模型训练速度。

可选地，电子设备可以根据边界信息生成样本时序提名。根据边界信息在预设视频中确定多个边界位置。对多个边界位置进行组合，生成样本时序提名。

可选地，电子设备可以根据各帧画面的边界信息，确定各帧画面是否为边界画面，从而可以将边界画面所在的位置确定为边界位置。

可选地，在预设视频中可以确定出多个边界位置，比如可以将第m帧画面所在的位置确定为边界位置，将第n帧画面所在的位置确定为边界位置，将第k帧画面所在的位置确定为边界位置。

可选地，可以对各边界位置进行任一的组合，从而将位于边界位置之间的视频片段作为样本时序提名。例如，可以将由第m-n帧的画面组成的视频片段作为样本时序提名。将由第m-k帧的画面组成的视频片段作为样本时序提名。

图3为本公开一示例性实施例示出的组合边界位置得到样本时序提名的示意图。

如图3所示，在预设视频中确定多个边界位置31，可以对任意两个边界位置31进行组合，得到多个样本时序提名32(仅示意性的示出3个样本时序提名32)。

若确定边界信息较为准确，那么通过这种实施方式能够得到包括行为片段的样本时序提名，以及包括多个行为片段的样本时序提名，从而得到种类多样的用于训练模型的样本时序提名。

步骤202，获取通过标注得到的与每一样本时序提名对应的真实时序提名，并根据对应的样本时序提名、真实时序提名，确定样本时序提名的标签。

可选地，针对生成的样本时序提名，用户可以在预设视频中标注出每一样本时序提名的真实时序提名。

图4为本公开一示例性实施例示出的与样本时序提名对应的真实时序提名的示意图。

如图4所示，电子设备在预设视频中提取了第一样本时序提名41，以及第二样本时序提名42。用户可以在预设视频中标注出与第一样本时序提名41对应的真实时序提名42。由于是用户根据预设视频内容在其中标注出的真实时序提名，因此，真实时序提名中包括完整的包括人物行为的视频片段。

可选地，电子设备可以获取与每一样本时序提名对应的真实时序提名，进而根据对应的样本时序提名、真实时序提名，确定所述样本时序提名的标签。

真实时序提名是用户标注得到的，样本时序提名是电子设备自动生成的，因此，可以认为真实时序提名是准确的，样本时序提名不一定准确，因此，可以根据对应的样本时序提名、真实时序提名，确定每个样本时序提名的标签。通过这种方式，能够得到每个样本时序提名较为准确的标签。

可选地，电子设备可以根据对应的样本时序提名、真实时序提名，确定样本时序提名、真实时序提名之间的交集、并集；再根据确定的交集、并集确定样本时序提名的标签。

可选地，交集用于表征样本时序提名、真实时序提名中相同的视频部分。

图5为本公开一示例性实施例示出的样本时序提名、真实时序提名的交集示意图。

如图5所示，在预设视频中提取出样本时序提名51，基于该样本时序提名51，用户在预设视频中标注出与其对应的真实时序提名52，样本时序提名51、真实时序提名52交叉的部分53，即为二者交集。

可选地，并集用于表征样本时序提名、真实时序提名占用的全部视频部分。

图6为本公开一示例性实施例示出的样本时序提名、真实时序提名的并集示意图。

如图6所示，在预设视频中提取出样本时序提名61，基于该样本时序提名61，用户在预设视频中标注出与其对应的真实时序提名62，样本时序提名61、真实时序提名62占用的全部视频部分63，即为二者并集。

可选地，根据交集与样本时序提名之间的比值确定样本时序提名的背景信息。样本时序提名、真实时序提名的交集是二者相同的部分，该交集部分与样本时序提名间的比值，可以认为是样本时序提名、真实时序提名间相同部分占用样本时序提名的比例，可以用1减去该比例，得到样本时序提名中背景内容所占的比例。

可选地，可以交集与并集之间的比值确定为样本时序提名的偏移信息。样本时序提名、真实时序提名的交集是二者相同的部分，样本时序提名、真实时序提名的并集是二者在视频中占用的全部视频内容，因此，交集与并集的比值，可以表征出样本时序提名、真实时序提名之间的偏移信息。

图7为本公开一示例性实施例示出的样本时序提名的背景信息的示意图。

如图7所示，样本时序提名71、真实时序提名72具有交集部分73，可以根据交集部分73与样本时序提名71间的比值，确定样本时序提名的背景信息。例如，样本时序提名、真实时序提名的交集与样本时序提名的比值为IOA，则该样本时序提名的背景信息为(1-IOA)。

图8为本公开一示例性实施例示出的样本时序提名的偏移信息的示意图。

如图8所示，样本时序提名81、真实时序提名82具有交集部分83，并集部分84，可以根据交集部分83与并集部分84间的比值，确定为样本时序提名的偏移信息。例如，样本时序提名、真实时序提名的交集与并集的比值为IOU，则该样本时序提名的偏移信息为IOU。

这种实施方式中，可以生成样本时序提名的标签，该标签中引入了样本时序提名的背景信息，进而利用样本时序提名及其标签训练的模型，在识别的时序提名中包括多段真实时序提名时，模型也能够输出该时序提名准确的评价结果，进而提高模型的抗噪能力。

步骤203，将样本时序提名的特征序列输入预设模型，预设模型用于输出样本时序提名的识别偏移信息、识别背景信息；其中，特征序列是利用预设提取模型对预设视频进行处理得到的，样本时序提名是预设视频中的一部分。

可选地，可以预先搭建预设模型，具体与图1所示实施例类似，不再赘述。

可选地，该预设模型能够输出样本时序提名的识别偏移信息、识别背景信息，因此，可以将生成的样本时序提名输入到预设模型中，进而使模型能够输出样本时序提名的识别偏移信息、识别背景信息。

可选地，在将样本时序提名输入到预设模型中时，具体可以将样本时序提名的特征序列输入预设模型中，预设模型能够对特征序列进行处理，提取特征序列中的特征，进而识别该特征序列中包含的角色行为信息，以得到样本时序提名的识别偏移信息、识别背景信息。

可选地，特征序列是利用预设提取模型对预设视频进行处理得到的，样本时序提名是预设视频中的一部分。

可选地，在生成样本时序提名时，需要利用预设提取模型提取预设视频的特征序列。在生成样本时序提名后，可以根据完整的预设视频的特征序列，确定出样本时序提名的特征序列。例如，样本时序提名是预设视频中的第5-10分钟的视频部分，则可以在预设视频的特征序列中提取出与第5-10分钟的视频部分所对应的特征序列，将其作为样本时序提名的特征序列。

步骤204，利用样本时序提名的标签中的偏移信息、背景信息，以及预设模型输出的识别偏移信息、识别背景信息，优化预设模型，得到用于评价时序提名的模型。

可选地，预设模型输出的识别偏移信息、识别背景信息，是电子设备基于预设模型的参数对样本时序的特征序列进行处理得到的，若预设模型中的参数不够准确，则输出的识别偏移信息、识别背景信息也会不准确。

可选地，样本时序提名的标签中的偏移信息、背景信息是准确的信息，因此，可以比对样本时序提名的标签中的偏移信息、背景信息，以及预设模型输出的识别偏移信息、识别背景信息，从而优化预设模型，得到用于评价时序提名的模型。

这种实施方式中，在训练模型时不仅采用了样本时序提名与真实时序提名之间的偏移信息，还利用样本时序提名与真实时序提名之间的背景信息，从而能够提高模型在识别过程中的抗噪能力。

可选地，电子设备可以根据偏移信息、识别偏移信息确定偏移损失函数的值；根据背景信息、识别背景信息确定背景损失函数的值。

可选地，可以预先设置偏移损失函数，比如可以是分类交叉熵损失函数，可以根据偏移信息、识别偏移信息确定偏移损失函数的值。偏移损失函数的值用于表征模型识别偏移信息时的识别结果与标准结果之间的差异。

可选地，可以预先设置背景损失函数，比如可以是分类交叉熵损失函数，可以根据背景信息、识别背景信息确定背景损失函数的值。背景损失函数的值用于表征模型识别背景信息时的识别结果与标准结果之间的差异。

可选地，可以根据偏移损失函数、背景损失函数确定总损失函数的值，并根据总损失函数的值优化预设模型。

可选地，可以将偏移损失函数与背景损失函数的总和确定为总损失函数的值，该总损失函数的值用于表征模型评价样本时序提名时，评价结果与标准结果之间的总差异，进而能够利用该总差异对预设模型进行优化，具体可以采用梯度回传的方式，调整预设模型中的参数。

这种实施方式中，模型能够从样本时序提名的偏移、背景两个角度输出识别结果，电子设备也可以从这两个角度优化模块，进而使训练得到的模型具备较高的抗噪能力。

图9为本公开一示例性实施例示出的用于评价时序提名的方法的流程示意图。

本公开提供的用于评价时序提名的方法，包括：

步骤901，将候选时序提名输入用于评价时序提名的模型，模型用于输出候选时序提名的识别偏移信息、识别背景信息。

其中，用于评价时序提名的模型是基于上述任一种实施方式训练得到的。

步骤902，根据候选时序提名的识别偏移信息、识别背景信息确定候选时序提名的分数，若候选时序提名的分数达到预设值，则确定候选时序提名为真实时序提名。

可选地，若训练模型时，使用的样本数据的标签中的背景信息background为(1-IOA)，则模型输出的背景信息为该候选时序提名的background。因此，可以在确定候选时序提名的分数时，可以用模型输出的识别偏移信息IOU与(1-background)间的乘积作为候选时序提名的分数。

可选地，若训练模型时，使用的样本数据的标签中的背景信息background为IOA，则模型输出的背景信息为该候选时序提名的IOA。因此，在确定候选时序提名的分数时，可以用模型输出的识别偏移信息IOU与IOU间的乘积作为候选时序提名的分数。

可选地，可以根据候选时序提名的分数，确定候选时序提名是否为真实时序提名。比如，当候选时序提名的分数大于预设值时，可以认为其为真实时序提名。预设值可以根据需求设置。

图10为本公开一示例性实施例示出的用于评价时序提名的模型的训练装置的结构示意图。

如图10所示，本公开提供的用于评价时序提名的模型的训练装置1000，包括：

获取单元1010，用于获取用于训练模型的样本时序提名，以及所述样本时序提名的标签，其中，所述标签包括用于表征样本时序提名与真实时序提名之间的偏移信息，以及样本时序提名中包括的背景信息；

训练单元1020，用于利用所述样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，所述模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，所述识别偏移信息、识别背景信息用于确定所述待处理的时序提名的分数。

本公开提供的用于评价时序提名的模型的训练装置与图1所示实施例类似，不再赘述。

图11为本公开另一示例性实施例示出的用于评价时序提名的模型的训练装置的结构示意图。

如图11所示，本公开提供的用于评价时序提名的模型的训练装置1100中，获取单元1110与图10所示出的获取单元1010类似，训练单元1120与图10所示出的训练单元1020类似。

其中，所述获取单元1110，包括：

提名生成模块1111，用于在预设视频中确定行为片段的边界信息，根据所述边界信息生成所述样本时序提名；

签名生成模块1112，用于获取通过标注得到的与每一所述样本时序提名对应的真实时序提名，并根据对应的样本时序提名、真实时序提名，确定所述样本时序提名的标签。

其中，签名生成模块1112具体用于：

根据对应的样本时序提名、真实时序提名，确定所述样本时序提名、真实时序提名之间的交集、并集；所述交集用于表征所述样本时序提名、真实时序提名中相同的视频部分，所述交集用于表征所述本时序提名、真实时序提名占用的全部视频部分；

根据所述交集与所述样本时序提名之间的比值确定所述样本时序提名的背景信息；

将所述交集与所述并集之间的比值确定为所述样本时序提名的偏移信息。

其中，所述边界信息包括边界分数，所述提名生成模块1111具体用于：

利用预设的特征提取模型提取所述预设视频的特征序列；

将所述特征序列输入预设的边界识别网络，得到所述边界识别网络用于输出的所述预设视频中包括的画面的边界分数。

其中，所述提名生成模块1111具体用于：

根据所述边界信息在所述预设视频中确定多个边界位置；

对多个所述边界位置进行组合，生成所述样本时序提名。

其中，训练单元1120，包括：

识别模型1121，用于将所述样本时序提名的特征序列输入所述预设模型，所述预设模型用于输出所述样本时序提名的识别偏移信息、识别背景信息；其中，所述特征序列是利用预设提取模型对预设视频进行处理得到的，所述样本时序提名是所述预设视频中的一部分；

优化模块1122，用于利用所述样本时序提名的标签中的所述偏移信息、所述背景信息，以及所述预设模型输出的所述识别偏移信息、所述识别背景信息，优化所述预设模型，得到用于评价时序提名的模型。

其中，所述优化模块1122具体用于：

根据所述偏移信息、所述识别偏移信息确定偏移损失函数的值；

根据所述背景信息、所述识别背景信息确定背景损失函数的值；

根据所述偏移损失函数、所述背景损失函数确定总损失函数的值，并根据所述总损失函数的值优化所述预设模型。

本公开提供的用于评价时序提名的模型的训练装置与图2所示实施例类似，不再赘述。

图12为本公开一示例性实施例示出的用于评价时序提名的装置的结构示意图。

如图12所示，本公开提供的用于评价时序提名的装置1200，包括：

识别单元1210，用于将候选时序提名输入用于评价时序提名的模型，所述模型用于输出所述候选时序提名的识别偏移信息、识别背景信息；

所述模型是利用如图1或图2所示的方法训练得到的；

确定单元1220，用于根据所述候选时序提名的识别偏移信息、识别背景信息确定所述候选时序提名的分数，若所述候选时序提名的分数达到预设值，则确定所述候选时序提名为真实时序提名。

本公开提供的用于评价时序提名的模型的训练装置与图9所示实施例类似，不再赘述。

本公开提供一种用于评价时序提名的模型的训练方法、设备、程序产品，应用于人工智能领域中的计算机视觉和深度学习技术，以提高模型的抗躁效果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如用于评价时序提名的模型的训练方法或用于评价时序提名的方法。例如，在一些实施例中，用于评价时序提名的模型的训练方法或用于评价时序提名的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的用于评价时序提名的模型的训练方法或用于评价时序提名的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行用于评价时序提名的模型的训练方法或用于评价时序提名的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于评价时序提名的模型的训练方法，包括：

利用所述样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，所述模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，所述识别偏移信息、识别背景信息用于确定所述待处理的时序提名的分数；

其中，所述获取用于训练模型的样本时序提名及其标签，包括：

在预设视频中确定行为片段的边界信息，根据所述边界信息生成所述样本时序提名；获取通过标注得到的与每一所述样本时序提名对应的真实时序提名，并根据对应的样本时序提名、真实时序提名，确定所述样本时序提名的标签。

2.根据权利要求1所述的方法，其中，根据对应的样本时序提名、真实时序提名，确定所述样本时序提名的标签，包括：

3.根据权利要求1所述的方法，其中，所述边界信息包括边界分数，所述在预设视频中确定边界信息，包括：

利用预设的特征提取模型提取所述预设视频的特征序列；

4.根据权利要求1-3任一项所述的方法，其中，所述根据所述边界信息生成所述样本时序提名，包括：

根据所述边界信息在所述预设视频中确定多个边界位置；

对多个所述边界位置进行组合，生成所述样本时序提名。

5.根据权利要求1-3任一项所述的方法，其中，所述利用所述样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型，包括：

将所述样本时序提名的特征序列输入所述预设模型，所述预设模型用于输出所述样本时序提名的识别偏移信息、识别背景信息；其中，所述特征序列是利用预设提取模型对预设视频进行处理得到的，所述样本时序提名是所述预设视频中的一部分；

利用所述样本时序提名的标签中的所述偏移信息、所述背景信息，以及所述预设模型输出的所述识别偏移信息、所述识别背景信息，优化所述预设模型，得到用于评价时序提名的模型。

6.根据权利要求5所述的方法，其中，所述利用所述偏移信息、所述背景信息、所述识别偏移信息、所述识别背景信息优化所述预设模型，包括：

7.一种用于评价时序提名的方法，包括：

将候选时序提名输入用于评价时序提名的模型，所述模型用于输出所述候选时序提名的识别偏移信息、识别背景信息；所述模型是利用权利要求1-6任一项所述的方法训练得到的；

8.一种用于评价时序提名的模型的训练装置，包括：

训练单元，用于利用所述样本时序提名及其标签对预设模型进行训练，得到用于评价时序提名的模型；其中，所述模型用于输出待处理的时序提名的识别偏移信息、识别背景信息，所述识别偏移信息、识别背景信息用于确定所述待处理的时序提名的分数；

其中，所述获取单元，包括：

提名生成模块，用于在预设视频中确定行为片段的边界信息，根据所述边界信息生成所述样本时序提名；

签名生成模块，用于获取通过标注得到的与每一所述样本时序提名对应的真实时序提名，并根据对应的样本时序提名、真实时序提名，确定所述样本时序提名的标签。

9.根据权利要求8所述的装置，其中，签名生成模块具体用于：

10.根据权利要求8所述的装置，其中，所述边界信息包括边界分数，所述提名生成模块具体用于：

利用预设的特征提取模型提取所述预设视频的特征序列；

11.根据权利要求8-10任一项所述的装置，其中，所述提名生成模块具体用于：

根据所述边界信息在所述预设视频中确定多个边界位置；

对多个所述边界位置进行组合，生成所述样本时序提名。

12.根据权利要求8-10任一项所述的装置，其中，训练单元，包括：

识别模型，用于将所述样本时序提名的特征序列输入所述预设模型，所述预设模型用于输出所述样本时序提名的识别偏移信息、识别背景信息；其中，所述特征序列是利用预设提取模型对预设视频进行处理得到的，所述样本时序提名是所述预设视频中的一部分；

优化模块，用于利用所述样本时序提名的标签中的所述偏移信息、所述背景信息，以及所述预设模型输出的所述识别偏移信息、所述识别背景信息，优化所述预设模型，得到用于评价时序提名的模型。

13.根据权利要求12所述的装置，其中，所述优化模块具体用于：

14.一种用于评价时序提名的装置，包括：

识别单元，用于将候选时序提名输入用于评价时序提名的模型，所述模型用于输出所述候选时序提名的识别偏移信息、识别背景信息；所述模型是利用权利要求1-6任一项所述的方法训练得到的；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。