CN114445757A

CN114445757A - 提名的获取方法、网络的训练方法、装置、存储介质及设备

Info

Publication number: CN114445757A
Application number: CN202210173989.0A
Authority: CN
Inventors: 杨善明; 刘泽宇; 顾晓光; 付立波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-06

Abstract

本申请公开一种时序动作提名的获取方法、精细化网络的训练方法、智时序动作提名的获取装置、精细化网络的训练装置、计算机可读存储介质及计算机设备，可应用于社会化网络服务、视频分析等场景。该时序动作提名的获取方法包括：从目标视频中采集初始提名序列及初始特征序列，初始提名序列用于表征包含目标对象的视频片段，初始特征序列是根据初始提名序列提取的抽象信息的集合；对初始特征序列做池化处理，以获取感兴趣特征序列，感兴趣特征序列用于表征维度相同的多个初始特征；将感兴特征序列输入精细化网络以获取提名位置偏差，精细化网络满足预设的监督条件；及根据提名位置偏差及初始提名序列，获取时序动作提名。

Description

提名的获取方法、网络的训练方法、装置、存储介质及设备

技术领域

本申请涉及机器学习领域，具体涉及一种时序动作提名的获取方法、精细化网络的训练方法、智时序动作提名的获取装置、精细化网络的训练装置、计算机可读存储介质及计算机设备。

背景技术

在目前视频精彩片段识别项目中，需要精准的定位出对应片段的位置。目前的片段识别技术往往仅能够确定对应片段在视频中的粗略位置，难以准确地定位到片段的开始位置和结束位置。

发明内容

本申请实施例提供一种时序动作提名的获取方法、精细化网络的训练方法、智时序动作提名的获取装置、精细化网络的训练装置、计算机可读存储介质及计算机设备，可以获取开始和结束位置准确的时序动作提名。

一方面，提供一种时序动作提名的获取方法，所述方法包括：从目标视频中采集初始提名序列及初始特征序列，所述初始提名序列用于表征包含目标对象的视频片段，所述初始特征序列是根据所述初始提名序列提取的抽象信息的集合；对所述初始特征序列做池化处理，以获取感兴趣特征序列，所述感兴趣特征序列用于表征维度相同的多个初始特征；将所述感兴特征序列输入精细化网络以获取提名位置偏差，所述精细化网络满足预设的监督条件；及根据所述提名位置偏差及所述初始提名序列，获取时序动作提名。

另一方面，提供一种精细化网络的训练方法，所述方法包括：从样本视频中采集样本提名序列及样本特征序列，所述样本提名序列用于表征包含样本对象的视频片段，所述样本特征序列是根据所述样本提名序列提取的抽象信息的集合，所述样本视频包含真实提名，所述真实提名包括已知的真实开始位置和真实结束位置；对所述样本提名序列进行采样以获取采样提名序列，所述采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，所述采样特征序列是所述采样提名序列的抽象信息的集合；对所述采样特征序列做池化处理，以获取训练特征序列，所述训练特征序列用于表征维度相同的多个采样特征；将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值；及在所述损失值满足预设的监督条件的情况下完成所述精细化网络的训练。

另一方面，提供一种时序动作提名的获取装置，所述装置包括：第一采集模块，用于从目标视频中采集初始提名序列及初始特征序列，所述初始提名序列用于表征包含目标对象的视频片段，所述初始特征序列是根据所述初始提名序列提取的抽象信息的集合；第一池化模块，用于对所述初始特征序列做池化处理，以获取感兴趣特征序列，所述感兴趣特征序列用于表征维度相同的多个初始特征；精细化模块，用于将所述感兴特征序列输入精细化网络以获取提名位置偏差，所述精细化网络满足预设的监督条件；及获取模块，用于根据所述提名位置偏差及所述初始提名序列以获取时序动作提名。

另一方面，提供一种精细化网络的训练装置，其特征在于，所述装置包括：第二采集模块，用于从样本视频中采集样本提名序列及样本特征序列，所述样本提名序列用于表征包含样本对象的视频片段，所述样本特征序列是根据所述样本提名序列提取的抽象信息的集合；采样模块，用于对所述样本提名序列进行采样以获取采样提名序列，所述采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；特征提取模块，用于根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，所述采样特征序列是所述采样提名序列的抽象信息的集合；第二池化模块，用于对所述采样特征序列做池化处理，以获取训练特征序列，所述训练特征序列用于表征维度相同的多个采样特征；监督模块，用于将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值；及终止模块，用于在所述损失值满足预设的监督条件的情况下完成所述精细化网络的训练。

另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的时序动作提名的获取方法或者如上任一实施例所述的精细化网络的训练方法中的步骤。

另一方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的时序动作提名的获取方法或者如上任一实施例所述的精细化网络的训练方法中的步骤。

另一方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上任一实施例所述的时序动作提名的获取方法或者如上任一实施例所述的精细化网络的训练方法中的步骤。

本申请实施例通过精细化网络获取提名位置偏差，以通过提名位置偏差修正从目标视频中提取的初始提名序列的开始位置和结束位置，以获取开始和结束位置准确的时序动作提名。通过对从样本视频提取的样本提名做采样处理，以利用高丰富度和均衡性的样本提名进行训练；对样本特征提取时间维度的多尺度特征，以丰富训练样本中特征的多样性；通过监督损失函数优化精细化网络的参数，以进一步提高精细化网络生成的提名位置偏差的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为申请实施例提供的时序动作提名的获取方法的应用场景示意图。

图2为本申请实施例提供的时序动作提名的获取方法的流程示意图。

图3为本申请实施例提供的时序动作提名的获取方法的应用场景示意图。

图4为本申请实施例提供的时序动作提名的获取方法的流程示意图。

图5为本申请实施例提供的时序动作提名的获取方法的流程示意图。

图6为本申请实施例提供的精细化网络的训练方法的流程示意图。

图7为本申请实施例提供的精细化网络的训练方法的流程示意图。

图8为本申请实施例提供的精细化网络的训练方法的流程示意图。

图9为本申请实施例提供的正样本及负样本的示意图。

图10为本申请实施例提供的精细化网络的训练方法的采样场景示意图。

图11为本申请实施例提供的精细化网络的训练方法的流程示意图。

图12为本申请实施例提供的精细化网络的训练方法的特征融合场景示意图。

图13为本申请实施例提供的时序动作提名的获取方法的应用场景示意图。

图14为本申请实施例提供的精细化网络的训练方法的流程示意图。

图15为本申请实施例提供的精细化网络的训练方法的流程示意图。

图16为本申请实施例提供的时序动作提名的获取装置的结构示意图。

图17为本申请实施例提供的精细化网络的训练装置的结构示意图。

图18为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种时序动作提名的获取方法、模型训练方法、装置、计算机设备和存储介质。具体地，本申请实施例的时序动作提名的获取方法和模型训练方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、智能车载终端等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例可应用于即时通信(比如微信、QQ、机器人聊天等)、自然语言处理、机器学习、深度学习、云技术、人工智能、智慧交通等各种场景。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语作如下解释：

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

深度学习(Deep Learning,DL)：是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次，这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

智慧交通是在整个交通运输领域充分利用物联网、空间感知、云计算、移动互联网等新一代信息技术，综合运用交通科学、系统方法、人工智能、知识挖掘等理论与工具，以全面感知、深度融合、主动服务、科学决策为目标，通过建设实时的动态信息服务体系，深度挖掘交通运输相关数据，形成问题分析模型，实现行业资源配置优化能力、公共决策能力、行业管理能力、公众服务能力的提升，推动交通运输更安全、更高效、更便捷、更经济、更环保、更舒适的运行和发展，带动交通运输相关产业转型、升级。

云技术(Cloud technology)：是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

区块链系统：可以是由客户端、多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，TransmissionControl Protocol)协议之上的应用层协议，在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

社会化网络服务(Social Networking Services，SNS)：包括社交软件和社交网站，也指社交已成熟普及的信息载体，如短信SMS服务。社交网络服务是一个平台，建立人与人之间的社交网络或社交关系的连接。例如，利益共享、活动、背景或现实生活中的连接。一个社交网络服务，包括表示每个用户(通常是一个配置文件)的社交联系和各种附加服务。大多数社交网络服务是基于网络的在线社区服务，并提供用户在互联网互动的手段，如电子邮件和即时消息。有时被认为是一个社交网络服务，但在更广泛的意义上说，社交网络服务通常是指以个人为中心的服务，并以网上社区服务组为中心。社交网站允许用户在他们的网络共享他们的想法、图片、文章、活动、事件。

在目前视频精彩片段识别项目中，需要精准的定位出对应片段的位置。目前的片段识别技术往往仅能够确定对应片段在视频中的粗略位置，难以准确地定位到片段的开始位置和结束位置。为了准确地定位到片段的开始位置和结束位置，本发明提出了一种时序动作提名的获取方法，通过精细化网络获取提名位置偏差，以根据提名位置偏差及初始提名序列获取时序动作提名。其中，初始提名序列对应已知粗略的开始位置和结束位置的视频片段，最终获取的时序动作提名为精细化开始位置和结束位置的视频片段，从而准确地定位到片段的开始位置和结束位置。本发明还提出了一种精细化网络的训练方法，通过监督损失函数对精细化网络进行监督，以优化精细化网络获取准确的提名位置偏差。

其中，本申请实施例可结合云技术或区块链网络技术实现。如本申请实施例所公开的时序动作提名的获取方法和精细化网络的训练方法，其中这些数据可保存于区块链上。例如，训练好的精细化网络、时序动作提名的获取装置、精细化碗篮的训练装置，均可保存于区块链上。

为了便于实现对训练好的精细化网络的存储和查询，可选的，该时序动作提名的获取方法还包括：将训练好的精细化网络发送至区块链网络中，以使区块链网络的节点将训练好的精细化网络填充至新区块，且当对新区块取得共识一致时，将新区块追加至区块链的尾部。本申请实施例可以将训练好的精细化网络上链存储，实现记录的备份，当需要利用训练好的精细化网络获取提名位置偏差时，例如，在对一段网络视频进行精彩片段识别时，可直接、快速地从区块链上获取相应的训练好的精细化网络以利用精细化网络获取精彩片段的开始位置和结束位置，而无需精细化网络的训练装置进行一系列处理后，才能够获得精细化网络，从而提高视频分析处理的效率；类似地，当需要利用训练好的精细化网络获取提名位置偏差时，可直接、快速地从区块链上获取相应的训练好的精细化网络，而无需通过精细化网络的训练装置进行一系列处理后，才能够获得提名位置偏差，从而提高视频分析处理的效率。

请参阅图1，图1为本申请实施例提供的时序动作提名的获取方法的应用场景示意图。以时序动作提名的获取方法由计算机设备执行为例，其中，该计算机设备可以为终端或者服务器等设备。在精细化网络的训练阶段时，计算机设备获取训练样本数据，训练样本数据中每一个训练样本包括：从样本视频中采集样本提名序列及样本特征序列，所述样本提名序列用于表征包含样本对象的视频片段，所述样本特征序列是根据所述样本提名序列提取的抽象信息的集合；对所述样本提名序列进行采样以获取采样提名序列，所述采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，所述采样特征序列是所述采样提名序列的抽象信息的集合；对所述采样特征序列做池化处理，以获取训练特征序列，所述训练特征序列用于表征维度相同的多个采样特征；将所述训练特征序列输入所述精细化以确定监督损失函数的损失值；及在所述损失值满足预设的监督条件的情况下完成所述精细化网络的训练。在时序动作提名的获取阶段时，用户可以通过计算机设备中安装的客户端、浏览器客户端或即时通信客户端上传目标视频，计算机设备获取上传的目标视频后；从目标视频中采集初始提名序列及初始特征序列，所述初始提名序列用于表征包含目标对象的视频片段，所述初始特征序列是根据所述初始提名序列提取的抽象信息的集合；对所述初始特征序列做池化处理，以获取感兴趣特征序列，所述感兴趣特征序列用于表征维度相同的多个初始特征；将所述感兴特征序列输入精细化网络以获取提名位置偏差，所述精细化网络满足预设的监督条件；及根据所述提名位置偏差及所述初始提名序列以获取时序动作提名。

需要说明的是，获取时序动作提名的过程可以在服务器中完成，也可以在终端中完成。当时序动作提名的获取方法、精细化网络的训练方法都在服务器中端完成时，需要使用训练好的精细化网络时，可以将目标视频或感兴趣特征序列输入到服务器，服务器生成对应的时序动作提名后，将得到的时序动作提名发送至终端进行显示。当时序动作提名的获取方法、精细化网络的训练方法都在终端中完成时，需要使用训练好的精细化网络时，可以将目标视频或感兴趣特征序列输入到终端，终端生成对应的时序动作提名后，终端将生成的时序动作提名进行显示。当精细化网络的训练方法在服务器中完成，时序动作提名的获取方法在终端中完成时，需要使用训练好的精细化网络时，可以将目标视频或感兴趣特征序列输入到终端，终端生成对应的时序动作提名后，终端将时序动作提名进行显示。可选的，可以将服务器中训练好的模型文件(model文件)移植到终端上，若需要获取时序动作提名，则将目标视频或感兴趣特征序列输入到训练好的模型文件(model文件)，通过计算即可得到对应的时序动作提名。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

本申请实施例提供了一种时序动作提名的获取方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以时序动作提名的获取方法由服务器执行为例来进行说明。

请参阅图2，图2为本申请实施例提供的时序动作提名的获取方法的流程示意图，该方法包括：

步骤210：从目标视频中采集初始提名序列及初始特征序列，初始提名序列用于表征包含目标对象的视频片段，初始特征序列是根据初始提名序列提取的抽象信息的集合。

可选的，目标视频是包含有目标对象的视频。在一个实施例中，目标视频是篮球赛的视频，目标对象为特定的动作，例如“投篮”动作，则可根据目标视频提取包含“投篮”动作的精彩视频片段。对应地，初始提名是包含“投篮”动作的视频片段，由于一段篮球赛的视频中可能有多个“投篮”动作的出现，因此，初始提名的数量可能为多个，多个初始提名组成初始提名序列。初始特征序列是在卷积神经网络中提取的特征组成的序列。在一个实施例中，利用卷积神经网络提取初始提名序列中的环境、物体等的空间信息及动作的动态特征等信息进行抽象处理后获取到的特征为初始提名对应的初始特征，每个初始提名对应的初始特征组成的序列为初始特征序列。

步骤220：对初始特征序列做池化处理，以获取感兴趣特征序列，感兴趣特征序列用于表征维度相同的多个初始特征。

可选的，池化为卷积神经网络中的概念，为一种降采样处理方式，做池化处理能够将不同维度的多个初始特征调整到同一维度，以便于在后续的处理中向精细化网络输入同一维度的特征，降低精细化网络处理数据的复杂度。在一个实施例中，维度为2维，在其他实施例中，维度还可以为3维、4维、5维等，在此不作限制。

步骤230：将感兴特征序列输入精细化网络以获取提名位置偏差，精细化网络满足预设的监督条件。

可选的，提名位置偏差是精细化网络预测的初始提名的开始位置与目标视频中对应的目标片段的开始位置之间的偏差，以及初始提名的结束位置与目标视频中对应的目标片段的结束位置之间的偏差。

请参阅图3，例如，目标对象为“投篮”动作，目标视频中的一段“投篮”动作的片段的开始位置是目标视频的第3分16秒，结束位置是目标视频的第3分27秒。对这个目标视频提取的初始提名中，最接近这一段“投篮”动作位置的初始提名的开始位置是目标视频的第3分14秒，结束位置是目标视频的第3分29秒，相比对应的“投篮”片段的结束位置晚了两秒。位置偏差包括开始位置偏差和结束位置偏差，在图3示意的实施例中，开始位置偏差为“-2s”，表示初始提名的开始位置比对应的目标片段的开始位置早了2 秒；结束位置偏差为“+2s”，表示初始提名的结束位置比对应的目标片段的结束位置晚了2秒。

步骤240：根据提名位置偏差及初始提名序列，获取时序动作提名。

可选的，请参阅图3，在图3示意的实施例中，在开始位置为第3分14秒、结束位置为第3分29秒的初始提名的基础上，根据开始位置偏差“-2s”将初始提名的开始位置延后2秒，及根据结束位置偏差“+2s”将初始提名的结束位置提前2秒，即可获取开始位置和结束位置均准确的时序动作提名，该时序动作提名的开始位置与对应的目标片段的开始位置一致，且该时序动作提名的结束位置与对应的目标片段的结束位置一致。

通过精细化网络获取的提名位置偏差越准确，则根据提名位置偏差及初始提名序列获取的时序动作提名的开始位置和结束位置越准确。本申请的实施方式通过预设的监督条件优化精细化网络，以提高精细化网络输出的提名位置偏差的准确度。

可选的，通过选取不同的目标对象，可以使时序动作提名的获取方法适用于不同的应用场景。例如，以“投篮”、“射门”等特定的精彩动设置为目标对象，则从目标视频中提取的时序动作提名为一段特定的精彩动作发生的片段，在播放体育赛事的场景中可以将这些时序动作提名作为精彩镜头回放，减少人工剪辑视频对人力的浪费。再例如，在审核视频的应用场景下，可将视频中的目标场景设置为目标对象，则从目标视频中提取的时序动作提名为目标场景进行的片段，以便于直接将该片段删除或进行添加马赛克等处理，如此，能够在审核人员不观看目标场景片段的情况下完成对目标场景片段的处理，以保护审核人员的心理健康。再例如，在目标视频中寻找特定的人物或物体时，可将特定的人物或物体设置为目标对象，以通过时序动作提名准确地定位到特定的人物或物体在目标视频中出现或消失的位置，以便于观看者快速找到特定的人物或物体。

可选的，请参阅图4，步骤210：从目标视频中采集初始提名序列及初始特征序列，包括：

步骤410：从目标视频中采集多个初始片段。

可选的，多个初始片段是将目标视频随机分割形成的多个视频片段。

步骤420：将多个初始片段输入特征提取网络以获取多个编码特征。

可选的，特征提取网络包括时间信息网络和空间信息网络组成的双流网络。其中，时间信息网络用于提取初始片段中动作的动态特征；空间信息网络用于提取初始片段中包含环境、视频中的物体等的空间信息特征。最后，特征提取网络将动态特征和空间信息特征融合生成多个编码特征，每个编码特征对应一个初始对象，表征对应的初始对象抽象化的动作和空间信息。

步骤430：根据多个编码特征获取初始特征序列。

可选的，将多个编码特征输入包含两层时序卷积层的神经网络以固定多个编码特征的时序长度并生成初始特征序列，生成的初始特征序列具有固定的时序长度，以便于在后续的处理中计算边界概率序列及置信度分数矩阵。

步骤440：根据初始特征序列获取边界概率序列及置信度分数矩阵。

可选的，边界概率序列可利用TEM(Temporal Evaluation Module，TEM)模块生成。TEM模块采用3层时序卷积层对输入的初始特征序列中的每个位置进行概率评估，包括动作开始的概率评估、动作结束的概率评估、动作进行中的概率评估，并生成边界概率序列。边界概率序列用于表征初始特征序列中的每个时序位置是动作开始和动作结束的概率。任意一个表征动作开始的位置和一个表征动作结束的位置及二者之间的时序可构成一个候选的提名，因此，根据边界概率序列可获取多个候选的提名。

可选的，置信度分数矩阵可利用PEM(Proposal Evaluation Module，PEM)模块生成。 PEM模块为一个带有一个隐含层的多层感知器模型，用于对初始特征序列中每个候选的提名进行置信度评估，以生成置信度分数矩阵。PEM模块置信度分数矩阵用于表征候选提名的置信度，置信度越高的候选的提名被确定为初始提名的概率越高。

步骤450：根据边界概率序列及置信度分数矩阵获取初始提名序列。

可选的，根据边界概率序列可以获取多个候选的提名，根据置信度分数矩阵可以获取每个候选的提名的置信度，根据每个候选的提名的置信度大小可以从多个候选的提名中确定多个初始提名生成初始提名序列。

可选的，请参阅图5，步骤240：根据提名位置偏差及初始提名序列，获取时序动作提名，包括：

步骤510：根据提名位置偏差对初始提名序列中各个初始提名的初始开始位置和初始结束位置进行修正，以获取各个初始提名对应的精细化开始位置和精细化结束位置。

可选的，请结合图3，初始提名是预测的包含目标对象的视频片段，初始提名的开始和结束位置与实际的包含目标对象的视频片段的开始和结束位置之间可能存在偏差，例如在图3示意的实施例中初始提名的开始位置比对应的目标片段的开始位置早了2秒，初始提名的结束位置比对应的目标片段的结束位置晚了2秒。根据精细化网络获取的提名位置偏差是精细化网络预测的初始提名的开始和结束位置与实际的包含目标对象的视频片段的开始和结束位置之间的偏差，提名位置偏差越准确，则利用提名位置偏差对初始提名的开始和结束位置进行修正后得到的精细化开始和精细化结束位置越准确，越接近对应的实际的包含目标对象的视频片段的开始和结束位置。

步骤520：根据初始提名及初始提名对应的精细化开始位置和精细化结束位置生成时序动作提名。

可选的，请结合图3，将初始提名的开始位置修正为对应的精细化开始位置，及，将初始提名的结束位置修正为对应的精细化结束位置，即可生成时序动作提名。

请参阅图6，本申请实施例还提供了一种精细化网络的训练方法，用于优化精细化网络，提高精细化网络输出的提名位置偏差的准确度。精细化网络的训练方法包括：

步骤610：从样本视频中采集样本提名序列及样本特征序列，样本提名序列用于表征包含样本对象的视频片段，样本特征序列是根据样本提名序列提取的抽象信息的集合，样本视频包含真实提名，真实提名包括已知的真实开始位置和真实结束位置。

可选的，请结合图2，从样本视频中采集样本提名序列及样本特征序列的方法与步骤 210的方法类似，区别在于样本视频是标注了真实提名(即包含目标对象的视频片段)的真实开始和真实结束位置的视频，而目标视频是任意的一段视频；样本提名序列及样本特征序列对应样本视频，初始提名序列及初始特征序列对应初始视频。采集样本提名序列的方法与采集初始提名序列的方法类似，采集样本特征序列的方法与采集初始特征序列的方法类似。

可选的，请参阅图7，步骤610：从样本视频中采集样本提名序列及样本特征序列，包括：

步骤710：从样本视频中采集多个样本片段。

可选的，请结合图4，步骤710的方法与步骤410的方法类似，区别在于初始片段是从初始视频中提取的片段，样本片段是从样本视频中提取的片段。

步骤720：将多个样本片段输入特征提取网络以获取多个第一特征。

可选的，请结合图4，步骤720的方法与步骤420的方法类似，区别在于第一特征是样本片段对应的特征，编码特征是初始片段对应的特征。

可选的，步骤720中的特征提取网络包括时间信息网络和空间信息网络组成的双流网络，与步骤420中的特征提取网络一致，此处不再赘述。

步骤730：根据多个第一特征获取样本特征序列。

可选的，请结合图4，步骤730的方法与步骤430的方法类似，区别在于样本特征序列对应第一特征，初始特征序列对应编码特征。

步骤740：根据样本特征序列获取样本概率序列及样本分数矩阵。

可选的，请结合图4，步骤740的方法与步骤440的方法类似，步骤740中的边界概率序列可利用TEM模块生成，步骤740中的置信度分数矩阵可利用PEM模块生成，此处不再赘述。

步骤750：根据样本概率序列及样本分数矩阵，获取样本提名序列。

可选的，请结合图4，步骤750的方法与步骤450的方法类似，区别在于步骤450中的初始提名序列是根据初始特征序列对应的样本概率序列及样本分数矩阵获取的，而步骤750中的样本提名序列是根据样本概率序列对应的样本概率序列及样本分数矩阵获取的，此处不再赘述。

请参阅图6，精细化网络的训练方法还包括：

步骤620：对样本提名序列进行采样以获取采样提名序列，采样提名序列包括第一预设数量的正样本和第二预设数量的负样本。

请结合图8，可选的，步骤620：对样本提名序列进行采样以获取采样提名序列，包括：

步骤810：获取样本提名序列中的每个样本提名与真实提名之间的第一交并比。

可选的，样本提名与真实提名之间的第一交并比能够表征样本提名与真实提名的时序重合部分的比重，以便于判断在步骤610中获取的样本提名与真实提名的接近程度。第一交并比的数值越大，则表征样本提名与真实提名的时序重合部分的比重越高，样本提名的时序与真实提名的时序越相近；第一交并比的数值越小，则表征样本提名与真实提名的时序重合部分的比重越低，样本提名的时序与真实提名的时序的偏差越大。

步骤820：将多个第一交并比中，大于第一预设比值的第一交并比对应的样本提名确定为正样本，小于第二预设比值的第一交并比对应的样本提名确定为负样本，以获取第一预设数量的正样本和第二预设数量的负样本。

可选的，交并比的取值范围为[0，1]，第一预设比值设为0.7，第二预设比值为0.3。即，在一个第一交并比的取值大于0.7的情况下，将该第一交并比对应的样本提名确定为正样本；在一个第一交并比的取值小于0.3的情况下，将该第一交并比对应的样本提名确定为负样本；在一个第一交并比的取值大于或等于0.3且小于或等于0.7的情况下，将该第一交并比对应的样本提名舍弃。在其他实施例中，在满足第一预设比值大于第二预设比值的条件下，第一预设比值设还可以为其他取值，例如第一预设比值设为0.6、0.5、0.8、 0.9等，在此不一一列举；第二预设比值设还可以为其他取值，例如第二预设比值设为0.1、 0.2、0.4等，在此不一一列举。

步骤830：根据第一预设数量的正样本和第二预设数量的负样本生成采样提名序列。

可选的，从样本提名序列中分别采样正样本及负样本生成采样提名序列，使采样提名序列具有较高的丰富度和均衡性，对不同类型的具有代表性的样本均有采样。其中，正样本是时序明显较为接近真实提名的时序的样本提名，负样本是时序明显不接近真实提名的时序的样本提名，正样本和负样本各具代表性。而既非正样本也非负样本的被舍弃的样本提名，其时序既不是明显地接近真实提名的时序，也不是明显不接近真实提名的时序，不具备代表性，因此在采样的过程中被舍弃。

可选的，第一预设数量是第二预设数量的10倍，即采样的过程保留多数正样本生成采样提名序列。请结合图9，可选的，在某些实施例中，样本提名的数量与真实提名的数量一致，每个真实提名对应唯一的一个样本提名。在某些实施例中，例如图9示意的实施方式中，每个真实提名对应一个或多个样本提名。例如图9示意的实施例中，样本提名 Sy1、Sy2、Sy3均与真实提名Sz1对应，其中，Sy1是正样本，Sy2是负样本，Sy3既非正样本也非负样本。在根据上述样本提名及上述样本提名的提名位置偏差确定真实提名 Sz1的开始和结束位置时，我们最希望在正样本Sy1的基础上结合正样本Sy1的提名位置偏差进行确定，因为正样本Sy1的时序与真实提名Sz1的时序最为接近，正样本Sy1的提名位置偏差较小，更容易被准确地获取到；最不希望在负样本Sy2的基础上结合负样本 Sy2的提名位置偏差进行确定，因为负样本Sy2的时序与真实提名Sz1的时序最不接近，负样本Sy2的提名位置偏差较大，不容易被准确地获取到。具有正样本和负样本的采样提名序列，使精细化网络能够具有甄别正负样本的能力。采样提名序列中正样本的数量占多数，以主要优化精细化网络根据正样本获取对应的提名位置偏差的能力，提高精细化网络的运行效率。可选的，在其他实施例中，第一预设数量不局限于是第二预设数量的10倍，还可以是大于第二设数量的任意数值，例如第一预设数量是第二预设数量的5倍、3倍、 15倍、20倍等，在此不一一例举。

请参阅图6，精细化网络的训练方法还包括：

步骤630：根据样本特征序列获取采样提名序列对应的采样特征序列，采样特征序列是采样提名序列的抽象信息的集合。

请结合图10，可选的，采样提名序列是对样本提名序列中的样本提名进行采样后获取的一部分样本提名组成的序列，而每个样本提名均在样本特征序列中有对应的样本特征。在这部分样本提名被采样成为采样提名后，仍然与样本特征序列中的样本特征具有对应关系。例如，在图10示意的实施例中，样本提名Sy1与样本特征Fy1对应，在样本提名Sy1被采样成为采样提名Sc1后，采样提名Sc1仍与样本特征Fy1对应。步骤630的作用是找到采样后样本提名序列中的每个样本提名对应的样本特征，根据这些样本特征生成采样特征序列。

请结合图11，可选的，根据样本特征序列获取采样提名序列对应的采样特征序列，包括：

步骤1110：将样本特征序列输入至少两层时序卷积进行处理，得到融合特征序列，融合特征序列表征在时间尺度抽象后的样本特征序列。

可选的，得到融合特征序列的作用是以提取样本特征在时间维度的多尺度特征，以丰富特征的多样性。不同的样本特征可能对应不同大小的时序，一些样本特征之间可能存在较大的时序差距，例如同为“跑步动作”这一目标对象对应的样本特征，可能有的“跑步动作”的时序仅持续几秒，有的“跑步动作”的时序能够持续上百秒。因此，可通过将样本特征序列输入至少两层时序卷积进行处理，以提取样本特征在时间维度的多尺度特征，使得到的融合特征序列能够表征不同时长的视频片段。

步骤1120：在融合特征序列中确定每个采样提名对应的融合特征。

可选的，请结合图10及图12，每个采样提名具有对应的样本特征，而融合特征是样本特征映射的特征，因此可以确定每个采样提名与融合特征的映射关系。例如，在图12 示意的实施例中，采样提名Sc1与样本特征Fy1对应，融合特征Fr1由样本特征Fy1映射得到，则可以确定采样提名Sc1与融合特征Fr1对应。

步骤1130：根据与采样提名对应的多个融合特征生成采样特征序列。

可选的，由多个融合特征生成的采样特征序列能够表征不同时长的视频片段，具有较高的特征多样性。

请参阅图6，精细化网络的训练方法还包括：

步骤640：对采样特征序列做池化处理，以获取训练特征序列，训练特征序列用于表征维度相同的多个采样特征。

可选的，步骤640的方法与步骤220的方法类似，区别在于池化的特征序列分别为初始特征序列和采样特征序列，对应获取的特征序列分别为感兴趣特征序列和训练特征序列，作用均为将不同维度的多个特征调整到同一维度，此处不再赘述。

步骤650：将训练特征序列输入精细化网络以确定监督损失函数的损失值。

可选的，请结合图13，精细化网络包括回归网络、前背景分类网络及交并比网络，监督损失函数包括用于监督回归网络的回归损失函数、用于监督前背景分类网络的前景分类损失函数、及用于监督交并比网络的交并比损失函数。回归网络用于根据输入的特征生成预测的开始位置和预测的结束位置，回归网络采用的回归函数不作限制。回归损失函数用于确定预测的开始位置与真实的开始位置之间的偏差，以及预测的结束位置与真实的结束位置之间的偏差，以优化回归网络的参数，提高回归网络的预测准确度。前背景分类网络用于根据输入的特征预测该特征对应的提名属于前景或背景的概率。前景分类损失用于确定前背景分类网络预测的概率的准确度，以优化前背景分类网络的参数，提高前背景分类网络的预测准确度。交并比网络用于根据输入的特征生成该特征对应的提名与真实提名之间的预测交并比。交并比损失用于确定预测交并比与该特征对应的提名与真实提名之间的真实交并比之间的偏差。

可选的，在其他实施例中，监督损失函数还可包括其他损失函数，在此不作限制。

可选的，请结合图14，步骤650：将训练特征序列输入精细化网络以确定监督损失函数的损失值，包括：

步骤1410：将训练特征序列输入回归网络获取样本提名的预测位置偏差。

可选的，预测位置偏差包括样本提名的开始位置与真实的开始位置之间的预测开始位置偏差，及样本提名的结束位置与真实的结束位置之间的预测结束位置偏差。

步骤1420：根据预测位置偏差及真实提名获取预测提名。

可选的，根据预测位置偏差修正对应的样本提名的开始位置和结束位置，即可获取预测提名。预测提名的开始位置为预测开始位置，预测提名的结束位置为预测结束位置。

步骤1430：根据预测位置偏差、预测提名、及预测提名与真实提名之间的最大第二交并比，确定回归损失。

可选的，与真实提名对应的预测提名可能包括多个，预测提名与真实提名之间的交并比可能为多个，最大第二交并比为多个第二交并比中的最大值。

可选的，回归损失函数如公式一所示。

公式一：

其中，N是序列的个数，

t_is,t_ie分别表示真实提名的真实开始和真实结束位置，可根据真实提名确定。

分别表示预测提名的预测开始和预测结束位置，可根据预测位置偏差及预测提名确定。G_iou是预测提名和真实提名之间的最大第二交并比。L_reg是回归损失值，用于确定t_is与

之间的偏差，及t_ie与

之间的偏差。

步骤1440：将训练特征序列输入前背景分类网络以获取前景概率，前景概率用于表征训练特征对应的样本提名属于前景的概率。

步骤1450：根据前景概率及最大第二交并比，确定前景分类损失。

可选的，前景分类损失函数如公式二所述。

公式二：

其中，p_i表示第i个训练特征对应的样本提名属于前景的概率。G_iou是预测提名和真实提名之间的最大第二交并比。L_cls是前景分类损失。可选的，交并比大于0.7的提名被分类为前景，交并比小于0.3的提名被分类为背景。在完成优化后，前背景分类网络能够识别输入精细化网络的感兴趣特征对应的初始提名属于前景的概率，以在属于前景的初始提名的基础上获取时序动作提名，提高获取的时序动作提名的准确性。

步骤1460：将训练特征序列输入交并比网络，以获取预测交并比。

步骤1470：根据预测提名和真实提名获取真实交并比。

步骤1480：根据预测交并比和真实交并比，确定交并比损失。

可选的，交并比损失函数如公式三所述。

公式三：

其中，I_i表示第i个预测提名对应真实的真实交并比，

表示第i个预测提名对应的预预测交并比。L_iou为交并比损失。可选的，步骤810中的第一交并比及步骤1430中的第二交并比均可通过交并比网络计算获取。利用交并比损失函数对交并比网络进行优化，能够使交并比网络生成的交并比更为准确。

请参阅图6，精细化网络的训练方法还包括：

步骤660：在损失值满足预设的监督条件的情况下完成精细化网络的训练。

可选的，请参阅图15，步骤660：在损失值满足预设的监督条件的情况下完成精细化网络的训练，还包括：

步骤1510：在回归损失小于预设的回归损失阈值，且前景分类损失小于预设的前景分类损失阈值的情况下，完成精细化网络的训练；或

步骤1520：在回归损失小于预设的回归损失阈值，前景分类损失小于预设的前景分类损失阈值，且交并比损失小于预设的交并比损失阈值的情况下，完成精细化网络的训练。

可选的，在步骤1510的方法中，仅满足回归损失小于预设的回归损失阈值，且前景分类损失小于预设的前景分类损失阈值的情况下，即可完成精细化网络的训练。如此，能够简化精细化网络的训练流程，提高训练效率。在步骤1520的方法中，需要在满足回归损失小于预设的回归损失阈值，前景分类损失小于预设的前景分类损失阈值，且交并比损失小于预设的交并比损失阈值的情况下，才能完成精细化网络的训练，以提高精细化网络生成的提名位置偏差的准确度。

为了更好的说明本申请实施例提供的精细化网络的训练方法，请参阅图6，本申请实施例提供的精细化网络的训练方法的流程可总结归纳为下述步骤：

步骤610：对样本提名序列进行采样以获取采样提名序列，采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；

步骤620：根据样本特征序列获取采样提名序列对应的采样特征序列，采样特征序列是采样提名序列的抽象信息的集合；

步骤630：对采样特征序列做池化处理，以获取训练特征序列，训练特征序列用于表征维度相同的多个采样特征；

步骤640：将训练特征序列输入精细化网络以确定监督损失函数的损失值；及

步骤650：在损失值满足预设的监督条件的情况下完成精细化网络的训练。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例的时序动作提名的获取方法通过精细化网络获取提名位置偏差，以通过提名位置偏差修正从目标视频中提取的初始提名序列的开始位置和结束位置，以获取开始和结束位置准确的时序动作提名。

本申请实施例的精细化网络的训练方法对从样本视频提取的样本提名做采样处理，以利用高丰富度和均衡性的样本提名进行训练；对样本特征提取时间维度的多尺度特征，以丰富训练样本中特征的多样性；通过监督损失函数优化精细化网络的参数，以进一步提高精细化网络生成的提名位置偏差的准确度。

为便于更好的实施本申请实施例的时序动作提名的获取方法，本申请实施例还提供一种时序动作提名的获取装置600。请参阅图16，图16为本申请实施例提供的时序动作提名的获取装置600的结构示意图。其中，该时序动作提名的获取装置600可以包括：

第一采集模块601，用于从目标视频中采集初始提名序列及初始特征序列，初始提名序列用于表征包含目标对象的视频片段，初始特征序列是根据初始提名序列提取的抽象信息的集合；

第一池化模块602，用于对初始特征序列做池化处理，以获取感兴趣特征序列，感兴趣特征序列用于表征维度相同的多个初始特征；

精细化模块603，用于将感兴特征序列输入精细化网络以获取提名位置偏差，精细化网络满足预设的监督条件；及

获取模块604，用于根据提名位置偏差及初始提名序列以获取时序动作提名。

可选的，第一采集模块601还可用于：

从目标视频中采集多个初始片段；

将多个初始片段输入特征提取网络以获取多个编码特征；

根据多个编码特征获取初始特征序列；

根据初始特征序列获取边界概率序列及置信度分数矩阵；及

根据边界概率序列及置信度分数矩阵获取初始提名序列。

获取模块还可以用于：

根据提名位置偏差对初始提名序列中各个初始提名的初始开始位置和初始结束位置进行修正，以获取各个初始提名对应的精细化开始位置和精细化结束位置；及

根据初始提名及初始提名对应的精细化开始位置和精细化结束位置生成时序动作提名。

可选的，本申请实施例还提供精细化网络的训练装置700。如图17所示，图17为本申请实施例提供的精细化网络的训练装置700的结构示意图。其中，该精细化网络的训练装置包括：

第二采集模块701，用于从样本视频中采集样本提名序列及样本特征序列，所述样本提名序列用于表征包含样本对象的视频片段，所述样本特征序列是根据所述样本提名序列提取的抽象信息的集合；

采样模块702，用于对所述样本提名序列进行采样以获取采样提名序列，所述采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；

特征提取模块703，用于根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，所述采样特征序列是所述采样提名序列的抽象信息的集合；

第二池化模块704，用于对所述采样特征序列做池化处理，以获取训练特征序列，所述训练特征序列用于表征维度相同的多个采样特征；

监督模块705，用于将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值；及

终止模块706，用于在损失值满足预设的监督条件的情况下完成精细化网络的训练。

可选的，第二采集模块701还可用于：

从样本视频中采集多个样本片段；

将多个样本片段输入特征提取网络以获取多个第一特征；

根据多个第一特征获取样本特征序列；

根据样本特征序列获取样本概率序列及样本分数矩阵；及

根据样本概率序列及样本分数矩阵，获取样本提名序列。

采样模块702还可用于：

获取样本提名序列中的每个样本提名与真实提名之间的第一交并比；

将多个第一交并比中，大于第一预设比值的第一交并比对应的样本提名确定为正样本，小于第二预设比值的第一交并比对应的样本提名确定为负样本，以获取第一预设数量的正样本和第二预设数量的负样本；及

根据第一预设数量的正样本和第二预设数量的负样本生成采样提名序列。

特征提取模块703还可用于：

将样本特征序列输入至少两层时序卷积进行处理，得到融合特征序列，融合特征序列表征在时间尺度抽象后的样本特征序列；

在融合特征序列中确定每个采样提名对应的融合特征；及

根据与采样提名对应的多个融合特征生成采样特征序列。

监督模块705还可用于：

将训练特征序列输入回归网络获取样本提名的预测位置偏差；

根据预测位置偏差及真实提名获取预测提名；

根据预测位置偏差、预测提名、及预测提名与真实提名之间的最大第二交并比，确定回归损失；

将训练特征序列输入前背景分类网络以获取前景概率，前景概率用于表征训练特征对应的样本提名属于前景的概率；及

根据前景概率及最大第二交并比，确定前景分类损失。

监督模块705还可用于：

将训练特征序列输入交并比网络，以获取预测交并比；

根据预测提名和真实提名获取真实交并比；

根据预测交并比和真实交并比，确定交并比损失。

终止模块706还可用于：

在回归损失小于预设的回归损失阈值，且前景分类损失小于预设的前景分类损失阈值的情况下，完成精细化网络的训练；或

在回归损失小于预设的回归损失阈值，前景分类损失小于预设的前景分类损失阈值，且交并比损失小于预设的交并比损失阈值的情况下，完成精细化网络的训练。

需要说明的是，本申请实施例中的时序动作提名的获取装置600与精细化网络的训练装置700中各模块的功能可对应参考上述各方法实施例中任意实施例的具体实现方式，这里不再赘述。

上述装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。

例如，时序动作提名的获取装置600、精细化网络的训练装置700可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该时序动作提名的获取装置 600、精细化网络的训练装置700为该终端或服务器。

可选的，本申请还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

图18为本申请实施例提供的计算机设备的示意性结构图，如图18所示，计算机设备800 可以包括：通信接口801，存储器802，处理器803和通信总线804。通信接口801，存储器 802，处理器803通过通信总线804实现相互间的通信。通信接口801用于装置800与外部设备进行数据通信。存储器802可用于存储软件程序以及模块，处理器803通过运行存储在存储器802的软件程序以及模块，例如前述方法实施例中的相应操作的软件程序。

可选的，该处理器803可以调用存储在存储器802的软件程序以及模块执行如下操作：从目标视频中采集初始提名序列及初始特征序列，初始提名序列用于表征包含目标对象的视频片段，初始特征序列是根据初始提名序列提取的抽象信息的集合；对初始特征序列做池化处理，以获取感兴趣特征序列，感兴趣特征序列用于表征维度相同的多个初始特征；将感兴特征序列输入精细化网络以获取提名位置偏差，精细化网络满足预设的监督条件；及根据提名位置偏差及初始提名序列，获取时序动作提名。

可选的，该处理器803可以调用存储在存储器802的软件程序以及模块执行如下操作：从样本视频中采集样本提名序列及样本特征序列，样本提名序列用于表征包含样本对象的视频片段，样本特征序列是根据样本提名序列提取的抽象信息的集合，样本视频包含真实提名，真实提名包括已知的真实开始位置和真实结束位置；对样本提名序列进行采样以获取采样提名序列，采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；根据样本特征序列获取采样提名序列对应的采样特征序列，采样特征序列是采样提名序列的抽象信息的集合；对采样特征序列做池化处理，以获取训练特征序列，训练特征序列用于表征维度相同的多个采样特征；将训练特征序列输入精细化网络以确定监督损失函数的损失值；及在损失值满足预设的监督条件的情况下完成精细化网络的训练。

可选的，计算机设备800例如可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该计算机设备800为该终端或服务器。

本申请还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本申请实施例中的上述各方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的上述各方法中的相应流程，为了简洁，在此不再赘述。

本申请还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本申请实施例中的上述各方法中的相应流程，为了简洁，在此不再赘述。

应理解，本申请实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM， EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM， SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，上述存储器为示例性但不是限制性说明，例如，本申请实施例中的存储器还可以是静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM) 等等。也就是说，本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种时序动作提名的获取方法，其特征在于，包括：

从目标视频中采集初始提名序列及初始特征序列，所述初始提名序列用于表征包含目标对象的视频片段，所述初始特征序列是根据所述初始提名序列提取的抽象信息的集合；

对所述初始特征序列做池化处理，以获取感兴趣特征序列，所述感兴趣特征序列用于表征维度相同的多个初始特征；

将所述感兴特征序列输入精细化网络以获取提名位置偏差，所述精细化网络满足预设的监督条件；及

根据所述提名位置偏差及所述初始提名序列，获取时序动作提名。

2.根据权利要求1所述的时序动作提名的获取方法，其特征在于，所述从目标视频中采集初始提名序列，包括：

从所述目标视频中采集多个初始片段；

将多个所述初始片段输入特征提取网络以获取多个编码特征；

根据多个所述编码特征获取所述初始特征序列；

根据所述初始特征序列获取边界概率序列及置信度分数矩阵；及

根据所述边界概率序列及所述置信度分数矩阵获取所述初始提名序列。

3.根据权利要求1所述的时序动作提名的获取方法，其特征在于，所述特征提取网络包括时间信息网络和空间信息网络组成的双流网络。

4.根据权利要求1所述的时序动作提名的获取方法，其特征在于，所述根据所述提名位置偏差及所述初始提名序列，获取时序动作提名，包括：

根据所述提名位置偏差对所述初始提名序列中各个初始提名的初始开始位置和初始结束位置进行修正，以获取各个所述初始提名对应的精细化开始位置和精细化结束位置；及

根据所述初始提名及所述初始提名对应的所述精细化开始位置和所述精细化结束位置生成所述时序动作提名。

5.一种精细化网络的训练方法，其特征在于，包括：

从样本视频中采集样本提名序列及样本特征序列，所述样本提名序列用于表征包含样本对象的视频片段，所述样本特征序列是根据所述样本提名序列提取的抽象信息的集合，所述样本视频包含真实提名，所述真实提名包括已知的真实开始位置和真实结束位置；

对所述样本提名序列进行采样以获取采样提名序列，所述采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；

根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，所述采样特征序列是所述采样提名序列的抽象信息的集合；

对所述采样特征序列做池化处理，以获取训练特征序列，所述训练特征序列用于表征维度相同的多个采样特征；

将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值；及

在所述损失值满足预设的监督条件的情况下完成所述精细化网络的训练。

6.根据权利要求5所述的训练方法，其特征在于，所述从样本视频中采集样本提名序列及样本特征序列，包括：

从所述样本视频中采集多个样本片段；

将多个所述样本片段输入特征提取网络以获取多个第一特征；

根据多个所述第一特征获取所述样本特征序列；

根据所述样本特征序列获取样本概率序列及样本分数矩阵；及

根据所述样本概率序列及所述样本分数矩阵，获取所述样本提名序列。

7.根据权利要求5所述的训练方法，其特征在于，所述对所述样本提名序列进行采样以获取采样提名序列，包括：

获取所述样本提名序列中的每个样本提名与所述真实提名之间的第一交并比；

将多个所述第一交并比中，大于第一预设比值的所述第一交并比对应的样本提名确定为所述正样本，小于第二预设比值的所述第一交并比对应的样本提名确定为所述负样本，以获取第一预设数量的所述正样本和第二预设数量的所述负样本；及

根据第一预设数量的所述正样本和第二预设数量的所述负样本生成所述采样提名序列。

8.根据权利要求5所述的训练方法，其特征在于，所述根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，包括：

将所述样本特征序列输入至少两层时序卷积进行处理，得到融合特征序列，所述融合特征序列表征在时间尺度抽象后的所述样本特征序列；

在所述融合特征序列中确定每个所述采样提名对应的融合特征；及

根据与所述采样提名对应的多个所述融合特征生成所述采样特征序列。

9.根据权利要求5所述的训练方法，其特征在于，所述损失值包括回归损失及前景分类损失，所述将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值，包括：

将所述训练特征序列输入回归网络获取所述样本提名的预测位置偏差；

根据所述预测位置偏差及所述真实提名获取预测提名；

根据所述预测位置偏差、所述预测提名、及所述预测提名与所述真实提名之间的最大第二交并比，确定回归损失；

将所述训练特征序列输入前背景分类网络以获取前景概率，所述前景概率用于表征所述训练特征对应的所述样本提名属于前景的概率；及

根据所述前景概率及所述最大第二交并比，确定前景分类损失。

10.根据权利要求9所述的训练方法，其特征在于，所述损失函数还包括交并比损失，所述将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值，还包括：

将所述训练特征序列输入交并比网络，以获取预测交并比；

根据所述预测提名和所述真实提名获取真实交并比；及

根据所述预测交并比和所述真实交并比，确定交并比损失。

11.根据权利要求10所述的训练方法，其特征在于，所述损失值包括回归损失、前景分类损失及交并比损失，所述在所述损失值满足预设的监督条件的情况下完成所述精细化网络的训练，包括：

在所述回归损失小于预设的回归损失阈值，且所述前景分类损失小于预设的前景分类损失阈值的情况下，完成所述精细化网络的训练；或

在所述回归损失小于预设的回归损失阈值，所述前景分类损失小于预设的前景分类损失阈值，且所述交并比损失小于预设的交并比损失阈值的情况下，完成所述精细化网络的训练。

12.一种时序动作提名的获取装置，其特征在于，所述时序动作提名的获取装置包括：

第一采集模块，用于从目标视频中采集初始提名序列及初始特征序列，所述初始提名序列用于表征包含目标对象的视频片段，所述初始特征序列是根据所述初始提名序列提取的抽象信息的集合；

第一池化模块，用于对所述初始特征序列做池化处理，以获取感兴趣特征序列，所述感兴趣特征序列用于表征维度相同的多个初始特征；

精细化模块，用于将所述感兴特征序列输入精细化网络以获取提名位置偏差，所述精细化网络满足预设的监督条件；及

获取模块，用于根据所述提名位置偏差及所述初始提名序列以获取时序动作提名。

13.一种精细化网络的训练装置，其特征在于，所述训练装置包括：

第二采集模块，用于从样本视频中采集样本提名序列及样本特征序列，所述样本提名序列用于表征包含样本对象的视频片段，所述样本特征序列是根据所述样本提名序列提取的抽象信息的集合；

采样模块，用于对所述样本提名序列进行采样以获取采样提名序列，所述采样提名序列包括第一预设数量的正样本和第二预设数量的负样本；

特征提取模块，用于根据所述样本特征序列获取所述采样提名序列对应的采样特征序列，所述采样特征序列是所述采样提名序列的抽象信息的集合；

第二池化模块，用于对所述采样特征序列做池化处理，以获取训练特征序列，所述训练特征序列用于表征维度相同的多个采样特征；

监督模块，用于将所述训练特征序列输入所述精细化网络以确定监督损失函数的损失值；及

终止模块，用于在所述损失值满足预设的监督条件的情况下完成所述精细化网络的训练。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-4任一项所述的时序动作提名的获取方法中的步骤，或者如权利要求5-11任一项所述的精细化网络的训练方法中的步骤。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如权利要求1-4任一项所述的时序动作提名的获取方法中的步骤，或者如权利要求5-11任一项所述的精细化网络的训练方法中的步骤。

16.一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的时序动作提名的获取方法中的步骤，或者如权利要求5-11任一项所述的精细化网络的训练方法中的步骤。