CN114283349A

CN114283349A - 一种数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114283349A
Application number: CN202110966349.0A
Authority: CN
Inventors: 赵天昊; 田思达; 谭维
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-04-05

Abstract

本申请公开了一种数据处理方法、装置、计算机设备及存储介质，其中，该方法包括：获取与目标场景相关联的待处理视频，按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧，从参考采样视频帧中提取待识别区域图像，根据待识别区域图像确定参考采样视频帧的与目标场景相关联的参考标签信息；参考采样视频帧为一帧或多帧采样视频帧中的任一帧，待识别区域图像包括目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像中的一种或多种；根据一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定待处理视频的与目标场景相关联的目标标签信息。通过该方法，可以有效提高确定视频标签信息的效率。

Description

一种数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备及计算机可读存储介质。

背景技术

视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。

为便于区分视频中的不同内容，或者为便于区分不同视频，可以给视频标注标签信息，目前，通常是由人工确定视频的标签信息，但人工确定的方式效率较低。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，可以有效提高确定视频标签信息的效率。

本申请实施例一方面公开了一种数据处理方法，该方法包括：

获取与目标场景相关联的待处理视频，按照采样规则对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧；

从参考采样视频帧中提取待识别区域图像，根据所述待识别区域图像确定所述参考采样视频帧与所述目标场景相关联的参考标签信息；其中，所述参考采样视频帧为所述一帧或多帧采样视频帧中的任一帧，所述待识别区域图像包括以下一种或多种：目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像；

根据所述一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定所述待处理视频的与所述目标场景相关联的目标标签信息。

本申请实施例一方面公开了一种数据处理装置，该装置包括：

获取单元，用于获取与目标场景相关联的待处理视频，按照采样规则对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧；

处理单元，用于从参考采样视频帧中提取待识别区域图像，根据所述待识别区域图像确定所述参考采样视频帧与所述目标场景相关联的参考标签信息；其中，所述参考采样视频帧为所述一帧或多帧采样视频帧中的任一帧，所述待识别区域图像包括以下一种或多种：目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像；

确定单元，用于根据所述一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定所述待处理视频的与所述目标场景相关联的目标标签信息。

本申请实施例一方面公开了一种计算机设备，包括输入接口和输出接口，该计算机设备还包括，处理器，适于实现一条或多条计算机程序；以及，计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行以上述的数据处理方法。

本申请实施一方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行上述的数据处理方法。

本申请实施例一方面公开了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述的数据处理方法。

本申请实施例中，首先获取与目标场景相关联的待处理视频，按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧；然后针对任一帧采样视频帧，从该任一采样视频帧中提取待识别区域图像(包括目标文本对象所在显示区域的文本区域图像和/或目标图标对象所在显示区域的图标区域图像)，根据待识别区域图像确定该任一采样视频帧的与目标场景相关联的参考标签信息；最后根据各帧采样视频帧的参考标签信息，确定待处理视频的与目标场景相关联的目标标签信息。采用此方式，可以实现确定视频标签信息的自动化及智能化，从而有效提高确定视频标签信息的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例公开的一种数据处理系统的架构示意图；

图2是本申请实施例公开的一种数据处理方法的流程示意图；

图3是本申请实施例公开的一种标签信息的显示界面示意图；

图4是本申请实施例公开的另一种数据处理方法的流程示意图；

图5是本申请实施例公开的一种针对游戏场景的数据处理方法的流程示意图；

图6是本申请实施例公开的一种针对游戏场景的待识别区域图像的示意图；

图7是本申请实施例公开的一种数据处理装置的结构示意图；

图8是本申请实施例公开的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的数据处理方法涉及云技术以及云技术中的大数据技术，具体的：云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。对应本申请实施例提供的数据处理方法，具体可以根据不同的目标应用场景，确定出不同类型的标签信息，进而为用户推荐或者展示视频对应的标签信息。

参见图1所示，是本申请实施例公开的一种数据处理系统的架构示意图，具体的，该数据处理系统100至少可以包括：多个第一终端设备101、多个第二终端设备102以及服务器103，其中，第一终端设备101和第二终端设备102可以是相同的设备，也可以是不同的设备。其中，第一终端设备101和第二终端设备102主要用于发送与目标场景相关联的待处理视频以及接收与目标场景相关联的待处理视频的目标标签信息；服务器103主要用于执行数据处理方法的相关步骤，得到目标标签信息。其中，第一终端设备101、第二终端设备102以及服务器103可以实现通信连接，其连接方式可以包括有线连接和无线连接，在此不进行限定。

需要说明的是：上述所提及的任一终端设备101和任一终端设备102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此。上述所提及的服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。图1只是示例性地表征数据处理系统的架构图，并不对此进行限定。例如，图1中服务器103可以部署成区块链网络中的节点，或者将服务器103接入区块链网络，使得服务器103可将视频数据以及目标标签信息数据上传至区块链网络进行存储，以防止内部数据被篡改，从而保证数据安全性。

在具体实现中，服务器103获取与目标场景相关联的待处理视频，按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧，进一步从参考采样视频帧中提取待识别区域图像，并根据待识别区域图像确定参考采样视频帧的与目标场景相关联的参考标签信息；其中，参考采样视频帧为一帧或多帧采样视频帧中的任一帧，待识别区域图像包括以下一种或多种：目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像；最后，根据一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定待处理视频的与目标场景相关联的目标标签信息。当待识别区域图像不同时，对应的目标标签信息确定过程也是不相同。

基于上述描述，本申请实施例提供的数据处理方法涉及文本识别和图标识别，对于不同的区域图像可以采用不同的识别方法，可以实现确定视频标签信息过程的自动化及智能化，从而有效提高确定视频标签信息的效率。

基于上述对数据处理系统的描述，本申请实施例公开了一种数据处理方法，请参见图2，为本申请实施例公开的一种数据处理方法的流程示意图，该数据处理方法可以由计算机设备执行，计算机设备具体可以是图1示出的服务器103。对应的，该数据处理方法具体可以包括以下步骤：

S201、获取与目标场景相关联的待处理视频，按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧。

其中，目标场景可以包括多种类型，因此，与目标场景相关联的待处理视频，可以是和游戏场景相关联的待处理视频，也可以是和教学场景相关联的待处理视频，也可以是和新闻场景相关联的待处理视频等等，在此，对目标场景不进行限定。

在一种可能的实现方式中，与目标场景相关联的待处理视频可以是客户端发送给服务器的，以使得服务器进一步获取视频处理结果的，视频处理结果即目标标签信息；与目标场景相关联的待处理视频也可以是服务器定时或者实时从网上拉取的，以使得服务器进一步智能化地对视频进行处理得到目标标签信息，为了后续能智能化的推荐视频给相关用户，如当用户A通过关键字搜索视频时，当输入的关键字和目标标签信息相匹配，就可以将对应的视频呈现给用户A。

当获取到与目标场景相关联的待处理视频，服务器还可以按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧。其中，采样规则具体可以指的是设定采样时间间隔，可以包括均匀采样以及跳跃采样。均匀采样可以是每秒采样两帧，例如，一个6秒的视频，对其进行每秒采样两帧的规则进行采样，最后得到的便是12帧采样视频帧；跳跃采样可以是每间隔多少时间进行一次采样，例如，每间隔0.5秒采样一次，每秒采样4帧，对于一个5秒的视频，采样时间分别是1～2秒，2.5～3.5秒，4～5秒，最后得到的便是12帧采样视频帧。

其中，需要注意的是，得到一帧采样视频帧的情况是比较少见的，但也不排除这种可能，例如，对于一个时间长短极短的视频，如时间长度不足1秒，采样频率是2帧/秒，则在这种情况下，采样得到的采样视频帧可能为1帧。

S202、从参考采样视频帧中提取待识别区域图像，根据待识别区域图像确定参考采样视频帧与目标场景相关联的参考标签信息。

其中，参考采样视频帧为一帧或多帧采样视频帧中的任一帧，参考采样视频帧是一个命名，没有特殊含义，还可以采用第一采样视频帧、第二采样视频帧等相似的描述，在此不进行限定。

在一种可能的实现方式中，待识别区域图像包括目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像中的一种或多种，可以理解成，待识别区域图像可以包括两大类，一类是文本区域图像，另一类是图标区域图像；文本区域图像中包括目标文本对象，图标区域图像包括目标图标对象，目标文本对象在不同的目标场景中对应的文本内容不一样，目标图标对象在不同的目标场景中对应的图标内容不一样。其中，在得到待识别区域图像后，还可以对待识别区域进行一次预处理，可以是对待识别图像进行抠图处理，去除掉比较多余的背景。如一张包括“加油”字样的文本区域图像，在进行图像提取时，可能提取的图像区域较大，包含的背景区域比较多，所以可以对其进行抠图处理，在保证“加油”字样完整的情况下，尽可能抠掉图像中多余的区域。

例如，在两个队伍进行对战的游戏场景中，目标文本对象可以包括两个队伍的队伍名称、每个队伍的队员名称以及对战视角等，目标图标对象可以包括每个队伍的每个队员所使用的武器以及两个队伍对战的地图等。又例如，在老师进行教学的直播场景中，目标文本对象可以包括老师的名称、观看直播的学生的名称等，目标图标对象可以包括进行直播教学的老师的头像以及学生的头像等等。由于目标场景比较多，这里就不再进行一一列举了。

根据上述描述，1、当待识别区域图像为目标文本对象所在显示区域的文本区域图像时，根据待识别区域图像确定参考采样视频帧的与目标场景相关联的参考标签信息具体是，对目标文本对象所在显示区域的文本区域图像进行文本识别，得到文本对象，并根据识别出的文本对象确定参考采样视频帧与目标场景相关联的第一标签信息，对于不同的目标场景，第一标签信息是不一样的；2、当待识别区域图像为目标图标对象所在显示区域的图标区域图像时，根据待识别区域图像确定参考采样视频帧的与目标场景相关联的参考标签信息具体是，对目标图标对象所在显示区域的图标区域图像进行图标识别，得到图标对象，并根据识别出的图标对象确定参考采样视频帧与目标场景相关联的第二标签信息，对于不同的目标场景，第二标签信息是不一样的。3、当待识别区域图像为目标文本对象所在显示区域的文本区域图像和目标图标对象所在显示区域的图标区域图像时，根据待识别区域图像确定参考采样视频帧的与目标场景相关联的参考标签信息具体是，对目标文本对象所在显示区域的文本区域图像和目标图标对象所在显示区域的图标区域图像分别进行文本识别和图标识别，得到文本对象和图标对象，并根据识别出的图标对象和文本对象确定参考采样视频帧与目标场景相关联的第一标签信息和第二标签信息，在这种情况下，同时对文本区域图像进行文本识别，对图标区域图像进行图标识别，实现文本识别和图标识别的结合，联合确定待处理视频的目标标签信息，由此可以提高确定视频标签信息的效率。其中，第一标签信息和第二标签信息均指的上述的参考标签信息。

下面对标签信息进行解释，例如，在两个队伍进行对战的游戏场景中，当目标文本对象为两个队伍的队伍名称、每个队伍的队员名称以及对战视角时，第一标签信息可以包括目标队伍名称、目标队员名称以及目标对战视角，当目标图标对象为每个队伍的每个队员所使用的武器以及两个队伍对战的地图时，第二标签信息可以包括目标武器以及目标地图等。

S203、根据一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定待处理视频与目标场景相关联的目标标签信息。

有上述阐述可知，参考标签信息可以包括第一标签信息和第二标签信息中的一种或者两种，第一标签信息是基于目标文本对象所在显示区域的文本区域图像确定的，第二标签信息是基于目标图标对象所在显示区域的图标区域图像确定的，两者属于局部标签，并不能完整的表示与目标场景相关联的目标标签信息，因此，我们需要根据一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，进一步确定待处理视频的与目标场景相关联的目标标签信息。

例如，在一些场景中，待处理视频中不同时间段的视频片段对应的标签信息不同，因此，需要进一步根据各个视频片段的标签信息综合确定待处理视频的目标标签信息。

在一种可能的实现方式中，当参考标签信息包括第一标签信息，第一标签信息包括参与对象标签时，根据一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定待处理视频与目标场景相关联的目标标签信息，具体过程可以包括：根据一帧或多帧采样视频帧中各帧采样视频帧的参与对象标签，从待处理视频中确定出中断视频片段和回放视频片段；从待处理视频中除中断视频片段和回放视频片段之外的视频片段中确定事件视频片段；其中，事件视频片段为视频时长大于或等于第一时长、所包括参与对象标签为非空的采样视频帧的占比大于或等于第一比例阈值、且视频间断时长小于或等于第二时长的视频片段；根据事件视频片段中占比最大的参与对象标签，以及事件视频片段的时间信息确定事件视频片段的目标标签信息。其中，第一时长和第二时长是一个具体的时间时长，可以根据不同的目标场景进行设置，这里不进行具体数值的限定。进一步的，在确定出目标标签信息后，还可以根据预先存储的标签信息对目标标签信息进行检查，以确保得到的目标标签信息的准确性。

其中，上述阐述中断视频片段为视频时长大于或等于第三时长且所包括采样视频帧的参与对象标签为空的视频片段，回放视频片段为视频时长小于或等于第四时长且所包括参与对象标签为非空的采样视频帧的占比小于或等于第二比例阈值的视频片段。简单的理解，如游戏对战视频中，中断视频可以指的是没有对战人员且时长大于或等于一个时间长度的视频；回放视频可以指的有对战人员，但持续时间较短，且对战人员出现的帧数占总帧数的比例较小。可选的，在目标标签信息中，还可以包括中断视频对应的中断标签、回放视频包括的回放标签。其中，第三时长以及第四时长都是时间长度较小的数值，如2秒、1秒。

若事件视频片段包括多个子视频片段时，则确定出每个子视频片段对应的参与对象标签，然后选取占比最大的参与对象标签作为该事件视频片段的目标标签信息，同时根据该事件视频片段的时间信息，确定出各个子视频片段的时间标签。例如，对于一个的游戏视频，将该游戏视频中的中断视频以及回放视频剪裁掉，剩下精彩游戏视频片段，每个精彩游戏视频片段的参与对象包括队伍名称、队员名称等，每个精彩游戏视频片段确定一个目标标签信息，如对于一个60秒的游戏视频，其中20秒～22秒是中断视频，39秒～40秒是回放视频，除去这两段视频，得到的便是0～20秒的视频1、22～39秒的视频2以及40～60秒的视频3，例如，针对视频1，假设参与对象为队伍名称，且是以2帧/秒进行采样，则视频1中会存在40帧采样视频帧，然后对这40帧采样视频帧中的队伍名称进行分析，如果发现这40帧采样视频帧中92％的采样视频帧中的队伍名称为“队伍1、队伍2”，8％的采样视频帧中的队伍名称为“队伍1、队伍3”，根据占比，则可以确定视频1的队伍名称标签为“队伍1VS队伍2”。同时，对于视频1、视频2以及视频3还可以输出时间标签，如视频1输出的时间标签为0～20秒(即包括起始时间和结束时间)，如视频2输出的时间标签为22～39秒，视频3输出的时间标签为40～60秒。其他的目标标签确认过程和该过程一样，就不再一一赘述了。若事件视频片段包括1个子视频片段时，则是根据子视频片段各帧采样视频帧对应的参与对象标签，选取占比最大的作为该值视频片段的目标标签信息。

在一些可能的实现方式中，当确定出视频的目标标签信息后，可以将目标标签信息存储在数据库中，以方便管理；还可以在视频播放的过程中，对目标标签信息进行展示。其中，展示标签信息的方式多种多样，可以是以浮窗的形式显示，也可以是以气泡的方式显示，还可以是以弹幕的形式滚动显示，还可以是以透明的形式展示(不影响观看)。可选的，在视频播放的过程中，屏幕上有一个标签信息的开关控件，当该控件处于开启的状态，播放视频时就会显示该视频的标签信息；当该控件从开启的状态转换为关闭的状态，标签信息就不再显示。或者在一些实现场景中，为了避免影响视频的正常观看，标签信息可以显示一定时间(如2s)后自动消失，然后再间隔一定时间(如1分钟)再显示一次。

例如，对于一个游戏视频，标签信息包括“9：00～9:20，战队A和战队B的第一场比赛”，在播放视频时，对应的标签信息展示方式可以如图3所示，310即标签信息，展示形式为探弹框，320可以指的是标签信息的开光控件，可以通过该控件控制标签信息的展示与否。

本申请实施例中，先获取与目标场景相关联的待处理视频，按照采样规则对待处理视频进行视频帧采样得到一帧或多帧采样视频帧，再从帧或多帧采样视频帧中的任一视频帧中提取待识别区域图像，根据待识别区域图像确定参考采样视频帧的与目标场景相关联的参考标签信息；其中，待识别区域图像包括以下一种或多种：目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像；根据一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定待处理视频的与目标场景相关联的目标标签信息。当待识别区域图像不同时，对应的目标标签信息确定过程也是不相同。基于上述描述可知，本申请实施例提供的数据处理方法对于不同的区域图像可以采用不同的识别方法，可以实现确定视频标签信息的自动化及智能化，从而有效提高确定视频标签信息的效率。

根据上述实施例的阐述，当待识别区域图像为图标区域图像时，对图标区域图像进行图标识别确定出图标对象的过程，具体可以参见图4，是本申请实施例公开的另一种数据处理方法的流程示意图，包括训练数据集的获取过程、训练过程以及预测过程，该数据处理方法可以由计算机设备执行，计算机设备具体可以是图1示出的服务器103，具体可以包括以下步骤：

S401、从图像数据库中获取与目标场景相关联的参考图标图像。

其中，图像数据库中包括的与目标场景相关联的图标图像是从与目标场景相关联的视频中的图像帧中获取的。例如，对于游戏场景而言，图像数据库中包括的图标图像就是从游戏视频中获取的。

S402、对参考图标图像进行预处理，根据预处理后的参考图标图像确定样本图标图像。

其中，预处理可以包括以下一种或者多种：对参考图标图像进行图像变换处理，以及对参考图标图像的尺寸进行调整(可以是按照一定的比例进行调整的)。不管是哪一种方式对参考图标图像进行预处理，预处理后的参考图标图像的尺寸始终是处于设定尺寸范围内的。

在一种可能的实现方式中，对参考图标图像进行预处理后，确定预处理后的参考图标图像中像素值小于设定像素值的待调整像素点，将预处理后的参考图标图像中待调整像素点的像素值调整为设定像素值，得到样本图标图像。这个过程相当于是对图像的像素值进行归一化，使得包括目标图标的区域图像的前景和背景的像素值差距缩小，从而提升后续模型迭代速率。

S403、根据采用聚类算法对所述样本图标图像进行分类的结果生成样本图标图像的样本类别标签。

具体的，采用聚类算法对样本图标图像进行分类，得到分类结果，并根据分类结果生成样本图标图像的样本类别标签。

其中，可以利用opencv提供的层次聚类算法(Agglomerative Clustering)进行样本图标图像的预分类，其优势在于距离和规则的相似度容易定义，限制少，且不需要预先制定聚类数。当然，还可以采用其他聚类算法对样本图标图像进行分类，这里对其不做限定。

S404、将样本图标图像和样本类别标签组成训练数据对，并根据训练数据对生成训练数据集。

具体的，是将样本图标图像和得到的类别标签组成训练数据对，并根据训练数据对生成训练数据集。

其中，步骤S401～S404都是训练数据集的获取过程，下面以目标场景为游戏场景为例，说明训练数据集的获取过程。对于游戏而言，需要识别的图标一般都是对战时使用的武器，武器的分类可以包括包含主武器(primary weapon)、副武器(secondary weapon)、连杀技能(score streak)、特殊技能(operator skill)、破坏性武器(Lethal)、战术武器(Tactical)、背景。对于武器类的训练数据集的获取过程可以包括：将8段(8段只是示例性的，这个是不限定的)时长较长的手游电竞视频以1FPS(1帧/秒)抽帧，获取每帧视频帧当前选用武器部分的武器区域图像，共计约21万张图像(参考图标图像)。首先对全部图像进行自动预分类：将图像调整至原大小1/2并转为灰度图像，再将像素值小于127的点统一设置为127后做归一化处理，得到处理后的图像(样本图标图像)；将处理后的图像向量化后采用opencv提供的层次聚类算法进行预分类，聚类器参数为不同聚类间的欧氏距离，可以将聚类器参数设置为10；之后将包含相同武器的类别人工合并，标注类别标签，由此得到武器样本图标图像的武器类别标签，武器样本图标图像和武器类别标签都是一一对应的。有由于技能类图像数量较少，对原有图像水平翻转后加入训练集，数量加倍；背景和主武器图像数量较多，均匀取1/10用于训练，经过这一系列处理后，从武器样本图标图像的武器类别标签对中确定出用于武器分类网络的训练数据集。

S405、利用训练数据集训练得到图标分类网络。

其中，步骤S405阐述的是图标分类网络的训练过程。对于不同的目标场景，可以采用不同的初始化网络用于训练。

在一种可能的实现方式中，将训练数据集中包括的样本图标图像输入到初始化网络中，得到该样本图标图像的预测类别标签；然后基于该预测类别标签和样本类别标签对初始化网络的网络参数进行调整，当基于预测类别标签和样本类别标签计算得到的损失值小于设定阈值，也就是网络的预测准确率达到某个阈值时，停止对初始化网络的训练，得到图标分类网络。例如，在训练武器分类网络时，可以采用主干网络为更少参数的MobileNetV2模型，具体采用什么样的初始化网络，本申请实施例是不做限定的。

S406、将图标区域图像输入图标分类网络中进行处理，得到图标分类结果，并根据图标分类结果确定识别出的图标对象。

其中，步骤S406阐述的是图标分类网络的预测过程。具体的，当通过图2中阐述的步骤S201～S203获取到图标区域图像后，将图标区域图像输入图标分类网络中进行处理，得到图标分类结果，并根据图标分类结果确定识别出的图标对象。

本申请实施例，主要阐述的是对图标分类网络的训练过程和预测过程，在训练过程中，通过聚类算法对训练数据集中的样本图标图像进行预训练，得到样本类别标签的，实现类别标签的自动获取，无需人工挨个进行标注，从而提升了图标分类网络训练的速率。

基于上述对数据处理方法的阐述，下面介绍一个具体的目标场景，如两个队伍进行对战的游戏场景，在该场景下，待处理视频为待处理游戏视频，具体的数据处理方法的流程图可参见图5，是本申请实施例公开的一种针对游戏场景的数据处理方法的流程示意图，具体可以包括以下步骤：

S501、获取待处理游戏视频，按照采样规则对待处理游戏视频进行视频帧采样，得到多帧采样视频帧。

S502、从每帧采样视频帧中提取文本区域图像和图标区域图像。

其中，文本区域图像可以包括游戏玩家名称区域图像、游戏队伍名称区域图像、游戏视角区域图像，图标区域图像可以包括游戏武器区域图像。文本区域图像和图标区域图像具体可以参见图6，其中，游戏玩家名称区域图像如601、602所示，游戏队伍名称区域图像如603、604所示，游戏视角区域图像如605所示，游戏武器区域图像606所示，对于每一帧采样视频帧，都可以基于采样视频帧中的游戏武器区域图像606确定一个目标游戏武器。

S503、对文本区域图像进行文本识别，得到文本对象标签，对图标区域图像进行图标识别，得到图标对象标签。

对游戏玩家名称区域图像、游戏队伍名称区域图像、游戏视角区域图像分别进行文字识别，确定出游戏玩家名称、游戏队伍名称以及游戏视角；在根据训练好的图标分类网络对游戏武器区域图像进行图标识别，得到游戏武器。

S504、根据文本对象标签和图标对象标签确定待处理游戏视频的目标标签信息。

基于上述确定出的游戏玩家名称、游戏队伍名称以及游戏视角以及游戏武器输出该待处理游戏视频的目标标签信息。目标标签信息包括队伍名称、每个队伍包括的队员名称、每个队员所使用的武器，以及队伍在对战时的视角。

在一种可能的实现方式中，还可以根据游戏玩家名称、游戏队伍名称确定在视频中的游戏场次。例如，对于一个完整视频固定帧率抽帧(如2FPS)并识别游戏玩家名称，未识别到游戏玩家名称且时长超过时间长度(如3秒)的视频片段被认定为一个比赛中断视频；在剩余的非中断视频片段中，检测对战游戏双方队伍名称，分别计算队伍名称的出现次数，如小于一定阈值，则该视频片段被认定为一个回放视频片段，不计入场次。去除回放视频片段以及中断视频片段后，在剩余视频片段中，将双方队名完全一致的片段汇总并按时间先后排序，同对手前后两个片段间隔超过一定时间长度(如两分钟)才认为这两个游戏队伍的比赛场次增加，否则维持场次不变。最终可以得到该视频中所有两队比赛的场次及各场次起止时刻，例如“A对B第一场，时间为时刻1～时刻2”、“C对D第一场，时间为时刻3～时刻4”，“A对B第二场，时间为时刻5～时刻6”。

本申请实施例，主要是对具体场景的举例，通过一个真实的场景，描述视频标签的确定过程，结合对游戏中关键区域的图像识别技术以及文本识别技术，精准识别视频中的标签信息。

基于上述的方法实施例，本申请实施例还提供了一种数据处理装置的结构示意图。参见图7，为本申请实施例提供的一种图像处装置的结构示意图。图7所示的数据处理装置700可运行如下单元：

获取单元701，用于获取与目标场景相关联的待处理视频，按照采样规则对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧；

处理单元702，用于从参考采样视频帧中提取待识别区域图像，根据所述待识别区域图像确定所述参考采样视频帧与所述目标场景相关联的参考标签信息；其中，所述参考采样视频帧为所述一帧或多帧采样视频帧中的任一帧，所述待识别区域图像包括以下一种或多种：目标文本对象所在显示区域的文本区域图像、目标图标对象所在显示区域的图标区域图像；

确定单元703，用于根据所述一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定所述待处理视频的与所述目标场景相关联的目标标签信息。

在一种可能的实现方式中，所述确定单元703根据所述待识别区域图像确定所述参考采样视频帧与所述目标场景相关联的参考标签信息，包括：

当所述待识别区域图像包括目标文本对象所在显示区域的文本区域图像时，对所述文本区域图像进行文本识别，并根据识别出的文本对象确定所述参考采样视频帧的与所述目标场景相关联的第一标签信息；

当所述待识别区域图像包括目标图标对象所在显示区域的图标区域图像时，对所述图标区域图像进行图标识别，并根据识别出的图标对象确定所述参考采样视频帧的与所述目标场景相关联的第二标签信息；

其中，所述参考标签信息包括所述第一标签信息和所述第二标签信息中的一种或者多种。

在一种可能的实现方式中，所述处理单元702对所述图标区域图像进行图标识别，包括：

将所述图标区域图像输入图标分类网络中进行处理，得到图标分类结果；

根据所述图标分类结果确定识别出的图标对象；

其中，所述图标分类网络是利用训练数据集训练得到的，所述训练数据集包括多组训练数据对，每一组训练数据对包括样本图标图像和所述样本图标图像的样本类别标签，所述样本类别标签是根据采用聚类算法对所述样本图标图像进行分类的结果生成的。

在一种可能的实现方式中，获取单元701，还用于从图像数据库中获取与所述目标场景相关联的参考图标图像，所述图像数据库中包括的与所述目标场景相关联的图标图像，是从与所述目标场景相关联的视频中的图像帧中获取的；

所述处理单元702，还用于：

对所述参考图标图像进行预处理，根据预处理后的参考图标图像确定样本图标图像；其中，对所述参考图标图像进行预处理包括以下一种或者多种：对所述参考图标图像进行图像变换处理，以及对所述参考图标图像的尺寸进行调整，调整后的参考图标图像的尺寸处于设定尺寸范围内；

根据采用聚类算法对所述样本图标图像进行分类的结果生成所述样本图标图像的样本类别标签；将所述样本图标图像和所述样本类别标签组成训练数据对，并根据所述训练数据对生成训练数据集。

在一种可能的实现方式中，所述处理单元702根据预处理后的参考图标图像确定样本图标图像，包括：

确定所述预处理后的参考图标图像中像素值小于设定像素值的待调整像素点；

将所述预处理后的参考图标图像中所述待调整像素点的像素值调整为所述设定像素值，得到样本图标图像。

在一种可能的实现方式中，所述参考标签信息包括所述第一标签信息，所述第一标签信息包括参与对象标签；

所述确定单元703根据所述一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定所述待处理视频的与所述目标场景相关联的目标标签信息，包括：

根据所述一帧或多帧采样视频帧中各帧采样视频帧的参与对象标签，从所述待处理视频中确定出中断视频片段和回放视频片段；

从所述待处理视频中除所述中断视频片段和所述回放视频片段之外的视频片段中确定事件视频片段；其中，所述事件视频片段为视频时长大于或等于第第一时长、所包括参与对象标签为非空的采样视频帧的占比大于或等于第一比例阈值、且视频间断时长小于或等于第二时长的视频片段；

根据所述事件视频片段中占比最大的参与对象标签，以及所述事件视频片段的时间信息确定所述事件视频片段的目标标签信息。

在一种可能的实现方式中，所述处理单元702按照采样规则对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧，包括：

按照设定采样时间间隔对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧。

根据本申请的一个实施例，图2、图4以及图5示出的数据处理方法所涉及各个步骤可以是由图7所示的数据处理装置中的各个单元来执行的。以图2为例，步骤S201可由图7所示的数据处理装置中的获取单元701来执行，步骤S202可由图7所示的数据处理装置中的处理单元702来执行，步骤S203可由图7所示的数据处理装置中的确定单元703来执行。

根据本申请的另一个实施例，图7所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4以及图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的数据处理装置，以及来实现本申请实施例数据处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

本申请实施例中，首先获取单元701获取与目标场景相关联的待处理视频，处理单元702按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧；然后针对任一帧采样视频帧，从该任一采样视频帧中提取待识别区域图像(包括目标文本对象所在显示区域的文本区域图像和/或目标图标对象所在显示区域的图标区域图像)，根据待识别区域图像确定该任一采样视频帧的与目标场景相关联的参考标签信息；最后确定单元703根据各帧采样视频帧的参考标签信息，确定待处理视频的与目标场景相关联的目标标签信息。采用此方式，可以实现确定视频标签信息的自动化及智能化，从而有效提高确定视频标签信息的效率。

基于上述方法以及装置实施例，本申请实施例提供了一种计算机设备，计计算机设备可以是图1示出的服务器103。参见图8，为本申请实施例提供的一种计算机设备的结构示意图。图8所示的计算机设备800至少包括处理器801、输入接口802、输出接口803、计算机存储介质804以及存储器805。其中，处理器801、输入接口802、输出接口803、计算机存储介质804以及存储器805可通过总线或其他方式连接。

计算机存储介质804可以存储在计算机设备800的存储器805中，所述计算机存储介质804用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit，中央处理器))是计算机设备800的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备800中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备800中的内置存储介质，当然也可以包括计算机设备800支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备800的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，所述计算机存储介质可由处理器801加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2以及图3所示的数据处理方法的相应步骤。具体实现中，计算机存储介质中的一条或多条指令由处理器801加载并执行如下步骤：

在一种可能的实现方式中，所述处理器801根据所述待识别区域图像确定所述参考采样视频帧与所述目标场景相关联的参考标签信息，包括：

在一种可能的实现方式中，所述处理器801对所述图标区域图像进行图标识别，包括：

根据所述图标分类结果确定识别出的图标对象；

在一种可能的实现方式中，所述处理器801，还用于：

从图像数据库中获取与所述目标场景相关联的参考图标图像，所述图像数据库中包括的与所述目标场景相关联的图标图像，是从与所述目标场景相关联的视频中的图像帧中获取的；

在一种可能的实现方式中，所述处理器801根据预处理后的参考图标图像确定样本图标图像，包括：

在一种可能的实现方式中，所述参考标签信息包括所述第一标签信息，所述第一标签信息包括参与对象标签；所述处理器801根据所述一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定所述待处理视频的与所述目标场景相关联的目标标签信息，包括：

在一种可能的实现方式中，所述处理器801按照采样规则对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧，包括：

本申请实施例中，处理器801首先获取与目标场景相关联的待处理视频，按照采样规则对待处理视频进行视频帧采样，得到一帧或多帧采样视频帧；然后针对任一帧采样视频帧，从该任一采样视频帧中提取待识别区域图像(包括目标文本对象所在显示区域的文本区域图像和/或目标图标对象所在显示区域的图标区域图像)，根据待识别区域图像确定该任一采样视频帧的与目标场景相关联的参考标签信息；最后根据各帧采样视频帧的参考标签信息，确定待处理视频的与目标场景相关联的目标标签信息。采用此方式，可以实现确定视频标签信息的自动化及智能化，从而有效提高确定视频标签信息的效率。

根据本申请的一个方面，本申请实施例还提供了一种计算机产品或计算机程序，该计算机产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。处理器801从计算机可读存储介质中读取该计算机指令，处理器801执行该计算机指令，使得计算机设备800执行图2、图4以及图5所示的数据处理方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别区域图像确定所述参考采样视频帧与所述目标场景相关联的参考标签信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述图标区域图像进行图标识别，包括：

根据所述图标分类结果确定识别出的图标对象；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据采用聚类算法对所述样本图标图像进行分类的结果生成所述样本图标图像的样本类别标签；

将所述样本图标图像和所述样本类别标签组成训练数据对，并根据所述训练数据对生成训练数据集。

5.根据权利要求4所述的方法，其特征在于，所述根据预处理后的参考图标图像确定样本图标图像，包括：

6.根据权利要求2-5任一项所述的方法，其特征在于，所述参考标签信息包括所述第一标签信息，所述第一标签信息包括参与对象标签；

所述根据所述一帧或多帧采样视频帧中各帧采样视频帧的参考标签信息，确定所述待处理视频的与所述目标场景相关联的目标标签信息，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述按照采样规则对所述待处理视频进行视频帧采样，得到一帧或多帧采样视频帧，包括：

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条计算机程序；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-7任一项所述的数据处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的数据处理方法。