CN117009577A

CN117009577A - 一种视频数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN117009577A
Application number: CN202210857822.6A
Authority: CN
Inventors: 侯璐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2023-11-07

Abstract

本发明公开了一种视频数据处理方法、装置、设备及可读存储介质，该方法包括：获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；对业务需求脚本信息进行文本标签提取处理，得到业务属性统计标签和业务语义特征标签；对视频资源进行视频资源预处理，得到视频资源属性统计标签；对视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；若业务属性统计标签和视频资源属性统计标签匹配，则根据业务语义特征标签和图像内容特征标签确定视频资源针对业务需求脚本信息的匹配结果。采用本发明，可以降低对视频资源审核的成本与耗时。

Description

一种视频数据处理方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频数据处理方法、装置、设备及可读存储介质。

背景技术

创意定制视频是最近几年互联网的一种新玩法，其特点是在视频需求方没有创意、素材的情况下，定制服务方负责撮合创意供应方产出对应的创意定制视频，即视频需求方给出文本形式的业务需求脚本，创意供应方根据业务需求脚本来拍摄创意定制视频。

定制服务方提供的平台是公开的，因此一个视频需求方发布的业务需求脚本可能会有数百上千甚至更多的创意供应方响应，而部分创意供应方上传的创意定制视频可能与业务需求脚本并不匹配，为了节省视频需求方的时间，给其更好的服务，定制服务方就需要先对创意定制视频进行审核，剔除与业务需求脚本不匹配的创意定制视频。业内大多采用人工审核的方式，要求审核员既要了解视频需求方诉求，又要能看懂创意定制视频的内容，即耗力又耗时，且容易出现漏判、误判的情况。

发明内容

本申请实施例提供了一种视频数据处理方法、装置、设备及可读存储介质，可以降低对视频资源审核的成本与耗时。

本申请实施例一方面提供了一种视频数据处理方法，包括：

获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；视频资源是通过响应业务需求脚本信息所上传的资源；

对业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；业务脚本标签包括业务属性统计标签和业务语义特征标签；

对视频资源进行视频资源预处理，得到视频资源属性统计标签；

对视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；

若业务属性统计标签和视频资源属性统计标签匹配，则根据业务语义特征标签和图像内容特征标签确定视频资源针对业务需求脚本信息的匹配结果。

本申请实施例一方面提供了一种视频数据处理装置，包括：

获取模块，用于获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；视频资源是通过响应业务需求脚本信息所上传的资源；

第一提取模块，用于对业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；业务脚本标签包括业务属性统计标签和业务语义特征标签；

视频预处理模块，用于对视频资源进行视频资源预处理，得到视频资源属性统计标签；

第二提取模块，用于对视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；

第一匹配模块，用于若业务属性统计标签和视频资源属性统计标签匹配，则根据业务语义特征标签和图像内容特征标签确定视频资源针对业务需求脚本信息的匹配结果。

其中，业务需求脚本信息包括业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息；

第一提取模块，包括：

第一处理单元，用于对业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息进行结构化属性统计处理，得到业务属性统计标签；

第二处理单元，用于对业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签；

第三处理单元，用于对业务需求脚本关键词与标签库中的标签进行匹配，将与业务需求脚本关键词匹配的标签作为第二语义特征标签；

第四处理单元，用于将第一语义特征标签和第二语义特征标签作为业务语义特征标签。

其中，第二处理单元，包括：

分词子单元，用于对业务需求场景描述文本进行分词处理，得到待处理单词集；待处理单词集包括一个或多个待处理单词；

模型调用子单元，用于调用文本语义特征提取模型对待处理单词集进行非结构化语义特征提取处理，得到第一语义特征标签。

其中，文本语义特征提取模型包括第一嵌入层、记忆网络层和归一化分类层；模型调用子单元具体还用于调用第一嵌入层对每个待处理单词进行嵌入特征处理，得到每个待处理单词分别对应的单词嵌入向量；识别每个待处理单词在待处理单词集中的排序位置，调用记忆网络层按照排序位置对每个待处理单词分别对应的单词嵌入向量进行隐层特征表示处理，得到待处理单词集对应的隐层表示向量；调用归一化分类层对隐层表示向量进行归一化处理，得到待处理单词对应的文本标签预测分布，根据文本标签预测分布确定业务需求场景描述文本对应的第一语义特征标签；文本标签预测分布包含有业务需求场景描述文本与标签库中的每个标签分别匹配的概率值。

其中，第三处理单元，包括：

单词表示子单元，用于对业务需求脚本关键词进行单词表示处理，得到业务需求脚本关键词对应的单词表示向量；

标签确定子单元，用于获取标签库中每个标签分别对应的标签表示向量，确定单词表示向量分别与每个标签表示向量之间的向量距离；

标签确定子单元，具体还用于将向量距离最小的标签作为第二语义特征标签。

其中，至少两个关键帧图像包括关键帧图像M_i，i为小于或等于至少两个关键帧图像的总数量的正整数；

第二提取模块，包括：

图像表示单元，用于对关键帧图像M_i进行矩阵表示处理，得到针对关键帧图像M_i的图像表示矩阵；

标签提取单元，用于调用图像内容特征提取模型对关键帧图像M_i的图像表示矩阵进行图像标签提取处理，得到关键帧图像M_i对应的单图像内容特征标签；

标签确定单元，用于将至少两个关键帧图像分别对应的单图像内容特征标签，作为图像内容特征标签。

其中，图像内容特征提取模型包括第二嵌入层、编码层、解码层以及前馈神经网络分类层；

标签提取单元，包括：

嵌入子单元，用于调用第二嵌入层对关键帧图像M_i的图像表示矩阵进行卷积向量表示处理，得到图像表示向量；

编码子单元，用于调用编码层对图像表示向量进行编码处理，得到图像编码表示向量；

解码子单元，用于调用解码层对图像编码向量进行解码处理，得到图像解码表示向量；

分类子单元，用于调用前馈神经网络分类层对图像解码表示向量进行分类处理，得到关键帧图像M_i对应的图像标签预测分布，根据图像标签预测分布确定关键帧图像M_i对应的单图像内容特征标签；图像标签预测分布包含有关键帧图像M_i与标签库中的每个标签分别匹配的概率值。

其中，业务属性统计标签包括S个业务属性统计子标签；S为正整数；

上述视频数据处理装置，还包括：

第二匹配模块，用于遍历S个业务属性统计子标签，顺序获取第k个业务属性统计子标签；k为小于或等于S的正整数；

第二匹配模块，还用于若视频资源属性统计标签中不存在目标属性统计标签，则确定业务属性统计标签和视频资源属性统计标签不匹配；目标属性统计标签是指与第k个业务属性统计子标签对应的属性类型相同的标签；

第二匹配模块，还用于若视频资源属性统计标签中存在目标属性统计标签，且第k个业务属性统计子标签与目标属性统计标签不相同，则确定业务属性统计标签和视频资源属性统计标签不匹配；

第二匹配模块，还用于若视频资源属性统计标签中存在目标属性统计标签，且第k个业务属性统计子标签与目标属性统计标签相同，则确定第k个业务属性统计子标签与视频资源属性统计标签相匹配；

第二匹配模块，还用于若每个业务属性统计子标签均与视频资源属性统计标签相匹配，则确定业务属性统计标签和视频资源属性统计标签匹配。

其中，第一匹配模块，包括：

第一系数确定单元，用于根据业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签，确定关键帧图像M_i对应的图像标签重复系数；

第二系数确定单元，用于对至少两个关键帧图像分别对应的图像标签重复系数进行平均处理，得到视频资源对应的资源标签重复系数；

匹配单元，用于若资源标签重复系数小于资源标签重复阈值，则确定视频资源针对业务需求脚本信息的匹配结果为匹配失败结果；

匹配单元，还用于若资源标签重复系数大于或等于资源标签重复阈值，则确定视频资源针对业务需求脚本信息的匹配结果为匹配成功结果。

其中，第一系数确定单元，包括：

标签分类子单元，用于将业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签中相同的标签，作为关键帧图像M_i对应的交集标签；

标签分类子单元，还用于将业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签进行去重处理，得到关键帧图像M_i对应的并集标签；

系数计算子单元，用于将关键帧图像M_i对应的交集标签的总数量与关键帧图像M_i对应的并集标签的总数量相除，得到关键帧图像M_i对应的图像标签重复系数。

其中，上述视频数据处理装置，还包括：

显示模块，用于若视频资源针对业务需求脚本信息的匹配结果为匹配成功结果，则在沉浸式审核工作台中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签；沉浸式审核工作台用于审核对象确定视频资源的审核结果。

其中，显示模块，包括：

预处理单元，用于在关键帧图像M_i对应的单图像内容特征标签中，将与关键帧图像M_i对应的交集标签不相同的标签，作为关键帧图像M_i对应的不匹配标签；

预处理单元，还用于根据关键帧图像M_i在视频资源中的播放时间节点确定关键帧图像M_i在至少两个关键帧图像中的展示顺序；

图像显示单元，用于根据展示顺序在沉浸式审核工作台中显示关键帧图像M_i；

标签显示单元，用于在关键帧图像M_i对应的文字显示区域，以第一样式显示关键帧图像M_i对应的交集标签，以第二样式显示关键帧图像M_i对应的不匹配标签。

其中，显示模块，包括：

显示区域确定单元，用于根据至少两个关键帧图像分别对应的图像尺寸大小以及至少两个关键帧图像的总数量，确定视频资源对应的区域尺寸大小；

显示区域确定单元，还用于确定沉浸式审核工作台中的可用显示区域，在可用显示区域中为视频资源分配区域尺寸大小对应的动态显示区域；

显示区域确定单元，还用于在动态显示区域中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信网元，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

本申请实施例在获取第一对象所录入的业务需求脚本信息，以及第二对象响应该业务需求脚本信息所上传的视频资源后，可以对该业务需求脚本信息进行文本标签提取处理，得到业务脚本标签，其中，业务脚本标签包括业务属性统计标签和业务语义特征标签；同时可以对视频资源进行视频资源预处理，得到视频资源属性统计标签，再对视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；最后若业务属性统计标签和视频资源属性统计标签匹配，则根据业务语义特征标签和图像内容特征标签确定视频资源针对业务需求脚本信息的匹配结果。采用本申请实施例提供的方法，首先根据业务属性统计标签和视频资源属性统计标签确定业务需求脚本信息和视频资源的属性是否匹配，若二者属性匹配成功，可以根据业务语义特征标签和图像内容特征标签确定业务需求脚本信息的语义与视频资源的内容是否匹配，上述过程无需人工参与，可以减少确定视频资源针对业务需求脚本信息的匹配结果的成本与耗时，此外，业务语义特征标签的提取以及图像内容特征标签的提取过程统一且标准化，可以保证提取的一致性与准确性，从而可以降低漏判、误判的概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构示意图；

图2是本申请实施例提供的一种视频数据处理方法的应用场景示意图；

图3是本申请实施例提供的一种视频数据处理方法的流程示意图；

图4是本申请实施例提供的一种文本语义特征提取方法的流程示意图；

图5是本申请实施例提供的一种文本语义特征提取模型的结构示意图；

图6是本申请实施例提供的一种图像内容特征提取方法的流程示意图；

图7是本申请实施例提供的一种图像内容特征提取模型的结构示意图；

图8是本申请实施例提供的一种视频数据处理方法的流程示意图；

图9是本申请实施例提供的一种沉浸式审核工作台的示意图；

图10是本申请实施例提供的一种视频数据处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉、自然语言处理等技术，具体通过如下实施例进行说明:

请先参见图1，图1是本申请实施例提供的一种网络架构示意图。如图1所示，该网络架构可以包括后台服务器100以及终端设备集群，该终端设备集群可以包括终端设备10a、终端设备10b、终端设备10c…、终端设备10n，其中，终端设备集群中的任一终端设备可以与后台服务器100之间存在通信连接，例如终端设备10a与后台服务器100之间存在通信连接，终端设备10b与后台服务器100之间存在通信连接，终端设备10c与后台服务器100之间存在通信连接，其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应当理解，如图1所示的终端设备集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的后台服务器100之间进行数据交互。其中，该应用客户端可以为游戏应用、视频编辑应用、社交应用、即时通信应用、直播应用、短视频应用、视频应用、音乐应用、购物应用、小说应用、支付应用、浏览器等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如即时通信客户端、社交客户端、视频客户端等)中的嵌入式子客户端，在此不做限定。

如图1所示，终端设备集群中的任一终端设备关联的第一对象可以通过运行该应用客户端，向后台服务器100发送携带业务需求脚本信息的视频资源定制请求，后台服务器100可以响应该视频资源定制请求，获取该业务需求脚本信息，并将该业务需求脚本信息推送至上述终端设备集群中的每个终端设备的应用客户端进行显示。其中，业务需求脚本信息用于描述第一对象希望定制的视频资源的属性、场景以及剧情等。其中，视频资源可以是指以视频的形式向对象传播商品或服务信息的资源。上述终端设备集群中的任一终端设备关联的第二对象，可以通过运行该应用客户端，响应该业务需求脚本信息，上传对应的视频资源至后台服务器100，再由后台服务器100发送至第一对象关联的终端设备。可以理解，第一对象发布的一个业务需求脚本信息可能有多个第二对象进行响应，第一对象可以接收到多个视频资源，但第一对象最终可能只会在接收到的多个视频资源中选择一个或者部分视频资源来进行推广。在第一对象接收到的视频资源中，很有可能出现与业务需求脚本信息不匹配的视频资源，如果不对视频资源先进行匹配筛选，第一对象在选择用于推广的视频资源时就会浪费很多时间。因此，后台服务器100在接收到与第一对象所录入的业务需求脚本信息对应的视频资源后，可以先确定视频资源针对该业务需求脚本信息的匹配结果，如果视频资源针对该业务需求脚本信息的匹配结果为匹配失败结果，后台服务器100可以直接过滤掉该视频资源，无需推送至第一对象关联的终端设备，也就节省了第一对象对与业务需求脚本信息不匹配的视频资源的浏览时间。

后台服务器100在获取到第一对象所录入的业务需求脚本信息，以及第二对象所上传的视频资源后，可以对业务需求脚本信息进行文本标签提取处理，得到业务脚本标签，其中，业务脚本标签包括业务属性统计标签和业务语义特征标签；然后对视频资源进行视频资源预处理，得到视频资源属性统计标签，并对视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，再对至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；若业务属性统计标签和视频资源属性统计标签匹配，后台服务器100则可以根据业务语义特征标签和图像内容特征标签确定视频资源针对业务需求脚本信息的匹配结果。

为便于理解上述过程，请一并参见图2，图2是本申请实施例提供的一种视频数据处理方法的应用场景示意图。其中，如图2所示的终端设备20a或终端设备20b可以为上述图1所示的终端设备集群中的任一终端设备，如，终端设备20a可以为终端设备10a，终端设备20b可以为终端设备10b；如图2所示的后台服务器200可以为上述图2所示的后台服务器100。

如图2所示，终端设备20a和终端设备20b中均集成安装有资源定制应用21，其中，资源定制应用21用于为对象提供视频资源定制功能，没有视频资源创作创意的第一对象可以通过资源定制应用21发起视频资源定制请求，而具有视频资源创作创意的第二对象可以通过资源定制应用21响应视频资源定制请求上传视频资源。假设与终端设备20a具有关联关系的对象A想要推广理财产品C，但是对象A不知道如何拍摄合适的视频资源，对象A就可以通过终端设备20a中运行的资源定制应用21录入业务需求脚本信息22，其中，该业务需求脚本信息22用于描述对象A希望定制的视频资源的属性、场景以及剧情等，业务需求脚本信息22可以包括业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息，其中，业务需求场景描述文本用于简单描述对象A希望定制的视频资源的场景或者剧情等，例如，业务需求场景描述文本可以为：“两女一男讨论理财手段，三人均为都市白领，男女穿着都为正装，形象好，气质佳，男的跟两位女性分享自己的理财经验，获取免费理财方案的途径，同时描述自己的理财收益”；业务需求脚本关键词用于概括描述对象A希望定制的视频资源的类型与特点等，例如，业务需求脚本关键词可以为：“白领，免费，理财，收益，现代，气质，形象，大都市”；业务需求脚本基础信息用于描述对象A希望定制的视频资源的基础信息，例如，业务需求脚本基础信息可以包含有角色数量，视频时长等等。对象A录入业务需求脚本信息22后，终端设备20a会将携带该业务需求脚本信息22的视频资源定制请求发送至后台服务器200。后台服务器200可以将该业务需求脚本信息22下发至其他集成安装有资源定制应用21的终端设备，假设与终端设备20b具有关联关系的对象B，通过终端设备20b中运行的资源定制应用21看见了业务需求脚本信息22，对象B可以根据业务需求脚本信息22拍摄视频资源23，并通过终端设备20b中运行的资源定制应用21上传视频资源23，终端设备20b会将视频资源23发送至后台服务器200。

应当理解，对象A希望定制的视频资源自然应该与业务需求脚本信息22匹配，但是很难避免响应业务需求脚本信息22所上传的视频资源中，出现与业务需求脚本信息22不匹配的视频资源，如果后台服务器22将接收到的所有与业务需求脚本信息22关联的视频资源直接推送至终端设备20a，对象A将需要花费大量的时间与精力去筛选合适的视频资源。因此，后台服务器200可以先确定接收到的视频资源针对关联的业务需求脚本信息的匹配结果。

如图2所示，后台服务器200会获取业务需求脚本信息22，然后对业务需求脚本信息22进行文本标签提取处理，得到业务属性统计标签241和业务语义特征标签244。其中，如图2所示，后台服务器200对业务需求脚本信息22进行文本标签提取处理，得到业务属性统计标签241和业务语义特征标签244的一个具体过程，可以为：后台服务器200对业务需求脚本信息22进行结构化属性统计处理，得到业务属性统计标签241，其中，业务属性统计标签241是用于描述希望定制的视频资源的属性信息的标签，例如，时长标签、角色数量标签等等；后台服务器200可以调用文本语义特征模型201，对业务需求脚本信息22中包含的业务需求场景描述文本进行非结构化语义特征提取处理，得到用于描述业务需求场景描述文本的语义特征的第一语义特征标签242；此外，后台服务器200可以对业务需求脚本信息22中包含的业务需求脚本关键词与标签库中的标签进行匹配，将与业务需求脚本关键词匹配的标签作为第二语义特征标签243，后台服务器200将第一语义特征标签242与第二语义特征标签243进行去重汇总处理，就得到业务语义特征标签244。

如图2所示，后台服务器200在获取到视频资源23后，需要先对视频资源23进行视频预处理，即对视频资源23进行数据读取与解析处理，得到视频资源23对应的视频资源属性统计标签261，即用于描述视频资源23的属性信息的标签。在视频预处理结束后，后台服务器200可以对标注格式下的视频资源23进行关键帧图像提取处理，得到视频资源23在关键帧(例如，转场帧、时间帧等等)时对应的图像，假设得到关键帧图像25a、…、关键帧图像25n。后台服务器200可以调用图像内容特征提取模型202分别对关键帧图像25a、…、关键帧图像25n进行图像标签提取处理，得到关键帧图像25a对应的单图像内容特征标签262a、…、关键帧图像25n对应的单图像内容特征标签262n。

如图2所示，后台服务器会先根据业务属性统计标签241和视频资源属性统计标签261进行属性匹配，即确定视频资源23的属性与业务需求脚本信息22所希望的视频资源的属性是否相同，如果后台服务器200确定属性匹配成功，则可以进一步根据业务语义特征标签244和图像内容特征标签(即上述单图像内容特征标签262a、…、单图像内容特征标签262n)进行特征匹配，即确定二者之间的标签重复率，当标签重复率高于规定阈值时，后台服务器200可以确定视频资源23针对业务需求脚本信息22的匹配结果为匹配成功结果，此时后台服务器200可以将视频资源23发送至终端设备20a，否则为匹配失败结果，后台服务器200可以过滤掉视频资源23，并向终端设备20b下发匹配失败的通知信息。

可选的，若终端设备20a的本地存储有文本语义特征模型201和图像内容特征提取模型202，则确定视频资源23针对业务需求脚本信息22的匹配结果的过程可以在终端设备20a中执行。其中，由于文本语义特征模型201和图像内容特征提取模型202的训练涉及到大量的离线计算，因此，文本语义特征模型201和图像内容特征提取模型202可以是由后台服务器200训练完成后发送至终端设备20a的。

可以理解的是，本申请实施例所提供的视频数据处理方法可以由计算机设备执行，计算机设备包括但不限于上述后台服务器100或者终端设备集群中的终端设备。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端等，但并不局限于此。

可以理解的是，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

可以理解的是，在本申请的具体实施方式中，涉及到的业务需求脚本信息、视频资源等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

进一步地，请参见图3，图3是本申请实施例提供的一种视频数据处理方法的流程示意图。其中，该方法可以由计算机设备执行，其中，计算机设备可以为上述图1所示的后台服务器100，也可以为上述图1所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本方法由计算机设备执行为例进行说明，其中，该视频数据处理方法至少可以包括以下步骤S101-步骤S105：

步骤S101，获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；所述视频资源是通过响应所述业务需求脚本信息所上传的资源。

具体的，第一对象可以认为是素材需求方，即需要定制视频资源的对象；第二对象可以认为是素材供给方，即给第一对象提供视频资源的对象。

具体的，第一对象可以通过关联的终端设备录入业务需求脚本信息，该终端设备中可以包含有脚本录入模块，其中，该脚本录入模块包含有基础信息录入器、场景描述录入器和关键词录入器，其中，基础信息录入器可以用于响应第一对象的输入操作生成业务需求脚本基础信息；场景描述录入器用于响应第一对象的输入操作生成业务需求场景描述文本；关键词录入器用于响应第一对象的输入操作生成业务需求脚本关键词。然后与第一对象关联的终端设备会将业务需求脚本基础信息、业务需求场景描述文本以及业务需求脚本关键词作为业务需求脚本信息，并将该业务需求脚本信息发送至计算机设备。计算机设备中可以先将业务需求脚本信息存储进脚本存储模块，然后等待第二对象响应该业务需求脚本信息所上传的视频资源。其中，脚本存储模块中可以存储多个第一对象上传的业务需求脚本信息。

具体的，第二对象可以通过关联的终端设备录入视频资源，该终端设备中可以包含有视频录入模块，其中，该视频录入模块可以包含有视频上传器和视频压缩/转码器，其中，视频上传器可以提供视频资源上传功能；视频压缩/转码器用于对第二对象上传的初始视频资源进行压缩转码，得到标准播放格式的视频资源。然后，与第二对象关联的终端设备会将视频资源上传至计算机设备，计算机设备会将视频资源存储进视频存储模块。其中，视频存储模块中可以存储多个响应不同业务需求脚本信息上传的视频资源。

具体的，计算机设备可以按照固定频率对脚本存储模块中的业务需求脚本信息和视频资源存储模块中的视频资源进行初步关联匹配，即将一个业务需求脚本信息与响应该业务需求脚本信息所上传的视频资源关联存入素材存储模块中，然后等待进行匹配。因此，计算机设备可以在素材存储模块中获取第一对象所录入的业务需求脚本信息，并同时获取第二对象所上传的视频资源。

步骤S102，对所述业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；所述业务脚本标签包括业务属性统计标签和业务语义特征标签。

具体的，上述步骤S101可知，业务需求脚本信息中可以包括业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息，此时对业务需求脚本信息进行文本标签提取处理，得到业务脚本标签的一个可行实施过程，可以为：对业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息进行结构化属性统计处理，得到业务属性统计标签；对业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签；对业务需求脚本关键词与标签库中的标签进行匹配，将与业务需求脚本关键词匹配的标签作为第二语义特征标签；将第一语义特征标签和第二语义特征标签作为业务语义特征标签。

具体的，业务属性统计标签是用于描述与业务需求脚本信息匹配的视频资源的属性信息的标签，业务属性统计标签的属性类型可以为视频时长、角色数量等等。计算机设备进行结构化属性统计处理时需要统计的业务属性统计标签的属性类型可以提前设置，然后根据设置的属性类型去对业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息进行结构化数据搜索和统计，从而确定设置的属性类型对应的业务属统计标签。

具体的，业务需求场景描述文本通常是句子文本，且通常是非结构化的句子文本，因此需要对其进行非结构化语义特征提取处理，从而得到能够概括描述其语义特征的第一语义特征标签。而业务需求脚本关键词本质上就是用于描述业务需求场景描述文本语义特征的单词，不过业务需求脚本关键词并不一定是存储在标签库中的标签，因此可以将标签库中与业务需求脚本关键词匹配的标签作为第二语义特征标签。其中，标签库中的标签是基于大量的样本业务需求脚本信息的训练得到的标准单词，第一语义特征标签实际上也是标签库中的标签。

具体的，上述对业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签的一个可行实施过程，可以为：对业务需求场景描述文本进行分词处理，得到待处理单词集；其中，待处理单词集包括一个或多个待处理单词；然后调用文本语义特征提取模型对待处理单词集进行非结构化语义特征提取处理，得到第一语义特征标签。其中，业务需求场景描述文本即句子文本，可以理解为是由一个或多个单词所组成的序列，每一个单词是组成句子文本的基本单位，则对于句子文本而言，每一个单词的语义信息十分重要，分词处理的过程就是将连续的字序列按照一定的规范重新组合成词序列的过程，可以采用基于规则的分词方法来对业务需求场景描述文本进行分词，主要是事先建立好词库也叫做词典或者单词字典，通过词典匹配的方式对其进行划分；也可以采用分词工具对业务需求场景描述文本进行分词，或者其他方式，这里不做限定。其中，文本语义特征模型可以是基于业务需求场景描述样本和可以进行文本语义特征提取的初始文本模型训练得到的。其中，初始文本模型可以选择LSTM(Long-Short Term Memory，长短期记忆神经网络)模型，LSTM模型是一种特殊的循环神经网络，可以有效建模文本的上下文依赖信息。

步骤S103，对所述视频资源进行视频资源预处理，得到视频资源属性统计标签。

具体的，视频资源属性统计标签是用于描述视频资源的属性信息的标签，计算机设备可以对视频资源进行结构化数据读取与解析处理，然后根据事先设置的属性类型确定对应的视频资源属性统计标签。视频资源属性统计标签的属性类型应当和上述业务属性统计标签相同，即也可以为视频时长、角色数量等等。同一属性类型对应的视频资源属性统计标签和业务属性统计标签相同时，说明视频资源属性统计标签和业务属性统计标签匹配，代表此时视频资源的属性信息是符合要求的，可以对视频资源进行特征匹配，从而确定视频资源针对业务需求脚本信息的匹配结果。

可选的，计算机设备确定视频资源属性统计标签与上述业务属统计标签是否匹配的一个可行实施过程，可以为：假设匹配业务属性统计标签包括S个业务属性统计子标签，S为正整数；计算机设备可以遍历S个业务属性统计子标签，顺序获取第k个业务属性统计子标签，其中，k为小于或等于S的正整数；若视频资源属性统计标签中不存在目标属性统计标签，则确定业务属性统计标签和视频资源属性统计标签不匹配，其中，目标属性统计标签是指与第k个业务属性统计子标签对应的属性类型相同的标签；若视频资源属性统计标签中存在目标属性统计标签，且第k个业务属性统计子标签与目标属性统计标签不相同，则确定业务属性统计标签和视频资源属性统计标签不匹配；若视频资源属性统计标签中存在目标属性统计标签，且第k个业务属性统计子标签与目标属性统计标签相同，则确定第k个业务属性统计子标签与视频资源属性统计标签相匹配；若每个业务属性统计子标签均与视频资源属性统计标签相匹配，则确定业务属性统计标签和视频资源属性统计标签匹配。简言之，假设业务属性统计标签对应的属性类型包含有视频时长、角色数量和场景类型，则视频资源属性统计标签对应的属性类型也应该包含有视频时长、角色数量和场景类型，且相同属性类型的业务属性统计标签和视频资源属性统计标签相同，例如，属性类型为视频时长的业务属性统计标签和属性类型为视频时长的视频资源属性统计标签相同，说明视频资源的时长与业务需求脚本信息中要求的时长一致，该类属性符合要求。

步骤S104，对所述视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对所述至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签。

具体的，计算机设备在对视频资源进行关键帧图像提取处理，可以是对视频资源进行关键帧的裁剪，获取转场帧、时间帧等关键帧，然后再获取关键帧对应的图像，就可以得到至少两个关键帧图像。

具体的，假设至少两个关键帧图像包括关键帧图像M_i，i为小于或等于至少两个关键帧图像的总数量的正整数，对关键帧图像M_i进行图像标签提取处理，可以得到关键帧图像M_i对应的单图像内容特征标签。在得到每个关键帧图像对应的单图像内容特征标签后，就可以将每个关键帧图像分别对应的单图像内容特征标签，均作为图像内容特征标签。其中，单图像内容特征标签用于描述图像的内容特征，例如，一个关键帧图像对应的单图像内容特征标签可以为理财、直播、商业。

具体的，对关键帧图像M_i进行图像标签提取处理的一个可行实现过程，可以为：对关键帧图像M_i进行矩阵表示处理，得到针对关键帧图像M_i的图像表示矩阵，然后调用图像内容特征提取模型对关键帧图像M_i的图像表示矩阵进行图像标签提取处理，得到关键帧图像M_i对应的单图像内容特征标签。其中，矩阵表示处理是指将关键帧图像M_i转换为矩阵来表示，应当理解，计算机是无法识别图像的，因此需要先将图像转换为计算机可以读懂的形式，而计算机适合处理的是矩阵运算，所以可以将关键帧图像M_i转换成矩阵表示，因为所有的图像都由红绿蓝(RGB)叠加而成，即图像中的每个像素可以通过RGB来表示，例如，白色可以表示成RGB(255，255，255)，一张图像就可以通过RGB三矩阵来描述，因此，关键帧图像M_i对应的图像表示矩阵就可以是关键帧图像M_i对应的RGB三矩阵。其中，图像内容特征提取模型可以是基于关键帧图像样本和可以进行图像内容特征识别与提取的初始图像模型训练得到的。其中，初始图像模型可以选择DETR(DEtection Transformer，一种基于transformer(一种神经网络)的目标检测方法)模型，可以实现单图像内容特征标签的识别与提取。

步骤S105，若所述业务属性统计标签和所述视频资源属性统计标签匹配，则根据所述业务语义特征标签和所述图像内容特征标签确定所述视频资源针对所述业务需求脚本信息的匹配结果。

具体的，根据所述业务语义特征标签和所述关键帧图像M_i对应的单图像内容特征标签，确定所述关键帧图像M_i对应的图像标签重复系数；对所述至少两个关键帧图像分别对应的图像标签重复系数进行平均处理，得到所述视频资源对应的资源标签重复系数；若所述资源标签重复系数小于资源标签重复阈值，则确定所述视频资源针对所述业务需求脚本信息的匹配结果为匹配失败结果；若所述资源标签重复系数大于或等于资源标签重复阈值，则确定所述视频资源针对所述业务需求脚本信息的匹配结果为匹配成功结果。其中，图像标签重复系数可以选择Jacard(杰卡德)相似度，Jacard相似度又称为Jaccard相似系数，用于比较有限样本集之间的相似性与差异性，Jaccard系数值越大，样本相似度越高。其中，资源标签重复系数其实就是平均图像标签重复系数。

具体的，若图像标签重复系数为Jaccard相似系数，则根据业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签确定关键帧图像M_i对应的图像标签重复系数的一个可行实施过程，可以为：将业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签中相同的标签，作为关键帧图像M_i对应的交集标签；将业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签进行去重处理，得到关键帧图像M_i对应的并集标签；将关键帧图像M_i对应的交集标签的总数量与关键帧图像M_i对应的并集标签的总数量相除，得到关键帧图像M_i对应的图像标签重复系数。上述图像标签重复系数的确定过程可以基于下述公式(1)来表示：

其中，J(A,B)为关键帧图像M_i对应的图像标签重复系数，A为业务语义特征标签，B为关键帧图像M_i对应的单图像内容特征标签。

采用本申请实施例提供的方法，首先根据业务属性统计标签和视频资源属性统计标签确定业务需求脚本信息和视频资源的属性是否匹配，若二者属性匹配成功，可以根据业务语义特征标签和图像内容特征标签确定业务需求脚本信息的语义与视频资源的内容是否匹配，上述过程无需人工参与，可以减少确定视频资源针对业务需求脚本信息的匹配结果的成本与耗时，此外，业务语义特征标签的提取以及图像内容特征标签的提取过程统一且标准化，可以保证提取的一致性与准确性，从而可以降低漏判、误判的概率。

进一步的，上述步骤S102中所述的文本语义特征提取模型可以包括第一嵌入层、记忆网络层和归一化分类层，此时计算机设备可以通过文本语义特征提取模型的第一嵌入层、记忆网络层和归一化分类层对上述业务需求场景描述文本进行非结构化语义特征提取处理，从而得到第一语义特征。为便于理解，请参见图4，图4是本申请实施例提供的一种文本语义特征提取方法的流程示意图。其中，该方法是上述步骤S102中所述的对业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签的一个具体实施方法，该方法可以由计算机设备执行，其中，计算机设备可以为上述图1所示的后台服务器100，也可以为上述图1所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本方法由计算机设备执行为例进行说明，其中，该文本语义特征提取方法至少可以包括以下步骤S201-步骤S204：

步骤S201，对所述业务需求场景描述文本进行分词处理，得到待处理单词集；所述待处理单词集包括一个或多个待处理单词。

具体的，步骤S201的实现过程可以参见上述步骤S102的描述，这里不再进行赘述。

步骤S202，调用文本语义特征提取模型的第一嵌入层对每个待处理单词进行嵌入特征处理，得到所述每个待处理单词分别对应的单词嵌入向量。

具体的，第一嵌入层即embedding层，计算机设备中存储有一个语料库，embedding层可以根据待处理单词在语料库中的索引来生成待处理单词对应的单词嵌入向量。其中，该单词嵌入向量的维度可以根据实际情况来设置，通常取1024维。

步骤S203，识别所述每个待处理单词在所述待处理单词集中的排序位置，调用所述文本语义特征提取模型的记忆网络层按照所述排序位置对所述每个待处理单词分别对应的单词嵌入向量进行隐层特征表示处理，得到所述待处理单词集对应的隐层表示向量。

具体的，记忆网络层中包含有Z个记忆单元，其中，Z为大于或等于待处理单词的数量的正整数；计算机单词会根据待处理单词在待处理单词集中的排序位置，依次将待处理单词对应的单词嵌入向量输入进不同的记忆单元中，即待处理单词集中的第一个待处理单词对应的单词嵌入向量输入进第一个记忆单元中，第二个待处理单词对应的单词嵌入向量输入进第二个记忆单元中，以此类推，直至待处理单词集中的所有待处理单词均输入进记忆单元中。每个记忆单元均可以将输入的单词嵌入向量与前一记忆单元输出的隐层向量进行拼接，得到待处理向量，然后对待处理向量进行一次门变换，即通过事先构造的长短期周期门函数对待处理向量进行计算，然后得到输出的隐层向量。需要说明的是，第一个记忆单元没有前一个记忆单元，因此会将输入的单词嵌入向量与和其同维度的0向量进行拼接，得到待处理向量。待处理单词集中最后一个待处理单词输入的记忆单元即为尾部记忆单元，通过其输出的隐层向量可以确定待处理单词集对应的隐层表示向量。

步骤S204，调用所述文本语义特征提取模型的归一化分类层对所述隐层表示向量进行归一化处理，得到所述待处理单词对应的文本标签预测分布，根据所述文本标签预测分布确定所述业务需求场景描述文本对应的第一语义特征标签；所述文本标签预测分布包含有所述业务需求场景描述文本与所述标签库中的每个标签分别匹配的概率值。

具体的，因为文本标签预测分布包含有业务需求场景描述文本与标签库中的每个标签分别匹配的概率值，因此可以将概率值大于匹配阈值的标签作为业务需求场景描述文本对应的第一语义特征标签。

为便于理解，请一并参见图5，图5是本申请实施例提供的一种文本语义特征提取模型的结构示意图。如图5所示，文本语义特征提取模型5可以基于LSTM模型构建，文本语义特征提取模型5包括第一嵌入层51、记忆网络层52以及归一化层53。计算机设备会先将待处理单词集中的待处理单词按序输入第一嵌入层51即embedding层，如图5所示，计算机设备将单词1、单词2、…、单词t输入第一嵌入层51，第一嵌入层51会顺序输入单词嵌入向量x₁、单词嵌入向量x₂、…、单词嵌入向量x_t。其中，每个单词嵌入向量的维度是相同的，可以假设为1024维。然后，计算机设备会按序将单词嵌入向量x₁输入记忆网络层52中的记忆单元52a，将单词嵌入向量x₂输入记忆网络层52中的记忆单元52b，…，将单词嵌入向量x_t输入记忆网络层52中的记忆单元52t。如图5所示，每个记忆单元输出的隐层向量均会作为后一记忆单元的输入，并在后一记忆单元中与其输入的单词嵌入向量进行拼接，得到后一记忆单元的待处理向量。但是针对记忆单元52a，因为其是记忆网络层52中的第一个记忆单元，因此其会选择一个跟单词嵌入向量x₁维度相同的零向量，即一个1024维的0向量h₀与单词嵌入向量x₁进行拼接，得到一个2048维的待处理向量，随后，记忆单元52a可以对待处理向量进行门变换，得到1024维的隐层向量h₁，该隐层向量h₁会被输入进记忆单元52b中，与单词嵌入向量x₂进行拼接，…，以此类推，最终得到尾部记忆单元，也就是记忆单元52t输入的隐层向量h_t，根据该隐层向量h_t就可以确定待处理单词集对应的隐层表示向量y_t。

上述门变换其实是通过事先构造的长短期周期门函数对待处理向量进行计算，以记忆单元52t为例进行说明，记忆单元52t的输入是单词嵌入向量x_t和上一个记忆单元输出的隐层向量h_t-1。

因此，待处理向量可以记作将待处理向量分别经过四个隐层矩阵，以及四个门函数，就可以得到四个变量，具体实现可以参见如下的计算公式：

其中，z、zⁱ、z^f以及z^o即四个门变换过程中的变量，W、Wⁱ、W^f以及W^o为四个隐层矩阵，在得到四个变量后，对其做加法与乘法操作，就可以得到隐层向量h_t，进一步得到隐层表示向量y_t，具体实现可以参见下述公式：

c^t＝z^f⊙c^t-1+zⁱ⊙z 公式(6)

h_t＝z^otanh(^t) 公式(7)

y_t＝σ(W′h_t) 公式(8)

其中，W′也是一个隐层矩阵，c^t是一个中间变量，c^t-1可以在记忆单元52t的上一个记忆单元中确定。

如图5所示，将y_t送入归一化(Softmax)层，就可以映射到标签库维度并进行概率归一化，获得文本标签预测分布数学表示如下式所示：

根据就可以确定第一语义特征标签为标签1、标签2、…、标签n。

采用本申请实施例提供的方法，可以通过文本语义特征提取模型对业务需求场景描述文本进行快速的语义特征提取，可以加快提取时间与准确率。

进一步的，上述步骤S104中所述的图像内容特征提取模型可以包括第二嵌入层、编码层、解码层以及前馈神经网络分类层，此时计算机设备可以通过图像内容特征提取模型的第二嵌入层、编码层、解码层以及前馈神经网络分类层对每个关键帧图像进行图像标签提取处理，得到每个关键帧图像对应的单图像内容特征标签。为便于理解，请参见图6，图6是本申请实施例提供的一种图像内容特征提取方法的流程示意图。其中，该方法是上述步骤S104中所述的对关键帧图像M_i进行图像标签提取处理，得到关键帧图像M_i对应的单图像内容特征标签的一个具体实施方法，该方法可以由计算机设备执行，其中，计算机设备可以为上述图1所示的后台服务器100，也可以为上述图1所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本方法由计算机设备执行为例进行说明，其中，该文本语义特征提取方法至少可以包括以下步骤S301-步骤S303：

步骤S301，调用图像内容特征提取模型的第二嵌入层对所述关键帧图像M_i的图像表示矩阵进行卷积向量表示处理，得到图像表示向量。

具体的，第二嵌入层可以采用CNN(Convolutional Neural Networks，卷积神经网络)的backbone(支柱)结构，backbone结构可以理解为一个预处理器或者一个特征提取器。在采用backbone结构的第二嵌入层中，计算机设备会对关键帧图像M_i的图像表示矩阵进行CNN卷积，得到图像初始表示向量，随后，计算机设备可以在图像初始表示向量加入position encoding(位置编码)，即将图像初始表示向量与相同维度的位置编码相加，最终得到图像表示向量。为便于理解，请一并参见图7，图7是本申请实施例提供的一种图像内容特征提取模型的结构示意图。如图7所示，图像内容特征提取模型包括有第二嵌入层，在第二嵌入层中，计算机设备会对输入的图像表示矩阵71进行CNN卷积处理，得到图像初始表示向量72，随后，计算机设备会将位置编码与图像初始表示向量72相加，得到图像表示向量73。

步骤S302，调用所述图像内容特征提取模型的编码层对所述图像表示向量进行编码处理，得到图像编码表示向量；调用所述图像内容特征提取模型的解码层对所述图像编码向量进行解码处理，得到图像解码表示向量。

具体的，编码层和解码层是基于transformer的encoder(编码)-decoder(解码)框架设计的，encoder-decoder框架的作用，简单理解就是用于图像表示向量转换为另一种表现形式的图像解码表示向量，但其表示的语义特征或者内容特征是一致的。编码可以理解为大脑看见一幅图像，读取其信息的过程，而解码可以理解为大脑将信息读取还原成另外的图像的过程。

具体的，在编码层中，计算机设备可以对图像表示向量进行变α变换，即维度适配，将其转换为Q、K、V三个向量，然后再对Q、K、V三个向量进行迭代的加法和乘法计算，得到图像编码表示向量，该图像编码表示向量将输入进解码层，为便于理解，请再参见图7，如图7所示，图像表示向量73输入进编码层进行编码后，编码层会输出图像编码表示向量74，图像编码表示向量74会继续进入解码层。同时，计算机设备会向解码层输入n个(n为正整数)随机向量(object queries)，即随机向量75a，随机向量75b，…，随机向量75n。这n个向量是随机初始化然后训练得到的，每个随机向量均会携带某种信息，例如，随机向量75a可以携带有“图像左下角有什么物体”的信息，此时编码层就会基于随机向量75a携带的信息对图像编码表示向量74进行解码，从而得到对应的图像解码表示向量，该图像解码表示向量可以用于表示图像左下角的物体信息，随机向量的个数将决定编码层输出的图像解码表示向量的个数。

步骤S303，调用所述图像内容特征提取模型的前馈神经网络分类层对所述图像解码表示向量进行分类处理，得到所述关键帧图像M_i对应的图像标签预测分布，根据所述图像标签预测分布确定关键帧图像M_i对应的单图像内容特征标签；所述图像标签预测分布包含有所述关键帧图像M_i与标签库中的每个标签分别匹配的概率值。

具体的，一个图像解码表示向量输入进一个前馈神经网络分类层，可以输出对应的图像标签预测分布，基于该图像标签预测分布可以确定该图像解码表示向量对应的标签。所有图像解码表示向量对应的标签。即关键帧图像M_i对应的单图像内容特征标签。

采用本申请实施例提供的方法，可以对关键帧图像进行精准的图像内容特征提取，加快提取时间与准确率。

进一步地，请参见图8，图8是本申请实施例提供的一种视频数据处理方法的流程示意图。其中，该方法可以由计算机设备执行，其中，计算机设备可以为上述图1所示的后台服务器100，也可以为上述图1所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本方法由计算机设备执行为例进行说明，其中，该视频数据处理方法至少可以包括以下步骤S401-步骤S406：

步骤S401，获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；所述视频资源是通过响应所述业务需求脚本信息所上传的资源。

步骤S402，对所述业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；所述业务脚本标签包括业务属性统计标签和业务语义特征标签。

步骤S403，对所述视频资源进行视频资源预处理，得到视频资源属性统计标签；

步骤S404，对所述视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对所述至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；所述图像内容特征标签包括所述至少两个关键帧图像分别对应的单图像内容特征标签；

步骤S405，若所述业务属性统计标签和所述视频资源属性统计标签匹配，则根据所述业务语义特征标签和所述图像内容特征标签确定所述视频资源针对所述业务需求脚本信息的匹配结果。

具体的，步骤S401-步骤S405的实现过程可以参见上述图3所对应实施例中步骤S101-步骤S105的描述，这里不再进行赘述。

步骤S406，若所述视频资源针对所述业务需求脚本信息的匹配结果为匹配成功结果，则在沉浸式审核工作台中显示所述至少两个关键帧图像以及所述至少两个关键帧图像分别对应的单图像内容特征标签；所述沉浸式审核工作台用于审核对象确定所述视频资源的审核结果。

具体的，假设至少两个关键帧图像中包括关键帧图像M_i，i为小于或等于所述至少两个关键帧图像的总数量的正整数，则在沉浸式审核工作台中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签的一个可行实施过程，可以为：在关键帧图像M_i对应的单图像内容特征标签中，将与关键帧图像M_i对应的交集标签不相同的标签，作为关键帧图像M_i对应的不匹配标签；根据关键帧图像M_i在视频资源中的播放时间节点确定关键帧图像M_i在至少两个关键帧图像中的展示顺序；根据展示顺序在沉浸式审核工作台中显示关键帧图像M_i；在关键帧图像M_i对应的文字显示区域，以第一样式显示关键帧图像M_i对应的交集标签，以第二样式显示关键帧图像M_i对应的不匹配标签。

具体的，在沉浸式审核工作台中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签的一个可行实施过程，可以为：根据至少两个关键帧图像分别对应的图像尺寸大小以及至少两个关键帧图像的总数量，确定视频资源对应的区域尺寸大小；确定沉浸式审核工作台中的可用显示区域，在可用显示区域中为视频资源分配区域尺寸大小对应的动态显示区域；在动态显示区域中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签。

为便于理解上述显示方式，请一并参见图9，图9是本申请实施例提供的一种沉浸式审核工作台的示意图。如图9所示，沉浸式审核工作台中可以显示有一个或多个动态显示区域，每个动态显示区域都是基于一个视频资源对应的关键帧图像的尺寸大小、数量以及当前可用的显示区域的面积大小动态生成的，也就是说，计算机设备可以通过比例调节优化算法，进行动态布局调整，保证充分利用页面展示空间，让沉浸式审核工作台的一个页面内能尽可能多的显示视频资源。一个动态显示区域用于显示一个视频资源的标签匹配情况，例如，动态显示区域91中显示的三幅关键帧图像截取自同一视频资源，且按照其在视频资源中的播放时间节点进行排序。动态显示区域91中可以显示视频资源对应的业务需求脚本信息对应的业务语义特征标签，即A0脚本标签，可以帮助审核员快速知道A0脚本对应的语义特征，同时，动态显示区域91中还会显示关键帧图像对应的单图像内容特征标签，并将单图像内容特征标签中与A0脚本标签中相同的标签进行加粗显示(也可以用不同的颜色进行显示，这里不作限制)，如此，审核员不用观看完整的视频资源和阅读业务脚本需求信息，就可以快速确定视频资源的审核结果。此外，若某一关键帧图像出现违法等问题，可以很快地发现。

采用本申请实施例提供的方法，在沉浸式审核台中只显示视频资源的关键帧图像以及关键帧图像对应的单图像内容特征标签，并对匹配中的标签与未匹配中的标签做不同的样式显示，可以很好的提示审核员当前视频资源与录制脚本的匹配度，以及其表现的内容，能否很好的表达录制脚本的主旨大意，能否满足视频需求方的创意制作诉求。

请参见图10，图10是本申请实施例提供的一种视频数据处理装置的结构示意图。该视频数据处理装置可以是运行于计算机设备的一个计算机程序(包括程序代码)，例如该视频数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的视频数据处理方法中的相应步骤。如图10所示，该视频数据处理装置1可以包括：获取模块11、第一提取模块12、视频预处理模块13、第二提取模块14以及第一匹配模块15。

获取模块11，用于获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；视频资源是通过响应业务需求脚本信息所上传的资源；

第一提取模块12，用于对业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；业务脚本标签包括业务属性统计标签和业务语义特征标签；

视频预处理模块13，用于对视频资源进行视频资源预处理，得到视频资源属性统计标签；

第二提取模块14，用于对视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；

第一匹配模块15，用于若业务属性统计标签和视频资源属性统计标签匹配，则根据业务语义特征标签和图像内容特征标签确定视频资源针对业务需求脚本信息的匹配结果。

其中，获取模块11、第一提取模块12、视频预处理模块13、第二提取模块14以及第一匹配模块15的具体实现方式可以参见上述图3所对应实施例中步骤S101-步骤S105的具体描述，这里不再进行赘述。

第一提取模块12，包括：第一处理单元121、第二处理单元122、第三处理单元123以及第四处理单元124。

第一处理单元121，用于对业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息进行结构化属性统计处理，得到业务属性统计标签；

第二处理单元122，用于对业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签；

第三处理单元123，用于对业务需求脚本关键词与标签库中的标签进行匹配，将与业务需求脚本关键词匹配的标签作为第二语义特征标签；

第四处理单元124，用于将第一语义特征标签和第二语义特征标签作为业务语义特征标签。

其中，第一处理单元121、第二处理单元122、第三处理单元123以及第四处理单元124的具体实现方式可以参见上述图3所对应实施例中步骤S102的具体描述，这里不再进行赘述。

其中，第二处理单元122，包括：分词子单元1221以及模型调用子单元1222。

分词子单元1221，用于对业务需求场景描述文本进行分词处理，得到待处理单词集；待处理单词集包括一个或多个待处理单词；

模型调用子单元1222，用于调用文本语义特征提取模型对待处理单词集进行非结构化语义特征提取处理，得到第一语义特征标签。

其中，文本语义特征提取模型包括第一嵌入层、记忆网络层和归一化分类层；模型调用子单元1222具体还用于调用第一嵌入层对每个待处理单词进行嵌入特征处理，得到每个待处理单词分别对应的单词嵌入向量；识别每个待处理单词在待处理单词集中的排序位置，调用记忆网络层按照排序位置对每个待处理单词分别对应的单词嵌入向量进行隐层特征表示处理，得到待处理单词集对应的隐层表示向量；调用归一化分类层对隐层表示向量进行归一化处理，得到待处理单词对应的文本标签预测分布，根据文本标签预测分布确定业务需求场景描述文本对应的第一语义特征标签；文本标签预测分布包含有业务需求场景描述文本与标签库中的每个标签分别匹配的概率值。

其中，分词子单元1221以及模型调用子单元1222的具体实现方式可以参见上述图3所对应实施例中步骤S102的具体描述，这里不再进行赘述。

其中，第三处理单元123，包括：单词表示子单元1231以及标签确定子单元1232。

单词表示子单元1231，用于对业务需求脚本关键词进行单词表示处理，得到业务需求脚本关键词对应的单词表示向量；

标签确定子单元1232，用于获取标签库中每个标签分别对应的标签表示向量，确定单词表示向量分别与每个标签表示向量之间的向量距离；

标签确定子单元1232，还用于将向量距离最小的标签作为第二语义特征标签。

其中，单词表示子单元1231以及标签确定子单元1232的具体实现方式可以参见上述图3所对应实施例中步骤S102的具体描述，这里不再进行赘述。

第二提取模块14，包括：图像表示单元141、标签提取单元142以及标签确定单元143。

图像表示单元141，用于对关键帧图像M_i进行矩阵表示处理，得到针对关键帧图像M_i的图像表示矩阵；

标签提取单元142，用于调用图像内容特征提取模型对关键帧图像M_i的图像表示矩阵进行图像标签提取处理，得到关键帧图像M_i对应的单图像内容特征标签；

标签确定单元143，用于将至少两个关键帧图像分别对应的单图像内容特征标签，作为图像内容特征标签。

其中，图像表示单元141、标签提取单元142以及标签确定单元143的具体实现方式可以参见上述图3所对应实施例中步骤S104的具体描述，这里不再进行赘述。

标签提取单元142，包括：嵌入子单元1421、编码子单元1422、解码子单元1423以及分类子单元1424。

嵌入子单元1421，用于调用第二嵌入层对关键帧图像M_i的图像表示矩阵进行卷积向量表示处理，得到图像表示向量；

编码子单元1422，用于调用编码层对图像表示向量进行编码处理，得到图像编码表示向量；

解码子单元1423，用于调用解码层对图像编码向量进行解码处理，得到图像解码表示向量；

分类子单元1424，用于调用前馈神经网络分类层对图像解码表示向量进行分类处理，得到关键帧图像M_i对应的图像标签预测分布，根据图像标签预测分布确定关键帧图像M_i对应的单图像内容特征标签；图像标签预测分布包含有关键帧图像M_i与标签库中的每个标签分别匹配的概率值。

其中，嵌入子单元1421、编码子单元1422、解码子单元1423以及分类子单元1424的具体实现方式可以参见上述图6所对应实施例中步骤S301-步骤S303的具体描述，这里不再进行赘述。

上述视频数据处理装置1，还包括：第二匹配模块16。

第二匹配模块16，用于遍历S个业务属性统计子标签，顺序获取第k个业务属性统计子标签；k为小于或等于S的正整数；

第二匹配模块16，还用于若视频资源属性统计标签中不存在目标属性统计标签，则确定业务属性统计标签和视频资源属性统计标签不匹配；目标属性统计标签是指与第k个业务属性统计子标签对应的属性类型相同的标签；

第二匹配模块16，还用于若视频资源属性统计标签中存在目标属性统计标签，且第k个业务属性统计子标签与目标属性统计标签不相同，则确定业务属性统计标签和视频资源属性统计标签不匹配；

第二匹配模块16，还用于若视频资源属性统计标签中存在目标属性统计标签，且第k个业务属性统计子标签与目标属性统计标签相同，则确定第k个业务属性统计子标签与视频资源属性统计标签相匹配；

第二匹配模块16，还用于若每个业务属性统计子标签均与视频资源属性统计标签相匹配，则确定业务属性统计标签和视频资源属性统计标签匹配。

其中，第二匹配模块16的具体实现方式可以参见上述图3所对应实施例中的可选描述，这里不再进行赘述。

其中，第一匹配模块15，包括：第一系数确定单元151、第二系数确定单元152以及匹配单元153。

第一系数确定单元151，用于根据业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签，确定关键帧图像M_i对应的图像标签重复系数；

第二系数确定单元152，用于对至少两个关键帧图像分别对应的图像标签重复系数进行平均处理，得到视频资源对应的资源标签重复系数；

匹配单元153，用于若资源标签重复系数小于资源标签重复阈值，则确定视频资源针对业务需求脚本信息的匹配结果为匹配失败结果；

匹配单元153，还用于若资源标签重复系数大于或等于资源标签重复阈值，则确定视频资源针对业务需求脚本信息的匹配结果为匹配成功结果。

其中，第一系数确定单元151、第二系数确定单元152以及匹配单元153的具体实现方式可以参见上述图3所对应实施例中步骤S105的具体描述，这里不再进行赘述。

其中，第一系数确定单元151，包括：标签分类子单元1511以及系数计算子单元1512。

标签分类子单元1511，用于将业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签中相同的标签，作为关键帧图像M_i对应的交集标签；

标签分类子单元1511，还用于将业务语义特征标签和关键帧图像M_i对应的单图像内容特征标签进行去重处理，得到关键帧图像M_i对应的并集标签；

系数计算子单元1512，用于将关键帧图像M_i对应的交集标签的总数量与关键帧图像M_i对应的并集标签的总数量相除，得到关键帧图像M_i对应的图像标签重复系数。

其中，标签分类子单元1511以及系数计算子单元1512的具体实现方式可以参见上述图3所对应实施例中步骤S101-步骤S105的具体描述，这里不再进行赘述。

其中，上述视频数据处理装置1，还包括：显示模块17。

显示模块17，用于若视频资源针对业务需求脚本信息的匹配结果为匹配成功结果，则在沉浸式审核工作台中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签；沉浸式审核工作台用于审核对象确定视频资源的审核结果。

其中，显示模块17的具体实现方式可以参见上述图8所对应实施例中步骤S406的具体描述，这里不再进行赘述。

其中，显示模块17，包括：预处理单元171、图像显示单元172以及标签显示单元173。

预处理单元171，用于在关键帧图像M_i对应的单图像内容特征标签中，将与关键帧图像M_i对应的交集标签不相同的标签，作为关键帧图像M_i对应的不匹配标签；

预处理单元171，还用于根据关键帧图像M_i在视频资源中的播放时间节点确定关键帧图像M_i在至少两个关键帧图像中的展示顺序；

图像显示单元172，用于根据展示顺序在沉浸式审核工作台中显示关键帧图像M_i；

标签显示单元173，用于在关键帧图像M_i对应的文字显示区域，以第一样式显示关键帧图像M_i对应的交集标签，以第二样式显示关键帧图像M_i对应的不匹配标签。

其中，预处理单元171、图像显示单元172以及标签显示单元173的具体实现方式可以参见上述图8所对应实施例中步骤S406的具体描述，这里不再进行赘述。

其中，显示模块17，包括：显示区域确定单元174。

显示区域确定单元174，用于根据至少两个关键帧图像分别对应的图像尺寸大小以及至少两个关键帧图像的总数量，确定视频资源对应的区域尺寸大小；

显示区域确定单元174，还用于确定沉浸式审核工作台中的可用显示区域，在可用显示区域中为视频资源分配区域尺寸大小对应的动态显示区域；

显示区域确定单元174，还用于在动态显示区域中显示至少两个关键帧图像以及至少两个关键帧图像分别对应的单图像内容特征标签。

其中，显示区域确定单元174的具体实现方式可以参见上述图8所对应实施例中步骤406的具体描述，这里不再进行赘述。

请参见图11，图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示，上述图10所对应实施例中的数据处理装置1(例如包括图10中的获取模块11、第一提取模块12、视频预处理模块13、第二提取模块14以及第一匹配模块15)可以应用于计算机设备1000，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图10所示的计算机设备1000中，网络接口1004可提供网络通讯网元；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文任一个实施例中对该视频数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的视频数据处理装置1所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文任一个实施例中对上述视频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的视频数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3、图4任一个所对应实施例提供的方法。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照网元一般性地描述了各示例的组成及步骤。这些网元究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的网元，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频数据处理方法，其特征在于，包括：

获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；所述视频资源是通过响应所述业务需求脚本信息所上传的资源；

对所述业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；所述业务脚本标签包括业务属性统计标签和业务语义特征标签；

对所述视频资源进行视频资源预处理，得到视频资源属性统计标签；

对所述视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对所述至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；

若所述业务属性统计标签和所述视频资源属性统计标签匹配，则根据所述业务语义特征标签和所述图像内容特征标签确定所述视频资源针对所述业务需求脚本信息的匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述业务需求脚本信息包括业务需求场景描述文本、业务需求脚本关键词以及业务需求脚本基础信息；

所述对所述业务需求脚本信息进行文本标签提取处理，得到业务脚本标签，包括：

对所述业务需求场景描述文本、所述业务需求脚本关键词以及所述业务需求脚本基础信息进行结构化属性统计处理，得到业务属性统计标签；

对所述业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签；

对所述业务需求脚本关键词与标签库中的标签进行匹配，将与所述业务需求脚本关键词匹配的标签作为第二语义特征标签；

将所述第一语义特征标签和所述第二语义特征标签作为业务语义特征标签。

3.根据权利要求2所述的方法，其特征在于，所述对所述业务需求场景描述文本进行非结构化语义特征提取处理，得到第一语义特征标签，包括：

对所述业务需求场景描述文本进行分词处理，得到待处理单词集；所述待处理单词集包括一个或多个待处理单词；

调用文本语义特征提取模型对所述待处理单词集进行非结构化语义特征提取处理，得到第一语义特征标签。

4.根据权利要求3所述的方法，其特征在于，所述文本语义特征提取模型包括第一嵌入层、记忆网络层和归一化分类层；所述调用文本语义特征提取模型对所述待处理单词集进行非结构化语义特征提取处理，得到第一语义特征标签，包括：

调用所述第一嵌入层对每个待处理单词进行嵌入特征处理，得到所述每个待处理单词分别对应的单词嵌入向量；

识别所述每个待处理单词在所述待处理单词集中的排序位置，调用所述记忆网络层按照所述排序位置对所述每个待处理单词分别对应的单词嵌入向量进行隐层特征表示处理，得到所述待处理单词集对应的隐层表示向量；

调用所述归一化分类层对所述隐层表示向量进行归一化处理，得到所述待处理单词对应的文本标签预测分布，根据所述文本标签预测分布确定所述业务需求场景描述文本对应的第一语义特征标签；所述文本标签预测分布包含有所述业务需求场景描述文本与所述标签库中的每个标签分别匹配的概率值。

5.根据权利要求2所述的方法，其特征在于，所述对所述业务需求脚本关键词与标签库中的标签进行匹配，将与所述业务需求脚本关键词匹配的标签作为第二语义特征标签，包括：

对所述业务需求脚本关键词进行单词表示处理，得到所述业务需求脚本关键词对应的单词表示向量；

获取标签库中每个标签分别对应的标签表示向量，确定所述单词表示向量分别与每个标签表示向量之间的向量距离；

将向量距离最小的标签作为第二语义特征标签。

6.根据权利要求1所述的方法，其特征在于，所述至少两个关键帧图像包括关键帧图像M_i，i为小于或等于所述至少两个关键帧图像的总数量的正整数；

所述对所述至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签，包括：

对所述关键帧图像M_i进行矩阵表示处理，得到针对所述关键帧图像M_i的图像表示矩阵；

调用图像内容特征提取模型对所述关键帧图像M_i的图像表示矩阵进行图像标签提取处理，得到所述关键帧图像M_i对应的单图像内容特征标签；

将所述至少两个关键帧图像分别对应的单图像内容特征标签，作为图像内容特征标签。

7.根据权利要求6所述的方法，其特征在于，所述图像内容特征提取模型包括第二嵌入层、编码层、解码层以及前馈神经网络分类层；

所述调用图像内容特征提取模型对所述关键帧图像M_i的图像表示矩阵进行图像标签提取处理，得到所述关键帧图像M_i对应的单图像内容特征标签，包括：

调用所述第二嵌入层对所述关键帧图像M_i的图像表示矩阵进行卷积向量表示处理，得到图像表示向量；

调用所述编码层对所述图像表示向量进行编码处理，得到图像编码表示向量；

调用所述解码层对所述图像编码向量进行解码处理，得到图像解码表示向量；

调用所述前馈神经网络分类层对所述图像解码表示向量进行分类处理，得到所述关键帧图像M_i对应的图像标签预测分布，根据所述图像标签预测分布确定关键帧图像M_i对应的单图像内容特征标签；所述图像标签预测分布包含有所述关键帧图像M_i与标签库中的每个标签分别匹配的概率值。

8.根据权利要求1所述的方法，其特征在于，所述业务属性统计标签包括S个业务属性统计子标签；S为正整数；

所述方法还包括：

遍历所述S个业务属性统计子标签，顺序获取第k个业务属性统计子标签；k为小于或等于S的正整数；

若所述视频资源属性统计标签中不存在目标属性统计标签，则确定所述业务属性统计标签和所述视频资源属性统计标签不匹配；所述目标属性统计标签是指与所述第k个业务属性统计子标签对应的属性类型相同的标签；

若所述视频资源属性统计标签中存在所述目标属性统计标签，且所述第k个业务属性统计子标签与所述目标属性统计标签不相同，则确定所述业务属性统计标签和所述视频资源属性统计标签不匹配；

若所述视频资源属性统计标签中存在所述目标属性统计标签，且所述第k个业务属性统计子标签与所述目标属性统计标签相同，则确定所述第k个业务属性统计子标签与所述视频资源属性统计标签相匹配；

若每个业务属性统计子标签均与所述视频资源属性统计标签相匹配，则确定所述业务属性统计标签和所述视频资源属性统计标签匹配。

9.根据权利要求6所述的方法，其特征在于，所述根据所述业务语义特征标签和所述图像内容特征标签确定所述视频资源针对所述业务需求脚本信息的匹配结果，包括：

根据所述业务语义特征标签和所述关键帧图像M_i对应的单图像内容特征标签，确定所述关键帧图像M_i对应的图像标签重复系数；

对所述至少两个关键帧图像分别对应的图像标签重复系数进行平均处理，得到所述视频资源对应的资源标签重复系数；

若所述资源标签重复系数小于资源标签重复阈值，则确定所述视频资源针对所述业务需求脚本信息的匹配结果为匹配失败结果；

若所述资源标签重复系数大于或等于资源标签重复阈值，则确定所述视频资源针对所述业务需求脚本信息的匹配结果为匹配成功结果。

10.根据权利要求9所述的方法，其特征在于，所述根据所述业务语义特征标签和所述关键帧图像M_i对应的单图像内容特征标签确定所述关键帧图像M_i对应的图像标签重复系数，包括：

将所述业务语义特征标签和所述关键帧图像M_i对应的单图像内容特征标签中相同的标签，作为关键帧图像M_i对应的交集标签；

将所述业务语义特征标签和所述关键帧图像M_i对应的单图像内容特征标签进行去重处理，得到关键帧图像M_i对应的并集标签；

将所述关键帧图像M_i对应的交集标签的总数量与所述关键帧图像M_i对应的并集标签的总数量相除，得到所述关键帧图像M_i对应的图像标签重复系数。

11.根据权利要求6所述的方法，其特征在于，还包括：

若所述视频资源针对所述业务需求脚本信息的匹配结果为匹配成功结果，则在沉浸式审核工作台中显示所述至少两个关键帧图像以及所述至少两个关键帧图像分别对应的单图像内容特征标签；所述沉浸式审核工作台用于审核对象确定所述视频资源的审核结果。

12.根据权利要求11所述的方法，其特征在于，所述在沉浸式审核工作台中显示所述至少两个关键帧图像以及所述至少两个关键帧图像分别对应的单图像内容特征标签，包括：

在所述关键帧图像M_i对应的单图像内容特征标签中，将与所述关键帧图像M_i对应的交集标签不相同的标签，作为所述关键帧图像M_i对应的不匹配标签；

根据所述关键帧图像M_i在所述视频资源中的播放时间节点确定所述关键帧图像M_i在所述至少两个关键帧图像中的展示顺序；

根据所述展示顺序在沉浸式审核工作台中显示所述关键帧图像M_i；

在所述关键帧图像M_i对应的文字显示区域，以第一样式显示所述关键帧图像M_i对应的交集标签，以第二样式显示所述关键帧图像M_i对应的不匹配标签。

13.根据权利要求11所述的方法，其特征在于，所述在沉浸式审核工作台中显示所述至少两个关键帧图像以及所述至少两个关键帧图像分别对应的单图像内容特征标签，包括：

根据所述至少两个关键帧图像分别对应的图像尺寸大小以及所述至少两个关键帧图像的总数量，确定所述视频资源对应的区域尺寸大小；

确定所述沉浸式审核工作台中的可用显示区域，在所述可用显示区域中为所述视频资源分配所述区域尺寸大小对应的动态显示区域；

在所述动态显示区域中显示所述至少两个关键帧图像以及所述至少两个关键帧图像分别对应的单图像内容特征标签。

14.一种视频数据处理装置，其特征在于，包括：

获取模块，用于获取第一对象所录入的业务需求脚本信息，获取第二对象所上传的视频资源；所述视频资源是通过响应所述业务需求脚本信息所上传的资源；

第一提取模块，用于对所述业务需求脚本信息进行文本标签提取处理，得到业务脚本标签；所述业务脚本标签包括业务属性统计标签和业务语义特征标签；

视频预处理模块，用于对所述视频资源进行视频资源预处理，得到视频资源属性统计标签；

第二提取模块，用于对所述视频资源进行关键帧图像提取处理，得到至少两个关键帧图像，对所述至少两个关键帧图像分别进行图像标签提取处理，得到图像内容特征标签；

第一匹配模块，用于若所述业务属性统计标签和所述视频资源属性统计标签匹配，则根据所述业务语义特征标签和所述图像内容特征标签确定所述视频资源针对所述业务需求脚本信息的匹配结果。

15.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-13任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-13任一项所述的方法。

17.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时，可以执行权利要求1-13任一项所述的方法。