CN117615226A

CN117615226A - 一种数据处理方法、装置、设备以及存储介质

Info

Publication number: CN117615226A
Application number: CN202311464498.2A
Authority: CN
Inventors: 甘蓓; 许良晟; 谯睿智
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-06
Filing date: 2023-11-06
Publication date: 2024-02-27

Abstract

本申请提供了一种数据处理方法、装置、设备以及存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，用于提升对视频中精彩片段的识别速度以识别准确度。包括：获取待处理视频数据；调用事件切分模型对待处理视频数据进行切分处理，以得到视频片段序列；调用视频特征提取模型对视频片段序列进行特征提取，以得到视频片段序列的视频特征序列；调用音频特征提取模型对视频片段序列进行特征提取，以得到视频片段序列的音频特征序列；将视频特征序列和音频特征序列进行特征融合，以得到待处理视频数据的特征序列；调用识别模型对特征序列进行识别处理，以得到待处理视频数据的识别结果。

Description

一种数据处理方法、装置、设备以及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种数据处理方法、装置、设备以及存储介质。

背景技术

随着电子竞技的迅猛发展，互联网上的游戏视频呈现出前所未有的增长速度。为了提升用户体验，用户需要能够高效地浏览视频中的精彩片段。视频精彩片段检测是解决这一问题的关键技术，它可以将未经人工剪辑的长视频切分成若干等长的片段，并根据视频内容判断每个片段的精彩程度，从而得到视频的精彩片段。

通常的游戏视频精彩片段检测方案是对视频帧进行结构化解析，然后基于结构化信息进行事件识别或者是借助语义信息对视频进行镜头切分、场景切分等操作。但是游戏视频场景单一，镜头切换也很少，因此上述两种方案并不能很好的对长视频进行切分处理。

因此目前亟需一种可以提升视频中精彩片段的识别准确度的方案。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，用于提升视频中精彩片段的识别准确度。

有鉴于此，本申请一方面提供一种数据处理方法，包括：获取待处理视频数据；调用事件切分模型对该待处理视频数据进行切分处理，以得到视频片段序列；调用视频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的视频特征序列；调用音频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的音频特征序列；将该视频特征序列和该音频特征序列进行特征融合，以得到该待处理视频数据的特征序列；调用识别模型对该特征序列进行识别处理，以得到该待处理视频数据的识别结果。

本申请另一方面提供一种数据处理装置，包括：获取模块，用于获取待处理视频数据；

处理模块，用于调用事件切分模型对该待处理视频数据进行切分处理，以得到视频片段序列；调用视频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的视频特征序列；调用音频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的音频特征序列；将该视频特征序列和该音频特征序列进行特征融合，以得到该待处理视频数据的特征序列；调用识别模型对该特征序列进行识别处理，以得到该待处理视频数据的识别结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于对所述特征序列进行滑窗处理，以得到多个目标特征序列，所述滑窗的长度为N，步长为N/2，所述N为正整数；

调用所述识别模型对所述多个目标特征序列进行识别处理，以得到多组预测概率值；

从所述多组预测概率值的每一组预测概率值的中间段选择N/2个预测概率值，并进行拼接以得到目标概率值；

根据所述目标概率值确定所述待处理视频数据的识别结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于对所述多组预测概率值的每一组预测概率值进行中值滤波处理，以得到多组平滑概率值；

从所述多组平滑概率值的每一组平滑概率值的中间段N/2个预测概率值，并进行拼接以得到目标概率值。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于根据该目标概率值确定第一阈值；

将该目标概率值一一与该第一阈值进行比较，并根据第一阈值规则对目标概率值进行二值化处理，以得到该待处理视频数据的识别结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于将该目标概率值中大于该第一阈值的概率值二值化为1，将该目标概率值中小于或者等于该第一阈值的概率值二值化为0，其中，该1用于标记视频片段为精彩片段，该0用于标记视频片段为非精彩片段。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于对该视频片段序列进行视频和音频分离处理，以得到该视频片段序列的图片数据和音频数据；

调用第一预训练模型对该图片数据中的关键帧进行特征提取，以得到该视频片段序列的视频特征序列。

将该音频数据进行等长划分得到多段音频数据；

将该多段音频数据转换为梅尔频谱图；

调用第二预训练模型对该梅尔频谱图进行特征提取，以得到该视频片段序列的音频特征序列。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，获取模块，用于获取第一训练数据和通用事件切分模型，该第一训练数据包括样本视频和事件标签；

处理模块，用于调用该通用事件切分模型对该样本视频进行切分处理，以得到该样本视频中各个视频帧的切分概率值；根据该切分概率值确定该样本视频的切分点结果；将该切分分点结果与该事件标签进行损失计算，以得到损失函数；

该装置还包括训练模块，训练模块，用于利用该损失函数对该通用事件切分模型进行训练，以得到该事件切分模型。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于将该切分概率值与第一阈值和第二阈值进行比较；

根据第二阈值规则从该切分概率值指示的切分点确定候选切分点集；

对该候选切分点集中的切分点进行时序区间去重，以得到该样本视频的切分点结果。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，获取模块，用于获取游戏视频集合，该游戏数据集合中的每个游戏视频标注有时间戳，该时间戳用于标注游戏视频中的精彩片段；

调用该通用事件切分模型对第一游戏视频进行切分处理，以得到该第一游戏视频的第一切分概率值；

根据该第一游戏视频对应的时间戳调整该第一切分概率值，以得到第二切分概率值；

根据该第二切分概率值确定该第一游戏视频的第一切分结果；

将该第一游戏视频与该第一切分结果建立映射关系，并归于该第一训练数据，该第一切分结果作为该事件标签，该第一游戏视频作为该样本视频；

依此遍历该游戏视频集合，以得到该第一训练数据。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，获取模块，用于获取第二训练数据和初始识别模型；

处理模块，用于调用该事件切分模型对该第二训练数据进行视频切分，以得到训练视频片段序列；调用该视频特征提取模型对该训练视频片段序列进行特征提取，以得到该训练视频片段序列的训练视频特征序列；调用该音频特征提取模型对该训练视频片段序列进行特征提取，以得到该训练视频片段序列的训练音频特征序列；将该训练视频特征序列和该训练音频特征序列进行特征融合，以得到该第二训练数据的训练特征序列；

训练模块，用于利用该训练特征序列对该初始识别模型进行训练，以得到该识别模型。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，处理模块，用于根据该识别结果对该待处理视频数据进行精彩片段剪辑，以得到目标视频；输出该目标视频。

本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：在对该待处理视频数据进行精彩片段识别时，先通过事件切分模型对该待处理视频数据按照时序进行拆分，从而得到一个具有时序信息的视频片段序列；然后对该视频片段序列进行音频特征和视觉特征的提取，并融合得到待处理视频数据的多模态特征；最后将具有时序信息和多模态特征的特征序列输入识别模型，从而得到最终的识别结果。由于具有丰富的听觉和视觉特征，同时又具有时序信息，因此可以提升对视频中精彩片段的识别准确度。

附图说明

图1为本申请实施例中数据处理方法的一个应用场景架构示意图；

图2为本申请实施例中数据处理方法的一个算法框架示意图；

图3为本申请实施例中事件标签的一个效果示意图；

图4为本申请实施例中事件切分模型的一个网络架构示意图；

图5为本申请实施例中识别模型的一个网络架构示意图；

图6为本申请实施例中识别模型的一个训练框架示意图；

图7为本申请实施例中识别模型的输出结果进行中值滤波处理的一个前后效果对比图；

图8为本申请实施例中数据处理方法的一个实施例示意图；

图9为本申请实施例中数据处理装置的一个实施例示意图；

图10为本申请实施例中数据处理装置的另一个实施例示意图；

图11为本申请实施例中数据处理装置的另一个实施例示意图；

图12为本申请实施例中数据处理装置的另一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着电子竞技的迅猛发展，互联网上的游戏视频呈现出前所未有的增长速度。为了提升用户体验，用户需要能够高效地浏览视频中的精彩片段。视频精彩片段检测是解决这一问题的关键技术，它可以将未经人工剪辑的长视频切分成若干等长的片段，并根据视频内容判断每个片段的精彩程度，从而得到视频的精彩片段。通常的游戏视频精彩片段检测方案是对视频帧进行结构化解析，然后基于结构化信息进行事件识别或者是借助语义信息对视频进行镜头切分、场景切分等操作。但是游戏视频场景单一，镜头切换也很少，因此上述两种方案并不能很好的对长视频进行切分处理。因此目前亟需一种可以提升视频中精彩片段的识别准确度的方案。

为了解决上述技术问题，本申请提供如下技术方案：获取待处理视频数据；调用事件切分模型对该待处理视频数据进行切分处理，以得到视频片段序列；调用视频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的视频特征序列；调用音频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的音频特征序列；将该视频特征序列和该音频特征序列进行特征融合，以得到该待处理视频数据的特征序列；调用识别模型对该特征序列进行识别处理，以得到该待处理视频数据的识别结果。在对该待处理视频数据进行精彩片段识别时，先通过事件切分模型对该待处理视频数据按照时序进行拆分，从而得到一个具有时序信息的视频片段序列；然后对该视频片段序列进行音频特征和视觉特征的提取，并融合得到待处理视频数据的多模态特征；最后将具有时序信息和多模态特征的特征序列输入识别模型，从而得到最终的识别结果。由于具有丰富的听觉和视觉特征，同时又具有时序信息，因此可以提升对视频中精彩片段的识别准确度。

本申请各可选实施例的数据处理方法可以基于人工智能技术实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

预训练模型(Pre-training model)，也称基石模型、大模型，指具有大参量的深度神经网络(Deep neural network，DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer，ViT，V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具，也可以作为连接多个具体任务模型的通用接口。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请还涉及到云技术。其中，云技术(cloud technoolgy)是指在广域网或局域网内将硬件、软件、网络等系统资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行为的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。本申请中所涉及到的云技术主要指终端设备或者服务器之间可能通过“云”进行待处理视频数据的传输等等。

为了方便理解，下面对本申请中的部分名词进行说明。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

神经网络：人工神经网络(Artificial Neural Networks，ANN)，是由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。

卷积层(Convolutional layer，Conv)是指卷积神经网络层中由若干卷积单元组成的层状结构，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，卷积神经网络中包括至少两个神经网络层，其中，每一个神经网络层包含若干个神经元，各个神经元分层排列，同一层的神经元之间没有互相连接，层间信息的传送只沿一个方向进行。

全连接层(Fully Connected layer，FC)是指该层状结构中的每一个结点均与上一层的所有结点相连，可用于将上一层的神经网络层提取的特征进行综合处理，在神经网络模型中起到“分类器”的作用。

卷积神经网络14(Convolutional Neural Network-14，CNN14)：语音识别都是基于时频分析后的语音谱完成的，而语音时频谱具有结构特点。因此为了提高语音识别率，就需要克服语音信号所面临各种各样的多样性，包括说话人的多样性(说话人自身以及说话人间)，环境的多样性等。一个卷积神经网络提供在时间和空间上的平移不变性卷积，将卷积神经网络的思想应用到语音识别的声学建模中，则可以利用卷积的不变性来克服语音信号本身的多样性。从这个角度来看，则可以认为是将整个语音信号分析得到的时频谱当作一张图像一样来处理，采用图像中广泛应用的深层卷积网络对其进行识别。而CNN14包含12个卷积层和2个全连接层，模型参数的数量为79.6M，embbedding维度是2048，即其具有较多的卷积层，可以实现对音频数据的特征提取。本实施例中，将其最后一层的输出作为待处理视频数据中音频的特征。本申请中，该CNN14是基于大规模音频数据集AudioSet上预训练得到的。

Vision Transformer：其主要原理是首先将原始图片进行分块，展开平铺成一个序列，将序列输入原始Transformer模型的编码器(Encoder)，在Encoder后接入一个全连接层对图片进行分类。本申请中，该Vision Transformer是基于4亿图文对的超大规模数据集上训练得到的。

TransNet V2：TransNet V2是TransNet的升级版，其网络整体结构包括6个膨胀深度卷积神经网络(Dilated Deep Convolutional Neural Network，DDCNN)模块和池化层(Pooling)。其在特征提取过程中，提出一种基于RGB直方图的帧间相似度算法来进行时序建模模型。

双向长短期记忆网络(Bi-LSTM)：其网络结构分为2个独立的长短期神经网络(long short term memory，LSTM)，输入序列分别以正序和逆序输入至2个LSTM进行特征提取，将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息，这种神经网络结构模型对前后文信息的提取效率和性能要优于单个LSTM结构模型。值得一提的是，Bi-LSTM中的2个LSTM神经网络参数是相互独立的，它们只共享word-embedding词向量列表。LSTM是(Recurrent Neural Network，RNN)的一种。实际应用中发现RNN存在诸如梯度消失、梯度爆炸以及长距离依赖信息能力差等问题，因此引入了LSTM。LSTM在主体结构上与RNN类似，其主要的改进是在隐藏层中增加了3个门控(gates)结构，分别是遗忘门(forget gate)、输入门(input gate)、输出门(output gate)，同时新增了一个隐藏状态(cell state)。

反向传播：前向传播是指模型的前馈处理过程，反向传播与前向传播相反，指根据模型输出的结果对模型各个层的权重参数进行更新。例如，模型包括输入层、隐藏层和输出层，则前向传播是指按照输入层-隐藏层-输出层的顺序进行处理，反向传播是指按照输出层-隐藏层-输入层的顺序，依次更新各个层的权重参数。

本申请实施例提供的一种数据处理方法、装置、设备及存储介质，提升视频中精彩片段的识别准确度。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的用户终端，也可以实施为服务器。

电子设备通过运行本申请实施例提供的数据处理方法，提升视频中精彩片段的识别准确度。即提高电子设备自身对视频中精彩片段的识别准确度。

上述方案可以应用于诸多计算机视觉领域，包括人脸识别。当利用本申请实施例提供的数据处理方法帮助用户进行视频数据处理时，该方法可以实现成为独立的线上应用程序，安装在用户使用的计算机设备或者后台服务器中，方便用户使用该程序对进行视频数据处理。

在该场景下，用户在应用程序界面输入视频数据，计算机设备将视频数据依次输入事件切分模型、视频特征提取模型、音频特征提取模型以及识别模型，得到视频数据的识别结果，并根据该识别结果对视频数据进行剪辑生成剪辑视频，然后将剪辑视频返回对应的应用程序界面，向用户展示剪辑视频。

一个示例性方案中，可以将该数据处理方法应用于游戏直播视频的精彩片段剪辑，比如，将一段游戏直播视频输入上述事件切分模型、视频特征提取模型、音频特征提取模型以及识别模型，得到游戏直播视频的精彩片段识别结果，并根据该精彩片段识别结果对游戏直播视频进行剪辑生成精彩集锦，然后将精彩集锦生成短视频，并进行发布。

当然，除了应用于上述场景外，本申请实施例提供方法还可以应用于其他需要视频数据处理的场景，本申请实施例并不对具体的应用场景进行限定。

参见图1，图1是本申请实施例提供的数据处理方案的一个应用场景下的一个可选的架构示意图，为实现支撑一个数据处理方案，终端设备100通过网络200连接服务器300，服务器300连接数据库400，网络200可以是广域网或者局域网，又或者是二者的组合。其中用于实现数据处理方案的客户端部署于终端设备100上，其中，客户端可以通过浏览器的形式运行于终端设备100上，也可以通过独立的应用程序(application，APP)的形式运行于终端设备100上等，对于客户端的具体展现形式，此处不做限定。本申请涉及的服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备100可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备、智能语音交互设备、智能家电、飞行器等等，但并不局限于此。终端设备100以及服务器300可以通过有线或无线通信方式通过网络200进行直接或间接地连接，本申请在此不做限制。服务器300和终端设备100的数量也不做限制。本申请提供的方案可以由终端设备100独立完成，也可以由服务器300独立完成，还可以由终端设备100与服务器300配合完成，对此，本申请并不做具体限定。其中，数据库400，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理系统(Database Management System，DBMS)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言(Extensible Markup Language,XML)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(Structured Query Language，SQL)、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。在本申请中，数据库400可以用于存储训练数据、待处理视频数据以及已采集的视频数据，当然，训练数据、待处理视频数据以及已采集的视频数据的存储位置并不限于数据库，例如还可以存储于终端设备100、区块链或者服务器300的分布式文件系统中等。

在一些实施例中，服务器300和该终端设备100均可以执行本申请实施例提供的数据处理方法以及数据处理方法中事件切分模型以及识别模型的训练方法。

可以理解的是，在本申请的具体实施方式中，涉及到视频数据以及训练数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

基于上述描述，下面以图2所示的算法框架对本申请数据处理方法进行说明：

本申请中，该数据处理方法包括三个阶段：

阶段一、利用事件切分模型将待处理视频数据进行切分，以得到视频片段序列。一个示例性方案中，在待处理视频数据为游戏视频时，该事件切分模型的事件切分点包括但不仅限于画面特效(其表示可以如图3所示)、镜头缩放、镜头平移、光影变化、视角变化、弹窗变化、角色大动作等等。该事件切分模型的输出可以如下：假设游戏视频中包含了M个事件，则输出为[Event₀,Event₁,…,Event_M]。对于一个特定的视频切分片段Event_i，用该视频切分片段的开始帧号和结束帧号表示，即Event_i＝[开始帧，结束帧]。比如，视频切分片段1可以表示为[35，45]，其中，该35、45用于指示第35帧和第45帧。

阶段二、使用预训练的视频特征提取模型和音频特征提取模型，提取待处理视频数据的多模态特征。本申请中，在获得该视频片段序列之后，获取每个视频片段的关键帧，然后使用视频特征提取模型对该关键帧进行特征提取，并将该视频特征提取模型的最后一层特征提取网络的输出作为该关键帧的视频特征；同时获取每个视频片段的音频数据，然后将音频数据的原始波形转为梅尔频谱图，使用音频特征提取模型对该梅尔频谱图进行特征提取，并将该音频特征提取模型的最后一层特征提取网络的输出作为该梅尔频谱图的音频特征。特征提取完成后，对视频特征和音频特征进行拼接(concat)生成多模态特征。

在本申请中，该视频特征提取模型可以是基于4亿图文对的超大规模数据集上训练得到的Vision Transformer，该音频特征提取模型可以是基于基于大规模音频数据集AudioSet上预训练得到的CNN14。应理解的是，上述视频特征提取模型和音频特征提取模型也可以是其他特征提取模型，具体此处不做限定。

阶段三、使用识别模型对该多模态特征进行识别，以得到识别结果。在本申请中，该识别模型的输入是基于时序建立的序列。比如给定一个视频序列S_t(t＝0,1,2,3,…,T)在通过该识别模型之后，其输出序列可以为Y_t(t＝0,1,2,3,…,T)。其中，该视频序列中的每一个值对应一个视频片段，该输出序列的值代表该视频序列中对应的视频片段属于精彩内容的概率。一个示例性方案中，该概率可以取值为0或者1，其中，0代表该视频片段不是精彩视频片段，1代表该视频片段是精彩视频片段。

在上述描述可知，本申请中还需要对该事件切分模型以及该识别模型进行训练，下面对该事件切分模型以及该识别模型进行分别说明。

一、事件切分模型的训练

本申请中，该事件切分模型可以采用如图4所示的TransNetv2模型。在训练过程中，首先，需要获取到针对具体应用场景的训练数据以及基于开源的通用事件数据集训练得到的TransNetv2基础模型；然后基于该训练数据对该TransNetv2基础模型进行训练，以得到该事件切分模型。

下面以一个具体的应用场景对于本申请中的事件切分模型的训练数据进行说明：

在游戏场景下，获取业务中的游戏视频集合(比如游戏玩家的游戏对战录屏视频等等)，并通过人工标注的方式对该游戏视频集合中的各个游戏视频的精彩片段进行标注(比如，标注精彩片段的时间戳等等)。然后调用TransNetv2基础模型对游戏视频集合中的各个游戏视频进行通用事件切分，输出原始的通用事件切分概率。再根据游戏视频中标注的精彩片段的时间戳对该原始切分概率进行调整得到调整后的切分概率；再通过阈值规则来确定游戏视频的切分结果；最后将游戏视频的切分结果与该游戏视频建立一一对应关系，并作为该TransNetv2基础模型的训练数据。比如，假设游戏视频1包括15帧，则通过该TransNetv2基础模型之后输出的原始切分概率可以如下(0.1、0.8、0.7、0.6、0.2、0.3、0.4、0.9、0.8、0.9、0.5、0.2、0.2、0.2、0.2)，而该游戏视频1中的精彩片段的时间戳(以帧号标注)为(4，7)，(10，14)；然后根据该精彩片段的时间戳对该原始切分概率进行权重调整时，可以按照以下规则：该精彩时间戳内的切分概率调高，精彩时间戳外的切分概率调低。即调整后的切分概率可以如下(0.1、0.3、0.2、0.8、0.6、0.7、0.8、0.4、0.3、0.9、0.6、0.7、0.6、0.7、0.2)。然后再基于该阈值规则确定该切分结果，即可以将第4帧与第7帧作为切分点，将第10帧和第14帧作为该切分点。此时，该游戏视频1的事件标签则可以设定为(第4帧至第7帧为精彩片段，第10帧至第14帧为精彩片段)。

在获取到该训练数据之后，将该训练数据输入该TransNetv2基础模型中以输出该训练数据对应的时序特征向量。如图4所示，假设输入图片序列(该图片序列应理解为一个视频按照时序排列的全部视频帧，比如一个视频包括15帧，则在输入该视频时可以理解为输入了一个包括15张图片的图片序列)的高、宽分别为H、W，通道数目为3，批次数量为N(即一次输入的图片数量)，那么输入就是N×W×H×3，输出的向量维度可以为N×4864。

在训练过程中，该TransNetv2基础模型在此该时序特征向量接入分类网络，该分类网络用于判断每个序列的每一个帧是否为事件切分点。本申请中，该分类网络首先输出每一个帧的切分概率值，然后再根据该切分概率与阈值规则进行比对确定候选切分点集；最后对该候选切分点集进行时序去重，然后得到事件切分点。

可选的，本申请中，该阈值规则可以是双阈值规则。具体来说，可以设定如下：即存在一个硬阈值，当一个候选帧的切分概率大于硬阈值，则加入候选切分点集；存在一个软阈值，只有一定范围内的候选帧序列的切分概率都高于软阈值时，序列中间帧加入候选切分点集。

一个示例性方案中，假设序列1的切分概率为(0.1、0.3、0.2、0.8、0.6、0.7、0.8、0.4、0.3、0.9、0.6、0.7、0.6、0.7、0.2)，设定该硬阈值为0.5，该软阈值为3帧内切分概率均大于0.5。则根据上述阈值规则可以归于该候选切分点集的帧号为(4、5、6、7、10、11、12、13、14)，然后再对该候选切分点集进行时序去重处理，则得到的切分点集为(4、7、10、14)。

最后将该分类网络输出的切分结果与事件标签计算损失值，然后基于该损失值对该TransNetv2基础模型进行反向传播更新其网络参数，直到达到训练终止条件，输出该事件切分模型。其中，该训练终止条件可以是训练次数达到设定值或者损失值达到设定值，具体此处不做限定。一个示例性方案中，可以使用二元交叉墒损失函数计算操作值。

二、识别模型的训练

本申请中，该识别模型可以采用如图5所示的Bi-LSTM模型。在训练过程中，其训练框架可以如图6所示：首先，需要训练数据以及初始识别模型，其中，该训练数据在训练过程中需要经过已训练好的事件切分模型、预训练视频特征提取模型以及预训练音频特征提取模型处理，然后得到训练数据的训练特征序列；然后基于该训练特征序列对该Bi-LSTM模型进行训练，以得到该识别模型。

在图5所示的模型结构中，以输入长度为B*Shot-Len*N长度的数据为例(B为批次大小，Shot-Len为单个批次中处理的视频切分片段个数，N为视频切分片段的维度)，使用基于Bi-LSTM模型，对每个视频切分片段都进行精彩片段识别，即经过Bi-LSTM模型识别后，序列输出为B*Shot-Len*2，2为二分类的分数(可以是预测概率值)，通过阈值对该预测概率值进行二值化处理得到视频切分片段的类别。一种示例性方案中，该二值化可以设定为1和0，其中1代表该视频切分片段是精彩片段，0代表该视频切分片段不是精彩片段。

本申请中，在该识别网络输入该特征序列时，还可以对该特征序列进行滑窗处理，以得到具有前后文联系的多个特征序列；然后对该多个特征序列均输出识别结果，然后对于多个识别结果进行选择得到中间识别结果，最后将多个中间识别结果按照时序进行拼接，得到该特征序列的最终识别结果。一个示例性方案中，假设滑窗的窗口大小为N，步长为N/2,每个窗口输出的分类结果为B*N，由于特征序列两端的特征块不能包括充足的前后文信息，因此每个窗口只选取中间长度为N/2的结果，再对所有滑窗结果进行拼接，得到整个视频所有的输出。这样可以使得该识别模型应用了该特征序列中的时序信息，从而使得识别结果更准确。

可选的，本申请中，在对该预测概率值进行二值化处理的过程中，该预测概率值的分布可能出现脉冲噪声，由于脉冲噪声会导致曲线出现锯齿状，从而影响二值化的阈值选择，因此可以先对该预测概率值进行平滑处理(比如采用中值滤波的方式进行平滑处理)得到一个分布状态为平滑曲线的平滑概率值；然后再对该平滑概率值进行二值化处理得到识别结果。

可选的，对于每一个视频来说，其预测得到的概率值的分布情况不同，因此固定阈值有可能导致一个视频不能识别出精彩片段，或者识别出整个视频为精彩片段。为了解决这个问题，可以对不同的视频自适应调整不同的阈值，从而得到相对精彩片段的识别结果。在自适应调整阈值的过程中，可以根据该预测概率值求平均值或者方差值等方式计算得到该阈值，具体方式此处不做限定。

一个示例性方案中，假设yt(t＝0,1,2,3,…,T)是识别模型输出的预测概率值对应的原始分布曲线，而其平滑曲线m＝(m1,…，mn)可以根据如下公式计算得到：

其中Med(y1，y2)表示窗口中的修剪平均值，其中σ为超参数，通常取4，滤波效果如图7所示。

结合上述介绍，下面以终端设备为执行主体，对本申请中数据处理方法进行介绍，请参阅图8，本申请实施例中数据处理方法的一个实施例包括：

801、获取待处理视频数据。

本申请中，该终端设备可以接收第三方发送的待处理视频数据，也可以是由自身摄像头录制生成的待处理视频数据也可以是采用第三方软件对操作界面进行录制生成的待处理视频数据，具体此处不做限定。

802、调用事件切分模型对该待处理视频数据进行切分处理，以得到视频片段序列。

本实施例中，该终端设备调用上述图4所描述训练过程训练得到的事件切分模型对该待处理视频数据进行切分处理，以得到视频片段序列。

一个示例性方案中，一段待处理视频包括60帧视频帧，则在通过该事件切分模型的切分处理之后，其得到的视频片段序列可以表示如下：[(1，10)、(11，30)、(31，45)、(45，60)]。

803、调用视频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的视频特征序列。

本实施例中，该终端设备调用预训练的视频特征提取模型对该视频片段序列中每一个视频片段的关键帧进行视觉特征提取，以得到视频特征序列。应理解的是，该预训练好的视频特征提取模型可以是基于4亿图文对的超大规模数据集上训练得到VisionTransformer，也可以是其他预训练得到的用于图片特征提取的模型，具体此处不做限定，只要可以提取到视频片段较完整的视觉特征即可。

一个示例性方案中，该关键帧可以是该视频片段中起决定性作用的帧；也可以理解为该视频片段中多个视频帧的中间帧。比如该视频片段包括5帧视频帧，则该关键帧可以是第3帧。

804、调用音频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的音频特征序列。

本实施例中，该终端设备调用预训练的音频特征提取模型对该视频片段序列中每一个视频片段的音频数据进行音频特征提取，以得到音频特征序列。应理解的是，该预训练好的音频特征提取模型可以是基于大规模音频数据集AudioSet上预训练得到CNN14，也可以是其他预训练得到的用于对音频数据进行特征提取的模型，具体此处不做限定，只要可以提取到视频片段较完整的音频特征即可。

具体来说，在进行音频特征提取时，可以先将该音频数据转原始波形转换为图像，然后调用相应的模型进行该图像进行特征提取，以得到该音频特征。本实施例中，是将该原始波形转换为梅尔频谱图像，而在实际应用中，还可以将原始波形转换为其他图像，比如语谱图像等等，具体此处不做限定。

可以理解的是，该步骤803与该步骤804之间并无时序限定，可以是先执行步骤803，再执行该步骤804；也可以是先执行步骤804，再执行该步骤803；也可以同时执行该步骤803与该步骤804。具体此处不做限定。

805、将该视频特征序列和该音频特征序列进行特征融合，以得到该待处理视频数据的特征序列。

该终端设备在接收到该视频特征序列和该音频特征序列之后，按照时序将该视频特征序列与该音频特征序列进行特征融合，以得到一个多模态的特征序列。

比如，该视频特征序列可以如下(1，2，3，4，5，6)，则该音频特征序列为(7，8，9，10，11，12)，则得到的多模态特征序列如下(1+7，2+8，3+9，4+10，5+11，6+12)。

806、调用识别模型对该特征序列进行识别处理，以得到该待处理视频数据的识别结果。

本实施例中，该终端设备调用上述图5至图7所描述训练过程训练得到的识别模型对该特征序列进行识别，以得到识别结果。

可选的，为了获取特征序列中的时序信息，在调用该识别模型对该特征序列进行识别处理之前，还需要对该特征序列进行滑窗处理，以得到该特征序列的多个滑窗特征序列；然后对该多个滑窗特征序列进行识别得到多个识别结果；再按照滑窗的步长对多个识别结果进行识别结果选择得到中间识别结果(由于特征序列的前后两端无时序信息，则可以在识别结果的中间段按照步长选择该中间识别结果)；最后将多个中间识别结果进行拼接以得到该最终的识别结果。

下面对本申请中的数据处理装置进行详细描述，请参阅图9，图9为本申请实施例中数据处理装置的一个实施例示意图，数据处理装置20包括：

获取模块201，用于获取待处理视频数据；

处理模块202，用于调用事件切分模型对该待处理视频数据进行切分处理，以得到视频片段序列；调用视频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的视频特征序列；调用音频特征提取模型对该视频片段序列进行特征提取，以得到该视频片段序列的音频特征序列；将该视频特征序列和该音频特征序列进行特征融合，以得到该待处理视频数据的特征序列；调用识别模型对该特征序列进行识别处理，以得到该待处理视频数据的识别结果。

本申请实施例中，提供了一种数据处理装置。采用上述装置，在对该待处理视频数据进行精彩片段识别时，先通过事件切分模型对该待处理视频数据按照时序进行拆分，从而得到一个具有时序信息的视频片段序列；然后对该视频片段序列进行音频特征和视觉特征的提取，并融合得到待处理视频数据的多模态特征；最后将具有时序信息和多模态特征的特征序列输入识别模型，从而得到最终的识别结果。由于具有丰富的听觉和视觉特征，同时又具有时序信息，因此可以提升视频中精彩片段的识别准确度。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的数据处理装置20的另一实施例中，

处理模块202，用于对所述特征序列进行滑窗处理，以得到多个目标特征序列，所述滑窗的长度为N，步长为N/2，所述N为正整数；

根据所述目标概率值确定所述待处理视频数据的识别结果。

本申请实施例中，提供了一种数据处理装置。采用上述装置，在对特征序列进行识别处理时，可以对特征序列进行滑窗处理，从而获取到特征序列的前后文信息，在识别过程中包含了更多的全局特征的同时，也避免了过长的特征依赖，从而提升了视频中精彩片段的识别准确度。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的数据处理装置20的另一实施例中，处理模块202，用于对所述多组预测概率值的每一组预测概率值进行中值滤波处理，以得到多组平滑概率值；

本申请实施例中，提供了一种数据处理装置。采用上述装置，对于预测概率值进行中值滤波处理，这样可以避免出现脉冲噪声，从而使得预测概率值更平缓，进而提升了视频中精彩片段的识别准确度。

处理模块202，用于根据该目标概率值确定第一阈值；

本申请实施例中，提供了一种数据处理装置。采用上述装置，针对不同的视频，根据其预测概率值的具体分布自适应调整一个阈值，从而为每个视频都选择出相对最精彩的视频片段，从而提升方案的使用效果。

处理模块202，用于将该目标概率值中大于该第一阈值的概率值二值化为1，将该目标概率值中小于或者等于该第一阈值的概率值二值化为0，其中，该1用于标记视频片段为精彩片段，该0用于标记视频片段为非精彩片段。

本申请实施例中，提供了一种数据处理装置。采用上述装置，提供一种二值化的具体方案，从而增加方案的可实行性。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的数据处理装置20的另一实施例中，处理模块202，用于对该视频片段序列进行视频和音频分离处理，以得到该视频片段序列的图片数据和音频数据；

本申请实施例中，提供了一种数据处理装置。采用上述装置，采用预训练好的模型来对该待处理视频数据进行视频特征提取，从而可以节省模型的训练资源。同时仅对各个视频片段中的关键帧进行特征提取，这样既能提取出关键信息又不会有较大冗余。

将该音频数据进行等长划分得到多段音频数据；

将该多段音频数据转换为梅尔频谱图；

本申请实施例中，提供了一种数据处理装置。采用上述装置，采用预训练好的模型来对该待处理视频数据进行音频特征提取，从而可以节省模型的训练资源。同时将音频信息转换为梅尔频谱图时，由于梅尔频谱图能够模拟人耳对现实世界声音(特别是人声)的处理，因此在此步骤中可以针对音调敏感程度提取信息，这样可以根据人声特征确定视频是否为精彩片段。即增加了对精彩片段进行识别的特征信息，从而提升了视频中精彩片段的识别准确度。

可选地，在上述图9所对应的实施例的基础上，如图10所示，本申请实施例提供的数据处理装置20的另一实施例中，

获取模块201，用于获取第一训练数据和通用事件切分模型，该第一训练数据包括样本视频和事件标签；

处理模块202，用于调用该通用事件切分模型对该样本视频进行切分处理，以得到该样本视频中各个视频帧的切分概率值；根据该切分概率值确定该样本视频的切分点结果；将该切分分点结果与该事件标签进行损失计算，以得到损失函数；

该装置还包括训练模块203，训练模块203，用于利用该损失函数对该通用事件切分模型进行训练，以得到该事件切分模型。

本申请实施例中，提供了一种数据处理装置。采用上述装置，将通用事件切分模型通过训练迁移到具体的应用场景，从而使得事件切分模型可以更具有针对性，同时也可以节省事件切分模型的训练资源，以及减少训练耗时。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的数据处理装置20的另一实施例中，

处理模块202，用于将该切分概率值与第一阈值和第二阈值进行比较；

本申请实施例中，提供了一种数据处理装置。采用上述装置，在根据全部视频帧的切分概率值确定切分结果时，通过双阈值机制可以输出更好的切分点，同时在时序内去重，可以避免在一定区间内频繁出现切分点，这样使得切分结果更有效。

获取模块201，用于获取游戏视频集合，该游戏数据集合中的每个游戏视频标注有时间戳，该时间戳用于标注游戏视频中的精彩片段；

依此遍历该游戏视频集合，以得到该第一训练数据。

本申请实施例中，提供了一种数据处理装置。采用上述装置，根据游戏视频的具体标注调整通用事件切分模型的切分概率值，从而使得训练数据更具有应用场景的特征，使得该通用事件切分模型的迁移更有效。

获取模块201，用于获取第二训练数据和初始识别模型；

处理模块202，用于调用该事件切分模型对该第二训练数据进行视频切分，以得到训练视频片段序列；调用该视频特征提取模型对该训练视频片段序列进行特征提取，以得到该训练视频片段序列的训练视频特征序列；调用该音频特征提取模型对该训练视频片段序列进行特征提取，以得到该训练视频片段序列的训练音频特征序列；将该训练视频特征序列和该训练音频特征序列进行特征融合，以得到该第二训练数据的训练特征序列；

训练模块203，用于利用该训练特征序列对该初始识别模型进行训练，以得到该识别模型。

本申请实施例中，提供了一种数据处理装置。采用上述装置，延用事件切分模型、视频特征提取模型以及音频特征提取模型的网络参数，可以有效的减少识别模型的训练耗时以及训练资源。同时，在对该待处理视频数据进行精彩片段识别时，先通过事件切分模型对该待处理视频数据按照时序进行拆分，从而得到一个具有时序信息的视频片段序列；然后对该视频片段序列进行音频特征和视觉特征的提取，并融合得到待处理视频数据的多模态特征；最后将具有时序信息和多模态特征的特征序列输入识别模型，从而得到最终的识别结果。由于具有丰富的听觉和视觉特征，同时又具有时序信息，因此可以提升对视频中精彩片段的识别准确度。

处理模块202，用于根据该识别结果对该待处理视频数据进行精彩片段剪辑，以得到目标视频；输出该目标视频。

本申请实施例中，提供了一种数据处理装置。采用上述装置，直接根据视频数据的精彩片段识别结果进行剪辑，生成目标视频，这样可以有效提升视频的传播速度。

本申请提供的数据处理装置可用于服务器，请参阅图11，图11是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由数据处理装置所执行的步骤可以基于该图11所示的服务器结构。

本申请提供的数据处理装置可用于终端设备，请参阅图12，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。在本申请实施例中，以终端设备为智能手机为例进行说明：

图12示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图12，智能手机包括：射频(radio frequency，RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity，WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图12中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对智能手机的各个构成部件进行具体的介绍：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器480处理；另外，将设计上行的数据发送给基站。通常，RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图12中，触控面板431与显示面板441是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与智能手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一智能手机，或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块470，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监测。可选的，处理器480可包括一个或多个处理单元；可选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

智能手机还包括给各个部件供电的电源490(比如电池)，可选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由数据处理装置所执行的步骤可以基于该图12所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理视频数据；

调用事件切分模型对所述待处理视频数据进行切分处理，以得到视频片段序列；

调用视频特征提取模型对所述视频片段序列进行特征提取，以得到所述视频片段序列的视频特征序列；

调用音频特征提取模型对所述视频片段序列进行特征提取，以得到所述视频片段序列的音频特征序列；

将所述视频特征序列和所述音频特征序列进行特征融合，以得到所述待处理视频数据的特征序列；

调用识别模型对所述特征序列进行识别处理，以得到所述待处理视频数据的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述调用识别模型对所述特征序列进行识别处理，以得到所述待处理视频数据的识别结果包括：

对所述特征序列进行滑窗处理，以得到多个目标特征序列，所述滑窗的长度为N，步长为N/2，所述N为正整数；

根据所述目标概率值确定所述待处理视频数据的识别结果。

3.根据权利要求2所述的方法，其特征在于，所述从所述多组预测概率值的每一组预测概率值的中间段选择N/2个预测概率值，并进行拼接以得到目标概率值包括：

对所述多组预测概率值的每一组预测概率值进行中值滤波处理，以得到多组平滑概率值；

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标概率值确定所述待处理视频数据的识别结果包括：

根据所述目标概率值确定第一阈值；

将所述目标概率值一一与所述第一阈值进行比较，并根据第一阈值规则对目标概率值进行二值化处理，以得到所述待处理视频数据的识别结果。

5.根据权利要求4所述的方法，其特征在于，根据第一阈值规则的目标概率值进行二值化处理，以得到所述待处理视频数据的识别结果包括：

将所述目标概率值中大于所述第一阈值的概率值二值化为1，将所述目标概率值中小于或者等于所述第一阈值的概率值二值化为0，其中，所述1用于标记视频片段为精彩片段，所述0用于标记视频片段为非精彩片段。

6.根据权利要求1所述的方法，其特征在于，所述调用视频特征提取模型对所述视频片段序列进行特征提取，以得到所述视频片段序列的视频特征序列包括：

对所述视频片段序列进行视频和音频分离处理，以得到所述视频片段序列的图片数据和音频数据；

调用第一预训练模型对所述图片数据中的关键帧进行特征提取，以得到所述视频片段序列的视频特征序列。

7.根据权利要求1所述的方法，其特征在于，所述调用音频特征提取模型对所述视频片段序列进行特征提取，以得到所述视频片段序列的音频特征序列包括：

将所述音频数据进行等长划分得到多段音频数据；

将所述多段音频数据转换为梅尔频谱图；

调用第二预训练模型对所述梅尔频谱图进行特征提取，以得到所述视频片段序列的音频特征序列。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

获取第一训练数据和通用事件切分模型，所述第一训练数据包括样本视频和事件标签，所述通用事件切分模型为预训练模型；

调用所述通用事件切分模型对所述样本视频进行切分处理，以得到所述样本视频中各个视频帧的切分概率值；

根据所述切分概率值确定所述样本视频的切分点结果；

将所述切分分点结果与所述事件标签进行损失计算，以得到损失函数；

利用所述损失函数对所述通用事件切分模型进行训练，以得到所述事件切分模型。

9.根据权利要求8所述的方法，其特征在于，所述根据所述切分概率值确定所述样本视频的切分点结果包括：

将所述切分概率值与第一阈值和第二阈值进行比较；

根据第二阈值规则从所述切分概率值指示的切分点确定候选切分点集；

对所述候选切分点集中的切分点进行时序区间去重，以得到所述样本视频的切分点结果。

10.根据权利要求8所述的方法，其特征在于，所述第一训练数据为游戏视频训练数据，所述获取第一训练数据包括：

获取游戏视频集合，所述游戏数据集合中的每个游戏视频标注有时间戳，所述时间戳用于标注游戏视频中的精彩片段；

调用所述通用事件切分模型对第一游戏视频进行切分处理，以得到所述第一游戏视频的第一切分概率值；

根据所述第一游戏视频对应的时间戳调整所述第一切分概率值，以得到第二切分概率值；

根据所述第二切分概率值确定所述第一游戏视频的第一切分结果；

将所述第一游戏视频与所述第一切分结果建立映射关系，并归于所述第一训练数据，所述第一切分结果作为所述事件标签，所述第一游戏视频作为所述样本视频；

依此遍历所述游戏视频集合，以得到所述第一训练数据。

11.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

获取第二训练数据和初始识别模型；

调用所述事件切分模型对所述第二训练数据进行视频切分，以得到训练视频片段序列；

调用所述视频特征提取模型对所述训练视频片段序列进行特征提取，以得到所述训练视频片段序列的训练视频特征序列；

调用所述音频特征提取模型对所述训练视频片段序列进行特征提取，以得到所述训练视频片段序列的训练音频特征序列；

将所述训练视频特征序列和所述训练音频特征序列进行特征融合，以得到所述第二训练数据的训练特征序列；

利用所述训练特征序列对所述初始识别模型进行训练，以得到所述识别模型。

12.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

根据所述识别结果对所述待处理视频数据进行精彩片段剪辑，以得到目标视频；

输出所述目标视频。

13.一种数据处理装置，其特征在于，包括：

获取模块，用于获取待处理视频数据；

处理模块，用于调用事件切分模型对所述待处理视频数据进行切分处理，以得到视频片段序列；调用视频特征提取模型对所述视频片段序列进行特征提取，以得到所述视频片段序列的视频特征序列；调用音频特征提取模型对所述视频片段序列进行特征提取，以得到所述视频片段序列的音频特征序列；将所述视频特征序列和所述音频特征序列进行特征融合，以得到所述待处理视频数据的特征序列；调用识别模型对所述特征序列进行识别处理，以得到所述待处理视频数据的识别结果。

14.一种计算机设备，其特征在于，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的方法。