CN113537207A

CN113537207A - 视频处理方法、模型的训练方法、装置以及电子设备

Info

Publication number: CN113537207A
Application number: CN202011530221.1A
Authority: CN
Inventors: 谭维
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-10-22
Anticipated expiration: 2040-12-22
Also published as: CN113537207B

Abstract

本申请实施例提供了一种视频处理方法、模型的训练方法、装置以及电子设备。该方法涉及人工智能的计算机视觉(图像)或机器学习等技术领域。该方法包括：利用目标检测模型检测目标视频的目标比分框的位置，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域，该目标检测模型通过学习比分框的位置得到的；基于该目标比分框的位置，识别该目标视频的视频帧中的比分，以及确定比分变化；根据该比分变化所在的时刻，确定该目标视频中的目标时刻视频段。本申请实施例提供的视频处理方法，能够避免和比分无关的文字的识别，进而能够提升识别视频帧中的比分的准确度。

Description

视频处理方法、模型的训练方法、装置以及电子设备

技术领域

本申请实施例涉及人工智能的计算机视觉(图像)或机器学习等技术领域，并且更具体地，涉及视频处理方法、模型的训练方法、装置以及电子设备。

背景技术

针对比赛视频，在一些场景下，需要定位比赛视频中的进球时刻。

截止目前，关于定于进球时刻的方案有以下两种：

方案1、基于深度学习的事件检测模型，通过大量数据训练让模型自动学习到进球时刻。

方案2、基于视频帧中的比分识别，对视频进行抽帧然后逐帧识别，以得到每一个视频帧上的所有文字，提取文字中的比分，然后根据比分变化定位到进球时刻。

但是，方案1存在两个缺陷：一是需要制作大量的训练数据；二是由于进球场景与普通进攻场景存在较大的相似性，模型很难学习到准确的边界。方案2同样存在缺陷：对足球场上很多地方都可能出现数字，导致无法从视频帧的文字中筛选出正确的比分。

发明内容

本申请实施例提供了一种视频处理方法、模型的训练方法、装置以及电子设备，能够提升识别视频帧中的比分的准确度。

一方面，提供了一种视频处理方法，包括：

利用目标检测模型检测目标视频的目标比分框的位置，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域，该目标检测模型通过学习比分框的位置得到的；

基于该目标比分框的位置，识别该目标视频的视频帧中的比分，以及确定比分变化；

根据该比分变化所在的时刻，确定该目标视频中的目标时刻视频段。另一方面，提供了一种模型的训练方法，包括：

以目标视频为输入，通过该目标视频的目标比分框的位置训练目标检测模型检测，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域。

另一方面，提供了一种识别处理装置，包括：

检测单元，用于利用目标检测模型检测目标视频的目标比分框的位置，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域，该目标检测模型通过学习比分框的位置得到的；

识别单元，用于基于该目标比分框的位置，识别该目标视频的视频帧中的比分，以及确定比分变化；

确定单元，根据该比分变化所在的时刻，确定该目标视频中的目标时刻视频段。

另一方面，本申请实施例提供一种模型的训练装置，包括：

训练单元，用于以目标视频为输入，通过该目标视频的目标比分框的位置训练目标检测模型检测，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域。

另一方面，本申请实施例提供一种电子设备，包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令适于由处理器加载并执行上述视频处理方法或训练方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述视频处理方法或训练方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方法或训练方法。

本申请实施例中，通过目标检测模型先检测目标视频的目标比分框，再基于目标比分框的位置识别目标视频中的视频帧中的比分，避免了直接基于视频帧进行比分的识别，相当于，能够避免和比分无关的文字的识别，进而能够提升识别视频帧中的比分的准确度并提高目标时刻视频段的识别效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的场景的示例。

图2是本申请实施例提供的视频处理方法的示意性流程图。

图3是本申请实施例提供的用于OCR检测的模型的示意性框图。

图4是本申请实施例提供的确定目标比分框的方法的示意性流程图。

图5是本申请实施例提供的基于目标比分框输出所有的进球时刻的方法的示意性流程图。

图6是本申请实施例提供的模型的训练方法的示意性流程图。

图7是本申请实施例提供的视频处理装置的示意性框图。

图8是本申请实施例提供的模型的训练装置的示意性框图。

图9是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的方案可涉及人工智能技术。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision,CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例也可以涉及人工智能技术中的机器学习(Machine Learning,ML)，ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

图1是本申请实施例提供的场景的示例。需要说明的是，图1示出了足球比赛的视频帧，但本申请实施例可适用的场景不局限于图1。换言之，本申请实施例可适用于任何具有比分的视频帧。例如，本申请实施例可适用于针对篮球或乒乓球等比赛视频中的视频帧进行比分识别。

如图1所示，视频帧可显示有足球场地、球门、以及球员(即球员1和球员2)为提升比分识别的准确度。此外，本申请实施例中，将视频帧中的用于显示比赛信息的区域定义为比分牌，并将用于显示比分的区域定义为比分框。其中，比分牌包括比分框，换言之，比分牌所在的区域包括比分框所在的区域。作为示例，比赛信息可包括比分、对手信息、时间信息以及其他信息，对手信息可包括对手1信息和对手2信息，对手信息可以是比赛双方的国旗。作为示例，图1中的时间信息显示为22:29。

针对比赛视频，在一些场景下，需要定位比赛视频中的进球时刻。比如针对需要制备进球集锦的场景。

截止目前，关于定于进球时刻的方案有以下两种：

方案2、基于OCR的比分识别，对视频进行抽帧然后逐帧OCR得到所有文字，提取文字中的数字比分，然后根据比分变化定位到进球时刻。

但是，方案1存在两个缺陷：一是需要制作大量的训练数据；二是由于进球场景与普通进攻场景存在较大的相似性，模型很难学习到准确的边界。方案2同样存在缺陷：一是对足球场上很多地方都可能出现数字，导致全图OCR无法筛选出正确的比分；二是不同足球比赛比分牌的位置并不固定，无法通过OCR文字的位置判断其是否是比分。

本申请实施例中，结合图1所示的比分框，提供了一种视频处理方法、模型的训练方法、装置以及电子设备，能够提升识别视频帧中的比分的准确度。

图2是本申请实施例提供的视频处理方法100的示意性流程图。需要说明的，本申请实施例提供的方案可通过任何具有数据处理能力的电子设备执行。例如，该电子设备可实施为服务器。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。为便于描述，下文以基于视频处理装置为例对本申请提供的预测方法进行说明。

如图2所示，该方法100可包括：

S101，利用目标检测模型检测目标视频的目标比分框的位置，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域，该目标检测模型通过学习比分框的位置得到的；

S102，基于该目标比分框的位置，识别该目标视频的视频帧中的比分，以及确定比分变化；

S103，根据该比分变化所在的时刻，确定该目标视频中的目标时刻视频段。

简言之，通过引入比分框，继而可基于比分框的位置训练目标检测模型，基于此，视频处理装置可通过目标检测模型先检测目标视频的目标比分框，然后，可基于目标比分框的位置识别目标视频中的视频帧中的比分，进而确定目标时刻视频段。

本申请实施例中，通过引入比分框，视频处理装置通过目标检测模型先检测目标视频的目标比分框，再基于目标比分框的位置识别目标视频中的视频帧中的比分，避免了直接基于视频帧进行比分的识别，相当于，能够避免和比分无关的文字的识别，进而能够提升识别视频帧中的比分的准确度并提高目标时刻视频段的识别效果。

需要说明的是，本申请实施例对目标检测模型的具体类别不作限定，作为示例，该目标检测模型可以采用通用的目标检测框架，如YOLO，Fast R-CNN以及Faster R-CNN等。本申请实施例的目标检测模型旨在对视频帧中的比分框的位置进行检测。此外，本申请实施例中的比分变化可以理解为比分发生变化或分值发生变化的比分。例如，针对比赛视频，可以是进球时刻下的比分变化。

在本申请的一些实施例中，该目标检测模型通过学习比分牌和比分框之间的位置关系得到的；该S101可包括：

以该目标视频为输入，通过该目标检测模型检测该目标视频的目标比分牌的位置和该目标比分框的位置，该目标比分牌用于表征该目标视频的视频帧中的比赛信息所在的区域，该目标比分牌包括该目标比分框。

由于比分牌的边界相对比分框的边界更为明显，本申请实施例中，还可以引入比分牌的概念，基于此，可基于比分牌和比分框之间的位置训练目标检测模型，不仅能够实现基于比分框的位置训练该目标检测模型，还能够降低该目标检测模型的训练复杂度。在实际应用过程中，可通过目标检测模型可直接识别目标比分牌的位置，然后可通过目标比分牌的位置确定目标比分框的位置，即通过该目标检测模型可检测目标比分牌的位置和目标比分框的位置。

换言之，由于比分的边缘特征不是太明显，单独基于比分的位置难以训练目标检测模型，本申请实施例通过引入多标签(即比分牌和比分框)学习的方案，同时基于比分牌和比分框对目标检测模型进行训练，使得目标检测模型在训练过程中自动关联两者关系从而学习到更多特征用于检测，进而提升检测效果。

在本申请的一些实施例中，该S101可包括：

对该目标视频进行抽帧，得到多张样本帧；通过该目标检测模型获取该多张样本帧中每一张样本帧的比分框的位置；通过光学字符识别(Optical CharacterRecognition,OCR)检测该每一张样本帧的比分框中的数字以及数字所在的文本位置；针对该每一张样本帧的比分框，在比分框包括两个数字的情况下，将该两个数字所在的文本位置进行合并，以得到该每一张样本帧的文本框；基于该每一张样本帧的文本框，确定该目标比分框。

简言之，视频处理可基于OCR检测的样本帧的文本框，确定目标比分框。

本申请实施例中，一方面，通过该目标检测模型获取的该多张样本帧中每一张样本帧的比分框的位置有可能和比分的真实所在位置有偏差，通过OCR检测多张样本帧中每一张样本帧的文本框，并基于该每一张样本帧的文本框，确定该目标比分框，能够对该目标检测模型检测的比分框的位置进行修正，以提高目标比分框的位置的准确度。此外，通过对样本帧的比分框是否包括两个数字，可实现对比分框是否为真实比分所在的区域的校验，例如样本帧的比分框包括四个数字，很有可能是时间信息所在的区域，而不是比分所在的区域，进而实现对比分框的真假进行校验，保证目标比分框的位置的准确度。

结合目标检测模型来说，本申请实施例中，通过目标检测模型和OCR检测可目标比分框的位置进行双重校验，能够保证目标比分框的位置的准确度。

需要说明的是，本申请实施例对OCR的具体实现方式不作限定。图3是本申请实施例提供的用于OCR检测的模型的示意性框图。如图3所示，本申请实施例旨在通过输入的样本帧，检测样本帧的比分框内的数字以及数字所在的文本位置。样本帧的比分框内的数字可用于对比分框的真假进行校验，样本帧的比分框内的数字所在的文本位置可用于对目标比分框的位置进行修正。

在一种实现方式中，OCR可以采用通用模型，在通用模型基础上加入批注有比分框的视频进行训练。OCR可以理解为对比赛视频的视频帧进行分析识别处理，获取文字信息的过程。亦即将视频帧中的文字进行识别，并以文本的形式返回。基于OCR对视频帧进行识别的过程可包括视频帧预处理，文字检测以及文本识别过程。其中，视频帧预处理通常是针对视频帧的成像问题进行修正。常见的预处理过程包括：几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。文字检测即检测文本的所在位置和范围及其布局。通常也包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字，文字的范围有多大。文本识别是在文本检测的基础上，对文本内容进行识别。文字识别主要解决的问题是每个文字是什么。识别出的文本通常需要再次核对以保证其正确性。文本校正也可认为文字识别过程中的环节。此外，文字识别过程中，当识别的内容是由词库中的词汇组成时，可以称作有词典识别(Lexicon-based)，反之，则可以称作无词典识别(Lexicon-free)。

此外，本申请实施例对该多个样本帧的具体数量和抽帧方式不作限定。例如，该多个样本帧的数量可以是1000，也可以是其他数值。再如，可以通过随机抽帧的方式对该目标视频进行抽帧，得到多张样本帧，也可以采取预设的抽帧方式对该目标视频进行抽帧，得到多张样本帧。还应理解，本申请实施例中的样本帧实质上也是目标视频的视频帧，只是样本帧用于确定目标视频的目标比分框的位置。

在本申请的一些实施例中，基于该每一张样本帧的文本框，可以通过以下方式确定该目标比分框：

计算该每一张样本帧的文本框相对该多张样本帧中的其他样本帧的文本框的交并比(Intersection over Union，loU)；聚类loU大于或等于预设阈值的文本框，得到文本框集合；确定该文本框集合中的文本框的位置的平均值；将该文本框集合中的文本框的位置的平均值，确定为该目标比分框的位置。

本申请实施例中，IoU可用作样本帧和其他样本帧的重叠程度的测量标准。即通过比较每一个样本帧和其他样本帧的相关度，以对样本帧的真假情况进行验证，相关度越高则IoU越高。IoU相当于两个样本帧的区域重叠的部分除以两个样本帧的区域的集合部分得出的结果。loU是计算两个样本帧的的边界框交集和并集之比。假设两个样本帧的的并集是两个边界框绿色阴影区域，而交集是这个橙色阴影区域，IoU就是交集的大小(橙色阴影面积)除以绿色阴影的并集面积。

结合目标检测模型和OCR检测来说，本申请实施例中，通过目标检测模型、OCR检测以及IoU验证可目标比分框的位置进行三重校验，能够保证目标比分框的位置的准确度。

本申请实施例中，假设该多张样本帧中的其他样本帧包括多个样本帧，则每一张样本帧的文本框相对该多张样本帧中的其他样本帧的文本框的loU可包括多个loU，此时，该每一张样本帧的文本框相对该多张样本帧中的其他样本帧的文本框的loU可以是该多个loU的平均值；也可以基于多个阈值将该多个loU划分为多个集合，并将成员最多的集合所对应的阈值作为每一张样本帧的文本框相对该多张样本帧中的其他样本帧的文本框的loU。举例来说，假设该多张样本帧中的其他样本帧包括4个样本帧，即样本帧1、样本帧2、样本帧3以及样本帧4，则样本帧1分别相对样本帧2、样本帧3以及样本帧4的loU为0.5、0.7以及0.9，此时，样本帧1相对其他样本帧的loU可以是0.7，也可以以0.5和0.7作为阈值，将0.5、0.7以及0.9划分为第一集合和第二集合，第一集合包括包括大于或等于0.5的loU，即仅包括一个loU，第二集合包括大于或等于0.7的loU，即包括0.7和0.9，此时，可以将成员最多的集合(即第二集合)所对应的阈值(即0.7)，作为样本帧1相对其他样本帧的loU。

在本申请的一些实施例中，该S102可包括：

对该目标视频进行抽帧，得到多张视频帧；

基于该目标比分框的位置裁剪该多张视频帧，得到多张比分图；

通过光学字符识别OCR检测该多张比分图中的每一张比分图，得到该多张视频帧中的每一个视频帧中的比分。

通过训练目标检测(Object Detection)模型，检测出目标视频的视频帧的目标比分框的位置，继而可直接针对基于该目标比分框的位置裁剪该多张视频帧中的每一张视频帧，得到多张比分图，相当于，可基于目标比分框的位置直接对该多张视频帧分别进行抠图，以得到该多张比分图，最后基于该多张比分图进行OCR检测；基于此，减少了视频帧中和比分框无关的区域的信息的识别，不仅能够准确定位比分框，提升识别效果，还能够降低识别的工作量，提升识别效率。

此外，需要说明的是，通常情况下，根据识别场景，可大致将用于进行OCR检测的模型分为识别特定场景的专用模型和识别多种场景的通用模型。比如证件识别和车牌识别就是针对特定场景的识别，即需要采用专用模型进行识别。本申请实施例中，通过裁剪过程将视频帧转化为比分图，进而直接对比分图进行识别，基于此，可降低对模型的要求，即只要能够进OCR检测的模型均适用于本申请提供的方案，提升了方案的实用性。

在本申请的一些实施例中，该通过光学字符识别OCR检测该多张比分图中的每一张比分图，可以通过以下方式得到该多张视频帧中的每一个视频帧中的比分：

通过OCR检测该多张比分图中的每一张比分图中的数字；针对该多张比分图中的每一张比分图，在比分图包括两个数字的情况下，将该该两个数字确定为视频帧中的比分，得到该多张视频帧中的每一个视频帧中的比分。

换言之，通过OCR检测该多张比分图中的每一张比分图中的比分的时候，需要基于比分图中的数字的数量对检测到的数字的格式是否为比分的格式进行校验，以保证比分的准确度。

在本申请的一些实施例中，该S102可包括：

按照该多张视频帧的时间顺序对该多张视频帧中的比分进行排序，得到有效比分列表；基于该有效比分列表确定该目标视频的所有比分变化；

基于此，该S103可包括：

根据该所有比分变化所在的时刻，确定该目标视频的所有目标时刻视频段。

换言之，可基于多个图像帧的的时序形成有效比分列表，进而，基于该有效比分列表确定该所有比分变化所在的时刻或该目标视频的所有目标时刻视频段。

本申请实施例中，结合多个图像帧的的时序形成有效比分列表，并通过该有效比分列表，确定该目标视频的所有该所有比分变化所在的时刻，避免了通过模型预测该所有比分变化所在的时刻的不确定性，进而，能够提升定位比分变化所在的时刻的准确度。

在本申请的一些实施例中，基于该有效比分列表，可以通过以下方式确定该目标视频的该所有比分变化所在的时刻：

获取该有效比分列表的前N个比分的众数，N为大于或等于2的数值；将该前N个比分的众数确定为上一时刻比分；通过遍历该有效比分列表，确定相对该上一时刻比分发生变化的比分；将发生变化的比分重新确定为该上一时刻比分；通过遍历该有效比分列表，重新确定相对该上一时刻比分发生变化的比分，直至不存在发生变化的比分，将已确定的所有发生变化的比分确定为该所有比分变化。

其中，众数是总体中最普遍出现的标志值。即数列中出现次数最多的数，是对一般水平描述的重要补充指标。需要注意的是，一组数列可能没有众数、或者有多个众数。比如数列1包括1、2、3、4、5，就没有众数；而数列2包括1、2、2、3、3，就含有两个众数，分比为2和3。本申请实施例中，为了保证前N个比分存在众数，可将N的值确定为大于等于2的值。例如，N可以等于10。

本申请实施例中，通过遍历该有效比分列表，确定相对该上一时刻比分发生变化的比分，相当于，通过遍历该有效比分列表，查找发生跳变的比分，能够提升定位比分变化的精准度。

在本申请的一些实施例中，通过遍历该有效比分列表，可以通过以下方式确定相对该上一时刻比分发生变化的比分：

通过遍历该有效比分列表，在当前比分相对该上一时刻的比分单边加1，且该当前比分小于该当前比分之后的M个比分的众数的情况下，将该当前比分确定为相对该上一时刻比分发生变化的比分，M为大于或等于2的数值。

本申请实施例中，相对该上一时刻比分，通过遍历该有效比分列表确定比分发生变化的时刻的过程中，通过判断当前时刻的比分相对该上一时刻比分单边加1，可确定出比分发生跳变的时刻，进而实现对比分发生变化的时刻的定位；此外，通过确定该当前时刻的比分是否小于该当前时刻的比分之后的M个比分的众数，可对定位出的比分发生变化的时刻是否准确进行验证，进而能够提升定位比分发生变化的时刻的准确度。例如，即使当前时刻的比分相对该上一时刻的比分单边加1，如果当前时刻的比分大于或等于该当前时刻的比分之后的M个比分的众数，则说明当前时刻不是发生比分跳变的时刻，而是已经发生了比分跳变的时刻之后的时刻。可选的，M为大于或等于2的数值。

简言之，当前时刻的比分相对该上一时刻的比分单边加1，且该当前时刻的比分小于该当前时刻的比分之后的M个比分的的众数，可以准确的定位比分发生跳变的时刻，进而，能够提升定位比分发生变化的时刻的精准度。

在本申请的一些实施例中，利用应用程序接口(Application ProgrammingInterface，API)，基于该有效比分列表确定该目标视频的所有比分发生变化的时刻。

简言之，可通过API直接计算出目标视频的所有比分发生变化的时刻。可选的，API可为基于浏览器的拓展(extension)API。当然，API也可以通过其他方式实现，本申请实施例对此不作具体限定。

在本申请的一些实施例中，该方法100还可包括：

输出该比分变化所在的时刻和每一个时刻下的比分；或

输出该目标时刻视频段。

即，输出该目标视频的所有比分发生变化的时刻和每一个比分发生变化的时刻的比分；或基于该目标视频的所有比分发生变化的时刻，剪辑该目标视频，以得到该目标视频的所有目标时刻视频段。

例如，根据用户需求可以输出该目标视频的所有比分发生变化的时刻和每一个比分发生变化的时刻的比分，或者，根据用户需求可以基于比分发生变化的时刻剪辑出该目标视频的所有目标时刻视频段。

在实际业务场景中，可以自动输出该目标视频的所有比分发生变化的时刻和每一个比分发生变化的时刻的比分，或自动剪辑出该目标视频的所有目标时刻视频段，能够节约大量的人工成本并减少人为误差。

在本申请的一些实施例中，该方法100还可包括：

将该目标视频的最后一次比分变化所在的时刻下的比分，确定为该目标视频的比分结果；将该比分结果作为该目标视频的标签。

例如，根据用户需求可以直接返回比分结果用于视频标签。

在实际业务场景中，可以自动输出目标视频的标签，能够节约大量的人工成本并减少人为误差。

在具体实现中，用户上传目标视频或者目标视频的地址并指示操作需求，API可直接计算出目标视频的所有比分发生变化的时刻，并基于目标视频的所有比分发生变化的时刻和操作需求对进行相应处理操作。可选的，目标视频的地址包括但不限于统一资源定位器(Uniform Resource Locator，URL)。可选的，本申请中的操作需求可以是制作视频集锦的需求，也可以是直接输出该目标视频的所有比分发生变化的时刻和每一个比分发生变化的时刻的比分的需求，还可以是将比分结果作为该目标视频的标签的需求。当然，该操作需求还可以是其他需求，该地址可以通过其他方式实现，本申请实施例对此不作具体限定。

图4是本申请实施例提供的确定目标比分框的方法200的示意性流程图。

如图4所示，该方法200可包括以下中的部分或全部内容：

S201，获取目标视频。

S202，对目标视频进行随机抽帧，得到多个样本帧。

S203，通过目标检测模型检测每一个样本帧中比分牌的位置和比分框的位置。

S204，通过OCR，识别每一个比分框中的数字和该数字所在的文本位置。

S205，确定该每一个比分框上是否包括两个数字？

S206，在比分框包括两个数字的情况下，合并这两个数字所在的文本位置，得到样本帧的文本框。在比分框不是包括两个数字的情况下，返回到S204对当前比分框的数字和数字所在的文本位置重新进行识别。

S207，是否已遍历该多个样本帧？

S208，在已遍历该多个样本帧的情况下，计算每一张样本帧的文本框的IOU。在未遍历该多个样本帧的情况下，返回到S204对下一个比分框的数字和数字所在的文本位置进行识别。

S209，聚类IOU大于0.7的文本框，得到文本框集合。

S210，确定文本框集合中文本框的位置的平均值。

S211，将文本框集合中文本框的位置的平均值，确定为目标视频的比分框的位置。

本申请实施例中，通过目标检测模型、OCR检测以及IoU验证可目标比分框的位置进行三重校验，能够保证目标比分框的位置的准确度并降低误检测率。

下面以比分变化为进球时刻的比分变化为例，对本申请的方案进行说明。

图5是本申请实施例提供的基于目标比分框输出所有的进球时刻的方法300的示意性流程图。

如图5所示，该方法300可包括以下中的部分或全部内容：

S301，通过抽帧获取多张视频帧，并基于目标视频的比分框的位置裁剪该多张视频帧，得到多张比分图。

S302，通过OCR检测该多张比分图中的每一个比分图，得到每一个视频帧中的比分。

S303，确定比分图是否包括两个数字？

S304，在比分图包括两个数字的情况下，将该两个数字，添加至有效比分列表。换言之，有效比分列表中的元素即为每一时刻的比分。在比分图不是包括两个数字的情况下，返回到S302对当前比分框的数字重新进行识别。

S305，获取有效比分列表的前10个比分的众数，得到上一刻比分。

S306，基于该上一刻比分遍历有效比分列表。

S307，判断当前比分是否满足：当前时刻的比分相对该上一时刻比分单边加1，且该当前时刻的比分小于该当前时刻的比分之后的10个比分的众数？

S308，在当前时刻的比分相对该上一时刻比分单边加1，且该当前时刻的比分小于该当前时刻的比分之后的10个比分的众数的情况下，将当前时刻的比分添加至进球时刻列表；否则，重新执行S306。

S309，确定循环是否结束？

S310，在循环结束的情况下，输出所有的进球时刻。

S311，在循环未结束的情况下，将当前时刻的比分确定为上一刻比分重新执行S306。

本申请实施例中，一方面，结合多个图像帧的的时序形成有效比分列表，并通过该有效比分列表，确定该目标视频的所有进球时刻，避免了通过模型预测进球时刻的不确定性，进而，能够提升定位进球时刻的准确度。另一方面，通过遍历该有效比分列表，确定相对该上一时刻比分的进球时刻，相当于，通过遍历该有效比分列表，查找比分发生跳变的时刻，以进一步提升定位进球时刻的精准度。另一方面，通过逻辑条件查收比分发生跳变的时刻，可以准确的定位比分发生跳变的进球时刻，以进一步提升定位进球时刻的精准度。

图6是本申请实施例提供的模型的训练方法320的示意性流程图。

如图6所示，该方法320可包括：

S321，以目标视频为输入，通过该目标视频的目标比分框的位置训练目标检测模型检测，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域。

在本申请的一些实施例中，该S321可包括：

通过该目标视频的目标比分牌和该目标比分框之间的位置关系训练该目标检测模型，该目标比分牌用于表征该目标视频的视频帧中的比赛信息所在的区域，该目标比分牌包括该目标比分框。

在本申请的一些实施例中，通过该目标视频的目标比分框的位置训练目标检测模型检测可通过以下方式实现：

对该目标视频进行抽帧，得到多张样本帧；

通过该目标检测模型获取该多张样本帧中每一张样本帧的比分框的位置；

通过光学字符识别OCR检测该每一张样本帧的比分框中的数字以及数字所在的文本位置；

针对该每一张样本帧的比分框，在比分框包括两个数字的情况下，将该两个数字所在的文本位置进行合并，以得到该每一张样本帧的文本框；

基于该目标比分框的位置训练该每一张样本帧的文本框。

在本申请的一些实施例中，基于该目标比分框的位置训练该每一张样本帧的文本框，可通过以下方式实现：

计算该每一张样本帧的文本框相对该多张样本帧中的其他样本帧的文本框的交并比loU；

聚类loU大于或等于预设阈值的文本框，得到文本框集合；

确定该文本框集合中的文本框的位置的平均值；

基于该目标比分框的位置训练该文本框集合中的文本框的位置的平均值。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的装置进行说明。

图7是本申请实施例提供的视频处理装置400的示意性框图。

如图7所示，该视频处理装置400可包括：

检测单元401，用于利用目标检测模型检测目标视频的目标比分框的位置，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域，该目标检测模型通过学习比分框的位置得到的；

识别单元402，用于基于该目标比分框的位置，识别该目标视频的视频帧中的比分，以及确定比分变化；

确定单元403，根据该比分变化所在的时刻，确定该目标视频中的目标时刻视频段。

在本申请的一些实施例中，该目标检测模型通过学习比分牌和比分框之间的位置关系得到的；该检测单元401具体用于：

在本申请的一些实施例中，该检测单元401具体用于：

对该目标视频进行抽帧，得到多张样本帧；

基于该每一张样本帧的文本框，确定该目标比分框。

在本申请的一些实施例中，该检测单元401具体用于：

聚类loU大于或等于预设阈值的文本框，得到文本框集合；

确定该文本框集合中的文本框的位置的平均值；

将该文本框集合中的文本框的位置的平均值，确定为该目标比分框的位置。

在本申请的一些实施例中，该识别单元402具体用于：

对该目标视频进行抽帧，得到多张视频帧；

在本申请的一些实施例中，该识别单元402具体用于：

通过该OCR检测该多张比分图中的每一张比分图中的数字；

针对该多张比分图中的每一张比分图，在比分图包括两个数字的情况下，将该该两个数字确定为视频帧中的比分，得到该多张视频帧中的每一个视频帧中的比分。

在本申请的一些实施例中，该识别单元402具体用于：

按照该多张视频帧的时间顺序对该多张视频帧中的比分进行排序，得到有效比分列表；

基于该有效比分列表确定该目标视频的所有比分变化；

该确定单元403具体用于：

在本申请的一些实施例中，该识别单元402具体用于：

获取该有效比分列表的前N个比分的众数，N为大于或等于2的数值；

将该前N个比分的众数确定为上一时刻比分；

通过遍历该有效比分列表，确定相对该上一时刻比分发生变化的比分；

将发生变化的比分重新确定为该上一时刻比分；

通过遍历该有效比分列表，重新确定相对该上一时刻比分发生变化的比分，直至不存在发生变化的比分，将已确定的所有发生变化的比分确定为该所有比分变化。

在本申请的一些实施例中，该识别单元402具体用于：

在本申请的一些实施例中，该确定单元403还用于：

输出该比分变化所在的时刻和每一个时刻下的比分；或

输出该目标时刻视频段。

在本申请的一些实施例中，该确定单元403还用于：

将该目标视频的最后一次比分变化所在的时刻下的比分，确定为该目标视频的比分结果；

将该比分结果作为该目标视频的标签。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，视频处理400可以对应于执行本申请实施例的方法100至300中的相应主体，并且视频处理400中的各个单元分别为了实现方法100至300中的相应流程，为了简洁，在此不再赘述。

图8是本申请实施例提供的模型的训练装置410的示意性框图。

如图8所示，该训练装置410可包括：

训练单元411，用于以目标视频为输入，通过该目标视频的目标比分框的位置训练目标检测模型检测，该目标比分框用于表征该目标视频的视频帧中的比分所在的区域。

在本申请的一些实施例中，该训练单元411具体用于：

对该目标视频进行抽帧，得到多张样本帧；

基于该目标比分框的位置训练该每一张样本帧的文本框。

在本申请的一些实施例中，该训练单元411具体用于：

聚类loU大于或等于预设阈值的文本框，得到文本框集合；

确定该文本框集合中的文本框的位置的平均值；

还应当理解，本申请实施例涉及的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造本申请实施例涉及的视频处理装置，以及来实现本申请实施例的视频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本申请实施例的相应方法。

换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图9是本申请实施例提供的电子设备500的示意结构图。

如图9所示，该电子设备500至少包括处理器510以及计算机可读存储介质520。其中，处理器510以及计算机可读存储介质520可通过总线或者其它方式连接。计算机可读存储介质520用于存储计算机程序521，计算机程序521包括计算机指令，处理器510用于执行计算机可读存储介质520存储的计算机指令。处理器510是电子设备500的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

作为示例，处理器510也可称为中央处理器(CentralProcessingUnit，CPU)。处理器510可以包括但不限于：通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

作为示例，计算机可读存储介质520可以是高速RAM存储器，也可以是非不稳定的存储器(Non-VolatileMemory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器510的计算机可读存储介质。具体而言，计算机可读存储介质520包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在一种实现方式中，该电子设备500可以是图7所示的视频处理装置400；该计算机可读存储介质520中存储有计算机指令；由处理器510加载并执行计算机可读存储介质520中存放的计算机指令，以实现图2至图5所示方法实施例中的相应步骤；具体实现中，计算机可读存储介质520中的计算机指令由处理器510加载并执行相应步骤，为避免重复，此处不再赘述。

根据本申请的另一方面，本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是电子设备500中的记忆设备，用于存放程序和数据。例如，计算机可读存储介质520。可以理解的是，此处的计算机可读存储介质520既可以包括电子设备500中的内置存储介质，当然也可以包括电子设备500所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备500的操作系统。并且，在该存储空间中还存放了适于被处理器510加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序521(包括程序代码)。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，计算机程序521。此时，数据处理设备500可以是计算机，处理器510从计算机可读存储介质520读取该计算机指令，处理器510执行该计算机指令，使得该计算机执行上述各种可选方式中提供的视频处理方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后需要说明的是，以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

利用目标检测模型检测目标视频的目标比分框的位置，所述目标比分框用于表征所述目标视频的视频帧中的比分所在的区域，所述目标检测模型通过学习比分框的位置得到的；

基于所述目标比分框的位置，识别所述目标视频的视频帧中的比分，以及确定比分变化；

根据所述比分变化所在的时刻，确定所述目标视频中的目标时刻视频段。

2.根据权利要求1所述的方法，其特征在于，所述目标检测模型通过学习比分牌和比分框之间的位置关系得到的；

所述利用目标检测模型检测目标视频的目标比分框的位置，包括：

以所述目标视频为输入，通过所述目标检测模型检测所述目标视频的目标比分牌的位置和所述目标比分框的位置，所述目标比分牌用于表征所述目标视频的视频帧中的比赛信息所在的区域，所述目标比分牌包括所述目标比分框。

3.根据权利要求1所述的方法，其特征在于，所述利用目标检测模型检测目标视频的目标比分框的位置，包括：

对所述目标视频进行抽帧，得到多张样本帧；

通过所述目标检测模型获取所述多张样本帧中每一张样本帧的比分框的位置；

通过光学字符识别OCR检测所述每一张样本帧的比分框中的数字以及数字所在的文本位置；

针对所述每一张样本帧的比分框，在比分框包括两个数字的情况下，将所述两个数字所在的文本位置进行合并，以得到所述每一张样本帧的文本框；

基于所述每一张样本帧的文本框，确定所述目标比分框。

4.根据权利要求3所述的方法，其特征在于，所述基于所述每一张样本帧的文本框，确定所述目标比分框，包括：

计算所述每一张样本帧的文本框相对所述多张样本帧中的其他样本帧的文本框的交并比loU；

聚类loU大于或等于预设阈值的文本框，得到文本框集合；

确定所述文本框集合中的文本框的位置的平均值；

将所述文本框集合中的文本框的位置的平均值，确定为所述目标比分框的位置。

5.根据权利要求1所述的方法，其特征在于，所述基于所述目标比分框的位置识别所述目标视频的视频帧中的比分，包括：

对所述目标视频进行抽帧，得到多张视频帧；

基于所述目标比分框的位置裁剪所述多张视频帧，得到多张比分图；

通过光学字符识别OCR检测所述多张比分图中的每一张比分图，得到所述多张视频帧中的每一个视频帧中的比分。

6.根据权利要求5所述的方法，其特征在于，所述通过光学字符识别OCR检测所述多张比分图中的每一张比分图，得到所述多张视频帧中的每一个视频帧中的比分，包括：

通过所述OCR检测所述多张比分图中的每一张比分图中的数字；

针对所述多张比分图中的每一张比分图，在比分图包括两个数字的情况下，将所述两个数字确定为视频帧中的比分，得到所述多张视频帧中的每一个视频帧中的比分。

7.根据权利要求5所述的方法，其特征在于，所述基于所述目标比分框的位置，识别所述目标视频的视频帧中的比分，以及确定比分变化，包括：

按照所述多张视频帧的时间顺序对所述多张视频帧中的比分进行排序，得到有效比分列表；

基于所述有效比分列表确定所述目标视频的所有比分变化；

所述根据所述比分变化所在的时刻，确定目标视频中的目标时刻视频段，包括：

根据所述所有比分变化所在的时刻，确定所述目标视频的所有目标时刻视频段。

8.根据权利要求7所述的方法，其特征在于，所述基于所述有效比分列表确定所述目标视频的所有比分变化，包括：

获取所述有效比分列表的前N个比分的众数，N为大于或等于2的数值；

将所述前N个比分的众数确定为上一时刻比分；

通过遍历所述有效比分列表，确定相对所述上一时刻比分发生变化的比分；

将发生变化的比分重新确定为所述上一时刻比分；

通过遍历所述有效比分列表，重新确定相对所述上一时刻比分发生变化的比分，直至不存在发生变化的比分，将已确定的所有发生变化的比分确定为所述所有比分变化。

9.根据权利要求8所述的方法，其特征在于，所述通过遍历所述有效比分列表，确定相对所述上一时刻比分发生变化的比分，包括：

通过遍历所述有效比分列表，在当前比分相对所述上一时刻的比分单边加1，且所述当前比分小于所述当前比分之后的M个比分的众数的情况下，将所述当前比分确定为相对所述上一时刻比分发生变化的比分，M为大于或等于2的数值。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出所述比分变化所在的时刻和每一个时刻下的比分；或

输出所述目标时刻视频段。

11.根据权利要求1～10任一项所述的方法，其特征在于，所述方法还包括：

将所述目标视频的最后一次比分变化所在的时刻下的比分，确定为所述目标视频的比分结果；

将所述比分结果作为所述目标视频的标签。

12.一种模型的训练方法，包括：

以目标视频为输入，通过所述目标视频的目标比分框的位置训练目标检测模型检测，所述目标比分框用于表征所述目标视频的视频帧中的比分所在的区域。

13.根据权利要求12所述的方法，其特征在于，所述通过所述目标视频的目标比分框的位置训练目标检测模型检测，包括：

通过所述目标视频的目标比分牌和所述目标比分框之间的位置关系训练所述目标检测模型，所述目标比分牌用于表征所述目标视频的视频帧中的比赛信息所在的区域，所述目标比分牌包括所述目标比分框。

14.根据权利要求12所述的方法，其特征在于，所述通过所述目标视频的目标比分框的位置训练目标检测模型检测，包括：

对所述目标视频进行抽帧，得到多张样本帧；

基于所述目标比分框的位置训练所述每一张样本帧的文本框。

15.根据权利要求14所述的方法，其特征在于，所述基于所述目标比分框的位置训练所述每一张样本帧的文本框，包括：

聚类loU大于或等于预设阈值的文本框，得到文本框集合；

确定所述文本框集合中的文本框的位置的平均值；

基于所述目标比分框的位置训练所述文本框集合中的文本框的位置的平均值。

16.一种识别处理装置，其特征在于，包括：

检测单元，用于利用目标检测模型检测目标视频的目标比分框的位置，所述目标比分框用于表征所述目标视频的视频帧中的比分所在的区域，所述目标检测模型通过学习比分框的位置得到的；

识别单元，用于基于所述目标比分框的位置，识别所述目标视频的视频帧中的比分，以及确定比分变化；

确定单元，根据所述比分变化所在的时刻，确定所述目标视频中的目标时刻视频段。

17.一种模型的训练装置，包括：

训练单元，用于以目标视频为输入，通过所述目标视频的目标比分框的位置训练目标检测模型检测，所述目标比分框用于表征所述目标视频的视频帧中的比分所在的区域。

18.一种电子设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至11中任一项所述的视频处理方法或如权利要求12至15中任一项所述的识别比分框的训练方法。