CN110781881A

CN110781881A - 一种视频中的赛事比分识别方法、装置、设备及存储介质

Info

Publication number: CN110781881A
Application number: CN201910852491.5A
Authority: CN
Inventors: 龚国平; 徐叙远; 吴韬; 杨喻茸
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-02-11

Abstract

本申请公开了一种视频中的赛事比分识别方法、装置、设备及存储介质，所述方法包括：对目标赛事的视频进行视频解码，得到视频帧图像；确定视频帧图像中的文本区域；根据标准比分字符宽高比从所述文本区域确定多个候选文本区域；基于数字字符识别模型分别对多个候选文本区域的图像进行数字字符识别，得到多个数字字符；根据多个数字字符对应的候选文本区域在视频帧图像中的位置信息，将多个数字字符转换成赛事比分；计算赛事比分中的两个分值对应的位置间的间距；当间距与所述标准比分间距相匹配时，确定赛事比分为目标赛事的赛事比分。利用本申请提供的技术方案可以提高比分识别准确率和处理速度，满足实际业务需求中对实时性的要求。

Description

一种视频中的赛事比分识别方法、装置、设备及存储介质

技术领域

本申请涉及互联网通信技术领域，尤其涉及一种视频中的赛事比分识别方法、装置、设备及存储介质。

背景技术

近年来，随着人工智能(Artificial Intelligence，AI)技术研究和进步，人工智能技术在多个领域得到广泛应用，其中，人工智能在图像内容识别领域的应用，是人工智能应用的一个重要分支。

目前，在一些体育等赛事直播时，为了及时对赛况进行报道，往往需要从视频中识别出赛事比分。现有技术中，常常直接基于深度学习模型进行视频中的赛事比分识别，具体的，先利用深度学习模型进行文本区域检测，然后，再利用深度学习模型识别出文本区域的比分。但现有技术中直接基于深度学习模型进行比分的识别，需要提取的特征较多，往往无法保证识别准确率，且会带来深度学习模型的网络结构复杂，处理速度较慢，在实际业务需求中难以满足实时性的要求等问题。因此，需要提供更可靠或更有效的方案。

发明内容

本申请提供了一种视频中的赛事比分识别方法、装置、设备及存储介质，可以在提高比分识别准确率和处理速度，满足实际业务需求中对实时性的要求。

一方面，本申请提供了一种视频中的赛事比分识别方法，所述方法包括：

对目标赛事的视频进行视频解码，得到视频帧图像；

确定所述视频帧图像中的文本区域；

根据标准比分字符宽高比从所述文本区域确定多个候选文本区域；

基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别，得到多个数字字符；

根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分；

计算所述赛事比分中的两个分值对应的位置间的间距；

当所述间距与标准比分间距相匹配时，确定所述赛事比分为所述目标赛事的赛事比分。

另一方面提供了一种视频中的赛事比分识别装置，所述装置包括：

视频解码模块，用于对目标赛事的视频进行视频解码，得到视频帧图像；

文本区域确定模块，用于确定所述视频帧图像中的文本区域；

候选文本区域确定模块，用于根据标准比分字符宽高比从所述文本区域确定多个候选文本区域；

数字字符识别模块，用于基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别，得到多个数字字符；

赛事比分转换模块，用于根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分；

间距计算模块，用于计算所述赛事比分中的两个分值对应的位置间的间距；

赛事比分确定模块，用于当所述间距与标准比分间距相匹配时，确定所述赛事比分为所述目标赛事的赛事比分。

另一方面提供了一种视频中的赛事比分识别设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的视频中的赛事比分识别方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的视频中的赛事比分识别方法。

本申请提供的视频中的赛事比分识别方法、装置、设备及存储介质，具有如下技术效果：

本申请能够结合数字字符识别模型以及赛事的标准比分字符宽高比和标准比分间距，可以提高比分识别准确率和处理速度，满足实际业务需求中对实时性的要求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种视频中的赛事比分识别方法的流程示意图；

图3是本申请实施例提供的一种对目标赛事的视频进行视频解码，得到视频帧图像方法的流程示意图；

图4是本申请实施例提供的一种确定所述视频帧图像中的文本区域方法的流程示意图；

图5是本申请实施例提供的一种根据标准比分字符宽高比从所述文本区域确定多个候选文本区域方法的流程示意图；

图6是本申请实施例提供的一种预设深度学习模型的结构示意图；

图7是本申请实施例提供的一种数字字符识别模型的训练学习的流程示意图；

图8是本申请实施例提供的一种基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别，得到多个数字字符的示意图；

图9是本申请实施例提供的一种根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分的流程示意图；

图10是本申请实施例提供的一种视频中的赛事比分识别装置的结构示意图；

图11是本申请实施例提供的一种客户端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及人工智能的机器学习/深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，如图1所示，该应用环境可以至少包括终端01、服务器02和终端03。

本说明书实施例中，终端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中终端01上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。本说明书实施例中，终端01可以用于进行赛事视频的播放。

本说明书实施例中，服务器02可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器02可以用于进行数字字符识别模型的训练。

本说明书实施例中，终端03可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中终端03上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。本说明书实施例中，终端03可以从终端01获取赛事视频，以及结合服务器02训练好的数字字符识别模型以及赛事的比分参考信息(标准比分字符宽高比、标准比分间距)，识别出赛事视频中的赛事比分。

此外，需要说明的是，图1所示的仅仅是一种视频中的赛事比分识别的应用环境，在实际应用中，例如数字字符识别模型的训练，也可以在提供视频中的赛事比分识别服务的设备上处理，或者，赛事视频也可以在提供视频中的赛事比分识别服务的设备上播放。

以下介绍本申请一种视频中的赛事比分识别方法，图2是本申请实施例提供的一种视频中的赛事比分识别方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：对目标赛事的视频进行视频解码，得到视频帧图像。

本说明书实施例中，目标赛事可以包括但不限于体育、娱乐等比赛；相应的，目标赛事的视频可以为显示有目标赛事的赛事比分的比赛现场的录制视频，具体的，所述赛事视频可以包括但不限于赛事直播视频。

在实际应用中，视频的封装格式可以包括但不限于AVI(Audio VideoInterleaved，音频视频交错格式)、MP4(Moving Picture Experts Group 4，动态图像专家组)、FLV(FLASH VIDEO，流媒体格式)等封装格式。

本说明书实施例中，如图3所示，所述对目标赛事的视频进行视频解码，得到视频帧图像可以包括：

S2011：获取目标赛事的视频分片。

S2013：对所述视频分片进行视频解码，得到所述视频帧图像。

在实际应用中，对于直播视频流，每次获取的都是视频分片，相依的，可以对视频分片进行视频解码，得到视频帧图像，具体的，在实际应用中，视频分片一般可以为几秒，例如5秒，一般的每一秒的视频分片解码后会对应的多帧视频图像，例如25帧视频图像，相依的，视频帧图像可以包括该视频分片解码后的多帧视频图像。

本说明书实施例中，可以利用解码器对视频分片进行视频解码，具体的，解码器可以包括但不限于软件解码器、硬件解码器和无线解码器。

S203：确定所述视频帧图像中的文本区域。

在实际应用中，赛事比分在视频帧图像中的显示区域往往是比较固定的，本说明书实施例中，可以基于最大极值稳定区域算法(MSER)进行文本区域的检测，具体的，如图4所示，所述确定所述视频帧图像中的文本区域可以包括：

S2031：调整所述视频帧图像的灰度值，得到二值图像。

S2033：计算灰度值调整时对应的二值图像中各个连通区域的面积变化率。

S2035：将面积变化率小于等于预设阈值的连通区域，确定为所述文本区域。

本说明书实施例中，预设阈值可以为大于等于0的数值，一般的，赛事比分在视频帧图像中的显示区域往往是比较固定的，预设阈值可以设置成略大于0的数值，例如0.05。

S205：根据标准比分字符宽高比从所述文本区域确定多个候选文本区域。

在实际应用中，不同的播放商播放不同的赛事视频时往往具有不同的播放模板，相应的，不同的赛事播放方在播放不同的赛事时，播放的赛事视频中赛事比分中每个数字字符的宽高比往往是固定的。相应的，根据标准比分字符宽高比从所述文本区域过滤出多个候选文本区域，具体的，如图5所示，可以包括：

S2051：获取标准比分字符宽高比。

本说明书实施例中，标准比分字符宽高比可以为播放所述目标赛事的播放商，在播放所述目标赛事时所采用的播放模板中的赛事比分对应的每个数字字符的宽高比。

S2053：确定文本区域的宽高比。

S2055：将宽高比与所述标准比分字符宽高比相匹配的文本区域，确定为所述多个候选文本区域。

在一个具体的实施例中，可以将宽高比与所述标准比分字符宽高比一致的文本区域确定为所述多个候选文本区域；在另一个具体的实施例中，可以将宽高比与所述标准比分字符宽高比的差异值小于等于一定阈值的文本区域确定为所述多个候选文本区域。

S207：基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别，得到多个数字字符。

本说明书实施例中，从视频帧图像的文本区域中过滤出与目标赛事的比分字符宽高相匹配的候选文本区域之后，考虑到文本区域除了数字文本区域，往往还存在文字等字符的文本区域，相应的，可以基于具有识别数字字符能力的数字字符识别模型从候选文本区域进行数字字符的识别。本说明书实施例中，数字字符识别模型可以识别的字符识别可以包括0-9的数字字符，另外，当图像中不包括0-9的数字字符时，识别的结果可以为其他类别。

本说明书实施例中，所述数字字符识别模型可以为基于具有数字字符标注的多张训练数字字符图像对预设深度学习模型进行数字字符识别的训练学习得到的模型。

具体的，本说明书实施例中，如图6所示，预设深度学习模型可以包括三个卷积层和两个全连接层；其中，每个卷积层后依次设置有激活层和池化层。

具体的，所述卷积层可以用于进行图像的特征提取，在一个而具体的实施例中所述卷积层的卷积核大小可以为3x3，步长为1，其中，第一个卷积层的卷积核参数为3x3x3x16，第二个卷积层的卷积核参数为16x3x3x32，第三个卷积层的卷积核参数为32x3x3x32。

具体的，全连接层可以作为上下两层的节点之间的连接层，将上下两层所得到的各节点数据建立连接关系，将输出值送给分类器(如softmax分类器)。在一个具体的实施例中，第一个全连接层的维度是128维，第二个全连接层的维度是11维。

具体的，所述池化层可以对上一层的输出进行降采样操作，即返回采样窗口中最大值作为降采样的输出。一方面可以使图像变小，简化计算复杂度；另一方面可以进行特征压缩，提取主要特征。在一个具体的实施例中，池化层的步长可以为2。

在实际应用中，每一层输出的都是上一层输入的线性函数，考虑到在实际应用中数据往往不是线性可分的，可以通过增加激活函数的方式引入非线性因数。以激活函数Relu为例(rectified linear unit，校正线性单元)，具体的，Relu是对上一层数据结果进行修正的层，可以将上一层小于0的输入全部变成0后输出，大于0的输出不变。

分类层可以用于确定图像中包括数字字符的概率值，基于该概率值确定最图像所包含的数字字符。

在一个具体的实施例中，如图7所示，数字字符识别模型的训练学习可以包括如下步骤：

S701：获取多张训练数字字符图像；

本说明书实施例中，训练数字字符图像包括数字字符的图像。具体的，

S703：对所述训练数字字符图像进行数字字符标注；

S705：基于所述多张训练数字字符图像对的预设深度学习模型进行数字字符识别的训练学习，得到所述多张训练数字字符图像中包括指定数字字符的预测概率值；

S707：基于预设损失函数和所述预测概率值计算所述多张训练数字字符图像的预测数字字符与标注的数字字符的误差值。

在一个具体的实施例中，预设损失函数可以为：

其中，loss表示误差值，k表示训练数字字符图像标注的数字字符，pk表示训练数字字符图像中包括数字字符k的概率值。

此外，需要说明的是，本说明书实施例中预设损失函数并不仅限与上述的

在实际应用中，还可以包括其他损失函数，本说明书实施例并不以上述为限。

S709：判断所述误差值是否满足预设条件；

本说明书实施例中，满足预设条件可以为多张训练数字字符图像中的第二百分比的训练数字字符图像对应的误差值小于等于指定阈值，或多张训练数字字符图像中的第二百分比的训练数字字符图像对应的当前误差值与上一次训练学习后的误差值的值小于指定阈值。

具体的，第二百分比可以为结合实际应用进行设置的小于等于100％的数值。

本说明书实施例中，指定阈值可以结合实际应用中，对数字字符识别模型的数字字符识别准确率的需求进行设定，一般的，指定阈值越大，训练出的数字字符识别模型的识别准确率越高，但训练时间较长；反之，指定阈值越小，训练出的数字字符识别模型的识别准确率越低，但训练时间较短。

S711：当所述误差值不满足预设条件时，基于梯度下降法调整所述预设深度学习模型的模型参数，重复上述训练学习的步骤；

S713：当所述误差值满足预设条件时，将当前的预设深度学习模型作为所述数字字符识别模型。

具体的，如图8所示，图8是本申请实施例提供的一种基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别，得到多个数字字符的示意图，具体的，基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别过程中，经过数字字符识别模型的每一层以后，最后一个全连接层将每一图像的特征向量输入到分类层，分类层得到每个候选文本区域的图像中包括0-9和其他类型的字符的概率，将概率值最高的字符作为该候选文本区域的图像所包括的数字字符。

本说明书实施例中，通过具有识别数字字符能力的数字字符识别模型对候选文本区域的图像进行数字字符的识别，可以实现对候选文本区域中非数字字符的候选文本区域的过滤，进而准确地识别出数字字符，且采用的数字字符识别模型结构简单，可以大大提高识别速度。

S209：根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分。

本说明书实施例中，在识别出数字字符之后，可以根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分，具体的，如图9所示，可以包括：

S2091：确定所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息。

S2093：根据所述位置信息将相邻的候选文本区域对应的数字字符组成分值。

S2095：当两个分值对应的位置信息中纵坐标一致时，将所述两个分值作为赛事比分。

S211：计算所述赛事比分中的两个分值对应的位置间的间距。

S213：当所述间距与标准比分间距相匹配时，确定所述赛事比分为所述目标赛事的赛事比分。

在实际应用中，由于不同的播放商播放不同的赛事视频时往往具有不同的播放模板，为了提高比分的识别准确率，本说明书实施例中，可以结合不同的播放模板对应的标准比分间距，来对赛事比分进行校验。具体的，标准比分间距可以为播放所述目标赛事的播放商，在播放所述目标赛事时所采用的播放模板中两个赛事分值间的间距。

在一个具体的实施例中，可以在赛事比分中的两个分值对应的位置间的间距与所述标准比分间距一致时，确定所述赛事比分为所述目标赛事的赛事比分。在另一个具体的实施例中，可以在赛事比分中的两个分值对应的位置间的间距与所述标准比分间距小于等于一定阈值时，确定所述赛事比分为所述目标赛事的赛事比分。

本说明书实施例中，可以将目标赛事视频播放时对应的视频帧图像中识别出的比分按照视频的播放时间进行排序，进而实现对赛事的实时比分获取。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，通过从视频对应所述视频帧图像中确定出文本区域，结合标准比分字符宽高比进行筛选出满足实际比分中字符大小的多个候选文本区域，然后，结合具有识别数字字符能力的数字字符识别模型对候选文本区域的图像进行数字字符的识别，可以准确的识别出候选文本区域中的数字字符；接着，结合候选文本区域的位置信息将数字字符转换成赛事比分；最后，结合标准比分间距来对赛事比分进行校验，有效的保证识别出的赛事比分的准确率。利用本申请实施例提供的技术方案可以在提高比分识别准确率，简化深度学习模型的网络结构复杂，提高处理速度，满足实际业务需求中对实时性的要求。

本申请实施例还提供了一种视频中的赛事比分识别装置，如图10所示，所述装置包括：

视频解码模块1010，用于对目标赛事的视频进行视频解码，得到视频帧图像；

文本区域确定模块1020，用于确定所述视频帧图像中的文本区域；

候选文本区域确定模块1030，用于根据标准比分字符宽高比从所述文本区域确定多个候选文本区域；

数字字符识别模块1040，用于基于数字字符识别模型分别对所述多个候选文本区域的图像进行数字字符识别，得到多个数字字符；

赛事比分转换模块1050，用于根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分；

间距计算模块1060，用于计算所述赛事比分中的两个分值对应的位置间的间距；

赛事比分确定模块1070，用于当所述间距与标准比分间距相匹配时，确定所述赛事比分为所述目标赛事的赛事比分。

在一些实施例中，所述文本区域确定模块包括：

二值图像转换单元，用于调整所述视频帧图像的灰度值，得到二值图像；

灰度值调整单元，用于调整所述二值图像的灰度值；

面积变化率计算单元，用于计算灰度值调整时所述二值图像中各个连通区域的面积变化率；

文本区域确定单元，用于将面积变化率小于等于预设阈值的连通区域，确定为所述文本区域。

在一些实施例中，所述视频解码模块包括：

视频分片获取单元，用于获取目标赛事的视频分片；

视频解码单元，用于对所述视频分片进行视频解码，得到所述视频帧图像。

在一些实施例中，所述候选文本区域确定模块包括：

标准比分字符宽高比获取单元，用于获取标准比分字符宽高比；

文本区域宽高比确定单元，用于确定文本区域的宽高比；

候选文本区域确定单元，用于将宽高比与所述标准比分字符宽高比相匹配的文本区域，确定为所述多个候选文本区域。

在一些实施例中，所述赛事比分转换模块包括：

位置信息确定单元，用于确定所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息；

分值确定单元，用于根据所述位置信息将相邻的候选文本区域对应的数字字符组成分值；

赛事比分确定单元，用于当两个分值对应的位置信息中纵坐标一致时，将所述两个分值作为赛事比分。

在一些实施例中，所述装置还包括：

训练图像获取模块，用于获取多张训练数字字符图像；

数字字符标注模块，用于对所述训练数字字符图像进行数字字符标注；

训练学习模块，用于基于所述多张训练数字字符图像对的预设深度学习模型进行数字字符识别的训练学习，得到所述多张训练数字字符图像中包括指定数字字符的预测概率值；

误差值计算模块，用于基于预设损失函数和所述预测概率值计算所述多张训练数字字符图像的预测数字字符与标注的数字字符的误差值；

判断模块，用于判断所述误差值是否满足预设条件；

模型参数调整模块，用于当所述误差值不满足预设条件时，基于梯度下降法调整所述预设深度学习模型的模型参数，重复上述训练学习的步骤；

数字字符识别模型确定模块，用于当所述误差值满足预设条件时，将当前的预设深度学习模型作为所述数字字符识别模型。

在一些实施例中，所述预设深度学习模型可以包括：

三个卷积层、两个全连接层和分类层；

其中，每个卷积层后依次设置有激活层和池化层。

所述的装置实施例中的装置与方法实施例基于同样的申请构思。

本申请实施例提供了一种视频中的赛事比分识别设备，该视频中的赛事比分识别设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的视频中的赛事比分识别方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的方法实施例可以在客户端(移动终端、计算机终端)、服务器或者类似的运算装置中执行。以运行在客户端上为例，图11是本申请实施例提供的一种客户端的结构示意图，如图11所示，该客户端可以用于实施上述实施例中提供的信息交互方法。具体来讲：

所述客户端可以包括RF(Radio Frequency，射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、WiFi(wireless fidelity，无线保真)模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的客户端结构并不构成对客户端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1111可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1180处理；另外，将涉及上行的数据发送给基站。通常，RF电路1111包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1111还可以通过无线通信与网络和其他客户端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobilecommunication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1120可用于存储软件程序以及模块，处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述客户端的使用所创建的数据等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器1180和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括触敏表面1131以及其他输入设备1132。触敏表面1131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1131上或在触敏表面1131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1131。除了触敏表面1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及所述客户端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1141。进一步的，触敏表面1131可覆盖显示面板1141，当触敏表面1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。其中，触敏表面1131与显示面板1141可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面1131与显示面板1141集成而实现输入和输出功能。

所述客户端还可包括至少一种传感器1150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在所述客户端移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别客户端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述客户端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1160、扬声器1161，传声器1162可提供用户与所述客户端之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1161，由扬声器1161转换为声音信号输出；另一方面，传声器1162将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1111以发送给比如另一客户端，或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔，以提供外设耳机与所述客户端的通信。

WiFi属于短距离无线传输技术，所述客户端通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于所述客户端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是所述客户端的控制中心，利用各种接口和线路连接整个客户端的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行所述客户端的各种功能和处理数据，从而对客户端进行整体监控。可选的，处理器1180可包括一个或多个处理核心；优选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

所述客户端还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理系统与处理器1180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述客户端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，客户端的显示单元是触摸屏显示器，客户端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行本发明中方法实施例中的指令。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种视频中的赛事比分识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的视频中的赛事比分识别方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的视频中的赛事比分识别方法、装置、设备或存储介质的实施例可见，本申请中通过从视频对应所述视频帧图像中确定出文本区域，结合标准比分字符宽高比进行筛选出满足实际比分中字符大小的多个候选文本区域，然后，结合具有识别数字字符能力的数字字符识别模型对候选文本区域的图像进行数字字符的识别，可以准确的识别出候选文本区域中的数字字符；接着，结合候选文本区域的位置信息将数字字符转换成赛事比分；最后，结合标准比分间距来对赛事比分进行校验，有效的保证识别出的赛事比分的准确率。利用本申请实施例提供的技术方案可以在提高比分识别准确率，简化深度学习模型的网络结构复杂，提高处理速度，满足实际业务需求中对实时性的要求。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指示相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频中的赛事比分识别方法，其特征在于，所述方法包括：

对目标赛事的视频进行视频解码，得到视频帧图像；

确定所述视频帧图像中的文本区域；

计算所述赛事比分中的两个分值对应的位置间的间距；

当所述间距与所述标准比分间距相匹配时，确定所述赛事比分为所述目标赛事的赛事比分。

2.根据权利要求1所述的方法，其特征在于，所述确定所述视频帧图像中的文本区域包括：

调整所述视频帧图像的灰度值，得到二值图像；

调整所述二值图像的灰度值，计算灰度值调整时所述二值图像中各个连通区域的面积变化率；

将面积变化率小于等于预设阈值的连通区域，确定为所述文本区域。

3.根据权利要求1所述的方法，其特征在于，所述对目标赛事的视频进行视频解码，得到视频帧图像包括：

获取目标赛事的视频分片；

对所述视频分片进行视频解码，得到所述视频帧图像。

4.根据权利要求1所述的方法，其特征在于，所述根据标准比分字符宽高比从所述文本区域确定多个候选文本区域包括：

获取标准比分字符宽高比；

确定文本区域的宽高比；

将宽高比与所述标准比分字符宽高比相匹配的文本区域，确定为所述多个候选文本区域。

5.根据权利要求1所述的方法，其特征在于，所述根据所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息，将所述多个数字字符转换成赛事比分包括：

确定所述多个数字字符对应的候选文本区域在所述视频帧图像中的位置信息；

根据所述位置信息将相邻的候选文本区域对应的数字字符组成分值；

当两个分值对应的位置信息中纵坐标一致时，将所述两个分值作为赛事比分。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多张训练数字字符图像；

对所述训练数字字符图像进行数字字符标注；

基于所述多张训练数字字符图像对的预设深度学习模型进行数字字符识别的训练学习，得到所述多张训练数字字符图像中包括指定数字字符的预测概率值；

基于预设损失函数和所述预测概率值计算所述多张训练数字字符图像的预测数字字符与标注的数字字符的误差值；

判断所述误差值是否满足预设条件；

当所述误差值不满足预设条件时，基于梯度下降法调整所述预设深度学习模型的模型参数，重复上述训练学习的步骤；

当所述误差值满足预设条件时，将当前的预设深度学习模型作为所述数字字符识别模型。

7.根据权利要求6所述的方法，其特征在于，所述预设深度学习模型包括：

三个卷积层、两个全连接层和分类层；

其中，每个卷积层后依次设置有激活层和池化层。

8.一种视频中的赛事比分识别装置，其特征在于，所述装置包括：

9.一种视频中的赛事比分识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的视频中的赛事比分识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的视频中的赛事比分识别方法。