CN114041172A - 多相机球衣号码识别 - Google Patents
多相机球衣号码识别 Download PDFInfo
- Publication number
- CN114041172A CN114041172A CN201980097900.3A CN201980097900A CN114041172A CN 114041172 A CN114041172 A CN 114041172A CN 201980097900 A CN201980097900 A CN 201980097900A CN 114041172 A CN114041172 A CN 114041172A
- Authority
- CN
- China
- Prior art keywords
- athlete
- player
- identifier
- camera
- bounding box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/2224—Studio circuitry; Studio devices; Studio equipment related to virtual studio applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/90—Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/2621—Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本文描述了一种方法。所述方法包括将每个相机视图中的运动员指定为侧面运动员或非侧面运动员。响应于所述运动员为非侧面运动员,所述方法包括从在边界框内的检测到的运动员提取特征并根据标签对所述特征进行分类。响应于所述运动员为非侧面运动员,所述方法还包括根据投票策略选择具有最高投票数的标签作为最终标签。
Description
背景技术
使用多个相机来捕获场景中的活动。对所捕获图像的后续处理使终端用户能够在全360度的运动范围内观看场景并在整个场景中移动。例如,可以使用多个相机来捕获体育比赛,并且终端用户可以在整个比赛场地自由移动。终端用户还可以从虚拟相机观看比赛。
附图说明
图1是实现多相机球衣识别的方法100的过程流程图;
图2是体育场中比赛场地的图示;
图3是运动员的图示;
图4是由相机系统捕获的多幅经裁剪图像;
图5是单相机视图;
图6是填充针对每个运动员的边界框的过程的图示;
图7、图8A和图8B图示了根据本公开技术的特征提取网络;
图9是特征提取的图示;
图10是硬非极大值抑制(non-maximum suppression,NMS)之后的特征/提取匹配结果的图示;
图11是具有两个输出的球衣号码识别结果的图示;
图12是图示累积投票的方法的过程流程图;
图13是实现多相机球衣识别的方法的过程流程图;
图14是示出沉浸式媒体体验的框图;以及
图15是示出存储用于沉浸式媒体体验的代码的计算机可读介质的框图。
在贯穿本公开和全部附图中使用相同的数字来指代相似的部件和特征。100系列中的数字指的是最初在图1中发现的特征;200系列中的数字指的是最初在图2B中发现的特征;依此类推。
具体实施方式
经常为了终端用户娱乐而报道体育赛事和其他竞赛。这些比赛可以以各种格式呈现。例如,可以将比赛呈现为二维视频或三维视频。可以使用一个或多个绕整个比赛场地放置的高分辨率相机来捕获比赛。多个相机可以捕获包括比赛场地的整个三维体积空间(three-dimensional volumetric space)。在多个实施例中,相机系统可以包括多个用于体积捕获(volumetric capture)的超高分辨率相机。终端用户可以通过与代表三维体积空间的一系列图像一起在场,来观看比赛动作并在所捕获体积(captured volume)中自由移动。另外,终端用户可以从虚拟相机观看比赛,该虚拟相机通过在三维体积空间中跟随球或具体运动员而跟随场地内的动作。
本公开技术实现了多相机系统中的球衣号码识别。在多个实施例中,可以部分基于实时识别每个运动员的球衣号码、球队身份和运动员位置,来为终端用户提供沉浸式媒体体验。根据本公开技术的稳定而高准确度的球衣号码识别系统即使在运动员不断移动期间也能够提取运动员身上的小球衣号码(或其他指示符/标识符)。例如,在4K分辨率的视频中,运动员球衣号码是每个所捕获图像帧的很小一部分。此外,视频中运动员的身体姿势也会发生剧烈变化,这样会导致球衣号码图像或指示符图像变形。该变形会对球衣号码识别准确性产生负面影响。其次,当运动员定向为半侧面位置并且佩戴两位数的球衣号码时,很可能球衣号码只有一个数字可见。这会导致球衣号码识别结果不可靠且易于出错。通常,传统技术只在运动员的球衣号码清晰可见时识别运动员的球衣号码,而这一般不适用于单相机系统。因此,本公开技术实现了用于解决所有这些难题的多相机球衣号码识别解决方案。以此方式,实时向终端用户提供沉浸式媒体体验。
如本文所使用的,比赛可以指根据一组规则的比赛形式。可以为了消遣、娱乐或者成绩而进行比赛。竞技比赛可以称为运动、体育赛事或竞赛。因此,运动也可以是竞技体育活动形式。比赛可以有观看比赛的观众。当观众经由电子设备观看比赛而不是现场和亲自观看比赛时,观众可以称为终端用户。比赛在本质上可以是竞争性的并且经组织使得对抗的个人或球队竞争获胜。获胜是指第一名的个人或球队被认为战胜了其他个人或球队。获胜还可以使个人或球队达到或获得成绩。比赛通常在赛场、球场、竞技场内或其他一些指定用于比赛的区域内进行。指定用于比赛的区域通常包括有助于比赛的标记、球门柱、网等。
比赛可以组织为任意数量的个人被配置为对抗方式并竞争获胜。球队运动是将多个个人组织成对抗的球队的比赛。这些个人通常可以称为运动员。这些对抗的球队可以竞争获胜。通常,竞赛包括每个运动员进行战略性移动以成功战胜一个或多个运动员而达到比赛目标。球队运动的一个示例是足球。
一般来说,足球描述了一系列在不同时间踢球而最终进球得分的比赛。足球可以包括例如协会足球(association football)、烤盘足球(gridiron football)和英式橄榄球(rugby football)。美式足球可能是烤盘足球的一种变型。在多个实施例中,本文描述的美式足球可以根据美国国家橄榄球联盟(NFL)的规则和规定进行。虽然描述了美式足球,但本公开技术可以应用于个人在定义的空间内进行战略性移动的任何赛事。在多个实施例中,可以将战略性移动称为轨迹。根据本文描述的技术,终端用户可以沉浸在基于该轨迹的赛事渲染中。具体而言,本公开技术能够通过得出相应的球衣和球队信息来识别比赛场地中的所有运动员。再者,为了便于描述,使用美式足球比赛作为示例来描述本公开技术。然而,根据本公开技术可以使用任何比赛、运动、体育赛事或竞赛。例如,比赛类型可以包括诸如篮球、棒球、曲棍球、长曲棍球等主要运动。
图1是实现多相机球衣识别的方法100的过程流程图。本公开技术通过使用分别来自不同相机的几个相机视图作为输入来实现球衣号码识别。传统技术仅限于在相机捕获到运动员处于如下取向时识别球衣号码:在该取向的情况下,运动员所穿着的球衣号码或其他标识符所在的平面与相机的图像平面平行。例如,这可能发生在运动员大体上面向相机时。在该示例中,在运动员捕获图像中可以容易地看到运动员正面上的文字平面。然而,在比赛过程中,运动员可能会频繁地移动,并且球衣号码或标识符可能只对着镜相机头几秒钟。其次,传统技术无法提供可持续的解决方案来处理运动员在身体姿势、图像变形、运动员遮挡等的差异。
在块102处,相机系统102捕获比赛场地。在多个实施例中,相机系统可以包括一个或多个具有5120×3072分辨率的物理相机,这些物理相机被配置为在整个体育场内捕获比赛场地。例如,相机系统中的相机数量可以是三十八。虽然描述了特定的相机分辨率,但是根据本公开技术可以使用任何相机分辨率。可以选择相机子集,诸如从三十八个相机中选择十八个相机,以覆盖整个比赛场地并确保比赛场地中的每个像素被至少三个相机捕获。相机系统102从多个相机捕获实时视频流。多个相机可以每秒30帧(fps)捕获比赛场地。选择的相机子集在不同场景中可能不同。例如,依据比赛场地周围的结构,每个位置可以使用更小或更大的相机子集由至少三个相机捕获。因此,在多个实施例中,相机系统中所使用的相机数量是按照如下方式计算出的:确定由至少三个相机捕获比赛场地内的每个点所需的相机的数量。
在块104处,执行多相机运动员检测,以确定在相机系统202捕获的每个相机视图中围绕每个运动员的隔离边界框。多相机运动员检测模块检测并关联来自多个相机的运动员,并且输出运动员取向标签。在多个实施例中,可以确定运动员在相机系统捕获的每个相机视图中的边界框。具体而言,针对每个相机视图进行运动员检测。可以针对相机所捕获的每一帧,执行基于在多相机框架中的你只需看一次(you only look once,YOLO)方法的人物检测算法。执行人物检测算法来检测比赛场地中的所有运动员。
针对来自相机系统的每个相机的每个运动员得出的边界框可以用作单视图球衣号码识别的输入。具体而言,单视图球衣号码识别使用预先设计的模板来裁剪运动员检测图像,然后由轻量但强大的特征提取和分类网络进行处理。因此,在块106处,执行单视图球衣号码识别。如本文所述的单视图球衣号码识别包括预处理、特征提取、特征匹配和硬非极大值抑制(hard non-maximum suppression)。如块110处所图示,单视图球衣号码识别过程将检测到的由边界框限定的非侧面运动员图像作为输入。在块112处,从检测到的非侧面运动员图像中提取特征。在块114处,将你只需看一次(YOLO)回归应用于所提取的特征。最后,在块116处,对特征应用硬非极大值抑制(NMS)算法。具体而言,在单相机球衣号码识别中执行硬NMS算法以对两位数号码失败情况进行处置。块106处的单视图球衣号码识别技术可以将来自块104的检测到的非侧面运动员图像作为输入,并从每个图像中提取球衣号码。
在块108处,实施投票策略以选择最终的球衣号码。如本文所述,实施投票策略以改进多相机球衣号码识别稳定性,并根据所有单相机球衣号码识别结果生成最终的球衣号码。如图1所图示,球衣号码识别是结合了号码位置重要性的端到端号码检测和识别任务。
具体而言,在球衣识别中结合了取向检测,其结合了球衣号码位置的重要性。对取向属性进行定义,所述取向属性可以用作单相机运动员识别过程的输入。本公开技术还包括轻量卷积神经网络(CNN),以高效利用从运动员图像中提取的高级语义特征和低级语义特征。这些特征包括但不限于单词、符号、短语等。可以执行硬-NMS以消除根据运动员取向可能出现的一位数和两位数。使用多相机投票策略以高准确度地融合和推断最终的球衣号码结果。因此,本公开技术将实现实时、稳定和高度准确的运动员球衣号码识别。运动员球衣识别还可以用于实时创建引人入胜的现场直播和比赛分析。
图2是体育场202中的比赛场地200的图示。一般地,“比赛场地”可以称为场地。如图所示,体育场202完全包围比赛场地200。在比赛期间,运动员可以在比赛场地内外进行移动。此外,在比赛场地上时,运动员可能会朝许多不同的方向移动。为了捕获上述比赛,可以在整个体育场202放置多个相机。在图2的示例中,相机C01-C36放置在绕比赛场地的不同点处。如关于图1的示例所描述,安装在体育场202的多个同步相机被用来创建多相机系统102。在多个实施例中,相机系统捕获比赛的视频。执行运动员检测以确定每个单视图中的运动员位置。运动员检测还可以标识出每个相机视图内的运动员边界框,并且将来自每个单相机视图中的每个运动员位置相关联以确定每个运动员在比赛场地上的位置。在多个实施例中,将来自每个单相机视图的每个运动员位置相关联是指针对相机系统的每个相机视图找到检测到的运动员之间的相关关系。所述位置可以是运动员在所捕获的3D体积中的地平面上的三维位置。如本文所使用的,地平面是大体平坦的虚拟平面,其指示所捕获的3D体积的地面。沿着地平面的点可以被用来估计图像平面与地面之间的单应性矩阵(homography matrix)。
如图2的示例中所图示,比赛场地200可以是美式足球场。美式足球场的形状为长220码、宽53 1/3码的长方形。沿着比赛场地200的长边的线可以称为边线(sideline)。沿着比赛场地200的短边的线可以称为端线(end line)。各个得分线(goal line)分别位于距端线10码处。从一条得分线到另一条得分线,每5码标记一条码线(yard line)。码标(hashmark)可以是在每条码线之间每间隔一码出现的短平行线。球门柱可能位于每条端线的中心处。另外,比赛场地可能装饰有代表拥有场地的球队的徽标和其他标志。
比赛场地200在比赛场地的每一端处包括端区(end zone)。在比赛期间,第一队被指定为进攻方,第二队被指定为防守方。比赛期间使用的球是椭圆体或长椭球体。进攻方控制球,而防守方不控制球。进攻方试图通过跑动或传球沿着矩形场地的长边向前推进球,而防守方同时试图阻止进攻方沿着矩形场地的长边向前推进球。防守方也可以试图控制球。通常,开始一个回合比赛时,对抗的球队以特定阵容布阵。一个回合比赛可以称为一档(down)。在每档期间,进攻方都有机会在比赛期间沿场地向前推进。开始比赛时,进攻方和防守方根据不同方案沿着攻防线布阵。例如,进攻方会以一种阵容布阵,试图突破防守方并将球向得分线推进。如果进攻方可以使球通过得分线并使其进入端区,则进攻方将达阵(touchdown)并得分。达阵之后,进攻方得到获取额外分的机会(Try)。
一场美式足球比赛持续大约四个小时,包括不进行比赛的所有休息时间。在某些情况下,四小时中大约有一半是活跃的比赛,而另一半是某种休息时间。如本文所使用的,休息可以指球队暂停、官方暂停、广告时间、中场休息、换人后过渡期间等。比赛可以从开球开始,比赛中踢球队将球踢给接球队。在开球期间,开球后被视为进攻方的一队是接球队,而踢球队通常被视为防守方。开球后,进攻方必须在四档进攻内将球向对方场地推进至少十码,否则进攻方需将足球交给防守方。如果进攻方成功将球推进十码或更多,则进攻方将获得一组新的四档进攻,以用于将球再推进十码。通常,将球推进到对方球队的端区或将球踢过对方球队的球门柱的球队将得分。比赛结束时得分最高的球队获胜。在一档进攻期间还可以执行一些特殊战术,包括但不限于弃踢、射门和附加分尝试。
每个球队可以包括多名运动员。属于同一支球队的运动员在比赛期间通常穿相同颜色的队服。为了区分同一队的运动员,每个运动员可以具有在同一队运动员中独特的标识符。例如,在美式足球中,标识符是运动员队服上佩戴的号码。该号码经常在出现运动员所穿的球衣上,通常出现在球衣的正面和背面。因此,标识符可以被称为球衣号码。在某些情况下,标识符也会出现在运动员的头盔、肩膀、裤子或鞋子上。
可以在体育场202中部署多个经校准的相机以捕获场地200的高分辨率图像。可以通过分割和三维(3D)重构来对图像进行处理,以创建3D体积模型。在多个实施例中,可以从所有可用相机的集合中选择相机子集来进行图像捕获,例如从图2中所图示的三十六个相机中选择十八个相机。该十八个相机可以被选择为使得整个比赛场地200都被至少三个相机捕获。十八个相机的相机系统可以通过多个相机捕获实时视频流。在多个实施例中,多个相机可以以每秒30帧(fps)捕获比赛场地。
通过使用多个相机捕获比赛场地上的比赛,可以为终端用户生成沉浸式观看体验。在多个实施例中,基于运动员轨迹,可以提供沉浸式媒体体验。在某些情况下,沉浸式媒体体验是实时提供的。替代地,沉浸式媒体体验可以是先前捕获的比赛的重播。在沉浸式媒体体验中,终端用户可以全360度的移动自由度在比赛场地内追随球和运动员。在多个实施例中,本公开技术使追随运动员的虚拟相机能够生成体积视频。
在多个实施例中,本公开技术可以实现在比赛或赛事期间追踪所有运动员或个人。可以至少部分地基于对多个相机视图进行运动员识别来追踪运动员,其中相机系统的每个相机对应于一个相机视图。本公开技术能够基于运动员身上佩戴的号码或其他标识符来实现对每个相机视图中的运动员的识别。此外,本公开技术根据通过单个相机进行的球衣识别,来实现追踪每个运动员(包括在两档之间替换运动员时)的最优解决方案。
图2的示意图并不旨在指示示例场地200包括图2中所示的全部相机或场地。而是,可以使用图2中未图示的更少的或附加的相机来实现示例相机系统。此外,示例场地可以是图2中未图示的不同形状、大小或类型的不同球场、区域或其他比赛区域。
图3是运动员300的图示。运动员300可以在场地200上进行比赛并且由相机系统(例如图2中所图示的相机C01-C38)捕获。如图所示,运动员300包括非侧面运动员302和侧面运动员304。如上所述,运动员在整个比赛场地以战略方式频繁地移动。因此,运动员身上佩戴的标识符在比赛期间可能整个或部分被遮蔽,从而降低球衣号码的可见性。因此,由于标识符在相机视图中被遮蔽或以其他方式被遮挡,可能无法根据所佩戴的标识符轻松地识别运动员。
在多个实施例中,如果运动员的身体取向几乎平行于相机视图的图像平面,则球衣号码很可能是清晰可见的。当标识符或球衣号码清晰可见时,可以将该运动员分类为非侧面运动员(NP)。否则,将该运动员分类为侧面运动员(P)。在多个实施例中,侧面运动员可以具有这样的取向:该取向使得在特定相机视图中所捕获到的大体上是该运动员的侧面图。在该侧面图中,运动员所佩戴的标识符不可见。相反,非侧面运动员的取向不会使得所捕获到的是运动员的侧面图。在非侧面运动员的捕获中,运动员所佩戴的标识符可见。
图3图示了非侧面运动员302A、非侧面运动员302B、非侧面运动员302C和非侧面运动员302D。如图所示,每个非侧面运动员302的球衣号码基本上可见。如本文所使用的,基本上可见是指在标识符的视图中标识符的可见部分可以被用来得出整个标识符。图3还图示了侧面运动员304A、侧面运动员304B、侧面运动员304C和侧面运动员304D。如图所示,每个侧面运动员304的球衣号码不是基本上可见的。对于每个侧面运动员304,由于球衣号码不是基本上可见的,因此无法从相机视图得出球衣号码。
在多个实施例中,当标识符的平面与相机视图的图像平面基本平行时,可以认为标识符在相机视图中可见。标识符的平面是指运动员队服上所佩戴的标识符大部分可见的平面。如本文所使用的,当标识符的平面与图像平面之间的角度小于约六十七度时,标识符的平面基本上平行于相机视图的图像平面。请注意,在足球运动员的示例中,即使当标识符(球衣号码)的平面基本上平行于相机的图像平面时,由于球衣号码位于穿在运动员身上的球衣上,球衣号码也可能会扭曲或以其他方式不平整。这是因为填充物和身体形状会导致号码在穿在运动员身上时出现拉伸、变形或折叠。然而,即使当标识符拉伸、变形或以其他方式扭曲时,本公开技术依然能够实现对标识符的确定。
标识符应在相机视图中基本上可见,以便识别所述标识符。如上所述,非侧面运动员的标识符基本上可见,而侧面运动员的标识符不是基本上可见的。因此,运动员取向为非侧面运动员取向的运动员图像被用于球衣号码识别。运动员在相机视图中取向为侧面运动员的图像不被用于球衣号码识别。在多个实施例中,根据运动员检测技术来检测运动员,并且针对每一个相机视图的每一帧基于运动员的取向将运动员分类为非侧面运动员或侧面运动员。运动员的取向在每个相机视图中逐帧变化。每个相机视图的每一帧中检测到的运动员可以被用于单相机球衣识别。如下所述,本技公开术可以确保将两位数的球衣号码检测为两位数而不是一位数。另外,本公开技术通过不尝试对侧面运动员进行单相机球衣识别来避免额外的计算成本。由于遮挡,传统技术可能会将两位数的球衣号码误表示为一位数的球衣号码。此外,传统技术在处理所有检测到的运动员时会带来额外计算成本。
图4是由相机系统捕获的多个裁剪图像。如图所示,多个相机C03、C07、C11、C14、C20、C24、C27、C29和C32围绕比赛场地400。可以参照图2描述相机C03、C07、C11、C14、C20、C24、C27、C29和C32。运动员402可以位于比赛场地400上。每个相机C03、C07、C11、C14、C20、C24、C27、C29和C32在时间t处捕获运动员402的视图。如图所示,相机C03在时间t处捕获运动员402的视图404。相机C07在时间t处捕获运动员402的视图406。相机C11在时间t处捕获运动员402的视图408。相机C14在时间t处捕获运动员402的视图410。相机C20在时间t处捕获运动员402的视图412。相机C24在时间t处捕获运动员402的视图414。相机C27在时间t处捕获运动员402的视图416。相机C29在时间t处捕获运动员402的视图418。最后,相机C32在时间t处捕获运动员402的视图420。
在多个实施例中,针对每个视图,包括多个运动员的整个比赛场地被每个相机捕获。执行基于你只需看一次(YOLO)的人物检测算法来检测比赛场地中的所有运动员。找出在每个相机视图中的帧与帧之间同一运动员的多个边界框的关联。因此,在由相机C03、C07、C11、C14、C20、C24、C27、C29和C32捕获的每个相机视图中找到标识具有球衣号码55的运动员的边界框。针对每个相机视图404、406、408、410、412、414、416、418和420,向每个检测到的运动员分配一个关于每个相机的独特轨迹ID。可以通过边界框的在图像内的根据xy坐标的位置来描述每个边界框。还给出了边界框的宽度(w)和高度(h)。
如图4的示例中所图示,根据每个相机视图中运动员的边界框来裁剪每个相机视图。在时间t处,所捕获的运动员402关于每个相机C03、C07、C11、C14、C20、C24、C27、C29和C32具有不同的取向。针对每个相机,图像被捕获并且在每个图像中检测到多个运动员。针对多个运动员中的每个运动员,在运动员检测期间限定边界框。边界框可以由在图像帧中的位置以及边界框的宽度和高度来限定。针对在图像帧中检测到的每个边界框,定义边界框内的运动员的取向。具体而言,根据运动员取向,可以将运动员分类为非侧面运动员或侧面运动员。在多个实施例中,根据边界框内运动员的标识符的可见性来定义边界框内的运动员的取向。相应地,如果运动员的标识符基本上可见,则可以将运动员分类为非侧面运动员。如果运动员的标识符不是基本上可见的,则可以将运动员分类为侧面运动员。
以这种方式,使用身体取向与位置和尺寸一起来描述人物/运动员。在图4中,针对每个相机视图,同一运动员因具有不同取向而被图示为侧面(P)运动员和非侧面(NP)运动员。为了输出取向信息,可以执行分类模块以在人物检测网络中输出运动员的取向。然后可以将非侧面运动员图像传输到球衣识别模块。在多个实施例中,分类模块可以是由运动员检测模块实现的CNN网络。在运动员检测中,输出针对检测到的运动员的运动员边界框和取向信息。如图4中所图示,可以从多个相机检测到并关联一名运动员(球衣号码55)。每个运动员边界框均具有其取向标签。只有标有“NP”的运动员图像会在后面的球衣号码识别模块中使用。因此,视图404、406、408、412、414、416将因运动员取向为侧面运动员而不会被使用。相反,视图410、418和视图420将因运动员取向为非侧面运动员而被用于球衣号码识别。作为图4的示例中所图示的处理的结果,终端用户能够从比赛场地内的任意点观看比赛。终端用户还能够在比赛场地内的任意点处全360°观看比赛。因此,在多个实施例中,终端用户可以从任何运动员的角度体验比赛。
图4的示意图并不旨在指示示例系统包括图4中所示的所有相机和视图。而是,可以使用图4中未图示的更少的或附加的相机和视图来实现示例系统。
图5是单相机视图500。作为示例,相机视图500可以由相机系统202(图2)中的相机或图4的相机中的任何一个捕获。如图5中所图示,许多运动员在相机视图500中捕获的比赛场地内位于不同位置。具体而言,将诸如运动员502等运动员分类为非侧面运动员。将诸如运动员504等运动员分类为侧面运动员。
在针对所有相机获得运动员检测结果之后,可以针对所有非侧面运动员执行球衣号码识别。出于示例性目的,如图5中所图示,虚线边界框指示该运动员具有非侧面标签,而实线边界框表示侧面运动员。在图5的示例相机视图中,对使用虚线边界框勾勒出的非侧面运动员的图像执行球衣号码识别。
图5的示意图并不旨在指示示例视图500仅限于图5中所示的运动员、场地或相机。而是,示例相机视图可以是图5中未图示的场地类型。此外,示例相机视图500可以包括图5中未图示的更多或更少的运动员。
图6是针对每个运动员填充边界框的过程604的图示。通常,在比赛期间,由于运动员在比赛场地上相对于相机的位置,在特定相机视图中一些运动员显得比其他运动员大。因此,与特定相机视图中的运动员相关联的边界框的大小和形状可能有很大变化。另外,如下所述,与传统的图像分类方法不同,精确的球衣号码位置可以显著提高球衣号码识别的准确性。
为了确定精确的球衣号码位置,可以使用卷积神经网络。具体而言,本公开技术能够实现端到端的检测和分类方法以进行球衣号码识别,其中将每个号码分配到独特的对象类别中。例如,在美式足球比赛中,有99个可能的球衣号码,由此产生范围为从1到99的99个分类类别,每个类别代表一个独特的号码。请注意,球衣号码是运动员标识符。本公开技术可以应用于其他运动员标识符,这些其他运动员标识符具有更多或更少数量的可能分类类别。
在多个实施例中,在对由卷积神经网络进行的处理的准备过程中,填充每个检测到的运动员的边界框以与CNN的输入尺寸相对应。从运动员检测结果获得的边界框在尺寸和纵横比方面可能会随着运动员在比赛过程中身体姿势的剧烈变化而变化。通过填充边界框,不再调整检测结果的尺寸。换句话说,裁剪后的图像不再调整尺寸或重新采样,图像的分辨率也不被改变。而是,如图6中所图示,使用方形模板填充方法来保留运动员检测框的初始纵横比。
在块602处,根据运动员检测边界框的尺寸,裁剪相机视图的每个边界框。在多个实施例中,根据运动员检测边界框来裁剪运动员图像,然后将该相机视图中边界框的最大值(高度、宽度)用作该边界框的方形模板长度。因此,本文描述的填充使用当前视图的边界框的最大高度、宽度,或者使用高度和宽度作为方形模板长度。在块604处,通过将裁剪图像放置到模板的中间并用随机数值填充模板的剩余部分,来填充小于模板尺寸的边界框/裁剪图像,以针对每个检测到的运动员达成相同的图像尺寸。在块608处,调整每个填充图像的尺寸,输入到卷积神经网络610中以进行特征提取。直接调整裁剪图像的尺寸会改变球衣的纵横比。通过如本文所述填充图像,球衣号码的纵横比保持不变,不会变形。因此,填充图像会避免变形并且显著提高球衣号码识别的准确性。
图7、图8A和图8B图示了根据公开本技术的特征提取网络。具体而言,图7图示了神经网络700。执行神经网络700以使能单相机运动员球衣号码识别。如上所述,执行单相机球衣识别,以识别在图像中检测到的每个运动员的标识符。可以使用取向和边界框来标识检测到的运动员。精确定位球衣号码位置对于显著改进识别准确性起着至关重要的作用。
如图7中所图示,使用具有多个卷积块的CNN特征提取器和分类网络(而不是使用现有的网络)来提取特征。具体而言,本文描述的神经网络从所输入的运动员图像中提取球衣号码的语义特征。深度CNN网络的整体结构是特征金字塔网络,由六个下采样(down-sample)卷积块702、704、706、708、710和712以及三个上采样(up-sample)卷积块714、716和718组成。它产生三个多尺度特征,包括高分辨率低级特征和较高级语义低分辨率特征。每个块由3×3和1×1的卷积层构成,并且每个卷积层之后是批归一化和RELU激活。在下采样块702、704、706、708和710的最后一层处,使用五个步幅为2的3×3卷积层作为下采样层。为了节省或减少计算成本,在多个实施例中使用160×160作为输入尺寸,而不是224×224或300×300的输入尺寸。然而,根据本公开技术可以使用任何输入尺寸。另外,将YOLO检测应用于包括高分辨率低级特征和较高级语义低分辨率特征的三个多尺度特征,以获得边界框内的每个运动员的球衣号码。参照图9对这些特征进行了图示,其中高分辨率低级特征(边缘、线条,基本上能够看到对象的轮廓)以参考编号904图示,而较高级语义低分辨率特征的采样以参考编号906图示。为了保持丰富的特征表示并且计算成本最小,与传统技术的53个卷积层相比,所提出的轻量网络仅使用34个卷积层。
图8A描述了根据本公开技术实现的CNN的层。具体而言,图8A描述了特征提取网络的卷积层的类型、过滤器和尺寸。具体而言,图示了其中步幅为-1的1×1和3×3的卷积核的一系列组合的特征提取网络的细节。图8B是来自特征提取网络的CNN的下采样块4的图示。该下采样块4在图7中以参考编号708图示。如图7中所示,执行轻量但强大的CNN特征提取网络,以从所输入的运动员图像中提取球衣号码的语义特征。卷积神经网络的整体结构是由六个下采样卷积块和三个上采样卷积块组成的特征金字塔网络。
图8B图示了在图7的下采样块702、704、706、708、710和712中使用的快捷路径(shortcut)。该快捷路径在图8B中由虚线表示。快捷路径表示CNN内的快捷路径连接,并它是从残差网络中获得的。在图8B中,由实线表示级联。图8B中的级联将第一个3x3的卷积层的输出与最后一个3x3的卷积层的输入合并。以此方式,特征提取网络产生三个多尺度特征,包括高分辨率低级特征和较高级语义低分辨率特征。
图9是特征提取的图示。在块902处,将裁剪图像输入到特征提取网络。在块904处图示了低级特征。低级特征可以是例如构成对象的轮廓的边缘、线条和其他图像特征。在块906处图示了高级特征。在图9中,低级特征和较高级特征由不同的卷积层处理。低级特征具有高分辨率但具有较弱的语义信息,而高级特征具有低分辨率但具有较高的语义信息。为了利用低级特征和高层特征两者中的语义信息,如图7中所图示的网络在下采样块702、704、706、708、710和712中添加几个级联层。例如,在下采样块4 708(图7)中,级联层将第一个3x3的卷积层的输出与最后一个3x3的卷积层的输入合并,如图8B中的实线所示。
图10是硬非极大值抑制(NMS)后的特征/提取匹配结果的图示。在NMS中,选择具有最大检测置信度得分的边界框,并使用预定义的交叠阈值抑制其相邻框。因此,NMS以检测结果“b”的列表开始。检测结果按每个边界框的置信度得分排序,并且从高置信度到低置信度排列B中的每个b。然后,选择具有最大得分的边界框。如果任何具有相同标签并且交叠的框的阈值大于Nt,则将得分设置为0,其中Nt是非极大值抑制的交叠阈值。从高置信度到低置信度,对B中的所有框重复该过程。
对于球衣号码识别,通常有两种类型的球衣号码,即一位数号码和两位数号码。两位数号码是两个一位数的组合。如果两位数球衣号码与一位数号码位置交叠,则很可能该一位数号码是该两位数号码的一部分。图11是具有两个输出的球衣号码识别结果的图示。具体来说,识别出的球衣号码是62和2。如图所示,62是正确的球衣号码。
可以根据本公开技术实施硬NMS。首先,替代仅取决于边界框得分的传统排序,执行硬排序。硬排序取决于得分和边界框位置/尺寸两者。在硬排序中,基于矩形尺寸(高度*宽度)对边界框进行排序。如果两个边界框的得分相同,则在得分相等时,较大尺寸的边界框很可能是正确的。然后,针对边界框的所有标签计算交并比(intersection over union,IOU)。这里假设一张运动员图像只包含一个独特的球衣号码。另外,IOU可能会被修改。具体而言,传统IOU(bi,bj)意指bi与bj的交叠面积除以bi和bj的相并面积。根据本公开技术的IOU产生hard IOU(bi,bj),其中bi与bj的交叠面积被除以bj的面积。根据本公开技术的IOU改进了硬NMS对边界框相交的敏感度。
例如,下面的算法描述了根据本公开技术的硬非最大值抑制。
如图11中所图示,虽然我们使用非侧面运动员进行球衣识别,但也有失败的情况。如图所示,相机C02捕获运动员1102的视图1104。相机C06捕获运动员1102的视图1106。相机C10捕获运动员1102的视图1108。相机C16捕获运动员1102的视图1110。相机C21捕获运动员1102的视图1112。相机C25捕获运动员1102的视图1114。相机C28捕获运动员1102的视图1116。最后,相机C33捕获运动员1102的视图1120。
某些运动员的球衣号码可能会因为部分球衣号码可见性而被错误地识别为一位数号码。在得到所有运动员的边界框和球衣号码之后,可以通过多相机关联找到来自不同相机的同一运动员的相关关系。然后,可以将单视图球衣号码识别应用于每一帧中的非侧面运动员。这将产生运动员的初始多相机球衣号码并对该运动员球衣号码结果出现的频率进行计数。具体而言,可以使用累积投票来确定最终的球衣号码。
图12是示出用于累积投票的方法1200的过程流程图。为了处理球衣号码结果歧义,实施投票策略以提高识别准确性。投票策略同等考虑来自每个相机的输出,其中如果一位数号码是两位数号码的一部分,则该一位数号码也会被投票给该两位数号码。如图12中所图示,在获得一名运动员的所有球衣号码结果(包括出现频率)之后,如果两位数号码包含一位数号码,则将该一位数出现的频率添加到该两位数球衣号码出现的频率中。最后,再次根据频率对结果进行排序。频率最高的结果是最终选定的球衣号码。
因此,在块1202处获得每个运动员的检测结果。检测结果包括与运动员相关联的每个球衣号码以及每个球衣号码被检测到的频率。如上所述,可以通过运动员检测模块跨越多个相机视图定位每个运动员。在块1204处,根据频率对每个候选球衣号码进行排序。
针对每个候选球衣号码,在块1206处确定该候选球衣号码的频率是否小于九。此处选择数字九仅用于示例目的。在块1206处选择的数字可以是根据特定百分比的相机或任何其他相机子集的。如果候选球衣号码的最大频率小于九,则过程流继续到块1208。如果候选球衣号码的最大频率大于九,则过程流继续到块1216。
在块1208处,开始处理频率大于九的候选球衣号码结果。具体而言,响应于候选球衣号码为两位数,将该候选球衣号码分成一位数部分和两位数部分。在块1210处,确定该两位数部分是否包含候选球衣号码的该一位数部分。如果该两位数部分包含候选球衣号码的该一位数部分,则过程流继续到块1212。如果该两位数部分不包含候选球衣号码的一位数部分,则过程流进行到块1216。
在块1212处,将候选球衣号码的该一位数部分的频率加到候选球衣号码的该两位数部分的频率上。在块1214处,再次根据频率对球衣号码结果排序。在块1216处,选择具有最大频率的候选球衣号码作为最终的球衣号码。
图13是实现多相机球衣识别的方法1300的过程流程图。在块1302处,在来自单个相机的视图中检测到运动员。在多个实施例中,系统包括多个相机,其中在每个相机视图中检测运动员。在多个实施例中,可以执行运动员检测模块,以检测每个相机视图中的运动员。如上所述,可以在相机视图中检测到运动员并且可以生成边界框。边界框可以是包括/包围检测到的运动员的边界区域。
在块1304处,针对每个检测到的运动员,确定运动员的位置。在多个实施例中,运动员的位置可以是所捕获的3D体积内的点。为了确定运动员在3D体积内的位置,对每个相机在时间T处捕获到的运动员的位置进行处理以得出运动员位置。
在块1306处,将每个运动员分类为非侧面运动员或侧面运动员。在多个实施例中,可以基于运动员相对于相机的图像平面的取向来对运动员进行分类。另外,在多个实施例中,可以基于运动员所佩戴的标识符的可见性,将运动员分类为侧面运动员或非侧面运动员。如本文所描述,标识符是球衣号码。在块1308处,执行单视图球衣号码识别。单视图球衣号码识别将相机图像/帧/视图中运动员的边界框和运动员的取向作为输入。基于该输入,单视图球衣号码识别从运动员的图像中提取多个特征,并且针对每个相机视图确定候选球衣号码。在块1310处,候选球衣号码经受累积投票过程以确定最终的球衣号码。累积投票过程可以是参照图12所描述的过程。
图13的示意图并不旨在指示示例方法1300包括图13中所示的所有块。而是,方法1300可以使用图13中未图示的更少的或附加的块来实现。
现在参考图14,示出了图示生成沉浸式媒体体验的框图。计算设备1400可以是例如膝上型计算机、台式计算机、平板电脑、移动设备或可穿戴设备等。在一些示例中,计算设备1400可以是智能相机或数字安全监控相机。计算设备1400可以包括被配置为执行所存储的指令的中央处理单元(CPU)1402、以及存储能够由CPU 1402执行的指令的存储器设备1404。CPU 1402可以通过总线1406耦接到存储器设备1404。另外,CPU 1402可以是单核处理器、多核处理器、计算集群或任何数量的其他配置。此外,计算设备1400可以包括多于一个的CPU 1402。在一些示例中,CPU 1402可以是具有多核处理器架构的片上系统(SoC)。在一些示例中,CPU 1402可以是用于图像处理的专用数字信号处理器(DSP)。存储器设备1404可以包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器或任何其他合适的存储器系统。例如,存储器设备1404可以包括动态随机存取存储器(DRAM)。
计算设备1400还可以包括图形处理单元(GPU)1408。如图所示,CPU 1402可以通过总线1406耦接到GPU 1408。GPU 1408可以被配置为在计算设备1400内进行任意数量的图形操作。例如,GPU 1408可以被配置为渲染或操纵要向计算设备1400的查看器显示的图形图像、图形帧、或视频等。
CPU 1402还可以通过总线1406连接到输入/输出(I/O)设备接口1410,所述接口1410被配置为将计算设备1400连接到一个或多个I/O设备1412。I/O设备1412可以包括例如键盘和定点设备,其中定点设备可以包括触摸板或触摸屏等。I/O设备1412可以是计算设备1400的内置组件,或者可以是从外部连接到计算设备1400的设备。在一些示例中,存储器1404可以通过直接存储器访问(DMA)通信地耦接到I/O设备1412。
CPU 1402还可以通过总线1406链接到显示接口1414,所述显示接口1414被配置为将计算设备1400连接到显示设备1416。显示设备1416可以包括作为计算设备1400的内置组件的显示屏。显示设备1416还可以包括从内部或外部连接到计算设备1400的计算机监视器、电视或投影仪等。显示设备1416还可以包括头戴式显示器。
计算设备1400还包括存储设备1418。存储设备1418是实体存储器,例如硬盘驱动器、光学驱动器、拇指驱动器、驱动器阵列、固态驱动器或其任意组合。存储设备1418还可以包括远程存储驱动器。
计算设备1400还可以包括网络接口控制器(NIC)1420。NIC 1420可以被配置为通过总线1406将计算设备1400连接到网络1422。网络1422可以是广域网(WAN)、局域网(LAN)或因特网等。在一些示例中,设备可以通过无线技术与其他设备通信。例如,设备可以经由无线局域网连接与其他设备通信。在一些示例中,设备可以通过或类似技术与其他设备连接和通信。
计算设备1400还包括沉浸式观看管理器1424。沉浸式观看管理器1424可以被配置为能够从任何角度360°观看体育赛事。具体而言,可以处理由多个相机捕获的图像,以使终端用户能够虚拟地体验比赛场地内的任何位置。具体而言,不管用于捕获体育赛事图像的特定相机位置如何,终端用户都可以在比赛中建立视点。沉浸式观看管理器1424包括SCD模块1426以确定每个运动员在每个所捕获的相机视图中的隔离边界框。SCT模块1428用于获得在每个相机视图中的各帧之间同一运动员的边界框的关联,并且在不同帧之间为同一运动员分配独特的轨迹ID。
SJR模块1430用于识别运动员的球衣号码。在多个实施例中,针对每个运动员实时识别球衣号码。如本文描述的单视图球衣号码识别包括预处理、特征提取、特征匹配和非极大值抑制。单视图球衣号码识别过程将检测到的由边界框限定的非侧面运动员图像作为输入。从检测到的非侧面运动员图像中提取特征。将你只需看一次(YOLO)回归应用于所提取的特征。最后,将硬NMS算法应用于这些特征以获得球衣号码结果。
STC模块1432用于识别运动员的球队标记。MCA模块1434使用来自每个相机视图的一个帧中运动员的边界框来得出运动员在比赛场地中的2D/3D位置。MCT模块1436得出相关关系并连接时间和空间关联,以确定比赛场地中每个运动员的全局运动员身份。最后,PTO模块1438将球衣/球队信息和位置作为输入并生成运动员轨迹。
图14的框图并不旨在指示计算设备1400包括图14中所示的所有组件。而是,计算设备1400可以包括图14中未图示的更少的或附加的组件,例如附加缓冲器和附加处理器等。取决于具体实施方式的细节,计算设备1400可以包括图14中未示出的任何数量的附加组件。此外,沉浸式观看管理器1424、SCD模块1426、SCT模块1428、SJR模块1430、STC模块1432、MCA模块1434、MCT模块1436和PTO模块1438的任何功能均可以部分地或完全地在硬件和/或在处理器1402中实现。例如,功能可以利用专用集成电路来实现,用在处理器1402中实现的逻辑来实现,或在任何其他设备中实现。例如,沉浸式观看管理器1424的功能可以用专用集成电路、在处理器中实现的逻辑、在专用图形处理单元(GPU1408)中实现的逻辑来实现,或在任何其他设备中实现。
图15是示出存储生成沉浸式媒体体验的代码的计算机可读介质1500的框图。计算机可读介质1500可以被处理器1502通过计算机总线1504访问。此外,计算机可读介质1500可以包括被配置为引导处理器1502执行本文描述的方法的代码。在一些实施例中,计算机可读介质1500可以是非暂时性计算机可读介质。在一些实施例中,计算机可读介质1500可以是存储介质。
本文讨论的各种软件组件可以被存储在一个或多个计算机可读介质1500上,如图15中所示。例如,SCD模块1506用于确定在每个捕获的相机视图中的每个运动员的隔离边界框。SCT模块1508用于获得每个相机视图中各帧之间同一运动员的边界框的关联,并且在不同帧之间为同一运动员分配独特的轨迹ID。
SJR模块1510用于识别运动员的球衣号码。如本文描述的单视图球衣号码识别包括预处理、特征提取、特征匹配和非极大值抑制。单视图球衣号码识别过程将由边界框限定的检测到的非侧面运动员图像作为输入。从检测到的非侧面运动员图像提取特征。将你只需看一次(YOLO)回归应用于所提取的特征。最后,将硬NMS算法应用于这些特征以获得球衣号码结果。
STC模块1512用于识别运动员的球队标记。MCA模块1514使用来自每个相机视图的一个帧中运动员的边界框来得出运动员在比赛场地中的2D/3D位置。MCT模块1516得出相关关系并连接时间和空间关联以确定比赛场地中每个运动员的全局运动员身份。最后,PTO模块1518将球衣/球队信息和位置作为输入并生成运动员轨迹。
图15的框图并不旨在指示计算机可读介质1500包括图15中所示的所有组件。此外,取决于具体实施方式的细节,计算机可读介质1500可以包括图15中未示出的任何数量的附加组件。
示例
示例1是一种方法。所述方法包括:检测由相机捕获的相机视图中的运动员;确定所述运动员在每个相机视图中的运动员位置,其中,所述运动员位置由边界框限定;基于标识符的可见性,将所述运动员分类为侧面运动员或非侧面运动员;以及响应于所述运动员为非侧面运动员:从所述边界框内的检测到的运动员提取特征;根据所提取的特征,对多个标签进行分类;以及根据投票策略,从所述多个标签中选择具有最高投票数的标签作为最终标签。
示例2包括示例1的方法,所述方法包括或排除可选特征。在该方法中,所述方法包括对所述所提取的特征应用硬非极大值抑制,以获得具有待分类的所述多个标签的边界框。
示例3包括示例1至2中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,所述标识符为所述运动员在比赛期间穿着的球衣号码。
示例4包括示例1至3中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,所述运动员被分类为侧面运动员或非侧面运动员指示所述运动员相对于所述相机的图像平面的取向。
示例5包括示例1至4中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,非侧面运动员的所述标识符基本上是可见的,其中,所述标识符的所述相机视图被用来得出整个标识符。
示例6包括示例1至5中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,每个侧面运动员的所述标识符不是基本上可见的,其中,所述标识符的所述相机视图无法被用来得出整个标识符。
示例7包括示例1至6中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,响应于所述运动员被分类为侧面运动员,不使用所述相机视图进行球衣号码识别。
示例8包括示例1至7中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,在对由卷积神经网络(CNN)进行的对所述所提取的特征的处理的准备过程中,针对所述运动员的所述边界框被填充以与所述CNN的输入尺寸相对应。
示例9包括示例1至8中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,从在所述边界框内的检测到的运动员提取特征精确地定位候选标识符。
示例10包括示例1至9中任一项所述的方法,所述方法包括或排除可选特征。在该示例中,从在所述边界框内的检测到的运动员提取特征提取高分辨率低级特征和较高级语义低分辨率特征。
示例11是一种系统。所述系统包括处理器,用以:检测由相机捕获的相机视图中的运动员;确定所述运动员在每个相机视图中的运动员位置,其中,所述运动员位置由边界框限定;基于标识符的可见性,将所述运动员分类为侧面运动员或非侧面运动员;以及响应于所述运动员为非侧面运动员:从在所述边界框内的检测到的所述运动员提取特征;根据标签对所述特征进行分类;以及根据投票策略,选择具有最高投票数的标签作为最终标签。
示例12包括示例11的系统,所述系统包括或排除可选特征。在该示例中,所述标识符为所述运动员在比赛期间穿着的球衣号码。
示例13包括示例11至12中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,所述运动员被分类为侧面运动员或非侧面运动员指示所述运动员相对于所述相机的图像平面的取向。
示例14包括示例11至13中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,非侧面运动员的所述标识符基本上是可见的,其中,所述标识符的所述相机视图被用来得出整个标识符。
示例15包括示例11至14中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,每个侧面运动员的所述标识符不是基本上可见的,其中,所述标识符的所述相机视图无法被用来得出整个标识符。
示例16包括示例11至15中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,响应于所述运动员被分类为侧面运动员,不使用所述相机视图进行球衣号码识别。
示例17包括示例11至16中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,在对由卷积神经网络(CNN)进行的对所提取的特征进行处理的准备过程中,针对所述运动员的所述边界框被填充以与所述CNN的输入尺寸相对应。
示例18包括示例11至17中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,从在所述边界框内的检测到的运动员提取特征精确地定位候选标识符。
示例19包括示例11至18中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,从在所述边界框内的检测到的运动员提取特征提取高分辨率低级特征和较高级语义低分辨率特征。
示例20包括示例11至19中任一项所述的系统,所述系统包括或排除可选特征。在该示例中,硬非极大值抑制被应用于所提取的特征。
示例21是至少一种非暂时性计算机可读介质。所述计算机可读存储介质包括引导处理器进行以下操作的指令:检测由相机捕获的相机视图中的运动员;确定所述运动员在每个相机视图中的运动员位置,其中,所述运动员位置由边界框限定;基于标识符的可见性,将所述运动员分类为侧面运动员或非侧面运动员;以及响应于所述运动员为非侧面运动员:从在所述边界框内的检测到的运动员提取特征;根据所提取的特征,对多个标签进行分类;以及根据投票策略,从所述多个标签中选择具有最高投票数的标签作为最终标签。
示例22包括示例21的计算机可读介质,所述计算机可读介质包括或排除可选特征。在该示例中,所述计算机可读介质包括:对所述所提取的特征应用硬非极大值抑制,以获得具有待分类的所述多个标签的边界框。
示例23包括示例21至22中任一项所述的计算机可读介质,所述计算机可读介质包括或排除可选特征。在该示例中,所述标识符为所述运动员在比赛期间穿着的球衣号码。
示例24包括示例21至23中任一项所述的计算机可读介质,所述计算机可读介质包括或排除可选特征。在该示例中,将所述运动员分类为侧面运动员或非侧面运动员指示所述运动员相对于所述相机的图像平面的取向。
示例25包括示例21至24中任一项所述的计算机可读介质,所述计算机可读介质包括或排除可选特征。在该示例中,非侧面运动员的所述标识符基本上是可见的,其中,所述标识符的所述相机视图被用来得出整个标识符。
在一个或多个特定方面中不需要包括本文描述和图示的所有组件、特征、结构、特性,等等。如果说明书陈述例如“可”、“可能”、“可以”或者“能够”包括某一组件、特征、结构或特性,那么并不是要求要包括该特定组件、特征、结构或特性。如果说明书或权利要求提及由冠词“a”或冠词“a”限定的元素,那么并不意味着只有一个该元素。如果说明书或权利要求提及由冠词“an”限定的额外元素,那么并不排除有多于该一个额外元素。
要注意,虽然已参考特定实现方式描述了一些方面,但根据一些方面,其他实现方式是可能的。此外,不需要按图示和描述的特定方式来布置附图中图示和/或本文描述的电路元件或其他特征的布置和/或顺序。根据一些方面,许多其他布置是可能的。
在附图中示出的每个系统中,元素在一些情况下可各自具有相同的标号或不同的标号以暗示出所表示的元素可以是不同的和/或相似的。然而,元素可灵活到足以具有不同的实现方式并且与本文示出或描述的一些或所有系统一起工作。附图中示出的各种元素可以是相同或不同的。哪一个被称为第一元素以及哪一个被称为第二元素,是任意的。
要理解,上述示例的细节可在一个或多个方面中的任何地方被使用。例如,上文描述的计算设备的所有可选特征也可对本文描述的方法或计算机可读介质的任一者实现。此外,虽然流程图和/或状态图在本文中可能已被用于描述一些方面,但本技术并不限于这些图或者本文的相应描述。例如,流程不需要按与本文图示和描述的顺序完全相同的顺序移动经过每个图示的方框或状态。
本技术不限于本文列出的特定细节。事实上,受益于本公开的本领域技术人员将会明白,在本技术的范围内,可做出不同于前述描述和附图的许多其他变化。因此,限定本技术的范围的是所附权利要求,包括对其的任何修改。
Claims (25)
1.一种方法,包括:
检测由相机捕获的相机视图中的运动员;
确定所述运动员在每个相机视图中的运动员位置,其中,所述运动员位置由边界框限定;
基于标识符的可见性,将所述运动员分类为侧面运动员或非侧面运动员;以及
响应于所述运动员为非侧面运动员:
从所述边界框内的检测到的运动员提取特征;
根据所提取的特征,对多个标签进行分类;以及
根据投票策略,从所述多个标签中选择具有最高投票数的标签作为最终标签。
2.根据权利要求1所述的方法,包括:对所述所提取的特征应用硬非极大值抑制,以获得具有待分类的所述多个标签的边界框。
3.根据权利要求1所述的方法,其中,所述标识符为所述运动员在比赛期间穿着的球衣号码。
4.根据权利要求1所述的方法,其中,所述运动员被分类为侧面运动员或非侧面运动员指示所述运动员相对于所述相机的图像平面的取向。
5.根据权利要求1所述的方法,其中,非侧面运动员的所述标识符基本上是可见的,其中,所述标识符的所述相机视图被用来得出整个标识符。
6.根据权利要求1所述的方法,其中,每个侧面运动员的所述标识符不是基本上可见的,其中,所述标识符的所述相机视图无法被用来得出整个标识符。
7.根据权利要求1所述的方法,其中,响应于所述运动员被分类为侧面运动员,不使用所述相机视图进行球衣号码识别。
8.根据权利要求1所述的方法,其中,在对由卷积神经网络(CNN)进行的对所述所提取的特征的处理的准备过程中,针对所述运动员的所述边界框被填充以与所述CNN的输入尺寸相对应。
9.根据权利要求1所述的方法,其中,从在所述边界框内的检测到的运动员提取特征精确地定位候选标识符。
10.根据权利要求1所述的方法,其中,从在所述边界框内的检测到的运动员提取特征提取高分辨率低级特征和较高级语义低分辨率特征。
11.一种系统,包括:
处理器,用以:
检测由相机捕获的相机视图中的运动员;
确定所述运动员在每个相机视图中的运动员位置,其中,所述运动员位置由边界框限定;
基于标识符的可见性,将所述运动员分类为侧面运动员或非侧面运动员;以及
响应于所述运动员为非侧面运动员:
从在所述边界框内的检测到的所述运动员提取特征;
根据标签对所述特征进行分类;以及
根据投票策略,选择具有最高投票数的标签作为最终标签。
12.根据权利要求11所述的系统,其中,所述标识符为所述运动员在比赛期间穿着的球衣号码。
13.根据权利要求11所述的系统,其中,所述运动员被分类为侧面运动员或非侧面运动员指示所述运动员相对于所述相机的图像平面的取向。
14.根据权利要求11所述的系统,其中,非侧面运动员的所述标识符基本上是可见的,其中,所述标识符的所述相机视图被用来得出整个标识符。
15.根据权利要求11所述的系统,其中,每个侧面运动员的所述标识符不是基本上可见的,其中,所述标识符的所述相机视图无法被用来得出整个标识符。
16.根据权利要求11所述的系统,其中,响应于所述运动员被分类为侧面运动员,不使用所述相机视图进行球衣号码识别。
17.根据权利要求11所述的系统,其中,在对由卷积神经网络(CNN)进行的对所提取的特征进行处理的准备过程中,针对所述运动员的所述边界框被填充以与所述CNN的输入尺寸相对应。
18.根据权利要求11所述的系统,其中,从在所述边界框内的检测到的运动员提取特征精确地定位候选标识符。
19.根据权利要求11所述的系统,其中,从在所述边界框内的检测到的运动员提取特征提取高分辨率低级特征和较高级语义低分辨率特征。
20.根据权利要求11所述的系统,其中,硬非极大值抑制被应用于所提取的特征。
21.至少一种非暂时性计算机可读介质,包括引导处理器进行以下操作的指令:
检测由相机捕获的相机视图中的运动员;
确定所述运动员在每个相机视图中的运动员位置,其中,所述运动员位置由边界框限定;
基于标识符的可见性,将所述运动员分类为侧面运动员或非侧面运动员;以及
响应于所述运动员为非侧面运动员:
从在所述边界框内的检测到的运动员提取特征;
根据所提取的特征,对多个标签进行分类;以及
根据投票策略,从所述多个标签中选择具有最高投票数的标签作为最终标签。
22.根据权利要求21所述的计算机可读介质,包括:对所述所提取的特征应用硬非极大值抑制,以获得具有待分类的所述多个标签的边界框。
23.根据权利要求21所述的计算机可读介质,其中,所述标识符为所述运动员在比赛期间穿着的球衣号码。
24.根据权利要求21所述的计算机可读介质,其中,将所述运动员分类为侧面运动员或非侧面运动员指示所述运动员相对于所述相机的图像平面的取向。
25.根据权利要求21所述的计算机可读介质,其中,非侧面运动员的所述标识符基本上是可见的,其中,所述标识符的所述相机视图被用来得出整个标识符。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2019/098518 WO2021016904A1 (en) | 2019-07-31 | 2019-07-31 | Multiple camera jersey number recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114041172A true CN114041172A (zh) | 2022-02-11 |
Family
ID=74228861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980097900.3A Pending CN114041172A (zh) | 2019-07-31 | 2019-07-31 | 多相机球衣号码识别 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220180649A1 (zh) |
EP (1) | EP4004800A4 (zh) |
CN (1) | CN114041172A (zh) |
WO (1) | WO2021016904A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150297949A1 (en) * | 2007-06-12 | 2015-10-22 | Intheplay, Inc. | Automatic sports broadcasting system |
EP1757087A4 (en) * | 2004-04-16 | 2009-08-19 | James A Aman | AUTOMATIC VIDEO RECORDING OF EVENTS, PURSUIT AND CONTENT PRODUCTION SYSTEM |
US10521671B2 (en) * | 2014-02-28 | 2019-12-31 | Second Spectrum, Inc. | Methods and systems of spatiotemporal pattern recognition for video content development |
US11087130B2 (en) * | 2017-12-29 | 2021-08-10 | RetailNext, Inc. | Simultaneous object localization and attribute classification using multitask deep neural networks |
US10818033B2 (en) * | 2018-01-18 | 2020-10-27 | Oath Inc. | Computer vision on broadcast video |
US10628705B2 (en) * | 2018-03-29 | 2020-04-21 | Qualcomm Incorporated | Combining convolution and deconvolution for object detection |
CN110163834B (zh) * | 2018-05-14 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 对象识别方法和装置及存储介质 |
CN108898134B (zh) * | 2018-06-27 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 号码识别方法、装置、终端设备和存储介质 |
CN108875667B (zh) * | 2018-06-27 | 2021-03-02 | 北京字节跳动网络技术有限公司 | 目标识别方法、装置、终端设备和存储介质 |
-
2019
- 2019-07-31 US US17/438,348 patent/US20220180649A1/en active Pending
- 2019-07-31 WO PCT/CN2019/098518 patent/WO2021016904A1/en unknown
- 2019-07-31 CN CN201980097900.3A patent/CN114041172A/zh active Pending
- 2019-07-31 EP EP19939905.6A patent/EP4004800A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220180649A1 (en) | 2022-06-09 |
EP4004800A1 (en) | 2022-06-01 |
EP4004800A4 (en) | 2023-04-26 |
WO2021016904A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11967086B2 (en) | Player trajectory generation via multiple camera player tracking | |
US11395947B2 (en) | Virtual environment construction apparatus, video presentation apparatus, model learning apparatus, optimal depth decision apparatus, methods for the same, and program | |
JP7289080B2 (ja) | 球技映像解析装置、及び、球技映像解析方法 | |
US9473748B2 (en) | Video tracking of baseball players to determine the end of a half-inning | |
US20220351535A1 (en) | Light Weight Multi-Branch and Multi-Scale Person Re-Identification | |
US10922871B2 (en) | Casting a ray projection from a perspective view | |
JP7334527B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
WO2020235339A1 (ja) | プレイ分析装置、及び、プレイ分析方法 | |
US11823454B2 (en) | Method and apparatus for user interaction with a video stream | |
WO2021016902A1 (en) | Game status detection and trajectory fusion | |
JP7345108B2 (ja) | プレイ分析装置、プレイ分析方法、及び、コンピュータプログラム | |
JP7113336B2 (ja) | プレイ分析装置、及び、プレイ分析方法 | |
JP7113335B2 (ja) | プレイ分析装置、及び、プレイ分析方法 | |
CN114041172A (zh) | 多相机球衣号码识别 | |
WO2020071092A1 (ja) | プレイ分析装置、及び、プレイ分析方法 | |
KR20220047863A (ko) | 마스터 클럭 및 합성 이미지를 위한 시스템, 장치 및 방법 | |
CN112989905A (zh) | 从图像判定运动员的手球的设备、计算机程序以及方法 | |
US11707663B1 (en) | System for tracking, locating and predicting the position of a ball in a game of baseball or similar | |
JP7296546B2 (ja) | プレイ分析装置、及び、プレイ分析方法 | |
JP2020185061A (ja) | プレイ分析装置、及び、プレイ分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |