CN106504187A - 视频识别方法以及装置 - Google Patents
视频识别方法以及装置 Download PDFInfo
- Publication number
- CN106504187A CN106504187A CN201611011085.9A CN201611011085A CN106504187A CN 106504187 A CN106504187 A CN 106504187A CN 201611011085 A CN201611011085 A CN 201611011085A CN 106504187 A CN106504187 A CN 106504187A
- Authority
- CN
- China
- Prior art keywords
- labelling
- video frame
- target
- video
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000002372 labelling Methods 0.000 claims abstract description 162
- 238000013507 mapping Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004310 photopic vision Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种视频识别方法以及装置,属于视频处理技术领域。所述方法包括:获取全景视频,将所述全景视频的三维视频帧转换为目标二维视频帧;对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧;将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。本发明实施例能够实现精确地、有效地、方便地识别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
Description
技术领域
本发明实施例涉及视频处理技术领域,具体地,涉及一种视频识别方法以及一种视频识别装置。
背景技术
随着三维全景的技术的不断发展,全景视频被越来越多的应用,全景视频的每一视频帧都是一个360度的全景,给人身临其境的感觉。但是本申请发明人在实现本发明的过程中发现:全景视频的视频源,例如球模型的全景视频,是经过坐标转换映射成的2:1比例视频,视频内容已经发生扭曲,因此,存在难以对全景视频中的目标对象进行检测识别或者识别不准确的问题。
发明内容
针对全景视频的视频帧中的目标对象识别难以进行或识别不准确的技术问题,本发明实施例提供一种视频识别方法,该方法包括:获取全景视频,将所述全景视频的三维视频帧转换为目标二维视频帧;对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧;将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。
可选的,所述全景视频为球模型三维全景视频,所述将所述全景视频的三维视频帧转换为目标二维视频帧包括:将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧;将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹配。
可选的,所述对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧包括:识别所述目标二维视频帧中的目标对象;获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标记所述目标对象,以生成标记后的目标二维视频帧。
可选的,所述将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧包括:获取所述标记后的目标二维视频帧的中所述几何区域的坐标;将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧;将所述多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配;将所述标记后的第一二维视频帧的坐标转换为球模型坐标,生成标记后的目标三维视频帧。
可选的,该方法还包括:将所述标记后的目标三维视频帧进行组合,形成标记后的全景视频。
此外,本发明实施例还提供了一种视频识别装置,该装置包括:获取模块,用于获取全景视频;转换模块,用于将所述全景视频的三维视频帧转换为目标二维视频帧;识别和标记模块,用于对所述目标二维视频帧进行目标对象识别和标记生成标记后的目标二维视频帧;以及逆转换模块,用于将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。
可选的,所述全景视频为球模型三维全景视频,所述转换模块用于:将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧;将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹配。
可选的,所述识别和标记模块用于:识别所述目标二维视频帧中的目标对象;获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标记所述目标对象,生成标记后的目标二维视频帧。
可选的,所述逆转换模块用于:获取所述标记后的目标二维视频帧的中所述几何区域的坐标;将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧;将所述多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配;将所述标记后的第一二维视频帧的坐标转换为球模型坐标,生成标记后的目标三维视频帧。
可选的,该装置还包括:显示模块,用于将所述标记后的目标三维视频帧进行组合形成标记后的全景视频。
通过上述技术方案,将获取的全景视频转换为目标二维视频帧,之后对所述目标二维视频帧进行目标对象识别并对所识别的目标对象进行标记,最终将标记有目标对象的标记后的目标二维视频帧转换为标记后的三维视频帧,能够实现精确地、有效地、方便地识别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是根据本发明实施例的一种实施例的视频识别方法的示例流程图;
图2是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图;
图3是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图;
图4A-4B是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图;
图5是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图;
图6是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图;
图7是根据本发明实施例的一种实施例的视频识别装置的结构示意图;以及
图8是根据本发明实施例的一种实施例的视频识别装置的结构示意图;
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
为了实现对全景视频的三维视频帧中的目标对象进行精确地、有效地、方便地识别,本发明实施例考虑了多种实施例,下面将一一进行详细地说明:
实施例1
图1是根据本发明实施例的一种实施例的视频识别方法的示例流程图,如图1所示,该方法可以包括以下步骤:
步骤S11,获取全景视频,例如可以从视频库中获取待识别的视频源或者从终端预先存储的视频中获取全景视频源,例如车辆在公路上行驶的全景视频。
步骤S12,将所述全景视频的三维视频帧转换为目标二维视频帧。
步骤S13,对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧。例如,对于车辆在公路上行驶的全景视频,可以将其中的车辆设定为目标对象,并且,可以使用深度学习的工具(诸如faster-rcnn、yolo等)对全景视频中的目标对象(例如车辆)进行识别并标记,生成标记后的目标二维视频帧,以为后续视频转换提供基础。
步骤S14,将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。例如对于上述车辆在公路上行驶的示例,标记后的目标二维视频帧中包括对于车辆的标记(例如几何形状区域框、车辆边缘提取线等),将包括该标记的标记后的目标二维视频帧转换为标记后的目标三维视频帧,即将具有标记的二维视频帧转换到三维空间,以在全景视频中显示出该标记后的目标对象,以为后续的功能(例如车辆位置检测等操作)提供数据基础。
采用本实施例,将获取的全景视频转换为目标二维视频帧,之后对所述目标二维视频帧进行目标对象识别并对所识别的目标对象进行标记,最终将标记有目标对象的标记后的目标二维视频帧转换为标记后的三维视频帧,能够实现精确地、有效地、方便地识别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
实施例2
图2-6是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图。如图2所示,在实施例2中,以球模型三维全景视频为例来说明对全景视频的示例识别过程:
首先,在步骤S11,获取全景视频,所述全景视频为球模型三维全景视频,例如车辆在公路上行驶的球模型三维全景视频帧a,如图2所示。
之后,在步骤S12,如图3所示,将所述全景视频的三维视频帧转换为目标二维视频帧可以包括:
步骤S121,将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧,所述第一预设形状可以为任何适当的形状,例如立方体,所述第一二维视频帧可以为立方体贴图,即将所述球模型的三维视频帧转换为立方体贴图,即执行过程1001;
步骤S122,将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,例如所述第一预设规则为将所述立方体贴图的每个面的二维纹理图像映射为6宫格视频帧,其中所述立方体贴图的每个面(即立方体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理图像分别对应所述6宫格视频帧中的每个宫格(对应图4A的数字标号3、4、2、1、5、6),根据上述第一预设规则可以将立方体贴图切割成多个第二二维视频帧,如图2中的视频帧b所示,其中多个第二二维视频帧可以对应图4A的数字标号3、4、2、1、5、6,即执行过程1002;其中过程1001-1002可以借助一些视频处理的开源工具实现,例如,使用facebook等开源工具完成。
步骤S123,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹配,例如当所述第一预设形状为立方体时,所述第二预设形状可以为十字形,该十字形可以是将立方体的6个面按照几何分解而得到的十字形图像。具体地,可以将所述6宫格视频帧映射为十字形的目标二维视频帧,例如,如图2中的视频帧c所示,即执行过程1003。
举例来说,图4A-4B是根据本发明实施例的一种实施例的视频识别方法进行视频识别过程的示意图,其中示出了将6宫格视频帧b映射为十字形视频帧c的一种示例。
具体来说,首先将对6宫格视频帧b进行按照3x2的划分,计算出每个小正方形的位置;之后,使用opencv等图像处理工具,根据坐标裁剪出6个矩形块,即图4A中的1、2、3、4、5、6矩形块分别对应着立方体贴图的右面、左面、上面、下面、前面、后面;接着,将六个矩形块1、2、3、4、5、6重新拼接,拼接成由立方体展开而得到的按4x3进行分割的十字形视频帧,如图4B所示。最后,记录使用图4A中的数字标号记录6宫格图像与图4B中十字形图像中各块的预定映射关系:
PLANE_43_TO_32_MAP[]={-1,3,-1,-1,2,5,1,6,-1,4,-1,-1}(-1代表无效位置),其中PLANE_43_TO_32_MAP表示映射数组,数组标表示其在十字形中的数字,相应的值为其在6宫格图像中所在矩形块的数字,通过该映射数组,就可以计算十字形图像中的任何有效位置(非黑色区域,黑色区域为无效区域)在六宫格图像中相匹配的坐标,该逆映射过程将在下述逆转换过程中使用。
接着,在步骤S13,如图5所示,对所述目标二维视频帧进行目标对象识别和标记生成标记后的目标二维视频帧可以包括:
步骤S131,识别所述目标二维视频帧中的目标对象,例如,使用深度学习的工具(诸如faster-rcnn、yolo等)对视频帧c中的目标对象(例如车辆car)进行识别。
步骤S132,获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标记所述目标对象,以生成标记后的目标二维视频帧。例如。可以使用矩形框等的几何区域标记所识别的目标对象车辆car,例如,如图2所示,视频帧d中使用矩形框标记出了在场景中车辆car的位置,即执行过程1004,或者也可以直接高亮描绘车辆的轮廓线。
接着,在步骤S14,如图6所示,将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧可以包括:
步骤141,获取所述标记后的目标二维视频帧的中所述几何区域的坐标,例如对于视频帧d中的矩形框,可以使用(x,y)的形式来表示该矩形框的四个顶点的坐标,根据该四个顶点的坐标即可以绘制出该矩形框。
步骤S142,将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧,例如根据过程1003中设置好的预定映射关系(即上述映射数组),可以将矩形框的四个顶点的坐标映射到6宫格视频帧,即执行过程1005,将具有矩形框的十字形视频帧映射到6宫格视频帧上,即执行逆映射过程。
步骤S143,将多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配,例如,所述第二预设规则为将6宫格视频帧映射为所述立方体贴图的每个面的二维纹理图像,其中所述6宫格视频帧中的每个宫格(对应图4A的数字标号3、4、2、1、5、6)分别对应所述立方体贴图的每个面(即立方体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理图像,即执行过程1006。
步骤S144将所述标记后的第一二维视频帧的坐标转换为球模型坐标,以生成标记后的目标三维视频帧。例如,将所述标记后的立方体贴图转换为标记后的球模型的三维视频帧,具体地,根据立方体贴图上的坐标,计算出极坐标α和β,α、β可以分别除以360度和180度,按比例找出在球模型上对应的坐标(在2:1视频中的像素点),如图2中的视频帧e所示,即执行过程1007,其中,如图2所示,视频帧e在梯形区域中标记出了在该全景场景中车辆car的位置,实现了本发明实施例的目的。其中步骤1006-1007可以借助一些视频处理的开源工具实现,例如,使用facebook等开源工具完成。
最后,将通过上述过程1001-1007标记后的目标三维视频帧进行组合,形成标记后的全景视频。
可选地,作为本实施例的一种可选实施方式,所述方法还包括:将所述标记后的目标三维视频帧进行组合以形成标记后的全景视频,以及显示所述标记后的全景视频,例如将如图2中所示的视频帧e与其他标记后的视频帧f\h\i等任意数量的视频帧进行组合,以形成标记后的全景视频,以及最终显示所述标记后的全景视频。
相匹配采用本实施例,能够实现在全景视频帧中精确地、有效地、方便地识别出目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
实施例3
图7是根据本发明实施例的一种实施例的视频识别装置100的结构示意图,如图7所示,该装置可以包括:获取模块10,用于获取全景视频,例如可以从视频库中获取待识别的视频源或者从终端预先存储的视频中获取全景视频源,例如车辆在公路上行驶的全景视频;转换模块20,用于将所述全景视频的三维视频帧转换为目标二维视频帧;识别和标记模块30,用于对所述目标二维视频帧进行目标对象识别和标记生成标记后的目标二维视频帧,例如,对于车辆在公路上行驶的全景视频,可以将其中的车辆设定为目标对象,并且,可以使用深度学习的工具(诸如faster-rcnn、yolo等)对全景视频中的目标对象(例如车辆)进行识别并标记,生成标记后的目标二维视频帧,以为后续视频转换提供基础;以及逆转换模块40,用于将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。例如对于上述车辆在公路上行驶的示例,标记后的目标二维视频帧中将包括对于车辆的标记(例如几何形状区域框、车辆边缘提取线等),将包括该标记的标记后的目标二维视频帧转换为标记后的目标三维视频帧,即将具有标记的二维视频帧转换到三维空间,以在全景视频中显示出该标记后的目标对象,以为后续的功能(例如车辆位置检测等操作)提供数据基础。
采用本实施例,视频识别装置100可以将获取的全景视频转换为目标二维视频帧,之后对所述目标二维视频帧进行目标对象识别并对所识别的目标对象进行标记,最终将标记有目标对象的标记后的目标二维视频帧转换为标记后的三维视频帧,能够实现精确地、有效地、方便地识别全景视频帧中的目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
实施例4
如图2所示,在实施例4中,以球模型三维全景视频为例来说明视频识别装置100对全景视频的示例识别过程:
首先,获取模块10可以获取全景视频,所述全景视频为球模型三维全景视频,例如车辆在公路上行驶的球模型三维全景视频帧a,如图2所示。
之后,转换模块20可以将所述全景视频的三维视频帧转换为目标二维视频帧,具体地可以执行以下过程:
将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧,所述第一预设形状可以为任何适当的形状,例如立方体,所述第一二维视频帧可以为立方体贴图,即将所述球模型的三维视频帧转换为立方体贴图,即执行过程1001;
将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,例如所述第一预设规则为将所述立方体贴图的每个面的二维纹理图像映射为6宫格视频帧,其中所述立方体贴图的每个面(即立方体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理图像分别对应所述6宫格视频帧中的每个宫格(对应图4A的数字标号3、4、2、1、5、6),根据上述第一预设规则可以将立方体贴图切割成多个第二二维视频帧,如图2中的视频帧b所示,其中多个第二二维视频帧可以对应图4A的数字标号3、4、2、1、5、6,即执行过程1002;其中过程1001-1002可以借助一些视频处理的开源工具实现,例如,使用facebook等开源工具完成;
将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹配,例如所述第二预设形状可以为十字形,该十字形可以是将立方体的6个面按照几何分解而得到的十字形图像。具体地,可以将所述6宫格视频帧映射为十字形的目标二维视频帧,例如,如图2中的视频帧c所示,即执行过程1003。
举例来说,如图4A-4B所示,其中示出了将6宫格视频帧b映射为十字形视频帧c的一种示例。具体来说,首先将对6宫格视频帧b进行按照3x2的划分,计算出每个小正方形的位置;之后,使用opencv等图像处理工具,根据坐标裁剪出6个矩形块,即图4A中的1、2、3、4、5、6矩形块分别对应着立方体贴图的右面、左面、上面、下面、前面、后面;接着,将六个矩形块1、2、3、4、5、6重新拼接,拼接成由立方体展开而得到的按4x3进行分割的十字形视频帧,如图4B所示。最后,记录使用图4A中的数字标号记录6宫格图像与图4B中十字形图像中各块的预定映射关系:
PLANE_43_TO_32_MAP[]={-1,3,-1,-1,2,5,1,6,-1,4,-1,-1}(-1代表无效位置),其中PLANE_43_TO_32_MAP表示映射数组,数组标表示其在十字形中的数字,相应的值为其在6宫格图像中所在矩形块的数字,通过该映射数组,就可以计算十字形图像中的任何有效位置(非黑色区域,黑色区域为无效区域)在六宫格图像中相匹配的坐标,该逆映射过程将在下述逆转换模块40中使用。
接着,识别和标记模块30可以对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧,具体地,可以执行以下过程:
识别所述目标二维视频帧中的目标对象,例如,使用深度学习的工具(诸如faster-rcnn、yolo等)对视频帧c中的目标对象(例如车辆car)进行识别;
获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标记所述目标对象,以生成标记后的目标二维视频帧。例如,可以使用矩形框等的几何区域标记所识别的目标对象车辆car,例如,如图2所示,视频帧d中使用矩形框标记出了在场景中车辆car的位置,即执行过程1004,或者也可以直接高亮描绘车辆的轮廓线。
接着,逆转换模块40可以将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,例如可以执行以下过程:
获取所述标记后的目标二维视频帧的中所述几何区域的坐标,例如所述目标对象的位置信息(例如坐标)以及几何区域的坐标,例如对于视频帧d中的矩形框,可以使用(x,y)的形式来表示该矩形框的四个顶点的坐标,根据该四个顶点的坐标即可以绘制出该矩形框;
将包括有所述几何区域的坐标所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧,例如根据过程1003中设置好的预定映射关系(即上述映射数组),可以将矩形框的四个顶点的坐标映射到6宫格视频帧,即执行过程1005,将具有矩形框的十字形视频帧映射到6宫格视频帧上,即执行逆映射过程;
将多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配,例如,所述第二预设规则为将6宫格视频帧映射为所述立方体贴图的每个面的二维纹理图像,其中所述6宫格视频帧中的每个宫格(对应图4A的数字标号3、4、2、1、5、6)分别对应所述立方体贴图的每个面(即立方体的上面、下面、左面、右面、前面、后面,6个面)的二维纹理图像,即执行过程1006;
将所述标记后的第一二维视频帧的坐标转换为球模型坐标,以生成标记后的目标三维视频帧。例如,将所述标记后的立方体贴图转换为标记后的球模型的三维视频帧,具体地,根据立方体贴图上的坐标,计算出极坐标α和β,α、β可以分别除以360度和180度,按比例找出在球模型上对应的坐标(在2:1视频中的像素点),如图2中的视频帧e所示,即执行过程1007,其中,如图2所示,视频帧e在梯形区域中标记出了在该全景场景中车辆car的位置,实现了本发明实施例的目的。其中步骤1006-1007可以借助一些视频处理的开源工具实现,例如,使用facebook等开源工具完成。
最后,可以将通过上述过程1001-1007标记后的目标三维视频帧进行组合,以形成标记后的全景视频。
采用本实施例,视频识别装置100能够实现在全景视频帧中精确地、有效地、方便地识别出目标对象,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
实施例5
图8是根据本发明实施例的一种实施例的视频识别装置100的结构示意图,如图8所示,该实施例5与实施例3或4的视频识别装置100的不同之处在于,该装置除了包括上述获取模块10、转换模块20、识别和标记模块30、逆转换模块40外,还可以包括:显示模块50,用于将所述标记后的目标三维视频帧进行组合形成标记后的全景视频。该显示模块50还可以显示所述标记后的全景视频,例如将如图2中所示的视频帧e与其他标记后的视频帧f\h\i等任意数量的视频帧进行组合,形成标记后的全景视频,以及最终显示所述标记后的全景视频。
采用实施例5,能够将各个标记后的视频帧进行组合并显示最终全景视频,更加方便、直观,避免了因全景视频帧中视频图像的扭曲而造成的难以识别其中目标对象或者识别结果不准确的情况的发生,为全景视频的广泛应用提供了技术基础。
本发明实施例提供的视频识别方法以及装置可以以硬件或软件的形式实现,例如可以以软件的形式应用于需要对视频进行识别的任何适当的场景中,例如电视机、手机、平板电脑、VR设备、以及智能可穿戴设备等,也可以以硬件的形式与上述场景中的设备集成,本发明实施例对此不进行限定。
应当理解的是,本领域技术人员可以根据本发明实施例的公开选择上述各种实施例中的任一者,或者选择上述各种实施例的组合来配置视频识别方法和装置,并且其他的替换实施例也落入本发明实施例的保护范围。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (10)
1.一种视频识别方法,其特征在于,该方法包括:
获取全景视频,将所述全景视频的三维视频帧转换为目标二维视频帧;
对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧;将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。
2.根据权利要求1所述的方法,其特征在于,所述全景视频为球模型三维全景视频,所述将所述全景视频的三维视频帧转换为目标二维视频帧包括:
将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧;
将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹配。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标二维视频帧进行目标对象识别和标记,生成标记后的目标二维视频帧包括:
识别所述目标二维视频帧中的目标对象;
获取所识别的目标对象的位置;以及
根据所述目标对象的位置,利用几何区域标记所述目标对象,生成标记后的目标二维视频帧。
4.根据权利要求3所述的方法,其特征在于,所述将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧包括:
获取所述标记后的目标二维视频帧中所述几何区域的坐标;
将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧;
将所述多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配;将所述标记后的第一二维视频帧的坐标转换为球模型坐标,生成标记后的目标三维视频帧。
5.根据权利要求1-4任一项权利要求所述的方法,其特征在于,该方法还包括:
将所述标记后的目标三维视频帧进行组合,形成标记后的全景视频。
6.一种视频识别装置,其特征在于,该装置包括:
获取模块,用于获取全景视频;
转换模块,用于将所述全景视频的三维视频帧转换为目标二维视频帧;
识别和标记模块,用于对所述目标二维视频帧进行目标对象识别和标记生成标记后的目标二维视频帧;以及
逆转换模块,用于将所述标记后的目标二维视频帧转换为标记后的目标三维视频帧,其中所述标记后的目标三维视频帧中标记有所述目标对象。
7.根据权利要求6所述的装置,其特征在于,所述全景视频为球模型三维全景视频,所述转换模块用于:将所述球模型三维全景视频的三维视频帧转换为具有第一预设形状的第一二维视频帧;将所述第一二维视频帧按照第一预设规则切割成多个第二二维视频帧,将所述多个第二二维视频帧拼接成具有第二预设形状的目标二维视频帧,其中,所述第一预设形状与所述第二预设形状相匹配。
8.根据权利要求7所述的装置,其特征在于,所述识别和标记模块用于:识别所述目标二维视频帧中的目标对象;获取所识别的目标对象的位置;以及根据所述目标对象的位置,利用几何区域标记所述目标对象,生成标记后的目标二维视频帧。
9.根据权利要求8所述的装置,其特征在于,所述逆转换模块用于:获取所述标记后的目标二维视频帧的中所述几何区域的坐标;将包括有所述几何区域的坐标的所述标记后的目标二维视频帧根据预定映射关系转换为多个标记后的第二二维视频帧;将所述多个标记后的第二二维视频帧按照第二预设规则组合为标记后的第一二维视频帧,其中所述第二预设规则与所述第一预设规则相匹配;将所述标记后的第一二维视频帧的坐标转换为球模型坐标,生成标记后的目标三维视频帧。
10.根据权利要求6-9中任一项权利要求所述的装置,其特征在于,该装置还包括:显示模块,用于将所述标记后的目标三维视频帧进行组合形成标记后的全景视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611011085.9A CN106504187A (zh) | 2016-11-17 | 2016-11-17 | 视频识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611011085.9A CN106504187A (zh) | 2016-11-17 | 2016-11-17 | 视频识别方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106504187A true CN106504187A (zh) | 2017-03-15 |
Family
ID=58323507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611011085.9A Pending CN106504187A (zh) | 2016-11-17 | 2016-11-17 | 视频识别方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106504187A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220643A (zh) * | 2017-04-12 | 2017-09-29 | 广东工业大学 | 基于紧凑型神经网络的深度学习模型的交通标志识别系统 |
CN108628913A (zh) * | 2017-03-24 | 2018-10-09 | 上海交通大学 | 视频的处理方法及装置 |
CN108734769A (zh) * | 2017-04-17 | 2018-11-02 | 宏达国际电子股份有限公司 | 三维模型分析方法、电子装置及非暂态电脑可读取媒体 |
CN109871752A (zh) * | 2019-01-04 | 2019-06-11 | 北京航空航天大学 | 一种基于监控视频检测车流提取车道线的方法 |
CN109983470A (zh) * | 2017-09-13 | 2019-07-05 | 联发科技股份有限公司 | 具有无效区域的vr图像的视频编解码方法和装置 |
CN110321846A (zh) * | 2019-07-04 | 2019-10-11 | 上海融客软件科技有限公司 | 3d图形处理方法、装置、加工方法及电子终端 |
CN111771385A (zh) * | 2018-01-02 | 2020-10-13 | 源数码有限公司 | 作为辅助数据的坐标 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604387A (zh) * | 2008-06-11 | 2009-12-16 | 索尼株式会社 | 图像处理装置和图像处理方法 |
CN104504382A (zh) * | 2015-01-13 | 2015-04-08 | 东华大学 | 一种基于图像处理技术的火焰识别算法 |
CN105243381A (zh) * | 2015-11-25 | 2016-01-13 | 朱金良 | 基于3d信息的故障自动识别检测系统及方法 |
-
2016
- 2016-11-17 CN CN201611011085.9A patent/CN106504187A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604387A (zh) * | 2008-06-11 | 2009-12-16 | 索尼株式会社 | 图像处理装置和图像处理方法 |
CN104504382A (zh) * | 2015-01-13 | 2015-04-08 | 东华大学 | 一种基于图像处理技术的火焰识别算法 |
CN105243381A (zh) * | 2015-11-25 | 2016-01-13 | 朱金良 | 基于3d信息的故障自动识别检测系统及方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628913A (zh) * | 2017-03-24 | 2018-10-09 | 上海交通大学 | 视频的处理方法及装置 |
CN108628913B (zh) * | 2017-03-24 | 2024-06-25 | 上海交通大学 | 视频的处理方法及装置 |
CN107220643A (zh) * | 2017-04-12 | 2017-09-29 | 广东工业大学 | 基于紧凑型神经网络的深度学习模型的交通标志识别系统 |
CN108734769A (zh) * | 2017-04-17 | 2018-11-02 | 宏达国际电子股份有限公司 | 三维模型分析方法、电子装置及非暂态电脑可读取媒体 |
CN109983470A (zh) * | 2017-09-13 | 2019-07-05 | 联发科技股份有限公司 | 具有无效区域的vr图像的视频编解码方法和装置 |
CN111771385A (zh) * | 2018-01-02 | 2020-10-13 | 源数码有限公司 | 作为辅助数据的坐标 |
CN109871752A (zh) * | 2019-01-04 | 2019-06-11 | 北京航空航天大学 | 一种基于监控视频检测车流提取车道线的方法 |
CN110321846A (zh) * | 2019-07-04 | 2019-10-11 | 上海融客软件科技有限公司 | 3d图形处理方法、装置、加工方法及电子终端 |
CN110321846B (zh) * | 2019-07-04 | 2021-04-30 | 上海融客软件科技有限公司 | 3d图形处理方法、装置、加工方法及电子终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106504187A (zh) | 视频识别方法以及装置 | |
WO2019100839A1 (zh) | 识别车辆受损部件的方法、装置、服务器、客户端及系统 | |
US20200334857A1 (en) | Camera-only-localization in sparse 3d mapped environments | |
US20180131924A1 (en) | Method and apparatus for generating three-dimensional (3d) road model | |
CN112991447A (zh) | 一种动态环境下视觉定位与静态地图构建方法及系统 | |
KR20200027885A (ko) | 자율 주행 상황에서 장애물 검출을 위한 cnn 학습용 이미지 데이터 세트의 생성 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN105336002B (zh) | 信息处理方法及电子设备 | |
CN104781849A (zh) | 单眼视觉同时定位与建图(slam)的快速初始化 | |
CN103700099A (zh) | 一种旋转和尺度不变的宽基线立体匹配方法 | |
CN113568435B (zh) | 一种基于无人机自主飞行态势感知趋势的分析方法与系统 | |
CN113657409A (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN109447996A (zh) | 三维图像中的手部分割 | |
CN113378605B (zh) | 多源信息融合方法及装置、电子设备和存储介质 | |
CN111400423B (zh) | 基于多视图几何的智慧城市cim三维车辆位姿建模系统 | |
CN115493612A (zh) | 一种基于视觉slam的车辆定位方法及装置 | |
CN115272392A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
Saif et al. | Vision based 3D Object Detection using Deep Learning: Methods with Challenges and Applications towards Future Directions | |
Meenakshi et al. | Development of mobile app to support the mobility of visually impaired people | |
WO2023216555A1 (zh) | 基于双目视觉的避障方法、装置、机器人及介质 | |
CN111709993A (zh) | 物体的位姿信息确定方法、装置、终端及存储介质 | |
Bruno et al. | A comparison of traffic signs detection methods in 2d and 3d images for the benefit of the navigation of autonomous vehicles | |
CN112802095B (zh) | 定位方法、装置及设备、以及自动驾驶定位系统 | |
CN114646317A (zh) | 车辆视觉定位导航控制方法、装置及计算机设备、介质 | |
Wang et al. | Simultaneous clustering classification and tracking on point clouds using Bayesian filter | |
US11657506B2 (en) | Systems and methods for autonomous robot navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170315 |