CN111754541A - 目标跟踪方法、装置、设备及可读存储介质 - Google Patents
目标跟踪方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111754541A CN111754541A CN202010741433.8A CN202010741433A CN111754541A CN 111754541 A CN111754541 A CN 111754541A CN 202010741433 A CN202010741433 A CN 202010741433A CN 111754541 A CN111754541 A CN 111754541A
- Authority
- CN
- China
- Prior art keywords
- image frame
- frame
- boundary
- image
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 20
- 241000282414 Homo sapiens Species 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000001514 detection method Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000009467 reduction Effects 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种目标跟踪方法、装置、设备及可读存储介质,涉及单目标跟踪领域。该方法包括:获取第一图像帧,第一图像帧中标注有第一边界框;获取第二图像帧;以第一边界框的尺寸进行缩放后得到的目标尺寸,在第二图像帧中确定兴趣区域窗;在兴趣区域窗中对目标对象进行跟踪识别,得到第二边界框。确定第一图像帧中的第一边界框后,对第一边界框进行缩放处理,从而确定第二图像帧中的第二边界框,由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得到,也即在第二图像帧中,对第一图像帧中目标对象所处区域的周侧,进行目标对象的识别,提高了对目标对象进行跟踪的效率和准确率。
Description
技术领域
本申请实施例涉及单目标跟踪领域,特别涉及一种目标跟踪方法、装置、设备及可读存储介质。
背景技术
在人工智能(Artificial Intelligence,AI)领域,通常需要通过目标跟踪技术对视频中的特定目标进行跟踪,目标跟踪在视频监控、自动驾驶、行为分析等领域都有着重要的作用,如:在监控视频中,通过目标跟踪技术对人物A在视频帧中的区域进行识别跟踪,从而对人物A的行动轨迹进行跟踪等。
相关技术中,在进行目标跟踪时,首先输出第一帧的初始化目标框,在后续图像帧中生成多个候选框,并提取候选框中的特征,将候选框特征与初始化目标框的特征进行比对后,生成用于指示准确度的评分,根据评分情况融合得到结果框作为后续图像帧中目标所在的区域。
然而,通过上述方式进行目标跟踪时,由于候选框为在图像帧中随机确定得到的,与初始化目标框并无直接关联,通常得到的结果框准确率较低,也即目标跟踪的准确率较低。
发明内容
本申请实施例提供了一种目标跟踪方法、装置、设备及可读存储介质,能够提高目标跟踪的准确率。所述技术方案如下:
一方面,提供了一种目标跟踪方法,所述方法包括:
获取第一图像帧,所述第一图像帧中标注有第一边界框,所述第一边界框用于指示目标对象在所述第一图像帧中对应的显示区域;
获取第二图像帧,所述第二图像帧为视频文件中在所述第一图像帧之后显示的图像帧;
以所述第一边界框的尺寸进行缩放后得到的目标尺寸,在所述第二图像帧中确定兴趣区域窗,所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框选得到的图像内容;
在所述兴趣区域窗中对所述目标对象进行跟踪识别,得到第二边界框,所述第二边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。
另一方面,提供了一种目标跟踪装置,所述装置包括:
获取模块,用于获取第一图像帧,所述第一图像帧中标注有第一边界框,所述第一边界框用于指示目标对象在所述第一图像帧中对应的显示区域;
所述获取模块,还用于获取第二图像帧,所述第二图像帧为视频文件中在所述第一图像帧之后显示的图像帧;
确定模块,用以所述第一边界框的尺寸进行缩放后得到的目标尺寸,在所述第二图像帧中确定兴趣区域窗,所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框选得到的图像内容;
识别模块,用于在所述兴趣区域窗中对所述目标对象进行跟踪识别,得到第二边界框,所述第二边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述目标跟踪方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的目标跟踪方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的目标跟踪方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
确定第一图像帧中的第一边界框后,对第一边界框进行缩放处理,从而确定第二图像帧中的第二边界框,由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得到,也即在第二图像帧中,对第一图像帧中目标对象所处区域的周侧,进行目标对象的识别,提高了目标对象的识别效率以及识别准确率,进一步提高了对目标对象进行跟踪的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的单目标跟踪的过程示意图;
图2是本申请一个示例性实施例提供的单目标跟踪过程的整体流程图;
图3是本申请一个示例性实施例提供的实施环境示意图;
图4是本申请一个示例性实施例提供的目标跟踪方法流程图;
图5是基于图4示出的实施例提供的目标跟踪系统的结构示意图;
图6是本申请另一个示例性实施例提供的目标跟踪方法的流程图;
图7是基于图6示出的实施例提供的目标跟踪过程的整体流程图;
图8是本申请另一个示例性实施例提供的目标跟踪方法的流程图;
图9是本申请一个示例性实施例提供的目标跟踪装置的结构框图;
图10是本申请另一个示例性实施例提供的目标跟踪装置的结构框图;
图11是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV):是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
单目标跟踪:是指对视频中的特定目标在不同图像帧中所处的区域进行跟踪,单目标跟踪在视频监控、自动驾驶、行为分析等领域都有着重要的作用,在视频第一帧中给定某一特定目标(如:一个行人、一个动物、一辆汽车等)的边界坐标框,通过算法对该特定目标进行跟踪,以得到特定目标在每一视频帧中的边界坐标框。单目标跟踪算法在智能视频监控、自动驾驶、行为分析等领域都有着重要的作用。相关技术中,主流的单目标跟踪算法分为两类,一类是基于相关滤波的单目标跟踪算法,如核相关滤波算法(KernelCorrelation Filter,KCF)、卷积跟踪算法(Efficient Convolution Operators forTracking,ECO)等,这类方法跟踪识别的速度较快,但是准确度较低,另一类是基于孪生网络的单目标跟踪算法,如SiamFC、SiamRPN等,这类方法准确度较高,但是跟踪速度较慢。
示意性的,请参考图1,其示出了本申请一个示例性实施例提供的单目标跟踪的过程示意图,以对人体进行跟踪为例进行说明,如图1所示,在第一图像帧110中标注有目标对象111所对应的边界框112,其中,边界框112为通过对第一图像帧110进行人体检测后得到的框选区域,在第一图像帧110后续显示的图像帧中,通过单目标跟踪算法进行目标对象111的跟踪,如:基于边界框112在第二图像帧120中确定边界框121,以及基于边界框121在第三图像帧130中确定边界框131,以此类推。
值得注意的是,上述举例中,第一图像帧110、第二图像帧120和第三图像帧130为依次相邻的三个图像帧;或,第一图像帧110、第二图像帧120和第三图像帧130为依次排列,且每两帧之间存在间隔帧的三个图像帧。
结合上述名词简介,对本申请实施例的应用场景进行举例说明:
在视频监控领域,获取监控设备采集得到的监控视频流,在监控视频流中,首先依次对图像帧进行人物检测,在检测到第i帧图像帧中包括目标人物时,获取目标人物对应的边界框,边界框用于指示目标人物在第i帧图像帧中的显示区域,针对第i帧之后的图像帧,如:针对第i+1帧,以第i帧中的边界框为基准边界框,将基准边界框在第i+1帧图像帧中按照预设缩放范围进行缩放后,得到兴趣区域窗,将兴趣区域窗内的图像内容输入跟踪模型,识别得到目标人物所在的区域后,映射至第i+1帧图像,得到第i+1帧图像中与目标人物对应的边界框,依次类推,其中,以第i+2帧图像为例,第i+2帧图像以上一帧图像(也即第i+1帧图像)中的边界框作为基准边界框;或,第i+2帧图像以第一帧包括目标对象的图像帧(也即第i帧图像)中的边界框作为基准边界框,i为正整数。示意性的,请参考图2,获取监控视频流后,从监控视频流中获取图像帧210,图像帧210中进行人物检测识别得到边界框211,对边界框211进行放大处理后,得到兴趣区域窗221的尺寸,并在图像帧220(视频流中位于图像帧210之后的图像帧)中确定兴趣区域窗221,从兴趣区域窗221框选的图像内容中进行跟踪识别,得到图像帧220中目标人物对应的边界框222。
上述应用场景仅为本申请示意性的举例,本申请实施例提供的目标跟踪方法还可以应用于其他通过前图像帧中的边界框作为基准框进行缩放,从而在缩放后的兴趣区域窗中确定当前帧中目标对象所处区域的方案中,本申请实施例对此不加以限定。
值得注意的是,本申请实施例提供的目标跟踪方法,可以由终端实现,也可以由服务器实现,还可以由终端和服务器协同实现。其中,终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种,服务器可以是物理服务器,也可以是提供云计算服务的云服务器,且服务器可以实现为一台服务器,也可以是多个服务器构成的服务器集群或分布式系统。其中,当终端和服务器协同实现本申请实施例提供的方案时,终端和服务器可以通过有线或无线通信方式进行直接或间接连接,本申请实施例对此不加以限定。
请参考图3,其示出了本申请一个示例性实施例提供的实施环境示意图,如图3所示,该实施环境中包括终端310、服务器320,终端310和服务器320之间通过通信网络330连接;
其中,终端310中安装有包括视频播放功能的程序,其可以是视频播放程序、电子书阅读程序、即时通讯应用程序、浏览器、游戏、工具类应用程序等,本申请实施例对此不加以限定。需要进行目标跟踪的视频为终端310发送至服务器320进行跟踪计算的;或,需要进行目标跟踪的视频为服务器320中存储的在计算得到跟踪结果后,发送至终端310进行播放的。本实施例中,以终端310向服务器320发送视频,由服务器320计算得到目标跟踪结果后,向终端310发送跟踪结果进行播放为例进行说明。可选地,终端310发送的视频为终端310拍摄的视频;或,终端310发送的视频为终端310从其他服务器中下载的视频;或,终端310发送的视频为终端310从其他终端接收到视频。
服务器320对终端310发送的视频通过目标跟踪算法进行目标跟踪识别,得到每帧图像帧中目标对象所处的区域位置,并将区域位置的边界框数据发送至终端310,终端310接收到边界框数据后,在对应的图像帧中绘制边界框进行展示。
服务器320中包括跟踪模型321,通过跟踪模型321对图像帧或图像帧中的兴趣区域框进行跟踪识别,得到目标对象的边界数据。
值得注意的是,上述通信网络330可以实现为有线网络,也可以实现为无线网络,且通信网络330可以实现为局域网、城域网或广域网中的任意一种,本申请实施例对此不加以限定。
结合上述名词简介以及应用场景,对本申请实施例提供的目标跟踪方法进行说明,以由服务器执行以完成该方法为例进行说明,如图4所示,该方法包括:
步骤401,获取第一图像帧,第一图像帧中标注有第一边界框,第一边界框用于指示目标对象在第一图像帧中对应的显示区域。
第一图像帧为视频文件中的图像帧。可选地,第一图像帧为视频文件中的第一帧;或,第一图像帧为视频文件中目标对象出现的第一帧;或,第一图像帧为视频文件中任意一帧。
第一边界框为对第一图像帧进行对象检测得到的框选区域;或,第一边界框为第一图像帧根据第一图像帧中标注的边界框,确定兴趣区域窗后,从兴趣区域窗框选的图像内容中识别得到的;或,第一边界框为用户指定的框选区域。示意性的,目标对象为人物对象,则对第一图像帧进行人物识别检测后,得到人物对象对应的第一边界框。
对第一图像帧进行人物识别检测,得到第一边界框的过程中,包括如下情况中的任意一种:
第一,第一图像帧中包括单个人物对象,则对第一图像帧进行人物识别检测后,将检测得到的边界框,确定为目标人物对象对应的第一边界框;
第二,第一图像帧中包括多个人物对象,则对第一图像帧进行人物识别检测后,得到多个边界框,从多个边界框中确定其中一个边界框(如:尺寸最大的边界框、尺寸最小的边界框、选择操作对应的边界框等)作为目标人物对象对应的第一边界框。
可选地,第一边界框的标注方式包括如下方式中的任意一种:
第一,以第一边界框对角两个点的坐标对第一边界框进行标注,如:以第一边界框左上角坐标点和右下角坐标点的坐标对第一边界框进行标注;或,以第一边界框左下角坐标点和右上角坐标点的坐标对第一边界框进行标注;
第二,以第一边界框中心点坐标、长边长度、宽边长度对第一边界框进行标注;
第三,以第一边界框指定角坐标、长边长度和宽边长度对第一边界框进行标注,如:以第一边界框左上角坐标点、长边长度和宽边长度对第一边界框进行标注。
上述三种方式仅为示意性的举例,本申请实施例对第一边界框的标注方式不加以限定。
步骤402,获取第二图像帧,第二图像帧为第一图像帧之后显示的图像帧。
可选地,第二图像帧为在第一图像帧后一帧显示的图像帧;或,第二图像帧为在第一图像帧之后显示的,且与第一图像帧之间间隔若干帧的图像帧;或,第二图像帧为第一图像帧之后的第一帧关键帧(简称I帧)。即,第二图像帧为显示在第一图像帧之后的图像帧,本实施例对第一图像帧和第二图像帧之间的图像帧间隔情况不加以限定。
本实施例中,以第二图像帧为与第一图像帧相邻的下一帧图像帧为例进行说明。
第一图像帧和第二图像帧为同一个视频文件中按序显示的图像帧。
第二图像帧中包括目标对象;或,第二图像帧中不包括目标对象。本实施例中,以第二图像帧中包括目标对象为例进行说明。
第二图像帧基于第一图像帧中的第一边界框进行目标对象的跟踪。
可选地,第一图像帧和第二图像帧的获取方式包括如下方式中的至少一种:
第一,终端实时将视频流发送至服务器进行目标跟踪计算,服务器对终端发送的视频流进行解码后,将解码得到的图像帧缓存至缓存区中,并在进行目标跟踪计算时,依次从缓存区中取出图像帧进行,故,首先取出第一图像帧,并在第一图像帧之后,取出第二图像帧;
第二,服务器获取预先存储的视频文件,并对视频文件进行解码,得到视频图像帧,其中,包括第一图像帧和第二图像帧,依次取出需要进行目标跟踪的图像帧,故,首先取出第一图像帧,并在第一图像帧之后,取出第二图像帧。
步骤403,以第一边界框的尺寸进行缩放后得到的目标尺寸,在第二图像帧中确定兴趣区域窗。
兴趣区域窗中包括以目标尺寸在第二图像帧中进行框选得到的图像内容。也即,兴趣区域窗中包括对第一边界框进行缩放后第二图像帧中被框选的内容。可选地,通常兴趣区域窗中包括对第一边界框进行放大处理后,在第二图像帧中被框选的内容。
由于目标对象在相邻两帧图像帧之间的位移通常较小,故直接用前一帧图像帧中目标对象对应的第一边界框扩大一个特定倍数,作为后一帧图像帧中的兴趣区域窗,进而预测得到后一帧图像帧中目标对象对应的目标框。也即,以第一边界框为基准框,对第一边界框进行一定倍数的放缩,从而得到第二图像帧中的兴趣区域窗,兴趣区域窗中包括第二图像帧中被框选的内容。可选地,对第一边界框进行一定倍数的放大后,得到第二图像帧中的兴趣区域窗。
在一些实施例中,对第一边界框进行放缩处理时,预先设定有缩放范围,在缩放范围内确定缩放倍数,以缩放倍数对第一边界框的尺寸进行缩放得到目标尺寸,并根据目标尺寸在第二图像帧中确定兴趣区域窗。示意性的,缩放范围在1-2之间,也即,最小以第一边界框原尺寸在第二图像帧中确定兴趣区域窗,最大以第一边界框的2倍尺寸在第二图像帧中确定兴趣区域窗。其中,缩放倍数是指对第一边界框的边长进行缩放的倍数;或,缩放倍数是指对第一边界框的面积进行缩放的倍数。
可选地,当连续多帧图像帧中的边界框表现为缩小趋势时,缩放范围还包括对小于1的范围,也即,当连续多挣图像帧中的边界框表现为缩小趋势时,从缩小范围内选取缩小倍数,以缩小倍数对第一边界框进行缩小处理,得到兴趣区域窗。如:当连续n帧图像帧中的边界框表现为缩小趋势时,缩放范围在0.5-1.5之间,选取0.8作为缩小倍数,对第一边界框进行缩小处理,得到兴趣区域窗,n为正整数。
在对第一边界框进行缩放,并得到第二图像帧中的兴趣区域窗时,包括如下情况中的任意一种:
第一,保持第一边界框在第一图像帧,和基准框在第二图像帧中的相对位置一致,并在第二图像帧中对基准框按缩放倍数进行缩放处理,得到兴趣区域窗。
示意性的,第一边界框的长为a,宽为b,对第一边界框以1.5被进行放大,得到长为1.5a,宽为1.5b的兴趣区域窗尺寸,保持兴趣区域窗尺寸的中心点在第二图像帧中的位置,与第一边界框的中心点在第一图像帧中的位置一致,得到第二图像帧中的兴趣区域窗。也即,以第一边界框的中心点在第一图像帧中的位置,确定兴趣区域窗的中心点在第二图像帧中的位置,并根据兴趣区域窗的中心点和目标尺寸在第二图像帧中确定兴趣区域窗。
第二,对第二图像帧进行初步对象识别,得到目标对象所在的候选位置信息,对第一边界框进行缩放处理后,结合候选位置信息,得到兴趣区域窗。
示意性的,第一边界框的长为a,宽为b,对第一边界框以1.5倍进行放大,得到长为1.5a,宽为1.5b的兴趣区域窗尺寸,对第二图像帧进行初步对象识别,得到候选位置信息为(x,y),该坐标为目标对象初步识别位置坐标,则将(x,y)确定为兴趣区域窗的中点,1.5a为兴趣区域窗的长,1.5b为兴趣区域窗的宽,确定兴趣区域窗。
值得注意的是,在对第一边界框进行放大时,对第一边界框的长边放大至1.5倍,并将短边按长边进行对应补齐。
可选地,本实施例中,以第一图像帧中标注有第一边界框为例进行说明,在一些实施例中,当第一图像帧中未标注第一边界框时,则第二图像帧以原图作为兴趣区域窗,也即针对第二图像帧的完整图像进行对象识别。
可选地,在兴趣区域窗的确定过程中,存在兴趣区域窗被缩放处理后,存在超出第二图像帧图像边界的情况,则,响应于缩放处理后,兴趣区域窗中存在超出第二图像帧图像边界的超出区域,对超出区域进行补黑填充处理。也即,在超出区域中,对像素点进行补0处理,将超出区域填充为黑色。
步骤404,在兴趣区域窗中对目标对象进行跟踪识别,得到第二边界框。
第二边界框用于指示目标对象在第二图像帧中对应的显示区域。
对目标对象的跟踪识别包括如下方式中的任意一种:
第一,根据第一图像帧中目标对象的图像特征信息,在兴趣区域窗中进行识别,得到与第一边界框内图像内容相似度较高的区域,作为第二边界框对应的图像区域,并映射至第二图像帧中,得到第二边界框;
第二,对兴趣区域窗中的图像内容进行指定类型对象的识别,得到目标对象所在的区域,作为第二边界框对应的图像区域,并映射至第二图像帧中,得到第二边界框。其中,目标对象属于该指定类型对象。示意性的,指定类型对象用于指示人物对象,对兴趣区域窗中的图像内容进行人物识别,得到目标人物所在的区域,作为第二边界框对应的图像区域。
在对第二边界框进行识别时,首先在兴趣区域窗中识别得到第一区域边界框,并将第一区域边界框映射至第二图像帧中,得到第二边界框。
综上所述,本申请实施例提供的目标跟踪方法,确定第一图像帧中的第一边界框后,对第一边界框进行缩放处理,从而确定第二图像帧中的第二边界框,由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得到,也即在第二图像帧中,对第一图像帧中目标对象所处区域的周侧,进行目标对象的识别,提高了目标对象的识别效率以及识别准确率,进一步提高了对目标对象进行跟踪的效率和准确率。
示意性的,请参考图5,本申请实施例中涉及兴趣区域窗生成模块510、边界框坐标回归模块520和坐标映射模块530。
兴趣区域窗生成模块510用于基于第一图像帧中标注的边界框,从第二图像帧中确定出兴趣区域窗,其中,兴趣区域窗为对边界框进行缩放处理(通常为放大处理)后,得到的框选区域,其中,当兴趣区域窗超出第二图像帧的图像边界时,对超出区域以0补黑处理。
如图5所示,在第一图像帧500中标注有第一边界框501,第一边界框501为目标对象502显示位置对应的框选区域,通过兴趣区域窗生成模块510,结合第一图像帧500中的第一边界框501,在第二图像帧540中确定兴趣区域窗541,兴趣区域窗541为对第一边界框501进行缩放处理后得到的区域框;通过边界回归模块520对兴趣区域窗541中的图像内容进行边界回归,得到第二区域边界542,第二区域边界542为目标对象在兴趣区域窗541内的边界数据;通过坐标映射模块530将第二区域边界542映射至第二图像帧540中,得到第二边界框543。
在一个可选的实施例中,通过跟踪模型对兴趣区域窗中的图像内容进行目标对象的识别,图6是本申请另一个示例性实施例提供的目标跟踪方法的流程图,以该方法应用于服务器中为例进行说明,如图6所示,该方法包括:
步骤601,获取第一图像帧,第一图像帧中标注有第一边界框,第一边界框用于指示目标对象在第一图像帧中对应的显示区域。
第一图像帧为视频文件中的图像帧。
第一边界框为对第一图像帧进行对象检测得到的框选区域;或,第一边界框为用户指定的框选区域。示意性的,目标对象为人物对象,则对第一图像帧进行人物识别检测后,得到人物对象对应的第一边界框。
步骤602,获取第二图像帧,第二图像帧为第一图像帧之后显示的图像帧。
第一图像帧和第二图像帧为同一个视频文件中按序显示的图像帧。
步骤603,以第一边界框的尺寸进行缩放后得到的目标尺寸,在第二图像帧中确定兴趣区域窗。
兴趣区域窗中包括以目标尺寸在第二图像帧中进行框选得到的图像内容。也即,兴趣区域窗中包括对第一边界框进行缩放后第二图像帧中被框选的内容。
由于目标对象在相邻两帧图像帧之间的位移通常较小,故直接用前一帧图像帧中目标对象对应的第一边界框扩大一个特定倍数,作为后一帧图像帧中的兴趣区域窗,进而预测得到后一帧图像帧中目标对象对应的目标框。
在一些实施例中,对第一边界框进行放缩处理时,预先设定有缩放范围,在缩放范围内确定缩放倍数,以缩放倍数在第二图像帧中对第一边界框进行缩放处理,得到兴趣区域窗。
步骤604,将兴趣区域窗中的图像内容输入跟踪模型。
跟踪模型用于对指定类型对象进行识别,其中,目标对象属于指定类型对象。
跟踪模型为通过标注有参考边界框的样本图像帧训练得到的模型;或,跟踪模型为待训练的模型。
其中,当跟踪模型为已经过训练的模型时,则第一图像帧和第二图像帧为通过跟踪模型进行跟踪识别的图像帧;当跟踪模型为待训练的模型时,则第一图像帧和第二图像帧为标注有参考边界框的用于对跟踪模型进行训练的图像帧。
本实施例中,以跟踪模型为已经过训练的模型为例进行说明,也即,第一图像帧和第二图像帧为实际应用过程中,通过跟踪模型对兴趣区域窗内的图像内容进行识别,从而完成对目标对象的跟踪的图像帧。
步骤605,通过跟踪模型对图像内容进行对象识别,输出得到第二边界框。
通过跟踪模型对兴趣区域窗中的图像内容进行对象识别,输出得到第二区域边界框,第二区域边界框对应有在兴趣区域窗内的第一边界坐标,根据兴趣区域窗与第二图像帧的相对位置关系,将第一边界坐标映射到第二图像帧中,得到第二边界框,第二边界框对应有在第二图像帧中的第二边界坐标。
由于兴趣区域窗为从第二图像帧中截取得到的框选区域,故兴趣区域窗与第二图像帧之间存在相对位置关系,根据该相对位置关系,将第一边界坐标映射到第二图像帧中,得到第二边界坐标,第二边界坐标为第二边界框对应的坐标。其中,第一边界坐标包括兴趣区域窗指定对角线上两个坐标点在兴趣区域窗中的坐标,则第二边界坐标对应第二边界框对应的指定对角线上两个坐标点在第二图像帧中的坐标。
可选地,在识别得到第二边界框后,以第二边界框为基准框,对第二图像帧后一帧图像帧中的目标对象进行识别跟踪。也即,依次获取视频文件中的图像帧,其中,在第一图像帧之后一帧显示的为第二图像帧,故,通过第一图像帧中标注的第一边界框在第二图像帧中预测得到第二边界框,以此类推。
示意性的,请参考图7,首先在开始流程时,依次读取视频文件中的视频帧,通过感兴趣区域生成模块710根据第i帧图像帧的边界框,生成第i+1帧图像帧的兴趣区域窗,从而通过边界框回归模块720,从兴趣区域窗中识别得到第i+1帧图像帧对应的边界框,并判断视频是否读取结束,若视频文件读取结束,则结束流程。
综上所述,本申请实施例提供的目标跟踪方法,确定第一图像帧中的第一边界框后,对第一边界框进行缩放处理,从而确定第二图像帧中的第二边界框,由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得到,也即在第二图像帧中,对第一图像帧中目标对象所处区域的周侧,进行目标对象的识别,提高了目标对象的识别效率以及识别准确率,进一步提高了对目标对象进行跟踪的效率和准确率。
本实施例提供的方法,根据预先设定的缩放范围,从缩放范围中确定缩放倍数,从而对第一边界框进行缩放,得到兴趣区域窗,并从兴趣区域窗中识别得到第二边界框,以第一边界框作为基准,对周侧区域范围内进行识别,提高了对目标对象进行跟踪的效率和准确率。
在一个可选的实施例中,跟踪模型为待训练的模型,也即识别得到第二边界框后,通过第二边界框对跟踪模型进行训练。图8是本申请另一个示例性实施例提供的目标跟踪方法的流程图,以该方法应用于服务器中为例进行说明,如图8所示,该方法包括:
步骤801,获取第一图像帧,第一图像帧中标注有第一边界框,第一边界框用于指示目标对象在第一图像帧中对应的显示区域。
第一图像帧为视频文件中的图像帧。
第一边界框为对第一图像帧进行对象检测得到的框选区域;或,第一边界框为用户指定的框选区域。示意性的,目标对象为人物对象,则对第一图像帧进行人物识别检测后,得到人物对象对应的第一边界框。
步骤802,获取第二图像帧,第二图像帧为第一图像帧之后显示的图像帧。
第一图像帧和第二图像帧为同一个视频文件中按序显示的图像帧。
步骤803,以第一边界框的尺寸进行缩放后得到的目标尺寸,在第二图像帧中确定兴趣区域窗。
兴趣区域窗中包括对第一边界框进行缩放后第二图像帧中被框选的内容。
由于目标对象在相邻两帧图像帧之间的位移通常较小,故直接用前一帧图像帧中目标对象对应的第一边界框扩大一个特定倍数,作为后一帧图像帧中的兴趣区域窗,进而预测得到后一帧图像帧中目标对象对应的目标框。
在一些实施例中,对第一边界框进行放缩处理时,预先设定有缩放范围,在缩放范围内确定缩放倍数,以缩放倍数在第二图像帧中对第一边界框进行缩放处理,得到兴趣区域窗。
步骤804,将兴趣区域窗中的图像内容输入跟踪模型。
跟踪模型用于对指定类型对象进行识别,其中,目标对象属于指定类型对象。
步骤805,通过跟踪模型对图像内容进行对象识别,输出得到第二区域边界框和第一识别置信度。
第二区域边界框对应有在兴趣区域窗内的第一边界坐标;第一识别置信度用于指示跟踪模型识别得到兴趣区域窗中包括目标对象的概率。
跟踪模型包括两个分支,分别是边界框坐标点回归分支和边界框置信度回归分支,其中,边界框坐标点回归分支回归得到的是跟踪框的指定对角线上对角坐标点的坐标,如:左上角点和右下角点的坐标;置信度回归分支回归得到的是跟踪框的置信度,置信度在0-1之间,置信度越高,则表示兴趣区域窗内包括目标对象的概率越高,也即第二区域边界框的准确度越高。可选地,跟踪模型采用的基础架构网络包括MobileNetV2网络、视觉几何组(Visual Geometry Group,VGG)网络、ResNet,兴趣区域窗框选的图像内容先经过基础架构网络,然后将得到的特征图分别输入到边界框坐标点回归分支和边界框置信度回归分支中,在边界框坐标点回归分支中,通过全连接层可以得到一个4维的特征向量,分别表示x1,y1,x2,y2,其中,(x1,y1)是左上角点在兴趣区域窗的图像内容中的坐标,(x2,y2)是右下角点在兴趣区域窗的图像内容中的坐标。在边界框置信度回归分支中,通过全连接层可以得到一个2维的特征向量,分别表示(1-c,c),c即为目标跟踪框的置信度。
其中,上述第一图像帧和第二图像帧为正样本,也即包含目标对象的样本图像帧,则第一图像帧和第二图像帧标注有目标对象对应的参考信息。如:第二图像帧标注有参考边界坐标,参考边界坐标用于指示目标对象在第二图像帧中的显示区域;第二图像帧还标注有第一参考置信度,第一参考置信度用于指示第二图像帧中包含目标对象,也即,第一参考置信度用于指示第二图像帧为正样本。可选地,正样本标注的第一参考置信度为1,则相对应的,负样本标注的第二参考置信度为0,第二置信度用于指示负样本中不包含目标对象。
步骤806,根据兴趣区域窗与第二图像帧的相对位置关系,将第一边界坐标映射到第二图像帧中,得到第二边界框。
步骤807,通过第二边界坐标和参考边界坐标之间的损失值对跟踪模型进行训练。
可选地,采用SmoothL1Loss损失函数计算第二边界坐标和参考边界坐标之间的损失值。
其中,SmoothL1Loss损失函数的计算公式如下公式一所示:
其中,smoothL1(x)表示损失值,x表示第二边界坐标和参考边界坐标之间的距离差。
将第二边界坐标和参考边界坐标代入损失函数,计算得到损失值,并以减小损失值为训练目标,对跟踪模型进行训练,即,对跟踪模型的第一模型参数进行调整。
步骤808,根据第一识别置信度和第一参考置信度之间的损失值对跟踪模型进行训练。
可选地,采用CrossEntropyLoss损失函数计算第一识别置信度和第一参考置信度之间的损失值。
其中,CrossEntropyLoss损失函数为交叉熵损失函数,该交叉熵损失函数的计算公式如下公式二所示:
其中,C表示损失值,yi表示第一参考置信度,ai表示第一识别置信度。
将第一识别置信度和第一参考置信度代入损失函数,计算得到损失值,并以减小损失值为训练目标,对跟踪模型进行训练,即,对跟踪模型的第二模型参数进行调整。
其中,上述第一模型参数和第二模型参数为相同参数;或,第一模型参数和第二模型参数为不同参数;或,第一模型参数和第二模型参数为部分相同的模型参数。
可选地,在测试阶段,边界框坐标点回归分支可预测出兴趣区域窗的图像内容中目标框的左上角点和右下角点的坐标,然后将这个坐标反映射回原图中,即可得到跟踪目标在原图中的边界坐标框,边界框置信度回归分支可直接预测出感兴趣区域部分存在目标的置信度,若置信度高于某一阈值(如:0.5),则认为边界框坐标点回归分支所预测的边界坐标框是可靠的,该帧的跟踪结束,并可通过回归出的边界框继续预测目标在下一帧的边界框,若置信度低于某一阈值,则认为目标已经不在图像中(原因可能是因为遮挡、目标离开视频等),整个跟踪过程结束。
步骤809,获取第三图像帧,第三图像帧标注有第二参考置信度。
第二参考置信度用于指示第三图像帧中不包含目标对象,也即,第三图像帧为跟踪模型训练过程中的负样本。可选地,第三图像帧被标注的置信度为0。
步骤810,在第三图像帧中随机确定图像截取框。
可选地,在第三图像帧中随机确定一个截取框,并基于样本多样性要求,对截取框进行缩放。可选地,从缩放范围中确定缩放倍数,并以缩放倍数对截取框进行缩放处理。示意性的,缩放范围在0.5-1.5之间。
可选地,当截取后的图形截取框超出第三图像帧的边界,则超出的区域以0补黑。
步骤811,通过跟踪模型对图像截取框中的图像内容进行对象识别,输出得到第二识别置信度。
第二识别置信度用于指示跟踪模型识别得到图像截取框中包括目标对象的概率。
步骤812,根据第二识别置信度和第二参考置信度之间的损失值对跟踪模型进行训练。
可选地,采用CrossEntropyLoss损失函数计算第二识别置信度和第二参考置信度之间的损失值。
将第二识别置信度和第二参考置信度代入损失函数,计算得到损失值,并以减小损失值为训练目标,对跟踪模型进行训练,即,对跟踪模型的第三模型参数进行调整。
其中,上述第二模型参数和第三模型参数为相同参数;或,第二模型参数和第三模型参数为不同参数;或,第二模型参数和第三模型参数为部分相同的模型参数。
综上所述,本申请实施例提供的目标跟踪方法,确定第一图像帧中的第一边界框后,对第一边界框进行缩放处理,从而确定第二图像帧中的第二边界框,由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得到,也即在第二图像帧中,对第一图像帧中目标对象所处区域的周侧,进行目标对象的识别,提高了目标对象的识别效率以及识别准确率,进一步提高了对目标对象进行跟踪的效率和准确率。
本实施例提供的方法,通过对正样本图像帧和负样本图像帧标注参考信息,并以参考信息和跟踪模型识别得到的信息进行损失值的计算,结合计算得到的损失值对跟踪模型进行训练,提高了跟踪模型的跟踪准确率。
图9是本申请一个示例性实施例提供的目标跟踪装置的结构框图,如图9所示,该装置包括:
获取模块910,用于获取第一图像帧,所述第一图像帧中标注有第一边界框,所述第一边界框用于指示目标对象在所述第一图像帧中对应的显示区域;
所述获取模块910,还用于获取第二图像帧,所述第二图像帧为视频文件中在所述第一图像帧之后显示的图像帧;
确定模块920,用于以所述第一边界框的尺寸进行缩放后得到的目标尺寸,在所述第二图像帧中确定兴趣区域窗,所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框选得到的图像内容;
识别模块930,用于在所述兴趣区域窗中对所述目标对象进行跟踪识别,得到第二边界框。
在一个可选的实施例中,所述确定模块920,具体用于在缩放范围内确定缩放倍数;以所述缩放倍数对所述第一边界框的尺寸进行缩放得到所述目标尺寸;根据所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。
在一个可选的实施例中,所述确定模块920,具体用于以所述第一边界框的中心点在所述第一图像帧中的位置,确定所述兴趣区域窗的中心点在所述第二图像帧中的位置;根据所述兴趣区域窗的中心点和所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。
在一个可选的实施例中,如图10所示,所述识别模块930,包括:
输入单元931,用于将所述兴趣区域窗中的图像内容输入跟踪模型,所述跟踪模型用于对指定类型对象进行识别,所述目标对象属于所述指定类型对象;
输出单元932,用于通过所述跟踪模型对所述图像内容进行对象识别,输出得到所述第二边界框。
在一个可选的实施例中,所述输出单元932,具体用于通过所述跟踪模型对所述图像内容进行对象识别,输出得到第二区域边界框,所述第二区域边界框对应有在所述兴趣区域窗内的第一边界坐标;
所述识别模块930,还包括:
映射单元933,用于根据所述兴趣区域窗与所述第二图像帧的相对位置关系,将所述第一边界坐标映射到所述第二图像帧中,得到所述第二边界框,所述第二边界框对应有在所述第二图像帧中的第二边界坐标。
在一个可选的实施例中,所述第二图像帧标注有参考边界坐标;
所述映射单元933,具体用于通过所述第二边界坐标和所述参考边界坐标之间的损失值对所述跟踪模型进行训练。
在一个可选的实施例中,所述第二图像帧标注有第一参考置信度,所述第一参考置信度用于指示所述第二图像帧中包含所述目标对象;
所述识别模块930,还用于通过所述跟踪模型对所述兴趣区域窗进行对象识别,输出得到第一识别置信度,所述第一识别置信度用于指示所述跟踪模型识别得到所述兴趣区域窗中包括所述目标对象的概率;
所述装置还包括:
训练模块940,用于根据所述第一识别置信度和所述第一参考置信度之间的损失值对所述跟踪模型进行训练。
在一个可选的实施例中,所述获取模块910,还用于获取第三图像帧,所述第三图像帧标注有第二参考置信度,所述第二参考置信度用于指示所述第三图像帧中不包含所述目标对象;
所述确定模块920,还用于在所述第三图像帧中随机确定图像截取框;
所述识别模块930,还用于通过所述跟踪模型对所述图像截取框中的图像内容进行对象识别,输出得到第二识别置信度,所述第二识别置信度用于指示所述跟踪模型识别得到所述图像截取框中包括所述目标对象的概率;
所述装置还包括:
训练模块940,用于根据所述第二识别置信度和所述第二参考置信度之间的损失值对所述跟踪模型进行训练。
在一个可选的实施例中,所述装置还包括:
处理模块950,用于响应于缩放处理后,所述兴趣区域窗中存在超出所述第二图像帧图像边界的超出区域,对所述超出区域进行补黑填充处理。
综上所述,本申请实施例提供的目标跟踪装置,确定第一图像帧中的第一边界框后,对第一边界框进行缩放处理,从而确定第二图像帧中的第二边界框,由于第二边界框基于第一边界框缩放得到的兴趣区域窗识别得到,也即在第二图像帧中,对第一图像帧中目标对象所处区域的周侧,进行目标对象的识别,提高了目标对象的识别效率以及识别准确率,进一步提高了对目标对象进行跟踪的效率和准确率。
需要说明的是:上述实施例提供的目标跟踪装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的目标跟踪装置与目标跟踪方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图11示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲:
服务器1100包括中央处理单元(Central Processing Unit,CPU)1101、包括随机存取存储器(Random Access Memory,RAM)1102和只读存储器(Read Only Memory,ROM)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1106。
大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1106及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,大容量存储设备1106可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。
根据本申请的各种实施例,服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的目标跟踪方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的目标跟踪方法。
本申请的实施例还提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的目标跟踪方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种目标跟踪方法,其特征在于,所述方法包括:
获取第一图像帧,所述第一图像帧中标注有第一边界框,所述第一边界框用于指示目标对象在所述第一图像帧中对应的显示区域;
获取第二图像帧,所述第二图像帧为视频文件中在所述第一图像帧之后显示的图像帧;
以所述第一边界框的尺寸进行缩放后得到的目标尺寸,在所述第二图像帧中确定兴趣区域窗,所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框选得到的图像内容;
在所述兴趣区域窗中对所述目标对象进行跟踪识别,得到第二边界框,所述第二边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。
2.根据权利要求1所述的方法,其特征在于,所述以所述第一边界框的尺寸进行缩放后得到的目标尺寸,在所述第二图像帧中确定兴趣区域窗,包括:
在缩放范围内确定缩放倍数;
以所述缩放倍数对所述第一边界框的尺寸进行缩放得到所述目标尺寸;
根据所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗,包括:
以所述第一边界框的中心点在所述第一图像帧中的位置,确定所述兴趣区域窗的中心点在所述第二图像帧中的位置;
根据所述兴趣区域窗的中心点和所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。
4.根据权利要求1至3任一所述的方法,其特征在于,所述在所述兴趣区域窗中对所述目标对象进行跟踪识别,得到第二边界框,包括:
将所述兴趣区域窗中的图像内容输入跟踪模型,所述跟踪模型用于对指定类型对象进行识别,所述目标对象属于所述指定类型对象;
通过所述跟踪模型对所述图像内容进行对象识别,输出得到所述第二边界框。
5.根据权利要求4所述的方法,其特征在于,所述通过所述跟踪模型对所述图像内容进行对象识别,输出得到所述第二边界框,包括:
通过所述跟踪模型对所述图像内容进行对象识别,输出得到第二区域边界框,所述第二区域边界框对应有在所述兴趣区域窗内的第一边界坐标;
根据所述兴趣区域窗与所述第二图像帧的相对位置关系,将所述第一边界坐标映射到所述第二图像帧中,得到所述第二边界框,所述第二边界框对应有在所述第二图像帧中的第二边界坐标。
6.根据权利要求5所述的方法,其特征在于,所述第二图像帧标注有参考边界坐标;
所述将所述第一边界坐标映射到所述第二图像帧中,得到所述第二边界框之后,还包括:
通过所述第二边界坐标和所述参考边界坐标之间的损失值对所述跟踪模型进行训练。
7.根据权利要求5所述的方法,其特征在于,所述第二图像帧标注有第一参考置信度,所述第一参考置信度用于指示所述第二图像帧中包含所述目标对象,所述方法还包括:
通过所述跟踪模型对所述兴趣区域窗进行对象识别,输出得到第一识别置信度,所述第一识别置信度用于指示所述跟踪模型识别得到所述兴趣区域窗中包括所述目标对象的概率;
根据所述第一识别置信度和所述第一参考置信度之间的损失值对所述跟踪模型进行训练。
8.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取第三图像帧,所述第三图像帧标注有第二参考置信度,所述第二参考置信度用于指示所述第三图像帧中不包含所述目标对象;
在所述第三图像帧中随机确定图像截取框;
通过所述跟踪模型对所述图像截取框中的图像内容进行对象识别,输出得到第二识别置信度,所述第二识别置信度用于指示所述跟踪模型识别得到所述图像截取框中包括所述目标对象的概率;
根据所述第二识别置信度和所述第二参考置信度之间的损失值对所述跟踪模型进行训练。
9.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
响应于缩放处理后,所述兴趣区域窗中存在超出所述第二图像帧图像边界的超出区域,对所述超出区域进行补黑填充处理。
10.一种目标跟踪装置,其特征在于,所述装置包括:
获取模块,用于获取第一图像帧,所述第一图像帧中标注有第一边界框,所述第一边界框用于指示目标对象在所述第一图像帧中对应的显示区域;
所述获取模块,还用于获取第二图像帧,所述第二图像帧为视频文件中在所述第一图像帧之后显示的图像帧;
确定模块,用以所述第一边界框的尺寸进行缩放后得到的目标尺寸,在所述第二图像帧中确定兴趣区域窗,所述兴趣区域窗中包括以所述目标尺寸在所述第二图像帧中进行框选得到的图像内容;
识别模块,用于在所述兴趣区域窗中对所述目标对象进行跟踪识别,得到第二边界框,所述第二边界框用于指示所述目标对象在所述第二图像帧中对应的显示区域。
11.根据权利要求10所述的装置,其特征在于,所述确定模块,具体用于在缩放范围内确定缩放倍数;以所述缩放倍数对所述第一边界框的尺寸进行缩放得到所述目标尺寸;根据所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。
12.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于以所述第一边界框的中心点在所述第一图像帧中的位置,确定所述兴趣区域窗的中心点在所述第二图像帧中的位置;根据所述兴趣区域窗的中心点和所述目标尺寸在所述第二图像帧中确定所述兴趣区域窗。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的目标跟踪方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010741433.8A CN111754541B (zh) | 2020-07-29 | 2020-07-29 | 目标跟踪方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010741433.8A CN111754541B (zh) | 2020-07-29 | 2020-07-29 | 目标跟踪方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111754541A true CN111754541A (zh) | 2020-10-09 |
CN111754541B CN111754541B (zh) | 2023-09-19 |
Family
ID=72712329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010741433.8A Active CN111754541B (zh) | 2020-07-29 | 2020-07-29 | 目标跟踪方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111754541B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200274A (zh) * | 2020-12-09 | 2021-01-08 | 湖南索莱智能科技有限公司 | 一种目标检测方法、装置、电子设备和存储介质 |
CN112258556A (zh) * | 2020-10-22 | 2021-01-22 | 北京字跳网络技术有限公司 | 视频中指定区域的跟踪方法、装置、可读介质和电子设备 |
CN112417963A (zh) * | 2020-10-20 | 2021-02-26 | 上海卫莎网络科技有限公司 | 一种优化视频目标检测、识别或分割的精度和效率的方法 |
CN112434684A (zh) * | 2021-01-27 | 2021-03-02 | 萱闱(北京)生物科技有限公司 | 基于目标检测的图像显示方法、介质、装置和计算设备 |
CN112508016A (zh) * | 2020-12-15 | 2021-03-16 | 深圳万兴软件有限公司 | 一种图像处理方法、装置、计算机设备及存储介质 |
CN112733650A (zh) * | 2020-12-29 | 2021-04-30 | 深圳云天励飞技术股份有限公司 | 目标人脸检测方法、装置、终端设备及存储介质 |
CN112934758A (zh) * | 2020-12-14 | 2021-06-11 | 中科院计算所西部高等技术研究院 | 基于图像识别的煤炭分拣拨手控制方法 |
CN113628250A (zh) * | 2021-08-27 | 2021-11-09 | 北京澎思科技有限公司 | 目标跟踪方法、装置、电子设备以及可读存储介质 |
CN113689460A (zh) * | 2021-09-02 | 2021-11-23 | 广州市奥威亚电子科技有限公司 | 视频目标对象跟踪检测方法、装置、设备及存储介质 |
CN113936042A (zh) * | 2021-12-16 | 2022-01-14 | 深圳佑驾创新科技有限公司 | 一种目标跟踪方法、装置和计算机可读存储介质 |
WO2022093112A1 (zh) * | 2020-10-30 | 2022-05-05 | 北京字跳网络技术有限公司 | 图像合成方法、设备及存储介质 |
CN114895832A (zh) * | 2022-05-17 | 2022-08-12 | 网易(杭州)网络有限公司 | 对象的调整方法、装置、电子设备及计算机可读介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120099765A1 (en) * | 2010-10-21 | 2012-04-26 | SET Corporation | Method and system of video object tracking |
AU2013273831A1 (en) * | 2013-12-23 | 2015-07-09 | Canon Kabushiki Kaisha | A method for improving tracking using dynamic background compensation with centroid compensation |
US20170053167A1 (en) * | 2015-08-18 | 2017-02-23 | Qualcomm Incorporated | Systems and methods for object tracking |
CN107066990A (zh) * | 2017-05-04 | 2017-08-18 | 厦门美图之家科技有限公司 | 一种目标跟踪方法及移动设备 |
US20180121762A1 (en) * | 2016-11-01 | 2018-05-03 | Snap Inc. | Neural network for object detection in images |
US20190034734A1 (en) * | 2017-07-28 | 2019-01-31 | Qualcomm Incorporated | Object classification using machine learning and object tracking |
CN109903310A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、计算机装置及计算机存储介质 |
CN110276780A (zh) * | 2019-06-17 | 2019-09-24 | 广州织点智能科技有限公司 | 一种多目标跟踪方法、装置、电子设备及存储介质 |
CN110390294A (zh) * | 2019-07-19 | 2019-10-29 | 中国人民解放军国防科技大学 | 一种基于双向长短期记忆神经网络的目标跟踪方法 |
US20200051250A1 (en) * | 2018-08-08 | 2020-02-13 | Beihang University | Target tracking method and device oriented to airborne-based monitoring scenarios |
CN110796093A (zh) * | 2019-10-30 | 2020-02-14 | 上海眼控科技股份有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
CN111401143A (zh) * | 2020-02-26 | 2020-07-10 | 沈阳大学 | 一种行人跟踪系统及方法 |
-
2020
- 2020-07-29 CN CN202010741433.8A patent/CN111754541B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120099765A1 (en) * | 2010-10-21 | 2012-04-26 | SET Corporation | Method and system of video object tracking |
AU2013273831A1 (en) * | 2013-12-23 | 2015-07-09 | Canon Kabushiki Kaisha | A method for improving tracking using dynamic background compensation with centroid compensation |
US20170053167A1 (en) * | 2015-08-18 | 2017-02-23 | Qualcomm Incorporated | Systems and methods for object tracking |
US20180121762A1 (en) * | 2016-11-01 | 2018-05-03 | Snap Inc. | Neural network for object detection in images |
CN107066990A (zh) * | 2017-05-04 | 2017-08-18 | 厦门美图之家科技有限公司 | 一种目标跟踪方法及移动设备 |
US20190034734A1 (en) * | 2017-07-28 | 2019-01-31 | Qualcomm Incorporated | Object classification using machine learning and object tracking |
US20200051250A1 (en) * | 2018-08-08 | 2020-02-13 | Beihang University | Target tracking method and device oriented to airborne-based monitoring scenarios |
CN109903310A (zh) * | 2019-01-23 | 2019-06-18 | 平安科技(深圳)有限公司 | 目标跟踪方法、装置、计算机装置及计算机存储介质 |
CN110276780A (zh) * | 2019-06-17 | 2019-09-24 | 广州织点智能科技有限公司 | 一种多目标跟踪方法、装置、电子设备及存储介质 |
CN110390294A (zh) * | 2019-07-19 | 2019-10-29 | 中国人民解放军国防科技大学 | 一种基于双向长短期记忆神经网络的目标跟踪方法 |
CN110796093A (zh) * | 2019-10-30 | 2020-02-14 | 上海眼控科技股份有限公司 | 目标跟踪方法、装置、计算机设备和存储介质 |
CN111401143A (zh) * | 2020-02-26 | 2020-07-10 | 沈阳大学 | 一种行人跟踪系统及方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417963A (zh) * | 2020-10-20 | 2021-02-26 | 上海卫莎网络科技有限公司 | 一种优化视频目标检测、识别或分割的精度和效率的方法 |
CN112258556A (zh) * | 2020-10-22 | 2021-01-22 | 北京字跳网络技术有限公司 | 视频中指定区域的跟踪方法、装置、可读介质和电子设备 |
GB2605307A (en) * | 2020-10-30 | 2022-09-28 | Beijing Zitiao Network Technology Co Ltd | Image synthesis method and device, and storage medium |
WO2022093112A1 (zh) * | 2020-10-30 | 2022-05-05 | 北京字跳网络技术有限公司 | 图像合成方法、设备及存储介质 |
CN112200274A (zh) * | 2020-12-09 | 2021-01-08 | 湖南索莱智能科技有限公司 | 一种目标检测方法、装置、电子设备和存储介质 |
CN112934758A (zh) * | 2020-12-14 | 2021-06-11 | 中科院计算所西部高等技术研究院 | 基于图像识别的煤炭分拣拨手控制方法 |
CN112508016A (zh) * | 2020-12-15 | 2021-03-16 | 深圳万兴软件有限公司 | 一种图像处理方法、装置、计算机设备及存储介质 |
CN112508016B (zh) * | 2020-12-15 | 2024-04-16 | 深圳万兴软件有限公司 | 一种图像处理方法、装置、计算机设备及存储介质 |
CN112733650A (zh) * | 2020-12-29 | 2021-04-30 | 深圳云天励飞技术股份有限公司 | 目标人脸检测方法、装置、终端设备及存储介质 |
CN112733650B (zh) * | 2020-12-29 | 2024-05-07 | 深圳云天励飞技术股份有限公司 | 目标人脸检测方法、装置、终端设备及存储介质 |
CN112434684A (zh) * | 2021-01-27 | 2021-03-02 | 萱闱(北京)生物科技有限公司 | 基于目标检测的图像显示方法、介质、装置和计算设备 |
CN113628250A (zh) * | 2021-08-27 | 2021-11-09 | 北京澎思科技有限公司 | 目标跟踪方法、装置、电子设备以及可读存储介质 |
CN113689460A (zh) * | 2021-09-02 | 2021-11-23 | 广州市奥威亚电子科技有限公司 | 视频目标对象跟踪检测方法、装置、设备及存储介质 |
CN113689460B (zh) * | 2021-09-02 | 2023-12-15 | 广州市奥威亚电子科技有限公司 | 视频目标对象跟踪检测方法、装置、设备及存储介质 |
CN113936042A (zh) * | 2021-12-16 | 2022-01-14 | 深圳佑驾创新科技有限公司 | 一种目标跟踪方法、装置和计算机可读存储介质 |
CN114895832A (zh) * | 2022-05-17 | 2022-08-12 | 网易(杭州)网络有限公司 | 对象的调整方法、装置、电子设备及计算机可读介质 |
CN114895832B (zh) * | 2022-05-17 | 2023-08-08 | 网易(杭州)网络有限公司 | 对象的调整方法、装置、电子设备及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111754541B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754541B (zh) | 目标跟踪方法、装置、设备及可读存储介质 | |
CN111126272B (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN112287820A (zh) | 人脸检测神经网络及训练方法、人脸检测方法、存储介质 | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN111240476B (zh) | 基于增强现实的交互方法、装置、存储介质和计算机设备 | |
CN111209897B (zh) | 视频处理的方法、装置和存储介质 | |
Hashmi et al. | An exploratory analysis on visual counterfeits using conv-lstm hybrid architecture | |
CN111104930B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN112861575A (zh) | 一种行人结构化方法、装置、设备和存储介质 | |
CN112101344B (zh) | 一种视频文本跟踪方法及装置 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
CN113688839B (zh) | 视频处理方法及装置、电子设备、计算机可读存储介质 | |
Jiang et al. | Application of a fast RCNN based on upper and lower layers in face recognition | |
CN111126515A (zh) | 基于人工智能的模型训练方法和相关装置 | |
CN112381118B (zh) | 一种大学舞蹈考试测评方法及装置 | |
CN114332484A (zh) | 关键点检测方法、装置、计算机设备和存储介质 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN113706550A (zh) | 图像场景识别和模型训练方法、装置和计算机设备 | |
CN112529116B (zh) | 场景元素融合处理方法、装置和设备及计算机存储介质 | |
CN114494302A (zh) | 图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030898 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |