CN108810616B - 目标定位方法、视频显示方法、装置、设备和存储介质 - Google Patents

目标定位方法、视频显示方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN108810616B
CN108810616B CN201810548745.XA CN201810548745A CN108810616B CN 108810616 B CN108810616 B CN 108810616B CN 201810548745 A CN201810548745 A CN 201810548745A CN 108810616 B CN108810616 B CN 108810616B
Authority
CN
China
Prior art keywords
image
frame
video
positioning result
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810548745.XA
Other languages
English (en)
Other versions
CN108810616A (zh
Inventor
任高生
吴晓东
刘炉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Information Technology Co Ltd
Original Assignee
Guangzhou Huya Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Information Technology Co Ltd filed Critical Guangzhou Huya Information Technology Co Ltd
Priority to CN201810548745.XA priority Critical patent/CN108810616B/zh
Publication of CN108810616A publication Critical patent/CN108810616A/zh
Priority to US16/981,837 priority patent/US11284128B2/en
Priority to PCT/CN2019/088921 priority patent/WO2019228387A1/zh
Priority to SG11202010826WA priority patent/SG11202010826WA/en
Application granted granted Critical
Publication of CN108810616B publication Critical patent/CN108810616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种目标定位方法、视频显示方法、装置、设备和存储介质。所述目标定位方法包括:连续地截取待检测视频流中预设数量的视频帧;通过YOLO目标检测方法检测截取的视频帧中的第一帧图像得到第一帧图像对应的第一定位结果;根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像得到其他帧分别对应的第二定位结果;继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。本发明实施例的技术方案实现了快速、准确地对视频流进行目标识别、追踪和修饰,缩短视频流产生以及用户观看到视频之间的时间差,使用主播与用户之间的互动更加及时、有效。

Description

目标定位方法、视频显示方法、装置、设备和存储介质
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种目标定位方法、视频显示方法、装置、设备和存储介质。
背景技术
随着视频直播行业的不断发展,视频直播中主播与用户的互动更加频繁,形式更加多样,其中,一种常见的互动方法就是通过手势进行互动。主播在直播的过程中经常会通过手势进一步表达情感,或是对当前直播内容进行进一步解释。另外,对于主要以舞蹈作为直播内容的主播,该主播在跳舞的过程中也经常会做出一些手势动作。为了使主播与用户之间更有效地进行互动,也为了对主播的手势进行健康检测,需要不断地对直播视频进行手部识别和追踪。但是,随着直播视频量的不断增加,使得对直播视频流中的手部进行识别和追踪的需求也在不断扩大。
现有技术中,对直播视频流进行目标识别及追踪的方法的计算量较大,会消耗计算处理设备大量的计算资源,同时也会消耗计算处理设备一定的电量。另外由于应用于移动终端的主芯片的数据计算能力的限制,在移动终端上运行现有的直播视频的目标识别及追踪方法,会严重影响移动终端的正常使用。同时,由于移动终端在使用时,一般都是通过电池进行供电,所以可用电量有限。
发明内容
有鉴于此,本发明实施例提供了一种目标定位方法、视频显示方法、装置、设备和存储介质,优化了现有的对视频流进行目标识别及追踪的方法。
在第一方面,本发明实施例提供了一种目标定位方法,包括:
连续地截取待检测视频流中预设数量的视频帧;
通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果;
根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中其他帧图像,得到所述其他帧图像分别对应的第二定位结果;
继续连续地截取所述待检测视频流中预设数量的视频帧并得到对应的定位结果,直至所述待检测视频流结束。
在第二方面,本发明实施例提供了一种视频显示方法,包括:
连续地截取待检测视频流中预设数量的视频帧;
根据本发明各实施例中获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定所述第一帧图像对应的第一待识别图像;
判断所述第一待识别图像是否为可修饰图像;
若所述第一待识别图像为可修饰图像,则根据所述第一定位结果,将与所述第一待识别图像匹配的修饰图像以及所述第一帧图像进行融合,形成第一融合图像;
根据本发明各实施例中获取的所述截取的视频帧中其他帧图像分别对应的第二定位结果,确定各所述其他帧图像分别对应的第二待识别图像;
判断所述第二待识别图像是否为所述可修饰图像;
若所述第二待识别图像为所述可修饰图像,则根据所述第二定位结果,将与所述第二待识别图像匹配的修饰图像以及所述第二待识别图像对应的所述其他帧图像进行融合,形成第二融合图像;
根据所述预设数量的视频帧各自的生成时间,将所述第一融合图像、所述第二融合图像、以及所述预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流;
将所述新的视频流对应的视频呈现给用户。
在第三方面,本发明实施例提供了一种目标定位装置,包括:
第一视频帧截取模块,用于连续地截取待检测视频流中预设数量的视频帧;
YOLO检测模块,用于通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果;
KCF追踪模块,用于根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中其他帧图像,得到所述其他帧图像分别对应的第二定位结果;
第二视频帧截取模块,用于继续连续地截取所述待检测视频流中预设数量的视频帧并得到对应的定位结果,直至所述待检测视频流结束。
在第四方面,本发明实施例提供了一种视频显示装置,包括:
视频帧获取模块,用于连续地截取待检测视频流中预设数量的视频帧;
第一待识别图像确定模块,用于根据权利要求1-7中任一项获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定所述第一帧图像对应的第一待识别图像;
第一判断模块,用于判断所述第一待识别图像是否为可修饰图像;
第一融合图像获取模块,用于若所述第一待识别图像为可修饰图像,则根据所述第一定位结果,将与所述第一待识别图像匹配的修饰图像以及所述第一帧图像进行融合,形成第一融合图像;
第二待识别图像确定模块,用于根据权利要求1-7中任一项获取的所述截取的视频帧中其他帧图像分别对应的第二定位结果,确定各所述其他帧图像分别对应的第二待识别图像;
第二判断模块,用于判断所述第二待识别图像是否为所述可修饰图像;
第二融合图像获取模块,用于若所述第二待识别图像为所述可修饰图像,则根据所述第二定位结果,将与所述第二待识别图像匹配的修饰图像以及所述第二待识别图像对应的所述其他帧图像进行融合,形成第二融合图像;
视频帧拼接模块,用于根据所述预设数量的视频帧各自的生成时间,将所述第一融合图像、所述第二融合图像、以及所述预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流;
视频流呈现模块,用于将所述新的视频流对应的视频呈现给用户。
在第五方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例所述的目标定位方法。
在第六方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例所述的目标定位方法。
在第七方面,本发明实施例提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例所述的视频显示方法。
在第八方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例所述的视频显示方法。
本发明实施例提供了一种目标定位方法、视频显示方法、装置、设备和存储介质,通过同时使用YOLO(You Only Look Once,YOLO)目标检测方法和KCF(Kernel CorrelationFilter,核相关滤波算法)目标追踪方法获取视频流中各帧图像的定位结果,然后根据定位结果识别可修饰图像,并使用匹配的修饰图像对可修饰图像对应的图像进行修饰,最后将修饰后的视频流呈现给用户,解决了现有技术中对视频流进行目标识别及追踪的方法计算量大、耗时长的技术缺陷,实现了快速、准确地对视频流进行目标识别和追踪,在此基础上,还解决了现有技术中通过对视频流进行目标识别、追踪以及修饰,得到视频流对应的修饰图像的方法,计算量大、耗时长的技术缺陷,实现了快速、准确地对视频流中的目标进行修饰,缩短视频流产生以及用户观看到视频之间的时间差,使用主播与用户之间的互动更加及时、有效。
附图说明
图1是本发明实施例一提供的一种目标定位方法的流程图;
图2是本发明实施例二提供的一种目标定位方法的流程图;
图3是本发明实施例三提供的一种目标定位方法的流程图;
图4是本发明实施例四提供的一种视频显示方法的流程图;
图5是本发明实施例五提供的一种目标定位装置的结构图;
图6是本发明实施例六提供的一种视频显示装置的结构图;
图7是本发明实施例七提供的一种设备的结构图;
图8是本发明实施例九提供的一种设备的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种目标定位方法的流程图,本实施例的方法可以由目标定位装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于直播系统的后台服务器中,或集成于移动终端中。本实施例的方法具体包括:
101、连续地截取待检测视频流中预设数量的视频帧。
在本实施例中,视频帧的起始截取位置具体可以是待检测视频流的第一帧图像,也可以是待检测视频流中任意一帧图像。在确定视频帧的起始截取位置之后,就会连续地,而非间隔地截取视频流中的视频帧。
在本实施例中,预设数量具体可以是由待检测视频流的图像帧速率、当前设备的数据处理能力等参数决定的。其中,当前设备具体是指用于执行本实施例中步骤101至步骤104中的目标定位方法的设备,典型的可以是服务器或移动终端等。
具体而言,当前设备的数据处理能力越好,预设数量可以越少。可以理解的是,YOLO目标检测方法相对于KCF目标追踪方法所需的计算量要大。因此,对相同数量帧的图像实施本实施例中的目标定位方法时,当预设数量越大时,所需进行的YOLO目标检测方法的次数越少,进而总的计算量就越少;反之,当预设数量越小时,所需进行的YOLO目标检测方法的次数越多,进而总的计算量就越大。基于上述内容可知,如果当前设备的数据处理能力较好时,可以将预设数量设置得相对小一些,以实现在不影响当前设备的数据处理效率的前提下,尽可能提高对视频中目标识别和追踪的准确度。
进一步地,当对某一数量帧的图像实施本实施例中的目标定位方法时,预设数量设置得越少,可以理解的是,处理完该某一数量帧的时间可能会越长。此时,如果待检测视频流的图像帧速率较快,可能会出现丢帧的现象。因此,预设数量选取时应综合考虑当前待检测视频流的图像帧速率和当前设备的数据处理能力。
102、通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果。
在本实施例中,对截取的视频帧进行目标识别使用的是YOLO目标检测方法。可以理解的是,YOLO目标检测方法是通过神经网络(例如卷积神经网络)对图像进行设定目标的检测,神经网络的层数越多,检测的结果越准确,但是耗时约长。因此,在本实施例中,可以在综合考量检测准确度、检测耗时的前提下,确定YOLO目标检测方法所使用的神经网络的层数。
在本实施例中,第一定位结果具体是指通过YOLO目标检测方法所确定的第一帧图像中目标所在位置范围的顶点坐标。其中,顶点坐标典型的可以是像素点坐标等。由于YOLO目标检测方法属于现有技术,因此在此不再进行详细描述。
103、根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像,得到其他帧图像分别对应的第二定位结果。
在本实施例中,所截取的预设数量的视频帧中,只有第一帧的定位结果是通过YOLO目标检测方法获取的,其他帧的定位结果均是通过KCF目标追踪方法获取的。
可以理解的是,通过KCF目标追踪方法确定图像中目标的具体位置,比通过YOLO目标检测方法确定图像中目标的具体位置耗时要少。因此,本实施例中,在满足所需检测精度(可以通过改变预设数量来调整目标定位结果的精度)的条件下,在对所截取的预设数量的视频帧进行目标定位时,仅对第一帧图像使用YOLO目标检测方法获取目标定位结果,其他帧均通过KCF目标追踪方法获取目标定位结果,如此可以尽量减少运算量,进而减少运算所需时间。由于KCF目标追踪方法属于现有技术,因此在此不再进行详细描述。
104、继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。
在本实施例中,在获取完所截取的预设数量的视频帧对应的目标定位结果之后,会继续从待检测视频流中连续地(从上次所截取的最后一帧图像之后的第一帧图像开始截取)再次获取预设数量的视频帧,以继续对待检测视频流中的目标进行识别和追踪,直至待检测视频流结果。
本发明实施例提供了一种目标定位方法,首先通过YOLO目标检测方法获取截取的第一帧图像的定位结果,然后通过KCF目标追踪方法获取截取的其余帧图像的定位结果,以此对视频流进行目标识别和追踪,解决了现有技术中对视频流进行目标识别及追踪的方法计算量大、耗时长的技术缺陷,实现了快速、准确地对视频流进行目标识别和追踪,不但大大减小了对视频流进行目标识别和追踪的计算量以及耗时,并且当YOLO目标检测方法所使用的神经网络的层数足够少时,可以在移动终端实施本实施例中的目标检测方法,填补了现有技术中没有适用于移动终端的对视频流进行目标识别和追踪的技术空缺。
实施例二
图2是本发明实施例二提供的一种目标定位方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,给出了一种增加了通过Cifar分类方法对第一帧图像对应的第一定位结果进行检验的过程的具体实施方式。
相应的,本实施例的方法具体包括:
201、连续地截取待检测视频流中预设数量的视频帧。
202、通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果。
203、根据第一定位结果,从第一帧图像中截取第一图像。
可以理解的是,YOLO目标检测方法的检测结果不但包括有目标的定位结果,还包括有该定位结果所对应的目标的类型。因此,在本实施例中,为了提高目标识别和追踪的准确度,在获取第一定位结果之后,还会通过Cifar分类方法对第一定位结果进行检验。
在本实施例中,步骤203至步骤209是对第一定位结果进行检验的过程。首先,需要获取与第一定位结果对应的图像,也就是根据第一定位结果确定所需图像在第一帧图像中的位置范围,然后获取该位置范围对应的图像,即第一图像。
204、使用Cifar分类方法取第一图像对应的第一分类结果。
在本实施例中,在获取第一图像之后,会通过Cifar分类方法确定第一图像的类别,即第一分类结果。由于Cifar分类方法为现有技术,因此在此不再进行详细阐述。
205、判断第一定位结果对应的类别与第一分类结果是否相同,若否,则执行步骤206,若是,则执行步骤209。
206、删除第一帧图像。
在本实施例中,当第一定位结果对应的类别与第一分类结果不同时,即确认第一定位结果不正确,此时,会直接删除第一帧图像,不再对第一帧图像重复使用YOLO目标检测方法。
可以理解的是,视频流一般都是连续不断的,且内容是不断更新的,如果对一帧图像重复进行多次目标检测会占用较多时间,由于当前设备的缓存空间有限,所以可能会出现丢帧的现象。因此,在本实施例中,为了尽量较少丢帧现象的发生,当第一帧图像使用YOLO目标检测方法得到的第一定位结果不准确时,即马上删除该帧图像,不再浪费多余的时间进行再次检测。
207、判断截取的视频帧中最后一帧图像是否为待检测视频流的最后一帧图像,若是,则返回执行步骤202,若否,则执行步骤208。
在本实施例中,在删除一帧图像之后,需要再获取一帧图像,以使所截取的视频帧的数量一直维持在预设数量。但是,当已截取的视频帧的最后一帧为待检测视频流的最后一帧,则无法再截取新的视频帧。
因此,在本实施例中,在删除第一帧图像之后,会先判断截取的视频帧中最后一帧图像是否为待检测视频流中的最后一帧图像。当确定截取的视频帧中最后一帧图像是待检测视频流中的最后一帧图像,则无法再截取图像,只能继续对截取的图像中的第二帧图像进行处理,直至处理完所有已截取的视频帧。
208、从待检测视频流中继续连续地截取一个视频帧,并返回执行步骤202。
在本实施例中,当确定截取的视频帧中最后一帧图像不是待检测视频流中的最后一帧图像之后,即会从待检测的视频流中继续连续地截取一个视频帧,即从待检测视频流中截取已截取的视频帧中最后一帧图像之后的第一帧图像。并在截取新的一帧图像之后,返回执行步骤202,获取当前已截取的视频帧中第一帧图像对应的第一定位结果。
209、根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像,得到其他帧图像分别对应的第二定位结果。
210、继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。
本发明实施例提供了一种目标定位方法,具体增加了通过Cifar分类方法对第一帧图像对应的第一定位结果进行检验的过程,提高了对视频流进行目标识别和追踪的准确度。另外,由于Cifar分类方法的计算量较小,因此在提高准确度的同时对目标定位过程的耗时没有过多不良影响。
在上述各实施例的基础上,将YOLO目标检测方法所使用的神经网络具体化为:5层神经网络。
这样设置的好处是:可以将本实施例中的目标定位方法应用于移动终端。
实施例三
图3是本发明实施例三提供的一种目标定位方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,给出了一种增加预设数据的获取过程,并对上述过程进行具体化,同时获取检验间隔数量和检验总次数,具体化了第二定位结果的获取过程,在该获取过程中增加了通过Cifar分类方法对第二定位结果的进行检验的步骤的具体实施方式。
相应的,本实施例的方法具体包括:
301、根据待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定预设数量、检验间隔数量以及检验总次数,其中,检验间隔数量与检验总次数的乘机小于等于预设数量。
在本实施例中,检验间隔数量具体是指上一次检验的视频帧图像与本次检验的视频帧图像的之间做间隔的图像帧的数量加1后的数值。检验总次数具体是指对截取的预设数量的视频帧中出第一帧图像以外,所需进行检验的图像的数量。
在本实施例中,检验间隔数量以及检验总次数也是由待检测视频流的图像帧速率以及当前设备的数据处理性能参数所确定的。可以理解的是,对第二定位结果进行检验的次数越多,完成本实施例中的目标定位方法所需的时间越多,且计算量也越大。因此,如果当前设备的数据处理性能较好,且待检测视频流的图像帧速率不是很高时,可以将检验间隔数量设置的相对少一些,检验总次数设置的相对多一些;如果当前设备的数据处理性能一般,或是待检测视频流的图像帧速率较高时,则不宜见检验总次数设置的过多,否则容易出现丢帧的现象,同时应将检验间隔数量设置的相对多一些。
302、连续地截取待检测视频流中预设数量的视频帧。
303、通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果。
304、根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取截取的视频帧中第二帧图像至第检验间隔数量帧图像分别对应的第二定位结果,并将第检验间隔数量帧图像作为当前图像,将当前检验次数设置为0。
在本实施例中,并不是一次获取所截取的视频帧中除第一帧以外的所有帧对应的第二定位结果,而是仅先获取所截取的视频帧中第二帧图像至第检验间隔数量帧图像分别对应的第二定位结果,如此设置,可以减少不必要的计算量。
示例性的,如果检验间隔数量为10,那么在获取第一帧图像对应的第一定位结果之后,首先仅获取第二帧图像至第十帧图像中各帧图像分别对应的第二定位结果。
305、根据与当前图像对应的第二定位结果,从当前图像中截取第二图像,并用当前检验次数加1后得到的数值更新当前检验次数。
在本实施例中,在获取第二图像的同时,还会使当前检验次数的数值增加1,代表一个新的第二定位结果的检验过程的开始。
进一步需要说明的是,当预设数量较小时,可以仅对所截取的视频帧中除第一帧以外的其他帧图像对应的第二定位结果进行一次检验,即检验总次数为1,只对一个第二定位结果进行检验,如此设置,可以在提高目标追踪准确度的同时不会过多,地增加计算量,也不会过多地增加计算耗时。
306、使用Cifar分类方法获取第二图像对应的第二分类结果。
307、判断当前图像对应的第二定位结果所对应的类别与第二分类结果是否相同,若否,则执行步骤308,若是,则执行步骤309。
308、将第一帧图像至第检验间隔数量帧图像全部删除,并从待检测视频流中继续连续地截取检验间隔数量个视频帧,并返回执行步骤303。
在本实施例中,如果当前图像对应的第二定位结果所对应的类别与第二分类结果不同,则确认第一定位结果和所有已获取的第二定位结果均不正确,直接将第一帧图像至第检验间隔数量帧图像全部删除,而不会重新对第一帧图像至第检验间隔数量帧图像进行定位,以防在检测过程中出现视频流丢帧现象。
进一步地,在删除完第一帧图像至第检验间隔数量帧图像之后,会继续从待检测侧视频流中继续连续地截取检验间隔数量个视频帧,即从已截取的视频帧中最后一帧之后的第一帧图像开始进行截取。并在完成本次视频帧截取之后,返回执行步骤303,重新对已截取的视频帧进行定位和检验。
309、判断当前检验次数是否等于检验总次数,若是,则执行步骤310,若否,则执行步骤312。
在本实施例中,当当前图像对应的第二定位结果所对应的类别与第二分类结果相同时,需要继续判断当前检验次数是否等于检验总次数,即需要判断是否已完成对已截取的视频帧中所有需检验的图像帧的检验工作。
310、判断是否已获取所有截取的视频帧分别对应的第二定位结果,若是,则执行步骤313,若否,则执行步骤311。
在本实施例中,当当前检验次数等于检验总次数时,还需要继续判断是否已获取所有截取的视频帧分别对应的第二定位结果。可以理解的是,如果检验间隔数量与检验总次数的乘机小于预设数量,那么当检验次数等于检验总次数时,还会有一部分已截取的视频帧图像未获取对应的第二定位结果。因此,还需要进行本步骤中的判断过程。
311、通过KCF目标追踪方法获取与当前图像之后各截取的视频帧分别对应的第二定位结果。
312、根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取当前图像之后检验间隔数量个截取的视频帧分别对应的第二定位结果,并将当前图像之后第检验间隔数量帧图像设置为当前图像,返回执行步骤305。
在本实施例中,当当前检验次数小于检验总次数时,则确定还需再次进行检验。此时,首先需要通过KCF目标追踪方法获取所需检验的视频帧图像对应的第二定位结果,即获取当前图像之后检验间隔数量个截取的视频帧分别对应的第二定位结果,然后返回步骤305再次进行检验。
313、继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。
本发明实施例提供了一种目标定位方法,具体增加了预设数据的获取过程,并对预设数据的获取过程进行了具体化,可以同时获取检验间隔数量和检验总次数,以实现第二定位结果的有效检验,具体化了第二定位结果的获取过程,在该获取过程中增加了通过Cifar分类方法对第二定位结果的进行检验的步骤,提高了对视频流进行目标识别和追踪的准确度。另外,由于Cifar分类方法的计算量较小,因此在提高准确度的同时对目标定位过程的耗时没有过多不良影响。
实施例四
图4为本发明实施例四提供的一种视频显示方法的流程图,本实施例的方法可以由视频显示装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于直播系统的后台服务器中,或集成于移动终端中。本实施例的方法具体包括:
401、连续地截取待检测视频流中预设数量的视频帧。
402、根据上述各实施例中获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定第一帧图像对应的第一待识别图像。
在本实施例中,会利用上述各实施例中所获取的第一定位结果和第二定位结果查找可修饰图像,并对查找到的可修饰图像进行修饰。
在本实施例中,第一待识别图像具体是指第一定位结果所标识的第一帧图像中的图像内容。
403、判断第一待识别图像是否为可修饰图像,若是,则执行步骤404,若否,则执行步骤405。
在本实施例中,可修饰图像具体可以是心形手势图像、特定舞蹈动作图像等。
404、根据第一定位结果,将与第一待识别图像匹配的修饰图像以及第一帧图像进行融合,形成第一融合图像。
在本实施例中,将与第一待识别图像匹配的修饰图像以及第一帧图像进行融合具体是指依据第一定位结果,将与第一待识别图像匹配的修饰图像与第一帧图像合并,并将与第一待识别图像匹配的修饰图像设置为顶层图像。
示例性地,当第一待识别图像中包括有心形手势图像且匹配的修饰图像为红色心形时,则可以将红色心形与第一待识别图像合并,并将红色心形放置于心形手势中,以形成填涂有颜色的心形手势。
405、根据上述各实施例中获取的截取的视频帧中其他帧图像分别对应的第二定位结果,确定各其他帧图像分别对应的第二待识别图像。
406、判断第二待识别图像是否为可修饰图像,若是,则执行步骤407,若否,则执行步骤408。
407、根据第二定位结果,将与第二待识别图像匹配的修饰图像以及第二待识别图像对应的其他帧图像进行融合,形成第二融合图像。
同样地,在本实施例中,将与第二待识别图像匹配的修饰图像以及第二待识别图像对应的其他帧图像进行融合具体是指依据第二定位结果,将与第二待识别图像匹配的修饰图像与第二待识别图像对应的其他帧图像合并,并将与第二待识别图像匹配的修饰图像设置为顶层图像。
408、根据预设数量的视频帧各自的生成时间,将第一融合图像、第二融合图像、以及预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流。
在本实施例中,在对所有包括有可修饰图像的视频帧进行修饰之后,即会根据所截取的预设数量的视频帧中每一帧的生成时间,确定融合后的图像以及未进行过融合的视频的拼接前后顺序,进而生成新的视频。
409、将新的视频流对应的视频呈现给用户。
在本实施例中,如果步骤401至步骤409组成的视频显示方法是由服务器等设备完成的,那么在生成新的视频流之后,需要服务器等设备将新的视频流发送至客户端,才能将与新的视频流对应的视频呈现给用户;如果步骤401至步骤409组成的视频显示方法是由用户所使用的移动终端完成的,那么在生成新的视频流之后,移动终端直接播放新的视频流对应的视频即可。
本发明实施例提供了一种视频显示方法,首先通过根据上述各实施例中获取的第一定位结果和第二定位结果,确定所截取的视频帧中是否包含有可修饰图像,然后对可修饰图像进行修饰,得到新的视频流,最后将新的视频流对应的视频呈现给用户,解决了现有技术中通过对视频流进行目标识别、追踪以及修饰,得到视频流对应的修饰图像的方法,计算量大、耗时长的技术缺陷,实现了快速、准确地对视频流中的目标进行修饰,缩短视频流产生以及用户观看到视频之间的时间差,使用主播与用户之间的互动更加及时、有效。
实施例五
图5是本发明实施例五提供的一种目标定位装置的结构图。如图5所示,所述装置包括:第一视频帧截取模块501、YOLO检测模块502、KCF追踪模块503以及第二视频帧截取模块504,其中:
第一视频帧截取模块501,用于连续地截取待检测视频流中预设数量的视频帧;
YOLO检测模块502,用于通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果;
KCF追踪模块503,用于根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像,得到其他帧图像分别对应的第二定位结果;
第二视频帧截取模块504,用于继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。
本发明实施例提供了一种目标定位装置,该装置首先通过第一视频帧截取模块501连续地截取待检测视频流中预设数量的视频帧,然后通过YOLO检测模块502通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果,再通过KCF追踪模块503根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像,得到其他帧图像分别对应的第二定位结果,最后通过第二视频帧截取模块504,用于继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。
该装置解决了现有技术中对视频流进行目标识别及追踪的方法计算量大、耗时长的技术缺陷,实现了快速、准确地对视频流进行目标识别和追踪,不但大大减小了对视频流进行目标识别和追踪的计算量以及耗时,并且当YOLO目标检测方法所使用的神经网络的层数足够少时,可以在移动终端实施本实施例中的目标检测方法,填补了现有技术中没有适用于移动终端的对视频流进行目标识别和追踪的技术空缺。
在上述各实施例的基础上,还可以包括:
第一图像截取模块,用于在根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像,得到其他帧图像分别对应的第二定位结果之前,根据第一定位结果,从第一帧图像中截取第一图像;
第一分类结果获取模块,用于使用Cifar分类方法获取第一图像对应的第一分类结果;
第一分类结果判断模块,用于判断第一定位结果对应的类别与第一分类结果是否相同;
图像删除模块,用于若第一定位结果对应的类别与第一分类结果不同,则删除第一帧图像;
图像判断模块,用于判断截取的视频帧中最后一帧图像是否为待检测视频流的最后一帧图像;
返回获取第一定位结果模块,用于若截取的视频帧中最后一帧图像为待检测视频流的最后一帧图像,则直接返回执行步骤通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果;
视频帧再次截取模块,用于若截取的视频帧中最后一帧图像不是待检测视频流的最后一帧图像,则从待检测视频流中继续连续地截取一个视频帧,并返回执行步骤通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果。
在上述各实施例的基础上,还可以包括:
预设数量确定模块,用于在连续地截取待检测视频流中预设数量的视频帧之前,根据待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定预设数量。
在上述各实施例的基础上,预设数量确定模块具体可以用于:
在根据待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定预设数量的同时,还根据待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定检验间隔数量,其中,检验间隔数量小于等于预设数量;
相应地,KCF追踪模块503可以包括:
第二定位结果确定单元,用于根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取截取的视频帧中第二帧图像至第检验间隔数量帧图像分别对应的第二定位结果;
第二图像截取单元,用于根据第检验间隔数量帧图像对应的第二定位结果,从第检验间隔数量帧图像中截取第二图像;
第二分类结果确定单元,用于使用Cifar分类方法获取第二图像对应的第二分类结果;
第二分类结果判断单元,用于判断第检验间隔数量帧图像对应的第二定位结果所对应的类别与第二分类结果是否相同;
图像删除单元,用于若第检验间隔数量帧图像对应的第二定位结果所对应的类别与第二分类结果不同,则将第一帧图像至第检验间隔数量帧图像全部删除,并从待检测视频流中继续连续地截取检验间隔数量个视频帧,返回执行步骤通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果,直至待检测视频流结束;
第二定位结果再次确定单元,用于若第检验间隔数量帧图像对应的第二定位结果所对应的类别与第二分类结果相同,则继续根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中第检验间隔数量帧图像之后各帧图像,得到第检验间隔数量帧图像之后各帧图像分别对应的第二定位结果。
在上述各实施例的基础上,预设数量确定模块具体还可以用于:
在根据待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定预设设定数量以及检验间隔数量的同时,还根据待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定检验总次数,其中,检验间隔数量与检验总次数的乘积小于等于预设数量;
相应地,第二定位结果确定单元具体可以用于:
根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取截取的视频帧中第二帧图像至第检验间隔数量帧图像分别对应的第二定位结果,并将第检验间隔数量帧图像作为当前图像,将当前检验次数设置为0;
相应地,第二图像截取单元具体可以用于:
根据与当前图像对应的第二定位结果,从当前图像中截取第二图像,并用当前检验次数加1后得到的数值更新当前检验次数;
相应地,第二定位结果再次确定单元可以包括:
检验次数判断子单元,用于若当前图像对应的第二定位结果所对应的类别与第二分类结果相同,则判断当前检验次数是否等于检验总次数;
第二定位结果判断子单元,用于若当前检验次数等于检验总次数,则判断是否已获取所有截取的视频帧分别对应的第二定位结果;
步骤执行子单元,用于若已获取所有截取的视频帧分别对应的第二定位结果,则执行步骤继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束;
第二定位结果继续获取子单元,用于若未获取所有截取的视频帧分别对应的第二定位结果,则通过KCF目标追踪方法获取与当前图像之后各截取的视频帧分别对应的第二定位结果;
步骤返回子单元,用于若当前检验次数小于检验总次数,则根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取当前图像之后检验间隔数量个截取的视频帧分别对应的第二定位结果,并将当前图像之后第检验间隔数量帧图像设置为当前图像,返回执行步骤根据当前图像对应的第二定位结果,从当前图像中截取第二图像,并用当前检验次数加1后得到的数值更新当前检验次数。
在上述各实施例的基础上,第一视频帧截取模块501具体可以用于:
从待检测视频流的第一帧图像开始,连续地截取待检测视频流中预设数量的视频帧。
在上述各实施例的基础上,YOLO目标检测方法所使用的神经网络具体可以为5层神经网络。
本发明实施例所提供的目标定位装置可用于执行本发明任意实施例提供的目标定位方法,具备相应的功能模块,实现相同的有益效果。
实施例六
图6是本发明实施例六提供的一种视频显示装置的结构图。如图6所示,所述装置包括:视频帧获取模块601、第一待识别图像确定模块602、第一判断模块603、第一融合图像获取模块604、第二待识别图像确定模块605、第二判断模块606、第二融合图像获取模块607、视频帧拼接模块608以及视频流发送模块609,其中:
视频帧获取模块601,用于连续地截取待检测视频流中预设数量的视频帧;
第一待识别图像确定模块602,用于根据上述各实施例中获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定第一帧图像对应的第一待识别图像;
第一判断模块603,用于判断第一待识别图像是否为可修饰图像;
第一融合图像获取模块604,用于若第一待识别图像为可修饰图像,则根据第一定位结果,将与第一待识别图像匹配的修饰图像以及第一帧图像进行融合,形成第一融合图像;
第二待识别图像确定模块605,用于根据上述各实施例中获取的截取的视频帧中其他帧图像分别对应的第二定位结果,确定各其他帧图像分别对应的第二待识别图像;
第二判断模块606,用于判断第二待识别图像是否为可修饰图像;
第二融合图像获取模块607,用于若第二待识别图像为可修饰图像,则根据第二定位结果,将与第二待识别图像匹配的修饰图像以及第二待识别图像对应的其他帧图像进行融合,形成第二融合图像;
视频帧拼接模块608,用于根据预设数量的视频帧各自的生成时间,将第一融合图像、第二融合图像、以及预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流;
视频流呈现模块609,用于将新的视频流对应的视频呈现给用户。
本发明实施例提供了一种视频显示装置,该装置通过视频帧获取模块601、第一待识别图像确定模块602、第一判断模块603、第一融合图像获取模块604、第二待识别图像确定模块605、第二判断模块606、第二融合图像获取模块607、视频帧拼接模块608以及视频流发送模块609,实现了首先通过根据上述各实施例中获取的第一定位结果和第二定位结果,确定所截取的视频帧中是否包含有可修饰图像,然后对可修饰图像进行修饰后,得到新的视频流,最后将新的视频流对应的视频呈现给用户。
该装置,解决了现有技术中通过对视频流进行目标识别、追踪以及修饰,得到视频流对应的修饰图像的方法,计算量大、耗时长的技术缺陷,实现了快速、准确地对视频流中的目标进行修饰,缩短视频流产生以及用户观看到视频之间的时间差,使用主播与用户之间的互动更加及时、有效。
实施例七
图7为本发明实施例7提供的一种设备7的结构示意图,如图7所示,该设备7包括处理器70、存储器71、输入装置72和输出装置73;设备7中处理器70的数量可以是一个或多个,图7中以一个处理器70为例;设备7中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的主题更新方法对应的7模块(例如,目标定位装置中的第一视频帧截取模块501、YOLO检测模块502、KCF追踪模块503以及第二视频帧截取模块504)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的目标定位方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例八
本发明实施例八还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种目标定位方法,该方法包括:
连续地截取待检测视频流中预设数量的视频帧;
通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到第一帧图像对应的第一定位结果;
根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测截取的视频帧中其他帧图像,得到其他帧图像分别对应的第二定位结果;
继续连续地截取待检测视频流中预设数量的视频帧并得到对应的定位结果,直至待检测视频流结束。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的目标定位方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述目标定位装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例九
图8为本发明实施例九提供的一种设备的结构示意图,如图8所示,该设备包括处理器90、存储器91、输入装置92和输出装置93;设备中处理器90的数量可以是一个或多个,图8中以一个处理器90为例;设备中的处理器90、存储器91、输入装置92和输出装置93可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储器91作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的目标定位方法对应的模块(例如,目标定位装置中的视频帧获取模块601、第一待识别图像确定模块602、第一判断模块603、第一融合图像获取模块604、第二待识别图像确定模块605、第二判断模块606、第二融合图像获取模块607、视频帧拼接模块608以及视频流呈现模块609)。处理器90通过运行存储在存储器91中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的目标定位方法。
存储器91可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器91可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器91可进一步包括相对于处理器90远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置92可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置93可包括显示屏等显示设备。
实施例十
本发明实施例十还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种视频显示方法,该方法包括:
连续地截取待检测视频流中预设数量的视频帧;
根据上述各实施例中获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定第一帧图像对应的第一待识别图像;
判断第一待识别图像是否为可修饰图像;
若第一待识别图像为可修饰图像,则根据第一定位结果,将与第一待识别图像匹配的修饰图像以及第一帧图像进行融合,形成第一融合图像;
根据上述各实施例中获取的截取的视频帧中其他帧图像分别对应的第二定位结果,确定各其他帧图像分别对应的第二待识别图像;
判断第二待识别图像是否为可修饰图像;
若第二待识别图像为可修饰图像,则根据第二定位结果,将与第二待识别图像匹配的修饰图像以及第二待识别图像对应的其他帧图像进行融合,形成第二融合图像;
根据预设数量的视频帧各自的生成时间,将第一融合图像、第二融合图像、以及预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流;
将新的视频流对应的视频呈现给用户。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的视频显示方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述视频显示装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种目标定位方法,其特征在于,包括:
连续地截取待检测视频流中预设数量的视频帧;
通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果;
根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中其他帧图像,得到所述其他帧图像分别对应的第二定位结果;
继续连续地截取所述待检测视频流中预设数量的视频帧并得到对应的定位结果,直至所述待检测视频流结束。
2.根据权利要求1所述的方法,其特征在于,在所述根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中其他帧图像,得到所述其他帧图像分别对应的第二定位结果之前,还包括:
根据所述第一定位结果,从所述第一帧图像中截取第一图像;
使用Cifar分类方法获取所述第一图像对应的第一分类结果;
判断所述第一定位结果对应的类别与所述第一分类结果是否相同;
若所述第一定位结果对应的类别与所述第一分类结果不同,则删除所述第一帧图像;
判断所述截取的视频帧中最后一帧图像是否为所述待检测视频流的最后一帧图像;
若所述截取的视频帧中最后一帧图像为所述待检测视频流的最后一帧图像,则直接返回执行步骤通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果;
若所述截取的视频帧中最后一帧图像不是所述待检测视频流的最后一帧图像,则从所述待检测视频流中继续连续地截取一个视频帧,并返回执行步骤通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果。
3.根据权利要求1所述的方法,其特征在于,在所述连续地截取待检测视频流中预设数量的视频帧之前,还包括:
根据所述待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定所述预设数量。
4.根据权利要求3所述的方法,其特征在于,在根据所述待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定所述预设数量的同时,还根据所述待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定检验间隔数量,其中,所述检验间隔数量小于等于所述预设数量;
所述根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中其他帧图像,得到所述其他帧图像分别对应的第二定位结果,包括:
根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取所述截取的视频帧中第二帧图像至第N帧图像分别对应的第二定位结果,其中,N为检验间隔数量;
根据所述第N帧图像对应的第二定位结果,从所述第N帧图像中截取第二图像;
使用Cifar分类方法获取所述第二图像对应的第二分类结果;
判断所述第N帧图像对应的第二定位结果所对应的类别与所述第二分类结果是否相同;
若所述第N帧图像对应的第二定位结果所对应的类别与所述第二分类结果不同,则将所述第一帧图像至所述第N帧图像全部删除,并从所述待检测视频流中继续连续地截取N个视频帧,返回执行步骤通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果,直至所述待检测视频流结束;
若所述第N帧图像对应的第二定位结果所对应的类别与所述第二分类结果相同,则继续根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中所述第N帧图像之后各帧图像,得到所述第N帧图像之后各帧图像分别对应的第二定位结果。
5.根据权利要求4所述的方法,其特征在于,在根据所述待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定所述预设数量以及所述检验间隔数量的同时,还根据所述待检测视频流的图像帧速率以及当前设备的数据处理性能参数,确定检验总次数,其中,所述检验间隔数量与所述检验总次数的乘积小于等于所述预设数量;
所述根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取所述截取的视频帧中第二帧图像至第N帧图像分别对应的第二定位结果,具体包括:
根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取所述截取的视频帧中第二帧图像至第N帧图像分别对应的第二定位结果,并将所述第N帧图像作为当前图像,将当前检验次数设置为0;
所述根据所述第N帧图像对应的第二定位结果,从所述第N帧图像中截取第二图像,具体包括:
根据与所述当前图像对应的第二定位结果,从所述当前图像中截取第二图像,并用所述当前检验次数加1后得到的数值更新所述当前检验次数;
所述若所述第N帧图像对应的第二定位结果所对应的类别与所述第二分类结果相同,则继续根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中所述第N帧图像之后各帧图像,得到所述第N帧图像之后各帧图像分别对应的第二定位结果,包括:
若所述当前图像对应的第二定位结果所对应的类别与所述第二分类结果相同,则判断所述当前检验次数是否等于所述检验总次数;
若所述当前检验次数等于所述检验总次数,则判断是否已获取所有所述截取的视频帧分别对应的第二定位结果;
若已获取所有所述截取的视频帧分别对应的第二定位结果,则执行步骤继续连续地截取所述待检测视频流中预设数量的视频帧并得到对应的定位结果,直至所述待检测视频流结束;
若未获取所有所述截取的视频帧分别对应的第二定位结果,则通过KCF目标追踪方法获取与所述当前图像之后各所述截取的视频帧分别对应的第二定位结果;
若所述当前检验次数小于所述检验总次数,则根据前一帧图像对应的定位结果,通过KCF目标追踪方法获取所述当前图像之后N个所述截取的视频帧分别对应的第二定位结果,并将所述当前图像之后第N帧图像设置为当前图像,返回执行步骤根据所述当前图像对应的第二定位结果,从所述当前图像中截取第二图像,并用所述当前检验次数加1后得到的数值更新所述当前检验次数。
6.根据权利要求1所述的方法,其特征在于,所述连续地截取待检测视频流中预设数量的连续的视频帧,具体包括:
从待检测视频流的第一帧图像开始,连续地截取所述待检测视频流中预设数量的视频帧。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述YOLO目标检测方法所使用的神经网络为5层神经网络。
8.一种视频显示方法,其特征在于,包括:
连续地截取待检测视频流中预设数量的视频帧;
根据权利要求1-7中任一项获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定所述第一帧图像对应的第一待识别图像;
判断所述第一待识别图像是否为可修饰图像;
若所述第一待识别图像为可修饰图像,则根据所述第一定位结果,将与所述第一待识别图像匹配的修饰图像以及所述第一帧图像进行融合,形成第一融合图像;
根据权利要求1-7中任一项获取的所述截取的视频帧中其他帧图像分别对应的第二定位结果,确定各所述其他帧图像分别对应的第二待识别图像;
判断所述第二待识别图像是否为所述可修饰图像;
若所述第二待识别图像为所述可修饰图像,则根据所述第二定位结果,将与所述第二待识别图像匹配的修饰图像以及所述第二待识别图像对应的所述其他帧图像进行融合,形成第二融合图像;
根据所述预设数量的视频帧各自的生成时间,将所述第一融合图像、所述第二融合图像、以及所述预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流;
将所述新的视频流对应的视频呈现给用户。
9.一种目标定位装置,其特征在于,包括:
第一视频帧截取模块,用于连续地截取待检测视频流中预设数量的视频帧;
YOLO检测模块,用于通过YOLO目标检测方法检测截取的视频帧中的第一帧图像,得到所述第一帧图像对应的第一定位结果;
KCF追踪模块,用于根据前一帧图像对应的定位结果,通过KCF目标追踪方法检测所述截取的视频帧中其他帧图像,得到所述其他帧图像分别对应的第二定位结果;
第二视频帧截取模块,用于继续连续地截取所述待检测视频流中预设数量的视频帧并得到对应的定位结果,直至所述待检测视频流结束。
10.一种视频显示装置,其特征在于,包括:
视频帧获取模块,用于连续地截取待检测视频流中预设数量的视频帧;
第一待识别图像确定模块,用于根据权利要求1-7中任一项获取的截取的视频帧中的第一帧图像对应的第一定位结果,确定所述第一帧图像对应的第一待识别图像;
第一判断模块,用于判断所述第一待识别图像是否为可修饰图像;
第一融合图像获取模块,用于若所述第一待识别图像为可修饰图像,则根据所述第一定位结果,将与所述第一待识别图像匹配的修饰图像以及所述第一帧图像进行融合,形成第一融合图像;
第二待识别图像确定模块,用于根据权利要求1-7中任一项获取的所述截取的视频帧中其他帧图像分别对应的第二定位结果,确定各所述其他帧图像分别对应的第二待识别图像;
第二判断模块,用于判断所述第二待识别图像是否为所述可修饰图像;
第二融合图像获取模块,用于若所述第二待识别图像为所述可修饰图像,则根据所述第二定位结果,将与所述第二待识别图像匹配的修饰图像以及所述第二待识别图像对应的所述其他帧图像进行融合,形成第二融合图像;
视频帧拼接模块,用于根据所述预设数量的视频帧各自的生成时间,将所述第一融合图像、所述第二融合图像、以及所述预设数量的视频帧中未进行融合的视频帧进行拼接,生成新的视频流;
视频流呈现模块,用于将所述新的视频流对应的视频呈现给用户。
11.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的目标定位方法。
12.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一项所述的目标定位方法。
13.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求8所述的视频显示方法。
14.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求8所述的视频显示方法。
CN201810548745.XA 2018-05-31 2018-05-31 目标定位方法、视频显示方法、装置、设备和存储介质 Active CN108810616B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810548745.XA CN108810616B (zh) 2018-05-31 2018-05-31 目标定位方法、视频显示方法、装置、设备和存储介质
US16/981,837 US11284128B2 (en) 2018-05-31 2019-05-29 Object positioning method, video display method, apparatus, device, and storage medium
PCT/CN2019/088921 WO2019228387A1 (zh) 2018-05-31 2019-05-29 目标定位方法、视频显示方法、装置、设备和存储介质
SG11202010826WA SG11202010826WA (en) 2018-05-31 2019-05-29 Target positioning method and apparatus, video display method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810548745.XA CN108810616B (zh) 2018-05-31 2018-05-31 目标定位方法、视频显示方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN108810616A CN108810616A (zh) 2018-11-13
CN108810616B true CN108810616B (zh) 2019-06-14

Family

ID=64089812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810548745.XA Active CN108810616B (zh) 2018-05-31 2018-05-31 目标定位方法、视频显示方法、装置、设备和存储介质

Country Status (4)

Country Link
US (1) US11284128B2 (zh)
CN (1) CN108810616B (zh)
SG (1) SG11202010826WA (zh)
WO (1) WO2019228387A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3540635B1 (en) * 2018-03-16 2020-08-26 Identy Inc. Method for identifying an object within an image and mobile device for executing the method
JP7121277B2 (ja) * 2018-09-28 2022-08-18 日本電信電話株式会社 情報同期装置、情報同期方法及び情報同期プログラム
CN109558505A (zh) * 2018-11-21 2019-04-02 百度在线网络技术(北京)有限公司 视觉搜索方法、装置、计算机设备及存储介质
CN109766746B (zh) * 2018-11-22 2023-06-20 南京理工大学 一种无人机航拍视频的轨道异物检测方法
CN111325048B (zh) * 2018-12-13 2023-05-26 杭州海康威视数字技术股份有限公司 一种人员聚集检测方法和装置
CN109902588B (zh) * 2019-01-29 2021-08-20 北京奇艺世纪科技有限公司 一种手势识别方法、装置及计算机可读存储介质
CN110009060B (zh) * 2019-04-17 2021-07-23 东北大学 一种基于相关滤波与目标检测的鲁棒性长期跟踪方法
CN110211152A (zh) * 2019-05-14 2019-09-06 华中科技大学 一种基于机器视觉的内窥镜器械跟踪方法
CN110276780A (zh) * 2019-06-17 2019-09-24 广州织点智能科技有限公司 一种多目标跟踪方法、装置、电子设备及存储介质
CN112131904B (zh) * 2019-06-24 2024-03-15 曜科智能科技(上海)有限公司 基于图匹配的多目标跨镜追踪方法、装置、设备和介质
CN112233138B (zh) * 2019-06-28 2024-07-19 北京京东乾石科技有限公司 一种目标检测方法和装置
CN112347818B (zh) * 2019-08-08 2022-05-13 魔门塔(苏州)科技有限公司 一种视频目标检测模型的困难样本图像筛选方法及装置
CN110572688B (zh) * 2019-09-05 2021-11-09 广州方硅信息技术有限公司 游戏交互方法、服务器、直播系统及计算机存储介质
CN110991272B (zh) * 2019-11-18 2023-07-18 东北大学 一种基于视频跟踪的多目标车辆轨迹识别方法
CN111310665A (zh) * 2020-02-18 2020-06-19 深圳市商汤科技有限公司 违规事件检测方法及装置、电子设备和存储介质
CN113365101B (zh) * 2020-03-05 2023-06-30 腾讯科技(深圳)有限公司 对视频进行多任务处理的方法及相关设备
CN111401241A (zh) * 2020-03-16 2020-07-10 中国民用航空飞行学院 基于卷积神经网络的海上民用航空器搜寻方法及装置
CN111667505B (zh) * 2020-04-30 2023-04-07 北京捷通华声科技股份有限公司 一种定置物品跟踪的方法和装置
CN111464865B (zh) * 2020-06-18 2020-11-17 北京美摄网络科技有限公司 一种视频生成方法、装置、电子设备及计算机可读存储介质
CN111914837A (zh) * 2020-07-10 2020-11-10 北京嘉楠捷思信息技术有限公司 车牌检测方法、装置、设备和存储介质
CN111737006B (zh) * 2020-07-20 2020-12-11 平安国际智慧城市科技股份有限公司 全网络交通调度优化方法、装置、计算机设备及存储介质
CN113938631B (zh) * 2021-11-29 2023-11-03 青岛信芯微电子科技股份有限公司 一种基准监视器、图像帧截取方法及系统
CN113936263A (zh) * 2021-12-16 2022-01-14 江西财经大学 一种道路场景的轻量级小目标检测方法及装置、服务器
CN114596332A (zh) * 2022-04-26 2022-06-07 四川迪晟新达类脑智能技术有限公司 提升跟踪目标特征信息的方法、系统、设备及存储介质
CN116228817B (zh) * 2023-03-10 2023-10-03 东南大学 一种基于相关滤波的实时抗遮挡抗抖动单目标跟踪方法
CN117880560A (zh) * 2023-03-20 2024-04-12 深圳市图饰科技有限公司 一种基于hog的视频追踪擦除的处理方法
CN117953470B (zh) * 2024-03-26 2024-06-18 杭州感想科技有限公司 全景拼接相机的高速公路事件识别方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965960B2 (en) * 2012-12-11 2015-02-24 Morega Systems, Inc Client device with video player and client-side proxy and methods for use therewith
US20150110455A1 (en) * 2013-10-23 2015-04-23 Nvidia Corporation Utility and method for capturing computer-generated video output
CN104159161B (zh) 2014-08-25 2018-05-18 广东欧珀移动通信有限公司 视频图像帧的定位方法和装置
WO2017088050A1 (en) * 2015-11-26 2017-06-01 Sportlogiq Inc. Systems and methods for object tracking and localization in videos with adaptive image representation
US10713500B2 (en) * 2016-09-12 2020-07-14 Kennesaw State University Research And Service Foundation, Inc. Identification and classification of traffic conflicts using live video images
GB2554361B8 (en) * 2016-09-21 2022-07-06 Emergent Network Intelligence Ltd Automatic image based object damage assessment
US10936969B2 (en) * 2016-09-26 2021-03-02 Shabaz Basheer Patel Method and system for an end-to-end artificial intelligence workflow
CN107563313B (zh) * 2017-08-18 2020-07-07 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法
CN107608345A (zh) * 2017-08-26 2018-01-19 深圳力子机器人有限公司 一种机器人及其跟随方法和系统
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems
CN108053427B (zh) 2017-10-31 2021-12-14 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN108009473B (zh) * 2017-10-31 2021-08-24 深圳大学 基于目标行为属性视频结构化处理方法、系统及存储装置
CN107767673B (zh) * 2017-11-16 2019-09-27 智慧互通科技有限公司 一种基于多摄像机的路侧停车管理方法、装置及系统
CN107918767B (zh) * 2017-11-27 2019-11-08 北京旷视科技有限公司 目标检测方法、装置、电子设备及计算机可读介质
CN108062764A (zh) * 2017-11-30 2018-05-22 极翼机器人(上海)有限公司 一种基于视觉的物体跟踪方法
CN108416776B (zh) * 2018-03-16 2021-04-30 京东方科技集团股份有限公司 图像识别方法、图像识别装置、计算机产品和可读存储介质

Also Published As

Publication number Publication date
CN108810616A (zh) 2018-11-13
US20210099737A1 (en) 2021-04-01
WO2019228387A1 (zh) 2019-12-05
SG11202010826WA (en) 2020-11-27
US11284128B2 (en) 2022-03-22

Similar Documents

Publication Publication Date Title
CN108810616B (zh) 目标定位方法、视频显示方法、装置、设备和存储介质
CN107423214A (zh) 软件回归测试用例获取方法、装置及存储介质和电子设备
US20030160785A1 (en) Texture map editing
Guo et al. Scaling exact multi-objective combinatorial optimization by parallelization
CN103577322B (zh) 一种点击测试方法和装置
US10990510B2 (en) Associating attribute seeds of regression test cases with breakpoint value-based fingerprints
CN111259772A (zh) 图像标注方法、装置、设备和介质
US20070233532A1 (en) Business process analysis apparatus
CN107704568A (zh) 一种测试数据添加的方法及装置
CN112148276A (zh) 用于深度学习的可视化编程
CN101221216A (zh) 路径延迟故障测试向量压缩方法及装置
CN109754077A (zh) 深度神经网络的网络模型压缩方法、装置及计算机设备
CN104899042B (zh) 一种嵌入式机器视觉检测程序开发方法及系统
CN117992197A (zh) 神经网络模型映射调度运行方法、装置、电子设备及介质
CN106021047A (zh) 一种对硬盘测试数据进行处理的方法及装置
CN109087344A (zh) 三维重建中的图像选择方法及装置
CN112988950A (zh) 知识图谱的前端渲染方法及系统、电子设备、存储介质
Tefera et al. 3DNOW: Image-based 3D reconstruction and modeling via WEB
CN110211063B (zh) 一种图像处理方法、装置、电子设备和系统
CN107515724A (zh) 用于再现存储系统的输入输出的方法和设备
CN109685120A (zh) 分类模型在有限数据下的快速训练方法和终端设备
CN112966041B (zh) 数据处理方法、装置、设备及存储介质
CN109522217A (zh) 应用程序的内存测试方法及终端设备
Zhang et al. A multi-task cascaded algorithm with optimized convolution neural network for face detection
CN108197196A (zh) 芯片标识码的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant