CN116229307A - 基于抽帧策略的目标识别方法、系统、设备及存储介质 - Google Patents

基于抽帧策略的目标识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116229307A
CN116229307A CN202211642233.2A CN202211642233A CN116229307A CN 116229307 A CN116229307 A CN 116229307A CN 202211642233 A CN202211642233 A CN 202211642233A CN 116229307 A CN116229307 A CN 116229307A
Authority
CN
China
Prior art keywords
target
frame extraction
image data
video stream
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211642233.2A
Other languages
English (en)
Inventor
洪志刚
陈鹏飞
张继祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongyun Ruilian Wuhan Computing Technology Co ltd
Original Assignee
Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongyun Ruilian Wuhan Computing Technology Co ltd filed Critical Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority to CN202211642233.2A priority Critical patent/CN116229307A/zh
Publication of CN116229307A publication Critical patent/CN116229307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于抽帧策略的目标识别方法、系统、设备及存储介质,方法包括:实时获取原始视频流,基于预设抽帧策略对原始视频流进行抽帧,得到目标视频文件;对目标视频文件进行解码,得到YUV图像数据;对YUV图像数据进行预处理,得到待识别图像数据;将待识别图像数据输入至预训练的神经网络模型中,完成对原始视频流中特定目标的目标识别。本发明通过对原始视频流预设与动态调整抽帧策略的办法进行抽帧处理,并根据识别结果自动优化调整对原始视频流抽帧的策略,从而在大大降低了需要计算处理的视频数据量的情况下达到了对目标进行识别的效果,大大的降低对硬件设备的性能要求,进一步提高了基于视频流的目标识别准确率和效率。

Description

基于抽帧策略的目标识别方法、系统、设备及存储介质
技术领域
本发明涉及图像识别技术领域,更具体地,涉及一种基于抽帧策略的目标识别方法、系统、设备及存储介质。
背景技术
目标识别是计算机技术发展和计算机视觉原理广泛应用的产物,其利用计算机图像处理技术对目标进行实时跟踪研究,实现对目标进行动态实时跟踪定位,并在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面得到了广泛的应用。
随着人工智能技术的快速发展,各行各业的众多场景都希望通过人工智能推理来解决生产生活中的各种问题,达到节约人力成本与提高效率的目的,但是已有的摄像机都是普通的视频监控摄像机,本身不具备智能识别预警的能力,摄像机的视频流需要依赖人工智能视频流推理服务进行实时推理分析实现智能识别预警。而现有的AI视频流推理服务采用全天24小时固定图片推理频率,而实际上按照生活作息规律,在某些时间段待识别目标是不会出现的,固定图片数据推理频率浪费大量硬件性能,因此,如何进一步提高视频图像的目标识别效率降低硬件性能的浪费是亟待解决的问题。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于抽帧策略的目标识别方法、系统、设备及存储介质,用以解决如何进一步提高视频图像的目标识别效率降低硬件性能的浪费的问题。
根据本发明的第一方面,提供了一种基于抽帧策略的目标识别方法,包括:
实时获取原始视频流,基于预设抽帧策略对所述原始视频流进行抽帧,得到目标视频文件;
对所述目标视频文件进行解码,得到YUV图像数据;
对所述YUV图像数据进行预处理,得到待识别图像数据;
将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别。
在上述技术方案的基础上,本发明还可以作出如下改进。
优选的,所述将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别的步骤,包括:
将所述待识别图像数据输入至预训练的神经网络模型中,得到图像识别结果的置信度,基于所述置信度与预设置信度区间判定目标识别结果。
优选的,所述基于所述置信度与预设置信度区间判定目标识别结果的步骤,包括:
在所述置信度低于所述预设置信度区间的最低值时,判定所述目标识别结果为未出现;
在所述置信度高于所述预设置信度区间的最高值时,判定所述目标识别结果为出现。
优选的,所述在所述置信度低于所述预设置信度区间的最低值时,判定所述目标识别结果为未出现的步骤之后,包括:
基于所述预设抽帧策略中的最大抽帧间隔对所述预设抽帧策略进行调整,以使所述目标视频文件的时间间隔增大。
优选的,所述在所述置信度高于所述预设置信度区间的最低值,且低于所述预设置信度区间的最高值时,判定所述目标识别结果为出现的步骤之后,包括:
基于所述预设抽帧策略中的最小抽帧间隔对所述预设抽帧策略进行调整,以使所述目标视频文件的时间间隔减小。。
优选的,所述在所述置信度高于所述预设置信度区间的最高值时,判定所述目标识别结果为出现的步骤,还包括:
在所述置信度高于所述预设置信度区间的预警值时,获得目标识别结果,基于所述目标识别结果进行预警。
优选的,所述对所述YUV图像数据进行预处理,得到待识别图像数据的步骤,包括:
将所述YUV图像数据转换成RGB图像数据,并基于所述预训练的神经网络模型输入的图像数据要求进行图像缩放,得到待识别图像数据。。
根据本发明的第二方面,提供一种基于抽帧策略的目标识别系统,包括:
视频获取模块,用于实时获取原始视频流,基于预设抽帧策略对所述原始视频流进行抽帧,得到目标视频文件;
视频解码模块,用于对所述目标视频文件进行解码,得到YUV图像数据;
数据处理模块,用于对所述YUV图像数据进行预处理,得到待识别图像数据;
目标识别模块,用于将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别。
根据本发明的第三方面,提供了一种设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现上述第一方面中任一基于抽帧策略的目标识别方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现上述第一方面中任一基于抽帧策略的目标识别方法的步骤。
本发明提供的一种基于抽帧策略的目标识别方法、系统、设备及存储介质,方法包括:实时获取原始视频流,基于预设抽帧策略对上述原始视频流进行抽帧,得到目标视频文件;对上述目标视频文件进行解码,得到YUV图像数据;对上述YUV图像数据进行预处理,得到待识别图像数据;将上述待识别图像数据输入至预训练的神经网络模型中,完成对上述原始视频流的目标识别。本发明通过对原始视频流按预设抽帧策略进行抽帧处理,从而降低了从原始视频流中的抽取得到的待识别目标视频文件,同时将目标视频文件进行解码得到YUV图像数据,再将YUV图像数据进行预处理,从而得到待识别图像数据,最后基于预训练的神经网络模型对待识别图像数据进行识别完成目标识别,从而在大大减少了需要处理的视频数据量的情况下完成了对目标进行识别的功能,大大的降低对硬件设备的性能要求,进一步提高了视频图像的目标识别效率。
附图说明
图1为本发明提供的一种基于抽帧策略的目标识别方法流程图;
图2为本发明提供的基于抽帧策略的目标识别数据流向的示意图;
图3为本发明提供的火焰识别推理的场景示意图;
图4为本发明提供的动物识别抓拍推理的场景示意图;
图5为本发明提供的一种基于抽帧策略的目标识别系统结构示意图;
图6为本发明提供的一种可能的设备的硬件结构示意图;
图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明提供的一种基于抽帧策略的目标识别方法流程图,如图1所示,方法包括:
步骤S100:实时获取原始视频流,基于预设抽帧策略对所述原始视频流进行抽帧,得到目标视频文件;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信及程序运行功能的计算机终端设备,例如:电脑、平板电脑等;也可以是具有相同相似功能的服务器设备,还可以是具有相似功能的云服务器,本实施例对此不做限制。为了便于理解,本实施例及下述各实施例将以服务器设备为例进行说明。
可以理解的是,上述原始视频流可以是从摄像机、NVR或者视频平台接收的实时视频流,同时上述视频接收可以支持多种视频流传输协议,其中视频流传输协议至少包括:RTMP、TRSP和/或HTTP等,本实施例对此不作限制。同时为了进一步提高视频流的稳定性和可靠性,上述接收视频流的步骤还可以在出现网络异常断开后继续重连,从而保障接收视频流稳定可靠。
应理解的是,上述对视频流抽帧的步骤可以包括:对视频流中的所有帧数据统一执行上述预设抽帧策略,上述预设抽帧策略可以是内置在服务端中的,上述预设抽帧策略还可以根据目标识别结果(也即是推理服务输出结果)进行动态调节,也即是接收推理服务输出结果的置信度控制策略自动调整抽帧策略,在满足推理应用需求的前提下抽取视频帧去执行解码,被挑选的帧存入临时缓存区。
在具体实现中,通过使用预设抽帧策略挑选帧存入缓存,把不需要被解码的数据帧丢弃,节约硬件性能消耗。预设抽帧策略根据推理服务识别的结果进行自动控制,当推理服务输出结果中待识别目标的置信度低于设定的最低阈值时,判定为待识别目标没有出现,控制抽帧策略按照最大时间间隔执行抽帧,极大地降低硬件性能消耗,当推理服务输出结果中待识别目标的置信度高于设定的最低阈值、未达到设定的最高阈值时,认为待识别目标可能存在,控制抽帧策略按照中间时间间隔执行抽帧,当确认目标出现并且置信度还未高于报警识别阈值时,控制抽帧策略按照极低时间间隔执行抽帧,进一步抓拍到更多图片进行识别。
步骤S200:对所述目标视频文件进行解码,得到YUV图像数据;
在具体实现中,上述解码的步骤可以是充分利用GPU/NPU的硬件编解码模块,从抽帧后的数据缓存区中依次取出需要被解码的视频帧数据执行解码,得到YUV图像数据。
进一步的,上述利用GPU/NPU的硬件编解码模块对视频帧进行加速解码处理过程,可以进一步降低目标识别的时延。
步骤S300:对所述YUV图像数据进行预处理,得到待识别图像数据;
在具体实现中,利用GPU/NPU硬件的数据转换性能,对GPU/NPU解码得到的YUV数据进行数据格式预处理,把YUV格式数据转换为RGB格式数据,按照预设神经网络算法模型的输入要求对图像数据进行缩放处理。
步骤S400:将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别。
可以理解的是,上述预训练的神经网络模型可以是提前训练好的用于对图像进行识别的模型,其模型包括但不限于AlexNet、VGGNet、Inception模型、ResNet等。
应理解的是,上述基于预训练的神经网络模型对待识别图像数据进行推理服务,从图像数据中识别或者分析出特定的目标或者行为特征的方法,该识别方法的输出结果包含识别结果的置信度,根据置信度的不同自动控制抽帧模块减小或者增加抽帧时间间隔,达到节约硬件资源,提高识别准确度的效果。
在具体实现中,在GPU/NPU上运行预训练好的神经网络模型,对图像数据执行推理计算,得到图像识别结果的置信度和描述元数据信息,根据结果置信度控制抽帧策略,业务系统获取到结果数据后就可以进行事件或者报警业务展示。进一步的,执行完推理后,对达到置信度阈值的图像数据编码为JPG格式图片,图片数据和置信度等描述数据作为AI推理结果推送给业务界面进行告警展示。
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种基于抽帧策略的目标识别方法,方法包括:实时获取原始视频流,基于预设抽帧策略对上述原始视频流进行抽帧,得到目标视频文件;对上述目标视频文件进行解码,得到YUV图像数据;对上述YUV图像数据进行预处理,得到待识别图像数据;将上述待识别图像数据输入至预训练的神经网络模型中,完成对上述原始视频流的目标识别。本发明通过对原始视频流按预设抽帧策略进行抽帧处理,从而降低了从原始视频流中抽取的待计算的目标视频文件数量,同时将目标视频文件进行解码得到YUV图像数据,再将YUV图像数据进行预处理,从而得到待识别图像数据,最后基于预训练的神经网络模型对待识别图像数据进行识别完成目标识别,从而在降低了需要计算处理的视频文件数量的情况下完成对目标进行识别,大大的降低对硬件设备的性能要求,进一步提高了视频图像的目标识别效率。
在一种可能的实施例方式中,所述将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流的目标识别的步骤,包括:
步骤S401:将所述待识别图像数据输入值预训练的神经网络模型中,得到图像识别结果的置信度,基于所述置信度与预设置信度区间判定目标识别结果。
可以理解的是,上述预设置信度区间可以是系统初始化时根据初始配置文件设定的,也可以是根据用户手动输入的信息进行设定的,通常情况下上述预设置信度区间可以设定为[80%,30%]。
进一步的,上述基于预设置信度区间判定目标识别结果的步骤,还可以包括:
步骤S4011:在所述置信度低于所述预设置信度区间的最低值时,判定所述目标识别结果为未出现;
进一步的,当识别结果为未出现时,还可以基于所述预设抽帧策略中的最大抽帧间隔对所述预设抽帧策略进行调整,以使对所述目标视频流抽帧的时间间隔增大。
步骤S4011:在所述置信度高于所述预设置信度区间的最低值,且低于所述预设置信度区间的最高值时,判定所述目标识别结果为出现。
进一步的,当识别结果为出现时,还可以基于所述预设抽帧策略中的最小抽帧间隔对所述预设抽帧策略进行调整,以使对所述目标视频流抽帧的时间间隔减小。
进一步的,为了将异常情况第一时间发送给用户,还可以在所述置信度高于所述预设置信度区间的预警值时,获得目标识别结果,基于所述目标识别结果进行预警。
可以理解的是,上述预警值可以是系统初始化时根据初始配置文件设定的,也可以是根据用户手动输出的信息进行设定的,上述预警通常可以设定为90%。
进一步的,当置信度在上述预设置信度区间范围内时,则可以根据用户的服务器性能以及用户选择,对抽帧频率进行调整,从而最大限度地节约硬件资源和识别提高准确度的方法。
在现有的人工智能视频流推理服务中往往会遇到以下问题:
(1)从实时视频流中识别出特定的目标或者行为仅仅需要按照一定的间隔策略挑选视频帧做推理就可以达到实际应用效果,而传统的视频流推理服务对所有视频帧进行解码处理和推理分析会消耗大量的硬件资源,导致系统的硬件资源浪费和成本太高。
(2)传统的一个视频流AI推理服务直接接收一路视频流,把视频流中的视频帧解码后压缩为图片再传递给推理服务,当同一个视频画面需要多个AI算法推理时浪费视频流传输带宽,把视频帧压缩为图片传递给推理服务时浪费额外的图片编码与解码性能,增加处理时间与网络传输时间,导致实时视频流的推理分析实时性太差。
(3)传统的视频流推理服务依赖CPU硬件实现视频帧的解码预处理过程耗时太长,最终也导致实时推理分析的总体时延太大,明显降低AI预警的实时性。
(4)现有的AI视频流推理服务采用全天24小时固定图片推理频率,而实际上按照生活作息规律,在某些时间段待识别目标是不会出现的,固定图片数据推理频率浪费大量硬件性能。
为了解决上述问题,本实施例中提出了一种基于高性能硬件设备的抽帧策略自调节的人工智能目标识别方法,通过高效的视频流复用与抽帧模块大幅度减少了需要被解码和推理处理的数据量,利用GPU/NPU的硬件编解码模块实现图片解码与预处理过程加速,从抽帧后的视频数据到推理服务全流程不落盘的数据传递方法进一步减少数据读写与传递复制的硬件消耗,提高并发处理能力,通过推理输出结果的实时反馈控制抽帧时间间隔,进一步节约硬件资源和提高推理识别准确度,从而实现了全流程大幅度节约硬件成本、提高实时推理的实时性、准确度的效果,具备非常高的实用价值。
在一种可能的实施例方式中,所述对所述YUV图像数据进行预处理,得到待识别图像数据的步骤,包括:
步骤S301:将所述YUV图像数据转换成RGB图像数据,并基于所述预训练的神经网络模型输入的图像数据要求进行图像缩放,得到待识别图像数据。
可以理解的是,上述YUV图像数据可以是每一个YUV图像都包含有对应图像所有图像信息的数据,上述得到YUV图像数据之前的抽帧的步骤包括去掉原始视频流中的非关键帧,仅保留关键帧的步骤,上述关键帧可以是视频监控摄像机实施图像采集编码的一种独立图像数据帧,也叫I帧,它不依赖任何其他图像数据帧就可以解码成为一幅完整的图片。上述非关键帧可以是视频监控摄像机实施图像采集编码的一种差值数据编码图像帧,一般指的P帧或者B帧,它需要依赖前(后)一帧图像的全部数据进行计算才能得到自身的完整的图片数据。
参见图2,图2为本发明提供的基于抽帧策略的目标识别数据流向的示意图;在图2中,监控视频流通过CPU进行抽帧后,到GPU/NPU进行解码、预处理、推理和编码后输出预警结果,同时还可以基于推理结果对抽帧策略进行控制调节。
其中,编码的步骤可以是,执行完推理后,对达到预设置信度最高阈值的图像数据编码为JPG格式图片,图片数据和置信度等描述数据作为AI推理结果推送给业务界面进行告警展示。
本实施例中,通过对原始视频流进行抽帧处理降低数据量,再把目标图像数据转换成RGB图像后送至神经网络模型执行推理分析,从而实现了对视频中的目标进行识别的目的,从而提高AI推理识别全流程的实时性,极大节约视频数据传输带宽与硬件资源。
在一种可能的应用场景中,参见图3,图3为本发明提供的火焰识别推理的场景示意图;在图3对应的火焰识别推理场景中,消防监控摄像机进行火焰识别的应用,针对火焰燃烧持续时间不会只有3、5秒的特点,以及图像识别火焰出现误判的可能性高的特点,在未识别到可疑的火焰目标时,只需要3秒一帧的抽帧频率运行,就不会漏掉对真实火焰燃烧的识别,而在出现疑似火焰目标后,提高到1秒一帧抽帧频率就可以准确地实现火焰目标识别。按照一般摄像机的编码采集特性,仅仅抽取关键帧执行解码和推理就能实现这个目标,一台GPU/NPU服务器能处理几十上百路摄像机的实时视频流AI推理业务需求,实施过程描述如下:
1.在CPU上运行的视频流接收服务从监控摄像机接收实时视频流,仅仅抽取关键帧存入临时缓存,丢弃所有不需要解码处理的非关键帧数据。
2.读取被抽取的所有关键帧数据,通过编程接口调用GPU/NPU的硬件解码接口,把编码压缩帧解码为YUV格式的数据。
3.把YUV数据通过编程接口调用GPU/NPU的图像处理接口,转换为RGB,并按需缩放到推理模型所需的图像宽高尺寸,完成推理前的数据预处理过程。
4.把预处理后的图像数据送入预训练的神经网络模型,执行推理过程,得到推理识别的结果,即置信度等结果元数据,如果推理结果置信度低于设定的火焰目标识别最低置信度阈值,控制抽帧策略按照最大时间间隔抽帧,如果出现置信度高于设定的火焰目标识别最低置信度阈值、同时未达到预设的最高置信度阈值,立即控制抽帧策略按照1秒1帧的频率执行抽帧,快速确认火焰目标,达到确认火焰的置信度后调用GPU/NPU的硬件编程接口对RGB数据执行图像编码,生成JPG图片。
5.读取所有推理结果中置信度高于设定的阈值的结果和图片,推送到业务界面进行实时监控画面的火焰预警业务展示。
在本应用场景中,通过针对于火焰场景的应用,通过预设抽帧策略降低实时视频的数据量,从而可以大幅度提升火焰识别的效率,从而为火情快速响应提供基础。
在一种可能的应用场景中,参见图4,图4为本发明提供的动物识别抓拍推理的场景示意图;在图4的动物识别场景中,社区监控场景下进行宠物目标识别的应用,动物移动速度可能比较快,最低需要2秒一帧的抽帧频率才能发现有宠物经过,需要每秒2帧抽帧抓拍推理才能准确识别动物的特征。通过动态调整抽帧频率,同样能极大地节约硬件资源,以每秒30帧的摄像机识别动物的场景为例,实施过程描述如下:
1.在CPU上运行的视频流接收服务从监控摄像机接收实时视频流,在推理结果的置信度高于设定的目标识别最低置信度阈值,同时未达到预设值的最高置信度阈值时,自动控制抽取关键帧和后续的0.5秒内连续的P帧进入临时缓存,丢弃所有不需要解码处理的非关键帧数据(P帧)。
2.读取被抽取的所有关键帧和非关键帧数据,通过编程接口调用GPU/NPU的硬件解码接口,把编码压缩帧解码为YUV格式的数据。
3.把YUV数据通过编程接口调用GPU/NPU的图像处理接口,仅需要把关键帧和之后0.5秒的那一个P帧转换为RGB数据格式,并按需缩放到推理模型所需的图像宽高尺寸,完成推理前的数据预处理过程。
4.把预处理后的图像数据送入模型,执行推理过程,得到推理识别的结果,即置信度等结果元数据,如果连续出现置信度低于设定的目标识别最低置信度阈值时,自动控制抽帧模块按照最大时间间隔抽帧,节约硬件资源;如果推理结果置信度高于设定的动物目标识别置信度最高阈值,调用GPU/NPU的硬件编程接口对RGB数据执行图像编码,生成JPG图片。
5.读取所有推理结果中置信度高于设定的阈值的结果和图片,推送到业务界面做业务展示完成视频流实时动物目标检测与抓拍业务。
在本应用场景中,通过合理的设定抽帧时间间隔,从而可以在保障目标识别成功率不降低的情况下,进一步降低硬件资源的要求,从而降低目标识别成本,大大提升了用户的使用体验。
请参阅图5,图5为本发明实施例提供的一种基于抽帧策略的目标识别系统结构图示意图,如图5所示,一种基于抽帧策略的目标识别系统,包括视频获取模块100、视频解码模块200、数据处理模块300和目标识别模块400,其中:
视频获取模块100,用于实时获取原始视频流,基于预设抽帧策略对所述原始视频流进行抽帧,得到目标视频文件;视频解码模块200,用于对所述目标视频文件进行解码,得到YUV图像数据;数据处理模块300,用于对所述YUV图像数据进行预处理,得到待识别图像数据;目标识别模块400,用于将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别。
可以理解的是,本发明提供的一种基于抽帧策略的目标识别系统与前述各实施例提供的基于抽帧策略的目标识别方法相对应,基于抽帧策略的目标识别系统的相关技术特征可参考基于抽帧策略的目标识别方法的相关技术特征,在此不再赘述。
请参阅图6,图6为本发明实施例提供的设备的实施例示意图。如图6所示,本发明实施例提供了一种设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:
实时获取原始视频流,基于预设抽帧策略对上述原始视频流进行抽帧,得到目标视频文件;对上述目标视频文件进行解码,得到YUV图像数据;对上述YUV图像数据进行预处理,得到待识别图像数据;将上述待识别图像数据输入至预训练的神经网络模型中,完成对上述原始视频流中特定目标的目标识别。
请参阅图7,图7为本发明提供的一种计算机可读存储介质的实施例示意图。如图7所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:
实时获取原始视频流,基于预设抽帧策略对上述原始视频流进行抽帧,得到目标视频文件;对上述目标视频文件进行解码,得到YUV图像数据;对上述YUV图像数据进行预处理,得到待识别图像数据;将上述待识别图像数据输入至预训练的神经网络模型中,完成对上述原始视频流中特定目标的目标识别。
本发明提供的一种基于抽帧策略的目标识别方法、系统、设备及存储介质,方法包括:实时获取原始视频流,基于预设抽帧策略对上述原始视频流进行抽帧,得到目标视频文件;对上述目标视频文件进行解码,得到YUV图像数据;对上述YUV图像数据进行预处理,得到待识别图像数据;将上述待识别图像数据输入至预训练的神经网络模型中,完成对上述原始视频流中特定目标的目标识别。本发明通过对原始视频流按预设抽帧策略进行抽帧处理,从而降低了从原始视频流中抽取的待计算处理的目标视频文件数量,同时将目标视频文件进行解码得到YUV图像数据,再将YUV图像数据进行预处理,从而得到待识别图像数据,最后基于预训练的神经网络模型对待识别图像数据进行识别完成目标识别,从而在降低了需要计算处理的目标视频文件数据量的情况下完成对目标进行识别,大大的降低对硬件设备的性能要求,进一步提高了视频图像的目标识别效率。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于抽帧策略的目标识别方法,其特征在于,所述方法包括:
实时获取原始视频流,基于预设抽帧策略对所述原始视频流进行抽帧,得到目标视频文件;
对所述目标视频文件进行解码,得到YUV图像数据;
对所述YUV图像数据进行预处理,得到待识别图像数据;
将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别。
2.根据权利要求1所述的基于抽帧策略的目标识别方法,其特征在于,所述将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的目标识别的步骤,包括:
将所述待识别图像数据输入至预训练的神经网络模型中,得到图像识别结果的置信度,基于所述置信度与预设置信度区间判定目标识别结果。
3.根据权利要求2所述的基于抽帧策略的目标识别方法,其特征在于,所述基于所述置信度与预设置信度区间判定目标识别结果的步骤,包括:
在所述置信度低于所述预设置信度区间的最低值时,判定所述目标识别结果为未出现;
在所述置信度高于所述预设置信度区间的最低值,且低于所述预设置信度区间的最高值时,判定所述目标识别结果为出现。
4.根据权利要求3所述的基于抽帧策略的目标识别方法,其特征在于,所述在所述置信度低于所述预设置信度区间的最低值时,判定所述目标识别结果为未出现的步骤之后,包括:
基于所述预设抽帧策略中的最大抽帧间隔对所述预设抽帧策略进行调整,以使所述目标视频文件的时间间隔增大。
5.根据权利要求3所述的基于抽帧策略的目标识别方法,其特征在于,所述在所述置信度高于所述预设置信度区间的最低值,且低于所述预设置信度区间的最高值时,判定所述目标识别结果为出现的步骤之后,包括:
基于所述预设抽帧策略中的最小抽帧间隔对所述预设抽帧策略进行调整,以使所述目标视频文件的时间间隔减小。
6.根据权利要求2所述的基于抽帧策略的目标识别方法,其特征在于,所述在所述置信度高于所述预设置信度区间的最高值时,判定所述目标识别结果为出现的步骤,还包括:
在所述置信度高于所述预设置信度区间的预警值时,获得目标识别结果,基于所述目标识别结果进行预警。
7.根据权利要求1所述的基于抽帧策略的目标识别方法,其特征在于,所述对所述YUV图像数据进行预处理,得到待识别图像数据的步骤,包括:
将所述YUV图像数据转换成RGB图像数据,并基于所述预训练的神经网络模型输入的图像数据要求进行图像缩放,得到待识别图像数据。
8.一种基于抽帧策略的目标识别系统,其特征在于,包括
视频获取模块,用于实时获取原始视频流,基于预设抽帧策略对所述原始视频流进行抽帧,得到目标视频文件;
视频解码模块,用于对所述目标视频文件进行解码,得到YUV图像数据;
数据处理模块,用于对所述YUV图像数据进行预处理,得到待识别图像数据;
目标识别模块,用于将所述待识别图像数据输入至预训练的神经网络模型中,完成对所述原始视频流中特定目标的的目标识别。
9.一种设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于抽帧策略的目标识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于抽帧策略的目标识别方法的步骤。
CN202211642233.2A 2022-12-20 2022-12-20 基于抽帧策略的目标识别方法、系统、设备及存储介质 Pending CN116229307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211642233.2A CN116229307A (zh) 2022-12-20 2022-12-20 基于抽帧策略的目标识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211642233.2A CN116229307A (zh) 2022-12-20 2022-12-20 基于抽帧策略的目标识别方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116229307A true CN116229307A (zh) 2023-06-06

Family

ID=86572118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211642233.2A Pending CN116229307A (zh) 2022-12-20 2022-12-20 基于抽帧策略的目标识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116229307A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117119253A (zh) * 2023-06-28 2023-11-24 三峡科技有限责任公司 一种针对目标对象的高质量视频抽帧方法
CN117372934A (zh) * 2023-12-07 2024-01-09 中国广电四川网络股份有限公司 一种视频分析处理的方法、系统、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117119253A (zh) * 2023-06-28 2023-11-24 三峡科技有限责任公司 一种针对目标对象的高质量视频抽帧方法
CN117119253B (zh) * 2023-06-28 2024-05-07 三峡科技有限责任公司 一种针对目标对象的高质量视频抽帧方法
CN117372934A (zh) * 2023-12-07 2024-01-09 中国广电四川网络股份有限公司 一种视频分析处理的方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN116229307A (zh) 基于抽帧策略的目标识别方法、系统、设备及存储介质
JP5859111B2 (ja) 対象オブジェクトベースの画像処理
JP2020516188A (ja) 顔画像重複削除方法及び装置、電子機器、記憶媒体、プログラム
CN111898416A (zh) 视频流处理方法、装置、计算机设备和存储介质
CN111708663A (zh) 一种基于人工智能的云计算安全监控系统
CN114679607B (zh) 一种视频帧率控制方法、装置、电子设备及存储介质
CN112565777B (zh) 基于深度学习模型视频数据传输方法、系统、介质及设备
CN109299326B (zh) 视频推荐方法及装置、系统、电子设备以及存储介质
WO2019085584A1 (zh) 多媒体数据处理和获取方法、采集终端和处理装置
CN114079820A (zh) 在摄像机设备上借助于神经网络输入的以感兴趣的事件/对象为中心的间隔拍摄视频生成
WO2021104124A1 (zh) 圈养栏信息的确定方法、装置及系统、存储介质
WO2021036103A1 (zh) 图像数据的压缩传输方法、系统和计算机可读存储介质
US11468708B2 (en) Videoconferencing using hybrid edge/cloud inference with machine-learned systems
CN103187083B (zh) 一种基于时域视频融合的存储方法及其系统
CN108881119B (zh) 一种视频浓缩的方法、装置和系统
KR102277929B1 (ko) 얼굴 인식에 기반한 실시간 얼굴 마스킹 시스템 및 이를 이용한 실시간 얼굴 마스킹 방법
Hou et al. Real-time surveillance video salient object detection using collaborative cloud-edge deep reinforcement learning
CN110401847B (zh) 云dvr视频的压缩存储方法、电子设备及系统
CN116248861A (zh) 一种智能视频检测方法、系统及装置
CN116824480A (zh) 基于DeepStream的监控视频分析方法及系统
CN111541864B (zh) 一种数字视网膜软件定义摄像机方法及系统
CN117280708A (zh) 利用基于ai的对象识别的监控摄像机的快门值调节
CN110163043B (zh) 面部检测方法、装置、存储介质及电子装置
CN111783641A (zh) 一种人脸聚类方法及装置
CN113591549B (zh) 一种视频事件检测方法、计算机设备以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination