CN115914748A - 视觉识别结果的可视化展示方法及装置和电子设备 - Google Patents

视觉识别结果的可视化展示方法及装置和电子设备 Download PDF

Info

Publication number
CN115914748A
CN115914748A CN202211274562.6A CN202211274562A CN115914748A CN 115914748 A CN115914748 A CN 115914748A CN 202211274562 A CN202211274562 A CN 202211274562A CN 115914748 A CN115914748 A CN 115914748A
Authority
CN
China
Prior art keywords
video stream
video
visual
identification
streaming media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211274562.6A
Other languages
English (en)
Inventor
左志浩
崔衡
李竺皓
雷涛
朱哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202211274562.6A priority Critical patent/CN115914748A/zh
Publication of CN115914748A publication Critical patent/CN115914748A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本说明书实施例提供一种视觉识别结果的可视化展示方法及装置和电子设备。该包括:获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果;将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。

Description

视觉识别结果的可视化展示方法及装置和电子设备
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种视觉识别结果的可视化展示方法及装置和电子设备。
背景技术
计算机视觉(Computer vision,CV)是一种研究如何使机器“看”的技术。具体来说,可以是指用视频采集设备和计算机代替人眼对目标对象进行识别、跟踪、测量甚至决策。由于计算机视觉技术可以24小时全天候处理,因此其使用场景更为广泛。
例如,在城市道路交通场景下,随着交通治理需求的日益增长,相关决策者需要实时了解道路车流量、超速车辆、拥堵长度、违法事件等信息。计算机视觉技术恰好能够满足这种场景下的使用需求,具体的计算机视觉系统可以拉取道路摄像头采集到的视频流,并可以从视频流中识别出各种道路事件或车流量等视觉识别结果;然而将这些视觉识别结果传送到决策者的业务系统中。
在实际应用中,对于计算机视觉的视觉识别结果的可视化展示是一个普遍的需求。而在相关技术中,可视化展示一般需要将视频流进行编解码,并在编码时将视觉识别结果编码到视频流中,使得视频流与视觉识别结果融合为一体;然而,这个过程比较消耗计算资源。
发明内容
本说明书实施例提供的一种视觉识别结果的可视化展示方法及装置和电子设备。
根据本说明书实施例的第一方面,提供一种视觉识别结果的可视化展示方法,所述方法包括:
获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果;
将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
可选的,所述视频流的流媒体格式包括FLV格式;所述预设字段包括FLV TAG字段。
可选的,所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述在所述视频流的视频画面中分层显示所述视觉识别结果,包括:
根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;
根据所述每个时间戳对应的识别框画面绘制随时间戳变化而变化位置和大小的识别框视频;
将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
可选的,所述对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果,包括:
将所述视频流传输给计算机视觉系统进行视觉识别,得到所述计算机视觉系统输出的视觉识别结果。
根据本说明书实施例的第二方面,提供一种视觉识别结果的可视化展示方法,所述方法包括:
接收流媒体服务端发送的视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
获取所述视频流的流媒体格式中的预设字段对应的字段值;其中,所述字段值包括所述流媒体服务端对所述视频流中的目标对象进行视觉识别得到的视觉识别结果;
播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
可选的,所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述在所述视频流的视频画面中分层显示所述视觉识别结果,包括:
根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;
根据所述每个时间戳对应的识别框画面,绘制随时间戳变化而变化位置和大小的识别框视频;
将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
根据本说明书实施例的第三方面,提供一种视觉识别结果的可视化展示装置,所述装置包括:
接收单元,获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
识别单元,对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果;
展示单元,将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
根据本说明书实施例的第四方面,提供一种视觉识别结果的可视化展示装置,所述装置包括:
接收单元,接收流媒体服务端发送的视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
获取单元,获取所述视频流的流媒体格式中的预设字段对应的字段值;其中,所述字段值包括所述流媒体服务端对所述视频流中的目标对象进行视觉识别得到的视觉识别结果;
展示单元,播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
根据本说明书实施例的第五方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为上述任一项视觉识别结果的可视化展示方法。
本说明书实施例,提供了一种视觉识别结果的可视化展示方案,通过将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段,并将视频流传输至流媒体客户端,以使流媒体客户端可以将视频流和视觉识别结果分层进行绘制,具体是将基于预设字段对应的字段值绘制而成的与视觉视频结果对应的识别框展示在视频流的视频画面中。由于无需在视频编码层将视觉视频结果与视频流进行融合的视频编解码处理,因此可以减少计算资源的消耗;无需过多的计算资源也可以实现视觉识别结果的可视化展示。
附图说明
图1是本说明书一实施例提供的适用于视觉识别结果的可视化展示系统的架构示意图;
图2是本说明书一实施例提供的视觉识别结果的可视化展示方法的流程图;
图3是本说明书一实施例提供的标识框的示意图;
图4是本说明书一实施例提供的视觉识别结果的可视化展示方法的流程图;
图5是本说明书一实施例提供的视觉识别结果的可视化展示装置的硬件结构图;
图6是本说明书一实施例提供的视觉识别结果的可视化展示装置的模块;
图7是本说明书一实施例提供的视觉识别结果的可视化展示装置的模块。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如前所述,相关技术中一般是通过视频编解码技术,将视频流和视觉识别结果在视频编码层面进行融合以实现的视觉识别结果的可视化展示,然而视频编码层面的处理需要消耗较大的计算资源,对设备的算力要求较高。
请参考图1,图1是本说明书示出的一种适用于视觉识别结果的可视化展示系统的架构示意图。该可视化展示系统可以包括视频采集设备(如摄像头)、流媒体服务端、计算机视觉系统和流媒体客户端。
其中,所述视频采集设备用于采集原始的视频流。所述视频流可以是指流媒体(Streaming media)的视频。
流媒体可以是指将一连串的视频资源压缩后,经过互联网分段发送,在互联网上实时传输视频以供观赏的一种技术,此技术使得视频资源的数据包得以像流水一样发送,从而可以实现边下载边播放,而无需等待整个视频资源下载完成后才能播放。
在本说明书中,所述视频流的流媒体格式可以包括FLV(Flash Video,流媒体),FLV常用于HTTP网络中的视频传输和播放。
视频采集设备采集的视频流需要传输给流媒体服务端,流媒体服务端进一步可以利用计算机视觉系统对该视频流进行识别,得到视觉识别结果。
一般的,计算机视觉系统可以部署若干计算机视觉算法,并通过所述计算机视觉算法对视频流进行计算,以得到视觉识别结果。
所述计算机视觉算法属于机器学习算法的一种,这些算法用于从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类。更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果。
例如逻辑回归(logistic回归),GBDT(Gradient Boosting Decision Tree,梯度提升决策树),甚至深度学习等机器学习方法,都可以被用于针对海量的样本数据进行建模,从而得出函数中各个参数的系数,进而可以得到统一的方程或者计算公式。
例如,得到统一的方程如下:
Y_结果=a*X_特征1+b*X_特征2+…+c*X_特征n  公式1
并且,上述a,b,c等即为函数中各个参数的系数,特征1、特征2、特征n等即为函数中的参数,该参数实际为函数的输入,Y_结果为函数的输出。
在本说明书中,视频流即为函数的输入,视觉识别结果即为函数的输出。
需要说明的是,上述公式1仅为示例,具体的计算机视觉算法可以使用业内常用的算法,这里不再进行赘述。
回到图1,流媒体服务端在获取到计算机视觉系统输出的视觉识别结果后,可以将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段,然后再将视频流传输给流媒体客户端,并由流媒体客户端播放视频流,并根据写入预设字段中的视觉识别结果绘制识别标识以展示在播放的所述视频流的视频画面中。
以下示例性的以道路交通视频为例,采集到的道路交通视频中通常会有一些行驶中的车辆;通过视觉识别技术,可以识别出视频画面中的车辆,并在视频画面中以识别框的形式标识识别到的车辆。随着视频的播放,视频中标识出的识别框也可以随视频画面中车辆的移动而移动。
在这个过程中,首先需要对道路交通视频进行视觉识别,得到与视频中车辆对应的视觉识别结果;需要注意的是,这里的视觉识别结果并非最终呈现在视频画面中的识别框,而是由识别框信息构成的序列;所述识别框信息可以由时间戳、所述识别框位于视频画面中的位置和大小等信息构成。
在本说明书中,流媒体服务端通过将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段的方式将视频流和视觉识别结果进行融合,相对于在视频编码层将视觉视频结果与视频流进行融合的视频编解码处理,减少了大量的计算资源,因而可以作为一个轻量化的计算机视觉可视化工具使用。
在实现时,上述计算机视觉系统与上述流媒体服务端可以是一体的,例如计算机视觉系统可以集成在上述流媒体服务端中,称为流媒体服务端中的一个功能模块。再例如流媒体服务端中也可以部署计算机视觉算法,使得流媒体服务端本身也可以具备对视频流进行视觉识别的能力。
另外还需要说的是,在本说明书中,所述视频流可以基于实时流协议(Real TimeStreaming Protocol,RTSP)进行传输。RTSP是一种网络应用协议,具体低延时的特点可以满足对数据时效性要求较高的业务场景使用,在流媒体服务中采用RTSP传输视频流可以做到实时采集实时播放的目的。
具体地,视频采集设备与流媒体服务端之间,流媒体服务端与计算机视觉系统之间,流媒体服务端与流媒体客户端之间的视频流传输都可以采用RTSP;如此传输速度更快,视频流的实时性更强。
以下结合图2所示的本说明书提供的视觉识别结果的可视化展示方法的流程图来介绍相关实施例,应用于流媒体服务端,所述方法包括:
步骤210:获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象。
在本说明书中,所述视频流可以是视频采集设备采集到的视频流,也可以是接收来自于第三方的视频流,例如从视频平台获取到的视频流。
步骤220:对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果。
所述视觉识别可以如前所述基于计算机视觉系统,即流媒体服务端可以将所述视频流传输给计算机视觉系统进行视觉识别,得到所述计算机视觉系统输出的视觉识别结果。
当然,流媒体服务端自身也可以部署计算机视觉算法,从而具备对视频流进行视觉识别的能力。
其中,所述计算机视觉系统以及视觉识别可以参见图1所示实施例的内容,这里不再进行赘述。
在本说明书中,计算机视觉系统对视频流进行视觉识别,可以识别出该视频流的视频画面中的各个目标对象,进一步可以通过识别框标记出这些目标对象在视频流的视频画面中的位置。当然,所述识别框可以是以识别框信息序列的形式传输的,所述识别框信息序列由若干识别框信息构成,每个识别框信息包括时间戳、识别框位于视频流的视频画面中的位置和大小。
通常,视频流的视频画面中的目标对象可以是运动的,因此用于标识该目标对象的识别框也会目标对象的运动而改变。基于此,可以根据时间戳、识别框位于视频流的视频画面中的位置和大小等参数构成的识别框信息序列来确定识别框在视频流的视频画面中的动态变化。
步骤230:将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
在一实施例中,所述流媒体客户端支持的视频播放格式包括FLV格式;所述视频流的流媒体格式包括FLV格式。
FLV格式可以是由一个文件头(flie header)和文件体(file Body)组成。其中,文件体由一对对的(Previous Tag Size字段和TAG字段)组成。Previous Tag Size字段排列在TAG字段之前,Previous Tag Size字段用于记录前面一对(Previous Tag Size字段和TAG字段)中的TAG字段的数据大小。而TAG字段(即FLV TAG字段)用于记录脚本数据类型、帧数据类型、音频数据类型等数据。
在实现时,流媒体服务端可以将所述视频流打包成FLV格式的视频流;然后,将所述视觉识别结果作为FLV格式中TAG字段的字段值添加至所述视频流后,将所述视频流传输至流媒体客户端。在本说明书中,在将视频流和视觉识别结果传输给流媒体客户端时,可以将视频流和视觉识别结果进行融合后起进行传输;这里的融合是将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段的方式将视频流和视觉识别结果进行融合,相对于在视频编码层将视觉视频结果与视频流进行融合的视频编解码处理,节约了视频编码处理所需的大量计算资源和时间,从而提高了数据传输效率。
需要说明的是,将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段的这种融合方式,由于视觉识别结果是一个独立字段的字段值,与视频流之间并不存在视频编码层的关联,因此可以认为视觉识别结果与视频流是相互独立的。
而在视频编码层将视觉识别结果与视频流进行视频编码处理的融合方式,是将视频流的视频画面与视觉识别结果对应的识别框视频画面合成为一个画面,从而导致视觉识别结果与视频流融合在一起,缺失了相对独立性。
本说明书这种融合方式,由于视觉识别结果与视频流是相互独立的,因此在播放视频流过程中,可以灵活选择是否显示视觉识别结果。如果选择开启,则可以在视频流的视频画面中分层显示视觉识别结果;而如果选择关闭,则可以仅播放视频流的视频画面,而不显示视觉识别结果。这种灵活选择是否显示视觉识别结果是在视频编码层将视觉识别结果与视频流进行视频编码处理的融合方式所无法实现的。
在实际应用中,所述流媒体客户端可以基于搭载的播放器播放视频流,并在所述视频流的视频画面中分层显示所述视觉识别结果。另外,所述播放器支持的视频播放格式可以包括FLV格式。
在本说明书中,由于视觉识别结果与视频流无需在编码层融合,因此可以将识别结果作为独立的个体单独进行绘制,并在视频流的视频画面中分层进行显示。
针对视频流,流媒体客户端可以播放视频流的视频画面。如图3中左上方的图,即为视频流的视频画面。在该示例中,示出的是道路交通场景中摄像头采集到的行驶车辆的视频流;在该场景中计算机视觉系统可以识别出视频流画面中出现的车辆,并采用识别框(如图3中的矩形框)跟踪这些识别到的车辆。即本说明书中,识别框用于跟踪视频流的画面中的目标对象。
如前所示,计算机视觉系统输出的视觉识别结果可以包括识别框的位置大小和时间戳;当然在实际应用中所述视觉识别结果还可以包括其他的业务参数,例如图3中就还包括识别框对应的目标对象即车辆的行驶速度。
针对视觉识别结果,可以根据所述视觉识别结果包括的标识框信息的序列,绘制随时间戳变化而变化位置和大小的识别框视频。如图3中右上方的图,即为识别框视频的视频画面,其中的矩形框即为识别框。
在实现时,关于绘制识别框可以包括:
根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;
根据所述每个时间戳对应的识别框画面,绘制随时间戳变化而变化位置和大小的识别框视频;
在分层绘制了视觉识别结果的识别框视频之后,进一步可以将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频;其中,所述视频流位于下层,识别框视频位于上层。
依然参考图3所示,将视频流置于识别框视频的下层,也可以认为是在视频流之上增加一个识别框视频的图层。这样,就可以在视频流的画面中展示视觉识别结果。
通过上述实施例,将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段,并将视频流传输至流媒体客户端,以使流媒体客户端可以将视频流和视觉识别结果分层进行绘制,具体是将基于预设字段对应的字段值绘制而成的与视觉视频结果对应的识别框展示在视频流的视频画面中。由于无需在视频编码层将视觉视频结果与视频流进行融合的视频编解码处理,因此可以减少计算资源的消耗;无需过多的计算资源也可以实现视觉识别结果的可视化展示。
以下结合图4所示的本说明书提供的视觉识别结果的可视化展示方法的流程图来介绍相关实施例,应用于流媒体客户端,所述方法包括:
步骤410,接收流媒体服务端发送的视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
步骤420,获取所述视频流的流媒体格式中的预设字段对应的字段值;其中,所述字段值包括所述流媒体服务端对所述视频流中的目标对象进行视觉识别得到的视觉识别结果;
步骤430,播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
通过上述实施例,将视觉识别结果作为字段值写入视频流的流媒体格式中的预设字段,并将视频流传输至流媒体客户端,以使流媒体客户端可以将视频流和视觉识别结果分层进行绘制,具体是将基于预设字段对应的字段值绘制而成的与视觉视频结果对应的识别框展示在视频流的视频画面中。由于无需在视频编码层将视觉视频结果与视频流进行融合的视频编解码处理,因此可以减少计算资源的消耗;无需过多的计算资源也可以实现视觉识别结果的可视化展示。
在一示例性的实施例中,
所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述在所述视频流的视频画面中分层显示所述视觉识别结果,包括:
根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;
根据所述每个时间戳对应的识别框画面,绘制随时间戳变化而变化位置和大小的识别框视频;
将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
该实施例是与前述图2对应的应用于流媒体客户端的实施例,相关步骤的具体细节可以参考前述图2的实施例,这里不再进行赘述。
与前述视觉识别结果的可视化展示方法实施例相对应,本说明书还提供了视觉识别结果的可视化展示装置的实施例。所述装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书视觉识别结果的可视化展示装置所在设备的一种硬件结构图,除了图5所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常根据视觉识别结果的可视化展示实际功能,还可以包括其他硬件,对此不再赘述。
请参见图6,为本说明书一实施例提供的视觉识别结果的可视化展示装置的模块图,所述装置对应了图2所示实施例,所述装置包括:
接收单元610,获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
识别单元620,对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果;
展示单元630,将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
在一示例性的实施例中,所述识别单元620,进一步包括将所述视频流传输给计算机视觉系统进行视觉识别,得到所述计算机视觉系统输出的视觉识别结果。
在一示例性的实施例中,所述视频流的流媒体格式包括FLV格式;所述预设字段包括FLV TAG字段。
在一示例性的实施例中,所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述展示单元630中的在所述视频流的视频画面中分层显示所述视觉识别结果,包括根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;根据所述每个时间戳对应的识别框画面绘制随时间戳变化而变化位置和大小的识别框视频;将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
在一示例性的实施例中,所述识别标识包括识别框,所述识别框用于跟踪视频流的画面中的目标对象。
请参见图7,为本说明书一实施例提供的视觉识别结果的可视化展示装置的模块图,所述装置对应了图4所示实施例,所述装置包括:
接收单元710,接收流媒体服务端发送的视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
获取单元720,获取所述视频流的流媒体格式中的预设字段对应的字段值;其中,所述字段值包括所述流媒体服务端对所述视频流中的目标对象进行视觉识别得到的视觉识别结果;
展示单元730,播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
在一示例性的实施例中,所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述展示单元730中的在所述视频流的视频画面中分层显示所述视觉识别结果,包括根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;根据所述每个时间戳对应的识别框画面,绘制随时间戳变化而变化位置和大小的识别框视频;将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上图6、图7描述了视觉识别结果的可视化展示装置的内部功能模块和结构示意,其实质上的执行主体可以为一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述任一视觉识别结果的可视化展示方法的实施例。
在上述电子设备的实施例中,应理解,该处理器可以是CPU,还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-only memory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

Claims (10)

1.一种视觉识别结果的可视化展示方法,所述方法包括:
获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果;
将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
2.根据权利要求1所述的方法,所述视频流的流媒体格式包括FLV格式;所述预设字段包括FLV TAG字段。
3.根据权利要求1所述的方法,所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述在所述视频流的视频画面中分层显示所述视觉识别结果,包括:
根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;
根据所述每个时间戳对应的识别框画面绘制随时间戳变化而变化位置和大小的识别框视频;
将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
4.根据权利要求1所述的方法,所述对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果,包括:
将所述视频流传输给计算机视觉系统进行视觉识别,得到所述计算机视觉系统输出的视觉识别结果。
5.一种视觉识别结果的可视化展示方法,所述方法包括:
接收流媒体服务端发送的视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
获取所述视频流的流媒体格式中的预设字段对应的字段值;其中,所述字段值包括所述流媒体服务端对所述视频流中的目标对象进行视觉识别得到的视觉识别结果;
播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
6.根据权利要求5所述的方法,所述视觉识别结果包括目标对象的识别框所对应的识别框信息的序列,所述识别框信息包括时间戳、所述识别框位于视频画面中的位置和大小;
所述在所述视频流的视频画面中分层显示所述视觉识别结果,包括:
根据所述识别框信息的序列中每个时间戳对应的识别框的位置和大小,绘制每个时间戳对应的识别框画面;
根据所述每个时间戳对应的识别框画面,绘制随时间戳变化而变化位置和大小的识别框视频;
将所述视频流的时间戳与所述识别框视频的时间戳对齐后,在所述视频流的视频画面中分层播放所述识别框视频。
7.一种视觉识别结果的可视化展示装置,所述装置包括:
接收单元,获取视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
识别单元,对所述视频流包含的目标对象进行视觉识别,得到与所述目标对象对应的视觉识别结果;
展示单元,将所述视觉识别结果作为字段值写入所述视频流的流媒体格式中的预设字段,并将所述视频流传输至流媒体客户端,以使所述流媒体客户端播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
8.一种视觉识别结果的可视化展示装置,所述装置包括:
接收单元,接收流媒体服务端发送的视频流;其中,所述视频流对应的视频画面中包含若干待识别的目标对象;
获取单元,获取所述视频流的流媒体格式中的预设字段对应的字段值;其中,所述字段值包括所述流媒体服务端对所述视频流中的目标对象进行视觉识别得到的视觉识别结果;
展示单元,播放所述视频流,并基于所述预设字段对应的字段值在所述视频流的视频画面中分层显示所述视觉识别结果。
9.一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的方法。
CN202211274562.6A 2022-10-18 2022-10-18 视觉识别结果的可视化展示方法及装置和电子设备 Pending CN115914748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211274562.6A CN115914748A (zh) 2022-10-18 2022-10-18 视觉识别结果的可视化展示方法及装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211274562.6A CN115914748A (zh) 2022-10-18 2022-10-18 视觉识别结果的可视化展示方法及装置和电子设备

Publications (1)

Publication Number Publication Date
CN115914748A true CN115914748A (zh) 2023-04-04

Family

ID=86494076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211274562.6A Pending CN115914748A (zh) 2022-10-18 2022-10-18 视觉识别结果的可视化展示方法及装置和电子设备

Country Status (1)

Country Link
CN (1) CN115914748A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534151A (zh) * 2016-11-29 2017-03-22 北京旷视科技有限公司 用于播放视频流的方法及装置
CN110868600A (zh) * 2019-11-11 2020-03-06 腾讯云计算(北京)有限责任公司 目标跟踪视频推流方法、显示方法、装置和存储介质
WO2020097857A1 (zh) * 2018-11-15 2020-05-22 北京比特大陆科技有限公司 一种媒体流处理方法及装置、存储介质及程序产品
CN113645486A (zh) * 2021-07-16 2021-11-12 北京爱笔科技有限公司 视频数据的处理方法、装置、计算机设备和存储介质
CN114071228A (zh) * 2021-09-28 2022-02-18 浙江预策科技有限公司 实时信息叠加方法、装置、电子装置和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106534151A (zh) * 2016-11-29 2017-03-22 北京旷视科技有限公司 用于播放视频流的方法及装置
WO2020097857A1 (zh) * 2018-11-15 2020-05-22 北京比特大陆科技有限公司 一种媒体流处理方法及装置、存储介质及程序产品
CN110868600A (zh) * 2019-11-11 2020-03-06 腾讯云计算(北京)有限责任公司 目标跟踪视频推流方法、显示方法、装置和存储介质
CN113645486A (zh) * 2021-07-16 2021-11-12 北京爱笔科技有限公司 视频数据的处理方法、装置、计算机设备和存储介质
CN114071228A (zh) * 2021-09-28 2022-02-18 浙江预策科技有限公司 实时信息叠加方法、装置、电子装置和存储介质

Similar Documents

Publication Publication Date Title
CN110286773B (zh) 基于增强现实的信息提供方法、装置、设备及存储介质
US10491711B2 (en) Adaptive streaming of virtual reality data
CN109145784B (zh) 用于处理视频的方法和装置
WO2017107758A1 (zh) 应用于图像或视频的ar显示系统及方法
CN107633441A (zh) 追踪识别视频图像中的商品并展示商品信息的方法和装置
US11748870B2 (en) Video quality measurement for virtual cameras in volumetric immersive media
US11321946B2 (en) Content entity recognition within digital video data for dynamic content generation
US10580143B2 (en) High-fidelity 3D reconstruction using facial features lookup and skeletal poses in voxel models
US20230368248A1 (en) Method and system for analyzing live broadcast video content with a machine learning model implementing deep neural networks to quantify screen time of displayed brands to the viewer
CN107084740B (zh) 一种导航方法和装置
US11836887B2 (en) Video generation method and apparatus, and readable medium and electronic device
CN106713942A (zh) 视频处理方法和装置
CN113515997B (zh) 一种视频数据处理方法、装置以及可读存储介质
CN113870133A (zh) 多媒体显示及匹配方法、装置、设备及介质
CN114550070A (zh) 视频片段的识别方法、装置、设备以及存储介质
EP3975133A1 (en) Processing of images captured by vehicle mounted cameras
CN111741247B (zh) 一种录像回放的方法、装置及计算机设备
EP4198772A1 (en) Method and device for making music recommendation
CN113542907B (zh) 多媒体数据收发方法、系统、处理器和播放器
CN107733874A (zh) 信息处理方法、装置、计算机设备和存储介质
CN112287771A (zh) 用于检测视频事件的方法、装置、服务器和介质
CN111225293B (zh) 一种视频数据处理方法、装置以及计算机存储介质
CN115914748A (zh) 视觉识别结果的可视化展示方法及装置和电子设备
CN113259601A (zh) 视频处理方法、装置、可读介质和电子设备
JPWO2013018913A1 (ja) 映像処理システム、視聴者の嗜好判定方法、映像処理装置およびその制御方法と制御プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination