CN109547845B - 一种视频标记方法及装置 - Google Patents

一种视频标记方法及装置 Download PDF

Info

Publication number
CN109547845B
CN109547845B CN201811581785.0A CN201811581785A CN109547845B CN 109547845 B CN109547845 B CN 109547845B CN 201811581785 A CN201811581785 A CN 201811581785A CN 109547845 B CN109547845 B CN 109547845B
Authority
CN
China
Prior art keywords
sub
image
vector
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811581785.0A
Other languages
English (en)
Other versions
CN109547845A (zh
Inventor
张俊峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fenghuo Zhongzhi Wisdom Star Technology Co ltd
Original Assignee
Wuhan Fenghuo Zhongzhi Wisdom Star Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fenghuo Zhongzhi Wisdom Star Technology Co ltd filed Critical Wuhan Fenghuo Zhongzhi Wisdom Star Technology Co ltd
Priority to CN201811581785.0A priority Critical patent/CN109547845B/zh
Publication of CN109547845A publication Critical patent/CN109547845A/zh
Application granted granted Critical
Publication of CN109547845B publication Critical patent/CN109547845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种视频标记方法及装置,方法包括:记录目标图像的目标尺寸,将目标图像的目标矩阵分成各第一子矩阵,用各第一子矩阵的特征值构成第一向量;对所获得的视频流进行解析,将解析所得的原始图像数据封装成各单帧图像;按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,得到尺寸大小为目标尺寸的各子图像;对于每一子图像,将该子图像的矩阵分成各第二子矩阵,用各第二子矩阵的特征值构成该子图像的第二向量;计算各子图像的第二向量与第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。应用本发明实施例,实现了移动终端对视频流的标记。

Description

一种视频标记方法及装置
技术领域
本发明涉及视频处理领域,尤其涉及一种视频标记方法及装置。
背景技术
随着监控技术的快速发展,视频数据呈海量增长,为了快速的从视频数据中确定待分析目标,视频标记技术应运而生。待分析目标可以是用户感兴趣或想要查找的人、车等等。
目前,应用于移动终端(例如手机)的视频标记技术的相关研究较少,通常是在电脑上通过人工标记的方式,完成视频标记。因此有必要设计一种视频标记方法,以实现移动终端对视频流的标记。
发明内容
本发明的目的在于克服现有技术之缺陷,提供了一种视频标记方法及装置,以实现移动终端对视频流的标记。
本发明是这样实现的:
第一方面,本发明提供一种视频标记方法,应用于移动终端,所述方法包括:
获得目标图像,记录所述目标图像的目标尺寸,确定所述目标图像的目标矩阵;将所述目标矩阵分成预设数量个第一子矩阵,计算各第一子矩阵的特征值;用各第一子矩阵的特征值构成第一向量;
在获得视频流后,对所述视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像;
按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像;对于每一子图像,确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量;在获得各子图像的第二向量后,计算所述各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。
可选的,对所述视频流进行解析,包括:
对所述视频流进行解协议,得到封装数据;
将所得的封装数据进行解封装,得到音视频编码数据;
对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
可选的,在对每一单帧图像添加标记后,所述方法还包括:
播放所述原始音频数据和添加标记后的每一单帧图像。
可选的,所述原始图像数据和所述原始音频数据的格式分别为RGB图像格式和PCM音频格式。
可选的,计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度,包括:
构建二维数组,将各子图像的第二向量记录在所述二维数组中;
遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度。
可选的,给该目标区域添加标记,包括:
添加包围该目标区域的矩形框。
第二方面,本发明提供一种视频标记装置,应用于移动终端,所述装置包括:
获得模块,用于获得目标图像,记录所述目标图像的目标尺寸,确定所述目标图像的矩阵;将所述目标矩阵分成预设数量个第一子矩阵,计算各第一子矩阵的特征值;用各第一子矩阵的特征值构成第一向量;
解析模块,用于在获得视频流后,对所述视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像;
添加标记模块,用于按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像;对于每一子图像,确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量;在获得各子图像的第二向量后,计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。
可选的,解析模块对所述视频流进行解析,具体为:
对所述视频流进行解协议,得到封装数据;
将所得的封装数据进行解封装,得到音视频编码数据;
对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
可选的,所述装置还包括播放模块,用于:
在对每一单帧图像添加标记后,播放所述原始音频数据和添加标记后的每一单帧图像。
可选的,所述原始图像数据和所述原始音频数据的格式分别为RGB图像格式和PCM音频格式。
可选的,添加标记模块计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度,具体为:
构建二维数组,将各子图像的第二向量记录在所述二维数组中;
遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度。
可选的,添加标记模块给该目标区域添加标记,具体为:
添加包围该目标区域的矩形框。
本发明具有以下有益效果:应用本发明实施例,移动终端可以用所获得的目标图像确定第一向量,并在获得视频流后,可以对视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像,按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,确定该单帧图像中尺寸大小为所述目标尺寸的各子图像;在获得各子图像的第二向量后,计算各子图像的第二向量与第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。可见,移动终端可以对来自于视频流中的各单帧图像进行标记,实现了移动终端对视频流的标记,并且整个过程无需人工参与,故提高了标记效率,另外,第一向量和各第二向量均由多个特征值构成,能够更精细的反映出目标图像和各子图像的特点,有利于提高图像相似度匹配的精细度,提高标记的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的视频标记方法的一种流程示意图;
图2为本发明实施例提供的视频标记装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,本发明所提供的视频标记方法可以应用于移动终端,例如,可以是安装了iOS操作系统(iOS是由苹果公司开发的手持设备操作系统)、或安卓操作系统(Android系统是一种基于Linux的自由及开放源代码的操作系统)、或Windows Phone操作系统(Windows Phone是微软公司发布的一款手机操作系统)的移动终端。在具体应用中,移动终端可以为平板、手机、智能穿戴设备等等,这都是合理的。
参见图1,本发明实施例提供一种视频标记方法,方法包括如下步骤:
S101、获得目标图像,记录所述目标图像的目标尺寸,确定所述目标图像的目标矩阵;将所述目标矩阵分成预设数量个第一子矩阵,计算各第一子矩阵的特征值;用各第一子矩阵的特征值构成第一向量;
目标图像可以待匹配目标的图像,待匹配目标可以是人物、动物、树木等物体,目标图像根据需求事先设定,例如,可以事先在后端服务器或其他移动终端设定,并在设定后可以发送给本移动终端(本发明的执行主体),从而本移动终端可以获得目标图像,或者,也可以通过本移动终端设定目标图像,从而本移动终端可以直接获得目标图像。
预设数量可以根据需求事先设定,例如可以为:16/17/18等等。
可以理解的是,目标图像作为一种数字图像,可以用目标矩阵来表示,目标矩阵的行可以对应目标图像的高(单位为像素),目标矩阵的列可以对应目标图像的宽(单位为像素),目标矩阵的元素可以对应目标图像的像素,目标矩阵中各元素的值就是所对应像素的像素值。目标图像可以是RGB(red green blue,红绿蓝)彩色图像、灰度图像、HSV(HueSaturation Value)彩色图像等等。
本发明对将所述目标矩阵分成预设数量个第一子矩阵的方式不做限定,例如,可以采用现有的分块矩阵算法来实现。各第一子矩阵的大小可以相同,也可以不同,本发明对此不做限定。
另外,本发明对计算各第一子矩阵的特征值的方式不做限定,例如可以采用以下公式计算特征值:(A-λE)X=0,其中,A表示某个第一子矩阵,E表示单位矩阵,通过计算可以得出该第一子矩阵的特征值λ和特征向量X,可以并行计算各第一子矩阵的特征值,在计算出各第一子矩阵的特征值后,可以得到由各第一子矩阵的特征值构成的第一向量。例如,各第一子矩阵的特征值分别为λ1、λ2、…、λ16,则第一向量为:[λ12,…,λ16]。
S102、在获得视频流后,对所述视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像;
移动终端可以获得视频流,视频流可以是视频采集设备(如摄像头、车辆卡口等)实时采集的、也可以是预先存储于移动终端中的、也可以是从其他终端服务器下载的等等,本发明对获得视频流的具体方式不做限定。
在获得视频流后,一种实现方式中,对所述视频流进行解析,可以包括以下步骤:
步骤A1、对所述视频流进行解协议,得到封装数据;
步骤A2、将所得的封装数据进行解封装,得到音视频编码数据;
步骤A3、对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
视频流可以是采用格式为HTTP(HyperText Transfer Protocol,超文本传输协议)、RTMP(Real Time Messaging Protocol,实时消息传输协议)、RTSP(Real TimeStreaming Protocol,实时流传输协议)等流媒体协议传输的视频文件。
视频文件可以指出应该使用哪种编码格式(如MJPEG、MPEG1/2、MPEG4、H.264等)来解析音频和视频数据,对于这种视频文件,可以直接按照视频文件所指出的编码格式对视频流进行解封装,得到音视频编码数据,进而,对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
或者,视频文件也可以没有指出应该使用哪种编码格式来解析音频和视频数据,例如采用AVI封装格式的视频文件并没有指出应该使用哪种编码格式来解析音频和视频数据,它们只是按视频封装格式封装而成的音视频数据,对于这种视频文件,可以先通过libavformat库中提供的avformat_open_input()方法对所述视频流进行解协议,得到封装数据。视频封装格式可以是MP4、MVK(Matroska Media,一种多媒体封装格式)、RMVB(RealMedia Variable Bitrate,可变比特率)、TS(Transport Stream,传输流)、FLV(FlashVideo)、AVI(Audio Video Interleaved,音频视频交错格式)等,所得的封装数据可以包括音、视频编码数据,音频编码数据可以是采用ACC(Advanced Audio Coding,高级音频编码技术)、FLAC(Free Lossless Audio Codec,无损音频压缩编码)、AMR(Adaptive Multi-Rate,自适应多速率编码)等音频压缩格式编码的音频压缩编码数据;视频编码数据可以是采用H.264、H.261、H.263、M-JPEG(Motion-Join Photographic Experts Group,运动静止图像压缩技术)和MPEG(Moving Picture Experts Group,动态图像专家组)系列标准等视频压缩格式的视频压缩编码数据。
音、视频编码数据可以包括播放持续时间、视音频压缩格式、音轨、字幕、帧率、采样率等信息,从而可以按照这些信息,对解码后的音、视频编码数据进行播放。
可以通过libavcodec库中提供的avcodec_send_packet()方法,将待解码的音视频编码数据存入AVPacket中,并通过调用avcodec_receive_frame()方法,得到包含解码后的音视频数据的AVFrame,AVFrame是一个结构体,这个结构体可以用于描述解码所得的音视频数据(即非压缩的原始图像数据和原始音频数据),进而,可以将AVFrame存入缓冲区,当缓冲区满后,再统一返回所得到的非压缩的原始图像数据和原始音频数据。libavcodec库是一款自由软件编解码库,ky用于视频和音频数据的编解码工作。
AVPacket可以用于存放视频编码数据,AVPacket也是结构体,可以保存解封装之后,解码之前的数据(即音视频编码数据)和关于这些数据的一些附加信息,如显示时间戳(pts)、解码时间戳(dts)、数据时长,所在媒体流的索引等。对于视频编码数据来说,一个AVPacket可以包含一个压缩的Frame(帧),而音频编码数据来说,一个AVPacket可以包含多个压缩的Frame(帧)。
非压缩的原始图像数据和所述原始音频数据的格式可以分别为RGB图像格式和PCM(Pulse Code Modulation,脉冲编码调制)音频格式。
或者,在其他实施方式中,也可以采用其他具有解协议、解封装以及解码功能的程序代码分别实现上述步骤,本发明对具体程序代码的实现方式不做限定。
通过对视频流进行解析,可以得到原始图像数据,原始图像数据即非压缩的图像数据,进而可以将解析所得的原始图像数据封装成各个单帧图像。原始图像数据的图像格式可以是RGB格式、YUV格式等等,每个单帧图像可以是一个Bitmap对象,可以采用实例化BitmapFactory类的方法将原始图像数据封装成各个Bitmap对象;或者,也可以采用其他具有将原始图像数据封装成Bitmap对象的功能的程序代码得到各个单帧图像。Bitmap对象可以是指一张图片,图片格式可以是png(Portable Network Graphics,便携式网络图形)或者jpg(Joint Photographic Experts Group)等。
S103、按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像;对于每一子图像,确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量;在获得各子图像的第二向量后,计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。
可以采用横向或纵向像素扫描方式,逐像素扫描单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像。单帧图像可以不小于目标尺寸,子图像可以有一个或多个,每个子图像的大小均为目标尺寸。逐像素扫描可以是每间隔固定数量个像素扫描一次,从而得到一个子图像,固定数量可以预先设定,例如可以为1/2/3/4等。
进而,对于每一子图像,可以确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量。每一子图像的第二子矩阵的数量与第一子矩阵的数量相同,故每一第二向量中的元素数量与第一向量中的元素数量相同。
可以理解的是,不同图像的特征值不同,特征值具有唯一性,图像的特征值越相似,可以认为图像的相似程度越高,第一向量和各第二向量均由多个特征值构成,能够更精细的反映出目标图像和各子图像的特点,有利于提高图像相似度匹配的精细度。
在获得各子图像的第二向量后,可以计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度,具体可以包括以下步骤:
步骤B1、构建二维数组,将各子图像的第二向量记录在所述二维数组中;
可以根据每行/每列扫描出的子图像的数量和行数/列数,确定二维数组的行数和列数,例如,每行扫描出的子图像的数量为1024个,子图像的行数为像960,则二维数组的行数和列数分别为1024和960。二维数组中的每个元素对应一个子图像的第二向量,可以按照获得子图像的顺序,按行/列依次将各子图像的第二向量记录在所述二维数组中。从而,可以统一存储各子图像的第二向量,便于后续对子图像的第二向量的统一处理,提高了处理速度。
步骤B2、遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度。
在构建二维数组后,可以并行计算各个二维数组中各第二向量与第一向量之间的余弦相似度,从而可以提高计算速度。
针对每一第二向量,可以采用预设的余弦相似度计算公式,计算该第二向量与第一向量之间的余弦相似度。预设的余弦相似度计算公式可以为:
Figure BDA0001918068700000101
其中,a和b分别表示第一向量和第二向量,第二向量与第一向量之间的余弦相似度cos(θ)越大,该第二向量所属的子图像的相似度越高。
在获得各子图像的相似度后,可以从中确定出相似度最大者,可以理解的是,图像之间的相似度越大,表明图像之间的相似程度越高,相似度最大者即为一个单帧图像的所有子图像中与目标图像最相似的子图像,进而,可以将相似度最大者在该单帧图像中所处的区域确定为目标区域,并可以给该目标区域添加标记,具体方式可以为:添加包围该目标区域的矩形框。在其他方式中,可以为椭圆框、正方形框等等。
在获得各子图像后,可以存储各子图像在单帧图像中所处的坐标区域,进而在确定相似度最大者,可以直接获得相似度最大者在该单帧图像中所处的区域。或者,可以按照像素扫描方式,记录每个子图像的扫描序号,根据扫描间隔和扫描序号,计算出相似度最大者在该单帧图像中所处的区域。
应用本发明实施例提供的技术方案,可以在移动终端对视频流进行标记,实现了快速地确定出视频流中目标图像可能存在的区域。并且第一向量和各第二向量均由多个特征值构成,能够更精细的反映出目标图像和各子图像的特点,有利于提高图像相似度匹配的精细度,提高标记的准确性。
为了便于用户观看,一种实现方式中,在对每一单帧图像添加标记后,所述方法还包括:
播放所述原始音频数据和添加标记后的每一单帧图像。
在播放过程中,还可以接收播放指令,播放指令可以包括快进指令、暂停指令、音量控制指令、拖动播放指令,进而可以按照所接收的播放指令,对原始音频数据和添加标记后的每一单帧图像进行快进、暂停、音量控制、拖动播放,从而进一步提高用户体验。
应用本发明实施例,可以对所获得的视频流进行播放,并且播放的视频图像是带有标记的图像,可以便于用户在观看视频的过程中,快速查找到感兴趣的目标图像。
与上述的方法实施例相对应,本发明实施例还提供一种视频标记装置。
参见图2,图2为本发明实施例所提供的一种视频标记装置的结构示意图,装置应用于移动终端,装置包括:
获得模块201,用于获得目标图像,记录所述目标图像的目标尺寸,确定所述目标图像的目标矩阵;将所述目标矩阵分成预设数量个第一子矩阵,计算各第一子矩阵的特征值;用各第一子矩阵的特征值构成第一向量;
解析模块202,用于在获得视频流后,对所述视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像;
添加标记模块203,用于按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像;对于每一子图像,确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量;在获得各子图像的第二向量后,计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。
应用本发明实施例,移动终端可以用所获得的目标图像确定第一向量,并在获得视频流后,可以对视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像,按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,确定该单帧图像中尺寸大小为所述目标尺寸的各子图像;在获得各子图像的第二向量后,计算各子图像的第二向量与第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记。可见,移动终端可以对来自于视频流中的各单帧图像进行标记,实现了移动终端对视频流的标记,并且整个过程无需人工参与,故提高了标记效率,另外,第一向量和各第二向量均由多个特征值构成,能够更精细的反映出目标图像和各子图像的特点,有利于提高图像相似度匹配的精细度,提高标记的准确性。
可选的,解析模块对所述视频流进行解析,具体为:
对所述视频流进行解协议,得到封装数据;
将所得的封装数据进行解封装,得到音视频编码数据;
对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
可选的,所述装置还包括播放模块,用于:
在对每一单帧图像添加标记后,播放所述原始音频数据和添加标记后的每一单帧图像。
可选的,所述原始图像数据和所述原始音频数据的格式分别为RGB图像格式和PCM音频格式。
可选的,添加标记模块计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度,具体为:
构建二维数组,将各子图像的第二向量记录在所述二维数组中;
遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度。
可选的,添加标记模块给该目标区域添加标记,具体为:
添加包围该目标区域的矩形框。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种视频标记方法,其特征在于,应用于移动终端,所述方法包括:
获得目标图像,记录所述目标图像的目标尺寸,确定所述目标图像的目标矩阵;将所述目标矩阵分成预设数量个第一子矩阵,计算各第一子矩阵的特征值;用各第一子矩阵的特征值构成第一向量;
在获得视频流后,对所述视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像;
按照以下方式对每一单帧图像添加标记:
逐像素扫描该单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像;
对于每一子图像,确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量;
在获得各子图像的第二向量后,计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记;具体包括,构建二维数组,将各子图像的第二向量记录在所述二维数组中;遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度;
具体地,根据每行/每列扫描出的子图像的数量和行数/列数,确定二维数组的行数和列数,二维数组中的每个元素对应一个子图像的第二向量,可以按照获得子图像的顺序,按行/列依次将各子图像的第二向量记录在所述二维数组中。
2.根据权利要求1所述的方法,其特征在于,对所述视频流进行解析,包括:
对所述视频流进行解协议,得到封装数据;
将所得的封装数据进行解封装,得到音视频编码数据;
对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
3.根据权利要求2所述的方法,其特征在于,在对每一单帧图像添加标记后,所述方法还包括:
播放所述原始音频数据和添加标记后的每一单帧图像。
4.根据权利要求2所述的方法,其特征在于,所述原始图像数据和所述原始音频数据的格式分别为RGB图像格式和PCM音频格式。
5.根据权利要求1所述的方法,其特征在于,给该目标区域添加标记,包括:
添加包围该目标区域的矩形框。
6.一种视频标记装置,其特征在于,应用于移动终端,所述装置包括:
获得模块,用于获得目标图像,记录所述目标图像的目标尺寸,确定所述目标图像的目标矩阵;将所述目标矩阵分成预设数量个第一子矩阵,计算各第一子矩阵的特征值;用各第一子矩阵的特征值构成第一向量;
解析模块,用于在获得视频流后,对所述视频流进行解析,将解析所得的原始图像数据封装成各个单帧图像;
添加标记模块,用于按照以下方式对每一单帧图像添加标记:逐像素扫描该单帧图像,得到该单帧图像中尺寸大小为所述目标尺寸的各子图像;对于每一子图像,确定该子图像的矩阵,将该子图像的矩阵分成所述预设数量个第二子矩阵,计算各第二子矩阵的特征值,用各第二子矩阵的特征值构成该子图像的第二向量;在获得各子图像的第二向量后,计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度;确定相似度最大的子图像在该单帧图像中所处的目标区域;给该目标区域添加标记;具体包括,构建二维数组,将各子图像的第二向量记录在所述二维数组中;遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度;
具体地,根据每行/每列扫描出的子图像的数量和行数/列数,确定二维数组的行数和列数,二维数组中的每个元素对应一个子图像的第二向量,可以按照获得子图像的顺序,按行/列依次将各子图像的第二向量记录在所述二维数组中。
7.根据权利要求6所述的装置,其特征在于,所述解析模块对所述视频流进行解析,具体为:
对所述视频流进行解协议,得到封装数据;
将所得的封装数据进行解封装,得到音视频编码数据;
对所述音视频编码数据进行解码,得到非压缩的原始图像数据和原始音频数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括播放模块,用于:
在对每一单帧图像添加标记后,播放所述原始音频数据和添加标记后的每一单帧图像。
9.根据权利要求6所述的装置,其特征在于,所述添加标记模块计算各子图像的第二向量与所述第一向量之间的余弦相似度,作为各子图像的相似度,具体为:
构建二维数组,将各子图像的第二向量记录在所述二维数组中;
遍历已记录第二向量的二维数组,针对遍历所得的每一第二向量,计算该第二向量与所述第一向量之间的余弦相似度,作为该第二向量所属子图像的相似度。
CN201811581785.0A 2018-12-24 2018-12-24 一种视频标记方法及装置 Active CN109547845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811581785.0A CN109547845B (zh) 2018-12-24 2018-12-24 一种视频标记方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811581785.0A CN109547845B (zh) 2018-12-24 2018-12-24 一种视频标记方法及装置

Publications (2)

Publication Number Publication Date
CN109547845A CN109547845A (zh) 2019-03-29
CN109547845B true CN109547845B (zh) 2021-10-01

Family

ID=65856837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811581785.0A Active CN109547845B (zh) 2018-12-24 2018-12-24 一种视频标记方法及装置

Country Status (1)

Country Link
CN (1) CN109547845B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714881A (zh) * 2022-11-14 2023-02-24 苏州空天信息研究院 一种基于FFmpeg的音视频传输系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2560145A2 (en) * 2011-08-18 2013-02-20 Layar B.V. Methods and systems for enabling the creation of augmented reality content
CN104133875A (zh) * 2014-07-24 2014-11-05 北京中视广信科技有限公司 一种基于人脸的视频标注方法和视频检索方法
CN106778779A (zh) * 2016-12-12 2017-05-31 广东省智能制造研究所 一种电动注塑机模具检测方法
CN108366238A (zh) * 2018-02-08 2018-08-03 广州视源电子科技股份有限公司 图像处理方法、系统、可读存储介质及电子设备
CN109035299A (zh) * 2018-06-11 2018-12-18 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2560145A2 (en) * 2011-08-18 2013-02-20 Layar B.V. Methods and systems for enabling the creation of augmented reality content
CN104133875A (zh) * 2014-07-24 2014-11-05 北京中视广信科技有限公司 一种基于人脸的视频标注方法和视频检索方法
CN106778779A (zh) * 2016-12-12 2017-05-31 广东省智能制造研究所 一种电动注塑机模具检测方法
CN108366238A (zh) * 2018-02-08 2018-08-03 广州视源电子科技股份有限公司 图像处理方法、系统、可读存储介质及电子设备
CN109035299A (zh) * 2018-06-11 2018-12-18 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109547845A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
US11170556B2 (en) Apparatus for transmitting point cloud data, a method for transmitting point cloud data, an apparatus for receiving point cloud data and a method for receiving point cloud data
US9514783B2 (en) Video editing with connected high-resolution video camera and video cloud server
US10958942B2 (en) Processing spherical video data
KR102166877B1 (ko) 이미지 데이터 캡슐화
TWI590662B (zh) 解碼器及解碼方法
CN108833938B (zh) 用于选取视频封面的方法和设备
CN111787398A (zh) 视频压缩方法、装置、设备及存储装置
US20100061443A1 (en) Method and system for video streaming of a graphical display of an application
CN110662086A (zh) 一种5g高清直播系统及视频处理方法
CN110662084A (zh) 一种mp4文件流直播的方法、移动终端及存储介质
CN109547845B (zh) 一种视频标记方法及装置
CN111147896A (zh) 一种字幕数据处理方法、装置、设备和计算机存储介质
US20240080487A1 (en) Method, apparatus for processing media data, computer device and storage medium
WO2024109317A1 (zh) 一种传输视频帧及摄像参数信息的方法与设备
CN109862385B (zh) 直播的方法、装置、计算机可读存储介质及终端设备
CN107786873A (zh) 基于转码队列的自动视频转码封包格式的录播方法及系统
WO2008046243A1 (en) Method and device for encoding a data stream, method and device for decoding a data stream, video indexing system and image retrieval system
US20240070924A1 (en) Compression of temporal data by using geometry-based point cloud compression
CN111901661B (zh) 一种视频录制方法、播放方法及显示设备
CN114205649A (zh) 图像数据处理方法、装置、设备及存储介质
CN113055706B (zh) 视频合成方法、装置、电子设备和存储介质
US20190215573A1 (en) Method and device for acquiring and playing video data
WO2020135527A1 (zh) 多媒体数据处理
CN116965038A (zh) 多媒体文件的播放方法及相关装置
CN101917581A (zh) 多媒体数据处理进度的展示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant