CN111666907B - 一种视频中对象信息的识别方法、装置及服务器 - Google Patents

一种视频中对象信息的识别方法、装置及服务器 Download PDF

Info

Publication number
CN111666907B
CN111666907B CN202010526493.8A CN202010526493A CN111666907B CN 111666907 B CN111666907 B CN 111666907B CN 202010526493 A CN202010526493 A CN 202010526493A CN 111666907 B CN111666907 B CN 111666907B
Authority
CN
China
Prior art keywords
target
video
image
object information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010526493.8A
Other languages
English (en)
Other versions
CN111666907A (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010526493.8A priority Critical patent/CN111666907B/zh
Publication of CN111666907A publication Critical patent/CN111666907A/zh
Application granted granted Critical
Publication of CN111666907B publication Critical patent/CN111666907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明实施例提供了一种视频中对象信息的识别方法、装置及服务器,所述方法包括:接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。采用本发明实施例,可以提高对象信息的识别准确度。

Description

一种视频中对象信息的识别方法、装置及服务器
技术领域
本发明涉及图像处理技术领域,特别是涉及一种视频中对象信息的识别方法、装置及服务器。
背景技术
用户在观看视频的过程中,可能有了解视频中对象信息的需求,视频中的对象可以为商品、人物、建筑等,对象信息则是与该对象相关的,表示该对象的性质、特点等的一些信息,例如,若对象为商品,对象信息可以为商品的名称、价格及在视频画面中位置等。
目前,确定视频中对象信息的方式为:服务器可以预先对视频的视频帧进行图像识别,确定目标对象在视频帧中的对象信息,然后确定包括该目标对象的视频帧在视频中对应的时间点,将目标对象对应的时间点与对象信息对应保存在对象信息数据库中。当终端获取到用户发出的对象识别指令时,可以确定视频的当前播放时间点并发送至服务器,然后服务器可以从对象信息数据库中查询与该时间点相匹配的对象信息,并发送至终端,终端便可以展示该对象信息,以供用户查看。
在某些情况下,需要重新建立视频的对象信息数据库,例如,当视频被编辑后,视频的时长通常会发生变化,在这种情况下需要对被编辑后的视频进行处理,得到新的对象信息数据库。重新建立视频的对象信息数据库所需的这段时间即为空档期,此时该视频的状态即为重转状态。当用户在空档期发出对象识别指令时,终端可以截取当前的视频画面发送至服务器,服务器可以通过预先训练的深度学习模型确定视频画面中的对象信息,然后将对象信息发送至终端以供用户查看。
由于终端截取的视频画面为缩略图,分辨率较低,会导致深度学习模型确定的对象信息的准确度较低。
发明内容
本发明实施例的目的在于提供一种视频中对象信息的识别方法、装置及服务器,以提高对象信息的识别准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种视频中对象信息的识别方法,所述方法包括:
接收终端发送的目标图像,其中,所述目标图像为所述终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,所述目标图像包括目标对象;
提取所述目标图像的图像特征,并根据所述图像特征确定所述目标图像的相似性特征,作为目标特征;
基于所述目标特征与特征数据库包括的各相似性特征的相似度,从所述特征数据库中查找到与所述目标特征相匹配的目标相似性特征,其中,所述特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;
将所述目标相似性特征对应的所述目标对象的对象信息发送至所述终端。
可选的,在所述接收终端发送的目标图像的步骤之前,所述方法还包括:
判断终端当前播放的视频是否为重转状态,其中,所述重转状态表示视频对应的预先建立的对象信息数据库处于重新建立状态,所述对象信息数据库包括时间点与对象信息的对应关系;
如果是,执行所述接收终端发送的目标图像的步骤;
如果否,确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点;
从所述对象信息数据库中查找与所述待查询时间点相同的目标时间点,将所述目标时间点对应的对象信息发送至所述终端。
可选的,所述特征数据库的建立方式,包括:
从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频;
对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息;
判断所述目标视频帧中的所述待识别对象是否满足预设的特征提取条件;
如果是,提取所述目标视频帧的图像特征,并根据所提取的图像特征确定所述目标视频帧的相似性特征;
将所述相似性特征与所述待识别对象的对象信息对应保存,得到所述特征数据库。
可选的,所述对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息的步骤,包括:
将所述预设时长的视频输入目标跟踪模型,以使所述目标跟踪模型提取所述预设时长的视频的图像特征,并根据所提取的图像特征确定跟踪信息,其中,所述跟踪信息包括起始时间点、终止时间点及所述待识别对象的对象信息,所述起始时间点为所述预设时长的视频中所述待识别对象出现时对应的时间点,所述终止时间点为所述预设时长的视频中所述待识别对象消失时对应的时间点;
获取所述预设时长的视频中从所述起始时间点到所述终止时间点对应的视频帧,作为目标视频帧。
可选的,所述预设的特征提取条件至少包括以下条件中的一个:
所述待识别对象在所述目标视频帧中的面积达到预设面积;
所述待识别对象位于所述目标视频帧的非边缘区域;
所述待识别对象在所述目标视频帧中持续出现的时长大于预设时长。
可选的,所述从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频的步骤,包括:
从预先获取的待处理视频中,按照预设间隔帧数提取第一视频帧;
对所述第一视频帧进行图像识别,确定其中包括待识别对象的第二视频帧;
从所述待处理视频中提取包括所述第二视频帧的预设时长的视频。
可选的,当从所述特征数据库中未查找到与所述目标特征相匹配的图像特征时,所述方法还包括:
将所述目标图像输入目标检测模型,根据所述目标图像的图像特征进行目标检测,得到所述目标图像中目标对象的对象信息;
将所述目标对象的对象信息发送至所述终端。
可选的,所述目标图像的相似性特征的确定方式至少包括以下方式中的一个:
对所述目标图像进行灰度化处理,得到灰度图;将所述灰度图划分为多个子图,根据每个所述子图包括的像素点的像素值,确定每个所述子图的离散余弦变换系数;计算每个所述子图的离散余弦变化系数对应的哈希值,基于所述哈希值确定所述目标图像的相似性特征;
将所述目标图像输入卷积神经网络,对所述目标图像的像素点的像素值进行卷积处理,得到所述目标图像的相似性特征;
计算所述目标图像的尺度不变特征变换SIFT特征;统计所述目标图像的SIFT特征在视觉词包词典中的命中频次;确定所述命中频次对应的分布直方图,作为所述目标图像的相似性特征,其中,所述视觉词包词典为对预先提取的多个图像样本的SIFT特征进行聚类得到的。
第二方面,本发明实施例提供了一种视频中对象信息的识别装置,所述装置包括:
图像接收模块,用于接收终端发送的目标图像,其中,所述目标图像为所述终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,所述目标图像包括目标对象;
相似性特征确定模块,用于提取所述目标图像的图像特征,并根据所述图像特征确定所述目标图像的相似性特征,作为目标特征;
目标相似性查找模块,用于基于所述目标特征与特征数据库包括的各相似性特征的相似度,从所述特征数据库中查找到与所述目标特征相匹配的目标相似性特征,其中,所述特征数据库为通过数据库建立模块预先建立的包括相似性特征与对象信息的对应关系的数据库;
对象信息第一发送模块,用于将所述目标相似性特征对应的所述目标对象的对象信息发送至所述终端。
第三方面,本发明实施例提供了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的视频中对象信息的识别方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的视频中对象信息的识别方法步骤。
本发明实施例提供的方案中,服务器可以接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。由于相似性特征可以准确的表征包括目标对象的图像的图像特征,所以可以从特征数据库中查找到准确的对象信息,可以提高视频中目标对象的对象信息的识别准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所提供的一种视频中对象信息的识别方法的流程图;
图2为基于图1所示实施例的视频重转状态的确定方式的一种示意图;
图3为基于图1所示实施例的特征数据库的建立方式的一种示意图;
图4为基于图3所示实施例中步骤S301的一种具体流程图;
图5为本发明实施例所提供的对象信息数据库及特征数据库的建立方式的示意图;
图6为本发明实施例所提供的对象信息的识别方式的示意图;
图7为本发明实施例所提供的一种视频中对象信息的识别装置的结构示意图;
图8为图7所示实施例中数据库建立模块的一种结构示意图;
图9为本发明实施例所提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高视频中目标对象的对象信息的识别准确度,本发明实施例提供了一种视频中对象信息的识别方法、装置、服务器、计算机可读存储介质及计算机程序产品。
下面首先对本发明实施例所提供的一种视频中对象信息的识别方法进行介绍。本发明实施例所提供的一种视频中对象信息的识别方法可以应用于服务器,该服务器可以与终端通信连接,以进行数据交互。
如图1所示,一种视频中对象信息的识别方法,所述方法包括:
S101,接收终端发送的目标图像;
其中,所述目标图像为所述终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,所述目标图像包括目标对象。
S102,提取所述目标图像的图像特征,并根据所述图像特征确定所述目标图像的相似性特征,作为目标特征;
S103,基于所述目标特征与特征数据库包括的各相似性特征的相似度,从所述特征数据库中查找到与所述目标特征相匹配的目标相似性特征;
其中,所述特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库。
S104,将所述目标相似性特征对应的所述目标对象的对象信息发送至所述终端。
可见,本发明实施例所提供的方案中,服务器可以接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。由于目标相似性特征可以准确的表征包括目标对象的图像的图像特征,所以可以从特征数据库中查找到准确的对象信息,可以提高视频中目标对象的对象信息的识别准确度。
为了方便确定视频中对象的对象信息,可以预先通过AI(ArtificialIntelligence,人工智能)识别方式对视频的视频帧进行图像识别,确定视频中对象的对象信息及包括该对象的视频帧的时间点,进而建立对象信息数据库。具体来说,服务器可以通过深度学习模型,预先对视频的视频帧进行图像识别,确定视频中对象的对象信息及包括该对象的视频帧的时间点。当终端获取到用户发出的对象识别指令时,可以确定视频的当前播放时间点并发送至服务器,然后服务器可以从对象信息数据库中查询与该时间点相匹配的对象信息。
在某些情况下,视频对应的对象信息数据库需要重新建立,重新建立视频的对象信息数据库所需的这段时间即为空档期,此时该视频的状态可以称为重转状态。例如,当视频被编辑后,视频的时长通常会发生变化,在这种情况下,需要对被编辑后的视频进行重新识别,重新建立该视频对应的对象信息数据库,此时该视频即为重转状态。
当用户想要查看对象信息的对象所属的视频为重转状态时,由于该视频对应的对象信息数据库正处于重新建立的过程中,所以服务器无法通过该视频对应的对象信息数据库准确的确定对象信息。
当用户在空档期发出对象识别指令时,终端可以截取当前的视频画面发送至服务器,服务器可以通过预先训练的深度学习模型确定视频画面中的对象信息,然后将对象信息发送至终端以供用户查看。由于终端截取的视频画面为缩略图,分辨率较低,会导致深度学习模型确定的对象信息的准确度较低。
在这种情况下,为了提高对象信息的识别准确度,用户在需要查看视频中对象的对象信息时可以发出对象识别指令。在一种实施方式中,终端可以提供用户接口,用户可以通过该用户接口发出对象识别指令,例如,用户接口可以为按钮,用户点击该按钮便可以发出对象识别指令。在另一种实施方式中,当用户发出预设操作手势时,终端可以获取到对象识别指令,预设操作手势可以为点击、长按、双击等。
终端在获取到对象识别指令时,为了获得用户想要查看的对象信息,可以获取当前播放的目标视频的当前视频图像,作为目标图像,并将目标图像发送至服务器。这样,在上述步骤S101中,服务器可以接收终端发送的目标图像。由于目标图像是用户发出对象识别指令时,终端获取的当前视频图像,所以其中包括目标对象,目标对象也就是用户想要查看的对象信息所针对的对象,例如,可以为人物、景物、商品等。
一种实施方式中,当终端获取到对象识别指令时,可以截取当前播放的目标视频的当前视频图像,并将截取的图像作为目标图像。
在接收到目标图像后,由于相似性特征可以用于表示包括目标对象的图像的图像特征,所以服务器可以提取目标图像的图像特征,并根据目标图像的图像特征确定目标图像的相似性特征,作为目标特征。其中,相似性特征的具体确定方式可以为计算哈希值等,在此不做具体限定。
为了便于确定目标对象的对象信息,服务器可以预先获取多个待处理视频,并对待处理视频中的待识别对象进行检测,确定包括待识别对象的视频帧,然后可以对包括待识别对象的视频帧进行图像识别,确定该待识别对象的对象信息,并提取包括待识别对象的视频帧的图像特征,根据图像特征确定包括待识别对象的视频帧的相似性特征,进而将相似性特征与待识别对象的对象信息对应保存,得到特征数据库。其中,待识别对象为用户可能想要查看对象信息所针对的对象,待处理视频为待识别对象所属的视频。
上述对象信息为用户可能想要查看的目标视频中的目标对象的相关信息,例如,若上述目标对象为某个商品,对象信息可以包括该商品的名称、型号、产地等;若上述目标对象为某个动物,对象信息可以包括该动物的种类、常见生活地带等;若上述目标对象为某个建筑,对象信息可以为该建筑的名称、建筑风格、所在地址等。
在一种实施方式中,对象信息可以包括目标对象的对象标识及表示目标对象在视频帧中位置的位置信息,该位置信息可以采用位置向量(x,y,w,h)表示,其中,(x,y)为表示目标对象在目标视频帧中的位置的矩形框的一个顶点(例如,左上角顶点、左下角顶点、右上角顶点或右下角顶点)在图像坐标系中的坐标,w为该矩形框的宽度,h为该矩形框的高度。
在确定目标图像的目标特征后,为了确定目标图像包括的目标对象的对象信息,服务器可以计算目标特征与特征数据库包括的各相似性特征的相似度,进而基于目标特征与各相似性特征的相似度,从特征数据库中查找与目标特征相匹配的目标相似性特征。其中,上述相似度的计算方法可以为欧氏距离、余弦相似度、杰卡德相似度等相似度的计算方法,在此不做具体限定及说明。
在一种实施方式中,服务器可以将相似度不小于预设阈值的相似性特征确定为备选相似性特征,然后可以从备选相似性特征中随机选择一个备选相似性特征,作为与目标特征相匹配的目标相似性特征;在另一种实施方式中,服务器可以将相似度最高且不小于预设阈值的相似性特征确定为目标特征相匹配的目标相似性特征。
当目标相似性特征与目标特征相匹配时,说明该目标相似性特征对应的对象即为上述目标图像包括的目标对象,那么该目标相似性特征对应的对象的对象信息也就是用户想要查看的目标对象的对象信息。
这样,服务器便可以根据相似性特征与对象信息的对应关系,确定目标相似性特征对应的对象信息,然后便可以将所确定的对象信息发送至终端,终端也就可以接收该对象信息并显示该对象信息,以供用户查看。
例如,服务器确定与目标特征相匹配的目标相似性特征为相似性特征X1,相似性特征与对象信息的对应关系如下表所示:
那么,服务器根据上表可以确定相似性特征X1对应的对象信息为对象信息D1,然后便可以将对象信息D1发送至终端。
终端在接收到对象信息后,可以显示对象信息供用户查看,例如,目标对象为一件商品,对象信息包括该商品的名称、型号、产地及表示该商品在视频帧中位置的矩形框对应的位置向量(x,y,w,h),终端可以在当前播放的视频画面中显示位置向量(x,y,w,h)对应的矩形框以框选该目标对象,然后在矩形框的预设位置显示该商品的名称、型号及产地,以供用户查看。
作为本发明实施例的一种实施方式,上述目标图像的相似性特征的确定方式至少包括以下方式中的一个:
第一种实施方式:对目标图像进行灰度化处理,得到灰度图;将灰度图划分为多个子图,根据每个子图包括的像素点的像素值,确定每个子图的离散余弦变换系数;计算每个子图的离散余弦变化系数对应的哈希值,基于哈希值确定目标图像的相似性特征。
为了确定目标图像的相似性特征,在一种实施方式中,服务器可以对目标图像进行灰度化处理,得到对应的灰度图。其中,上述灰度化处理的具体方式可以为最大值法、最小值法、均值法等方法,在此不做具体说明。
为了提高目标图像的相似性特征的准确度,在一种实施方式中,服务器可以对目标图像进行去噪处理,得到对应的去噪图像,进而对去噪图像进行灰度化处理,得到对应的灰度图。其中,上述去噪处理的具体方式可以为高斯滤波、均值滤波、中值滤波等方法,在此不做具体说明。
在得到目标图像对应的灰度图后,服务器可以将灰度图划分为多个子图,例如,划分为2个、3个、4个子图等,然后对每个子图包括的像素点的像素值进行DCT(DiscreteCosine Transform,离散余弦变换)处理,得到每个子图的离散余弦变换系数。然后,服务器可以计算每个子图的离散余弦变换系数对应的哈希值,进而根据每个子图对应的哈希值确定目标图像的相似性特征。
例如,服务器可以将对每个子图的哈希值按照预设顺序串联起来得到目标图像的哈希值,作为目标图像的相似性特征。其中,上述哈希值的计算方法可以为SHA-1(SecureHash Algorithm 1,安全散列算法1)、MD5(MD5 Message-Digest Algorithm,信息摘要算法)等,在此不做具体限定及说明。
第二种方式:将目标图像输入卷积神经网络,对目标图像的像素点的像素值进行卷积处理,得到目标图像的相似性特征。
在另一种实施方式中,服务器可以将目标图像输入卷积神经网络,对目标图像的像素点的像素值进行卷积处理,得到目标图像的相似性特征。例如,可以将卷积神经网络中卷积层的输出值作为目标图像的相似性特征,还可以将卷积神经网络中全连接层的输出值作为目标图像的相似性特征。
第三种实施方式:计算目标图像的尺度不变特征变换SIFT(Scale InvariantFeature Transform)特征;统计目标图像的SIFT特征在视觉词包词典中的命中频次;确定命中频次对应的分布直方图,作为目标图像的相似性特征。
在另一种实施方式中,服务器可以预先提取多个图像样本的SIFT特征,将该多个图像样本的SIFT特征进行聚类,得到视觉词包词典。这样,在接收到终端发送的目标图像后,服务器可以计算目标图像的SIFT特征,然后统计目标图像的SIFT特征在视觉词包词典中的命中频次,进而确定命中频次对应的分布直方图,作为目标图像的相似性特征。
其中,上述命中频次可以表示视觉词包词典中的每种类型的SIFT特征在目标图像的SIFT特征中出现的次数,上述分布直方图的横坐标表示视觉词包词典中的每种类型的SIFT特征,纵坐标表示该类型的SIFT特征在目标图像的SIFT特征中出现的次数。
例如,视觉词包词典中包括2种类型的SIFT特征S1及S2,服务器确定目标图像M1的SIFT特征为20个,在目标图像M1的20个SIFT特征中有9个SIFT特征为S1类型的SIFT特征、11个SIFT特征为S2类型的SIFT特征,那么目标图像的SIFT特征在视觉词包词典中的命中频次即为“[9,11]”,表示S1类型的SIFT特征在目标图像M1的SIFT特征中出现的次数为9,S2类型的SIFT特征在目标图像M1的SIFT特征中出现的次数为11。
可见,本发明实施例所提供的方案中,目标图像的相似性特征的确定方式至少包括以下方式中的一个:对目标图像进行灰度化处理,得到灰度图,将灰度图划分为多个子图,根据每个子图包括的像素点的像素值,确定每个子图的离散余弦变换系数,计算每个子图的离散余弦变化系数对应的哈希值,基于哈希值确定目标图像的相似性特征;将目标图像输入卷积神经网络,对目标图像的像素点的像素值进行卷积处理,得到目标图像的相似性特征;计算目标图像的尺度不变特征变换SIFT特征,统计目标图像的SIFT特征在视觉词包词典中的命中频次,确定命中频次对应的分布直方图,作为目标图像的相似性特征,其中,视觉词包词典为对预先提取的多个图像样本的SIFT特征进行聚类得到的。这样,服务器可以采用多种方式准确确定目标图像的相似性特征。
作为本发明实施例的一种实施方式,如图2所示,在上述接收终端发送的目标图像的步骤之前,所述方法还可以包括:
S201,判断终端当前播放的视频是否为重转状态,如果当前播放的视频为重转状态,执行步骤S202;如果当前播放的视频不为重转状态,执行步骤S203;
为了方便确定视频中对象的对象信息,服务器可以预先建立对象信息数据库,具体来说,服务器可以对预先获取的多个待处理视频包括的待识别对象进行检测,确定待处理视频中包括待识别对象的视频帧的时间点,然后可以对包括待识别对象的视频帧进行图像识别,确定待识别对象的对象信息,进而将上述时间点及对象信息对应保存,得到每个视频对应的对象信息数据库。这样,上述对象信息数据库也就包括时间点与对象信息的对应关系。
在一种实施方式中,服务器可以在首次建立对象信息数据库保存包括待识别对象的视频帧的时间点和待识别对象的对象信息的同时,建立特征数据库保存包括待识别对象的视频帧的相似性特征和待识别对象的对象信息。具体的,服务器在首次建立对象信息数据库的同时,可以确定待处理视频中包括待识别对象的视频帧的相似性特征,将相似性特征与待识别对象的对象信息对应保存,得到每个待处理视频对应的特征数据库。
在某些情况下,视频对应的对象信息数据库需要重新建立,重新建立视频对应的对象信息数据库所需的一段时间即为空档期,此时该视频的状态可以称为重转状态。例如,当视频被编辑后,视频的时长通常会发生变化,在这种情况下,需要对被编辑后的视频进行处理,重新建立该视频对应的对象信息数据库所需的一段时间即为空档期,此时该视频即为重转状态。
这样,当需要确定视频中对象的对象信息时,服务器可以先判断终端当前播放的视频是否为重转状态。如果当前播放的视频为重转状态,可以执行步骤S202;如果当前播放的视频不为重转状态,则可以执行步骤S203。
在一种实施方式中,服务器可以按照预设的时间间隔查询每个待处理视频对应的对象信息数据库是否处于重新建立状态,如果某个待处理视频对应的对象信息数据库处于重新建立状态,可以设置该待处理视频的状态标签为重转标签,该重转标签用于标识该待处理视频为重转状态;如果某个待处理视频对应的对象信息数据库不处于重新建立状态,则可以设置该待处理视频的状态标签为非重转标签,该非重转标签用于标识该待处理视频为非重转状态。这样,服务器便可以根据终端当前播放的视频的状态标签确定该视频是否处于重转状态。
S202,接收终端发送的目标图像;
如果终端当前播放的视频为重转状态,说明在用户发出对象识别指令时终端当前播放的视频对应的对象信息数据库处于重新建立状态,那么服务器也就无法从对象信息数据库中确定准确的对象信息,这时服务器便可以接收终端发送的目标图像,也就是上述步骤S101,进而继续执行上述步骤S102-S104,以根据目标图像的目标特征从特征数据库中查找对象信息。
S203,确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点;
如果终端当前播放的视频为非重转状态,那么服务器便可以确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点。
在一种实施方式中,终端在获取到对象识别指令时可以确定当前播放的目标视频的视频播放时间点,作为待查询时间点,然后终端可以将目标图像及待查询时间点一同发送至服务器。
例如,终端在播放视频S1*至11分58秒时获取到对象识别指令,那么终端可以截取视频S1*11分58秒对应的视频图像作为目标图像,并确定待查询时间点为“11分58秒”,然后将目标图像及待查询时间点“11分58秒”发送至服务器。
在另一种实施方式中,终端在获取到对象识别指令时可以确定当前播放的目标视频的视频播放时间点,作为待查询时间点,然后将待查询时间点发送至服务器。
服务器在接收到待查询时间点后,可以判断目标视频是否为重转状态。如果目标视频为非重转状态,服务器可以在预先建立的对象信息数据库中查找与待查询时间点相匹配的目标时间点,将目标时间点对应的对象信息发送至终端。
如果目标视频为重转状态,服务器可以向终端发送查找失败消息,终端在接受到服务器发送的查找失败消息后,可以将目标图像发送至服务器。
S204,从所述对象信息数据库中查找与待查询时间点相同的目标时间点,将所述目标时间点对应的对象信息发送至所述终端。
这样,在确定待查询时间点之后,服务器可以从对象信息数据库中查找与待查询时间点相同的目标时间点,目标时间点对应的视频帧中包括的对象即为用户需要查看对象信息所针对的目标对象。
进而,服务器可以根据对象信息数据库包括的时间点与对象信息的对应关系,确定目标时间点对应的对象信息,然后可以将目标时间点对应的对象信息发送至终端,终端便可以接收并显示对象信息,以供用户查看。
例如,服务器确定与待查询时间点相同的目标时间点为11分58秒,对象信息数据库包括的时间点与对象信息的对应关系如下表所示:
时间点 对象信息
10分52秒 对象信息D1*
11分37秒 对象信息D2*、对象信息D3*
11分58秒 对象信息D4*
服务器根据上表可以确定目标时间点11分58秒对应的对象信息为对象信息D4*,然后便可以将对象信息D4*发送至终端。
可见,本发明实施例所提供的方案中,服务器可以在接收终端发送的目标图像之前,判断终端当前播放的视频是否为重转状态,如果是,执行接收终端发送的目标图像的步骤;如果否,确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点;从对象信息数据库中查找与待查询时间点相同的目标时间点,将目标时间点对应的对象信息发送至终端。这样,当用户需要查看的对象所属的目标视频为重转状态时,服务器可以通过目标图像的相似性特征,从目标视频对应的特征数据库中确定准确的对象信息。
作为本发明实施例的一种实施方式,如图3所示,上述特征数据库的建立方式,可以包括:
S301,从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频;
服务器可以预先获取多个视频,作为待处理视频,然后从待处理视频中确定包括待识别对象的预设时长的视频。预设时长的视频中存在包括待识别对象的目标视频帧,还可能存在不包括待识别对象的视频帧,其中,预设时长可以根据待识别对象在待处理视频中持续出现的最大时长进行设置。
S302,对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息;
在确定预设时长的视频之后,服务器可以对预设时长的视频进行图像识别,确定包括待识别对象的目标视频帧及待识别对象的对象信息。
在一种实施方式中,服务器可以将预设时长的视频输入对象检测模型,根据视频帧的图像特征进行图像识别,确定预设时长的视频中包括待识别对象的目标视频帧及待识别对象的对象信息。其中,对象检测模型为预先训练的用于识别视频帧中待识别对象,得到包括待识别对象的目标视频帧及待识别对象的对象信息的深度学习模型,例如,可以为卷积神经网络、残差神经网络等深度学习模型,在此不做具体限定。
S303,判断所述目标视频帧中的所述待识别对象是否满足预设的特征提取条件,如果是,执行步骤S304;如果否,不执行操作。
当待识别对象在目标视频帧中的位置较为明显,或者所占面积较大等条件下,该待识别对象对于用户而言是容易注意到的,用户注意到待识别对象的可能性较高,那么用户想要查看该待识别对象的对象信息的可能性也就越高;当待识别对象在目标视频帧中的位置较不明显,或者所占面积较小等条件下,该待识别对象对于用户而言是不容易注意到的,用户注意到待识别对象的可能性较低,那么用户想要查看该待识别对象的对象信息的可能性也就越低。所以,预设的特征提取条件表示用户容易注意到目标视频帧中的待识别对象。
这样,为了确定用户想要查看待识别对象的对象信息的可能性,服务器可以判断目标视频帧是否满足预设的特征提取条件。如果目标视频帧满足预设的特征提取条件,则可以执行步骤S304;如果目标视频帧不满足预设的特征提取条件,则不执行操作。
例如,预设的特征提取条件可以为待识别对象在目标视频帧中面积较大;预设的特征提取条件还可以为待识别对象在目标视频帧中处于中心区域等,这都是合理的。
S304,提取所述目标视频帧的图像特征,并根据所提取的图像特征确定所述目标视频帧的相似性特征;
如果目标视频帧满足预设的特征提取条件,说明待识别对象在目标视频帧中明显可见,那么用户想要查看待识别对象的对象信息的可能性也就较高,那么服务器便需要提取该目标视频帧的图像特征,并根据所提取的图像特征确定该目标视频帧的相似性特征,并将该目标视频帧包括的待识别对象的对象信息及该目标视频帧的相似性特征保存在特征数据库中。
如果目标视频帧不满足预设的特征提取条件,说明待识别对象在目标视频帧中并不明显可见,那么用户想要查看待识别对象的对象信息的可能性也就较低,服务器便无需将该目标视频帧包括的待识别对象的对象信息及该目标视频帧的相似性特征保存在特征数据库中。这样,服务器也就无需确定该目标视频帧的相似性特征。
S305,将所述相似性特征与所述待识别对象的对象信息对应保存,得到所述特征数据库。
在确定目标视频帧的相似性特征之后,服务器便可以将相似性特征与待识别对象的对象信息对应保存,得到特征数据库,该特征数据库也就包括相似性特征与对象信息之间的对应关系。
这样,服务器便可以建立特征数据库,当用户需要查看待处理视频中对象的对象信息时,服务器便可以根据特征数据库包括的相似性特征与对象信息之间的对应关系,从特征数据库中确定对象信息并发送至终端,以供用户查看。
可见,本发明实施例所提供的方案中,服务器可以从预先获取的待处理视频待处理视频中,确定包括待识别对象的预设时长的视频;对预设时长的视频进行图像识别,确定包括待识别对象的目标视频帧及待识别对象的对象信息;在目标视频帧中的待识别对象满足预设的特征提取条件时,提取目标视频帧的图像特征,并根据所提取的图像特征确定目标视频帧的相似性特征;将相似性特征与待识别对象的对象信息对应保存,得到特征数据库。这样,当目标视频为重转状态时,服务器可以根据预先建立的特征数据库包括的相似性特征与对象信息之间的对应关系准确确定对象信息。
作为本发明实施例的一种实施方式,上述对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息的步骤,可以包括:
将预设时长的视频输入目标跟踪模型,以使目标跟踪模型提取预设时长的视频的图像特征,并根据所提取的图像特征确定跟踪信息;获取预设时长的视频中从起始时间点到终止时间点对应的视频帧,作为目标视频帧。
在确定预设时长的视频之后,为了确定包括待识别对象的目标视频帧及待识别对象的对象信息,服务器可以将预设时长的视频输入目标跟踪模型,目标跟踪模型可以提取预设时长的视频中各视频帧的图像特征,并根据所提取的图像特征确定跟踪信息。其中,跟踪信息包括起始时间点、终止时间点及待识别对象的对象信息,起始时间点为预设时长的视频中待识别对象出现时的视频帧对应的时间点,终止时间点为预设时长的视频中待识别对象消失时对应的时间点。
目标跟踪模型可以是预先训练的用于识别视频帧中待识别对象的跟踪信息的深度学习模型,包括图像特征与跟踪信息之间的对应关系。例如,目标跟踪模型可以为卷积神经网络、SiamFC(Fully-convolutional Siamese architecture,全卷积孪生网络)等深度学习模型。
在得到跟踪信息之后,为了确定包括待识别对象的目标视频帧,服务器可以从预设时长的视频中提取从起始时间点到终止时间点这一时间段所对应的视频帧,作为目标视频帧。
可见,本发明实施例所提供的方案中,服务器可以将预设时长的视频输入目标跟踪模型,以使目标跟踪模型提取预设时长的视频的图像特征,并根据所提取的图像特征确定跟踪信息;获取预设时长的视频中从起始时间点到终止时间点对应的视频帧,作为目标视频帧,其中,跟踪信息包括待处理视频中起始时间点、终止时间点及待识别对象的对象信息,起始时间点为预设时长的视频中待识别对象出现时对应的时间点,终止时间点为预设时长的视频中待识别对象消失时对应的时间点。这样,服务器可以基于预先训练的目标跟踪模型,快速准确地确定包括待识别对象的目标视频帧及待识别对象的对象信息。
作为本发明实施例的一种实施方式,上述预设的特征提取条件至少可以包括以下条件中的一个:
待识别对象在目标视频帧中的面积达到预设面积、待识别对象位于目标视频帧的非边缘区域、待识别对象在目标视频帧中持续出现的时长大于预设时长。
上述预设的特征提取条件可以表示待识别对象在目标视频帧中明显可见。上述预设的特征提取条件可以为待识别对象在目标视频帧中的面积达到预设面积,其中,预设面积可以根据待识别对象在目标视频帧中面积占目标视频帧面积的比例等因素设置。
在一种实施方式中,待识别对象的对象信息可以包括表示待识别对象在目标视频帧中位置的矩形框对应的位置向量(x,y,w,h),(x,y)为表示目标对象在目标视频帧中的位置的矩形框的一个顶点在图像坐标系中的坐标,w为该矩形框的宽度,h为该矩形框的高度。在这种情况下,上述预设的特征提取条件可以为w>T1且h>T2,其中,T1为预设的宽度阈值,T2为预设的高度阈值。当位置向量(x,y,w,h)符合w>T1且h>T2时,说明待识别对象在目标视频帧中的面积较大,这时待识别对象是明显可见的。
上述预设的特征提取条件还可以为待识别对象位于目标视频帧的非边缘区域,当待识别对象位于目标视频帧的非边缘区域时,该待识别对象也就位于目标视频帧的中心区域,那么用户在观看待处理视频时,也就更可能注意到该待识别对象,也就是说,待识别对象是明显可见的。
在一种实施方式中,待识别对象的对象信息可以包括表示待识别对象在目标视频帧中位置的位置向量(x,y,w,h),其中,(x,y)为表示待识别对象在目标视频帧中的位置的矩形框的左上角顶点在视频帧坐标系中的坐标,w为该矩形框的宽度,h为该矩形框的高度。在这种情况下,上述预设的特征提取条件可以为x>T3、y>T4、x+w>T5且y+h>T6,其中,T3为预设的第一横坐标阈值,T4为预设的第一纵坐标阈值,x+w为矩形框的右下角顶点在视频帧坐标系中的横坐标,y+h为矩形框的右下角顶点在视频帧坐标系中的纵坐标,T3为预设的第二横坐标阈值,T4为预设的第二纵坐标阈值。当位置向量(x,y,w,h)符合x>T3、y>T4、x+w>T5且y+h>T6时,说明待识别对象位于目标视频帧的非边缘区域,那么待识别对象就是明显可见的。
上述预设的特征提取条件还可以为待识别对象在目标视频帧中持续出现的时长大于预设时长。当待识别对象在目标视频帧中持续出现的时长大于预设时长时,该待识别对象也就明显可见,那么在观看待处理视频时也就更可能注意到该待识别对象。其中,上述预设时长可以根据待识别对象在待处理视频中持续出现的平均时长等因素进行设置。
在一种实施方式中,服务器可以确定预设时长的视频中的起始时间点及终止时间点。在这种情况下,服务器可以计算终止时间点与起始时间点之间的差值,作为待识别对象在目标视频帧中持续出现的时长,那么上述预设的特征提取条件即为终止时间点与起始时间点之间的差值大于预设时长。当终止时间点与起始时间点之间的差值大于预设时长时,说明待识别对象在目标视频帧中持续出现的时长较长,那么待识别对象就是明显可见的。
可见,本发明实施例所提供的方案中,上述预设的特征提取条件至少可以包括以下条件中的一个:待识别对象在目标视频帧中的面积达到预设面积、待识别对象位于目标视频帧的非边缘区域、待识别对象在目标视频帧中持续出现的时长大于预设时长。这样,根据以上预设的特征提取条件可以方便服务器判断待识别对象在目标视频帧中是否明显可见。
作为本发明实施例的一种实施方式,如图4所示,上述从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频的步骤,可以包括:
S401,从预先获取的待处理视频中,按照预设间隔帧数提取第一视频帧;
为了减少确定包括待识别对象的目标视频帧所需的时间,服务器可以按照预设间隔数从预先获取的待处理视频中提取视频帧,作为第一视频帧。例如,可以每隔5帧提取一个视频帧,还可以每隔10帧提取一个视频帧等。
S402,对所述第一视频帧进行图像识别,确定其中包括待识别对象的第二视频帧;
在获得第一视频帧之后,服务器可以根据第一视频帧的图像特征对第一视频帧进行图像识别,确定第一视频帧中包括待识别对象的视频帧,作为第二视频帧。
在一种实施方式中,服务器可以将第一视频帧输入对象识别模型,根据第一视频帧的图像特征进行图像识别,确定第一视频帧中包括的待识别对象的对象信息,从而确定第一视频帧中存在对应的对象信息的视频帧,作为第二视频帧。
其中,对象识别模型可以是预先训练的用于识别视频帧中待识别对象的对象信息的深度学习模型,包括图像特征与对象信息之间的对应关系。例如,对象识别模型可以为Mask-RCNN(Mask Region Convolutional Neural Network,掩膜区域卷积神经网络)、R-CNN(Region Convolutional Neural Network,区域卷积神经网络)等深度学习模型。
S403,从所述待处理视频中提取包括所述第二视频帧的预设时长的视频。
在确定包括待识别对象的第二视频帧之后,由于待处理视频中与第二视频帧相邻的多个视频帧很可能同样包括待识别对象,用户发出对象识别指令时对应的视频帧很可能是该多个视频帧中的一个,所以服务器可以从待处理视频中提取包括第二视频帧的预设时长的视频。
可见,本发明实施例所提供的方案中,服务器可以从预先获取的待处理视频中,按照预设间隔帧数提取第一视频帧;对第一视频帧进行图像识别,确定其中包括待识别对象的第二视频帧;从待处理视频中提取包括第二视频帧的预设时长的视频。这样,服务器无需对待处理视频中的每个视频帧进行识别以确定包括待识别对象的预设时长的视频,可以减少获取预设时长的视频所需的时间。
作为本发明实施例的一种实施方式,当从特征数据库中未查找到与目标特征相匹配的目标相似性特征时,所述方法还可以包括:
将目标图像输入目标检测模型,根据目标图像的图像特征进行目标检测,得到目标图像中目标对象的对象信息;将目标对象的对象信息发送至终端。
服务器可以预先获取包括待识别对象的图像样本,基于该图像样本训练用于识别目标图像中目标对象的对象信息的目标检测模型。当从特征数据库中未查找到与目标特征相匹配的图像特征时,服务器可将目标图像输入目标检测模型,根据目标图像的图像特征进行目标检测,得到目标图像中目标对象的对象信息。
其中,目标图像中的目标对象为上述图像样本包括的待识别对象中的一个或多个,目标检测模型包括图像特征与预先获取的包括待识别对象的图像样本对应的对象信息之间的对应关系,目标检测模型可以为卷积神经网络、循环神经网络等深度学习模型。
在确定目标图像中目标对象的对象信息后,服务器便可以将目标对象的对象信息发送至终端,终端在接收到目标对象的对象信息后可以显示该对象信息,供用户查看。
可见,本发明实施例所提供的方案中,当从特征数据库中未查找到与目标特征相匹配的目标相似性特征时,服务器可以将目标图像输入目标检测模型,根据目标图像的图像特征进行目标检测,得到目标图像中目标对象的对象信息;将目标对象的对象信息发送至终端,以使终端接收并显示对象信息。这样,当特征数据库中未查找到与目标特征相匹配的图像特征时,服务器可以通过预先训练的目标检测模型确定目标图像中目标对象的对象信息以供用户查看。
上述所有深度学习模型均可以基于预先获取的样本以及标定信息,采用批量梯度下降算法、随机梯度下降算法等方法进行训练得到,对于其具体训练过程本发明实施例在此不做具体限定及说明。
下面结合图5所示的对象信息数据库及特征数据库的建立过程的示意图对本发明实施例提供的对象信息数据库及特征数据库的建立过程进行说明。图5中以例对待识别对象为商品进行说明。
服务器预先获取视频(待处理视频)之后,可以通过识物SDK(SoftwareDevelopment Kit,软件开发工具包)中包括的目标跟踪模型确定数据点位,其中,数据点位包括商品的对象信息及点位信息,也就是目标视频帧的时间点。然后保存数据点位,得到点位库,作为对象信息数据库。
处理器还可以提取点位对应的视频帧(目标视频帧)的图像特征,根据所提取的图像特征确定目标视频帧的相似性特征,图5中以Hash特征为例进行说明。进而,服务器可以保存Hash特征、商品的对象信息及点位信息得到特征库(特征数据库)。
下面结合图6所示的对象信息的识别过程的示意图对本发明实施例所提供的视频中对象信息的识别方法的过程进行说明。如图6所示,当终端获取到对象识别指令时,服务器可以判断当前播放的视频是否重转,也就是判断当前播放的视频是否处于重转状态,如果否,服务器可以确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点,然后查询点位库,也就是从对象信息数据库中查找与待查询时间点相同的目标时间点,得到结果,该结果也就是目标时间点对应的对象信息。
如果当前播放的视频是重转状态,服务器可以接收终端发送的目标图像,提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征,然后可以查询特征库,也就是基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找与目标特征相匹配的目标相似性特征。
如果从特征数据库中查找到与目标特征相匹配的目标相似性特征,说明目标特征在库,可以得到结果:目标相似性特征对应的目标对象的对象信息;如果未从特征数据库中查找到与目标特征相匹配的目标相似性特征,说明目标特征不在库,可以将目标图像输入识物SDK包括的目标检测模型,得到目标图像中目标对象的对象信息,作为结果。
相应于上述一种视频中对象信息的识别方法,本发明实施例还提供了一种视频中对象信息的识别装置。下面对本发明实施例所提供的一种视频中对象信息的识别装置进行介绍。
如图7所示,一种视频中对象信息的识别装置,所述装置包括:
图像接收模块701,用于接收终端发送的目标图像;
其中,所述目标图像为所述终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,所述目标图像包括目标对象。
相似性特征确定模块702,用于提取所述目标图像的图像特征,并根据所述图像特征确定所述目标图像的相似性特征,作为目标特征;
目标相似性查找模块703,用于基于所述目标特征与特征数据库包括的各相似性特征的相似度,从所述特征数据库中查找到与所述目标特征相匹配的目标相似性特征;
其中,所述特征数据库为通过数据库建立模块(图7中未示出)预先建立的包括相似性特征与对象信息的对应关系的数据库。
对象信息第一发送模块704,用于将所述目标相似性特征对应的所述目标对象的对象信息发送至所述终端。
可见,本发明实施例提供的方案中,服务器可以接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时截取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。由于目标相似性特征可以准确的表征包括目标对象的图像的图像特征,所以可以从特征数据库中查找到准确的对象信息,可以提高视频中目标对象的对象信息的识别准确度。
作为本发明实施例的一种实施方式,上述装置还可以包括:
重转状态确定模块(图7中未示出),用于在接收终端发送的目标图像之前,判断终端当前播放的视频是否为重转状态;
其中,所述重转状态表示视频对应的预先建立的对象信息数据库处于重新建立状态,所述对象信息数据库包括时间点与对象信息的对应关系。
第一执行模块(图7中未示出),用于如果是,执行所述接收终端发送的目标图像的步骤;
时间点确定模块(图7中未示出),用于如果否,确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点;
对象信息查找模块(图7中未示出),用于从所述对象信息数据库中查找与所述待查询时间点相同的目标时间点,将所述目标时间点对应的对象信息发送至所述终端。
作为本发明实施例的一种实施方式,如图8所示,上述数据库建立模块可以包括:
视频帧确定子模块801,用于从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频;
图像识别子模块802,用于对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息;
判断子模块803,用于判断所述目标视频帧中的所述待识别对象是否满足预设的特征提取条件;
相似性特征确定子模块804,用于如果是,提取所述目标视频帧的图像特征,并根据所提取的图像特征确定所述目标视频帧的相似性特征;
数据库建立子模块805,用于将所述相似性特征与所述待识别对象的对象信息对应保存,得到所述特征数据库。
作为本发明实施例的一种实施方式,上述图像识别子模块802可以包括:
跟踪信息确定单元(图8中未示出),用于将所述预设时长的视频输入目标跟踪模型,以使所述目标跟踪模型提取所述预设时长的视频的图像特征,并根据所提取的图像特征确定跟踪信息;
其中,所述跟踪信息包括起始时间点、终止时间点及所述待识别对象的对象信息,所述起始时间点为所述预设时长的视频中所述待识别对象出现时对应的时间点,所述终止时间点为所述预设时长的视频中所述待识别对象消失时对应的时间点。
目标视频帧确定单元(图8中未示出),用于获取所述预设时长的视频中从所述起始时间点到所述终止时间点对应的视频帧,作为目标视频帧。
作为本发明实施例的一种实施方式,上述预设的特征提取条件至少包括以下条件中的一个:
所述待识别对象在所述目标视频帧中的面积达到预设面积;
所述待识别对象位于所述目标视频帧的非边缘区域;
所述待识别对象在所述目标视频帧中持续出现的时长大于预设时长。
作为本发明实施例的一种实施方式,上述视频帧确定子模块801可以包括:
第一视频帧确定单元(图8中未示出),用于从预先获取的待处理视频中,按照预设间隔帧数提取第一视频帧;
第二视频帧确定单元(图8中未示出),用于对所述第一视频帧进行图像识别,确定其中包括待识别对象的第二视频帧;
视频帧抽取单元(图8中未示出),用于从所述待处理视频中提取包括所述第二视频帧的预设时长的视频。
作为本发明实施例的一种实施方式,上述装置还可以包括:
对象识别模块(图7中未示出),用于当从所述特征数据库中未查找到与所述目标特征相匹配的目标相似性特征时,将所述目标图像输入目标检测模型,根据所述目标图像的图像特征进行目标检测,得到所述目标图像中目标对象的对象信息;
对象信息第二发送模块(图7中未示出),用于将所述目标对象的对象信息发送至所述终端。
作为本发明实施例的一种实施方式,上述相似性特征确定模块702确定上述目标图像的相似性特征的方式至少包括以下方式中的一个:
对所述目标图像进行灰度化处理,得到灰度图;将所述灰度图划分为多个子图,根据每个所述子图包括的像素点的像素值,确定每个所述子图的离散余弦变换系数;计算每个所述子图的离散余弦变化系数对应的哈希值,基于所述哈希值确定所述目标图像的相似性特征;
将所述目标图像输入卷积神经网络,对所述目标图像的像素点的像素值进行卷积处理,得到所述目标图像的相似性特征;
计算所述目标图像的尺度不变特征变换SIFT特征;统计所述目标图像的SIFT特征在视觉词包词典中的命中频次;确定所述命中频次对应的分布直方图,作为所述目标图像的相似性特征;
其中,所述视觉词包词典为对预先提取的多个图像样本的SIFT特征进行聚类得到的。
本发明实施例还提供了一种服务器,如9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述任一实施例所述的视频中对象信息的识别方法步骤。
可见,本发明实施例提供的方案中,服务器可以可以接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。由于目标相似性特征可以准确的表征包括目标对象的图像的图像特征,所以可以从特征数据库中查找到准确的对象信息,可以提高视频中目标对象的对象信息的识别准确度。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一实施例所述的视频中对象信息的识别方法步骤。
可见,本发明实施例提供的方案中,计算机可读存储介质内存储的计算机程序被处理器执行时,可以接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。由于目标相似性特征可以准确的表征包括目标对象的图像的图像特征,所以可以从特征数据库中查找到准确的对象信息,可以提高视频中目标对象的对象信息的识别准确度。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例所述的视频中对象信息的识别方法步骤。
可见,本发明实施例提供的方案中,包含指令的计算机程序产品在计算机上运行时,可以接收终端发送的目标图像,其中,目标图像为终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,目标图像包括目标对象;提取目标图像的图像特征,并根据图像特征确定目标图像的相似性特征,作为目标特征;基于目标特征与特征数据库包括的各相似性特征的相似度,从特征数据库中查找到与目标特征相匹配的目标相似性特征,其中,特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;将目标相似性特征对应的目标对象的对象信息发送至终端。由于相似性特征可以准确的表征包括目标对象的图像的图像特征,所以可以从特征数据库中查找到准确的对象信息,可以提高视频中目标对象的对象信息的识别准确度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种视频中对象信息的识别方法,其特征在于,所述方法包括:
判断终端当前播放的视频是否为重转状态,其中,所述重转状态表示视频对应的预先建立的对象信息数据库处于重新建立状态,当视频为重转状态时,服务器无法通过所述视频对应的对象信息数据库准确地确定对象信息;所述对象信息数据库包括时间点与对象信息的对应关系;
如果否,确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点;
从所述对象信息数据库中查找与所述待查询时间点相同的目标时间点,将所述目标时间点对应的对象信息发送至所述终端;
如果是,接收终端发送的目标图像,其中,所述目标图像为所述终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,所述目标图像包括目标对象;
提取所述目标图像的图像特征,并根据所述图像特征确定所述目标图像的相似性特征,作为目标特征;
基于所述目标特征与特征数据库包括的各相似性特征的相似度,从所述特征数据库中查找到与所述目标特征相匹配的目标相似性特征,其中,所述特征数据库为预先建立的包括相似性特征与对象信息的对应关系的数据库;
将所述目标相似性特征对应的所述目标对象的对象信息发送至所述终端;
其中,所述特征数据库是在首次建立所述对象信息数据库时建立的;
所述特征数据库的建立方式,包括:
从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频;
对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息;
判断所述目标视频帧中的所述待识别对象是否满足预设的特征提取条件;
如果是,提取所述目标视频帧的图像特征,并根据所提取的图像特征确定所述目标视频帧的相似性特征;
将所述相似性特征与所述待识别对象的对象信息对应保存,得到所述特征数据库。
2.根据权利要求1所述的方法,其特征在于,所述对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息的步骤,包括:
将所述预设时长的视频输入目标跟踪模型,以使所述目标跟踪模型提取所述预设时长的视频的图像特征,并根据所提取的图像特征确定跟踪信息,其中,所述跟踪信息包括起始时间点、终止时间点及所述待识别对象的对象信息,所述起始时间点为所述预设时长的视频中所述待识别对象出现时对应的时间点,所述终止时间点为所述预设时长的视频中所述待识别对象消失时对应的时间点;
获取所述预设时长的视频中从所述起始时间点到所述终止时间点对应的视频帧,作为目标视频帧。
3.根据权利要求1所述的方法,其特征在于,所述预设的特征提取条件至少包括以下条件中的一个:
所述待识别对象在所述目标视频帧中的面积达到预设面积;
所述待识别对象位于所述目标视频帧的非边缘区域;
所述待识别对象在所述目标视频帧中持续出现的时长大于预设时长。
4.根据权利要求1所述的方法,其特征在于,所述从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频的步骤,包括:
从预先获取的待处理视频中,按照预设间隔帧数提取第一视频帧;
对所述第一视频帧进行图像识别,确定其中包括待识别对象的第二视频帧;
从所述待处理视频中提取包括所述第二视频帧的预设时长的视频。
5.根据权利要求1-4任一项所述的方法,其特征在于,当从所述特征数据库中未查找到与所述目标特征相匹配的目标相似性特征时,所述方法还包括:
将所述目标图像输入目标检测模型,根据所述目标图像的图像特征进行目标检测,得到所述目标图像中目标对象的对象信息;
将所述目标对象的对象信息发送至所述终端。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述目标图像的相似性特征的确定方式至少包括以下方式中的一个:
对所述目标图像进行灰度化处理,得到灰度图;将所述灰度图划分为多个子图,根据每个所述子图包括的像素点的像素值,确定每个所述子图的离散余弦变换系数;计算每个所述子图的离散余弦变化系数对应的哈希值,基于所述哈希值确定所述目标图像的相似性特征;
将所述目标图像输入卷积神经网络,对所述目标图像的像素点的像素值进行卷积处理,得到所述目标图像的相似性特征;
计算所述目标图像的尺度不变特征变换SIFT特征;统计所述目标图像的SIFT特征在视觉词包词典中的命中频次;确定所述命中频次对应的分布直方图,作为所述目标图像的相似性特征,其中,所述视觉词包词典为对预先提取的多个图像样本的SIFT特征进行聚类得到的。
7.一种视频中对象信息的识别装置,其特征在于,所述装置包括:
重转状态确定模块,用于判断终端当前播放的视频是否为重转状态;其中,所述重转状态表示视频对应的预先建立的对象信息数据库处于重新建立状态,当视频为重转状态时,服务器无法通过所述视频对应的对象信息数据库准确地确定对象信息;所述对象信息数据库包括时间点与对象信息的对应关系;
时间点确定模块,用于在所述重转状态确定模块的判断结果为否时,确定终端获取到对象识别指令时视频播放时间点,作为待查询时间点;
对象信息查找模块,用于从所述对象信息数据库中查找与所述待查询时间点相同的目标时间点,将所述目标时间点对应的对象信息发送至所述终端;
图像接收模块,用于在所述重转状态确定模块的判断结果为是时,接收终端发送的目标图像,其中,所述目标图像为所述终端在获取到对象识别指令时获取的所播放的目标视频的当前视频图像,所述目标图像包括目标对象;
相似性特征确定模块,用于提取所述目标图像的图像特征,并根据所述图像特征确定所述目标图像的相似性特征,作为目标特征;
目标相似性查找模块,用于基于所述目标特征与特征数据库包括的各相似性特征的相似度,从所述特征数据库中查找到与所述目标特征相匹配的目标相似性特征,其中,所述特征数据库为通过数据库建立模块预先建立的包括相似性特征与对象信息的对应关系的数据库;
对象信息第一发送模块,用于将所述目标相似性特征对应的所述目标对象的对象信息发送至所述终端;
其中,所述特征数据库是在首次建立所述对象信息数据库时建立的;
所述特征数据库的建立方式,包括:从预先获取的待处理视频中,确定包括待识别对象的预设时长的视频;对所述预设时长的视频进行图像识别,确定包括所述待识别对象的目标视频帧及所述待识别对象的对象信息;判断所述目标视频帧中的所述待识别对象是否满足预设的特征提取条件;如果是,提取所述目标视频帧的图像特征,并根据所提取的图像特征确定所述目标视频帧的相似性特征;将所述相似性特征与所述待识别对象的对象信息对应保存,得到所述特征数据库。
8.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202010526493.8A 2020-06-09 2020-06-09 一种视频中对象信息的识别方法、装置及服务器 Active CN111666907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010526493.8A CN111666907B (zh) 2020-06-09 2020-06-09 一种视频中对象信息的识别方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010526493.8A CN111666907B (zh) 2020-06-09 2020-06-09 一种视频中对象信息的识别方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN111666907A CN111666907A (zh) 2020-09-15
CN111666907B true CN111666907B (zh) 2024-03-08

Family

ID=72386820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010526493.8A Active CN111666907B (zh) 2020-06-09 2020-06-09 一种视频中对象信息的识别方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN111666907B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112076958B (zh) * 2020-09-18 2021-11-19 吉林华微电子股份有限公司 芯片涂胶方法、装置及匀胶机
CN112232379B (zh) * 2020-09-25 2022-07-08 苏州浪潮智能科技有限公司 一种相似视频识别方法、装置、终端及存储介质
CN113438507B (zh) * 2021-06-11 2023-09-15 上海连尚网络科技有限公司 一种用于确定视频侵权的方法、设备及介质
CN113920750B (zh) * 2021-09-30 2022-12-06 杭州海康威视数字技术股份有限公司 一种信息获得方法、系统、装置、电子设备及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104023247A (zh) * 2014-05-29 2014-09-03 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
CN106708823A (zh) * 2015-07-20 2017-05-24 阿里巴巴集团控股有限公司 一种搜索处理方法、装置及系统
CN108124167A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 一种播放处理方法、装置和设备
CN109218750A (zh) * 2018-10-30 2019-01-15 百度在线网络技术(北京)有限公司 视频内容检索的方法、装置、存储介质和终端设备
CN110362714A (zh) * 2019-07-25 2019-10-22 腾讯科技(深圳)有限公司 视频内容的搜索方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916626A (zh) * 2013-01-05 2014-07-09 中兴通讯股份有限公司 一种监控录像信息提供方法、装置及视频监控系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104023247A (zh) * 2014-05-29 2014-09-03 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
CN106708823A (zh) * 2015-07-20 2017-05-24 阿里巴巴集团控股有限公司 一种搜索处理方法、装置及系统
CN108124167A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 一种播放处理方法、装置和设备
CN109218750A (zh) * 2018-10-30 2019-01-15 百度在线网络技术(北京)有限公司 视频内容检索的方法、装置、存储介质和终端设备
CN110362714A (zh) * 2019-07-25 2019-10-22 腾讯科技(深圳)有限公司 视频内容的搜索方法和装置

Also Published As

Publication number Publication date
CN111666907A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666907B (zh) 一种视频中对象信息的识别方法、装置及服务器
US20180242047A1 (en) Method and apparatus for identifying television channel information
WO2021051601A1 (zh) 利用Mask R-CNN选择检测框的方法及系统、电子装置及存储介质
CN109871815B (zh) 一种查询监控信息的方法及装置
CN109426785B (zh) 一种人体目标身份识别方法及装置
CN111767783A (zh) 行为检测、模型训练方法、装置、电子设备及存储介质
WO2020224325A1 (zh) 视频指纹提取及视频检索方法、装置、终端及存储介质
US20170352162A1 (en) Region-of-interest extraction device and region-of-interest extraction method
CN108764100B (zh) 一种目标行为检测方法及服务器
WO2020238556A1 (zh) 基于配置平台的数据传输方法、装置和计算机设备
CN112733666A (zh) 一种难例图像的搜集、及模型训练方法、设备及存储介质
CN111383246A (zh) 条幅检测方法、装置及设备
CN113255651A (zh) 包裹安检方法、装置及系统和节点设备、存储装置
CN110287361B (zh) 一种人物图片筛选方法及装置
WO2020077869A1 (zh) 图像检索方法、装置、终端及存储介质
CN108647570B (zh) 斑马线检测方法、装置及计算机可读存储介质
CN113762229A (zh) 一种建筑场地内建筑器材的智能识别方法及系统
CN112270356A (zh) 一种图像识别方法、装置及电子设备
CN112689120A (zh) 一种监控方法及装置
CN112784691B (zh) 一种目标检测模型训练方法、目标检测方法和装置
CN114550256A (zh) 极小目标检测方法、装置、设备及计算机可读介质
JP6244887B2 (ja) 情報処理装置、画像探索方法、及びプログラム
CN109993178B (zh) 一种特征数据生成和特征匹配方法及装置
CN111091118A (zh) 图像的识别方法、装置及电子设备和存储介质
CN107092702B (zh) 基于重叠比例的地理信息要素位置对比检查方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant