CN111325198B - 视频对象特征提取方法和装置、视频对象匹配方法和装置 - Google Patents

视频对象特征提取方法和装置、视频对象匹配方法和装置 Download PDF

Info

Publication number
CN111325198B
CN111325198B CN201811527701.5A CN201811527701A CN111325198B CN 111325198 B CN111325198 B CN 111325198B CN 201811527701 A CN201811527701 A CN 201811527701A CN 111325198 B CN111325198 B CN 111325198B
Authority
CN
China
Prior art keywords
identified
component area
video frame
image plane
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811527701.5A
Other languages
English (en)
Other versions
CN111325198A (zh
Inventor
陈广义
鲁继文
杨铭
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201811527701.5A priority Critical patent/CN111325198B/zh
Publication of CN111325198A publication Critical patent/CN111325198A/zh
Application granted granted Critical
Publication of CN111325198B publication Critical patent/CN111325198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种视频对象特征提取方法和装置、视频对象匹配方法和装置、电子设备以及计算机可读存储介质,解决了现有视频对象特征提取的准确性低的问题。该视频对象特征提取方法包括:获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息;获取每个所述视频帧中待识别对象所在像面的各组成区域的空域分值;以及根据所获取的每个所述视频帧中待识别对象所在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的各组成区域的综合局部特征信息。

Description

视频对象特征提取方法和装置、视频对象匹配方法和装置
技术领域
本发明涉及视频分析技术领域,具体涉及一种视频对象特征提取方法和装置、视频对象匹配方法和装置、电子设备以及计算机可读存储介质。
背景技术
视频对象特征提取技术是指从连续的视频流中提取出用于表征视频对象的特征信息的过程,被广泛应用于视频对象识别和监控领域。现有的视频对象特征提取方式是从多个视频帧中的相同感兴趣区域提取视频对象特征。然而在实际的应用场景中,视频监控设备的监控场景往往是动态的。一旦视频监控设备的监控场景中出现遮挡物或其他背景干扰,感兴趣区域的图像内容就可能产生偏差,基于感兴趣区域提取到的视频对象特征也会出现错误,从而严重降低视频对象特征提取的准确性。
发明内容
有鉴于此,本发明实施例提供了一种视频对象特征提取方法和装置、视频对象匹配方法和装置、电子设备以及计算机可读存储介质,解决了现有视频对象特征提取的准确性低的问题。
根据本发明的一个方面,本发明一实施例提供的一种视频对象特征提取方法包括:获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息;获取每个所述视频帧中待识别对象所在像面的各组成区域的空域分值;以及根据所获取的每个所述视频帧中待识别对象所在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的各组成区域的综合局部特征信息。
根据本发明的另一个方面,本发明一实施例提供的一种视频对象匹配方法包括:获取第一视频流中第一对象所在像面的各组成区域的综合局部特征信息、各组成区域的综合空域分值以及所述第一对象的全局特征信息;获取第二视频流中第二对象所在像面的各组成区域的综合局部特征信息、各组成区域的综合空域分值以及所述第二对象的全局特征信息;以及基于所述第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象所在像面的各组成区域的综合空域分值、所述第一对象的全局特征信息、所述第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象所在像面的各组成区域的综合空域分值、所述第二对象的全局特征信息,判断所述第一对象与所述第二对象是否一致。
根据本发明的一个方面,本发明一实施例提供的一种视频对象特征提取装置包括:第一特征获取模块,配置为获取视频流的每个所述视频帧中待识别对象所在像面的各组成区域的局部特征信息;空域分值获取模块,配置为获取每个所述视频帧中待识别对象所在像面的各组成区域的空域分值;以及局部特征获取模块,配置为根据所获取的每个所述视频帧中待识别对象所在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的各组成区域的综合局部特征信息。
根据本发明的一个方面,本发明一实施例提供的一种视频对象匹配装置,与如前所述的视频对象特征提取装置通信连接,所述视频对象匹配装置包括:度量参数获取模块,配置为从所述视频对象特征提取装置获取第一视频流中第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象的各组成区域的综合空域分值以及所述第一对象的全局特征信息;以及从所述视频对象特征提取装置获取第二视频流中第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象各组成区域的综合空域分值以及所述第二对象的全局特征信息;以及度量执行模块,配置为基于所述第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象的各组成区域的综合空域分值、所述第一对象的全局特征信息、所述第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象的各组成区域的综合空域分值、所述第二对象的全局特征信息,判断所述第一对象与所述第二对象是否一致。
根据本发明的一个方面,本发明一实施例提供的一种电子设备,包括:处理器;以及存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如前任一所述的方法。
根据本发明的一个方面,本发明一实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如前任一所述的方法。
本发明实施例提供的一种视频对象特征提取方法和装置、视频对象匹配方法和装置、电子设备以及计算机可读存储介质,通过获取每个视频帧中待识别对象所在像面的各组成区域的空域分值,可以该空域分值来评价每个视频帧中待识别对象所在像面各组成区域的局部特征信息的图像质量高低;通过参考每个视频帧中待识别对象所在像面各组成区域的空域分值,可获取待识别对象所在像面的各组成区域的综合局部特征信息,从而将待识别对象所在像面各组成区域在时间维度上的动态变化考虑在内。这样当一个视频帧中待识别对象所在像面的某个组成区域被障碍物遮挡或被背景图像干扰时,该视频帧中该组成区域所获取的空域分值也较低,从而使得在获取该组成区域的综合局部特征信息时,该视频帧中的该组成区域的局部特征信息的重要性被降低,该视频帧中的该组成区域的局部特征信息对最终获取的综合局部特征信息的影响也被降低,从而提高最终获取的综合局部特征信息的准确性,可有效的避免监控场景遮挡物或其他背景的干扰,显著地提高了视频对象特征提取的准确性。
附图说明
图1所示为本发明一实施例提供的一种视频对象特征提取方法的流程示意图。
图2所示为本发明一实施例提供的一种视频对象特征提取方法的原理示意图。
图3所示为本发明另一实施例提供的一种视频对象特征提取方法的原理示意图。
图4所示为本发明另一实施例提供的一种视频对象特征提取方法的流程示意图。
图5所示为本发明另一实施例提供的一种视频对象特征提取方法的原理示意图。
图6所示为本发明一实施例提供的一种视频对象特征提取方法中识别组成区域的流程示意图。
图7a、7b和7c分别为本发明一实施例提供的一种视频对象特征提取方法中识别组成区域的原理示意图。
图8所示为本发明一实施例提供的一种视频对象特征提取方法中获取各组成区域的局部特征信息的流程示意图。
图9所示为本发明另一实施例提供的一种视频对象特征提取方法的流程示意图。
图10所示为本发明另一实施例提供的一种视频对象特征提取方法的原理示意图。
图11所示为本发明另一实施例提供的一种视频对象特征提取方法中残差注意网络模型的结构示意图。
图12所示为本发明另一实施例提供的一种视频对象特征提取方法的流程示意图。
图13分别所示为本发明另一实施例提供的一种视频对象特征提取方法的原理示意图。
图14分别所示为本发明一实施例提供的一种视频对象匹配方法的流程示意图。
图15所示为本发明一实施例提供的一种视频对象特征提取装置的结构示意图。
图16所示为本发明另一实施例提供的一种视频对象特征提取装置的结构示意图。
图17所示为本发明一实施例提供的一种视频对象匹配装置的结构示意图。
图18所示为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请概述
为了解决上述现有视频对象特征提取准确性低的问题,就必须将监控场景的动态变化考虑在内,降低监控场景中遮挡物或其他背景干扰的区域对于特征提取结果的干扰。考虑到遮挡物和背景干扰本身也是在动态变化的,因此当某一视频帧中的一个感兴趣区域因为被遮挡而出现偏差时,该视频帧的下一个视频帧或在时间维度上预设距离的视频帧中的该感兴趣区域可能就不会被遮挡了。因此,需要建立一种基于时间维度的评价机制,使得出现偏差的感兴趣区域对最终特征提取结果的影响变小,而主要参考那些没有出现偏差的感兴趣区域进行特征信息的提取,从而提高视频特征提取的准确性。
针对上述的技术问题,本申请的基本构思是提出一种视频对象特征提取方法和装置、视频对象匹配方法和装置、电子设备以及计算机可读存储介质,通过获取每个视频帧中待识别对象所在像面的各组成区域的空域分值52,可以该空域分值52来评价每个视频帧中待识别对象所在像面各组成区域的局部特征信息51的图像质量高低;通过参考每个视频帧中待识别对象所在像面各组成区域的空域分值52,可获取待识别对象所在像面的各组成区域的综合局部特征信息54,从而将待识别对象所在像面各组成区域在时间维度上的动态变化考虑在内。这样当一个视频帧中待识别对象所在像面的某个组成区域被障碍物遮挡或被背景图像干扰时,该视频帧中该组成区域所获取的空域分值52也较低,从而使得在获取该组成区域的综合局部特征信息54时,该视频帧中的该组成区域的局部特征信息51的重要性被降低,该视频帧中的该组成区域的局部特征信息51对最终获取的综合局部特征信息54的影响也被降低,从而提高最终获取的综合局部特征信息54的准确性,可有效的避免监控场景遮挡物或其他背景的干扰,显著地提高了视频对象特征提取的准确性。
需要说明的是,基于本发明实施例所提供的视频对象特征提取方法所获取到的特征信息可用于视频对象匹配、视频对象识别、视频对象监控、视频对象跟踪等各种视频应用场景,本发明对基于本发明实施例所提供的视频对象特征提取方法所获取到的特征信息的具体应用场景不做限定。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性视频对象特征提取方法
图1和图2分别所示为本发明一实施例提供的一种视频对象特征提取方法的流程示意图和原理示意图。如图1和图2所示,该视频对象特征提取方法包括:
步骤101:获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息51。
视频流是指用于提取视频对象的特征信息的由多个视频帧构成的视频流媒体,视频流中的视频帧可通过对视频流进行拆分处理获取。应当理解,该视频流可以是一个完整的监控视频文件,可以是从一个完整的监控视频文件中截取的一部分,也可以是从一个完整的监控视频文件中选取一些视频帧所组成的。例如,当该视频对象特征提取方法是实时进行时,该用于提取视频对象的特征信息的视频流就可能是当前视频帧的前预设数量个视频帧所构成的视频流,利用该前预设数量个视频帧来提取视频对象的特征信息。本发明对视频流的长度和内容并不做限定。
待识别对象所在像面是指待识别对象在一个视频帧中的图像,待识别对象所在像面可由多个组成区域构成,具体的组成区域构成方式可根据待识别对象的具体种类确定。例如,当待识别对象是人体时,人体所在像面就可由头部区域、身体区域、左臂区域、右臂区域、左腿区域和右腿区域等多个组成区域构成。然而应当理解,本视频对象特征提取方法所针对的视频对象也可以是除人体外的其他对象,例如,车辆和动物等,本发明对视频对象以及视频对象所在像面的组成区域构成不做严格限定。
局部特征信息51用于表征一个视频帧中待识别对象所在像面的一个组成区域的图像内容,该局部特征信息51是与一个视频帧中的一个组成区域相对应的。对于整个视频流而言,视频对象所在像面的每个组成区域存在于每个视频帧中,这也就意味着每个组成区域是与多个视频帧对应的,每个组成区域有与该多个视频帧对应的多个局部特征信息51。
步骤102:获取每个视频帧中待识别对象所在像面的各组成区域的空域分值52。
空域分值52用于评价一个视频帧中待识别对象所在像面的一个组成区域的图像质量。例如,当待识别对象为人体时,当一个视频帧中该人体的头部区域被遮挡时,那么该视频帧中的该头部区域的空域分值52就应当较低,因为该视频帧中的该头部区域的图像内容质量较差,需要降低该视频帧中的该头部区域所获取到的局部特征信息51对于最终特征提取结果的影响。
在本发明一实施例中,如图3所示,可以通过一个时空评价神经网络模型10来获取这些空域分值52。具体而言,可将视频流的每个视频帧输入该时空评价神经网络模型10,然后从该时空评价网络模型即可获取到每个视频帧中待识别对象所在像面的各组成区域的空域分值52。应当理解,该时空评价神经网络模型10可以通过预先的训练过程建立,例如,先对大量的图像样本进行人工评价以获取每个图像样本的空域分值52,然后再基于这些图像样本和对应的空域分值52进行神经网络训练,便可得到该时空评价神经网络模型10。
在本发明一实施例中,训练所得到的时空评价神经网络模型10可包括沿数据处理方向依次连接的第一卷积层11、第一池化层12、第二卷积层13、第三卷积层14、第二池化层15以及第一全连接层16。应当理解,该时空评价神经网络模型10的具体结构也可根据实际的场景需求而调整,其中的各层结构的具体参数(例如,块尺寸(patch size)、步长(stride)、以及输出尺寸(output size))也可根据实际的场景需求而调整,本发明对该时空评价神经网络模型10的具体内部结构不做严格限定。
在本发明一实施例中,为了使得每个视频帧中各组成区域的空域分值52便于统计和使用,可通过连续的近似符号函数将各组成区域的空域分值52映射到0至1之间。如图3所示,该连续的近似符号函数的处理过程可连接到时空评价神经网络模型10的输出端,以直接对该时空评价神经网络模型10的输出结果进行处理,以获取数值在0至1之间的空域分值52。
步骤103:根据所获取的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息51和空域分值52,获取待识别对象所在像面的各组成区域的综合局部特征信息54。
如前所述,通过获取每个视频帧中待识别对象所在像面的各组成区域的空域分值52,可以该空域分值52来评价每个视频帧中待识别对象所在像面各组成区域的局部特征信息51的图像质量高低。这样通过参考每个视频帧中待识别对象所在像面各组成区域的空域分值52,即可获取待识别对象所在像面的各组成区域的综合局部特征信息54,从而将待识别对象所在像面各组成区域在时间维度上的动态变化考虑在内。
在本发明一实施例中,可以组成区域对应每个视频帧的空域分值52为权重,将组成区域对应每个视频帧的局部特征信息51整合为该组成区域的综合局部特征信息54。这样空域分值52得分较低的组成区域的权重也较低,对最终获取的综合局部特征信息54的影响也会较低。
由此可见,通过采用本发明实施例所提供的视频对象特征提取方法,当一个视频帧中待识别对象所在像面的某个组成区域被障碍物遮挡或被背景图像干扰时,该视频帧中该组成区域所获取的空域分值52也较低,从而使得在获取该组成区域的综合局部特征信息54时,该视频帧中的该组成区域的局部特征信息51的重要性被降低,该视频帧中的该组成区域的局部特征信息51对最终获取的综合局部特征信息54的影响也被降低,从而提高最终获取的综合局部特征信息54的准确性,可有效的避免监控场景遮挡物或其他背景的干扰,显著地提高了视频对象特征提取的准确性。
图4和图5所示为本发明一实施例提供的一种视频对象特征提取方法的流程示意图和原理示意图。如图4和图5所示,视频对象特征提取方法中的局部特征信息51可通过如下步骤获取:
步骤1011:获取每个视频帧中待识别对象的全局特征图。
全局特征图用于表征一个视频帧中待识别对象所在像面的整体图像内容,例如在一些应用场景下为了去除背景影响且凸显出待识别对象的轮廓,可通过全卷积算子得到描述视频帧的表观信息的全局特征图,在获取全局特征图的过程中,未涉及局部区域的检测和分割。在本发明一实施例中,如图5所示,该全局特征图可通过第一全局特征提取神经网络模型20获取,具体而言,可将视频流的每个视频帧输入该第一全局特征提取神经网络模型20,然后从该第一全局特征提取神经网络模型20即可获取到每个视频帧的全局特征图。应当理解,该第一全局特征提取神经网络模型20可以通过预先的训练过程建立,例如,先对大量的图像样本进行预先的图像处理过程以获取每个图像样本的全局特征图,然后再基于这些图像样本和对应的全局特征图进行神经网络训练,便可得到该第一全局特征提取神经网络模型20。
在本发明一实施例中,训练所得到的第一全局特征提取神经网络模型20可包括沿数据处理方向依次连接的第四卷积层21、第一inception层22、第二inception层23以及第三inception层24。应当理解,该第一全局特征提取神经网络模型20的具体结构也可根据实际的场景需求而调整,其中的各层结构的具体参数(例如,块尺寸(patch size)、步长(stride)、以及输出尺寸(output size))也可根据实际的场景需求而调整,本发明对该第一全局特征提取神经网络模型20的具体内部结构不做严格限定。
步骤1012:识别每个视频帧中待识别对象所在像面的各组成区域。
如前所述,待识别对象所在像面可由多个组成区域构成,具体的组成区域构成方式可根据待识别对象的具体种类确定,具体的识别方式也可根据待识别对象的具体种类而调整。
在本发明一实施例中,待识别对象所在像面的各组成区域可根据特征识别点确定。具体而言,如图6所示,识别每个视频帧中待识别对象所在像面的各组成区域可包括如下步骤:
步骤10121:识别视频帧中的多个特征识别点。
如图7a所示,视频帧中的待识别对象为人体,则人体所在像面的多个特征识别点可为J1-J14。特征识别点的识别过程也可通过预先训练的神经网络模型实现,在此不再赘述。
步骤10122:根据多个特征识别点识别待识别对象所在像面的各组成区域,其中每个组成区域根据至少两个特征识别点的位置确定。
例如,基于图7a所示的特征识别点便可划分出人体的六个不同部位,这些不同部位分别对应待识别对象所在像面的一个组成区域。具体而言,如图7b所示,特征识别点J1、J2、J3和J6就可对应人体的头部,J2、J3、J6、J9、和J12就可对应人体的身体部位,J3、J4、和J5就可对应人体的左臂,J6、J7、和J8就可对应人体的右臂,J12、J13、和J14就可对应人体的右腿,J9、J10、和J11就可对应人体的左腿。在划分出人体的不同部位后,基于如图7b所示的身体部位划分便可确定对应的组成区域构成,如图7c所示。
步骤1013:根据每个视频帧的全局特征图以及各组成区域,获取每个视频帧中待识别对象所在像面的各组成区域的局部特征信息51。
在本发明一实施例中,可基于感兴趣区域池化处理和神经网络来获取各组成区域的局部特征信息51,如图8和图5所示所示,可具体包括如下步骤:
步骤10131:将视频帧的全局特征图和视频帧中待识别对象所在像面的各组成区域进行感兴趣区域池化处理。
具体而言,将所获取的视频帧中的各组成区域作为感兴趣区域映射到全局特征图的对应位置,再将映射后的全局特征图区域划分为与输出维度对应的多个子区域,然后再对每个子区域分别进行最大池化处理,以得到与每个感兴趣区域对应的特征图。由于感兴趣区域池化处理后的与每个感兴趣区域对应的特征图要比全局特征图的数据量小,且又能用于表征各感兴趣区域的图像内容,因此可以显著提高整个视频特征信息提取的效率。
步骤10132:将感兴趣区域池化处理的结果输入局部特征提取神经网络模型,获取局部特征提取神经网络模型输出的视频帧中待识别对象所在像面的各组成区域的局部特征信息51。
如前所述,感兴趣区域池化处理的结构为与每个感兴趣区域对应的特征图,每个感兴趣区域又与视频帧的一个组成区域对应,因此当将与每个感兴趣区域对应的特征图输入该局部特征提取神经网络模型时,该局部特征提取神经网络模型输出的即为与每个组成区域对应的局部特征信息51。应当理解,该局部特征提取神经网络模型可以通过预先的训练过程建立,例如,先对大量的图像样本进行预先的特征提取过程以获取每个图像样本的特征信息,然后再基于这些图像样本和对应的全局特征图进行神经网络训练,便可得到该局部特征提取神经网络模型。
在本发明一实施例中,训练所得到的局部特征提取神经网络模型30可包括沿数据处理方向依次连接的沿数据处理方向依次连接的第一局部inception层31、第二局部inception层32、第三局部inception层33以及第二全连接层34。应当理解,该局部特征提取神经网络模型30的具体结构也可根据实际的场景需求而调整,其中的各层结构的具体参数(例如,块尺寸(patch size)、步长(stride)、以及输出尺寸(output size))也可根据实际的场景需求而调整,本发明对该局部特征提取神经网络模型30的具体内部结构不做严格限定。
图9和图10分别所示为本发明一实施例提供的一种视频对象特征提取方法的流程示意图和原理示意图。如图9和图10所示,为了进一步提高视频特征提取的完整性,除了各组成区域的综合局部特征信息54外,该视频对象特征提取方法还可进一步获取待识别对象的全局特征信息53,利用该全局特征信息53以及待识别对象所在像面各组成区域的综合局部特征信息54一起表征该待识别对象。具体而言,该视频对象特征提取方法可进一步包括:
步骤901:将每个视频帧的全局特征图输入第二全局特征提取神经网络模型40。
步骤902:获取第二全局特征提取神经网络模型40输出的视频流中待识别对象的全局特征信息53。
如前所述,每个视频帧的全局特征图用于表征视频帧中待识别对象所在像面的整体图像内容。将该视频帧的全局特征图输入第二全局特征提取神经网络模型40,便可获取该第二全局特征提取神经网络模型40输出的全局特征信息53。应当理解,该第二全局特征提取神经网络模型40可以通过预先的训练过程建立,例如,先对大量的特征图样本进行预先的特征提取过程以获取每个特征图样本的特征信息,然后再基于这些特征图样本和对应的特征信息进行神经网络训练,便可得到该第二全局特征提取神经网络模型40。
在本发明一实施例中,训练所得到的第二全局特征提取神经网络模型40可包括沿数据处理方向依次连接的第一全局inception层41、残差注意网络模型42、第二全局inception层43、第三全局inception层44以及第四全局inception层45。应当理解,该第二全局特征提取神经网络模型40的具体结构也可根据实际的场景需求而调整,其中的各层结构的具体参数(例如,块尺寸(patch size)、步长(stride)、以及输出尺寸(output size))也可根据实际的场景需求而调整,本发明对该第二全局特征提取神经网络模型40的具体内部结构不做严格限定。
在进一步实施例中,为了进一步提高全局特征信息53提取的准确性,如图11所示,该第二全局特征提取神经网络模型40中的残差注意网络模型42可包括:并行处理数据的第一神经网络模块421和卷积神经网络模块422。其中,第一神经网络模块421可包括:沿数据处理方向依次连接的第五卷积层4211、第三池化层4212、第六卷积层4213、去卷积层4214、第七卷积层4215以及连续的近似符号函数处理层4216。第一神经网络模块421的输出结果与卷积神经网络模块422的输出结果整合作为残差注意网络模块42的输出结果。
图12和图13分别所示为本发明一实施例提供的一种视频对象特征提取方法的流程示意图和原理示意图。如图12和图13所示,为了进一步提高视频特征提取的完整性,除了全局特征信息53以及各组成区域的综合局部特征信息54外,该视频对象特征提取方法还可进一步包括:
步骤1201:根据每个视频帧中待识别对象所在像面的各组成区域的空域分值52,获取待识别对象所在像面的各组成区域的综合空域分值55。
利用该全局特征信息53、待识别对象所在像面各组成区域的综合局部特征信息54以及待识别对象所在像面的各组成区域的综合空域分值55一起表征该待识别对象。
在本发明一实施例中,可将待识别对象一个组成区域所对应的所有空域分值52求加权平均值,将加权平均值作为该组成区域的综合空域分值55。其中的权重可根据组成区域的空域分值52大小确定,这样当一个视频帧的一个组成区域的空域分值52较低时,该视频帧的该组成区域的空域分值52对最终该组成区域的综合空域分值55的影响也会较低,从而有助于进一步提高视频对象特征提取的准确性。
示例性视频对象匹配方法
图14分别所示为本发明一实施例提供的一种视频对象匹配方法的流程示意图。如图14所示,该视频对象匹配方法可包括如下步骤:
步骤1401:获取第一视频流中第一对象所在像面的各组成区域的综合局部特征信息54、各组成区域的综合空域分值55以及第一对象的全局特征信息53。
具体而言,第一对象所在像面的各组成区域的综合局部特征信息54可通过如图1和图2所示的视频对象特征提取方法获取,各组成区域的综合空域分值55可通过如图12和图13所示的视频对象特征提取方法获取,第一对象的全局特征信息53可通过如图9和图10所述的视频对象特征提取方法获取。
步骤1402:获取第二视频流中第二对象所在像面的各组成区域的综合局部特征信息54、各组成区域的综合空域分值55以及第二对象的全局特征信息53。
具体而言,第二对象所在像面的各组成区域的综合局部特征信息54可通过如图1和图2所示的视频对象特征提取方法获取,各组成区域的综合空域分值55可通过如图12和图13所示的视频对象特征提取方法获取,第一对象的全局特征信息53可通过如图9和图10所述的视频对象特征提取方法获取。
步骤1403:基于第一对象所在像面的各组成区域的综合局部特征信息54、第一对象所在像面的各组成区域的综合空域分值55、第一对象的全局特征信息53、第二对象所在像面的各组成区域的综合局部特征信息54、第二对象所在像面的各组成区域的综合空域分值55、第二对象的全局特征信息53,判断第一对象与第二对象是否一致。
具体而言,可以第一对象所在像面的各组成区域的综合空域分值55以及第二对象所在像面的各组成区域的综合空域分值55为权重,以第一对象所在像面的各组成区域的综合局部特征信息54以及第二对象所在像面的各组成区域的综合局部特征信息54为度量变量,计算第一对象和第二对象之间的局部特征距离。然后,再以第一对象的全局特征信息53以及第二对象的全局特征信息53为度量变量,计算第一对象和第二对象之间的全局特征距离。最终,根据局部特征距离以及全局特征距离判断第一对象与第二对象是否一致。应当理解,判断是否一致的具体原则可根据实际的应用场景而调整,例如,可设定第一阈值和第二阈值,只有当局部特征距离低于第一阈值且全局特征距离低于第二阈值时,才可判断为第一对象和第二对象一致,本发明对具体的判断原则不做严格限定。
在本发明一实施例中,该视频对象特征匹配方法可通过训练模型实现,此时可以如下min函数作为目标函数进行训练:
Figure BDA0001904878180000111
其中的
Figure BDA0001904878180000121
代表视频对象的全局特征信息53,
Figure BDA0001904878180000122
代表视频对象所在像面的各组成区域的综合局部特征信息54,
Figure BDA0001904878180000123
代表视频对象所在像面的各组成区域的综合空域分值55。当目标函数的取值越小时,代表着训练模型的效果越好,即视频对象特征匹配的准确度越高。
具体而言,该min函数由三部分构成,其中,
Figure BDA0001904878180000124
用于保证每个视频流的三中特征信息(全局特征信息53、综合局部特征信息54和综合空域分值55)的排序信息,使负样本距离比正样本距离大一个阈值。
Figure BDA0001904878180000125
用于保证每个视频流可以被正确分类,使得样本类内方差小。
Figure BDA0001904878180000126
用于保证全局特征信息53和各组成区域的综合局部特征信息54之间的一致性。
应当理解,虽然在上面的描述中,采用了全局特征信息53、综合局部特征信息54和综合空域分值55三种特征信息的种类进行了匹配过程,在本发明的其他实施例中,也可仅基于第一对象所在像面的各组成区域的综合局部特征信息54以及第二对象所在像面的各组成区域的综合局部特征信息54判断第一对象与第二对象是否一致;或,基于第一对象所在像面的各组成区域的综合局部特征信息54、第一对象所在像面的各组成区域的综合空域分值55、第二对象所在像面的各组成区域的综合局部特征信息54、第二对象所在像面的各组成区域的综合空域分值55,判断第一对象与第二对象是否一致;或,基于第一对象所在像面的各组成区域的综合局部特征信息54、第一对象的全局特征信息53、第二对象所在像面的各组成区域的综合局部特征信息54、第二对象的全局特征信息53,判断第一对象与第二对象是否一致。本发明对具体利用了哪些特征信息进行不同视频流之间视频对象的匹配过程不做严格限定。
此外,还应当理解,由于本发明实施例所提供的视频对象特征提取方法所获取到的特征信息可以准确地表征视频对象,因此基于本发明实施例所提供的视频对象特征提取方法所获取到的特征信息除了可用于视频对象匹配过程,还可用于例如视频对象识别、视频对象监控、视频对象跟踪等其他视频应用场景,本发明对基于本发明实施例所提供的视频对象特征提取方法所获取到的特征信息的具体应用场景同样不做限定。
示例性视频对象特征提取装置
图15所示为本发明一实施例提供的一种视频对象特征提取装置的结构示意图。如图15所示,该视频对象特征提取装置150包括:第一特征获取模块1501,配置为获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息51;空域分值获取模块1502,配置为获取每个视频帧中待识别对象所在像面的各组成区域的空域分值52;以及局部特征获取模块1503,配置为根据所获取的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息51和空域分值52,获取待识别对象所在像面的各组成区域的综合局部特征信息54。
在本发明一实施例中,局部特征获取模块1503进一步配置为:以组成区域对应每个视频帧的空域分值52为权重,将组成区域对应每个视频帧的局部特征信息51整合为该组成区域的综合局部特征信息54。
在本发明一实施例中,空域分值获取模块1502进一步配置为:将每个视频帧输入时空评价神经网络模型10;以及获取时空评价神经网络模型10输出的每个视频帧中待识别对象所在像面的各组成区域的空域分值52。
在本发明一实施例中,时空评价神经网络模型10包括:沿数据处理方向依次连接的第一卷积层11、第一池化层12、第二卷积层13、第三卷积层14、第二池化层15以及第一全连接层16。
在本发明一实施例中,该视频对象特征提取装置150进一步包括:空域分值处理模块1504,配置为通过连续的近似符号函数将各组成区域的空域分值52映射到0至1之间。
在本发明一实施例中,如图16所示,第一特征获取模块1501可包括:全局特征图获取单元15011,配置为获取每个视频帧中待识别对象的全局特征图;组成区域识别单元15012,配置为识别每个视频帧中待识别对象所在像面的各组成区域;以及第一特征获取单元15013,配置为根据每个视频帧的全局特征图以及各组成区域,获取每个视频帧中待识别对象所在像面的各组成区域的局部特征信息51。
在本发明一实施例中,全局特征图获取单元15011进一步配置为:将每个视频帧输入第一全局特征提取神经网络模型20;以及获取第一全局特征提取神经网络模型20输出的每个视频帧的全局特征图。
在本发明一实施例中,第一全局特征提取神经网络模型20包括:沿数据处理方向依次连接的第四卷积层21、第一inception层22、第二inception层23以及第三inception层24。
在本发明一实施例中,组成区域识别单元15012进一步配置为:识别视频帧中的多个特征识别点;以及根据多个特征识别点识别待识别对象所在像面的各组成区域,其中每个组成区域根据至少两个特征识别点的位置确定。
在本发明一实施例中,第一特征获取单元15013进一步配置为:将视频帧的全局特征图和视频帧中待识别对象所在像面的各组成区域进行感兴趣区域池化处理;将感兴趣区域池化处理的结果输入局部特征提取神经网络模型30;以及获取局部特征提取神经网络模型30输出的视频帧中待识别对象所在像面的各组成区域的局部特征信息51。
在本发明一实施例中,局部特征提取神经网络模型30包括:沿数据处理方向依次连接的第一局部inception层31、第二局部inception层32、第三局部inception层33以及第二全连接层34。
在本发明一实施例中,如图16所示,该视频对象特征提取装置150可进一步包括:全局特征信息获取模块1505,配置为将每个视频帧的全局特征图输入第二全局特征提取神经网络模型40;以及获取第二全局特征提取神经网络模型40输出的视频流中待识别对象的全局特征信息53。
在本发明一实施例中,第二全局特征提取神经网络模型40包括:沿数据处理方向依次连接的第一全局inception层41、残差注意网络模型42、第二全局inception层43、第三全局inception层44以及第四全局inception层45。
在本发明一实施例中,残差注意网络模型42包括:并行处理数据的第一神经网络模块421和卷积神经网络模块422;其中,第一神经网络模块421包括:沿数据处理方向依次连接的第五卷积层4211、第三池化层4212、第六卷积层4213、去卷积层4214、第七卷积层4215以及连续的近似符号函数处理层4216;其中,第一神经网络模块421的输出结果与卷积神经网络模块422的输出结果整合作为残差注意网络模块421的输出结果。
在本发明一实施例中,如图16所示,该视频对象特征提取装置150可进一步包括:综合空域分值获取模块1506,配置为根据每个视频帧中待识别对象所在像面的各组成区域的空域分值52,获取待识别对象所在像面的各组成区域的综合空域分值55。
在本发明一实施例中,综合空域分值获取模块1506进一步配置为:将待识别对象一个组成区域所对应的所有空域分值52求加权平均值,将加权平均值作为该组成区域的综合空域分值55。
上述视频对象特征提取装置150中的各个模块的具体功能和操作已经在上面参考图1到图14描述的视频对象特征提取方法中进行了详细介绍,因此,这里将省略其重复描述。
需要说明的是,根据本申请实施例的视频对象特征提取装置150可以作为一个软件模块和/或硬件模块而集成到电子设备180中,换言之,该电子设备180可以包括该视频对象特征提取装置150。例如,该视频对象特征提取装置150可以是该电子设备180的操作系统中的一个软件模块,或者可以是针对于其所开发的一个应用程序;当然,该视频对象特征提取装置150同样可以是该电子设备180的众多硬件模块之一。
在本发明另一实施例中,该视频对象特征提取装置150与该电子设备180也可以是分立的设备(例如,服务器),并且该视频对象特征提取装置150可以通过有线和/或无线网络连接到该电子设备180,并且按照约定的数据格式来传输交互信息。
示例性视频对象匹配装置
图17所示为本发明一实施例提供的一种视频对象匹配装置的结构示意图。该视频对象匹配装置与图15和图16所示的视频对象特征提取装置150通信连接,如图17所示,该视频对象匹配装置170包括:度量参数获取模块1701,配置为从视频对象特征提取装置150获取第一视频流中第一对象所在像面的各组成区域的综合局部特征信息54、第一对象的各组成区域的综合空域分值55以及第一对象的全局特征信息53;以及从视频对象特征提取装置150获取第二视频流中第二对象所在像面的各组成区域的综合局部特征信息54、第二对象各组成区域的综合空域分值55以及第二对象的全局特征信息53;以及度量执行模块1702,配置为基于第一对象所在像面的各组成区域的综合局部特征信息54、第一对象的各组成区域的综合空域分值55、第一对象的全局特征信息53、第二对象的各组成区域所在像面的综合局部特征信息54、第二对象的各组成区域的综合空域分值55、第二对象的全局特征信息53,判断第一对象与第二对象是否一致。
需要说明的是,根据本申请实施例的视频对象匹配装置170可以作为一个软件模块和/或硬件模块而集成到电子设备180中,换言之,该电子设备180可以包括该视频对象匹配装置170。例如,该视频对象匹配装置170可以是该电子设备180的操作系统中的一个软件模块,或者可以是针对于其所开发的一个应用程序;当然,该视频对象匹配装置170同样可以是该电子设备180的众多硬件模块之一。
在本发明另一实施例中,该视频对象匹配装置170与该电子设备180也可以是分立的设备(例如,服务器),并且该视频对象匹配装置170可以通过有线和/或无线网络连接到该电子设备180,并且按照约定的数据格式来传输交互信息。
示例性电子设备
图18所示为本申请一实施例提供的电子设备的结构示意图。如图18所示,该电子设备180包括:一个或多个处理器1801和存储器1802;以及存储在存储器1802中的计算机程序指令,计算机程序指令在被处理器1801运行时使得处理器1801执行如上述任一实施例的视频对象特征提取方法或视频对象匹配方法。
处理器1801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器1802可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1801可以运行所述程序指令,以实现上文所述的本申请的各个实施例的机械机构控制方法中的步骤以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如光线强度、补偿光强度、滤光片的位置等信息。
在一个示例中,电子设备180还可以包括:输入装置1803和输出装置1804,这些组件通过总线系统和/或其他形式的连接机构(图18中未示出)互连。
例如,在该电子设备是监控设备时,该输入装置1803可以是用于采集视频流的监控摄像头。在该电子设备是单机设备时,该输入装置1803可以是通信网络连接器,用于从外部的视频采集设备接收所采集的视频信号。
该输出装置1804可以向外部输出各种信息,例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图18中仅示出了该电子设备180中与本申请有关的组件中的一些,省略了诸如总线、输入装置/输出接口等组件。除此之外,根据具体应用情况,电子设备180还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的视频对象特征提取方法或视频对象匹配方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性机械机构控制方法”部分中描述的根据本申请各种实施例的机械机构控制方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种视频对象特征提取方法,包括:
获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息,其中,所述待识别对象所在像面由多个组成区域构成;
获取每个所述视频帧中待识别对象所在像面的各组成区域的空域分值其中,所述空域分值用于评价所述视频帧中待识别对象所在像面的组成区域的图像质量;以及
根据所获取的每个所述视频帧中待识别对象所
在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的各组成区域的综合局部特征信息;
其中,所述根据所获取的每个所述视频帧中待识别对象所在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的综合局部特征信息包括:
以所述组成区域对应每个所述视频帧的所述空域分值为权重,将所述组成区域对应每个所述视频帧的所述局部特征信息整合为该所述组成区域的所述综合局部特征信息。
2.根据权利要求1所述的方法,其特征在于,所述获取每个所述视频帧中待识别对象所在像面的各组成区域的空域分值包括:
将每个所述视频帧输入时空评价神经网络模型;以及
获取所述时空评价神经网络模型输出的每个所述视频帧中待识别对象所在像面的各组成区域的空域分值。
3.根据权利要求2所述的方法,进一步包括:
通过连续的近似符号函数将所述各组成区域的所述空域分值映射到0至1之间。
4.根据权利要求1所述的方法,其中,所述获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息包括:
获取每个视频帧中所述待识别对象的全局特征图;
识别每个视频帧中所述待识别对象所在像面的各组成区域;以及
根据每个视频帧的所述全局特征图以及所述各组成区域,获取每个所述视频帧中待识别对象所在像面的各组成区域的局部特征信息。
5.根据权利要求4所述的方法,其中,所述获取所述视频流的每个视频帧中所述待识别对象的全局特征图包括:
将每个所述视频帧输入第一全局特征提取神经网络模型;以及
获取所述第一全局特征提取神经网络模型输出的每个视频帧的所述全局特征图。
6.根据权利要求4所述的方法,其中,所述识别每个视频帧中所述待识别对象所在像面的各组成区域包括:
识别视频帧中的多个特征识别点;以及
根据所述多个特征识别点识别所述待识别对象所在像面的各组成区域,其中每个所述组成区域根据至少两个所述特征识别点的位置确定。
7.根据权利要求4所述的方法,其中,所述根据每个视频帧的所述全局特征图以及识别出的所述各组成区域,获取每个所述视频帧中待识别对象所在像面的各组成区域的局部特征信息包括:
将所述视频帧的所述全局特征图和所述视频帧中待识别对象所在像面的各组成区域进行感兴趣区域池化处理;
将所述感兴趣区域池化处理的结果输入局部特征提取神经网络模型;以及
获取所述局部特征提取神经网络模型输出的所述视频帧中待识别对象所在像面的各组成区域的局部特征信息。
8.根据权利要求4所述的方法,进一步包括:
将每个所述视频帧的所述全局特征图输入第二全局特征提取神经网络模型;以及
获取第二全局特征提取神经网络模型输出的所述视频流中所述待识别对象的全局特征信息。
9.根据权利要求1所述的方法,进一步包括:
根据每个所述视频帧中待识别对象所在像面的各组成区域的空域分值,获取所述待识别对象所在像面的各组成区域的综合空域分值。
10.根据权利要求9所述的方法,其中,所述根据每个所述视频帧中待识别对象所在像面的各组成区域的空域分值获取所述待识别对象所在像面的各组成区域的综合空域分值包括:
将所述待识别对象一个组成区域所对应的所有所述空域分值求加权平均值,将所述加权平均值作为该组成区域的所述综合空域分值。
11.一种视频对象匹配方法,包括:
获取第一视频流中第一对象所在像面的各组成区域的综合局部特征信息、各组成区域的综合空域分值以及所述第一对象的全局特征信息,其中,所述第一对象所在像面由多个组成区域构成,所述各组成区域的综合空域分值是基于所述第一对象所在像面的各组成区域的空域分值确定的,所述空域分值用于评价组成区域的图像质量;
获取第二视频流中第二对象所在像面的各组成区域的综合局部特征信息、各组成区域的综合空域分值以及所述第二对象的全局特征信息;以及
基于所述第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象所在像面的各组成区域的综合空域分值、所述第一对象的全局特征信息、所述第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象所在像面的各组成区域的综合空域分值、所述第二对象的全局特征信息,判断所述第一对象与所述第二对象是否一致;
其中,针对每个组成区域,所述综合局部特征信息为将所述组成区域对应的每个视频帧的空域分值作为权重,将所述组成区域对应的每个所述视频帧的局部特征信息整合而成。
12.根据权利要求11所述的方法,其中,所述基于所述第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象所在像面的各组成区域的综合空域分值、所述第一对象的全局特征信息、所述第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象所在像面的各组成区域的综合空域分值、所述第二对象的全局特征信息,判断所述第一对象与所述第二对象是否一致包括:
以所述第一对象所在像面的各组成区域的综合空域分值以及所述第二对象所在像面的各组成区域的综合空域分值为权重,以所述第一对象所在像面的各组成区域的综合局部特征信息以及所述第二对象所在像面的各组成区域的综合局部特征信息为度量变量,计算所述第一对象和所述第二对象之间的局部特征距离;
以所述第一对象的全局特征信息以及所述第二对象的全局特征信息为度量变量,计算所述第一对象和所述第二对象之间的全局特征距离;以及
根据所述局部特征距离以及所述全局特征距离判断所述第一对象与所述第二对象是否一致。
13.一种视频对象特征提取装置,包括:
第一特征获取模块,配置为获取视频流的每个视频帧中待识别对象所在像面的各组成区域的局部特征信息,其中,所述待识别对象所在像面由多个组成区域构成;
空域分值获取模块,配置为获取每个所述视频帧中待识别对象所在像面的各组成区域的空域分值,其中,所述空域分值用于评价所述视频帧中待识别对象所在像面的组成区域的图像质量;以及
局部特征获取模块,配置为根据所获取的每个所述视频帧中待识别对象所在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的各组成区域的综合局部特征信息;
其中,所述根据所获取的每个所述视频帧中待识别对象所在像面的各组成区域的所述局部特征信息和所述空域分值,获取所述待识别对象所在像面的综合局部特征信息包括:
以所述组成区域对应每个所述视频帧的所述空域分值为权重,将所述组成区域对应每个所述视频帧的所述局部特征信息整合为该所述组成区域的所述综合局部特征信息。
14.一种视频对象匹配装置,与如权利要求13所述的视频对象特征提取装置通信连接,所述视频对象匹配装置包括:
度量参数获取模块,配置为从所述视频对象特征提取装置获取第一视频流中第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象的各组成区域的综合空域分值以及所述第一对象的全局特征信息;以及从所述视频对象特征提取装置获取第二视频流中第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象各组成区域的综合空域分值以及所述第二对象的全局特征信息;以及
度量执行模块,配置为基于所述第一对象所在像面的各组成区域的综合局部特征信息、所述第一对象的各组成区域的综合空域分值、所述第一对象的全局特征信息、所述第二对象所在像面的各组成区域的综合局部特征信息、所述第二对象的各组成区域的综合空域分值、所述第二对象的全局特征信息,判断所述第一对象与所述第二对象是否一致。
15.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至12中任一所述的方法。
16.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至12中任一所述的方法。
CN201811527701.5A 2018-12-13 2018-12-13 视频对象特征提取方法和装置、视频对象匹配方法和装置 Active CN111325198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811527701.5A CN111325198B (zh) 2018-12-13 2018-12-13 视频对象特征提取方法和装置、视频对象匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811527701.5A CN111325198B (zh) 2018-12-13 2018-12-13 视频对象特征提取方法和装置、视频对象匹配方法和装置

Publications (2)

Publication Number Publication Date
CN111325198A CN111325198A (zh) 2020-06-23
CN111325198B true CN111325198B (zh) 2023-05-16

Family

ID=71172262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811527701.5A Active CN111325198B (zh) 2018-12-13 2018-12-13 视频对象特征提取方法和装置、视频对象匹配方法和装置

Country Status (1)

Country Link
CN (1) CN111325198B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307979A (zh) * 2020-10-31 2021-02-02 成都新潮传媒集团有限公司 一种人员属性识别方法、装置及计算机设备
CN113408448A (zh) * 2021-06-25 2021-09-17 之江实验室 一种三维时空对象局部特征提取和对象识别的方法与装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742355A (zh) * 2009-12-24 2010-06-16 厦门大学 基于空时域特征提取的无线视频部分参考测评方法
CN106548472A (zh) * 2016-11-03 2017-03-29 天津大学 基于沃尔什哈达玛变换的无参考图像质量评价方法
CN108805278A (zh) * 2018-05-15 2018-11-13 成都理想境界科技有限公司 一种应用于深度学习的特征提取方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031567A (ja) * 2004-07-20 2006-02-02 Chuden Gijutsu Consultant Kk 建造物画像検索システム
JP2013172214A (ja) * 2012-02-17 2013-09-02 Sony Corp 画像処理装置、および画像処理方法、並びにプログラム
US9008444B2 (en) * 2012-11-20 2015-04-14 Eastman Kodak Company Image rectification using sparsely-distributed local features
CN104216949A (zh) * 2014-08-13 2014-12-17 中国科学院计算技术研究所 一种融合空间信息的图像特征聚合表示方法及系统
CN104598885B (zh) * 2015-01-23 2017-09-22 西安理工大学 街景图像中的文字标牌检测与定位方法
CN104766096B (zh) * 2015-04-17 2017-11-10 南京大学 一种基于多尺度全局特征和局部特征的图像分类方法
CN105184235B (zh) * 2015-08-24 2019-03-19 中国电子科技集团公司第三十八研究所 一种基于特征融合的二代身份证识别方法
CN107067413B (zh) * 2016-12-27 2019-11-15 南京理工大学 一种时空域统计匹配局部特征的运动目标检测方法
CN107463920A (zh) * 2017-08-21 2017-12-12 吉林大学 一种消除局部遮挡物影响的人脸识别方法
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质
CN108229302A (zh) * 2017-11-10 2018-06-29 深圳市商汤科技有限公司 特征提取方法、装置、计算机程序、存储介质和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742355A (zh) * 2009-12-24 2010-06-16 厦门大学 基于空时域特征提取的无线视频部分参考测评方法
CN106548472A (zh) * 2016-11-03 2017-03-29 天津大学 基于沃尔什哈达玛变换的无参考图像质量评价方法
CN108805278A (zh) * 2018-05-15 2018-11-13 成都理想境界科技有限公司 一种应用于深度学习的特征提取方法及系统

Also Published As

Publication number Publication date
CN111325198A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN109298785A (zh) 一种监测设备的人机联控系统及方法
JP7292492B2 (ja) オブジェクト追跡方法及び装置、記憶媒体並びにコンピュータプログラム
CN109544870B (zh) 用于智能监控系统的报警判断方法与智能监控系统
WO2020258978A1 (zh) 对象检测方法和装置
JP2016015045A (ja) 画像認識装置、画像認識方法及びプログラム
CN112183166A (zh) 确定训练样本的方法、装置和电子设备
CN110674680B (zh) 活体识别的方法、装置、存储介质
CN112492343A (zh) 一种视频直播监控方法及相关装置
CN111160134A (zh) 一种以人为主体的视频景别分析方法和装置
CN109558790B (zh) 一种行人目标检测方法、装置及系统
CN111325198B (zh) 视频对象特征提取方法和装置、视频对象匹配方法和装置
CN109815823B (zh) 数据处理方法及相关产品
CN110610123A (zh) 一种多目标车辆检测方法、装置、电子设备及存储介质
WO2023093151A1 (zh) 图像筛选方法及装置、电子设备和存储介质
CN112183289A (zh) 一种花屏检测方法、装置、设备及介质
CN114445768A (zh) 目标识别方法、装置、电子设备及存储介质
CN115311618A (zh) 一种基于深度学习和对象匹配的装配质量检查方法
CN110991452A (zh) 一种车位框检测方法、装置、设备及可读存储介质
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
CN112784835A (zh) 圆形印章的真实性识别方法、装置、电子设备及存储介质
CN110516572B (zh) 一种识别体育赛事视频片段的方法、电子设备及存储介质
CN114359618A (zh) 神经网络模型的训练方法、电子设备及计算机程序产品
CN113505720A (zh) 图像处理方法及装置、存储介质、电子装置
CN116912783B (zh) 核酸检测平台的状态监控方法及系统
CN111914841B (zh) 一种ct图像处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant