CN108898067B - 确定人和物关联度的方法、装置及计算机可读存储介质 - Google Patents

确定人和物关联度的方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108898067B
CN108898067B CN201810574016.1A CN201810574016A CN108898067B CN 108898067 B CN108898067 B CN 108898067B CN 201810574016 A CN201810574016 A CN 201810574016A CN 108898067 B CN108898067 B CN 108898067B
Authority
CN
China
Prior art keywords
image frame
person
objects
feature
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810574016.1A
Other languages
English (en)
Other versions
CN108898067A (zh
Inventor
石海龙
张伟华
吴江旭
李凡
胡淼枫
曲志勇
张洪光
雍兴辉
武跃峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810574016.1A priority Critical patent/CN108898067B/zh
Publication of CN108898067A publication Critical patent/CN108898067A/zh
Application granted granted Critical
Publication of CN108898067B publication Critical patent/CN108898067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种确定人和物关联度的方法、装置及计算机可读存储介质,涉及多媒体技术领域。其中的确定人和物关联度的方法包括:对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物;对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征;对各个图像帧中相关联的人和物的融合特征进行量化,得到视频数据中相关联的人和物的关联度。本公开能够利用视频数据量化得到人和物的关联度。

Description

确定人和物关联度的方法、装置及计算机可读存储介质
技术领域
本公开涉及多媒体技术领域,特别涉及一种确定人和物关联度的方法、装置及计算机可读存储介质。
背景技术
在线下门店场景中,实时准确地检测顾客对各类商品的感兴趣程度或购买意向对构建精准用户画像至关重要,是推动并实现线上线下融合无界零售模式的重要技术保障之一。
例如,从顾客进店开始,实时追踪顾客在店内各类商品前面的停留时间,拿起观看把玩时间及次数等指标,进而细粒度地进行用户画像,预测顾客对某商品的感兴趣程度,分析其潜在购买意愿和程度,以及未实施购买行为的原因,然后有针对性的给出对策并做出反应(如派出服务员或服务机器人进行导购讲解,在线发放优惠券等),可答复提高用户体验及商品购买转化率。
发明内容
发明人研究发现,相关技术关注的是人-物或者物-物关系的定性描述(比如一个男人骑在马上,一个女人在打网球,一只狗在跳起来接飞盘等等),还做不到精确量化人-物关系,更不能对视频数据进行处理得到确定人和物关联度。因此,通过对监控视频数据进行实时分析,构建人-物关系的定量分析模型,对未来线下零售具有十分重要的意义。
本公开解决的一个技术问题是,如何利用视频数据量化得到人和物的关联度。
根据本公开实施例的一个方面,提供了一种确定人和物关联度的方法,包括:对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物;对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征;对各个图像帧中相关联的人和物的融合特征进行量化,得到视频数据中相关联的人和物的关联度。
在一些实施例中,利用对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物包括:对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物;确定各个图像帧中人的位置信息和物的位置信息;利用各个图像帧中人的位置信息和物的位置信息,确定各个图像帧中人和物的距离;将各个图像帧中距离小于第一阈值的人和物,作为各个图像帧中相关联的人和物。
在一些实施例中,对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物包括:利用目标检测网络模型对各个图像帧进行图像检测,得到各个图像帧中的目标;利用分类神经网络模型对各个图像帧中的目标进行分类,得到各个图像帧中的人和物。
在一些实施例中,对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征包括:利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵;利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换,得到各个图像帧中相关联的人的特征向量和物的特征向量;利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合,得到各个图像帧中相关联的人和物的融合特征。
在一些实施例中,特征提取网络模型由RoiAlign层组成,特征变换网络模型由全连接层组成,特征融合网络模型由全连接层组成。
在一些实施例中,对各个图像帧中相关联的人和物的融合特征进行量化,得到视频数据中相关联的人和物的关联度包括:利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果;将各个图像帧中相关联的人和物的量化结果组成量化序列,并利用全连接网络模型对量化序列进行处理,得到视频数据中相关联的人和物的关联度。
在一些实施例中,长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果包括:将小于第二阈值的量化结果置零。
在一些实施例中,长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果还包括:将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。
根据本公开实施例的另一个方面,提供了一种确定人和物关联度的装置,包括:图像检测模块,被配置为对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物;特征融合模块,被配置为对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征;关联度量化模块,被配置为对各个图像帧中相关联的人和物的融合特征进行量化,得到视频数据中相关联的人和物的关联度。
在一些实施例中,图像检测模块被配置为:对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物;确定各个图像帧中人的位置信息和物的位置信息;利用各个图像帧中人的位置信息和物的位置信息,确定各个图像帧中人和物的距离;将各个图像帧中距离小于第一阈值的人和物,作为各个图像帧中相关联的人和物。
在一些实施例中,图像检测模块被配置为:利用目标检测网络模型对各个图像帧进行图像检测,得到各个图像帧中的目标;利用分类神经网络模型对各个图像帧中的目标进行分类,得到各个图像帧中的人和物。
在一些实施例中,特征融合模块被配置为:利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵;利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换,得到各个图像帧中相关联的人的特征向量和物的特征向量;利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合,得到各个图像帧中相关联的人和物的融合特征。
在一些实施例中,特征提取网络模型由RoiAlign层组成,特征变换网络模型由全连接层组成,特征融合网络模型由全连接层组成。
在一些实施例中,关联度量化模块被配置为:利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果;将各个图像帧中相关联的人和物的量化结果组成量化序列,并全连接网络模型对量化序列进行处理,得到视频数据中相关联的人和物的关联度。
在一些实施例中,关联度量化模块被配置为:将小于第二阈值的量化结果置零。
在一些实施例中,关联度量化模块被配置为:将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。
根据本公开实施例的又一个方面,提供了一种确定人和物关联度的装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的确定人和物关联度的方法。
根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的确定人和物关联度的方法。
本公开能够利用视频数据量化得到人和物的关联度。通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开一个实施例的确定人和物关联度的方法的流程示意图。
图2示出了对视频数据的各个图像帧进行图像检测的一个实施例的流程示意图。
图3示出了对各个图像帧中相关联的人和物进行特征提取的一个实施例的流程示意图。
图4示出了目标检测网络模型、特征提取网络模型以及特征变换网络模型的结构示意图。
图5示出了特征融合过程涉及到相关变量的示意图。
图6示出了对各个图像帧中相关联的人和物的融合特征进行量化的一个实施例的流程示意图。
图7示出了对各个图像帧中相关联的人和物的融合特征进行量化过程中使用的神经网络模型。
图8示出了本公开一个实施例的确定人和物关联度的装置的结构示意图。
图9示出了本公开另一个实施例的确定人和物关联度的装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
首先结合图1描述本公开一个实施例的确定人和物关联度的方法。
图1示出了本公开一个实施例的确定人和物关联度的方法的流程示意图。如图1所示,该实施例中的确定人和物关联度的方法包括步骤S102~步骤S108。
在步骤S102中,对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物。
例如,可以对输入的视频序列数据按帧进行图像读取,然后使用RetinaNet网络模型进行目标检测。本领域技术人员应理解,也可使用如SSD、YOLO、Faster RCNN、Light-HeadRCNN等其它目标检测模型。
在步骤S104中,对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征。
在检测出图像帧中的相关联的人和物之后,需要分别提取人和物的特征。例如,可以采用卷积神经网络提取目标特征,具体使用如VGG、GoogleNet、ResNet、FPN等网络模型。
在步骤S106中,对各个图像帧中相关联的人和物的融合特征进行量化,得到视频数据中相关联的人和物的关联度。
例如,可以将视频中连续图像帧中相关联的人和物的融合特征按次序输入到例如RNN、LSTM、GRU等循环神经网络,提取并融合得到序列特征。这里的循环神经网络可以是单层或者多层循环神经网络。然后,将该序列特征通过两层或更多层全连接神经网络,可以最终输出一个或多个标量值,分别表征相关联的人和物之间定量的关联度,可以表示人对物的感兴趣程度、人对物对购买概率等等。
上述实施例通过神经网络模型检测得到视频数据中相关联的人和物,并提取相关联的人和物的融合特征,最终量化得到视频数据中相关联的人和物的关联度,从而能够利用视频数据量化得到人和物的关联度。
下面结合图2描述如何对视频数据的各个图像帧进行图像检测。
图2示出了对视频数据的各个图像帧进行图像检测的一个实施例的流程示意图。如图2所示,该实施例中对视频数据的各个图像帧进行图像检测的过程包括步骤S2022~步骤S2028。
在步骤S2022中,对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物。
例如,可以利用目标检测网络模型对各个图像帧进行图像检测,得到各个图像帧中的目标,再利用分类神经网络模型对各个图像帧中的目标进行分类,得到各个图像帧中的人和物。
在步骤S2024中,确定各个图像帧中人的位置信息和物的位置信息。
例如,可以通过目标检测神经网络检测输入视频中目标(人和物)的位置信息,采用浅层(例如2-3层)神经网络对目标进行分类分成人和不同的物品类别。用Hi=(xi,yi,wi,hi)表示图像中第i个人的位置信息,其中x,y表示目标中心点横纵坐标,w,h表示目标的宽度和高度信息;用Oj=((xj,yj,wj,hj),lj)第j个物品的位置和类别信息,其中Lj表示类别信息。
在步骤S2026中,利用各个图像帧中人的位置信息和物的位置信息,确定各个图像帧中人和物的距离。
例如,人和物的距离计算方法如下,其中,d表示人和物之间的相对位置,h表示人,o表示物。
Figure GDA0002680132670000071
在步骤S2028中,将各个图像帧中距离小于第一阈值的人和物,作为各个图像帧中相关联的人和物。
例如,当人和物的相对位置小于预设阈值时,认为二者可能存在较强的关联性,从而输出得到对应的人物检测框序列:[{H1:[O1,O2,…]},{H2:[O5,O7,…]},…]。
上述实施例中,能够结合人和物的距离初步确定视频数据中相关联的人和物。由于在线下门店场景中整帧图像中存在大量的物品,而人当前关注的可能只是其中几种。根据人和物的相对位置信息进行初步的筛选,能够大幅降低计算复杂度,从而更加高效的确定视频数据中相关联的人和物的关联度。
下面结合图3描述如何对各个图像帧中相关联的人和物进行特征提取。
图3示出了对各个图像帧中相关联的人和物进行特征提取的一个实施例的流程示意图。如图3所示,该实施例中对各个图像帧中相关联的人和物进行特征提取的过程包括步骤S3042~步骤S3048。
在步骤S3042中,利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵。
例如,为进一步降低计算复杂度,可以在步骤S102中采用的目标检测网络模型的基础上,仅增加一个标准RoiAlign层用于提取人和物的特征。RoiAlign是目标检测方法中一种较为常见的方法,它通过一个双线性变换网络将图像中不同大小的目标(人和物)变换成一个固定大小(例如7x7)的特征矩阵。
在步骤S3044中,利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换,得到各个图像帧中相关联的人的特征向量和物的特征向量。
例如,可以通过两层或更多层全连接神经网络将上述RoiAlign层输出的人和物的特征向量变换为一个1024维向量(也可为2048维或其它维度)。
在步骤S3046中,利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合,得到各个图像帧中相关联的人和物的融合特征。
例如,可以将检测到的目标位置和大小信息(人的坐标和物的坐标)与上述特征变换后人和物的目标向量合并连接成一个长向量(例如1024+1024+4+4维度),然后通过一个浅层(例如2-3层)全连接神经网络,输出相关联的人和物的融合特征。图4示出了目标检测网络模型、特征提取网络模型以及特征变换网络模型的结构示意图。图5示出了特征融合过程涉及到相关变量的示意图。
上述实施例中,能够结合神经网络实现相关联的人和物的特征提取和特征变换,实现了结合目标距离的人和物的特征融合模型,从而能够根据特征向量以及位置信息得到各个图像帧中相关联的人和物的融合特征。
下面结合图6描述如何对各个图像帧中相关联的人和物的融合特征进行量化。
图6示出了对各个图像帧中相关联的人和物的融合特征进行量化的一个实施例的流程示意图。如图6所示,该实施例中对各个图像帧中相关联的人和物的融合特征进行量化的过程包括步骤S6062~步骤S6066。
步骤S6062,利用长短期记忆网络模型(LSTM)对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果。
步骤S6064,将各个图像帧中相关联的人和物的量化结果组成量化序列,并利用全连接网络模型对量化序列进行处理,得到视频数据中相关联的人和物的关联度。
步骤S6066,将小于第二阈值的量化结果置零,将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。
图7示出了对各个图像帧中相关联的人和物的融合特征进行量化过程中使用的神经网络模型。如图7所示,在每个LSTM的输出中增加一个阈值处理单元,将小于预设阈值的输出设为0,可以降低弱关联信息对最终序列特征的影响。
上述实施例中,实现了基于神经网络的视频中人和物关联度的量化模型。通过将小于预设阈值的输出设为0,可以降低弱关联信息对最终序列特征的影响,从而减少人员密集或商品密集场景中海量的人-物弱关联,进而增强了整个确定人和物关联度的系统工作时的鲁棒性。
下面结合图8描述本公开一个实施例的确定人和物关联度的装置。
图8示出了本公开一个实施例的确定人和物关联度的装置的结构示意图。如图8所示,本实施例中的确定人和物关联度的装置80包括:
图像检测模块802,被配置为对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物;
特征融合模块804,被配置为对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征;
关联度量化模块806,被配置为对各个图像帧中相关联的人和物的融合特征进行量化,得到视频数据中相关联的人和物的关联度。
上述实施例通过神经网络模型检测得到视频数据中相关联的人和物,并提取相关联的人和物的融合特征,最终量化得到视频数据中相关联的人和物的关联度,从而能够利用视频数据量化得到人和物的关联度。
在一些实施例中,图像检测模块802被配置为:对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物;确定各个图像帧中人的位置信息和物的位置信息;利用各个图像帧中人的位置信息和物的位置信息,确定各个图像帧中人和物的距离;将各个图像帧中距离小于第一阈值的人和物,作为各个图像帧中相关联的人和物。
在一些实施例中,图像检测模块802被配置为:利用目标检测网络模型对各个图像帧进行图像检测,得到各个图像帧中的目标;利用分类神经网络模型对各个图像帧中的目标进行分类,得到各个图像帧中的人和物。
上述实施例中,能够结合人和物的距离初步确定视频数据中相关联的人和物。由于在线下门店场景中整帧图像中存在大量的物品,而人当前关注的可能只是其中几种。根据人和物的相对位置信息进行初步的筛选,能够大幅降低计算复杂度,从而更加高效的确定视频数据中相关联的人和物的关联度。
在一些实施例中,特征融合模块804被配置为:利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵;利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换,得到各个图像帧中相关联的人的特征向量和物的特征向量;利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合,得到各个图像帧中相关联的人和物的融合特征。
在一些实施例中,特征提取网络模型由RoiAlign层组成,特征变换网络模型由全连接层组成,特征融合网络模型由全连接层组成。
上述实施例中,能够结合神经网络实现相关联的人和物的特征提取和特征变换,实现了结合目标距离的人和物的特征融合模型,从而能够根据特征向量以及位置信息得到各个图像帧中相关联的人和物的融合特征。
在一些实施例中,关联度量化模块806被配置为:利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果;将各个图像帧中相关联的人和物的量化结果组成量化序列,并全连接网络模型对量化序列进行处理,得到视频数据中相关联的人和物的关联度。
在一些实施例中,关联度量化模块806被配置为:将小于第二阈值的量化结果置零。
在一些实施例中,关联度量化模块806被配置为:将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。
上述实施例中,实现了基于神经网络的视频中人和物关联度的量化模型。通过将小于预设阈值的输出设为0,可以降低弱关联信息对最终序列特征的影响,从而减少人员密集或商品密集场景中海量的人-物弱关联,进而增强了整个确定人和物关联度的系统工作时的鲁棒性。
图9示出了本公开另一个实施例的确定人和物关联度的装置的结构示意图。如图9所示,该实施例的确定人和物关联度的装置90包括:存储器910以及耦接至该存储器910的处理器920,处理器920被配置为基于存储在存储器910中的指令,执行前述任意一个实施例中的确定人和物关联度的方法。
其中,存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
确定人和物关联度的装置90还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本公开还包括一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现前述任意一个实施例中的确定人和物关联度的方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (14)

1.一种确定人和物关联度的方法,包括:
对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物;
利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵;利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换,得到各个图像帧中相关联的人的特征向量和物的特征向量;利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合,得到各个图像帧中相关联的人和物的融合特征;
利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果;将各个图像帧中相关联的人和物的量化结果组成量化序列,并利用全连接网络模型对所述量化序列进行处理,得到视频数据中相关联的人和物的关联度。
2.如权利要求1所述的方法,其中,所述利用对视频数据的各个图像帧进行图像检测,得到视频数据的各个图像帧中相关联的人和物包括:
对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物;
确定各个图像帧中人的位置信息和物的位置信息;
利用各个图像帧中人的位置信息和物的位置信息,确定各个图像帧中人和物的距离;
将各个图像帧中距离小于第一阈值的人和物,作为各个图像帧中相关联的人和物。
3.如权利要求2所述的方法,其中,所述对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物包括:
利用目标检测网络模型对各个图像帧进行图像检测,得到各个图像帧中的目标;
利用分类神经网络模型对各个图像帧中的目标进行分类,得到各个图像帧中的人和物。
4.如权利要求1所述的方法,其中,所述特征提取网络模型由RoiAlign层组成,所述特征变换网络模型由全连接层组成,所述特征融合网络模型由全连接层组成。
5.如权利要求1所述的方法,其中,所述长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果包括:
将小于第二阈值的量化结果置零。
6.如权利要求5所述的方法,其中,所述长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果还包括:
将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。
7.一种确定人和物关联度的装置,包括:
图像检测模块,被配置为:利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵;利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换,得到各个图像帧中相关联的人的特征向量和物的特征向量;利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合,得到各个图像帧中相关联的人和物的融合特征;
特征融合模块,被配置为对各个图像帧中相关联的人和物进行特征提取,得到各个图像帧中相关联的人和物的融合特征;
关联度量化模块,被配置为:利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化,得到各个图像帧中相关联的人和物的量化结果;将各个图像帧中相关联的人和物的量化结果组成量化序列,并全连接网络模型对所述量化序列进行处理,得到视频数据中相关联的人和物的关联度。
8.如权利要求7所述的装置,其中,所述图像检测模块被配置为:
对视频数据的各个图像帧进行图像检测,得到各个图像帧中的人和物;
确定各个图像帧中人的位置信息和物的位置信息;
利用各个图像帧中人的位置信息和物的位置信息,确定各个图像帧中人和物的距离;
将各个图像帧中距离小于第一阈值的人和物,作为各个图像帧中相关联的人和物。
9.如权利要求8所述的装置,其中,所述图像检测模块被配置为:
利用目标检测网络模型对各个图像帧进行图像检测,得到各个图像帧中的目标;
利用分类神经网络模型对各个图像帧中的目标进行分类,得到各个图像帧中的人和物。
10.如权利要求7所述的装置,其中,所述特征提取网络模型由RoiAlign层组成,所述特征变换网络模型由全连接层组成,所述特征融合网络模型由全连接层组成。
11.如权利要求7所述的装置,其中,所述关联度量化模块被配置为:
将小于第二阈值的量化结果置零。
12.如权利要求11所述的装置,其中,所述关联度量化模块被配置为:
将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。
13.一种确定人和物关联度的装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN201810574016.1A 2018-06-06 2018-06-06 确定人和物关联度的方法、装置及计算机可读存储介质 Active CN108898067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810574016.1A CN108898067B (zh) 2018-06-06 2018-06-06 确定人和物关联度的方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810574016.1A CN108898067B (zh) 2018-06-06 2018-06-06 确定人和物关联度的方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108898067A CN108898067A (zh) 2018-11-27
CN108898067B true CN108898067B (zh) 2021-04-30

Family

ID=64343972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810574016.1A Active CN108898067B (zh) 2018-06-06 2018-06-06 确定人和物关联度的方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108898067B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977872B (zh) * 2019-03-27 2021-09-17 北京迈格威科技有限公司 动作检测方法、装置、电子设备及计算机可读存储介质
CN110929622B (zh) 2019-11-15 2024-01-05 腾讯科技(深圳)有限公司 视频分类方法、模型训练方法、装置、设备及存储介质
WO2021204344A1 (en) * 2020-04-06 2021-10-14 HELLA GmbH & Co. KGaA Method and system for detecting a vehicle having at least one wheel

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802055A (zh) * 2011-05-25 2012-11-28 阿里巴巴集团控股有限公司 一种基于在线视频的数据交互方法及装置
CN106776619A (zh) * 2015-11-20 2017-05-31 百度在线网络技术(北京)有限公司 用于确定目标对象的属性信息的方法和装置
CN106909896A (zh) * 2017-02-17 2017-06-30 竹间智能科技(上海)有限公司 基于人物性格与人际关系识别的人机交互系统及工作方法
CN107330735A (zh) * 2017-07-04 2017-11-07 百度在线网络技术(北京)有限公司 用于确定关联门店的方法和装置
CN107644036A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 一种数据对象推送的方法、装置及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10530877B2 (en) * 2014-10-03 2020-01-07 Drive Time Metrics, Inc. Method and system for cross channel in-car media consumption measurement and analysis using blockchain

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802055A (zh) * 2011-05-25 2012-11-28 阿里巴巴集团控股有限公司 一种基于在线视频的数据交互方法及装置
CN106776619A (zh) * 2015-11-20 2017-05-31 百度在线网络技术(北京)有限公司 用于确定目标对象的属性信息的方法和装置
CN107644036A (zh) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 一种数据对象推送的方法、装置及系统
CN106909896A (zh) * 2017-02-17 2017-06-30 竹间智能科技(上海)有限公司 基于人物性格与人际关系识别的人机交互系统及工作方法
CN107330735A (zh) * 2017-07-04 2017-11-07 百度在线网络技术(北京)有限公司 用于确定关联门店的方法和装置

Also Published As

Publication number Publication date
CN108898067A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
Ding et al. A deep hybrid learning model to detect unsafe behavior: Integrating convolution neural networks and long short-term memory
US11222239B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
Luo et al. Convolutional neural networks: Computer vision-based workforce activity assessment in construction
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
Zhang et al. Toward new retail: A benchmark dataset for smart unmanned vending machines
CN111222500B (zh) 一种标签提取方法及装置
CN108345587B (zh) 一种评论的真实性检测方法与系统
KR20180104609A (ko) 다수의 이미지 일치성을 바탕으로 보험클레임 사기 방지를 실현하는 방법, 시스템, 기기 및 판독 가능 저장매체
CN110991261A (zh) 交互行为识别方法、装置、计算机设备和存储介质
CN108898067B (zh) 确定人和物关联度的方法、装置及计算机可读存储介质
Shen et al. A convolutional neural‐network‐based pedestrian counting model for various crowded scenes
CN113516227B (zh) 一种基于联邦学习的神经网络训练方法及设备
CN109376631A (zh) 一种基于神经网络的回环检测方法及装置
CN111639970A (zh) 基于图像识别的物品价格确定方法及相关设备
CN109840503B (zh) 一种确定种类信息的方法及装置
CN113705297A (zh) 检测模型的训练方法、装置、计算机设备和存储介质
CN111428572A (zh) 信息处理方法、装置、电子设备和介质
Gong et al. A novel unified deep neural networks methodology for use by date recognition in retail food package image
Quan et al. Cross attention redistribution with contrastive learning for few shot object detection
Pamuncak et al. Deep learning for bridge load capacity estimation in post-disaster and-conflict zones
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
CN113689475A (zh) 跨境头轨迹跟踪方法、设备及存储介质
CN112800923A (zh) 人体图像质量检测方法及装置、电子设备、存储介质
CN114360182A (zh) 一种智能告警方法、装置、设备及存储介质
Pabba et al. A visual intelligent system for students’ behavior classification using body pose and facial features in a smart classroom

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant