CN117194698B - 一种基于oar语义知识库的任务处理系统和方法 - Google Patents

一种基于oar语义知识库的任务处理系统和方法 Download PDF

Info

Publication number
CN117194698B
CN117194698B CN202311466655.3A CN202311466655A CN117194698B CN 117194698 B CN117194698 B CN 117194698B CN 202311466655 A CN202311466655 A CN 202311466655A CN 117194698 B CN117194698 B CN 117194698B
Authority
CN
China
Prior art keywords
target
representation
oar
image
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311466655.3A
Other languages
English (en)
Other versions
CN117194698A (zh
Inventor
段一平
陶晓明
李辰星
胡舒展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202311466655.3A priority Critical patent/CN117194698B/zh
Publication of CN117194698A publication Critical patent/CN117194698A/zh
Application granted granted Critical
Publication of CN117194698B publication Critical patent/CN117194698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本公开提供了一种基于OAR语义知识库的任务处理系统和方法,涉及数据处理技术领域,旨在解决图像数据利用率低的问题,以提高信息处理效率。所述系统包括OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块;所述数据表示模块,用于获取输入的目标图像的OAR表示,所述目标图像包括多个目标对象;所述数据结构化模块,用于根据所述目标图像的OAR表示,生成所述目标图像的OAR拓扑图;所述数据检索模块,用于根据所述目标图像的OAR拓扑图,在所述OAR语义知识库中进行检索,得到检索图像;所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务。

Description

一种基于OAR语义知识库的任务处理系统和方法
技术领域
本公开涉及数据处理技术领域,特别是涉及一种基于OAR语义知识库的任务处理系统和方法。
背景技术
随着通信技术和互联网的发展,全球服务需求的提升以及全新应用场景大量涌现,使得大量业务增长,多种模态数据共存,这对多媒体处理任务提出了严峻的挑战。
面对各种多媒体处理任务,例如监控数据中的图像和视频,需要大量的人力进行处理与识别,这使得信息处理效率低、数据利用率低。如何从大量的图像数据和视频数据中,更加智能地识别出所需的信息,并根据不同的多媒体处理任务进行检索是当前研究的重点和难点。
发明内容
鉴于上述问题,本公开实施例提供了一种基于OAR语义知识库的任务处理系统和方法,以便克服上述问题或者至少部分地解决上述问题。
本公开实施例的第一方面,提供了一种基于OAR语义知识库的任务处理系统,所述系统包括OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块;
所述数据表示模块,用于获取输入的目标图像的OAR表示,所述目标图像包括多个目标对象;
所述数据结构化模块,用于根据所述目标图像的OAR表示,生成所述目标图像的OAR拓扑图;所述目标图像的OAR拓扑图包括:节点和链路;所述节点为:所述目标对象的结构化表示;所述链路为:所述目标对象之间的关系表示;所述目标对象的结构化表示包括:所述目标对象的类别表示和属性表示;
所述数据检索模块,用于根据所述目标图像的OAR拓扑图,在所述OAR语义知识库中进行检索,得到检索图像;所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务。
可选地,所述数据表示模块具体用于执行:
获取所述目标图像的特征图;
从所述目标图像的特征图中,提取各个所述目标对象的特征图;
根据各个所述目标对象的特征图,预测各个所述目标对象的类别表示;
根据各个所述目标对象的特征图,预测各个所述目标对象的多个属性表示,所述属性表示包括:属性标签向量和属性特征值向量;
将各个所述目标对象的类别表示,以及各个所述目标对象的多个属性表示进行拼接,得到各个所述目标对象的对象-属性表示;
根据各个所述目标对象的对象-属性表示,预测各个所述目标对象之间的关系表示;
根据各个所述目标对象的对象-属性表示,以及各个所述目标对象之间的关系表示,得到所述目标图像的OAR表示。
可选地,所述从所述目标图像的特征图中,提取各个所述目标对象的特征图,包括:
获取所述图像处理任务的对象粒度;
根据所述对象粒度,从所述目标图像的特征图中,获取各个所述目标对象的候选框;
根据各个所述目标对象的候选框的坐标,从所述目标图像的特征图中,提取各个所述目标对象的特征图。
可选地,所述数据检索模块具体用于执行:
获取检索优先级,所述检索优先级用于表征对象、属性和关系之间的优先级;
按照所述检索优先级,根据所述目标图像的OAR拓扑图,生成第一图向量,以及根据所述OAR语义知识库中的多个图像的OAR拓扑图,生成多个第二图向量;
根据所述第一图向量,在所述多个第二图向量中进行检索,得到目标第二图向量;
将所述目标第二图向量对应的图像,确定为所述检索图像。
可选地,所述按照所述检索优先级,根据所述目标图像的OAR拓扑图,生成第一图向量,包括:
根据所述目标图像的OAR拓扑图,获取各个所述目标对象的属性表示、各个所述目标对象的结构化表示和各个所述目标对象之间的关系表示;
根据所述检索优先级,确定所述属性表示、所述结构化表示和所述关系表示之间的拼接顺序;
按照所述拼接顺序,将各个所述目标对象的属性表示、各个所述目标对象的结构化表示和各个所述目标对象之间的关系表示进行拼接,得到所述第一图向量。
可选地,所述根据所述第一图向量,在所述多个第二图向量中进行检索,得到目标第二图向量,包括:
获取结构化表示、属性表示和关系表示各自的权重;
根据所述权重,计算所述第一图向量,与每一所述第二图向量之间的加权相似度;
根据所述加权相似度,从所述多个第二图向量中,确定所述目标第二图向量。
可选地,所述数据结构化模块具体用于执行:
根据所述目标图像的OAR表示,生成各个所述目标对象的结构化表示;
根据所述目标图像的OAR表示,确定各个所述目标对象之间的关系表示;
根据各个所述目标对象之间的关系表示和各个所述目标对象的结构化表示,生成所述目标图像的OAR拓扑图。
可选地,所述图像处理任务为目标事件监控任务;
所述多个图像为监控视频的各个视频帧;
所述目标图像用于描述所述目标事件;
所述检索图像为:图像内容包含所述目标事件的视频帧。
本公开实施例的第二方面,提供了一种基于OAR语义知识库的任务处理方法,应用于基于OAR语义知识库的任务处理系统,所述基于OAR语义知识库的任务处理系统包括:OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块;
将目标图像输入所述数据表示模块,得到所述目标图像的OAR表示,所述目标图像包括多个目标对象;
将所述目标图像的OAR表示输入所述数据结构化模块,得到所述目标图像的OAR拓扑图;所述目标图像的OAR拓扑图包括:节点和链路;所述节点为:所述目标对象的结构化表示;所述链路为:所述目标对象之间的关系表示;所述目标对象的结构化表示包括:所述目标对象的类别表示和属性表示;
将所述目标图像的OAR拓扑图输入所述数据检索模块,得到所述数据检索模块在所述OAR语义知识库中进行检索得到的检索图像;所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务。
可选地,所述将目标图像输入所述数据表示模块,得到所述目标图像的OAR表示,包括:
将所述目标图像输入所述数据表示模块,得到所述目标图像的特征图;
从所述目标图像的特征图中,提取各个所述目标对象的特征图;
根据各个所述目标对象的特征图,预测各个所述目标对象的类别表示;
根据各个所述目标对象的特征图,预测各个所述目标对象的多个属性表示,所述属性表示包括属性标签向量和属性特征值向量;
将各个所述目标对象的类别表示,以及各个所述目标对象的多个属性表示进行拼接,得到各个所述目标对象的对象-属性表示;
根据各个所述目标对象的对象-属性表示,预测各个所述目标对象之间的关系表示;
根据各个所述目标对象的对象-属性表示,以及各个所述目标对象之间的关系表示,得到所述目标图像的OAR表示。
本公开实施例的第三方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行指令,以实现如第二方面的基于OAR语义知识库的任务处理方法。
本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如第二方面的基于OAR语义知识库的任务处理方法。
本公开实施例包括以下优点:
本公开实施例中,通过数据表示模块和数据结构化模块,可以将各个图像统一处理为OAR(object-attribute-relation,对象-属性-关系)拓扑图,一个图像的OAR拓扑图中的节点为图像中的各个对象的结构化表示,一个图像的OAR拓扑图中的链路为各个对象之间的关系表示,一个对象的结构化表示包括对象的类别表示和属性表示。因此,图像的OAR拓扑图可以准确描述图像中的各个对象的属性和特征,以及各个对象之间的关系,蕴含了丰富的信息,对图像中的各个对象的描绘更加具体;此外,OAR拓扑图的数据量较小,且更加直观。数据检索模块可以根据目标图像的OAR拓扑图,在包含多个图像的OAR拓扑图的OAR语义知识库中进行检索,且所需处理的数据量较小,可以有效提升信息检索效率,进而,实现对图像数据的充分利用。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例中一种基于OAR语义知识库的任务处理系统的结构示意图;
图2是本公开实施例中OAR拓扑图的示意图;
图3是本公开实施例中对象的结构化表示的示意图;
图4是本公开实施例中一种基于OAR语义知识库的任务处理方法的步骤流程图。
具体实施方式
为使本公开的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本公开作进一步详细的说明。
相关技术中,想要从多张图像中查找出与图像A相似的图像,可以通过计算每张图像的像素点与图像A的像素点的相似度来实现。然而,这种方法计算量大,且不够实用。例如,在需要确定针对道路的一段监控视频中是否存在车辆追尾事故时,只能人工去翻看监控视频,而难以通过比较每个视频帧的像素点与车辆追尾事故的图像B的像素点的相似度进行确定,因为即使都是车辆追尾事故,但是可能是不同的车型、不同颜色的车辆发生的追尾事故。
针对上述技术问题,本公开实施例提出的一种基于OAR语义知识库的任务处理系统,将图像处理成了OAR拓扑图,然后基于OAR拓扑图进行检索,实现了基于语义进行检索,减少了需要处理的计算量,提高了检索的准确性。
参照图1所示,示出了本公开实施例中一种基于OAR语义知识库的任务处理系统的结构示意图,如图1所示,该基于OAR语义知识库的任务处理系统OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块;数据表示模块、数据结构化模块和数据检索模块串行连接。
OAR语义知识库可以设置在处理端上,该基于OAR语义知识库的任务处理系统还可以包括发送端和任务端,发送端用于传输目标图像给OAR语义知识库,任务端用于接收OAR语义知识库检索到的检索图像,并执行图像处理任务,其中,任务端与发送端可以是相同或不同的终端。
所述数据表示模块,用于获取输入的目标图像的OAR表示,所述目标图像包括多个目标对象;
所述数据结构化模块,用于根据所述目标图像的OAR表示,生成所述目标图像的OAR拓扑图;所述目标图像的OAR拓扑图包括:节点和链路;所述节点为:所述目标对象的结构化表示;所述链路为:所述目标对象之间的关系表示;所述目标对象的结构化表示包括:所述目标对象的类别表示和属性表示;
所述数据检索模块,用于根据所述目标图像的OAR拓扑图,在所述OAR语义知识库中进行检索,得到检索图像;所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务。
目标图像可以为照片、视频帧或机器生成图像等任意图像。目标图像可以是由发送端传输给语义知识库所在的终端,并输入语义知识库中数据表示模块。
OAR中的O表征对象,A表征对象的属性,R表征对象之间的关系,可选地,A还可以表征对象之间的关系的属性。例如,一张图像的图像内容为:红色的破旧汽车缓慢地行驶在新铺的公路上;其中,“汽车”和“公路”可以为对象,“行驶”为对象“汽车”和对象“公路”之间的关系,“红色”和“破旧”分别为对象“汽车”的属性,“新”是对象“公路”的属性,“缓慢”是关系“行驶”的属性。如此,通过OAR可以精确地描述对象和对象之间的关系。这种表征方式意味着一个对象不只是它的标签本身,还包括了它的内在性质和特征,从而将物体的语义检测升级到实例检测。一个对象可以表示为一个向量o={X, x1, x2,…, xn},其中X为该对象的类别表示,x1, x2,…, xn分别为该对象不同类别的属性的特征值向量。属性的特征值向量可以描述属性不同的特征;例如在描述红色这一属性时,可以具体描述为大红色、暗红色;在描述破旧这一属性时,可以具体描述破损的程度。通过属性的特征值向量可以细分和描述属性的程度和细节特征。同理,关系也有其内在属性和特征,一个关系也可以表示为一个向量r={Y, y1, y2,…, ym},其中Y为该关系的类别表示,y1, y2,…, ym分别为该关系不同类别属性的特征值向量。进而,根据图像中的各个对象的o向量和关联的r向量,可以得到图像的OAR表示I={O, A, R}。
目标图像包括的对象为目标对象,目标图像包括的目标对象为实体。例如,一张多人合照图像中的对象可以为合照的每个人。目标图像中包括多个目标对象,数据表示模块可以获取输入的目标图像的OAR表示;OAR表示可以为OAR图像,也可以为OAR向量。其中,OAR图像类似场景图(Scene Graph)的可视化结果。目标图像的OAR图像包括多个目标对象所在的位置框,每个位置框携带对应的目标对象的属性信息以及该目标对象与其它目标对象之间的关系信息。OAR向量是根据目标图像中各个目标对象、各个目标对象的属性信息以及各个目标对象之间的关系信息表征成的机器可理解的向量形式。
本公开实施例中,数据表示模块获取目标图像的OAR表示的方法,是对Faster R-CNN(快速区域卷积神经网络)算法进行改进后得到的一种方法。所述数据表示模块获取输入的目标图像的OAR表示,可以包括:获取所述目标图像的特征图;从所述目标图像的特征图中,提取各个所述目标对象的特征图;根据各个所述目标对象的特征图,预测各个所述目标对象的类别表示;根据各个所述目标对象的特征图,预测各个所述目标对象的多个属性表示,所述属性表示包括:属性标签向量和属性特征值向量;将各个所述目标对象的类别表示,以及各个所述目标对象的多个属性表示进行拼接,得到各个所述目标对象的对象-属性表示;根据各个所述目标对象的对象-属性表示,预测各个所述目标对象之间的关系表示;根据各个所述目标对象的对象-属性表示,以及各个所述目标对象之间的关系表示,得到所述目标图像的OAR表示。
数据表示模块可以是预先经过有监督训练得到的,数据表示模块的训练方法可以参照相关技术,本公开对此不作限制。
数据表示模块可以按照Faster R-CNN算法,获取到目标图像的特征图,并从所述目标图像的特征图中,提取所述目标图像的各个目标对象的特征图,以及根据所述各个目标对象的特征图,预测所述各个目标对象的类别表示。
具体地,可以利用ResNet(Residual Network,残差网络)和FPN(Feature PyramidNetworks--特征金字塔)构成的backbone(主干网络)提取目标图像的特征图,目标图像的特征图用于后续的RPN(Region Proposal Network,区域候选网络)层和取proposal(提议)。RPN层用于生成各个目标对象的候选框。数据表示模块对各个候选框进行分类,判断候选框中的图像内容是否为目标对象,仅保留包含目标对象的候选框。对候选框进行修正,得到更加准确的候选框。利用RoI Pooling(兴趣域池化层)获取每个候选框的坐标,并根据每个候选框的坐标,从目标图像的特征图中提取目标对象的特征图。将目标对象的特征图输入全连接层,得到目标对象的类别表示。可选地,可以再次对候选框进行修正,得到目标对象的更加精确的候选框。
在Faster R-CNN算法的基础上,本公开实施例还对目标对象的属性以及目标对象之间的关系进行了预测。预测目标对象的属性可以是在获取到了目标对象的更加精确的候选框之后,根据更加精确的候选框的坐标,对目标图像的特征图进行裁剪,得到更加精确的目标对象的特征图;将更加精确的目标对象的特征图输入属性预测网络,属性预测网络包括池化层和并列的多个卷积神经网络,目标对象的特征图经过池化层和并列的多个卷积神经网络,可以提取到目标对象的各个属性信息,并对各个属性信息进行分类,最终得到目标对象的各个属性的属性标签向量和属性特征值向量。可以理解的是,若没有再次对候选框进行修正以得到更加精确的候选框,则可以直接根据候选框的坐标对目标图像的特征图进行裁剪,得到目标对象的特征图,根据目标对象的特征图预测目标对象的各个属性信息。
将各个目标对象的类别表示和该目标对象的各个属性表示进行拼接,可以得到各个目标对象的对象-属性表示。目标对象的对象-属性表示不再是单薄的对象类别标签,而具有了更丰富的内在含义和特征属性。将各个目标对象的对象-属性表示输入关系预测网络,可以得到各个目标对象之间的关系表示。其中,关系预测网络可以参照相关技术。将每一目标对象的对象-属性表示,以及与该目标对象有关的关系表示进行拼接,可以得到目标图像的OAR表示。
在上述技术方案的基础上,目标图像中目标对象的对象粒度可以根据需求进行设置。例如,根据设置的对象粒度不同,目标对象可以为一个人,也可以为头部、躯干、四肢,四肢动作,穿衣类别等。在提取目标图像中各个目标对象的特征图时,可以获取图像处理任务所需的对象粒度;根据图像处理任务的对象粒度,从目标图像的特征图中,获取各个目标对象的候选框;根据各个目标对象的候选框的坐标,从目标图像的特征图中,提取各个目标对象的特征图;进而根据各个目标对象的特征图,得到目标图像的OAR表示。如此,以满足不同图像处理任务的需求。
在得到目标图像的OAR表示之后,可以将目标图像的OAR表示输入数据结构化模块,数据结构化模块可以根据任一图像的OAR表示,生成数据结构统一的OAR拓扑图。图2是本公开实施例中OAR拓扑图的示意图。一个图像的OAR拓扑图中的节点为该图像中的各个对象的结构化表示,一个图像中节点之间的链路表征各个对象之间的关系表示。OAR拓扑图是根据多个(O-A)-(R-A)-(O-A)的“主谓宾”三元组形式构成一种图像的表征结构,考虑关系的属性,有利于保证数据结构的完整性,以及为后序研究工作的扩展做准备。可以理解的是,在未检测关系的属性的情况下,OAR拓扑图中的关系表示可以不携带属性信息。
图3是本公开实施例中对象的结构化表示的示意图,对象的结构化表示的头部为对象的类别表示,头部之后为该对象的属性表示,其中属性表示包括属性标签向量和属性特征值向量。
数据结构化模块可以根据目标图像的OAR表示,提取各个目标对象的类别表示以及各个目标对象的属性表示,从而根据目标对象的类别表示和属性表示,生成目标对象的结构化表示。数据结构化模块可以根据目标图像的OAR表示,提取各个目标对象之间的关系表示。将各个目标对象的结构化表示确定为节点,根据各个目标对象之间是否存在关系表示,可以确定节点之间是否存在链路,以及确定节点之间的链路的类别标签和属性信息。如此,根据各个目标对象之间的关系表示和各个目标对象的结构化表示,可以生成目标图像的OAR拓扑图。
数据结构化模块还可以将处理后的数据结构统一的OAR拓扑图存储到OAR语义知识库中,数据结构化模块可以将目标图像的OAR拓扑图存储到OAR语义知识库中,OAR语义知识库中的多个图像的OAR拓扑图,是经过了如目标图像类似的处理得到并存储在OAR语义知识库中的。
将数据结构化模块处理后得到的目标图像的OAR拓扑图输入数据检索模块,数据检索模块可以在OAR语义知识库中进行检索,检索到描述的图像内容与目标图像描述的图像内容相似的检索图像。其中,一个OAR语义知识库可以对应一个图像处理任务,该OAR语义知识库中的各个图像的对象粒度,都为该图像处理任务的对象粒度,以保证目标图像的对象粒度与OAR语义知识库中各个图像的对象粒度一致。可选地,一个OAR语义知识库可以对应多个图像处理任务。
在进行检索时,可以是将目标图像的OAR拓扑图表征的多个(O-A)-(R-A)-(O-A)的“主谓宾”三元组,拼接成第一图向量。可以获取检索优先级,按照检索优先级进行拼接,得到第一图向量;检索优先级表征对象、属性和关系之间的优先级;检索优先级可以是根据图像处理任务确定的,也可以是预先配置好的。
按照检索优先级,根据目标图像的OAR拓扑图,生成第一图向量,可以包括:根据所述目标图像的OAR拓扑图,获取所述目标图像的各个目标对象的属性表示、所述各个目标对象的结构化表示和所述各个目标对象之间的关系表示;根据所述检索优先级,确定属性表示、目标对象的结构化表示和关系表示之间的拼接顺序;按照所述拼接顺序,将所述各个目标对象的属性表示、所述各个目标对象的结构化表示和所述各个目标对象之间的关系表示进行拼接,得到所述第一图向量。
根据目标图像的OAR拓扑图,可以获取目标图像的各个目标对象的属性表示、各个目标对象的结构化表示和各个目标对象之间的关系表示,进而根据每两个存在关系的目标对象各自的结构化表示,以及该两个目标对象各自的属性表示,可以生成一个(O-A)-(R-A)-(O-A)的“主谓宾”三元组。按照检索优先级确定的属性表示、目标对象的结构化表示和关系表示之间的拼接顺序,将三元组重新进行拼接,得到重新拼接后的三元组;将各个目标对象的重新拼接后的三元组进行拼接,可以得到目标图像的第一图向量。
同理,可以根据OAR语义知识库中的各个图像的OAR拓扑图,生成各个第二图向量。
在得到第一图向量和各个第二图向量之后,根据第一图向量,在各个第二图向量中进行检索,可以得到与第一图向量相似的目标第二图向量;根据目标第二图向量,可以确定目标第二图向量对应的检索图像。其中,目标第二图向量可以为一个或多个。可以是预先存储了OAR语义知识库中每个图像的OAR拓扑图与对应的图像之间的对应关系以及各个图像,在确定了目标第二图向量之后,可以根据对应关系,确定目标第二图向量对应的检索图像,并从存储的各个图像中获取到检索图像。
在上述技术方案的基础上,根据第一图向量,在各个第二图向量中进行检索,得到目标第二图向量,可以包括:获取对象结构化表示、属性表示和关系表示各自的权重;根据所述权重,计算所述第一图向量,与每一所述第二图向量之间的加权相似度;根据所述加权相似度,从所述各个第二图向量中,确定所述目标第二图向量。
其中,对象结构化表示、属性表示和关系表示各自的权重可以是预先确定好的,也可以是从图像处理任务中获取到的。可以按照如下公式计算第一图向量和第二图向量/>之间的加权相似度/>
其中,T表示转置矩阵,表征L2范数。采用向量间的余弦相似度进行计算,后将相似度排在前k的图像找出来,作为检索结果。
OAR语义知识库可以包含与图像处理任务对接的接口,在确定与目标图像相似的检索图像之后,OAR语义知识库可以将检索图像传输给图像处理任务所在的任务端,以使任务端根据检索图像执行图像处理任务。可选地,根据图像处理任务的需求,也可以直接将检索图像的OAR拓扑图传输给图像处理任务所在的任务端,以使任务端根据检索图像执行图像处理任务。
采用本公开实施例的技术方案,通过数据表示模块和数据结构化模块,可以将各个图像统一处理为OAR拓扑图,一个图像的OAR拓扑图中的节点为图像中的各个对象的结构化表示,一个图像的OAR拓扑图中的链路为各个对象之间的关系表示,一个对象的结构化表示包括对象的类别表示和属性表示。因此,图像的OAR拓扑图可以准确描述图像中的各个对象的属性和特征,以及各个对象之间的关系,蕴含了丰富的信息,对图像中的各个对象的描绘更加具体;此外,OAR拓扑图的数据量较小,且更加直观。数据检索模块可以根据目标图像的OAR拓扑图,在包含多个图像的OAR拓扑图的OAR语义知识库中进行检索,且所需处理的数据量较小,可以有效提升信息检索效率,进而,实现对图像数据的充分利用。
作为一个实施例,图像处理任务为目标事件监控任务;所述多个图像为监控视频的各个视频帧;所述目标图像用于描述所述目标事件;所述检索图像为:图像内容包含所述目标事件的视频帧。
例如,目标事件监控任务为监控某池塘是否有人垂钓,多个图像为该池塘的监控视频的各个视频帧,目标图像的图像内容为一个人在该池塘进行垂钓。则可以获取监控视频的各个视频帧,并将监控视频的各个视频帧输入数据表示模块,得到各个视频帧的OAR表示;将各个视频帧的OAR表示输入数据结构化模块,得到各个视频帧的OAR拓扑图,将各个视频帧的OAR拓扑图存储到OAR语义知识库中。获取目标图像的OAR拓扑图,并根据目标图像的OAR拓扑图在OAR语义知识库中进行检索,若检索到相似度超过相似度的阈值的OAR拓扑图,则获取该OAR拓扑图对应的检索图像。通过识别该检索图像,可以确定是否有人在该池塘进行垂钓。
可选地,目标事件监控任务为监控某地是否发生交通事故,多个图像为该地的监控视频中抽取的多个视频帧,目标图像可以为某交通事故现场的照片,则可以根据目标图像的OAR拓扑图,检索OAR语义知识库中多个图像的OAR拓扑图,以确定该地是否发生交通事故。
采用本公开实施例的技术方案,可以实现监控技术智能化,自动识别监控中出现的异常,以及时有效、快速地采取措施。
图4是本公开实施例中一种基于OAR语义知识库的任务处理方法的步骤流程图,所述基于OAR语义知识库的任务处理方法应用于基于OAR语义知识库的任务处理系统,所述基于OAR语义知识库的任务处理系统包括:OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块。如图4所示,所述方法包括步骤S11~步骤S13。
步骤S11:将目标图像输入所述数据表示模块,得到所述目标图像的OAR表示,所述目标图像包括多个目标对象。
步骤S12:将所述目标图像的OAR表示输入所述数据结构化模块,得到所述目标图像的OAR拓扑图。
所述目标图像的OAR拓扑图包括:节点和链路;所述节点为:所述目标对象的结构化表示;所述链路为:所述目标对象之间的关系表示;所述目标对象的结构化表示包括:所述目标对象的类别表示和属性表示。
步骤S13:将所述目标图像的OAR拓扑图输入所述数据检索模块,得到所述数据检索模块在所述OAR语义知识库中进行检索得到的检索图像。
所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务。
可选地,所述将目标图像输入所述数据表示模块,得到所述目标图像的OAR表示,包括:
将所述目标图像输入所述数据表示模块,得到所述目标图像的特征图;
从所述目标图像的特征图中,提取各个所述目标对象的特征图;
根据各个所述目标对象的特征图,预测各个所述目标对象的类别表示;
根据各个所述目标对象的特征图,预测各个所述目标对象的多个属性表示,所述属性表示包括属性标签向量和属性特征值向量;
将各个所述目标对象的类别表示,以及各个所述目标对象的多个属性表示进行拼接,得到各个所述目标对象的对象-属性表示;
根据各个所述目标对象的对象-属性表示,预测各个所述目标对象之间的关系表示;
根据各个所述目标对象的对象-属性表示,以及各个所述目标对象之间的关系表示,得到所述目标图像的OAR表示。
可选地,所述从所述目标图像的特征图中,提取各个所述目标对象的特征图,包括:
获取所述图像处理任务的对象粒度;
根据所述对象粒度,从所述目标图像的特征图中,获取各个所述目标对象的候选框;
根据各个所述目标对象的候选框的坐标,从所述目标图像的特征图中,提取各个所述目标对象的特征图。
可选地,所述将所述目标图像的OAR拓扑图输入所述数据检索模块,得到所述数据检索模块在所述OAR语义知识库中进行检索得到的检索图像,包括:
获取检索优先级,所述检索优先级用于表征对象、属性和关系之间的优先级;
按照所述检索优先级,根据所述目标图像的OAR拓扑图,生成第一图向量,以及根据所述OAR语义知识库中的多个图像的OAR拓扑图,生成多个第二图向量;
根据所述第一图向量,在所述多个第二图向量中进行检索,得到目标第二图向量;
将所述目标第二图向量对应的图像,确定为所述检索图像。
可选地,所述按照所述检索优先级,根据所述目标图像的OAR拓扑图,生成第一图向量,包括:
根据所述目标图像的OAR拓扑图,获取各个所述目标对象的属性表示、各个所述目标对象的结构化表示和各个所述目标对象之间的关系表示;
根据所述检索优先级,确定所述属性表示、所述结构化表示和所述关系表示之间的拼接顺序;
按照所述拼接顺序,将各个所述目标对象的属性表示、各个所述目标对象的结构化表示和各个所述目标对象之间的关系表示进行拼接,得到所述第一图向量。
可选地,所述根据所述第一图向量,在所述多个第二图向量中进行检索,得到目标第二图向量,包括:
获取结构化表示、属性表示和关系表示各自的权重;
根据所述权重,计算所述第一图向量,与每一所述第二图向量之间的加权相似度;
根据所述加权相似度,从所述多个第二图向量中,确定所述目标第二图向量。
可选地,所述将所述目标图像的OAR表示输入所述数据结构化模块,得到所述目标图像的OAR拓扑图,包括:
根据所述目标图像的OAR表示,生成各个所述目标对象的结构化表示;
根据所述目标图像的OAR表示,确定各个所述目标对象之间的关系表示;
根据各个所述目标对象之间的关系表示和各个所述目标对象的结构化表示,生成所述目标图像的OAR拓扑图。
可选地,所述图像处理任务为目标事件监控任务;
所述多个图像为监控视频的各个视频帧;
所述目标图像用于描述所述目标事件;
所述检索图像为:图像内容包含所述目标事件的视频帧。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开实施例所必须的。
需要说明的是,方法实施例与系统实施例相近,故描述的较为简单,相关之处参见系统实施例即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本公开实施例的实施例可提供为方法、装置或计算机程序产品。因此,本公开实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例是参照根据本公开实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本公开所提供的一种基于OAR语义知识库的任务处理系统和方法,进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本公开的限制。

Claims (8)

1.一种基于OAR语义知识库的任务处理系统,其特征在于,所述系统包括OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块;
所述数据表示模块,用于获取输入的目标图像的OAR表示,所述目标图像包括多个目标对象;
所述数据结构化模块,用于根据所述目标图像的OAR表示,生成所述目标图像的OAR拓扑图;所述目标图像的OAR拓扑图包括:节点和链路;所述节点为:所述目标对象的结构化表示;所述链路为:所述目标对象之间的关系表示;所述目标对象的结构化表示包括:所述目标对象的类别表示和属性表示;
所述数据检索模块,用于根据所述目标图像的OAR拓扑图,在所述OAR语义知识库中进行检索,得到检索图像;所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务;
所述数据表示模块具体用于执行:
获取所述目标图像的特征图;
从所述目标图像的特征图中,提取各个所述目标对象的特征图;
根据各个所述目标对象的特征图,预测各个所述目标对象的类别表示;
根据各个所述目标对象的特征图,预测各个所述目标对象的多个属性表示,所述属性表示包括:属性标签向量和属性特征值向量;
将各个所述目标对象的类别表示,以及各个所述目标对象的多个属性表示进行拼接,得到各个所述目标对象的对象-属性表示;
根据各个所述目标对象的对象-属性表示,预测各个所述目标对象之间的关系表示;
根据各个所述目标对象的对象-属性表示,以及各个所述目标对象之间的关系表示,得到所述目标图像的OAR表示。
2.根据权利要求1所述的系统,其特征在于,所述从所述目标图像的特征图中,提取各个所述目标对象的特征图,包括:
获取所述图像处理任务的对象粒度;
根据所述对象粒度,从所述目标图像的特征图中,获取各个所述目标对象的候选框;
根据各个所述目标对象的候选框的坐标,从所述目标图像的特征图中,提取各个所述目标对象的特征图。
3.根据权利要求1所述的系统,其特征在于,所述数据检索模块具体用于执行:
获取检索优先级,所述检索优先级用于表征对象、属性和关系之间的优先级;
按照所述检索优先级,根据所述目标图像的OAR拓扑图,生成第一图向量,以及根据所述OAR语义知识库中的多个图像的OAR拓扑图,生成多个第二图向量;
根据所述第一图向量,在所述多个第二图向量中进行检索,得到目标第二图向量;
将所述目标第二图向量对应的图像,确定为所述检索图像。
4.根据权利要求3所述的系统,其特征在于,所述按照所述检索优先级,根据所述目标图像的OAR拓扑图,生成第一图向量,包括:
根据所述目标图像的OAR拓扑图,获取各个所述目标对象的属性表示、各个所述目标对象的结构化表示和各个所述目标对象之间的关系表示;
根据所述检索优先级,确定所述属性表示、所述结构化表示和所述关系表示之间的拼接顺序;
按照所述拼接顺序,将各个所述目标对象的属性表示、各个所述目标对象的结构化表示和各个所述目标对象之间的关系表示进行拼接,得到所述第一图向量。
5.根据权利要求3所述的系统,其特征在于,所述根据所述第一图向量,在所述多个第二图向量中进行检索,得到目标第二图向量,包括:
获取结构化表示、属性表示和关系表示各自的权重;
根据所述权重,计算所述第一图向量,与每一所述第二图向量之间的加权相似度;
根据所述加权相似度,从所述多个第二图向量中,确定所述目标第二图向量。
6.根据权利要求1所述的系统,其特征在于,所述数据结构化模块具体用于执行:
根据所述目标图像的OAR表示,生成各个所述目标对象的结构化表示;
根据所述目标图像的OAR表示,确定各个所述目标对象之间的关系表示;
根据各个所述目标对象之间的关系表示和各个所述目标对象的结构化表示,生成所述目标图像的OAR拓扑图。
7.根据权利要求1-6任一所述的系统,其特征在于,所述图像处理任务为目标事件监控任务;
所述多个图像为监控视频的各个视频帧;
所述目标图像用于描述所述目标事件;
所述检索图像为:图像内容包含所述目标事件的视频帧。
8.一种基于OAR语义知识库的任务处理方法,其特征在于,应用于基于OAR语义知识库的任务处理系统,所述基于OAR语义知识库的任务处理系统包括:OAR语义知识库,所述OAR语义知识库包括:数据表示模块、数据结构化模块和数据检索模块;
将目标图像输入所述数据表示模块,得到所述目标图像的OAR表示,所述目标图像包括多个目标对象;
将所述目标图像的OAR表示输入所述数据结构化模块,得到所述目标图像的OAR拓扑图;所述目标图像的OAR拓扑图包括:节点和链路;所述节点为:所述目标对象的结构化表示;所述链路为:所述目标对象之间的关系表示;所述目标对象的结构化表示包括:所述目标对象的类别表示和属性表示;
将所述目标图像的OAR拓扑图输入所述数据检索模块,得到所述数据检索模块在所述OAR语义知识库中进行检索得到的检索图像;所述OAR语义知识库中包含多个图像的OAR拓扑图;所述检索图像用于进行图像处理任务;
所述将目标图像输入所述数据表示模块,得到所述目标图像的OAR表示,包括:
将所述目标图像输入所述数据表示模块,得到所述目标图像的特征图;
从所述目标图像的特征图中,提取各个所述目标对象的特征图;
根据各个所述目标对象的特征图,预测各个所述目标对象的类别表示;
根据各个所述目标对象的特征图,预测各个所述目标对象的多个属性表示,所述属性表示包括属性标签向量和属性特征值向量;
将各个所述目标对象的类别表示,以及各个所述目标对象的多个属性表示进行拼接,得到各个所述目标对象的对象-属性表示;
根据各个所述目标对象的对象-属性表示,预测各个所述目标对象之间的关系表示;
根据各个所述目标对象的对象-属性表示,以及各个所述目标对象之间的关系表示,得到所述目标图像的OAR表示。
CN202311466655.3A 2023-11-07 2023-11-07 一种基于oar语义知识库的任务处理系统和方法 Active CN117194698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311466655.3A CN117194698B (zh) 2023-11-07 2023-11-07 一种基于oar语义知识库的任务处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311466655.3A CN117194698B (zh) 2023-11-07 2023-11-07 一种基于oar语义知识库的任务处理系统和方法

Publications (2)

Publication Number Publication Date
CN117194698A CN117194698A (zh) 2023-12-08
CN117194698B true CN117194698B (zh) 2024-02-06

Family

ID=89002001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311466655.3A Active CN117194698B (zh) 2023-11-07 2023-11-07 一种基于oar语义知识库的任务处理系统和方法

Country Status (1)

Country Link
CN (1) CN117194698B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021138A (zh) * 2014-04-23 2014-09-03 北京智谷睿拓技术服务有限公司 图像检索方法及图像检索装置
CN110472090A (zh) * 2019-08-20 2019-11-19 腾讯科技(深圳)有限公司 基于语义标签的图像检索方法以及相关装置、存储介质
WO2021237967A1 (zh) * 2020-05-29 2021-12-02 上海依图网络科技有限公司 一种目标检索方法及装置
CN116049566A (zh) * 2021-10-28 2023-05-02 腾讯数码(天津)有限公司 对象表示方法、装置、设备、存储介质及计算机程序产品
CN116547699A (zh) * 2020-12-17 2023-08-04 上海联影医疗科技股份有限公司 一种用于放射治疗中的临床靶标勾画方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201222288A (en) * 2010-11-22 2012-06-01 Inst Information Industry Image retrieving system and method and computer program product thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021138A (zh) * 2014-04-23 2014-09-03 北京智谷睿拓技术服务有限公司 图像检索方法及图像检索装置
CN110472090A (zh) * 2019-08-20 2019-11-19 腾讯科技(深圳)有限公司 基于语义标签的图像检索方法以及相关装置、存储介质
WO2021237967A1 (zh) * 2020-05-29 2021-12-02 上海依图网络科技有限公司 一种目标检索方法及装置
CN116547699A (zh) * 2020-12-17 2023-08-04 上海联影医疗科技股份有限公司 一种用于放射治疗中的临床靶标勾画方法
CN116049566A (zh) * 2021-10-28 2023-05-02 腾讯数码(天津)有限公司 对象表示方法、装置、设备、存储介质及计算机程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于对象属性关系图的视频描述方法;冯欣;高瑗蔚;杨武;蒋友妮;张洁;;重庆理工大学学报(自然科学)(01);70-108 *
基于多目标区域的图像检索;高珊;李秀华;张峰;宋立明;;电视技术(第04期);60-66 *

Also Published As

Publication number Publication date
CN117194698A (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN114157829A (zh) 模型训练优化方法、装置、计算机设备及存储介质
CN112115957A (zh) 数据流识别方法及装置、计算机存储介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN112949456B (zh) 视频特征提取模型训练、视频特征提取方法和装置
CN112269827B (zh) 数据处理方法、装置、计算机设备及计算机可读存储介质
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
CN113191183A (zh) 人员重新识别中的无监督域纠正伪标签方法及装置
CN117194698B (zh) 一种基于oar语义知识库的任务处理系统和方法
CN117611795A (zh) 基于多任务ai大模型的目标检测方法、模型训练方法
CN115131826B (zh) 物品检测识别方法、网络模型的训练方法和装置
CN115687676A (zh) 信息检索方法、终端及计算机可读存储介质
CN112016513B (zh) 视频语义分割方法、模型训练方法、相关装置及电子设备
CN115439878A (zh) 目标重识别模型抗遗忘训练方法、目标重识别方法及装置
CN115187906A (zh) 一种行人检测与重识别方法、装置和系统
CN114449342A (zh) 视频推荐方法、装置、计算机可读存储介质和计算机设备
CN114627085A (zh) 目标图像的识别方法和装置、存储介质及电子设备
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN112989869B (zh) 人脸质量检测模型的优化方法、装置、设备及存储介质
CN112668411A (zh) 基于sgan的视频流标记方法、装置、系统及存储介质
CN109934302B (zh) 新类别识别方法和基于模糊理论和深度学习的机器人系统
CN114220078A (zh) 一种目标重识别方法、装置和计算机可读存储介质
CN112561956A (zh) 视频目标跟踪方法、装置、电子设备及存储介质
CN116052220B (zh) 行人重识别方法、装置、设备及介质
CN117079256B (zh) 基于目标检测及关键帧快速定位的疲劳驾驶检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant