CN109271999B - 图像的处理方法、装置和计算机可读存储介质 - Google Patents

图像的处理方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109271999B
CN109271999B CN201811035885.3A CN201811035885A CN109271999B CN 109271999 B CN109271999 B CN 109271999B CN 201811035885 A CN201811035885 A CN 201811035885A CN 109271999 B CN109271999 B CN 109271999B
Authority
CN
China
Prior art keywords
target
determining
vector
description
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811035885.3A
Other languages
English (en)
Other versions
CN109271999A (zh
Inventor
潘滢炜
姚霆
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201811035885.3A priority Critical patent/CN109271999B/zh
Publication of CN109271999A publication Critical patent/CN109271999A/zh
Application granted granted Critical
Publication of CN109271999B publication Critical patent/CN109271999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本公开涉及一种图像的处理方法、装置和计算机可读存储介质,涉及人工智能技术领域。该方法包括:将待处理图像划分为多个目标区域,每个目标区域中包含一个从待处理图像中检测到的目标;根据获取的各目标区域的特征向量,确定不同的目标区域之间的行为关系;根据获取的各目标区域的位置信息,确定不同的目标区域之间的空间关系;根据特征向量、行为关系和空间关系,确定待处理图像的描述文本。本公开的技术方案能够提高图像描述的准确性。

Description

图像的处理方法、装置和计算机可读存储介质
技术领域
本公开涉及人工智能技术领域,特别涉及一种图像的处理方法、图像的装置和计算机可读存储介质。
背景技术
目前,人工智能技术已经能够较准确地识别图像中的物体。但是,想要生动、准确地描绘图像内容,不仅需要敏感捕捉图像中物体,还要洞悉各物体间的联系。因此,探索物体间联系从而对图像进行完整描述一直是业界的难点。
在相关技术中,通过学习视觉模型进行图像理解,能够用完整的自然语言对图像进行描述。例如,采用CNN(Convolutional Neural Network,卷积神经网络)和RNN(Recurrent Neural Network,循环神经网络)获取图像的语言描述。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:无法充分挖掘物体之间的关系,导致对图像描述的准确性低。
鉴于此,本公开提出了一种图像的处理技术方案,能够提高图像描述的准确性。
根据本公开的一些实施例,提供了一种图像的处理方法,包括:将待处理图像划分为多个目标区域,每个所述目标区域中包含一个从所述待处理图像中检测到的目标;根据获取的各所述目标区域的特征向量,确定不同的所述目标区域之间的行为关系;根据获取的各所述目标区域的位置信息,确定不同的所述目标区域之间的空间关系;根据所述特征向量、所述行为关系和所述空间关系,确定所述待处理图像的描述文本。
在一些实施例中,针对所述多个目标区域中的任意两个第一目标区域和第二目标区域,将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型,确定所述第一目标区域的第一描述向量;将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型,确定所述第一目标区域的第二描述向量;将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型,确定所述待处理图像的描述文本。
在一些实施例中,所述行为关系为所述第一目标区域中的第一目标向所述第二目标区域中的第二目标发出的动作,或者是所述第一目标和所述第二目标之间的相互动作,所述行为关系的方向由所述第一目标区域指向所述第二目标区域。
在一些实施例中,所述空间关系为所述第一目标区域相对于所述第二目标区域的位置,所述空间关系的方向由所述第一目标区域指向所述第二目标区域。
在一些实施例中,根据各所述目标区域的第一描述向量,确定各候选词的第一候选概率;根据各所述目标区域的第二描述向量,确定所述各候选词的第二候选概率;根据所述第一候选概率和所述第二候选概率的加权和,确定所述各候选词的综合候选概率;根据所述各候选词的综合候选概率,确定所述描述文本。
在一些实施例中,根据所述行为关系的方向确定第一转移矩阵;根据所述行为关系的类型确定第一偏移向量;将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数,确定所述第一描述向量。
在一些实施例中,根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量,确定所述行为关系的权重因子,所述行为关系的权重因子与所述行为关系的重要程度正相关;将所述行为关系的权重因子带入所述激活函数,确定所述第一描述向量。
在一些实施例中,根据所述空间关系的方向确定第二转移矩阵;根据所述空间关系的类型确定第二偏移向量;将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数,确定所述第二描述向量。
在一些实施例中,根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量,确定所述空间关系的权重因子,所述空间关系的权重因子与所述空间关系的重要程度正相关;将所述空间关系的权重因子带入所述激活函数,确定所述第二描述向量。
在一些实施例中,根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值,确定各所述目标区域对于所述各候选词的第一关注因子;根据所述第一关注因子确定所述各候选词的第一候选概率。
在一些实施例中,根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值,确定各所述目标区域对于所述各候选词的第二关注因子;根据所述第二关注因子确定所述各候选词的第二候选概率。
在一些实施例中,获取所述待处理图像中的联合区域,所述联合区域包含第一目标区域和第二目标区域;获取所述联合区域的特征向量,作为联合特征向量;根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量,确定所述第一目标区域和所述第二目标区域的行为关系。
在一些实施例中,所述行为关系包括无行为类型和多种有行为类型;根据所述特征向量,确定所述无行为类型和所述多种有行为类型相应的分类概率;在所述无行为类型的分类概率大于等于阈值的情况下,确定所述行为关系为所述无行为类型;在所述无行为类型的分类概率小于所述阈值的情况下,将所述分类概率最大的有行为类型确定为所述行为关系。
在一些实施例中,所述位置信息包括所述不同的目标区域之间的交并比、相对距离和相对角度。
根据本公开的另一些实施例,提供一种图像的处理装置,包括:区域划分单元,用于将待处理图像划分为多个目标区域,每个所述目标区域中包含一个从所述待处理图像中检测到的目标;关系确定单元,用于根据获取的各所述目标区域的特征向量,确定不同的所述目标区域之间的行为关系,根据获取的各所述目标区域的位置信息,确定不同的所述目标区域之间的空间关系;描述确定单元,用于根据所述特征向量、所述行为关系和所述空间关系,确定所述待处理图像的描述文本。
在一些实施例中,所述描述确定单元针对所述多个目标区域中的任意两个第一目标区域和第二目标区域,将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型,确定所述第一目标区域的第一描述向量,将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型,确定所述第一目标区域的第二描述向量,将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型,确定所述待处理图像的描述文本。
在一些实施例中,所述行为关系为所述第一目标区域中的第一目标向所述第二目标区域中的第二目标发出的动作,或者是所述第一目标和所述第二目标之间的相互动作,所述行为关系的方向由所述第一目标区域指向所述第二目标区域。
在一些实施例中,所述空间关系为所述第一目标区域相对于所述第二目标区域的位置,所述空间关系的方向由所述第一目标区域指向所述第二目标区域。
在一些实施例中,所述描述确定单元根据各所述目标区域的第一描述向量,确定各候选词的第一候选概率,根据各所述目标区域的第二描述向量,确定所述各候选词的第二候选概率,根据所述第一候选概率和所述第二候选概率的加权和,确定所述各候选词的综合候选概率,根据所述各候选词的综合候选概率,确定所述描述文本。
在一些实施例中,所述描述确定单元根据所述行为关系的方向确定第一转移矩阵,根据所述行为关系的类型确定第一偏移向量,将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数,确定所述第一描述向量。
在一些实施例中,所述描述确定单元根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量,确定所述行为关系的权重因子,所述行为关系的权重因子与所述行为关系的重要程度正相关,将所述行为关系的权重因子带入所述激活函数,确定所述第一描述向量。
在一些实施例中,所述描述确定单元根据所述空间关系的方向确定第二转移矩阵,根据所述空间关系的类型确定第二偏移向量,将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数,确定所述第二描述向量。
在一些实施例中,所述描述确定单元根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量,确定所述空间关系的权重因子,所述空间关系的权重因子与所述空间关系的重要程度正相关,将所述空间关系的权重因子带入所述激活函数,确定所述第二描述向量。
在一些实施例中,所述描述确定单元根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值,确定各所述目标区域对于所述各候选词的第一关注因子,根据所述第一关注因子确定所述各候选词的第一候选概率,根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值,确定各所述目标区域对于所述各候选词的第二关注因子,根据所述第二关注因子确定所述各候选词的第二候选概率。
在一些实施例中,所述关系确定单元获取所述待处理图像中的联合区域,所述联合区域包含第一目标区域和第二目标区域,获取所述联合区域的特征向量,作为联合特征向量,根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量,确定所述第一目标区域和所述第二目标区域的行为关系。
在一些实施例中,所述行为关系包括无行为类型和多种有行为类型,关系确定单元根据所述特征向量,确定所述无行为类型和所述多种有行为类型相应的分类概率,在所述无行为类型的分类概率大于等于阈值的情况下,确定所述行为关系为所述无行为类型,在所述无行为类型的分类概率小于所述阈值的情况下,将所述分类概率最大的有行为类型确定为所述行为关系。
在一些实施例中,所述位置信息包括所述不同的目标区域之间的交并比、相对距离和相对角度。
根据本公开的又一些实施例,提供一种图像的处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的图像的处理方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的图像的处理方法。
在上述实施例中,基于区域的特征向量获取图像中目标之间的行为关系和空间关系,并在此基础上对图像进行语言描述。这样,就可以从不同维度上深度挖掘目标之间的联系,从而提高图像描述的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的图像的处理方法的一些实施例的流程图;
图2示出图1的步骤S20的一些实施例的流程图;
图3示出本公开的联合区域的一些实施例的示意图;
图4示出图1的步骤S20的另一些实施例的流程图;
图5示出图1的步骤S40的一些实施例的流程图;
图6示出图5的步骤S410的一些实施例的流程图;
图7示出图1的步骤S40的另一些实施例的流程图;
图8示出图7的步骤S421的一些实施例的流程图;
图9a-9c示出了本公开的图像的处理方法的一些实施例的示意图;
图10示出本公开的图像的处理装置的一些实施例的框图;
图11示出本公开的图像的处理装置的另一些实施例的框图;
图12示出本公开的图像的处理装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的图像的处理方法的一些实施例的流程图。
如图1所示,该方法包括:步骤S10,划分目标区域;步骤S20,确定行为关系;步骤S30,确定空间关系;和步骤S40,确定描述文本。
在步骤S10中,将待处理图像划分为多个目标区域,每个目标区域中包含一个从待处理图像中检测到的目标。
在一些实施例中,可以采用机器学习的方法,如Faster R-CNN(Faster Region-based Convolutional Network,快速区域卷积神经网络)对待处理图像进行目标检测。然后,采用方框标注检测出来的目标所在的区域,从而将待处理图像划分为多个目标区域。这样,可以将图像描述转化为对多个目标区域之间关系的描述,从而提高图像描述的准确性。
在步骤S20中,根据获取的各目标区域的特征向量,确定不同的目标区域之间的行为关系。行为关系也可以叫做语义关系(Semantic Object Relationship)。
在一些实施例中,行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作,或者是第一目标和第二目标之间的相互动作。行为关系可以具有方向,行为关系的方向由第一目标区域指向第二目标区域。行为关系的方向可以通过训练后的机器学习模型确定。
例如,行为关系的形式可以是:主语-谓语-宾语,主语为表示第一目标区域的名词,宾语为表示第二目标区域的名词,谓语是主语向宾语发出的动作,或者是主语和宾语之间的相互动作,行为关系的方向由主语指向谓语。在行为关系中增加方向信息,可以深度挖掘目标之间的关系,更准确地对行为关系进行描述,从而提高图像描述的准确性。
在一些实施例中,可以通过图2中的步骤确定行为关系。
图2示出图1的步骤S20的一些实施例的流程图。
如图2所示,步骤S20包括:步骤S210,获取联合区域;步骤S220,获取联合特征向量;步骤230,确定行为关系。
在步骤S210中,获取待处理图像中的联合区域,联合区域包含第一目标区域和第二目标区域。例如,联合区域的示意图如图3所示。
图3示出本公开的联合区域的一些实施例的示意图。
如图3所示,待处理图片30为一个人骑在自行车上。可以利用机器学习方法确定待处理图片30中的目标区域31和目标区域32。例如,可以基于ResNet-101的网络结构构建Faster R-CNN,利用Faster R-CNN确定目标区域31和目标区域32。然后,可以建立包含目标区域31和目标区域32的联合区域33。例如,联合区域33可以是能够包含目标区域31和目标区域32的最小矩形框。
确定了联合区域33之后可以通过图2中的步骤S220、S230确定行为关系。
在步骤S220中,获取联合区域的特征向量,作为联合特征向量。例如,可以通过Faster R-CNN中的Res4b22层、RoI pooling层和Pool5层确定待处理图片中的各目标区域的特征向量和各联合区域的联合特征向量。
在一些实施例中,可以将待处理图像中的目标区域逐个取出,与其他目标区域组成区域对。例如,待处理图像中共有K个目标区域,则可以将K个目标区域组合成K(K-1)个区域对,即,区域对中的目标区域具有方向。例如,可以确定目标区域i和目标区域j组成的区域对与目标区域j和目标区域i组成的区域对是不同的区域对。
在一些实施例中,可以提取目标区域i的特征向量vi、目标区域j的特征向量vj、目标区域i和目标区域j的联合区域的特征向量vij。特征向量可以是Dv维的向量,例如Dv=2048。
在步骤230中,根据联合特征向量、第一目标区域的特征向量和第二目标区域的特征向量,确定第一目标区域和第二目标区域的行为关系。
在一些实施例中,可以将vi、vj和vij输入到Faster R-CNN的Concat层拼接在一起,然后将拼接结果输入到Classification层进行分类,以确定行为关系。
在一些实施例中,可以通过图4中的步骤确定行为关系。
图4示出图1的步骤S20的另一些实施例的流程图。
如图4所示,步骤S20包括:步骤S210,获取联合区域;步骤S220,获取联合特征向量;步骤S221,确定分类概率;和步骤230,确定行为关系。步骤S210、步骤S220与上述实施例相同,在此不再赘述。
在步骤S221中,根据特征向量,确定无行为类型和多种有行为类型相应的分类概率。例如,行为关系可以包括无行为类型和多种有行为类型。无行为类型(non-relation),即两个目标区域之间没有行为关系。有行为类型,例如可以是拿(carrying)、吃(eating)、骑(riding)、穿(wearing)等动作。
在步骤230中,在无行为类型的分类概率大于等于阈值的情况下,确定行为关系为无行为类型。在无行为类型的分类概率小于阈值的情况下,将分类概率最大的有行为类型确定为行为关系。阈值可以根据实际需要进行设置,例如阈值可以是0.5。
在一些实施例中,可以根据获取的特征向量和相应的行为关系,构建行为关系图。例如,行为关系图为Gsem=(V,εsem),V为包含了所有特征区域的特征向量和所有联合区域的特征向量的集合(例如包含vi、vj和vij等),εsem为包含所有行为关系的集合,Gsem代表的V和εsem中元素的对应关系。
在确定了行为关系后,可以继续通过图1中的步骤S30、和S40对待处理图片进行描述。
在步骤S30中,根据获取的述目标区域的位置信息,确定不同的目标区域之间的空间关系。例如,位置信息包括不同的目标区域之间的交并比(Intersection-over-Union,IoU)、相对距离和相对角度。例如,可以计算不同目标区域的中心连线与水平线之间的角度作为相对角度,可以计算不同目标区域的中心连线的长度作为相对距离。
在一些实施例中,空间关系为第一目标区域相对于第二目标区域的位置,空间关系的方向由第一目标区域指向第二目标区域。空间关系的方向可以通过训练后的机器学习模型确定。
在空间关系中增加方向信息,可以深度挖掘目标之间的关系,更准确地对行为关系进行描述,从而提高图像描述的准确性。
在一些实施例中,空间关系可以包括位于内部(inside)、覆盖(cover)、重叠(overlap)和位于一侧(或定义为其他关系)。对于目标区域i和目标区域j,可以建立目标区域i指向目标区域j的空间关系。
例如,在目标区域i完全位于目标区域j之内的情况下,空间关系为位于内部;在目标区域i完全被目标区域j覆盖的情况下,空间关系为覆盖;在目标区域i的面积与目标区域j的面积的交并比大于交并比阈值的情况下,空间关系为重叠。
在一些实施例中,在目标区域i与目标区域j的相对距离与待处理图像对角线的长度的比值
Figure BDA0001790860510000111
小于等于预设的比例阈值(例如,可以设为0.5),而且交并比IoU小于等于交并比阈值的情况下,空间关系为位于一侧。例如,可以根据相对角度为位于一侧的空间关系添加索引。例如,目标区域i与目标区域j的相对角度为θij,可以为位于一侧的空间关系添加索引[θij/θ]+c,θ为角度参数(非零整数),例如可以为45°,c为调整参数(非零整数),例如可以为3。
在一些实施例中,在
Figure BDA0001790860510000112
大于预设的比例阈值,而且交并比IoU小于等于交并比阈值的情况下,确定目标区域i与目标区域j不具有空间关系。
在一些实施例中,可以根据获取的特征向量和相应的空间关系,构建空间关系图。例如,空间关系图为Gspa=(V,εspa),εspa为包含所有空间关系的集合,Gspa代表的V和εspa中元素的对应关系。
在步骤40中,根据特征向量、行为关系和空间关系,确定待处理图像的描述文本。
在一些实施例中,可以通过图5中的步骤确定描述文本。
图5示出图1的步骤S40的一些实施例的流程图。
如图5所示,步骤S40包括:步骤S410,确定第一描述向量;步骤S420,确定第二描述向量;和步骤S430,确定描述文本。
在步骤S410中,将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的行为关系输入第一机器学习模型,确定第一目标区域的第一描述向量。例如,第一机器学习模型可以是基于GCN(Graph Convolutional Network,图卷积网络)等用于处理图像的神经网络训练得来的。第一描述向量可以通过向量的形式对第一目标区域和第二目标区域的行为关系进行描述。
例如,可以将行为关系图输入一个训练好的GCN,以获取第一描述向量;将空间关系图输入另一个训练好的GCN,以获取第二描述向量
在一些实施例中,可以通过图6中的步骤确定第一描述向量。
图6示出图5的步骤S410的一些实施例的流程图。
如图6所示,步骤S410包括:步骤S4110,确定第一转移矩阵;步骤S4120,确定第一偏移向量;和步骤S4130,确定第一描述向量。
在步骤S4110中,根据行为关系的方向确定第一转移矩阵,第一转移矩阵可以为GCN中的转移矩阵。例如,目标区域i的特征向量vi和目标区域j的特征向量vj的第一转移矩阵为
Figure BDA0001790860510000121
为Dv×Dv维的实数矩阵。dir(vi,vj)为行为关系的方向,可以在dir(vi,vj)为vi到vj的情况下,设置
Figure BDA0001790860510000122
可以在dir(vi,vj)为vj到vi的情况下,设置
Figure BDA0001790860510000123
可以在dir(vi,vj)为vi到vi的情况下,设置
Figure BDA0001790860510000124
在步骤S4120中,根据行为关系的类型确定第一偏移向量,第一偏移向量可以是GCN中的偏移向量。例如,目标区域i的特征向量vi和目标区域j的特征向量vj的第一偏移向量为
Figure BDA0001790860510000125
为Dv维的实数向量。
在步骤S4120中,将第二目标的特征向量、第一转移矩阵和第一偏移向量带入激活函数,确定第一描述向量。
在一些实施例中,目标区域i的第一描述向量
Figure BDA0001790860510000126
为:
Figure BDA0001790860510000131
N(vi)为目标区域i的相邻目标区域的集合。目标区域i的相邻目标区域可以是所有与目标区域i组合成区域对的目标区域,或者是与目标区域i的相对距离小于距离阈值的目标区域。当然,相邻目标区域根据实际需要、相对距离、相对角度和IoR中的一项或多项确定。
ρ()为激活函数,例如,可以是ReLU(Rectified Linear Unit,线性整流函数)函数。
在一些实施例中,还可以根据第二目标的特征向量、第一转移矩阵和第一偏移向量,确定行为关系的权重因子,行为关系的权重因子与行为关系的重要程度正相关。然后,将行为关系的权重因子带入激活函数,确定第一描述向量。
例如,目标区域i的特征向量vi和目标区域j的特征向量vj的行为关系的权重因子可以通过函数
Figure BDA0001790860510000132
确定,函数
Figure BDA0001790860510000133
可以为logistic sigmoid函数(S形函数的一种)。在这种情况下目标区域i的第一描述向量
Figure BDA0001790860510000134
为:
Figure BDA0001790860510000135
在确定了第一描述向量之后,可以通过图5中的步骤S420和步骤S430对图像进行描述。
在步骤S420中,将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的空间关系输入第一机器学习模型,确定第一目标区域的第二描述向量。
在一些实施例中,可以采用上述任一个确定第一描述向量的实施例中的方法来确定第二描述向量,在此就不再赘述了。
在步骤S430中,将各目标区域的第一描述向量和第二描述向量输入第二机器学习模型,确定待处理图像的描述文本。例如,第二机器学习模型可以是基于LSTM(Long Short-Term Memory,长短期记忆网络)等用于处理自然语言的神经网络训练得来的。
在一些实施例中,可以通过图7的实施例确定待处理图像的描述文本。
图7示出图1的步骤S40的另一些实施例的流程图。
如图7所示,与图5中的实施例相比,步骤S40还包括:步骤S421,确定第一候选概率;步骤S422,确定第二候选概率;和步骤S423,确定综合候选概率。
在步骤S421中,根据各目标区域的第一描述向量,确定各候选词的第一候选概率。
在一些实施例中,将所有目标区域的向量描述的集合
Figure BDA0001790860510000141
输入LSTM。例如,LSTM共有两层。对于当前候选词wt的第一层的输出
Figure BDA0001790860510000142
可以为:
Figure BDA0001790860510000143
Figure BDA0001790860510000144
为对于上一个候选词wt-1的第二层的输出,f1()是LSTM第一层的更新函数(updating function),Ws是wt的转换矩阵,
Figure BDA0001790860510000145
为所有第一描述向量的均值:
Figure BDA0001790860510000146
可以将
Figure BDA0001790860510000147
输入第二层,获取第二层的输出
Figure BDA0001790860510000148
根据
Figure BDA0001790860510000149
确定各候选词的分类概率分布,即第一候选概率,从而估计下一个候选词wt+1。对于第一个候选词,可以采用预设的符号处理替代
Figure BDA00017908605100001410
和wt-1
在一些实施例中,可以通过图8中的步骤确定第一候选概率。
图8示出图7的步骤S421的一些实施例的流程图。
如图8所示,步骤S421包括:步骤S4211,确定第一关注因子;步骤S4212,确定第一候选概率。
在步骤S4211中,根据各目标区域的第一描述向量和所有第一描述向量的均值,确定各目标区域对于各候选词的第一关注因子。关注因子代表了当前候选词对各目标区域的关注程度,通过设置关注因子可以提高图像描述的准确性。
在一些实施例中,可以确定当前候选词wt对目标区域i的第一关注因子at,i为:
Figure BDA0001790860510000151
Wa、Wf和Wh为转换矩阵,可以通过训练确定,tanh()为双曲正切函数。进而可以获取wt对各目标区域的第一关注因子的集合At,at,i为At中的元素。还可以根据At确定权值集合:
λt=softmax(At)
进一步,可以确定第一关注特征值:
Figure BDA0001790860510000152
λt,i为λt中的元素。
这样就可以获取第二层的输出:
Figure BDA0001790860510000153
在步骤S4211中,根据第一关注因子确定各候选词的第一候选概率。例如,可以根据
Figure BDA0001790860510000154
得到候选词wt对于词库中的各词的第一概率,例如,wt对于词库中的第m个词wm的第一概率为Prsem(wt=wm)。
以同样的方法也可以通过图7中的步骤S422确定第二候选概率。
在步骤S422中,根据各目标区域的第二描述向量,确定各候选词的第二候选概率。例如,wt对于词库中的第m个词wm的第二候选概率为Prspa(wt=wm)。
在一些实施例中,可以通过上述任一个实施例中的确定第一候选概率的方法确定第二候选概率,在此不再赘述。
在步骤S423中,根据第一候选概率和第二候选概率的加权和,确定各候选词的综合候选概率。例如,wt对于词库中的第m个词wm的综合候选概率为:
Pr(wt=wm)=αPrsem(wt=wm)+(1-α)Prspa(wt=wm)权值α为小于1大于0的实数。
在步骤S430中,根据各候选词的综合候选概率,确定描述文本。例如,对于候选词wt可以选取词库中Pr最高的词作为选定词,将所有的选定词按次序连接起来即可得到描述文本。
图9a-9c示出了本公开的图像的处理方法的一些实施例的示意图。
如图9a所示,待处理图像90中是两个男孩在打网球。可以通过Faster R-CNN检测出待处理图像90中的各个目标,并确定包含目标的目标区域:目标区域91(包含第一个男孩)、目标区域92(包含第二个男孩)、目标区域93(包含第一个球拍)、目标区域94(包含第二个球拍)、目标区域95(包含院子)。
通过Faster R-CNN还可以确定各目标区域的特征向量,和包含两个不同目标区域的各联合区域的联合特征向量,进而获取各目标区域之间的行为关系和空间关系。
如图9b所示,黑点表示图9a中各目标区域的中心,带箭头的线表示各目标区域之间的行为关系,箭头方向表示各行为关系的方向。例如,目标区域91与目标区域93的行为关系为男孩拿着球拍;目标区域91与目标区域95的行为关系为男孩站在院子里。这样就可以获取待处理图像90的行为关系图。
如图9c所示,带箭头的线表示各目标区域之间的空间关系,箭头方向表示各空间关系的方向。例如,目标区域91与目标区域95的空间关系为男孩位于院子的一侧(可以根据上面的实施例添加索引);目标区域91与目标区域93的空间关系为男孩与球拍重叠。这样就可以获取待处理图像90的空间关系图。
将行为关系图输入训练好的LSTM中可以获取各候选词的第一概率;将空间关系图输入另一个训练好的LSTM中可以获取各候选词的第二概率;根据第一概率和第二概率可以确定待处理图像90的描述文本为:两个男孩在院子里打网球。
在上述实施例中,基于区域的特征向量获取图像中目标之间的行为关系和空间关系,并在此基础上对图像进行语言描述。这样,就可以从不同维度上深度挖掘目标之间的联系,从而提高图像描述的准确性。
图10示出本公开的图像的处理装置的一些实施例的框图。
如图10所示,图像的处理装置10包括区域划分单元101、关系确定单元102和描述确定单元103。
区域划分单元101将待处理图像划分为多个目标区域,每个目标区域中包含一个从待处理图像中检测到的目标。
关系确定单元102根据获取的各目标区域的特征向量,确定不同的目标区域之间的行为关系。关系确定单元102根据获取的各目标区域的位置信息,确定不同的目标区域之间的空间关系
在一些实施例中,行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作,或者是第一目标和第二目标之间的相互动作。行为关系的方向由第一目标区域指向第二目标区域。
在一些实施例中,空间关系为第一目标区域相对于第二目标区域的位置。空间关系的方向由第一目标区域指向所述第二目标区域。例如,位置信息包括不同的目标区域之间的交并比、相对距离和相对角度。
在一些实施例中,关系确定单102获取待处理图像中的联合区域。联合区域包含第一目标区域和第二目标区域。关系确定单102获取联合区域的特征向量,作为联合特征向量。关系确定单102根据联合特征向量、第一目标区域的特征向量和第二目标区域的特征向量,确定第一目标区域和第二目标区域的行为关系。
在一些实施例中,行为关系包括无行为类型和多种有行为类型。关系确定单元102根据所述特征向量,确定无行为类型和多种有行为类型相应的分类概率。在无行为类型的分类概率大于等于阈值的情况下,关系确定单元102确定行为关系为无行为类型,在无行为类型的分类概率小于阈值的情况下,关系确定单元102将分类概率最大的有行为类型确定为行为关系。
描述确定单元103根据特征向量、行为关系和空间关系,确定待处理图像的描述文本。
在一些实施例中,描述确定单元103将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的行为关系输入第一机器学习模型,确定第一目标区域的第一描述向量。描述确定单元103将第一目标区域的特征向量、第二目标区域的特征向量和第一目标区域与第二目标区域的空间关系输入第一机器学习模型,确定第一目标区域的第二描述向量,将各目标区域的第一描述向量和第二描述向量输入第二机器学习模型,确定待处理图像的描述文本。
在一些实施例中,描述确定单元103根据各目标区域的第一描述向量,确定各候选词的第一候选概率。描述确定单元103根据各目标区域的第二描述向量,确定各候选词的第二候选概率。描述确定单元103根据第一候选概率和第二候选概率的加权和,确定各候选词的综合候选概率。描述确定单元103根据各候选词的综合候选概率,确定描述文本。
例如,描述确定单元103根据行为关系的方向确定第一转移矩阵,根据行为关系的类型确定第一偏移向量,将第二目标的特征向量、第一转移矩阵和第一偏移向量带入激活函数,确定第一描述向量。
例如,描述确定单元103根据第二目标的特征向量、第一转移矩阵和第一偏移向量,确定行为关系的权重因子,所述行为关系的权重因子与行为关系的重要程度正相关,将行为关系的权重因子带入激活函数,确定第一描述向量。
在一些实施例中,描述确定单元103根据空间关系的方向确定第二转移矩阵,根据空间关系的类型确定第二偏移向量,将第二目标的特征向量、第二转移矩阵和第二偏移向量带入激活函数,确定第二描述向量。第二转移矩阵可以是GCN中的转移矩阵。第二偏移向量可以是GCN中的偏移向量
例如,描述确定单元103根据第二目标的特征向量、第二转移矩阵和第二偏移向量,确定空间关系的权重因子,空间关系的权重因子与空间关系的重要程度正相关,将空间关系的权重因子带入激活函数,确定第二描述向量。
在一些实施例中,描述确定单元103根据各目标区域的第一描述向量和所有第一描述向量的均值,确定各目标区域对于各候选词的第一关注因子。描述确定单元103根据第一关注因子确定各候选词的第一候选概率。描述确定单元103根据各目标区域的第二描述向量和所有第二描述向量的均值,确定各目标区域对于各候选词的第二关注因子。描述确定单元103根据第二关注因子确定各候选词的第二候选概率。
在上述实施例中,基于区域的特征向量获取图像中目标之间的行为关系和空间关系,并在此基础上对图像进行语言描述。这样,就可以从不同维度上深度挖掘目标之间的联系,从而提高图像描述的准确性。
图11示出本公开的图像的处理装置的另一些实施例的框图。
如图11所示,该实施例的图像的处理装置11包括:存储器111以及耦接至该存储器111的处理器112,处理器112被配置为基于存储在存储器111中的指令,执行本公开中任意一个实施例中的图像的处理方法。
其中,存储器111例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图12示出本公开的图像的处理装置的又一些实施例的框图。
如图12所示,该实施例的图像的处理装置12包括:存储器1210以及耦接至该存储器1210的处理器1220,处理器1220被配置为基于存储在存储器1210中的指令,执行前述任意一个实施例中的图像的处理方法。
存储器1210例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图像的处理装置12还可以包括输入输出接口1230、网络接口1240、存储接口1250等。这些接口1230、1240、1250以及存储器1210和处理器1220之间例如可以通过总线1260连接。其中,输入输出接口1230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1240为各种联网设备提供连接接口。存储接口1250为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的图像的处理方法、图像的装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (28)

1.一种图像的处理方法,包括:
将待处理图像划分为多个目标区域,每个所述目标区域中包含一个从所述待处理图像中检测到的目标;
根据获取的各所述目标区域的特征向量,确定不同的所述目标区域之间的行为关系,所述行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作,或者是第一目标和第二目标之间的相互动作;
根据获取的各所述目标区域的位置信息,确定不同的所述目标区域之间的空间关系,所述空间关系为第一目标区域相对于第二目标区域的位置;
根据所述特征向量、所述行为关系和所述空间关系,确定所述待处理图像的描述文本。
2.根据权利要求1所述的处理方法,其中,所述确定所述待处理图像的描述文本包括:
针对所述多个目标区域中的任意两个第一目标区域和第二目标区域,将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型,确定所述第一目标区域的第一描述向量;
将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型,确定所述第一目标区域的第二描述向量;
将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型,确定所述待处理图像的描述文本。
3.根据权利要求2所述的处理方法,其中,
所述行为关系为所述第一目标区域中的第一目标向所述第二目标区域中的第二目标发出的动作,或者是所述第一目标和所述第二目标之间的相互动作,所述行为关系的方向由所述第一目标区域指向所述第二目标区域。
4.根据权利要求2所述的处理方法,其中,
所述空间关系为所述第一目标区域相对于所述第二目标区域的位置,所述空间关系的方向由所述第一目标区域指向所述第二目标区域。
5.根据权利要求2所述的处理方法,其中,所述确定所述待处理图像的描述文本包括:
根据各所述目标区域的第一描述向量,确定各候选词的第一候选概率;
根据各所述目标区域的第二描述向量,确定所述各候选词的第二候选概率;
根据所述第一候选概率和所述第二候选概率的加权和,确定所述各候选词的综合候选概率;
根据所述各候选词的综合候选概率,确定所述描述文本。
6.根据权利要求3所述的处理方法,其中,所述确定所述第一目标区域的第一描述向量包括:
根据所述行为关系的方向确定第一转移矩阵;
根据所述行为关系的类型确定第一偏移向量;
将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数,确定所述第一描述向量。
7.根据权利要求6所述的处理方法,其中,所述确定所述第一目标区域的第一描述向量包括:
根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量,确定所述行为关系的权重因子,所述行为关系的权重因子与所述行为关系的重要程度正相关;
将所述行为关系的权重因子带入所述激活函数,确定所述第一描述向量。
8.根据权利要求4所述的处理方法,其中,所述确定所述第一目标区域的第二描述向量包括:
根据所述空间关系的方向确定第二转移矩阵;
根据所述空间关系的类型确定第二偏移向量;
将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数,确定所述第二描述向量。
9.根据权利要求8所述的处理方法,其中,所述确定所述第一目标区域的第二描述向量包括:
根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量,确定所述空间关系的权重因子,所述空间关系的权重因子与所述空间关系的重要程度正相关;
将所述空间关系的权重因子带入所述激活函数,确定所述第二描述向量。
10.根据权利要求5所述的处理方法,其中,所述确定各候选词的第一候选概率包括:
根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值,确定各所述目标区域对于所述各候选词的第一关注因子;
根据所述第一关注因子确定所述各候选词的第一候选概率;
其中,所述确定各候选词的第二候选概率包括:
根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值,确定各所述目标区域对于所述各候选词的第二关注因子;
根据所述第二关注因子确定所述各候选词的第二候选概率。
11.根据权利要求1-10任一项所述的处理方法,其中,所述确定不同的所述目标区域之间的行为关系包括:
获取所述待处理图像中的联合区域,所述联合区域包含第一目标区域和第二目标区域;
获取所述联合区域的特征向量,作为联合特征向量;
根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量,确定所述第一目标区域和所述第二目标区域的行为关系。
12.根据权利要求1-10任一项所述的处理方法,其中,所述确定不同的所述目标区域之间的行为关系包括:
所述行为关系包括无行为类型和多种有行为类型;
根据所述特征向量,确定所述无行为类型和所述多种有行为类型相应的分类概率;
在所述无行为类型的分类概率大于等于阈值的情况下,确定所述行为关系为所述无行为类型;
在所述无行为类型的分类概率小于所述阈值的情况下,将所述分类概率最大的有行为类型确定为所述行为关系。
13.根据权利要求1-10任一项所述的处理方法,其中,
所述位置信息包括所述不同的目标区域之间的交并比、相对距离和相对角度。
14.一种图像的处理装置,包括:
区域划分单元,用于将待处理图像划分为多个目标区域,每个所述目标区域中包含一个从所述待处理图像中检测到的目标;
关系确定单元,用于根据获取的各所述目标区域的特征向量,确定不同的所述目标区域之间的行为关系,所述行为关系为第一目标区域中的第一目标向第二目标区域中的第二目标发出的动作,或者是第一目标和第二目标之间的相互动作,根据获取的各所述目标区域的位置信息,确定不同的所述目标区域之间的空间关系,所述空间关系为第一目标区域相对于第二目标区域的位置;
描述确定单元,用于根据所述特征向量、所述行为关系和所述空间关系,确定所述待处理图像的描述文本。
15.根据权利要求14所述的处理装置,其中,
针对所述多个目标区域中的任意两个第一目标区域和第二目标区域,将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的行为关系输入第一机器学习模型,确定所述第一目标区域的第一描述向量,将所述第一目标区域的特征向量、所述第二目标区域的特征向量和所述第一目标区域与所述第二目标区域的空间关系输入所述第一机器学习模型,确定所述第一目标区域的第二描述向量,将各所述目标区域的所述第一描述向量和所述第二描述向量输入第二机器学习模型,确定所述待处理图像的描述文本。
16.根据权利要求15所述的处理装置,其中,
所述行为关系为所述第一目标区域中的第一目标向所述第二目标区域中的第二目标发出的动作,或者是所述第一目标和所述第二目标之间的相互动作,所述行为关系的方向由所述第一目标区域指向所述第二目标区域。
17.根据权利要求15所述的处理装置,其中,
所述空间关系为所述第一目标区域相对于所述第二目标区域的位置,所述空间关系的方向由所述第一目标区域指向所述第二目标区域。
18.根据权利要求15所述的处理装置,其中,
所述描述确定单元根据各所述目标区域的第一描述向量,确定各候选词的第一候选概率,根据各所述目标区域的第二描述向量,确定所述各候选词的第二候选概率,根据所述第一候选概率和所述第二候选概率的加权和,确定所述各候选词的综合候选概率,根据所述各候选词的综合候选概率,确定所述描述文本。
19.根据权利要求16所述的处理装置,其中,
所述描述确定单元根据所述行为关系的方向确定第一转移矩阵,根据所述行为关系的类型确定第一偏移向量,将所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量带入激活函数,确定所述第一描述向量。
20.根据权利要求19所述的处理装置,其中,
所述描述确定单元根据所述第二目标的特征向量、所述第一转移矩阵和所述第一偏移向量,确定所述行为关系的权重因子,所述行为关系的权重因子与所述行为关系的重要程度正相关,将所述行为关系的权重因子带入所述激活函数,确定所述第一描述向量。
21.根据权利要求17所述的处理装置,其中,
所述描述确定单元根据所述空间关系的方向确定第二转移矩阵,根据所述空间关系的类型确定第二偏移向量,将所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量带入激活函数,确定所述第二描述向量。
22.根据权利要求21所述的处理装置,其中,
所述描述确定单元根据所述第二目标的特征向量、所述第二转移矩阵和所述第二偏移向量,确定所述空间关系的权重因子,所述空间关系的权重因子与所述空间关系的重要程度正相关,将所述空间关系的权重因子带入所述激活函数,确定所述第二描述向量。
23.根据权利要求18所述的处理装置,其中,
所述描述确定单元根据各所述目标区域的第一描述向量和所有所述第一描述向量的均值,确定各所述目标区域对于所述各候选词的第一关注因子,根据所述第一关注因子确定所述各候选词的第一候选概率,根据各所述目标区域的第二描述向量和所有所述第二描述向量的均值,确定各所述目标区域对于所述各候选词的第二关注因子,根据所述第二关注因子确定所述各候选词的第二候选概率。
24.根据权利要求14-23任一项所述的处理装置,其中,
所述关系确定单元获取所述待处理图像中的联合区域,所述联合区域包含第一目标区域和第二目标区域,获取所述联合区域的特征向量,作为联合特征向量,根据所述联合特征向量、所述第一目标区域的特征向量和所述第二目标区域的特征向量,确定所述第一目标区域和所述第二目标区域的行为关系。
25.根据权利要求14-23任一项所述的处理装置,其中,
所述行为关系包括无行为类型和多种有行为类型,所述关系确定单元根据所述特征向量,确定所述无行为类型和所述多种有行为类型相应的分类概率,在所述无行为类型的分类概率大于等于阈值的情况下,确定所述行为关系为所述无行为类型,在所述无行为类型的分类概率小于所述阈值的情况下,将所述分类概率最大的有行为类型确定为所述行为关系。
26.根据权利要求14-23任一项所述的处理装置,其中,
所述位置信息包括所述不同的目标区域之间的交并比、相对距离和相对角度。
27.一种图像的处理装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行权利要求1-13任一项所述的图像的处理方法。
28.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-13任一项所述的图像的处理方法。
CN201811035885.3A 2018-09-06 2018-09-06 图像的处理方法、装置和计算机可读存储介质 Active CN109271999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811035885.3A CN109271999B (zh) 2018-09-06 2018-09-06 图像的处理方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811035885.3A CN109271999B (zh) 2018-09-06 2018-09-06 图像的处理方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109271999A CN109271999A (zh) 2019-01-25
CN109271999B true CN109271999B (zh) 2020-12-22

Family

ID=65187996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811035885.3A Active CN109271999B (zh) 2018-09-06 2018-09-06 图像的处理方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109271999B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977872B (zh) * 2019-03-27 2021-09-17 北京迈格威科技有限公司 动作检测方法、装置、电子设备及计算机可读存储介质
CN110097010A (zh) * 2019-05-06 2019-08-06 北京达佳互联信息技术有限公司 图文检测方法、装置、服务器及存储介质
CN110348460B (zh) * 2019-07-04 2021-10-22 成都旷视金智科技有限公司 一种基于角度的目标检测训练方法、目标检测方法及装置
CN111782847A (zh) * 2019-07-31 2020-10-16 北京京东尚科信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN110399528B (zh) * 2019-08-05 2023-11-07 北京深醒科技有限公司 一种自动跨特征推理式目标检索方法
CN111695429B (zh) * 2020-05-15 2022-01-11 深圳云天励飞技术股份有限公司 视频图像目标关联方法、装置及终端设备
CN112232141B (zh) * 2020-09-25 2023-06-20 武汉云极智能科技有限公司 一种可识别物体空间位置的机械臂交互方法及设备
CN112926587B (zh) * 2021-02-19 2024-03-29 北京大米未来科技有限公司 一种文本识别的方法、装置、可读存储介质和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224078B2 (en) * 2000-11-06 2012-07-17 Nant Holdings Ip, Llc Image capture and identification system and process
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
CN102880873B (zh) * 2012-08-31 2015-06-03 公安部第三研究所 基于图像分割和语义提取实现人员行为识别的系统及方法
CN103517042B (zh) * 2013-10-17 2016-06-29 吉林大学 一种养老院老人危险行为监测方法
CN106651783B (zh) * 2016-09-29 2019-10-22 厦门美图之家科技有限公司 图像滤波方法及装置

Also Published As

Publication number Publication date
CN109271999A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271999B (zh) 图像的处理方法、装置和计算机可读存储介质
Gkioxari et al. R-cnns for pose estimation and action detection
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
US10936911B2 (en) Logo detection
CN108875522B (zh) 人脸聚类方法、装置和系统及存储介质
US8533162B2 (en) Method for detecting object
CN108427927B (zh) 目标再识别方法和装置、电子设备、程序和存储介质
KR102177412B1 (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN108399386A (zh) 饼图中的信息提取方法及装置
KR101930940B1 (ko) 영상 분석 장치 및 방법
JP6948851B2 (ja) 情報処理装置、情報処理方法
KR20220002065A (ko) 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
US11763086B1 (en) Anomaly detection in text
US11481563B2 (en) Translating texts for videos based on video context
US8867851B2 (en) Sparse coding based superpixel representation using hierarchical codebook constructing and indexing
KR20180107988A (ko) 객체 탐지 장치 및 방법
US20220366259A1 (en) Method, apparatus and system for training a neural network, and storage medium storing instructions
CN115170449A (zh) 一种多模态融合场景图生成方法、系统、设备和介质
US8467607B1 (en) Segmentation-based feature pooling for object models
JP6623851B2 (ja) 学習方法、情報処理装置および学習プログラム
JP2021051589A5 (zh)
CN111353325A (zh) 关键点检测模型训练方法及装置
Shi et al. Contour descriptor based on space symmetry and its matching technique
CN114782670A (zh) 一种多模态敏感信息鉴别方法、设备及介质
CN108475339A (zh) 用于对图像中的对象分类的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant