CN110826726A - 目标处理方法、目标处理装置、目标处理设备及介质 - Google Patents

目标处理方法、目标处理装置、目标处理设备及介质 Download PDF

Info

Publication number
CN110826726A
CN110826726A CN201911087178.3A CN201911087178A CN110826726A CN 110826726 A CN110826726 A CN 110826726A CN 201911087178 A CN201911087178 A CN 201911087178A CN 110826726 A CN110826726 A CN 110826726A
Authority
CN
China
Prior art keywords
target
concept
ellipsoid
space
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911087178.3A
Other languages
English (en)
Other versions
CN110826726B (zh
Inventor
李阳
张锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911087178.3A priority Critical patent/CN110826726B/zh
Publication of CN110826726A publication Critical patent/CN110826726A/zh
Application granted granted Critical
Publication of CN110826726B publication Critical patent/CN110826726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种目标处理方法、目标处理装置、目标处理设备及介质,所述目标处理方法包括:获取所述目标的目标特征向量;将所述目标特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。该方法增强了对于预设概念的表征能力,泛化能力强,且具有良好的鲁棒性。

Description

目标处理方法、目标处理装置、目标处理设备及介质
技术领域
本公开涉及机器学习领域,更具体地涉及一种目标处理方法、目标处理装置、目标处理设备及介质。
背景技术
随着机器学习在民用和商用领域的广泛应用,目标处理在图像分类、文本识别、视频处理等多领域中起到日益重要的作用,因此目标处理也面临着更高的要求。
目前在目标处理中,当基于待处理目标的目标特征向量求取其对应于特定概念的概率时,可以通过Sigmoid函数方案,即通过简单的线性变换完成将其从特征空间到概念空间的转换,然后通过S型曲线函数(Sigmoid函数)对其进行处理得到相应概率;也可以通过胶囊网络对所述目标特征向量进行处理得到相应概率。然而,使用Sigmoid函数方案时,由于其中采用单个向量来表征一个特定概念,其表征能力不足,且其学习得到的模型泛化能力不足;使用胶囊网络方案时,由于其采用动态路由的方法进行学习,其耗费计算资源,且学习速度慢。
因此,需要一种在实现目标处理的前提下,具有较强泛化能力、较快学习速度和较高准确率的目标处理方法。
发明内容
针对以上问题,本公开提供了一种目标处理方法、装置、设备及介质。利用本公开提供的目标处理方法可以在实现目标处理的基础上,有效提高目标处理的准确率,并提升目标处理速度和目标处理能力,实现实时且高精度的目标处理,且该方法具有良好的鲁棒性。
根据本公开的一方面,提出了一种目标处理方法,包括:获取所述目标的目标特征向量;将所述目标特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
在一些实施例中,将所述目标特征向量变换到至少一个概念椭球空间中以得到其在所述至少一个概念椭球空间中的椭球特征向量包括:对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
在一些实施例中,对每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率包括:计算所述椭球特征向量与所述中心点的空间距离;基于所述空间距离,计算得到其所对应的目标概率;其中,所述空间距离越大,其所对应的目标概率越小。
在一些实施例中,获取所述目标的目标特征向量包括:经由第一神经网络对于输入内容进行处理,得到目标特征向量;其中,所述输入内容包括输入图像、输入文字、输入视频中的至少一种。
在一些实施例中,所述目标处理方法还包括:基于所述目标概率,得到目标概率分类向量;基于所述目标概率分类向量,得到目标分类结果。
在一些实施例中,所述目标为多个目标,且其中,获取所述目标的目标特征向量包括:获取所述多个目标中每一个目标的目标特征向量;所述方法还包括:对所述至少一个概念椭球空间中的每一个概念椭球空间:将多个目标中每一个目标对应的目标特征向量与该目标的目标概率相乘,得到该目标的目标影响向量;将所述多个目标的目标影响向量相加和,得到所述多个目标的目标综合向量。
在一些实施例中,所述目标处理方法还包括:基于所述目标在各概念椭球空间中的目标概率,得到该目标的多空间概率向量;将所述多空间概率向量与所述目标特征向量拼接,得到该目标的复合特征向量;将所述复合特征向量输出。
根据本公开的另一方面,提供了一种目标处理装置,包括:特征获取模块,其被配置为获取所述目标的目标特征向量;椭球特征向量生成模块,其被配置为将所述目标特征向量变换到至少一个概念椭球空间中,得到其在所述至少一个概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;目标处理结果生成模块,其被配置为对所述至少一个概念椭球空间中的每一个概念椭球空间,基于该概念椭球空间中的椭球特征向量与中心点计算所述目标的目标概率。
在一些实施例中,所述椭球特征向量生成模块包括:概念椭球空间变换模块,其被配置为对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
在一些实施例中,所述目标处理结果生成模块包括:空间距离计算模块,其被配置为计算所述椭球特征向量与所述中心点的空间距离;概率计算模块,其被配置为基于所述空间距离,计算得到其所对应的目标概率;其中,所述空间距离越大,其所对应的目标概率越小。
根据本公开的另一方面,提供了一种目标处理设备,其中所述设备包括处理器和存储器,所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述目标处理设备执行操作,所述操作包括:获取所述目标的目标特征向量;将所述目标特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
在一些实施例中,将所述目标特征向量变换到至少一个概念椭球空间中得到其在所述至少一个概念椭球空间中的椭球特征向量的操作包括:对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
在一些实施例中,所述目标处理设备还包括:内容获取模块,其被配置为获取输入内容,并对所述输入内容进行处理,得到该输入内容的目标特征向量;其中,所述输入内容包括输入图像、输入文字、输入视频中的至少一种。
在一些实施例中,所述目标处理设备还包括结果输出单元,所述结果输出单元基于所述目标概率得到最终结果,并输出所述最终结果。
根据本公开的另一方面,提供了一种算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行如上所述的方法。
利用本公开提供的目标处理的方法,可以很好的完成对于目标的实时处理,特别地,可具有较高的目标处理准确率和处理速度,且该算法具有良好的鲁棒性。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本公开的主旨。
图1A示出了根据本公开实施例的概念椭球空间的示意图;
图1B示出了根据本公开实施例的目标处理方法100的示例性的流程图;
图2A示出了根据本公开实施例对每一个概念椭球空间基于该概念椭球空间的椭球特征向量与该概念椭球空间的中心点计算目标概率的过程103的示例性流程图;
图2B示出了根据图2A所示出的目标处理方法计算目标概率的示意图;
图3A示出了根据本公开实施例的目标处理方法用于目标分类的过程100A的示例性流程图;
图3B中示出了如图3A所示出的目标处理方法100A应用于目标分类场景的示意图;
图4A示出了根据本公开实施例基于所述目标处理方法对于特定预设概念得到其目标综合向量的过程100B的示例性流程图;
图4B示出了对于特定概念椭球空间采用如图4A所示的目标处理方法获取目标综合向量的示意图;
图4C示出了如图4A所示出的目标处理方法应用于注意力分布模型下的示意图;
图5A示出了根据本公开实施例基于目标处理方法获得多空间概率向量的示例性流程图;
图5B示出了根据本公开实施例基于目标处理方法获得复合特征向量的示例性框图;
图6示出了根据本公开实施例的目标处理方法用于实现视频目标分析的总体流程图;
图7示出了根据本公开实施例的目标处理装置500的示例性的框图;
图8示出了根据本公开实施例的目标处理设备650的示例性的框图。
具体实施方式
下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本公开的部分实施例,而不是全部的实施例。基于本公开实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本公开保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请提出了一种基于概念椭球空间的目标处理方法,通过将目标特征向量从特征空间转换至概念椭球空间,并对其进一步处理,从而得到目标处理结果。图1A示出了根据本公开实施例的概念椭球空间的示意图。
参照图1A,例如以二维的概念椭球空间为例。如对于概念“天空”,例如可以得到隶属于概念“天空”的一个典型成员对象,例如为标准的天空图像。则对于概念“天空”的概念椭球空间(二维空间),该标准的天空图像即对应于概念椭球空间的中心点bspace,其坐标例如为(3,3.7),其表征隶属于概念“天空”的概率为1的图像,且根据该概念椭球空间的椭球变换矩阵W可以计算得到该概念椭球空间的概率等高线,所述概率等高线为多个同心的椭圆,其中每一个椭圆均以中心点bspace为中心,且变换矩阵W控制该多个同心椭圆的朝向、大小。图1A中示出了隶属于“天空”概念的概率为0.5、0.1、0.05的概率等高线,则例如对于图1A中位于概率为0.1的概率等高线上的点A和B,表征其隶属于“天空”概念的概率为0.1。
在一些实施例中,获取所述预设概念所对应的概念椭球空间的中心点b和椭球变换矩阵W的过程例如可以通过对神经网络的预训练过程实现。例如在神经网络的输入端输入各预设概念的典型成员对象,将其输出的目标概率与人工标注的目标概率相比较,基于比较结果对所述神经网络参数进行调整,直至神经网络输出的目标概率与人工标注的目标概率一致,此时可以在神经网络中得到每个预设概念所对应的概念椭球空间的中心点和椭球变换矩阵。据此实现了预设概念与概念椭球空间的对应。
所述将目标特征向量变换至至少一个概念椭球空间的过程例如可以更具体地描述,例如可以基于椭球变换矩阵W将所述目标特征向量变换至概念椭球空间,或者也可以基于其他的算法实现变换过程,本公开的实施例不受所述椭球变换的具体方式的限制。
在设置如上所述的概念椭球空间的基础上,本申请提出了基于概念椭球空间的目标处理方法。图1B示出了根据本公开实施例的目标处理方法100的示例性流程图。
首先,在步骤S101中,获取所述目标的目标特征向量。
所述目标旨在表征当前待处理的内容。其例如可以为图像内容、文字内容、视频内容等。例如,其可以是视频图像中当前帧的图像内容,或者其也可以是文本中的当前对话语句内容。本公开的实施例不受所述目标的具体形式及其类型的限制。
所述目标例如可以为单个目标,例如为输入的单个图像;或者其也可以为多个目标,例如为输入的多个对话语句。本公开的实施例不受所述目标的具体个数的限制。
所述目标特征向量为表征该目标所具有的特征的向量。其例如可以为预先设定的维数,或者基于实际需求由用户设置其维数。当目标为图像内容时,所述目标特征向量例如可以具有2048维或1024维;当所述目标为文本内容时,所述目标特征向量例如可以具有512维。本公开的实施例不受所述目标特征向量的具体维数的限制。
在一些实施例中,获取所述目标的目标特征向量例如可以更具体地描述。当目标为图像内容时,例如可以通过深度学习算法对所述图像内容进行处理得到目标特征向量,例如通过基于卷积神经网络特征的区域算法(R-CNN)、基于卷积神经网络特征的快速区域算法(Faster R-CNN)等目标处理算法实现;当目标为对话语句内容时,例如可以经由深度学习算法处理得到语句中每一个词组所对应的词组特征向量并将其作为目标特征向量。本公开实施例不受得到所述目标特征向量的具体方式及所述目标特征向量的组成的限制。
其后,在步骤S102中,将所述目标特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量。
所述概念椭球空间旨在表征一个与特定概念相对应的多维空间。所述概念椭球空间例如可以通过该概念椭球空间的中心点b和该概念椭球空间的变换矩阵W来表示。其中,中心点b表征该概念椭球空间的椭球中心坐标,所述变换矩阵W旨在表征概念椭球空间中以中心点b为中心的椭球所具有的椭球形态特征。
应了解,基于所设置的概念椭球空间的空间维数不同,所述变换矩阵W和所述中心点b的维数可以相应地改变。若目标特征向量x的向量维数为n,且设置概念椭球空间为r维空间,则所述变换矩阵W例如为n×r的矩阵,且中心点b为r维的向量。本公开的实施例不受所述概念椭球空间的维数及所述变换矩阵与中心点的具体内容的限制。
且其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念。
所述预设概念例如可以是基于预设概念库或专业类别库等获取的概念,或者也可以是用户基于实际需求设置的概念。本公开的实施例不受所述预设概念的选取及其来源的限制。
所述预设概念例如可以为类别概念,例如对于视频图像而言,其预设概念例如可以是“人物”、“动物”、“风景”等;或者其也可以是属性概念,例如对于对话语句而言,其预设概念例如可以是“评价性”、“描述性”等。本公开的实施例不受预设概念具体类型及其内容的限制。
每一个概念椭球空间对应于一个特定的预设概念例如可以更具体地描述。在一些实施例中,例如以三维概念椭球空间为例,对于每一个预设概念,该预设概念例如包括一个典型成员对象,所述典型成员对象与该概念匹配的概率为1,即该典型成员对象隶属于该预设概念的概率为1。则在构建与该预设概念相对应的概念椭球空间时,使所述概念椭球空间的中心点b对应于所述典型成员对象;且设置该概念椭球空间的椭球变换矩阵W,使得在该概念椭球空间中,以中心点b为椭球中心且具有变换矩阵W所限定的椭球特征的多个同心椭球面中的每一个椭球面为概率等高面,即,在该椭球面上的点所对应的目标对象隶属于该预设概念的概率相等。其中,所述变换矩阵W将控制该概率等高面的形态及多个概率等高面间的概率衰减速度。
在一些实施例中,该预设概念例如包括多个典型成员对象,例如对于“评价性”概念,其例如包括典型成员对象:“糟糕”、“很棒”、“好”、“差”、“不喜欢”、“喜欢”等。此时在构建与该预设概念相对应的概念椭球空间时,例如可以首先设置概念椭球空间的初始中心点对应于所述多个典型成员对象之中的一个典型成员对象,并基于此得到其他典型成员对象在该概念椭球空间中所对应的成员椭球空间向量,其后将所述多个成员椭球空间向量与所述初始中心点加权平均以得到拟合的核心典型成员对象点,并将该核心典型成员对象点作为该概念椭球空间的中心点。
其后,在步骤S103中,对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
例如,可以基于所述椭球特征向量与所述概念椭球空间的中心点的空间距离,经由相应算法得到其目标概率,或者也可以通过其他方式计算所述目标概率。本公开的实施例不受所述目标概率的计算方式的限制。
基于上述,本申请在目标处理的过程中,通过将目标特征向量从特征空间转换至概念椭球空间并基于其在各概念椭球空间中的椭球特征向量与该概念椭球空间所具有的中心点求取目标概率,相比于仅采用一维向量表征预设概念并实现目标概率计算,本申请采用概念椭球空间来表征预设概念并基于概念椭球空间计算目标概率,增强了对于预设概念的表征能力,且使得该目标概率计算过程具有可解释性,同时还兼顾了计算资源的节约。所述方法在应用时对于未知目标的处理及预测能力较强,即其泛化能力较强,且该方法具有良好的鲁棒性。
在一些实施例中,将所述目标特征向量变换到至少一个概念椭球空间中以得到其在所述至少一个概念椭球空间中的椭球特征向量的过程包括:对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
例如可以将该概念椭球空间所对应的椭球变换矩阵与所述目标特征向量相乘以计算得到其在该概念椭球空间中的椭球特征向量。此时得到的椭球特征向量与该概念椭球空间的中心点的向量具有相同维数。
具体而言,若目标特征向量x为n维向量,若预设概念的个数为m,且各预设概念对应的概念椭球空间具有相同的维度且其维度为r,则对于与第i个概念对应的概念椭球空间(i为大于等于1小于等于m的正整数),其中心点bi的维度为r,其椭球变换矩阵wi为r×n的矩阵。则例如可以基于如下公式计算得到其在第i个概念椭球空间中所对应的椭球特征向量gi
gi=wix 1)
其中gi为目标特征向量在第i个概念椭球空间中所对应的椭球特征向量,wi为第i个概念椭球空间(对应于第i个预设概念)所具有的椭球变换矩阵,x为目标特征向量。其中,所得到的椭球特征向量gi也为r维向量。
基于上述,对每一个概念椭球空间,通过其所对应的椭球变换矩阵将所述目标特征向量变换为该概念椭球空间中的椭球特征向量,有利于后续基于所述概念椭球向量实现对于目标概念的求取。
上述获得目标概率的过程例如可以更具体地描述。图2A示出了根据本公开实施例对每一个概念椭球空间基于该概念椭球空间的椭球特征向量与该概念椭球空间的中心点计算目标概率的过程103的示例性流程图。
参照图2A,在一些实施例中,当基于概念椭球空间的椭球特征向量与所述中心点计算目标概率时,首先,在步骤S1031中,计算所述椭球特征向量与所述中心点的空间距离。
例如,若共有m个概念椭球空间(对应于m个预设概念),则对于其中第i个概念椭球空间而言,若其中心点为bi,目标在该概念椭球空间中的椭球特征向量为gi,且所述中心点bi与所述椭球特征向量为gi均为r维向量,则可以经由如下公式得到该椭球特征向量与中心点的空间距离di
Figure BDA0002265773850000101
其中,
Figure BDA0002265773850000102
为第i个概念椭球空间的中心点向量中的第k个子元素(即,第k维),
Figure BDA0002265773850000103
为目标在该概念椭球空间所对应的椭球特征向量中的第k个子元素,且其中k为大于等于1小于等于r的正整数,r为该概念椭球空间的维数,i为大于等于1且小于等于概念椭球空间总数m的正整数。
其后,在步骤S1032中,基于所述空间距离,计算得到其所对应的目标概率。其中,所述空间距离越大,其所对应的目标概率越小。
其中,所述目标概率旨在表征所述目标隶属于特定预设概念的可能性。所述目标概率越高,表征当前目标隶属于该特定预设概念的可能性越高。所述目标概率例如处于0-1的数值范围内。
上述计算目标概率的过程例如可以直接基于所述空间距离计算得到该目标概率,或者也可以将所述空间距离代入预设算法或公式计算得到所述目标概率。本公开的实施例不受所述目标概率的计算方式的限制。
在一些实施例中,例如可以基于如下公式计算所述目标概率:
Figure BDA0002265773850000111
其中,pi表征目标隶属于第i个预设概念的目标概率,di为在第i个概念椭球空间(对应于第i个预设概念)中目标的椭球特征向量与该概念椭球空间中心点的空间距离,其中i为大于等于1且小于等于概念椭球空间总数m的正整数。
图2B示出了根据图2A所示出的目标处理方法计算目标概率的示意图。
参照图2B,若输入目标为输入图像,且其具有目标特征向量x,且设置预设概念为4个,其例如分别为s1,s2,s3,s4,且其分别对应于第一概念椭球空间(其包括中心点b1,椭球变换矩阵w1)、第二概念椭球空间(其包括中心点b2,椭球变换矩阵w2)、第三概念椭球空间(其包括中心点b3,椭球变换矩阵w3)、第四概念椭球空间(其包括中心点b4,椭球变换矩阵w4)。则例如可以首先经由上述公式1)计算得到该输入图像在各概念椭球空间中分别具有的椭球特征向量g1,g2,g3,g4,进一步地,根据公式2),基于各概念椭球空间所具有的中心点坐标可以计算得到在每一个概念椭球空间中,输入图像所具有的椭球特征向量与中心点的空间距离,即分别得到d1,d2,d3,d4,最终经由公式3)得到其对应于各个预设概念的目标概率p1,p2,p3,p4
基于上述,通过计算所述椭球特征向量与所述中心点的空间距离,并基于所述空间距离计算其所对应的目标概率,并且进一步设置空间距离越大,其所对应的目标概率越小,使得在计算目标概率的过程中,可以基于概念椭球空间中计算得到的空间距离来求取目标概率,有利于提高所计算的目标概率的精确度。
在一些实施例中,获取所述目标的目标特征向量包括:经由第一神经网络对于输入内容进行处理,得到目标特征向量。且其中,所述输入内容包括输入图像、输入文字、输入视频中的至少一种。
所述第一神经网络例如可以为卷积神经网络,或者其也可以为将卷积神经网络与其他神经网络组合所形成的系统网络系统。本公开的实施例不受所述第一神经网络的具体类型及其组成方式的限制。
所述经由第一神经网络对输入内容进行处理例如可以更具体地描述。首先,将所述目标输入至第一神经网络的输入端,经由第一神经网络的卷积层的处理,最终在第一神经网络的全连接层得到该目标的目标特征向量。
基于上述,通过第一神经网络对于所述目标进行处理,得到该目标的目标特征向量,有利于其后基于该目标特征向量实现对目标概率的计算。且通过令输入内容包括图像、文字、视频中的一种,使得该方法可以适用于处理多种目标类型。
在一些实施例中,所述概念例如为类别概念,则如前所述的目标处理方法可以用于对目标进行目标分类,即基于输入目标,求取其在各个概念椭球空间中的目标概率,并基于所述目标概率得到该目标的分类结果。
图3A示出了根据本公开实施例的目标处理方法用于目标分类的过程100A的示例性流程图。
参照图3A,当所述目标处理方法应用于目标分类时,所述目标处理方法在包括前述步骤S101至S103的基础上,在得到目标对应于各个概念椭球空间的目标概率后,进一步地,在步骤S104中,基于所述目标概率,得到目标概率分类向量。
所述目标概率分类向量旨在用于对该目标进行分类。若预先设置有j个预设类别概念,则该目标概率分类向量例如可以包括j个子元素,每一个子元素对应于一个预设类别概念,其表征目标隶属于该预设类别概念的概率。
基于所述目标概率获得目标概率分类向量例如可以包括:在基于前述方法得到目标概率的基础上,对于同一目标,将该目标对应于不同类别概念的目标概率依次拼接以得到目标概率分类向量,或者也可以对所述目标概率进行进一步处理以得到目标概率分类向量。本公开的实施例不受得到所述目标概率分类向量的具体方式的限制。
例如,当采用直接拼接的方式得到目标概率分类向量时,若目标为视频图像当前帧,计算得到其对应于“明星”类别概念的概率为0.8,其对应于“动漫”类别概念的概率为0.2,其对应于“美食”类别概念的概率为0.1,则例如可以将其目标概率依次拼接,得到其目标概率分类向量(0.8,0.2,0.1)。
其后,在步骤S105中,基于所述目标概率分类向量,得到目标分类结果。
例如,可以直接将该目标分量向量作为目标分类结果,并将其输出;或者也可以比较该目标概率分类向量中的子元素,得到该目标概率分类向量中具有最大概率数值的子元素并获取所对应的类别,将其所对应的类别作为目标分类结果输出。例如,若得到的目标概率分类向量为(0.1,1,0.5),且若其中概率数值为1的子元素所对应的类别概念为“猫”,则例如可以将类别概念“猫”作为目标分类结果并输出。
应了解,本公开的实施例不限于上述方式。还可以采用其他的方式基于该目标概率分类向量得到目标分类结果。
上述目标处理方法应用于目标分类的过程例如可以更具体地说明。图3B中示出了图3A所示出的目标处理方法100A应用于目标分类场景的示意图。
参照图3B,在目标分类的应用场景下,输入内容首先经由基本网络架构处理,其可以基于输入内容提取目标并获得该目标的目标特征向量;其后,通过如前所述的目标处理方法100A对所述目标特征向量进行处理,输出该目标特征向量所对应的类别概念。
所述类别概念旨在表征不同的目标类别,其例如可以基于用户的需求设置或者也可以基于预设的类别库定义。例如对于绘画图像而言,其例如可以为:“水彩”、“油画”、“工笔画”、“简笔画”等。本公开的实施例不受所述类别概念的内容的限制。
所述基本网络架构旨在基于用户的输入内容提取目标并输出该目标的目标特征向量,其例如可以为卷积神经网络,或者也可以为多个神经网络所组成的综合网络架构。本公开的实施例不受所述基本网络架构的具体类型及其组成的限制。
所述目标处理方法可以执行如前所述的操作,基于所述目标特征向量,得到其对应于预设类别概念中的每一个类别概念的目标概率,并基于该目标概率得到目标所对应的类别。
基于上述,通过基于所述目标概率得到目标概率分类向量并进一步地基于所述目标概率分类向量得到目标分类结果,本申请所述方法可以应用于目标分类问题以实现对于输入目标的分类,提高目标分类的速度,并且其分类结果具有较高的准确性。
在一些实施例中,当输入目标为多个目标时,则对于预设概念中的每一个特定概念,可以基于所述多个目标对应于所述特定概念的目标概率,计算所述多个目标在所述特定概念下的目标综合向量。图4A示出了根据本公开实施例基于所述目标处理方法对于特定预设概念得到其目标综合向量的过程100B的示例性流程图。
参照图4A,在一些实施例中,所述目标为多个目标,则此时,首先,在步骤S101中,获取所述目标的目标特征向量包括:获取所述多个目标中每一个目标的目标特征向量。
所述多个目标例如可以是当前对话语句中的多个词组,或者其也可以是视频图像中的多个连续视频帧。所述多个目标的目标个数可以基于实际需要进行选取,其例如可以为10个,或者也可以为5个。本公开的实施例不受所述多个目标的个数及其具体类型及内容的限制。
其后,经由如前所述的步骤S102-103的处理,得到所述目标对应于概念椭球空间中每一个概念椭球空间的目标概率。
进一步地,所述目标处理方法100B还包括:在步骤S106中,对所述至少一个概念椭球空间中的每一个概念椭球空间,将多个目标中每一个目标在该概念椭球空间中对应的目标特征向量与该目标的目标概率相乘,得到该目标在该概念椭球空间中的目标影响向量。
此时,每一个目标的目标概率还表征了对于特定预设概念而言,该目标对该预设概念的贡献程度。且所述目标影响向量旨在表征当前目标在特定预设概念下所贡献的特征。本公开的实施例不受所述目标影响向量的具体内容的限制。
其后,在步骤S107中,对所述至少一个概念椭球空间中的每一个概念椭球空间,将所述多个目标在该概念椭球空间中的目标影响向量相加和,得到所述多个目标的目标综合向量。其中,所述目标综合向量旨在表征在特定预设概念下,所述多个目标所具有的总体特征。
上述过程例如可以更具体地描述。图4B示出了对于特定概念椭球空间采用如图4A所示的目标处理方法获取目标综合向量的示意图。
参照图4B,当所述输入内容为对话语句时,经由第一神经网络对于该输入内容进行处理后,例如可以得到该输入语句中的多个词组的特征向量,所述多个词组即为多个目标,所述多个词组分别具有的特征向量即为目标特征向量。例如对于对话语句“我喜欢腾讯产品”而言,经由处理例如可以得到四个词组,其分别为:“我”、“喜欢”、“腾讯”、“产品”。若设所述四个词组分别为目标1、2、3、4,则其所述具有的目标特征向量分别为x1、x2、x3、x4,且若计算其在“评价性语句”概念下的目标概率,则可以将所述多个目标变换至“评价性语句”所对应的概念椭球空间中并经由公式1)-3)的计算,得到其隶属于“评价性语句”概念的概率分别为ps1、ps2、ps3、ps4。则如图4B中所示出的,例如可以通过如下所述的公式分别计算得到所述多个目标每一个所具有的目标影响向量a1、a2、a3、a4
Figure BDA0002265773850000151
进一步地,基于所得到的目标影响向量a1、a2、a3、a4,其可以基于如下公式计算得到该概念椭球空间的目标综合向量A。
A=a1+a2+a3+a4 5)
接下来,将结合图4C说明上述目标处理方法100B求取特定概念椭球空间的目标综合向量的具体应用场景。图4C示出了如图4A所示出的目标处理方法应用于注意力分布模型下的示意图。
其中,所述目标为多个目标,所述注意力模型旨在用于对于特定概念类别,合理地分配不同目标在该概念类别下的注意力参数。
参照图4C,首先,对输入目标的目标特征矩阵Z进行目标处理,其中,所述目标特征矩阵Z中例如具有多个目标特征向量,每一个目标特征向量对应于一个输入目标。且根据所述目标特征矩阵,基于多个目标中每一个目标的目标特征向量,基于如前所述的方法,可以得到该目标对应于各预设概念的目标概率。其后,进一步地,对于每一个概念椭球空间,将多个目标在该概念椭球空间中所具有的目标概率相拼接,得到该概念椭球空间的目标权重向量。
对所述至少一个概念椭球空间中的每一个概念椭球空间,通过加权求和操作,基于该概念椭球空间的目标权重向量,将该目标特征矩阵中每一个目标对应的目标特征向量与所述目标权重向量中该目标对应的目标概率相乘,得到该目标的目标影响向量;并将所述多个目标的目标影响向量相加和,得到该概念椭球空间中所述多个目标的目标综合向量。
在一些实施例中,还可以利用变换矩阵对所述目标特征矩阵进行线性变换,得到线性变换矩阵,以便于后续进行处理分析。本公开的实施例不受所述目标变换矩阵的尺寸及其内容的限制。
基于上述,当输入的目标为多个目标时,对于每一个概念椭球空间,通过基于目标特征向量与目标概率相乘得到目标影响向量,并进一步地通过将多个目标的目标影响向量加和以得到目标综合向量,使得可以实现对于特定的预设概念,基于每一个目标特征向量归属于该预设特征的目标概率,合理地分配所述多个目标的目标特征向量在目标综合向量中的影响程度,使得能够对与该预设概念相关联的目标施加更多的注意力,有利于后续对于其进行处理和分析。
在一些实施例中,还可以基于所述目标处理方法得到目标相应的特征向量,所述特征向量例如可以根据所述目标处理方法所得到的目标概率直接生成,或者也可以基于目标特征向量与所得到的目标概率生成。下面给出两种基于目标处理方法得到目标相应的特征向量的示例性方法。
在一些实施例中,将根据所述目标处理方法所得到的目标概率直接生成目标对应的特征向量。图5A示出了根据本公开实施例基于目标处理方法获得多空间概率向量的示例性流程图。
参照图5A,在一些实施例中,所述目标处理方法在基于前述步骤得到目标对应于各概念椭球空间的目标概率之后,进一步地还包括:基于所述目标在各概念椭球空间中的目标概率,得到该目标的多空间概率向量,并将所述多空间概率向量输出。
例如,若输入目标为摄像机获取的图像,且预设概念包括:“人物”、“风景”、“建筑”。若计算得到该目标隶属于各预设概念的概率分别为0.2,0.1,0.9,则例如可以将所述目标概率依次拼接得到该目标的多空间概率向量(0.2,0.1,0.9),并将其输出。
基于上述,基于在多个概念椭球空间计算得到的目标概率生成目标多空间概率向量并将其输出,使得其可以作为新的特征向量用于后续的计算过程,例如用于分类过程等,有利于提高后续计算的精确度。
在一些实施例中,为了便于计算,例如可以将每个概念椭球空间所具有的椭球变换矩阵w和中心点b合并,例如若n为目标特征向量所具有的维数,r为概念椭球空间所具有的维数,且预设概念为m个,则可以将每一个概念椭球空间所对应的椭球变换矩阵(该椭球变换矩阵例如为n×r维矩阵)相拼接得到全部预设概念所对应的总椭球变换矩阵Wm,其为n×r×m维的矩阵。同样地,可以将每一个概念椭球空间所对应的中心点b(该中心点例如为r维向量)相拼接,得到该预设概念所对应的总中心点矩阵Bm,其中,所述总中心点矩阵Bm为r×m维的矩阵。
此时,当需要计算多空间概率向量时,例如可以基于如下公式计算所述目标特征向量在每一个概念椭球空间中计算得到的欧式距离并直接得到目标在各个概念椭球空间中欧式距离的欧式距离分布向量D:
D=sqrt(row_sum(square(reshape(Wmx-Bm,[m,r])))) 6)
其中,所述reshape操作旨在执行Wmx-Bm的处理,得到m×r维的过程矩阵,其中矩阵的第i列为目标在第i个概念椭球空间中的椭球特征向量与该概念椭球空间的中心点相减后得到的过程向量;所述square操作旨在将所得到的过程矩阵中的每一个元素取平方;所述row_sum操作旨在将所述矩阵中的每一行相加,得到m维的加和向量;所述sqrt操作旨在对于所述加和向量中的每一个子元素开根号以得到欧式距离分布向量D,该向量中的第i个子元素表征目标在第i个概念椭球空间中的椭球特征向量与该概念椭球空间的中心点所具有的欧式距离。其中i为大于1且小于等于m的正整数。
得到所述欧式距离分布向量D后,此时所述多空间概率分布向量例如可以通过如下公式计算:
P=e-D 7)
其中,P为多空间概率分布向量,其维数为预设概念的总个数m,其中的第i维表征目标隶属于第i个预设概念的概率,i为大于等于1且小于等于m的正整数。
在一些实施例中,可以基于所述目标特征向量和利用目标处理方法所得到的目标对应于各椭球概率空间的目标概率共同生成目标对应的特征向量。图5B示出了根据本公开实施例基于目标处理方法获得复合特征向量的示例性框图。
参照图5B,在得到目标对应于各椭球概率空间的目标概率后,所述目标处理方法还包括:基于所述目标在各概念椭球空间中的目标概率,得到该目标的多空间概率向量;将所述多空间概率向量与所述目标特征向量拼接,得到该目标的复合特征向量;将所述复合特征向量输出。
例如,若输入目标为视频图像的当前帧,且得到其目标特征向量为(2.7,3.1,2.2,11.3,0.5,7.8),计算得到其在预设概念“人物”、“风景”、“建筑”的概率分别为0.2,0.1,0.9,则例如可以将所述目标概率依次拼接得到该目标的多空间概率向量(0.2,0.1,0.9);且进一步地将所述多空间概率向量与所述目标特征向量拼接,得到复合特征向量(2.7,3.1,2.2,11.3,0.5,7.8,0.2,0.1,0.9)。
基于上述,在基于所述目标在各概念椭球空间中的目标概率得到该目标的多空间概率向量的基础上,通过将所述多空间概率向量与所述目标特征向量拼接得到该目标的复合特征向量,使得可以生成包含有目标特征信息和目标概念归属概率信息的综合特征向量,其更好地反映了目标的特性,且可以用于后续进一步处理,例如用户后续进行分类或进行综合分析,以提高后续处理的精确度。
在一些实施例中,所述目标处理方法还可以与其他处理流程相结合,用于实现对目标的综合分析。图6示出了根据本公开实施例的目标处理方法用于实现视频目标分析的总体流程图。
参照图6,例如在对于视频图像进行一次视频目标分析的过程中,首先,对输入视频进行视频抽帧,获得该输入视频中待处理的当前视频帧图像。其中,所述输入视频例如可以是通过摄像头或摄录装置实时捕获的视频,例如,其可以为由道路摄像头、无人超市的监控摄像头等直接拍摄的视频;或者也可以是经过计算机预先处理后得到的视频。本公开实施例不受视频的来源及获取方式的限制。
其后,对于当前视频帧而言,一方面,可以经由目标检测模型对其进行目标检测,提取得到该图像中的核心对象区域,并获得核心对象区域所具有的对象特征向量;其后,基于该对象特征向量,得到该对象特征向量所具有的物体标签。
应了解,所述目标检测模型旨在用于对当前视频帧进行目标检测以得到核心对象区域及其所对应的对象特征向量。其例如可以为卷积神经网络,或者也可以是其他类型的神经网络或综合架构。本公开的实施例不受所述目标检测模型的具体类型及组成的限制。
其中,所述核心对象区域表征包括该核心对象且具有最小面积的图像区域。例如若当前视频帧包括树枝与停留在该树枝上的喜鹊,则进行目标检测后所得到的核心对象区域例如可以为包括该喜鹊且具有最小面积的矩形图像,或者也可以为包括该喜鹊且具有最小面积的圆形图像。本公开的实施例不受所述核心对象区域的具体形态的限制。
另一方面,将所述当前视频帧整体作为目标,经由目标分类模型对其进行处理,得到其在预设的多个视频类别概念中所对应的目标概率,并基于所述目标概率得到当前视频帧所对应的视频类别。其中所述目标分类模型可以执行如前所述的方法,具体为:获取当前视频帧的特征向量;将当前视频帧的特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;对所述至少一个概念椭球空间中的每一个概念椭球空间,基于当前视频帧在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算当前视频帧的目标概率;基于所述目标概率,得到目标概率分类向量;基于所述目标概率分类向量,得到目标分类结果。
应了解,所述目标分类模型旨在用于对当前视频帧进行目标分类以得到其在预设的多个视频类别概念中所对应的目标概率。其例如可以为卷积神经网络,或者也可以是其他类型的神经网络。本公开的实施例不受所述目标分类模型的具体类型及组成的限制。
例如,若预设的视频类别概念为:“明星”、“风景”、“美食”、“动物”。且得到当前视频帧在该概念类别的目标概率分别为:0.9,0.2,0.1,0.4。则例如可以将概率值最高的目标概率所对应的视频类别概念确定为当前视频帧的视频类别,即得到其视频类别为“明星”。
在得到当前视频帧的物体标签和视频类别后,例如可以基于所述物体标签与视频类别生成当前视频帧的视频标签。例如对于当前视频帧而言,若其物体标签为“蓝莓”,视频类别为“美食”,则得到的当前视频帧的图像例如为“美食,蓝莓”。
得到所述视频标签后,例如可以将所述视频标签与其他推荐特征一起输入至视频推荐系统,所述视频推荐系统基于该视频标签与推荐特征,向用户输出该用户可能感兴趣的视频。
其中,所述其他推荐特征例如可以为当前播放量较多的视频类别或物体标签,或者其也可以为用户近期播放的其他视频所属的视频类别与其对应的物体标签。本公开的实施例不受所述其他推荐特征的类型及具体内容的限制。
所述视频推荐系统旨在基于所述视频标签与其他推荐特征,输出与该视频标签和其他推荐特征相对应的一个或多个视频。若其输入的视频标签为“明星,胡歌”,其他推荐特征为“综艺”、“纪录片”,则其例如可以输入与胡歌相关的一个或多个综艺节目或纪录片的视频。
基于上述,在视频目标分析系统中,通过使用本申请中所提出的目标处理方法对于当前视频帧进行处理得到其视频类别,有利于后续对于该视频进行分析处理并生成与之相关联的推荐视频。有利于提高视频分析的准确率。
在一些实施例中,为了避免多维概念椭球空间维数过大而导致的计算量增加,例如可以基于输入的n维目标特征向量,首先可以将该目标特征向量各个维度的顺序打乱,其次,在目标特征向量的各个维度中,随机挑选r个维度,使用该维度组成概念椭球空间,使得概念椭球空间的维数r小于等于目标特征向量的维数n,从而可以在不增加参数量的情况下复用概念椭球空间的泛化能力。
图7示出了根据本公开实施例的目标处理装置500的示例性框图。
如图7所示的目标处理装置500包括特征获取模块510、椭球特征向量生成模块520、目标处理结果生成模块530。
所述特征获取模块510被配置为获取所述目标的目标特征向量。所述椭球特征向量生成模块520被配置为将所述目标特征向量变换到至少一个概念椭球空间中,得到其在所述至少一个概念椭球空间中的椭球特征向量。所述目标处理结果生成模块530被配置为对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
所述目标旨在表征当前待处理的内容。其例如可以为图像内容、文字内容、视频内容等。本公开的实施例不受所述目标的具体形式及其类型的限制。
所述目标例如可以为单个目标,例如为输入的单个图像;或者其也可以为多个目标,例如为输入的多个对话语句。本公开的实施例不受所述目标的具体个数的限制。
所述目标特征向量为表征该目标所具有的特征的向量。其例如可以为预先设定的维数,或者基于实际需求由用户设置其维数。本公开的实施例不受所述目标特征向量的具体维数的限制。
所述概念椭球空间旨在表征一个与特定概念相对应的多维空间。所述概念椭球空间例如可以通过该概念椭球空间的中心点b和该概念椭球空间的变换矩阵W来表示。其中,中心点b表征该概念椭球空间的椭球中心坐标,所述变换矩阵W旨在表征概念椭球空间中以中心点b为中心的椭球所具有的椭球形态特征。
应了解,基于所设置的概念椭球空间的空间维数不同,所述变换矩阵W和所述中心点b的维数可以相应地改变。本公开的实施例不受所述概念椭球空间的维数及所述变换矩阵与中心点的具体内容的限制。
且其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念。
所述预设概念例如可以是基于预设概念库或专业类别库等获取的概念,或者也可以是用户基于实际需求设置的概念。本公开的实施例不受所述预设概念的来源、预设概念具体类型及其内容的限制。
所述将目标特征向量变换至至少一个概念椭球空间的过程例如可以为:基于椭球变换矩阵将所述目标特征向量变换至概念椭球空间,或者也可以基于其他的算法实现变换过程,本公开的实施例不受所述椭球变换的具体方式的限制。
例如,可以基于所述椭球特征向量与所述概念椭球空间的中心点的空间距离,经由相应算法得到其目标概率,或者也可以通过其他方式计算所述目标概率。本公开的实施例不受所述目标概率的计算方式的限制。
基于上述,本申请的目标处理装置通过将目标特征向量从特征空间转换至概念椭球空间并基于其在各概念椭球空间中的椭球特征向量与该概念椭球空间所具有的中心点求取目标概率,相比于仅采用一维向量表征预设概念并实现目标概率计算,本申请采用概念椭球空间来表征预设概念并基于概念椭球空间计算目标概率,增强了对于预设概念的表征能力,且使得该目标概率计算过程具有可解释性,同时还兼顾了计算资源的节约。该装置对于未知目标的处理及预测能力较强,即其泛化能力较强,且具有良好的鲁棒性。
在一些实施例中,所述椭球特征向量生成模块520包括椭球空间变换模块521。所述椭球空间变换模块521被配置为对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
例如可以将该概念椭球空间所对应的椭球变换矩阵与所述目标特征向量相乘以计算得到其在该概念椭球空间中的椭球特征向量。此时得到的椭球特征向量与该概念椭球空间的中心点的向量具有相同维数。
基于上述,对每一个概念椭球空间,通过其所对应的椭球变换矩阵将所述目标特征向量变换为该概念椭球空间中的椭球特征向量,有利于后续基于所述概念椭球向量实现对于目标概念的求取。
在一些实施例中,所述目标处理结果生成模块530包括空间距离计算模块531和概率计算模块532。其可以执行如图2A所示的流程,对所述至少一个概念椭球空间中的每一个概念椭球空间,基于该概念椭球空间中的椭球特征向量与中心点计算所述目标的目标概率。
所述空间距离计算模块531被配置为执行图2A中步骤S1031的操作,计算所述椭球特征向量与所述中心点的空间距离。
所述概率计算模块532被配置为执行图2A中步骤S1032的操作,基于所述空间距离,计算得到其所对应的目标概率。且其中,所述空间距离越大,其所对应的目标概率越小。
其中,所述目标概率旨在表征所述目标隶属于特定预设概念的可能性。所述目标概率越高,表征当前目标隶属于该特定预设概念的可能性越高。所述目标概率例如处于0-1的数值范围内。
上述计算目标概率的过程例如可以直接基于所述空间距离计算得到该目标概率,或者也可以将所述空间距离代入预设算法或公式计算得到所述目标概率。本公开的实施例不受所述目标概率的计算方式的限制。
基于上述,通过计算所述椭球特征向量与所述中心点的空间距离,并基于所述空间距离计算其所对应的目标概率,并且进一步设置空间距离越大,其所对应的目标概率越小,使得在计算目标概率的过程中,可以基于概念椭球空间中计算得到的空间距离来求取目标概率,有利于提高所计算的目标概率的精确度。
在一些实施例中,所述目标处理装置能够执行如前所述的方法,具有如前所述的功能。
图8示出了根据本公开实施例的目标处理设备650的示例性的框图。
如图8所示的目标处理设备650可以实现为一个或多个专用或通用的计算机系统模块或部件,例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance,PDA)及任何智能便携设备。其中,目标处理设备650可以包括至少一个处理器660及存储器670。
其中,所述至少一个处理器用于执行程序指令。所述存储器670在目标处理设备650中可以以不同形式的程序储存单元以及数据储存单元存在,例如硬盘、只读存储器(ROM)、随机存取存储器(RAM),其能够用于存储处理器处理和/或执行目标处理过程中使用的各种数据文件,以及处理器所执行的可能的程序指令。虽然未在图中示出,但目标处理设备650还可以包括一个输入/输出组件,支持目标处理设备650与其他组件(如图像采集设备、文字识别设备)之间的输入/输出数据流。目标处理设备650也可以通过通信端口从网络发送和接收信息及数据。
在一些实施例中,所述存储器670所存储的一组指令在由所述处理器660执行时,使所述目标处理设备650执行操作,所述操作包括:获取所述目标的目标特征向量;将所述目标特征向量变换到至少一个概念椭球空间中,得到其在所述至少一个概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
在一些实施例中,将所述目标特征向量变换到至少一个概念椭球空间中得到其在所述至少一个概念椭球空间中的椭球特征向量的操作包括:对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
在一些实施例中,所述目标处理设备还包括内容获取模块680,其被配置为获取输入内容,并对所述输入内容进行处理,得到该输入内容的目标特征向量;其中,所述输入内容包括输入图像、输入文字、输入视频中的至少一种。
在一些实施例中,所述目标处理设备还包括结果输出单元690,所述结果输出单元690基于所述目标概率得到最终结果,并输出所述最终结果。
在一些实施例中,目标处理设备650可以接收来自该目标处理设备650外部的图像采集设备所采集的视频图像,并对接收的图像数据执行上文描述的目标处理方法、实现上文描述的目标处理装置的功能。
尽管在图8中,处理器660、存储器670呈现为单独的模块,本领域技术人员可以理解,上述设备模块可以被实现为单独的硬件设备,也可以被集成为一个或多个硬件设备。只要能够实现本公开描述的原理,不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。
根据本公开的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从目标处理设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标处理所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (15)

1.一种目标处理方法,包括:
获取所述目标的目标特征向量;
将所述目标特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;
对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
2.如权利要求1所述的目标处理方法,其中,将所述目标特征向量变换到至少一个概念椭球空间中以得到其在所述至少一个概念椭球空间中的椭球特征向量包括:
对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
3.如权利要求1所述的目标处理方法,其中,对每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率包括:
计算所述椭球特征向量与所述中心点的空间距离;
基于所述空间距离,计算得到其所对应的目标概率;
其中,所述空间距离越大,其所对应的目标概率越小。
4.如权利要求1所述的目标处理方法,其中,获取所述目标的目标特征向量包括:
经由第一神经网络对于输入内容进行处理,得到目标特征向量;
其中,所述输入内容包括输入图像、输入文字、输入视频中的至少一种。
5.如权利要求1所述的目标处理方法,其中,还包括:
基于所述目标概率,得到目标概率分类向量;
基于所述目标概率分类向量,得到目标分类结果。
6.如权利要求1所述的目标处理方法,其中,所述目标为多个目标,
且其中,获取所述目标的目标特征向量包括:获取所述多个目标中每一个目标的目标特征向量;
所述方法还包括:
对所述至少一个概念椭球空间中的每一个概念椭球空间,
将多个目标中每一个目标对应的目标特征向量与该目标的目标概率相乘,得到该目标的目标影响向量;
将所述多个目标的目标影响向量相加和,得到所述多个目标的目标综合向量。
7.如权利要求1所述的目标处理方法,还包括:
基于所述目标在各概念椭球空间中的目标概率,得到该目标的多空间概率向量;
将所述多空间概率向量与所述目标特征向量拼接,得到该目标的复合特征向量;
将所述复合特征向量输出。
8.一种目标处理装置,包括:
特征获取模块,其被配置为获取所述目标的目标特征向量;
椭球特征向量生成模块,其被配置为将所述目标特征向量变换到至少一个概念椭球空间中,得到其在所述至少一个概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;
目标处理结果生成模块,其被配置为对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
9.如权利要求8所述的目标处理装置,其中,所述椭球特征向量生成模块包括:
椭球空间变换模块,其被配置为对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
10.如权利要求8所述的目标处理装置,其中,所述目标处理结果生成模块包括:
空间距离计算模块,其被配置为计算所述椭球特征向量与所述中心点的空间距离;
概率计算模块,其被配置为基于所述空间距离,计算得到其所对应的目标概率;
其中,所述空间距离越大,其所对应的目标概率越小。
11.一种目标处理设备,其中所述设备包括处理器和存储器,所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述目标处理设备执行操作,所述操作包括:
获取所述目标的目标特征向量;
将所述目标特征向量变换到至少一个概念椭球空间中,得到其在该概念椭球空间中的椭球特征向量,其中,所述至少一个概念椭球空间中的每一个概念椭球空间具有中心点,且其对应于一个特定的预设概念;
对所述至少一个概念椭球空间中的每一个概念椭球空间,基于所述目标在该概念椭球空间中的椭球特征向量与该概念椭球空间的中心点计算所述目标的目标概率。
12.如权利要求11所述的目标处理设备,其中将所述目标特征向量变换到至少一个概念椭球空间中得到其在所述至少一个概念椭球空间中的椭球特征向量的操作包括:
对每一个概念椭球空间,基于该概念椭球空间对应的椭球变换矩阵,将所述目标特征向量变换为椭球特征向量。
13.如权利要求11所述的目标处理设备,还包括:
内容获取模块,其被配置为获取输入内容,并对所述输入内容进行处理,得到该输入内容的目标特征向量;
其中,所述输入内容包括输入图像、输入文字、输入视频中的至少一种。
14.如权利要求11所述的目标处理设备,其中还包括结果输出单元,所述结果输出单元基于所述目标概率得到最终结果,并输出所述最终结果。
15.一种算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行上述权利要求1-7中任意一项所述的方法。
CN201911087178.3A 2019-11-08 2019-11-08 目标处理方法、目标处理装置、目标处理设备及介质 Active CN110826726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911087178.3A CN110826726B (zh) 2019-11-08 2019-11-08 目标处理方法、目标处理装置、目标处理设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911087178.3A CN110826726B (zh) 2019-11-08 2019-11-08 目标处理方法、目标处理装置、目标处理设备及介质

Publications (2)

Publication Number Publication Date
CN110826726A true CN110826726A (zh) 2020-02-21
CN110826726B CN110826726B (zh) 2023-09-08

Family

ID=69553523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911087178.3A Active CN110826726B (zh) 2019-11-08 2019-11-08 目标处理方法、目标处理装置、目标处理设备及介质

Country Status (1)

Country Link
CN (1) CN110826726B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936040A (zh) * 2021-10-15 2022-01-14 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods
JP2002342758A (ja) * 2001-05-15 2002-11-29 Osamu Hasegawa 視覚認識システム
CN1598868A (zh) * 2004-09-06 2005-03-23 南京大学 模式识别中特征提取的一种变换方法
JP2006318013A (ja) * 2005-05-10 2006-11-24 Ntt Data Corp 評価装置及びそのコンピュータプログラム
CN101692125A (zh) * 2009-09-10 2010-04-07 复旦大学 基于Fisher判别零空间的高光谱遥感图像混合像元分解方法
CN102216941A (zh) * 2008-08-19 2011-10-12 数字标记公司 用于内容处理的方法和系统
CN103413321A (zh) * 2013-07-16 2013-11-27 南京师范大学 地理环境下的群体行为模式分析与异常行为检测方法
CN104615779A (zh) * 2015-02-28 2015-05-13 云南大学 一种Web文本个性化推荐方法
WO2015077493A1 (en) * 2013-11-20 2015-05-28 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
US9740368B1 (en) * 2016-08-10 2017-08-22 Quid, Inc. Positioning labels on graphical visualizations of graphs
CN107273926A (zh) * 2017-06-12 2017-10-20 大连海事大学 一种基于余弦相似度加权的线性判别分析降维方法
CN107392886A (zh) * 2017-06-14 2017-11-24 国网山东省电力公司菏泽供电公司 一种电力设备图像处理方法
CN107533553A (zh) * 2015-03-24 2018-01-02 凯恩迪股份有限公司 认知存储器图形索引、存储和检索
US20180096229A1 (en) * 2016-01-26 2018-04-05 Università della Svizzera italiana System and a method for learning features on geometric domains
CN108090232A (zh) * 2009-03-20 2018-05-29 高智83基金会有限责任公司 利用跨域知识的语义事件检测
CN108228820A (zh) * 2017-12-30 2018-06-29 厦门太迪智能科技有限公司 用户查询意图理解方法、系统及计算机终端
CN108647264A (zh) * 2018-04-28 2018-10-12 北京邮电大学 一种基于支持向量机的图像自动标注方法及装置
CN109035196A (zh) * 2018-05-22 2018-12-18 安徽大学 基于显著性的图像局部模糊检测方法
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN109543603A (zh) * 2018-11-21 2019-03-29 山东大学 一种基于宏表情知识迁移的微表情识别方法
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263097A (en) * 1991-07-24 1993-11-16 Texas Instruments Incorporated Parameter normalized features for classification procedures, systems and methods
JP2002342758A (ja) * 2001-05-15 2002-11-29 Osamu Hasegawa 視覚認識システム
CN1598868A (zh) * 2004-09-06 2005-03-23 南京大学 模式识别中特征提取的一种变换方法
JP2006318013A (ja) * 2005-05-10 2006-11-24 Ntt Data Corp 評価装置及びそのコンピュータプログラム
CN102216941A (zh) * 2008-08-19 2011-10-12 数字标记公司 用于内容处理的方法和系统
CN108090232A (zh) * 2009-03-20 2018-05-29 高智83基金会有限责任公司 利用跨域知识的语义事件检测
CN101692125A (zh) * 2009-09-10 2010-04-07 复旦大学 基于Fisher判别零空间的高光谱遥感图像混合像元分解方法
CN103413321A (zh) * 2013-07-16 2013-11-27 南京师范大学 地理环境下的群体行为模式分析与异常行为检测方法
WO2015077493A1 (en) * 2013-11-20 2015-05-28 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
CN104615779A (zh) * 2015-02-28 2015-05-13 云南大学 一种Web文本个性化推荐方法
CN107533553A (zh) * 2015-03-24 2018-01-02 凯恩迪股份有限公司 认知存储器图形索引、存储和检索
US20180096229A1 (en) * 2016-01-26 2018-04-05 Università della Svizzera italiana System and a method for learning features on geometric domains
US9740368B1 (en) * 2016-08-10 2017-08-22 Quid, Inc. Positioning labels on graphical visualizations of graphs
CN107273926A (zh) * 2017-06-12 2017-10-20 大连海事大学 一种基于余弦相似度加权的线性判别分析降维方法
CN107392886A (zh) * 2017-06-14 2017-11-24 国网山东省电力公司菏泽供电公司 一种电力设备图像处理方法
CN108228820A (zh) * 2017-12-30 2018-06-29 厦门太迪智能科技有限公司 用户查询意图理解方法、系统及计算机终端
CN108647264A (zh) * 2018-04-28 2018-10-12 北京邮电大学 一种基于支持向量机的图像自动标注方法及装置
CN109035196A (zh) * 2018-05-22 2018-12-18 安徽大学 基于显著性的图像局部模糊检测方法
CN109189941A (zh) * 2018-09-07 2019-01-11 百度在线网络技术(北京)有限公司 用于更新模型参数的方法、装置、设备和介质
CN109543603A (zh) * 2018-11-21 2019-03-29 山东大学 一种基于宏表情知识迁移的微表情识别方法
CN110309268A (zh) * 2019-07-12 2019-10-08 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AGARWAL等: "Categorical Probability Proportion Difference (CPPD): A Feature Selection Method for Sentiment Classification", 《PROCEEDINGS OF THE 2ND WORKSHOP ON SENTIMENT ANALYSIS WHERE AI MEETS PSYCHOLOGY》, pages 17 - 36 *
侯和平: "基于多源信息的印刷机故障诊断方法的研究", 《中国博士学位论文全文数据库 工程科技I辑 》, pages 024 - 68 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936040A (zh) * 2021-10-15 2022-01-14 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法
CN113936040B (zh) * 2021-10-15 2023-09-15 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法

Also Published As

Publication number Publication date
CN110826726B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN111563502A (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN110136162B (zh) 无人机视角遥感目标跟踪方法及装置
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN118229844B (zh) 图像生成数据的处理方法、图像生成方法和装置
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN115424013A (zh) 模型的训练方法、图像处理方法和设备、介质
CN113239866B (zh) 一种时空特征融合与样本注意增强的人脸识别方法及系统
CN112884062B (zh) 一种基于cnn分类模型和生成对抗网络的运动想象分类方法及系统
CN116912924B (zh) 一种目标图像识别方法和装置
CN111783734B (zh) 原版视频识别方法及装置
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
Wang et al. Insulator defect detection based on improved you-only-look-once v4 in complex scenarios
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
Hossain et al. FAWCA: A flexible-greedy approach to find well-tuned CNN architecture for image recognition problem
Sra et al. Deepspace: Mood-based image texture generation for virtual reality from music
Viswanathan et al. Text to image translation using generative adversarial networks
CN114692715A (zh) 一种样本标注方法及装置
CN115294333B (zh) 一种图像处理方法、相关设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021409

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant