CN111695419B - 一种图像数据处理方法及相关装置 - Google Patents
一种图像数据处理方法及相关装置 Download PDFInfo
- Publication number
- CN111695419B CN111695419B CN202010365455.9A CN202010365455A CN111695419B CN 111695419 B CN111695419 B CN 111695419B CN 202010365455 A CN202010365455 A CN 202010365455A CN 111695419 B CN111695419 B CN 111695419B
- Authority
- CN
- China
- Prior art keywords
- vector
- vectors
- graph model
- target path
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 1051
- 238000000034 method Methods 0.000 claims description 111
- 230000015654 memory Effects 0.000 claims description 93
- 238000012545 processing Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000012216 screening Methods 0.000 abstract description 10
- 239000010410 layer Substances 0.000 description 132
- 230000008569 process Effects 0.000 description 46
- 238000010586 diagram Methods 0.000 description 27
- 238000012549 training Methods 0.000 description 21
- 238000010276 construction Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 12
- 238000010422 painting Methods 0.000 description 11
- 239000000306 component Substances 0.000 description 9
- 238000013515 script Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000002356 single layer Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Abstract
本申请涉及人工智能领域,公开了一种图像数据处理方法,可用于机器人进行绘本匹配,本申请在确定图模型中的最邻向量时,按照一定的方向约束进行贪婪搜索,降低了每次搜索的候选池中候选特征向量的数量。本申请提出了一种新的候选池筛选策略,基于方向约束对候选池塞入的邻居向量进行筛选,减少了无效的距离计算。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种图像数据处理方法及相关装置。
背景技术
人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
在儿童早期教育阶段,绘本是儿童认知世界的重要途径。然而,传统的纸质绘本在使用过程中,往往会遇到很多困难,例如很多家长没有足够的时间去陪孩子读绘本,以及针对于一些英文绘本,有些家长的英语发音并没有那么标准,会对孩子造成误导。为了解决这些问题,出现了诸如点读笔,点读机等产品,但这些产品都存在交互方式不友好,绘本支持数量少等问题,因此,出现了一种全新的产品——绘本阅读智能终端(包括绘本阅读手机、绘本阅读平板、绘本阅读机器人等)。
用户在进行绘本阅读时,可以将绘本放置于终端设备的摄像头的图像采集区域内,终端设备采集包括绘本的图像,并确定位于图像采集区域内的绘本对象,但是,在实际使用过程中,由于目前的绘本阅读产品需要支持上万级的绘本库,导致终端设备存在着绘本识别响应时间慢、绘本识别率低的问题。
发明内容
第一方面,本申请提供了一种图像数据处理方法,所述方法包括:
获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;
终端设备在获取到目标图像之后,可以将目标图像发送至云侧的服务器,云侧的服务器可以对目标图像的多个局部特征进行特征提取,得到多个第一特征向量。或者,终端设备在获取到目标图像之后,可以对目标图像的多个局部特征进行特征提取,得到多个第一特征向量。每个第一特征向量可以表示出各个图像的像素点的局部特征,其中,每个第一特征向量与目标图像中的一个像素点对应,多个第一特征向量中的每个第一特征向量可以表示对应的像素点的局部特征值。
获取图模型,所述图模型包括多个向量;
在一种实现中,终端设备的存储器(该存储器可以属于该终端设备或者为该终端设备的外部存储器)中可以存储有图模型,相应的,终端设备可以从存储器中获取到图模型。在一种实现中,云侧设备可以获取到图模型,如果后续的图像匹配过程由云侧设备来完成,则云侧设备可以不将该图模型发送至端侧,如果后续的图像匹配过程由端侧的终端设备来完成,则云侧设备可以将该图模型发送至端侧的终端设备。每个向量可以表示出各个图像的像素点的局部特征,其中,每个向量与预设图像中的一个像素点对应,多个向量中的每个向量可以表示对应的像素点的局部特征值,在绘本阅读的场景中,图模型可以表示与预设的各个绘本的绘本页的图像的像素点的局部特征,相应的,多个向量中的每个向量可以表示绘本的绘本页的图像的像素点的局部特征。
根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,所述目标路径由所述图模型中的多个向量组成,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的。
本申请实施例中,可以根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。多层级图模型的匹配流程可以采用从高层级图向低层级图逐层贪婪搜索的方式进行,如从顶层开始贪心遍历单层图模型,以便在某层中找到最近邻。当在该层找到局部最小值之后,再将该层中找到的最近邻作为输入点(entry point),继续在下一层中寻找最近邻,重复该过程,直至找到最底层的最近邻点。
本实施例中与现有技术不同之处在于候选池的塞入逻辑,原始的贪婪搜索会将当前检索点的所有邻居向量塞入候选池,但并不是所有邻居都对检索过程提供指向依据,因此,这种方式会造成很多无效的距离计算。本申请实施例提出了一种新的候选池筛选策略,对候选池塞入的邻居向量进行筛选,可以减少无效的距离计算。
在一种实现中,所述第一阈值小于或等于90度。
在一种实现中,所述根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,包括:根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
在一种实现中,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量之前,所述方法还包括:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
在一种实现中,所述图模型包括第一层图模型和第二层图模型,所述第一层图模型和所述第二层图模型为所述图模型中相邻的层模型,所述图模型中的多个向量包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;其中,所述第二层图模型包括所述第一向量以及所述多个第二向量,所述第一层图模型包括所述第一向量;其中,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。
本申请实施例中,基于最大局部连通度的各层级图特征筛选使得多层级图的构建过程更加的结构化,可以筛选出更具局部代表性的点,整个多层级图模型变得更加精简,避免冗余结构和重复路径,进而可以使得后续进行图像匹配时,确定的路径更优,耗时更短,精确度更高。局部联通点集合及局部连通度的定义可以有效区分各个特征向量对于匹配过程的贡献程度,由此,每个特征向量适合放于多层级图的哪一层将有一个有效地重要性依据。
在一种实现中,所述第一层图模型不包括所述多个第二向量。
在一种实现中,所述多个向量中的每个向量对应于一个目标对象,所述最邻向量对应的目标对象用于作为所述第一特征向量对应的目标对象,所述基于所述最邻向量确定所述目标图像的匹配对象,包括:
基于所述第一特征向量对应的目标对象确定所述目标图像的匹配对象。
第二方面,本申请提供了一种图模型的构建方法,所述方法包括:
获取第一层图模型,所述第一层图模型包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;
获取所述第一向量的局部连通度,以及多个第二向量中的每个第二向量的局部连通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的向量的数量;
若所述第一向量的局部连通度大于所述多个向量中的每个第二向量的局部连通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一向量且不包括所述多个第二向量。
本申请实施例中,基于最大局部连通度的各层级图特征筛选使得多层级图的构建过程更加的结构化,可以筛选出更具局部代表性的点,整个多层级图模型变得更加精简,避免冗余结构和重复路径,进而可以使得后续进行图像匹配时,确定的路径更优,耗时更短,精确度更高。局部联通点集合及局部连通度的定义可以有效区分各个特征向量对于匹配过程的贡献程度,由此,每个特征向量适合放于多层级图的哪一层将有一个有效地重要性依据。
在一种实现中,所述第一阈值为所述第一层图模型包括的向量中任意两个向量之间的相似度的平均值。
在一种实现中,所述相似度表示向量之间的距离。
第三方面,本申请提供了一种绘本识别方法,所述方法包括:
获取目标图像,所述目标图像包括目标绘本;
获取所述目标图像的多个第一特征向量,其中,所述多个第一特征向量中的每个第一特征向量为对所述目标图像中的一个像素点进行局部特征提取得到的;
获取图模型,所述图模型包括多个向量,所述多个向量中每个向量对应于一个绘本对象;
根据所述第一特征向量基于贪婪搜索从所述图模型中确定多个目标路径,所述多个目标路径中的每个目标路径与一个第一特征向量对应,所述多个目标路径中每个目标路径的终点向量用于作为对应的第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述多个目标路径中每个目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;
根据所述多个目标路径中每个目标路径的终点向量对应的绘本对象,确定所述多个第一特征向量中每个第一特征向量对应的绘本对象;
根据所述多个第一特征向量中每个第一特征向量的绘本对象确定所述目标图像对应的匹配对象。
在一种实现中,所述第一阈值小于或等于90度。
在一种实现中,所述根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,包括:
根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
在一种实现中,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量之前,所述方法还包括:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
第四方面,本申请提供了一种图模型的处理装置,所述装置包括:
获取模块,用于获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;获取图模型,所述图模型包括多个向量;
确定模块,用于基于贪婪搜索从所述图模型中确定目标路径,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的。
在一种实现中,所述第一阈值小于或等于90度。
在一种实现中,所述确定模块,具体用于根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
在一种实现中,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述确定模块还用于:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
在一种实现中,所述图模型包括第一层图模型和第二层图模型,所述第一层图模型和所述第二层图模型为所述图模型中相邻的层模型,所述图模型中的多个向量包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;
其中,所述第二层图模型包括所述第一向量以及所述多个第二向量,所述第一层图模型包括所述第一向量;其中,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。
在一种实现中,所述第一层图模型不包括所述多个第二向量。
在一种实现中,所述多个向量中的每个向量对应于一个类别,所述确定模块还用于:
确定所述目标路径的终点向量对应的类别为所述第一特征向量对应的类别。
第五方面,本申请提供了一种图模型的构建装置,所述装置包括:
获取模块,用于获取第一层图模型,所述第一层图模型包括多个第一特征向量,所述多个第一特征向量包括第一目标路径向量以及多个第二目标路径向量,所述第一目标路径向量与所述多个第二目标路径向量中的每个第二目标路径向量相邻;
获取所述第一目标路径向量的局部连通度,以及多个第二目标路径向量中的每个第二目标路径向量的局部连通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的第一特征向量的数量;
确定模块,用于若所述第一目标路径向量的局部连通度大于所述多个第二目标路径向量中的每个第二目标路径向量的局部连通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一目标路径向量且不包括所述多个第二目标路径向量。
在一种实现中所述第一阈值为所述多个第一特征向量中任意两个第一特征向量之间的相似度的平均值。
在一种实现中,所述相似度表示向量之间的距离。
第六方面,本申请提供了一种绘本识别装置,所述装置包括:
获取模块,用于获取目标图像,所述目标图像包括目标绘本;
获取所述目标图像的多个第一特征向量,其中,所述多个第一特征向量中的每个第一特征向量为对所述目标图像中的像素点进行局部特征提取得到的;
获取图模型,所述图模型包括多个向量,所述多个向量中每个向量对应于一个绘本对象;
确定模块,用于基于贪婪搜索从所述图模型中确定多个目标路径,所述多个目标路径中的每个目标路径与一个第一特征向量对应,所述多个目标路径中每个目标路径的终点向量用于作为对应的第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述多个目标路径中每个目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;
根据所述多个目标路径中每个目标路径的终点向量对应的绘本对象,确定所述多个第一特征向量中每个第一特征向量对应的绘本对象;
根据所述多个第一特征向量中每个第一特征向量的绘本对象确定所述目标图像对应的匹配对象。
在一种实现中,所述第一阈值小于或等于90度。
在一种实现中,所述确定模块,具体用于:
根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
在一种实现中,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述确定模块,具体用于:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
第七方面,本申请实施例提供了一种执行设备,可以包括存储器、处理器,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法或第三方面及其任一可选的方法。
第八方面,本申请实施例提供了一种训练设备,可以包括存储器、处理器,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第二方面及其任一可选的方法。
第九方面,本申请实施例提供了一种图像数据处理装置,可以包括存储器、处理器,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法。
第十方面,本申请实施例提供了一种图模型的构建装置,可以包括存储器、处理器以及总线系统,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第二方面及其任一可选的方法。
第十一方面,本申请实施例提供了一种绘本识别装置,可以包括存储器、处理器,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第三方面及其任一可选的方法。
第十二方面,本申请实施例提供了一种机器人,所述机器人包括存储器、处理器以及输出设备,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述第一方面及其任一可选的方法,以得到所述目标图像的匹配对象,所述输出设备用于输出与所述匹配对象相关的信息。
第十三方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法、第二方面及其任一可选的方法或第三方面及其任一可选的方法。
第十四方面,本申请实施例提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面及其任一可选的方法、第二方面及其任一可选的方法或第三方面及其任一可选的方法。
第十五方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持执行设备或训练设备实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据;或,信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存执行设备或训练设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
本申请实施例中,获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;获取图模型,所述图模型包括多个向量;根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,所述目标路径由所述图模型中的多个向量组成,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量为所述目标路径上相邻的两个向量,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第二目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;基于所述最邻向量确定所述目标图像的匹配对象。本实施例中与现有技术不同之处在于候选池的塞入逻辑,原始的贪婪搜索会将当前检索点的所有邻居向量塞入候选池,但并不是所有邻居都对检索过程提供指向依据,因此,这种方式会造成很多无效的距离计算。本申请实施例提出了一种新的候选池筛选策略,对候选池塞入的邻居向量进行筛选,可以减少无效的距离计算。
附图说明
图1为人工智能主体框架的一种结构示意图;
图2为机器人及使用环境的系统架构;
图3为本实施例中机器人的实现的产品形态示意;
图4为处理及运算模块的一种可行的实施方式;
图5为本申请实施例提供的终端设备的结构示意;
图6为基于HNSW的搜索过程示意;
图7为本申请实施例提供的一种图像数据处理方法的实施例示意;
图8为本申请实施例一种图模型的构建和应用的流程示意;
图9为一种图模型的结构示意;
图10为本申请实施例中一种图模型的结构示意;
图11为本申请实施例提供的一种图匹配的示意;
图12为本申请实施例提供的一种图模型的构建方法的实施例示意图;
图13为本申请实施例提供的一种绘本识别方法的实施例示意图;
图14为本申请实施例提供的图模型的处理装置1400的一种结构示意图;
图15为本申请实施例提供的图模型的构建装置1500的一种结构示意图;
图16为本申请实施例提供的绘本识别装置的一种结构示意图;
图17为本申请实施例提供的执行设备的一种结构示意图;
图18为本申请实施例提供的训练设备一种结构示意图;
图19为本申请实施例提供的芯片的一种结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。
下面结合附图,对本申请的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
首先对人工智能系统总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、平安城市等。
在儿童早期教育阶段,绘本是儿童认知世界的重要途径。然而,传统的纸质绘本在使用过程中,往往会遇到很多困难,例如很多家长没有足够的时间去陪孩子读绘本,以及针对于一些英文绘本,有些家长的英语发音并没有那么标准,会对孩子造成误导。为了解决这些问题,出现了诸如点读笔,点读机等产品,但这些产品都存在交互方式不友好,绘本支持数量少等问题。因此,出现了一种全新的产品——绘本阅读智能终端(包括绘本阅读手机、绘本阅读平板、绘本阅读机器人等),接下来分别进行说明。
一、产品形态为机器人。
本发明的机器人及使用环境的系统架构如图2所示。图2的使用环境下适用于任何场景(比如小区、街道、行政区,省、国家,跨国甚至全球),包括以下单元:家庭或者儿童看护机构201,包括至少一名儿童203及儿童互动机器人202,室内的至少一个无线接入网络204;儿童的家长(父母或直系亲属,其他监护人等)216以及其随身携带的智能终端205;室外无线接入网络207给智能终端205提供远程的无线网络接入服务;给儿童看护业务提供专业数据服务的儿童看护服务机构206,包括儿童成长云服务器207、儿童成长模型库208和儿童看护知识库209;还包括社会公共服务机构210,给儿童看护服务提供政府公共数据支持,包括但不限于天气预报、医疗服务机构名单、疫情信息、紧急通知等,包括社会公共服务云服务器211、社会公共服务云数据库212;还包括至少一个第三方网络云服务机构213,给儿童看护业务提供细分的专业化的网络云数据服务,比如即时通信、儿童看护业务社交应用、网上音视频服务、网络购物、付款和物流跟踪、社区和医疗机构评价和投票等,包括第三方网络服务的运服务器214、第三方网络服务云数据库215。该使用环境的系统架构还包括网络运营商提供网络服务的互联网220。
本实施例中机器人的实现的产品形态可以如图3的300所示,包括:触摸显示屏301,用于输出图形图像信息,并接收用户的触摸控制信号;
扬声器模块307用于提供声音输出信号;
麦克风阵列及传感器组302用于检测被目标对象的声音、表情、行为等特征。其中,传感器组302可以包括摄像头或其他图像获取传感器,传感器组302可以获取到机器人前方一定区域内的图像数据,例如包括绘本的图像数据。开始/暂停/紧急按钮303提供被目标对象简单的操作指令并响应紧急情况下用户的中断指令;处理及运算模块304根据麦克风阵列及传感器组302输入的用户状态信号、按钮303的用户操作指令、来自网络的被看护儿童的监护人请求信息、来自网络的儿童看护服务机构的服务指令、第三方网络云服务数据等,计算并输出儿童看护机器人的控制指令,并由儿童看护机器人输出声音、图像、图像、肢体动作以及移动等。儿童看护机器人还可以包括履带/轮式移动机械装置305、机械手臂306。
本发明一种可行的产品形态为机器人,其核心部件“处理及运算模块”304的一种可行的实施方式可以如图4所示,包括主板410和其他周边的功能部件。传感器模组401、按钮402分别与主板410的I/O模块连接,麦克风阵列403与主板410的音视频编解码模块连接,主板410的触摸显示控制器接收触摸显示屏404的触控输入并提供显示驱动信号,电机伺服控制器则根据程序指令驱动电机及编码器驱动履带/轮式移动机械装置407和机械手臂形成机器人的移动和肢体语言,声音则由音频编解码模块输出经功率放大器推动扬声器408得到。硬件系统还包括主板410上的处理器及存储器,存储器除了记录机器人的算法和执行程序及其配置文件外,也包括机器人执行看护工作时所需的音视频和图像文件等,还包括程序运行时的一些临时文件。主板410的通信模块提供机器人与外部网络的通信功能,优选近程通信如蓝牙、Wifi模块。主板410还包括电源管理模块,通过连接的电源系统405实现设备的电池充放电和节能管理。处理器是其中最为核心的器件,具有运算和处理能力,并且管理和质量其他的器件配合工作。
二、产品形态为手机等电子设备。
下面将对本申请实施例提供的电子设备100的结构进行示例说明。参见图5,图5是本申请实施例提供的电子设备的结构示意图。
如图5所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-networkprocessing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I1C)接口,集成电路内置音频(inter-integrated circuitsound,I1S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
具体的,用户在进行绘本阅读时,可以将绘本放置于终端设备的摄像头的图像采集区域内,终端设备采集包括绘本的图像,并采用局部特征匹配的方式来确定位于图像采集区域内的绘本对象。其中,数据库中预先存储大量的绘本图像模板,将终端设备的摄像头采集的图像进行局部特征检测,将局部特征与数据库中模板的局部特征一一匹配,得出匹配数最多的模板,从而确定图像对应的绘本对象。但是,在实际使用过程中,由于目前的绘本阅读产品需要支持上万级的绘本库,导致终端设备存在着绘本识别响应时间慢、绘本识别率低的问题。需要说明的是,本申请实施例中的绘本对象可以理解为绘本的名称等等,该绘本的名称可以表示该绘本具体是哪一本绘本,这里并不限定。
在一种实现方式中,可以基于分层的可导航小世界(hierarchical navigablesmall world,HNSW)的方式进行图模型搜索来确定绘本对象。参照图6,图6为基于HNSW的搜索过程示意,如图6示出的那样,其中,图模型可以包括多层图模型,对于每一层图模型,可以计算从待查询特征向量到当前顶点的邻居列表的每个顶点的距离,然后选择具有最小距离的顶点。如果待查询特征向量与所选顶点之间的距离小于待查询特征向量与当前元素之间的距离,则算法移动到所选顶点,并且它变为新的当前顶点。如此迭代此过程,当算法达到局部最小值时停止:一个顶点,其邻居列表不包含比顶点本身更接近查询的顶点。类似的,从顶层开始贪心遍历单层NSW(NSW匹配过程如上述),以便在某层A中找到最近邻。当在A层找到局部最小值之后,再将A层中找到的最近邻作为输入点(entry point),继续在下一层中寻找最近邻,重复该过程,直至找到最底层的最近邻点。该最近邻点对应的绘本对象可以作为待查询特征向量对应的绘本对象。然而,在每一层的搜索过程中,会将当前检索点的所有邻居向量(具有连接关系的特征向量)塞入候选池,然后从候选池中进行特征向量的选择,相当于要将候选池中的每一个特征向量到待查询向量之间的距离计算出来,这种方式会造成很多无效的距离计算。
为了解决上述技术问题,本申请提供了一种图像数据处理方法。
参照图7,图7为本申请实施例提供的一种图像数据处理方法的实施例示意,本申请实施例提供的一种图像数据处理方法可以应用在手机、平板、笔记本电脑、智能穿戴设备、机器人等终端设备上,如图7示出的那样,本申请实施例提供的一种图像数据处理方法包括:
701、获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的。
本申请实施例中,终端设备可以获取到目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的。
在一种实施例中,终端设备可以基于自身携带的摄像头采集一定区域内的图像数据,进而获取到目标图像,其中,目标图像为摄像头拍摄目标绘本所在的区域得到的。
在一种实施例中,终端设备可以将摄像头采集到的视频中的图像帧来作为该目标图像。需要说明的是,该视频还可以为用户通过终端设备从云端或其他电子设备获取的视频等等,本申请实施例对于该视频的来源不作限定。
在一种实施例中,终端设备可以直接将摄像头拍摄到的图像来作为该目标图像。需要说明的是,该目标图像还可以为用户通过终端设备从云端下载或直接从存储器中获取到的图像等等。
在一种实施例中,终端设备在获取到目标图像之后,可以将目标图像发送至云侧的服务器,云侧的服务器可以对目标图像进行特征提取,得到多个第一特征向量。
在一种实施例中,终端设备在获取到目标图像之后,可以对目标图像进行特征提取,得到多个第一特征向量。
其中,可以对目标图像的多个局部特征进行特征提取,得到多个第一特征向量。其中,局部特征可以指图像中的一些局部才会出现的特征,这个局部,可以指一些能够稳定出现并且具有良好的可区分性的一些点。这样在物体不完全受到遮挡的情况下,一些局部特征依然稳定存在,以代表这个物体(甚至这幅图像)。可理解,本申请实施例中,第一特征向量可以包括对于目标图像中任一像素的局部特征的特征值。其中,局部特征可包括局部二值模式(local binary patterns,LBP)局部特征或改进的局部二值模式(local binarysimilarity patterns,LBSP)局部特征。也就是说,任一像素的特征值可以包括像素的LBP的特征值和像素的LBSP的特征值中的一项或多项。其中,局部二值模式是一种用来描述图像局部纹理特征的算子,LBP特征具有灰度不变性和旋转不变性等显著优点,该局部二值模式可以将图像中的各个像素与其邻域像素进行比较,将结果保存为二进制数,并将得到的二进制比特串作为中心像素的编码值,即LBP特征值。可选的,该局部特征还可以包括图像的其他特征,如还可以包括图像sift特征,surf特征以及hog特征等等,本实施例对于该局部特征不作限定,该局部特征的特征值还可包括像素的局部特征的灰度值、像素的局部特征的平方值中的一项或多项。本实施例对于该局部特征的特征值的计算方法也不作唯一性限定。
702、获取图模型,所述图模型包括多个向量。
需要说明的是,步骤701和步骤702之间没有必然的时序先后限定,可以获取目标图像的第一特征向量,然后获取图模型,或者获取图模型,然后获取目标图像的第一特征向量等等,本申请并不限定。
本申请实施例中,步骤702的执行主体可以为终端设备或者是云侧设备,在一种实现中,终端设备的存储器(该存储器可以属于该终端设备或者为该终端设备的外部存储器)中可以存储有图模型,相应的,终端设备可以从存储器中获取到图模型。在一种实现中,云侧设备可以获取到图模型,可选的,如果后续的图像匹配过程由云侧设备来完成,则云侧设备可以不将该图模型发送至端侧,如果后续的图像匹配过程由端侧的终端设备来完成,则云侧设备可以将该图模型发送至端侧的终端设备。
首先,先对本申请实施例中的图模型进行介绍。
本申请实施例中,图模型可以为单层图模型、多层图模型或者其他类型的图模型,本实施例并不限定。
本申请实施例中,图模型可以包括多个向量,每个向量可以表示出各个图像的像素点的局部特征,其中,每个向量与预设图像中的一个像素点对应,多个向量中的每个向量可以表示对应的像素点的局部特征值,在绘本阅读的场景中,图模型可以表示与预设的各个绘本的绘本页的图像的像素点的局部特征,相应的,多个向量中的每个向量可以表示绘本的绘本页的图像的像素点的局部特征。在获取到待匹配的目标图像之后,可以基于目标图像中的像素点的局部特征(第一特征向量),遍历图模型中的多个向量,并从多个向量钟确定一个与第一特征向量最相似的向量作为第一特征向量的最近邻点,该最近邻点所对应的图像类别即为该第一特征向量对应的图像类别。
在一种实施例中,图模型中包括的多个向量中的每个向量可以与除自身之外的至少一个向量相邻。
本申请实施例中,向量之间的相邻是指,在图模型中向量之间存在通路,在后续进行特征匹配时,需要确定一条终点向量为最近邻点的路径,只有具有相邻关系的两个向量才可以成为该路径上相邻的两个向量,即,该路径上的任意相邻的两个向量之间具有上述相邻关系。具体的,可以根据但不限于导航展开图(navigating spreading-out graph,NSG)算法建立图模型,以此实现向量之间的相邻,关于如何基于NSG算法建立图模型将在后续的实施例中描述。
本申请实施例中,可以分为图模型构建阶段以及使用图模型构建阶段得到的图模型进行的图像匹配阶段。
参照图8,图8为本申请实施例一种图模型的构建和应用的流程示意,如图8中示出的那样,在图模型构建阶段,可以进行图模型的构建,进行得到构建好的图模型,其中,图模型的构建可以由云侧设备完成然后部署至端侧,也可以由端侧自己完成,本申请并不限定。在图像匹配阶段,可以基于图模型对输入图像进行匹配,进而确定输入图像所属的图像类型,以进行绘本图像匹配的使用场景为例,在图像匹配阶段,可以基于图模型对输入图像进行匹配,进而确定输入图像所属的绘本对象。
接下来首先介绍本申请实施例中图模型的构建方式。
如图8中示出的那样,在图模型构建阶段,可以从模板库中获取到多个预存的图像,例如,可以从模板库获取到预存的绘本中的绘本页的图像。例如,A绘本包括50页绘本,则绘本模板库可以包括50个绘本页中的部分或全部绘本页的图像。
需要说明的是,模板库中存储着每个绘本的绘本页的图像,这些图像并不是孤立保存的,而是和所属的绘本之间存在关联关系,具体的,模板库还可以存储有各个绘本页的图像与所属的绘本之间的关联关系。其中,建立关联关系的具体实现可以包括:将图像与对应的绘本的名称建立关联关系。
本申请实施例中,获取到模板库中的图像数据之后,可以对图像数据进行特征提取,可以得到多个向量,其中,为了和第一特征向量相匹配,特征提取的方式可以与对目标图像进行的特征提取的方式相同,相应的,每个向量与一个像素点对应,多个向量中的每个向量可以包括对应的像素点的局部特征值。本申请实施例中,每个向量与一个绘本类别对应。
本申请实施例中,图模型可以为单层图模型、多层图模型或者其他类型的图模型,本实施例并不限定。
若图模型为单层图模型,则上述多个向量可以位于同一层,若图模型为多层图模型,则上述多个向量可以位于图模型中的不同层。
以图模型为多层图模型为例,所述图模型可以包括多个向量,其中图模型中的每一层都包括一定数量的向量。在获取到多个向量之后,可以将多个向量作为第底层图模型的特征向量集合,然后依次向上建立上层的图模型,这里的“向上”可以理解为较上的图模型层是基于较下的图模型层生成的,在一种实现中,图模型中层与层之间包括的特征向量可以存在重合,较上的图模型层包括的特征向量是从相邻的较下的图模型层中选出来的。
参照图9,图9为一种图模型的结构示意,如图9中示出的那样,图模型包括第m层图模型和第m+1层图模型,其中,第m层包括多个向量,第m+1层包括多个向量,其中,第m+1层包括的多个向量是从第m层包括的多个向量中选择出来的。
在图模型中的每一层,所述多个向量中的每个向量可以与除自身之外的至少一个向量相邻。本申请实施例中,针对于每一层图模型,可以使用NSG算法建立图模型。其中,NSG算法基于不是所有的近邻点对检索效率都有同等贡献这一原则,对朴素的近邻图提出了一种剪枝策略。例如,图模型中的特征向量r、特征向量s、特征向量t、特征向量u、特征向量q是特征向量p最相似的5个邻居。在K近邻图中,它们都会与特征向量p相连。但在NSG中,优先保留距离特征向量p最近的特征向量r。对于次近邻特征向量s,我们发现边sp是三角形spr的最长边,因此特征向量s与特征向量p不连接。对于特征向量t,pt虽然是三角形spt的最长边,但由于sp没有连接,那么pt就可以连接。以此规律,我们可以将K近邻图中的较多“冗余边”去除。被去掉的边为什么都是“冗余”的呢?因为在留下边构成的这个图上,我们能证明接近的平均检索复杂度。而且这个图刚好也是保证这一属性的最小图。因为每一次迭代,都要检查当前点的所有邻居来找到离query最近的那个,因此,图的平均出度(out-degree)越低,检索越快。
接下来介绍如何从下层的图模型层中选择向量来作为相邻上层的图模型层的向量。
在一种实现中,所述图模型包括第一层图模型和第二层图模型,所述第一层图模型和所述第二层图模型为所述图模型中相邻的层模型,所述图模型中的多个向量包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;其中,所述第二层图模型包括所述第一向量以及所述多个第二向量,所述第一层图模型包括所述第一向量;其中,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。本申请实施例中,所述第一层图模型不包括所述多个第二向量。
本申请实施例中,第一层图模型和第二层图模型分别为图模型中相邻的层模型,其中,针对于第二层图模型,其包括第一向量以及多个第二向量,第一向量与所述多个第二向量中的每个第二向量相邻,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。在一种实现中,第二阈值可以是第二层图模型中包括的多个向量中任意两个向量之间的相似度的平均值,其中平均值可以是加权平均值、算术平局值、几何平均值等等,这里并不限定。其中相似度可以表示向量之间的距离。
参照图10,图10为本申请实施例中一种图模型的结构示意,如图10中示出的那样,第二层图模型包括第一向量1001以及多个第二向量1002,第一向量1001与所述多个第二向量1002中的每个第二向量1002连接,第一层图模型包括第一向量1001,而不包括多个第二向量1002。
可选的,本实施例中一种局部联通度的确定方法可以是:
对于第m层图模型上的所有向量集合Fm,其总数为n,根据一种距离求解算法(例如Dijkstra算法)求任意两个向量:Fm(i),Fm(j)之间的最短路径:D(i,j),最短路径的长度D(i,j)可以表示向量之间的距离。Dijkstra算法采用的是一种贪心的策略,声明一个数组dis来保存源点到各个顶点的最短距离和一个保存已经找到了最短路径的顶点的集合:初始时,原点s的路径权重被赋为0(dis[s]=0)。若对于顶点s存在能直接到达的边(s,m),则把dis[m]设为w(s,m),同时把所有其他(s不能直接到达的)顶点的路径长度设为无穷大。初始时,集合T只有顶点s。然后,从dis数组选择最小值,则该值就是源点s到该值对应的顶点的最短路径,并且把该点加入到T中,此时完成一个顶点,然后,我们需要看看新加入的顶点是否可以到达其他顶点并且看看通过该顶点到达其他点的路径长度是否比源点直接到达短,如果是,那么就替换这些顶点在dis中的值。然后,又从dis中找出最小值,重复上述动作,直到T中包含了图的所有顶点。
接下来,可以求解第m层图模型上的所有向量Fm的平均最短路径为:
其中,D(i,j)可以表示当前层任意两个向量Fm(i),Fm(j)之间的最短路径(或者表述为任意两个向量Fm(i),Fm(j)之间的距离),n表示当前层包括的向量的数量。特征向量Fm(i)的局部联通点集合P(i)可以定义为和向量相邻且相似度小于第一阈值的第一特征向量的集合:{Fm(j)∈P(i)|D(i,j)<AD,j=1,2,3,...,n&&j!=i};
其中,Fm(j)表示向量Fm(i)具有连接关系的向量Fm(j),P(i)表示向量Fm(i)的局部联通点集合,特征向量Fm(i)的局部联通度定义为:C(i)=sizeof(P(i));
其中,C(i)表示点向量Fm(i)的局部连通度;sizeof表示集合中包括的元素的数量;即,本实施例中局部联通度可以表示和向量相邻且相似度小于平均最短路径(第二阈值)的向量的数量。
本实施例中,判断向量Fm(i)是否属于第m+1层图模型(即上层相邻图模型的)包括的特征向量集合Fm+1的条件为:{Fm(i)∈Fm+1|C(i)>max(C(P(i)))};其中,max(C(P(i))表示向量Fm(i)的局部联通点集合中所有向量的局部连通度最大值。
针对于多层级的图模型,在后续进行图像匹配的阶段,可以采用逐级搜索的策略,进而有效地缩短匹配时的搜索路径,加快匹配速度,在现有技术中,已有的多层级图模型如HNSW,在图模型的构建阶段,上层的图模型层是对相邻下层的图模型层采用指数衰变概率分布函数来随机选取的,这就造成图模型构建过程存在很大的随机性,可能会出现冗余结构以及重复路径,因此,图模型的构建过程需要更加的结构化,低层向高层的特征向量筛选需要筛选出更具局部代表性的点,整个多层级图模型需要更加精简,避免冗余结构和重复路径。
本申请实施例中,基于最大局部连通度的各层级图特征筛选使得多层级图的构建过程更加的结构化,可以筛选出更具局部代表性的点,整个多层级图模型变得更加精简,避免冗余结构和重复路径,进而可以使得后续进行图像匹配时,确定的路径更优,耗时更短,精确度更高。局部联通点集合及局部连通度的定义可以有效区分各个特征向量对于匹配过程的贡献程度,由此,每个特征向量适合放于多层级图的哪一层将有一个有效地重要性依据。
703、基于贪婪搜索从所述图模型中确定目标路径,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的。
接下来介绍本申请实施例中图像匹配方式。
如图8中示出的那样,在图像匹配阶段,图匹配模块可以基于获取到的图模型,对输入图像(目标图像)进行图匹配。具体的,在获取到第一特征向量和图模型之后,需要在图模型中遍历各个向量来确定第一特征向量的最近邻点,以此实现图匹配。具体的,可以基于贪婪搜索从所述图模型中确定目标路径,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量。
本申请实施例中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的。其中,所述第一阈值小于或等于90度。
本申请实施例中,可以根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。多层级图模型的匹配流程可以采用从高层级图向低层级图逐层贪婪搜索的方式进行,如从顶层开始贪心遍历单层图模型,以便在某层中找到最近邻。当在该层找到局部最小值之后,再将该层中找到的最近邻作为输入点(entry point),继续在下一层中寻找最近邻,重复该过程,直至找到最底层的最近邻点。
本实施例中与现有技术不同之处在于候选池的塞入逻辑,原始的贪婪搜索会将当前检索点的所有邻居向量塞入候选池,但并不是所有邻居都对检索过程提供指向依据,因此,这种方式会造成很多无效的距离计算。本申请实施例提出了一种新的候选池筛选策略,对候选池塞入的邻居向量进行筛选,可以减少无效的距离计算。
具体的,参照图11,图11为本申请实施例提供的一种图匹配的示意,如图11中示出的那样,在一层图模型中,目标路径包括向量1106以及第一目标路径向量1101,此时,与第一目标路径向量1101相连的向量包括多个特征向量1105、第二目标路径向量1102以及多个特征向量1103,其中,所述第一目标路径向量1101指向所述M个向量中的每个向量(包括图11中的第二目标路径向量1102以及多个特征向量1103)的方向为第一方向,所述第一目标路径向量1101指向所述第一特征向量1104的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,其中,所述第一阈值小于或等于90度。而,所述第一目标路径向量1101指向多个特征向量1105的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于第一阈值。
此时,可以将第二目标路径向量1102以及多个特征向量1103作为目标路径确定过程中,与第一目标路径向量相邻的下一个特征向量的候选特征向量,并从上述候选特征向量中选择与第一目标路径向量相邻的下一个特征向量。如图11中示出的那样,由于第二目标路径向量1102以及多个特征向量1103,第二目标路径向量1102距离第一特征向量1104的距离更近,因此,确定第二目标路径向量1102为目标路径中与第一目标路径向量相邻的下一个特征向量。即所述第二目标路径向量为从所述M个向量中确定的。
以下为供参考的图匹配过程的伪代码参考:
输入:多层级图模型M-G(M为层级数),匹配开始点p-(M-1),query特征向量q,侯选池大小l;
输出:q的k个最近邻;
匹配流程:
其中,对于搜索点q,对于当前检索点Pt,原始的匹配策略会将其所有邻居Pn塞入候选池S,之后会继续塞入Pn的所有邻居如此迭代此过程。但实际上并不是所有Pn都是有效的,当Pni与q相对于Pt的向量同向时,则说明Pni处于q的搜索方向上,其对寻找到最近邻点事有帮助的。因此,其相互之间距离的计算是有效的。否则,当Pni与q相对于Pt的向量不同向时,则这些点与当前搜索方向是不同向的,其并不能对寻找到最近邻提供帮助,其相互之间的距离计算是无意义的,所以,没有必要塞入候选池。
具体的,可以通过以下方式判断是否将当前检索点Pt的邻居Pni塞入候选池S,q为搜索点:
θ=acos((q-Pt)·(Pni-Pt)/||q-Pt||||Pni-Pt||)
其中,Θ表示邻居向量Pni相对于Pt的向量与检索点q相对于Pt的向量之间的夹角,f()表示候选池筛选结果。
704、基于所述最邻向量确定所述目标图像的匹配对象。
本申请实施例中,可以确定目标图像中的多个第一特征向量,并根据所述多个第一特征向量中每个第一特征向量的绘本对象确定所述目标图像对应的匹配对象,具体的,可以基于投票或其他现有的方式确定目标图像对应的匹配对象。
本申请实施例中,获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;获取图模型,所述图模型包括多个向量;基于贪婪搜索从所述图模型中确定目标路径,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量;其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的。本实施例中与现有技术不同之处在于候选池的塞入逻辑,原始的贪婪搜索会将当前检索点的所有邻居向量塞入候选池,但并不是所有邻居都对检索过程提供指向依据,因此,这种方式会造成很多无效的距离计算。本申请实施例提出了一种新的候选池筛选策略,对候选池塞入的邻居向量进行筛选,可以减少无效的距离计算。
参照图12,图12为本申请实施例提供的一种图模型的构建方法的实施例示意图,如图12中示出的那样,本申请实施例提供的图模型的构建方法包括:
1201、获取第一层图模型,所述第一层图模型包括多个第一特征向量,所述多个第一特征向量包括第一目标路径向量以及多个第二目标路径向量,所述第一目标路径向量与所述多个第二目标路径向量中的每个第二目标路径向量相邻。
在图模型构建阶段,可以从模板库中获取到多个预存的图像,例如,可以从模板库获取到预存的绘本中的绘本页的图像。例如,A绘本包括50页绘本,则绘本模板库可以包括50个绘本页中的部分或全部绘本页的图像。
需要说明的是,模板库中存储着每个绘本的绘本页的图像,这些图像并不是孤立保存的,而是和所属的绘本之间存在关联关系,具体的,模板库还可以存储有各个绘本页的图像与所属的绘本之间的关联关系。其中,建立关联关系的具体实现可以包括:将图像与对应的绘本的名称建立关联关系。
本申请实施例中,获取到模板库中的图像数据之后,可以对图像数据进行特征提取,可以得到多个向量,其中,为了和第一特征向量相匹配,特征提取的方式可以与对目标图像进行的特征提取的方式相同,相应的,每个向量与一个像素点对应,多个向量中的每个向量可以包括对应的像素点的局部特征值。本申请实施例中,每个向量与一个绘本类别对应。
步骤1201的具体描述可以参照上述实施例中步骤701的描述,这里不再赘述。
1202、获取所述第一目标路径向量的局部连通度,以及多个第二目标路径向量中的每个第二目标路径向量的局部连通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的第一特征向量的数量;
步骤1202的具体描述可以参照上述实施例中与局部连通度相关内容的描述,这里不再赘述。
1203、若所述第一目标路径向量的局部连通度大于所述多个第二目标路径向量中的每个第二目标路径向量的局部连通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一目标路径向量且不包括所述多个第二目标路径向量。
可选的,本实施例中一种局部联通度的确定方法可以是:
对于第m层图模型上的所有向量集合Fm,其总数为n,根据一种距离求解算法(例如Dijkstra算法)求任意两个向量:Fm(i),Fm(j)之间的最短路径:D(i,j),最短路径的长度D(i,j)可以表示向量之间的距离。Dijkstra算法采用的是一种贪心的策略,声明一个数组dis来保存源点到各个顶点的最短距离和一个保存已经找到了最短路径的顶点的集合:初始时,原点s的路径权重被赋为0(dis[s]=0)。若对于顶点s存在能直接到达的边(s,m),则把dis[m]设为w(s,m),同时把所有其他(s不能直接到达的)顶点的路径长度设为无穷大。初始时,集合T只有顶点s。然后,从dis数组选择最小值,则该值就是源点s到该值对应的顶点的最短路径,并且把该点加入到T中,此时完成一个顶点,然后,我们需要看看新加入的顶点是否可以到达其他顶点并且看看通过该顶点到达其他点的路径长度是否比源点直接到达短,如果是,那么就替换这些顶点在dis中的值。然后,又从dis中找出最小值,重复上述动作,直到T中包含了图的所有顶点
接下来,可以求解第m层图模型上的所有向量Fm的平均最短路径为:
其中,D(i,j)可以表示当前层任意两个向量Fm(i),Fm(j)之间的最短路径(或者表述为任意两个向量Fm(i),Fm(j)之间的距离),n表示当前层包括的向量的数量。特征向量Fm(i)的局部联通点集合P(i)可以定义为和向量相邻且相似度小于第一阈值的第一特征向量的集合:{Fm(j)∈P(i)|D(i,j)<AD,j=1,2,3,...,n&&j!=i};
其中,Fm(j)表示向量Fm(i)具有连接关系的向量Fm(j),P(i)表示向量Fm(i)的局部联通点集合,特征向量Fm(i)的局部联通度定义为:C(i)=sizeof(P(i));
其中,C(i)表示点向量Fm(i)的局部连通度;sizeof表示集合中包括的元素的数量;即,本实施例中局部联通度可以表示和向量相邻且相似度小于平均最短路径(第二阈值)的向量的数量。
本实施例中,判断向量Fm(i)是否属于第m+1层图模型(即上层相邻图模型的)包括的特征向量集合Fm+1的条件为:{Fm(i)∈Fm+1|C(i)>max(C(P(i)))};其中,max(C(P(i))表示向量Fm(i)的局部联通点集合中所有向量的局部连通度最大值。
针对于多层级的图模型,在后续进行图像匹配的阶段,可以采用逐级搜索的策略,进而有效地缩短匹配时的搜索路径,加快匹配速度,在现有技术中,已有的多层级图模型如HNSW,在图模型的构建阶段,上层的图模型层是对相邻下层的图模型层采用指数衰变概率分布函数来随机选取的,这就造成图模型构建过程存在很大的随机性,可能会出现冗余结构以及重复路径,因此,图模型的构建过程需要更加的结构化,低层向高层的特征向量筛选需要筛选出更具局部代表性的点,整个多层级图模型需要更加精简,避免冗余结构和重复路径。
本申请实施例中,基于最大局部连通度的各层级图特征筛选使得多层级图的构建过程更加的结构化,可以筛选出更具局部代表性的点,整个多层级图模型变得更加精简,避免冗余结构和重复路径,进而可以使得后续进行图像匹配时,确定的路径更优,耗时更短,精确度更高。局部联通点集合及局部连通度的定义可以有效区分各个特征向量对于匹配过程的贡献程度,由此,每个特征向量适合放于多层级图的哪一层将有一个有效地重要性依据。
步骤1203的具体描述可以参照上述实施例中与图模型构建相关内容的描述,这里不再赘述。
在图模型构建阶段,可以进行图模型的构建,进行得到构建好的图模型,其中,图模型的构建可以由云侧设备完成然后部署至端侧,也可以由端侧自己完成,本申请并不限定。在图像匹配阶段,可以基于图模型对输入图像进行匹配,进而确定输入图像所属的图像类型,以进行绘本图像匹配的使用场景为例,在图像匹配阶段,可以基于图模型对输入图像进行匹配,进而确定输入图像所属的绘本对象。
可选地所述第一阈值为所述多个第一特征向量中任意两个第一特征向量之间的相似度的平均值。
可选地,所述相似度表示向量之间的距离。
本申请实施例提供了一种图模型的构建方法,包括:获取第一层图模型,所述第一层图模型包括多个第一特征向量,所述多个第一特征向量包括第一目标路径向量以及多个第二目标路径向量,所述第一目标路径向量与所述多个第二目标路径向量中的每个第二目标路径向量相邻;获取所述第一目标路径向量的局部连通度,以及多个第二目标路径向量中的每个第二目标路径向量的局部连通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的第一特征向量的数量;若所述第一目标路径向量的局部连通度大于所述多个第二目标路径向量中的每个第二目标路径向量的局部连通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一目标路径向量且不包括所述多个第二目标路径向量。局部联通点集合及局部连通度的定义可以有效区分各个特征向量对于匹配过程的贡献程度,由此,每个特征向量适合放于多层级图的哪一层将有一个有效地重要性依据。
参照图13,图13为本申请实施例提供的一种绘本识别方法的实施例示意图,如图13中示出的那样,所述绘本识别方法包括:
1301、获取目标图像,所述目标图像包括目标绘本。
在一种实施例中,终端设备可以基于自身携带的摄像头采集一定区域内的图像数据,进而获取到目标图像,其中,目标图像为摄像头拍摄目标绘本所在的区域得到的。
在一种实施例中,终端设备可以将摄像头采集到的视频中的图像帧来作为该目标图像。需要说明的是,该视频还可以为用户通过终端设备从云端或其他电子设备获取的视频等等,本申请实施例对于该视频的来源不作限定。
在一种实施例中,终端设备可以直接将摄像头拍摄到的图像来作为该目标图像。需要说明的是,该目标图像还可以为用户通过终端设备从云端下载或直接从存储器中获取到的图像等等。
1302、获取所述目标图像的多个第一特征向量,其中,所述多个第一特征向量中的每个第一特征向量为对所述目标图像中的像素点进行局部特征提取得到的。
在一种实施例中,终端设备在获取到目标图像之后,可以将目标图像发送至云侧的服务器,云侧的服务器可以对目标图像进行特征提取,得到多个第一特征向量。
在一种实施例中,终端设备在获取到目标图像之后,可以对目标图像进行特征提取,得到多个第一特征向量。可以对目标图像进行局部特征提取,得到多个第一特征向量,第一特征向量可以是目标图像的局部特征。其中,局部特征可以指图像中的一些局部才会出现的特征,这个局部,可以指一些能够稳定出现并且具有良好的可区分性的一些点。这样在物体不完全受到遮挡的情况下,一些局部特征依然稳定存在,以代表这个物体(甚至这幅图像)。可理解,本申请实施例中,第一特征向量可以包括对于目标图像中任一像素的局部特征的特征值。其中,局部特征可包括局部二值模式(local binary patterns,LBP)局部特征或改进的局部二值模式(local binary similarity patterns,LBSP)局部特征。也就是说,任一像素的特征值可以包括像素的LBP的特征值和像素的LBSP的特征值中的一项或多项。其中,局部二值模式是一种用来描述图像局部纹理特征的算子,LBP特征具有灰度不变性和旋转不变性等显著优点,该局部二值模式可以将图像中的各个像素与其邻域像素进行比较,将结果保存为二进制数,并将得到的二进制比特串作为中心像素的编码值,即LBP特征值。可选的,该局部特征还可以包括图像的其他特征,如还可以包括图像sift特征,surf特征以及hog特征等等,本实施例对于该局部特征不作限定,该局部特征的特征值还可包括像素的局部特征的灰度值、像素的局部特征的平方值中的一项或多项。本实施例对于该局部特征的特征值的计算方法也不作唯一性限定。
1303、获取图模型,所述图模型包括多个向量,所述多个向量中每个向量对应于一个绘本对象。
本申请实施例中,图模型可以包括多个向量,每个向量可以表示出各个图像的像素点的局部特征,其中,每个向量与预设图像中的一个像素点对应,多个向量中的每个向量可以表示对应的像素点的局部特征值,在绘本阅读的场景中,图模型可以表示与预设的各个绘本的绘本页的图像的像素点的局部特征,相应的,多个向量中的每个向量可以表示绘本的绘本页的图像的像素点的局部特征。在获取到待匹配的目标图像之后,可以基于目标图像中的像素点的局部特征(第一特征向量),遍历图模型中的多个向量,并从多个向量钟确定一个与第一特征向量最相似的向量作为第一特征向量的最近邻点,该最近邻点所对应的图像类别即为该第一特征向量对应的图像类别。
1304、基于贪婪搜索从所述图模型中确定多个目标路径,所述多个目标路径中的每个目标路径与一个第一特征向量对应,所述多个目标路径中每个目标路径的终点向量用于作为对应的第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述多个目标路径中每个目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的。
步骤1304的具体描述可以参照上述实施例中步骤704的描述,这里不再赘述。
1305、根据所述多个目标路径中每个目标路径的终点向量对应的绘本对象,确定所述多个第一特征向量中每个第一特征向量对应的绘本对象。
本申请实施例中,根据所述多个目标路径中每个目标路径的终点向量对应的绘本对象,可以确定所述多个第一特征向量中每个第一特征向量对应的绘本对象。
1306、根据所述多个第一特征向量中每个第一特征向量的绘本对象确定所述目标图像对应的匹配对象。
本申请实施例中,根据所述多个第一特征向量中每个第一特征向量的绘本对象确定所述目标图像对应的匹配对象,具体的,可以基于投票或其他现有的方式确定目标图像对应的匹配对象。
可选地,所述第一阈值小于或等于90度。
可选地,所述根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,包括:
根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
可选地,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量之前,所述方法还包括:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
在图1至图13所对应的实施例的基础上,为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图14,图14为本申请实施例提供的图模型的处理装置1400的一种结构示意图,图模型的处理装置1400可以是终端设备或服务器,图模型的处理装置1400包括:
获取模块1401,用于获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;获取图模型,所述图模型包括多个向量;
确定模块1402,用于基于贪婪搜索从所述图模型中确定目标路径,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;基于所述最邻向量确定所述目标图像的匹配对象。
可选地,所述第一阈值小于或等于90度。
可选地,所述确定模块1402,具体用于根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
可选地,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述确定模块1402还用于:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
可选地,所述图模型包括第一层图模型和第二层图模型,所述第一层图模型和所述第二层图模型为所述图模型中相邻的层模型,所述图模型中的多个向量包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;其中,所述第二层图模型包括所述第一向量以及所述多个第二向量,所述第一层图模型包括所述第一向量;其中,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。
可选地,所述第一层图模型不包括所述多个第二向量。
可选地,所述多个向量中的每个向量对应于一个类别,所述确定模块1402还用于:
确定所述目标路径的终点向量对应的类别为所述第一特征向量对应的类别。
参阅图15,图15为本申请实施例提供的图模型的构建装置1500的一种结构示意图,图模型的构建装置1500可以是终端设备或服务器,图模型的构建装置1500包括:
获取模块1501,用于获取第一层图模型,所述第一层图模型包括多个第一特征向量,所述多个第一特征向量包括第一目标路径向量以及多个第二目标路径向量,所述第一目标路径向量与所述多个第二目标路径向量中的每个第二目标路径向量相邻;
获取所述第一目标路径向量的局部连通度,以及多个第二目标路径向量中的每个第二目标路径向量的局部连通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的第一特征向量的数量;
确定模块1502,用于若所述第一目标路径向量的局部连通度大于所述多个第二目标路径向量中的每个第二目标路径向量的局部连通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一目标路径向量且不包括所述多个第二目标路径向量。
可选地,所述第一阈值为所述多个第一特征向量中任意两个第一特征向量之间的相似度的平均值。
可选地,所述相似度表示向量之间的距离。
参阅图16,图16为本申请实施例提供的绘本识别装置的一种结构示意图,一种绘本识别装置1600,绘本识别装置1600包括:
获取模块1601,用于获取目标图像,所述目标图像包括目标绘本;
获取所述目标图像的多个第一特征向量,其中,所述多个第一特征向量中的每个第一特征向量为对所述目标图像中的像素点进行局部特征提取得到的;
获取图模型,所述图模型包括多个向量,所述多个向量中每个向量对应于一个绘本对象;
确定模块1602,用于基于贪婪搜索从所述图模型中确定多个目标路径,所述多个目标路径中的每个目标路径与一个第一特征向量对应,所述多个目标路径中每个目标路径的终点向量用于作为对应的第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述多个目标路径中每个目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量相邻,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第一目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;
根据所述多个目标路径中每个目标路径的终点向量对应的绘本对象,确定所述多个第一特征向量中每个第一特征向量对应的绘本对象;
根据所述多个第一特征向量中每个第一特征向量的绘本对象确定所述目标图像对应的匹配对象。
可选地,所述第一阈值小于或等于90度。
可选地,所述确定模块,具体用于:
根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
可选地,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述确定模块,具体用于:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,所述第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
接下来介绍本申请实施例提供的一种执行设备,请参阅图17,图17为本申请实施例提供的执行设备的一种结构示意图,执行设备1700具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或服务器等,此处不做限定。具体的,执行设备1700包括:接收器1701、发射器1702、处理器1703和存储器1704(其中执行设备1700中的处理器1703的数量可以一个或多个,图17中以一个处理器为例),其中,处理器1703可以包括应用处理器17031和通信处理器17032。在本申请的一些实施例中,接收器1701、发射器1702、处理器1703和存储器1704可通过总线或其它方式连接。
存储器1704可以包括只读存储器和随机存取存储器,并向处理器1703提供指令和数据。存储器1704的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器1704存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器1703控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器1703中,或者由处理器1703实现。处理器1703可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1703可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1703可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1704,处理器1703读取存储器1704中的信息,结合其硬件完成上述方法的步骤。
接收器1701可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1702可用于通过第一接口输出数字或字符信息;发射器1702还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器1702还可以包括显示屏等显示设备。
本申请实施例中,在一种情况下,处理器1703,用于执行图7、图11和图13对应实施例中的数据处理方法。
本申请实施例还提供了一种训练设备,请参阅图18,图18是本申请实施例提供的训练设备一种结构示意图,训练设备1800上可以部署有图15对应实施例中所描述的图模型的构建装置,用于实现图15对应实施例中图模型的构建装置的功能,具体的,训练设备1800由一个或多个服务器实现,训练设备1800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1818(例如,一个或一个以上处理器)和存储器1832,一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中,存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1818可以设置为与存储介质1830通信,在训练设备1800上执行存储介质1830中的一系列指令操作。
训练设备1800还可以包括一个或一个以上电源1826,一个或一个以上有线或无线网络接口1850,一个或一个以上输入输出接口1858;或,一个或一个以上操作系统1841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本申请实施例中,中央处理器1818,用于执行图18对应实施例中的数据处理装置执行的数据处理方法。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的数据处理方法,或者,以使训练设备内的芯片执行上述实施例描述的数据处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图19,图19为本申请实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器NPU 1900,NPU 1900作为协处理器挂载到主CPU(HostCPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1903,通过控制器1904控制运算电路1903提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1903内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1903是二维脉动阵列。运算电路1903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1903是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1902中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1901中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1908中。
统一存储器1906用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller,DMAC)1905,DMAC被搬运到权重存储器1902中。输入数据也通过DMAC被搬运到统一存储器1906中。
BIU为Bus Interface Unit即,总线接口单元1910,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1909的交互。
总线接口单元1910(Bus Interface Unit,简称BIU),用于取指存储器1909从外部存储器获取指令,还用于存储单元访问控制器1905从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1906或将权重数据搬运到权重存储器1902中或将输入数据数据搬运到输入存储器1901中。
向量计算单元1907包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1907能将经处理的输出的向量存储到统一存储器1906。例如,向量计算单元1907可以将线性函数;或,非线性函数应用到运算电路1903的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1907生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1903的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1904连接的取指存储器(instruction fetch buffer)1909,用于存储控制器1904使用的指令;
统一存储器1906,输入存储器1901,权重存储器1902以及取指存储器1909均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (22)
1.一种图像数据处理方法,其特征在于,所述方法包括:
获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;
获取图模型,所述图模型包括多个向量;
根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,所述目标路径由所述图模型中的多个向量组成,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量为所述目标路径上相邻的两个向量,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第二目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;
基于所述最邻向量确定所述目标图像的匹配对象。
2.根据权利要求1所述的方法,其特征在于,所述第一阈值小于或等于90度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,包括:
根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
4.根据权利要求3所述的方法,其特征在于,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量之前,所述方法还包括:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
5.根据权利要求1所述的方法,其特征在于,所述图模型包括第一层图模型和第二层图模型,所述第一层图模型和所述第二层图模型为所述图模型中相邻的层模型,所述图模型中的多个向量包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;
其中,所述第二层图模型包括所述第一向量以及所述多个第二向量,所述第一层图模型包括所述第一向量;其中,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。
6.根据权利要求5所述的方法,其特征在于,所述第一层图模型不包括所述多个第二向量。
7.根据权利要求1所述的方法,其特征在于,所述多个向量中的每个向量对应于一个目标对象,所述最邻向量对应的目标对象用于作为所述第一特征向量对应的目标对象,所述基于所述最邻向量确定所述目标图像的匹配对象,包括:
基于所述第一特征向量对应的目标对象确定所述目标图像的匹配对象。
8.根据权利要求1所述的方法,其特征在于,所述图模型包括第一层图模型和第二层图模型,所述获取图模型,包括:获取第一层图模型,所述第一层图模型包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;
获取所述第一向量的局部联通度,以及多个第二向量中的每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的向量的数量;
若所述第一向量的局部联通度大于所述多个向量中的每个第二向量的局部联通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一向量且不包括所述多个第二向量。
9.根据权利要求8所述的方法,其特征在于,所述第一阈值为所述第一层图模型包括的向量中任意两个向量之间的相似度的平均值。
10.根据权利要求8或9所述的方法,其特征在于,所述相似度表示向量之间的距离。
11.一种图模型的处理装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像的第一特征向量,所述第一特征向量为对所述目标图像的局部特征进行特征提取得到的;获取图模型,所述图模型包括多个向量;
确定模块,用于根据所述第一特征向量基于贪婪搜索在所述图模型中确定目标路径,所述目标路径由所述图模型中的多个向量组成,所述目标路径的终点向量用于作为所述第一特征向量在所述图模型中的最邻向量,所述目标路径的终点向量为所述目标路径所包括的向量中与所述第一特征向量距离最近的向量;
其中,所述目标路径包括第一目标路径向量和第二目标路径向量,所述第一目标路径向量与第二目标路径向量为所述目标路径上相邻的两个向量,且所述第二目标路径向量在所述目标路径上比所述第一目标路径向量更接近于所述目标路径的终点向量,所述第一目标路径向量与所述图模型中的M个向量相邻,所述第一目标路径向量指向所述M个向量中的每个向量的方向为第一方向,所述第二目标路径向量指向所述第一特征向量的方向为第二方向,所述第一方向与所述第二方向之间的夹角小于第一阈值,所述第二目标路径向量为从所述M个向量中确定的;基于所述最邻向量确定所述目标图像的匹配对象。
12.根据权利要求11所述的装置,其特征在于,所述第一阈值小于或等于90度。
13.根据权利要求11所述的装置,其特征在于,所述确定模块,具体用于根据所述第一特征向量从所述M个向量中确定一个向量作为所述第二目标路径向量。
14.根据权利要求13所述的装置,其特征在于,所述图模型包括N个向量,所述第一目标路径向量与所述N个向量中的每个向量相邻,所述N为大于M的正整数,所述确定模块还用于:
从所述N个向量中确定所述M个向量,其中,所述N个向量包括第三目标路径向量,所述M个向量不包括所述第三目标路径向量,所述第一目标路径向量指向所述第三目标路径向量的向量为第三向量,第一向量与所述第三向量之间的夹角大于或等于所述第一阈值。
15.根据权利要求11所述的装置,其特征在于,所述图模型包括第一层图模型和第二层图模型,所述第一层图模型和所述第二层图模型为所述图模型中相邻的层模型,所述图模型中的多个向量包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;
其中,所述第二层图模型包括所述第一向量以及所述多个第二向量,所述第一层图模型包括所述第一向量;其中,所述第一向量的局部联通度大于所述多个第二向量中每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第二阈值的向量的数量。
16.根据权利要求15所述的装置,其特征在于,所述第一层图模型不包括所述多个第二向量。
17.根据权利要求11所述的装置,其特征在于,所述多个向量中的每个向量对应于一个目标对象,所述最邻向量对应的目标对象用于作为所述第一特征向量对应的目标对象,所述确定模块具体用于:
基于所述第一特征向量对应的目标对象确定所述目标图像的匹配对象。
18.根据权利要求11所述的装置,其特征在于,所述图模型包括第一层图模型和第二层图模型,所述获取模块,用于:获取第一层图模型,所述第一层图模型包括第一向量以及多个第二向量,所述第一向量与所述多个第二向量中的每个第二向量相邻;
获取所述第一向量的局部联通度,以及多个第二向量中的每个第二向量的局部联通度,所述局部联通度表示和向量相邻且相似度小于第一阈值的向量的数量;
确定模块,用于若所述第一向量的局部联通度大于所述多个向量中的每个第二向量的局部联通度,则确定第二层图模型,其中,所述第二层图模型与所述第一层图模型相邻,所述第二层图模型包括所述第一向量且不包括所述多个第二向量。
19.根据权利要求18所述的装置,其特征在于,所述第一阈值为所述第一层图模型包括的向量中任意两个向量之间的相似度的平均值。
20.根据权利要求18或19所述的装置,其特征在于,所述相似度表示向量之间的距离。
21.一种绘本识别装置,其特征在于,所述装置包括存储器以及处理器,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述权利要求1至10任一所述的方法。
22.一种机器人,其特征在于,所述机器人包括存储器、处理器以及输出设备,其中,存储器用于存储程序,处理器用于执行存储器中的程序,以执行如上述权利要求1至7任一所述的方法,以得到所述目标图像的匹配对象,所述输出设备用于输出与所述匹配对象相关的信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365455.9A CN111695419B (zh) | 2020-04-30 | 一种图像数据处理方法及相关装置 | |
PCT/CN2021/088579 WO2021218725A1 (zh) | 2020-04-30 | 2021-04-21 | 一种图像数据处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365455.9A CN111695419B (zh) | 2020-04-30 | 一种图像数据处理方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695419A CN111695419A (zh) | 2020-09-22 |
CN111695419B true CN111695419B (zh) | 2024-06-28 |
Family
ID=
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008620A (zh) * | 2020-03-05 | 2020-04-14 | 支付宝(杭州)信息技术有限公司 | 目标用户识别方法、装置及存储介质、电子设备 |
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008620A (zh) * | 2020-03-05 | 2020-04-14 | 支付宝(杭州)信息技术有限公司 | 目标用户识别方法、装置及存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
《Heterogeneous Graph Propagation for Large-Scale Web Image Search》.《IEEE Transactions on Image Processing》.2015,第24卷(第11期),全文. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
US20210012198A1 (en) | Method for training deep neural network and apparatus | |
CN112183577A (zh) | 一种半监督学习模型的训练方法、图像处理方法及设备 | |
WO2020182121A1 (zh) | 表情识别方法及相关装置 | |
CN111401406B (zh) | 一种神经网络训练方法、视频帧处理方法以及相关设备 | |
CN113065636B (zh) | 一种卷积神经网络的剪枝处理方法、数据处理方法及设备 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
CN111414915B (zh) | 一种文字识别方法以及相关设备 | |
CN111695596A (zh) | 一种用于图像处理的神经网络以及相关设备 | |
CN111738403B (zh) | 一种神经网络的优化方法及相关设备 | |
CN111813532A (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
CN111243668A (zh) | 分子结合位点检测方法、装置、电子设备及存储介质 | |
WO2022111387A1 (zh) | 一种数据处理方法及相关装置 | |
CN115512005A (zh) | 一种数据处理方法及其装置 | |
CN113516227A (zh) | 一种基于联邦学习的神经网络训练方法及设备 | |
CN113361549A (zh) | 一种模型更新方法以及相关装置 | |
CN111797870A (zh) | 算法模型的优化方法、装置、存储介质及电子设备 | |
CN115131604A (zh) | 一种多标签图像分类方法、装置、电子设备及存储介质 | |
CN116861850A (zh) | 一种数据处理方法及其装置 | |
CN111753498A (zh) | 文本处理方法、装置、设备及存储介质 | |
WO2024046473A1 (zh) | 一种数据处理方法及其装置 | |
CN113627421A (zh) | 一种图像处理方法、模型的训练方法以及相关设备 | |
WO2024017282A1 (zh) | 一种数据处理方法及其装置 | |
CN116883715A (zh) | 一种数据处理方法及其装置 | |
CN111695419B (zh) | 一种图像数据处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |