CN106126579B - 物体识别方法和装置、数据处理装置和终端设备 - Google Patents
物体识别方法和装置、数据处理装置和终端设备 Download PDFInfo
- Publication number
- CN106126579B CN106126579B CN201610440636.7A CN201610440636A CN106126579B CN 106126579 B CN106126579 B CN 106126579B CN 201610440636 A CN201610440636 A CN 201610440636A CN 106126579 B CN106126579 B CN 106126579B
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural network
- network
- style
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Abstract
本发明实施例公开了一种物体识别方法和装置、数据处理装置和终端设备,其中,方法包括:接收图像;对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述位置信息包括位置坐标和可见性状态;从图像中提取所述物体的全局特征,并分别从各关键点的位置处提取所述物体的局部特征;结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果。本发明实施例可以提高物体的识别效果。
Description
技术领域
本发明涉及互联网技术,尤其是一种物体识别方法和装置、数据处理装置和终端设备。
背景技术
服饰识别是图像检索领域最重要也是最有挑战性的问题之一。在当今互联网上,80%的用户搜索与网上购物内容与服饰相关。因此,服饰识别是解决同款检索、风格识别以及穿搭推荐需求中的关键问题。然而,服饰识别具有很高的难度,一是由于服饰的形变非常大,衣服本身是柔性很大的物体,用户的姿势不同时,其身上的服饰将呈现不同的状态;二是在不同条件、角度下拍出的服饰图片差距也非常大,例如模特的摆拍照和消费者的自拍照差别就很明显。
现有技术中,通过将服饰检测模块、属性预测模块等不同的技术模块级联起来,在全图或者标注框层面学习服饰特征,来进行服饰识别。
发明内容
本发明实施例提供一种物体识别技术方案。
根据本发明实施例的一个方面,提供的一种物体识别方法,包括:
接收图像;
对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述位置信息包括位置坐标和可见性状态;
从图像中提取所述物体的全局特征,并分别从各关键点的位置处提取所述物体的局部特征;
结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果。
根据本发明实施例的另一个方面,提供的一种物体识别装置,包括:
定位子网络单元,用于接收图像;以及对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述位置信息包括位置坐标和可见性状态;
全局特征提取子网络单元,用于从图像中提取所述物体的全局特征;
局部特征提取子网络单元,用于分别从各关键点的位置处提取所述物体的局部特征;
识别子网络单元,用于结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果。
根据本发明实施例的又一个方面,提供的一种数据处理装置,包括:
上述任一实施例所述的物体识别装置;和
检索单元,用于根据物体的识别结果,检索与所述物体的款式相同的物体相关信息。
根据本发明实施例的再一个方面,提供的一种终端设备,设置有上述任一实施例所述的数据处理装置。
根据本发明实施例的再一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:接收图像的指令;对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息的指令,所述位置信息包括位置坐标和可见性状态;从图像中提取所述物体的全局特征,并分别从各关键点的位置处提取所述物体的局部特征的指令;结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果的指令。
根据本发明实施例的再一个方面,提供一种计算机设备,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的物体识别方法对应的操作。
基于本发明上述实施例提供的物体识别方法和装置、数据处理装置和终端设备,对图像中物体进行关键点定位,获取多个关键点中各关键点的位置信息,包括位置坐标和可见性状态;从图像中提取物体的全局特征,并分别从各关键点的位置处提取物体的局部特征;结合物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别。本发明实施例从物体关键点的角度,有针对性地提取局部特征,再结合物体的全局特征,由于综合考虑了物体的各种特征信息,对于物体的细粒度特征(也即反应细节属性的特征)有较强的分辨能力,使物体的识别、搜索的结果更准确。本发明实施例可以适用于各种物体识别,尤其在物体为服饰时,相对于现有技术识别准确性的提升效果更明显。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明物体识别方法一个实施例的流程图。
图2为本发明物体识别方法另一个实施例的流程图。
图3为本发明实施例中对物体特征提取模型进行训练的一个实施例的流程图。
图4为本发明物体识别装置一个实施例的结构示意图。
图5为本发明物体识别装置另一个实施例的结构示意图。
图6为本发明数据处理装置一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本发明物体识别方法一个实施例的流程图。如图1所示,该实施例的物体识别方法包括:
102,接收图像。
104,对图像中物体进行关键点定位,获得物体的多个关键点,并获取多个关键点中各关键点的位置信息。
其中的位置信息包括位置坐标和可见性状态,可见性状态例如可以是可见、遮挡或截断等。
本发明实施例中,物体的关键点为物体所属物体类别中多数物体具有的、在功能和结构上可用于区分物体类别中不同款式物体的局部位置。
本发明各实施例的一个具体示例中,物体类别具体可以为服饰,或其他形状易变、或不同摆放方式和拍摄视角变化会影响识别效果的物体,例如棉被、纸画、油画、充气玩具等。则服饰的关键点可以包括领口、袖口和下摆等。
106,从图像中提取物体的全局特征,并分别从各关键点的位置处提取物体的局部特征。
108,结合物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得物体的识别结果,例如可以包括:物体的分类和细节属性。
其中,分类例如上装、和服、西装、卫衣、毛衣等,细节属性例如各种花式、纹理、领口类型、袖口类型等,细节属性的特征例如荷花边袖口、V型领等。
然而,在实现本发明的过程中,发明人发现,上述现有技术至少存在以下问题:由于服饰本身存在很多的形变,且用户的姿态和拍摄视角变化较大,服饰识别效果较差;并且,由服饰检测模块、属性预测模块等技术模块级联得到的级联系统中,无法联合调试各个模板的性能,且预测误差会被逐级累积,限制了服饰识别的准确性。
基于本发明上述实施例提供的物体识别方法,对图像中物体进行关键点定位,获取多个关键点中各关键点的位置信息,包括位置坐标和可见性状态;从图像中提取物体的全局特征,并分别从各关键点的位置处提取物体的局部特征;结合物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别。本发明实施例从物体关键点的角度,有针对性地提取局部特征,再结合物体的全局特征,由于综合考虑了物体的各种特征信息,对于物体的细粒度特征有较强的分辨能力,使物体的识别、搜索的结果更准确。本发明实施例可以适用于各种物体识别,尤其在物体为服饰,或其他形状易变、或不同摆放方式和拍摄视角变化会影响识别效果的物体,例如棉被、纸画、油画、充气玩具等时,相对于现有技术识别准确性的提升效果更明显。
图2为本发明物体识别方法另一个实施例的流程图。如图2所示,该实施例的物体识别方法包括:
202,接收图像。
204,对图像中的物体进行定位。
206,对图像中物体进行关键点定位,获得物体的多个关键点,并获取多个关键点中各关键点的位置信息。
其中的位置信息包括位置坐标和可见性状态,可见性状态例如可以是可见、遮挡或截断等。
本发明实施例中,物体的关键点为物体所属物体类别中多数物体具有的、用于区分物体类别中不同款式物体的局部位置。
本发明各实施例的一个具体示例中,物体类别具体为服饰。则服饰的关键点可以包括领口、袖口和下摆等。
208,从图像中提取物体的全局特征,并分别从各关键点的位置处提取物体的局部特征。
210,结合物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得物体的识别结果,例如可以包括:物体的分类和细节属性。
212,根据物体的识别结果,检索与物体的款式相同的物体相关信息。
例如,在本发明实施例的一个应用中,根据一个物体的图像(图片),从网络检索包含相应图片的网页信息,例如电商网站上包括该物体的图片的价格、厂家等各种信息。
本发明各实施例的物体识别方法,具体可以以卷积神经网络(CNN)作为物体特征提取模型来执行。则在本发明物体识别方法的又一个实施例中,在上述各实施例的流程之前,还可以包括如下操作:预设初始物体特征提取模型,并对初始物体特征提取模型进行训练,获得最终的物体特征提取模型。
示例性地,对初始物体特征提取模型进行训练可以通过如下方式实现:
针对包括物体的图像执行图1至图2所述任一实施例的流程,并基于物体的识别结果和物体的标准识别结果信息对初始物体特征提取模型进行训练;以及
分别针对包括物体的图像、包括与物体的款式相同的同款物体的图像、以及包括与物体的款式不同的非同款物体的图像,执行图1至图2所述任一实施例的流程,并根据物体的识别结果、同款物体的识别结果与非同款物体的识别结果,比较物体与上述同款物体是否为同款物体、以及物体与上述非同款物体是否为同款物体,输出比较结果,该比较结果中包括物体是否为同款信息的三重态,另外还可以选择性地包括关键点信息;基于该比较结果,对初始物体特征提取模型进行训练。
在本发明各物体识别方法实施例中,对初始物体特征提取模型进行训练,例如可以是,通过比较多个预设图像的识别结果和/或比较结果与预设标准结果之间的关系,调整初始服饰特征提取模型中的CNN网络参数。
图3为本发明实施例中对物体特征提取模型进行训练的一个实施例的流程图。如图3所示,该实施例对物体特征提取模型进行训练包括:
302,比较多个预设图像的识别结果和/或比较结果与预设标准结果之间的关系。
304,分别比较多个预设图像的识别结果和/或比较结果与预设标准结果之间的关系,统计多个预设图像的识别结果和/或比较结果的准确率。
306,比较统计的准确率是否达到预设阈值。
若达到预设阈值,确认物体特征提取模型为最终的物体特征提取模型,不执行本实施例的后续流程。否则,否则,若未达到预设阈值,执行操作308。
308,利用误差反向传播算法调整服饰特征提取模型中的CNN网络参数,并以调整CNN网络参数后的物体特征提取模型作为初始物体特征提取模型,再次执行对初始物体特征提取模型进行训练的操作。
本发明实施例提出一个可以进行端到端学习的深度学习物体特征提取模型,可以自适应地同时定位物体关键点和预测服饰的分类和细节属性,可以联合优化物体特征提取模型中各个模块的性能,并且能显著提升整个物体特征提取模型在各个识别任务上的结果。
在本发明各物体识别方法实施例的一个具体示例中,作为物体特征提取模型的CNN包括多个子网络,该多个子网络包括定位子网络、局部特征提取子网络、全局特征提取子网络和识别子网络。其中,定位子网络用于对图像中物体进行关键点定位,局部特征提取子网络用于提取物体的局部特征,全局特征提取子网络用于提取物体的全局特征,识别子网络用于进行物体识别、以及同款物体和非同款物体比较。
则在上述操作306中,利用误差反向传播算法调整物体特征提取模型中的CNN网络参数具体可以是:采用每对初始物体特征提取模型进行一次训练,更新多个子网络中一个子网络的网络参数的方式,轮流对多个子网络的参数进行更新。
进一步地,在本发明物体识别方法的再一个实施例中,还可以预先在信息数据库中设置物体的标注信息,以便预设初始物体特征提取模型或对初始物体特征提取模型进行训练。其中,物体的标注信息包括物体的分类、细节属性、关键点和同一物体的不同拍摄版本信息;关键点的标准信息包括关键点的名称和位置信息。
服饰分类具有很高的难度:一是它的形变非常大,衣服本身是柔性很大的物体,人摆出千奇百怪的姿势时同一件衣服的样子会非常不同;二是在不同条件下拍出的衣服图片差距也非常大,例如模特的摆拍照和消费者的自拍照差别就很明显;此外,衣服的设计中包含了大量的细节属性,例如领型、版型、衣长、装饰等等,想要算法区分出它们难度很大,需要有足够的训练数据做支撑。
本发明实施例预先对训练数据进行了大量收集和整理。例如,在搜索引擎和电商网站上搜索数据。在获取图片的同时,在电商网站和搜索引擎中搜索其文本信息甚至结构化的文本信息,从中提取了服饰的分类、细节属性信息。同时,从电商网站也获得了许多用户上传的图片,获取同一服饰的不同拍照版本信息;另外,在图片标注了服装的关键点,使得物体特征提取模型可以学习服装的姿态。从而构建了一个具有非常丰富信息的服装信息数据库,同时具有服装的细节属性、服装的关键点、同一件服装的不同拍摄版本等多种标注信息。
基于上述信息数据库中的信息,用带有成百上千的细节标签的图片来训练物体特征提取模型,使其学到能够区分分类、细节属性、关键点的特征;使用同一件服装多个拍摄者提供的图片作训练,增加物体特征提取模型对此的鲁棒性;对服装的姿态进行估计,在若干关键点处提取局部特征,以抵消严重形变带来的影响。
由此,尽管衣服的形态可能千变万化,基于本发明实施例,可以对服饰在领口、袖口、下摆等一些特定区域进行比较、识别,便可以有效识别一款服饰。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图4为本发明物体识别装置一个实施例的结构示意图。该实施例的物体识别装置可用于实现本发明上述各实施例的物体识别方法。本发明各实施例的物体识别装置具体可以示例性但不被限制地是由CNN构成物体特征提取模型。如图4所示,该实施例的物体识别装置包括:定位子网络单元,全局特征提取子网络单元,局部特征提取子网络单元和识别子网络单元。其中:
定位子网络单元,用于接收图像;以及对图像中物体进行关键点定位,获得物体的多个关键点,并获取多个关键点中各关键点的位置信息,位置信息包括位置坐标和可见性状态。
其中的位置信息包括位置坐标和可见性状态,可见性状态例如可以是可见、遮挡或截断等。
本发明实施例中,物体的关键点为物体所属物体类别中多数物体具有的、用于区分物体类别中不同款式物体的局部位置。
本发明各实施例的一个具体示例中,物体类别具体为服饰。则服饰的关键点可以包括领口、袖口和下摆等。
另外,可选地,定位子网络单元还可用于在对图像中物体进行关键点定位之前,对图像中的物体进行定位。
全局特征提取子网络单元,用于从图像中提取物体的全局特征。
局部特征提取子网络单元,用于分别从各关键点的位置处提取物体的局部特征。
识别子网络单元,用于结合物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得物体的识别结果,例如可以包括:物体的分类和细节属性。
基于本发明上述实施例提供的物体识别装置,对图像中物体进行关键点定位,获取多个关键点中各关键点的位置信息,包括位置坐标和可见性状态;从图像中提取物体的全局特征,并分别从各关键点的位置处提取物体的局部特征;结合物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别。本发明实施例从物体关键点的角度,有针对性地提取局部特征,再结合物体的全局特征,由于综合考虑了物体的各种特征信息,使物体的识别、搜索的结果更准确。本发明实施例可以适用于各种物体识别,尤其在物体为服饰时,相对于现有技术识别准确性的提升效果更明显。
图5为本发明物体识别装置另一个实施例的结构示意图。如图5所示,与图4所示的实施例相比,该实施例的物体识别装置还包括网络训练单元,用于存储预设的初始物体特征提取模型,并对初始物体特征提取模型进行训练,获得最终的物体特征提取模型。
具体地,网络训练单元用于:
针对包括物体的图像开始执行接收图像的操作,并基于物体的识别结果和物体的标准识别结果信息对初始物体特征提取模型进行训练;以及
分别针对包括物体的图像、包括与物体的款式相同的同款物体的图像、以及包括与物体的款式不同的非同款物体的图像,开始执行接收图像的操作,并根据物体的识别结果、同款物体的识别结果与非同款物体的识别结果,比较物体与同款物体是否为同款物体、以及物体与非同款物体是否为同款物体,输出比较结果,该比较结果中包括物体是否为同款信息的三重态,另外还可以选择性地包括关键点信息;基于比较结果,对初始物体特征提取模型进行训练。
在本发明物体识别装置实施例的一个具体示例中,网络训练单元对初始服饰特征提取模型进行训练时,具体用于通过比较多个预设图像的识别结果和/或比较结果与预设标准结果之间的关系,调整初始服饰特征提取模型中的CNN网络参数。
在本发明物体识别装置实施例的另一个具体示例中,网络训练单元调整初始物体特征提取模型中的CNN网络参数时,具体用于:
分别比较多个预设图像的识别结果和/或比较结果与预设标准结果之间的关系,统计多个预设图像的识别结果和/或比较结果的准确率是否达到预设阈值;
若达到预设阈值,确认物体特征提取模型为最终的物体特征提取模型;
否则,若未达到预设阈值,利用误差反向传播算法调整服饰特征提取模型中的CNN网络参数,并以调整CNN网络参数后的物体特征提取模型作为初始物体特征提取模型,再次执行对初始物体特征提取模型进行训练的操作。
在本发明物体识别装置实施例的又一个具体示例中,作为物体特征提取模型的CNN具体可以包括多个子网络,多个子网络包括定位子网络、局部特征提取子网络、全局特征提取子网络和识别子网络。其中,定位子网络用于对图像中物体进行关键点定位,局部特征提取子网络用于提取物体的局部特征,全局特征提取子网络用于提取物体的全局特征,识别子网络用于进行物体识别、以及同款物体和非同款物体比较。
相应地,该实施例中,网络训练单元利用误差反向传播算法调整物体特征提取模型中的CNN网络参数时,具体用于采用每对初始物体特征提取模型进行一次训练,更新多个子网络中一个子网络的网络参数的方式,轮流对多个子网络的参数进行更新。
进一步地,再参见图5,在本发明物体识别装置的又一个实施例中,还包括信息数据库,用于存储预先设置的物体的标注信息,以便预设初始物体特征提取模型或对初始物体特征提取模型进行训练。
其中,物体的标注信息包括物体的分类、细节属性、关键点和同一物体的不同拍摄版本信息;关键点的标准信息包括关键点的名称和位置信息。
图6为本发明数据处理装置一个实施例的结构示意图。如图6所示,该实施例的数据处理装置包括检索单元和上述任一实施例的物体识别装置。其中,检索单元用于根据物体识别装置输出的物体的识别结果,检索与该物体的款式相同的物体相关信息。
基于本发明上述实施例提供的数据处理装置,设置有上述实施例的物体识别装置,从物体关键点的角度,有针对性地提取局部特征,再结合物体的全局特征,由于综合考虑了物体的各种特征信息,使物体的识别、搜索的结果更准确。本发明实施例可以适用于各种物体识别,尤其在物体为服饰时,相对于现有技术识别准确性的提升效果更明显。
具体地,本发明实施例的数据处理装置可以是任意具有数据处理功能的装置,例如可以包括但不限于:进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。
另外,本发明实施例还提供了一种终端装置,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等,该终端设备设置有本发明任一实施例的数据处理装置。
基于本发明上述实施例提供的终端设备,设置有上述实施例的数据处理装置,从物体关键点的角度,有针对性地提取局部特征,再结合物体的全局特征,由于综合考虑了物体的各种特征信息,使物体的识别、搜索的结果更准确。本发明实施例可以适用于各种物体识别,尤其在物体为服饰时,相对于现有技术识别准确性的提升效果更明显。
在一个具体示例中,用于实现本发明实施例的终端设备或服务器的计算机系统包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本申请实施例提供的任一项物体识别方法对应的操作,例如:接收图像;对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述位置信息包括位置坐标和可见性状态;从图像中提取所述物体的全局特征,并分别从各关键点的位置处提取所述物体的局部特征;结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果。
此外,在RAM中,还可存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,所述程序代码可包括对应执行本申请实施例提供的任一项物体识别方法步骤对应的指令,例如,接收图像;对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述位置信息包括位置坐标和可见性状态;从图像中提取所述物体的全局特征,并分别从各关键点的位置处提取所述物体的局部特征;结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。
本发明实施例还提供了一种计算机存储介质,用于存储计算机可读取的指令,所述指令包括:接收图像的指令;对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述位置信息包括位置坐标和可见性状态;从图像中提取所述物体的全局特征,并分别从各关键点的位置处提取所述物体的局部特征的指令;结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果的指令。
另外,本发明实施例还提供了一种计算机设备,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成本发明上述任一实施例的物体识别方法对应的操作。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (24)
1.一种物体识别方法,其特征在于,包括:
接收图像;
通过卷积神经网络的定位子网络,对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述物体类别具体为服饰,所述位置信息包括位置坐标和可见性状态,所述可见性状态包括可见、遮挡或截断;
通过所述卷积神经网络的全局特征提取子网络,从图像中提取所述物体的全局特征,并通过所述卷积神经网络的局部特征提取子网络,分别从各关键点的位置处提取所述物体的局部特征;
结合所述物体的全局特征与从各关键点的位置处提取的局部特征,通过所述卷积神经网络的识别子网络进行物体识别,获得所述物体的识别结果,所述物体的识别结果包括:所述物体的分类和细节属性;其中,
对所述卷积神经网络的训练包括:
分别通过所述卷积神经网络对包括样本物体的样本图像、包括与所述样本物体的款式相同的同款物体的样本图像、以及包括与所述样本物体的款式不同的非同款物体的样本图像进行识别,并根据所述卷积神经网络对所述样本物体的识别结果、所述同款物体的识别结果与所述非同款物体的识别结果,得到所述样本物体与所述同款物体是否为同款物体的第一比较结果、以及所述样本物体与所述非同款物体是否为同款物体的第二比较结果,并输出三重态信息,其中,所述三重态信息包含所述样本物体的识别结果、所述第一比较结果和所述第二比较结果;根据所述三重态信息对所述卷积神经网络进行训练。
2.根据权利要求1所述的方法,其特征在于,所述关键点为所述物体所属物体类别中多数物体具有的、用于区分所述物体类别中不同款式物体的局部位置。
3.根据权利要求1所述的方法,其特征在于,所述关键点包括以下任意一项或多项:领口、袖口和下摆。
4.根据权利要求1所述的方法,其特征在于,所述对图像中物体进行关键点定位之前,还包括:
对图像中的物体进行定位。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据所述物体的识别结果,检索与所述物体的款式相同的物体相关信息。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述对所述卷积神经网络的训练还包括:
预设初始卷积神经网络。
7.根据权利要求6所述的方法,其特征在于,所述根据所述三重态信息对所述卷积神经网络进行训练包括:
通过比较所述三重态信息与预设标准结果之间的关系,调整所述卷积神经网络中的网络参数。
8.根据权利要求7所述的方法,其特征在于,调整所述卷积神经网络中的网络参数包括:
分别比较三重态信息与预设标准结果之间的关系,统计所述三重态信息的准确率是否达到预设阈值;
若达到预设阈值,确认所述卷积神经网络为最终的卷积神经网络;
否则,若未达到预设阈值,利用误差反向传播算法调整所述卷积神经网络中的网络参数,并以调整网络参数后的卷积神经网络作为初始卷积神经网络,再次执行对所述卷积神经网络进行训练的操作。
9.根据权利要求8所述的方法,其特征在于,利用误差反向传播算法调整所述卷积神经网络中的网络参数包括:
采用每对所述卷积神经网络进行一次训练,更新所述卷积神经网络的多个子网络中一个子网络的网络参数的方式,轮流对所述多个子网络的参数进行更新;其中,所述多个子网络包括:定位子网络,全局特征提取子网络,局部特征提取子网络和识别子网络。
10.根据权利要求6所述的方法,其特征在于,还包括:
预先在信息数据库中设置物体的标注信息,以便对所述卷积神经网络进行训练;
其中,所述物体的标注信息包括以下任意一项或多项:物体的分类、细节属性、关键点和同一物体的不同拍摄版本信息;所述关键点的标注信息包括关键点的名称和位置信息。
11.一种物体识别装置,其特征在于,所述物体识别装置包括卷积神经网络,包括:
定位子网络单元,用于接收图像;以及对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息,所述物体类别具体为服饰,所述位置信息包括位置坐标和可见性状态,所述可见性状态包括可见、遮挡或截断;
全局特征提取子网络单元,用于从图像中提取所述物体的全局特征;
局部特征提取子网络单元,用于分别从各关键点的位置处提取所述物体的局部特征;
识别子网络单元,用于结合所述物体的全局特征与从各关键点的位置处提取的局部特征进行物体识别,获得所述物体的识别结果,所述物体的识别结果包括:所述物体的分类和细节属性;其中,
对所述卷积神经网络的训练包括:
分别通过所述卷积神经网络对包括样本物体的样本图像、包括与所述样本物体的款式相同的同款物体的样本图像、以及包括与所述样本物体的款式不同的非同款物体的样本图像进行识别,并根据所述卷积神经网络对所述样本物体的识别结果、所述同款物体的识别结果与所述非同款物体的识别结果,得到所述样本物体与所述同款物体是否为同款物体的第一比较结果、以及所述样本物体与所述非同款物体是否为同款物体的第二比较结果,并输出三重态信息,其中,所述三重态信息包含所述样本物体的识别结果、所述第一比较结果和所述第二比较结果;根据所述三重态信息对所述卷积神经网络进行训练。
12.根据权利要求11所述的装置,其特征在于,所述关键点为所述物体所属物体类别中多数物体具有的、用于区分所述物体类别中不同款式物体的局部位置。
13.根据权利要求11所述的装置,其特征在于,所述关键点包括领口、袖口和下摆。
14.根据权利要求11所述的装置,其特征在于,所述定位子网络单元,还用于在所述对图像中物体进行关键点定位之前,对图像中的物体进行定位。
15.根据权利要求11-14任意一项所述的装置,其特征在于,还包括:
网络训练单元,用于存储预设的初始卷积神经网络,并对所述初始卷积神经网络进行训练,获得所述卷积神经网络。
16.根据权利要求15所述的装置,其特征在于,所述网络训练单元,对所述初始卷积神经网络进行训练时,具体用于通过比较三重态信息与预设标准结果之间的关系,调整所述初始卷积神经网络中的网络参数。
17.根据权利要求16所述的装置,其特征在于,所述网络训练单元,调整所述初始卷积神经网络中的网络参数时,具体用于:
分别比较三重态信息与预设标准结果之间的关系,统计所述三重态信息的准确率是否达到预设阈值;
若达到预设阈值,确认所述卷积神经网络为最终的卷积神经网络;
否则,若未达到预设阈值,利用误差反向传播算法调整所述卷积神经网络中的网络参数,并以调整网络参数后的卷积神经网络作为初始卷积神经网络,再次执行对所述初始卷积神经网络进行训练的操作。
18.根据权利要求17所述的装置,其特征在于,
所述网络训练单元,利用误差反向传播算法调整所述卷积神经网络中的网络参数时,具体用于采用每对所述初始卷积神经网络进行一次训练,更新所述初始卷积神经网络的多个子网络中一个子网络的网络参数的方式,轮流对所述多个子网络的参数进行更新;其中,所述多个子网络包括:定位子网络单元,全局特征提取子网络单元,局部特征提取子网络单元和识别子网络单元。
19.根据权利要求15所述的装置,其特征在于,还包括:
信息数据库,用于存储预先设置的物体的标注信息,以便对初始卷积神经网络进行训练;
其中,所述物体的标注信息包括物体的分类、细节属性、关键点和同一物体的不同拍摄版本信息;所述关键点的标注信息包括关键点的名称和位置信息。
20.一种数据处理装置,其特征在于,包括:
权利要求11至19任意一项所述的物体识别装置;和
检索单元,用于根据物体的识别结果,检索与所述物体的款式相同的物体相关信息。
21.根据权利要求20所述的装置,其特征在于,所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。
22.一种终端设备,其特征在于,设置有权利要求20或21所述的数据处理装置。
23.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令包括:接收图像的指令;通过卷积神经网络的定位子网络,对图像中物体进行关键点定位,获得所述物体的多个关键点,并获取多个关键点中各关键点的位置信息的指令;所述物体类别具体为服饰;所述位置信息包括位置坐标和可见性状态,所述可见性状态包括可见、遮挡或截断;通过所述卷积神经网络的全局特征提取子网络,从图像中提取所述物体的全局特征,并通过所述卷积神经网络的局部特征提取子网络,分别从各关键点的位置处提取所述物体的局部特征的指令;结合所述物体的全局特征与从各关键点的位置处提取的局部特征,通过所述卷积神经网络的识别子网络进行物体识别,获得所述物体的识别结果的指令,所述物体的识别结果包括:所述物体的分类和细节属性;其中,对所述卷积神经网络的训练包括:分别通过所述卷积神经网络对包括样本物体的样本图像、包括与所述样本物体的款式相同的同款物体的样本图像、以及包括与所述样本物体的款式不同的非同款物体的样本图像进行识别,并根据所述卷积神经网络对所述样本物体的识别结果、所述同款物体的识别结果与所述非同款物体的识别结果,得到所述样本物体与所述同款物体是否为同款物体的第一比较结果、以及所述样本物体与所述非同款物体是否为同款物体的第二比较结果,并输出三重态信息,其中,所述三重态信息包含所述样本物体的识别结果、所述第一比较结果和所述第二比较结果;根据所述三重态信息对所述卷积神经网络进行训练。
24.一种计算机设备,其特征在于,包括:
存储器,存储可执行指令;
一个或多个处理器,与存储器通信以执行可执行指令从而完成权利要求1至10任一所述物体识别方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610440636.7A CN106126579B (zh) | 2016-06-17 | 2016-06-17 | 物体识别方法和装置、数据处理装置和终端设备 |
PCT/CN2017/088816 WO2017215669A1 (zh) | 2016-06-17 | 2017-06-16 | 物体识别方法和装置、数据处理装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610440636.7A CN106126579B (zh) | 2016-06-17 | 2016-06-17 | 物体识别方法和装置、数据处理装置和终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126579A CN106126579A (zh) | 2016-11-16 |
CN106126579B true CN106126579B (zh) | 2020-04-28 |
Family
ID=57470404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610440636.7A Active CN106126579B (zh) | 2016-06-17 | 2016-06-17 | 物体识别方法和装置、数据处理装置和终端设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106126579B (zh) |
WO (1) | WO2017215669A1 (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126579B (zh) * | 2016-06-17 | 2020-04-28 | 北京市商汤科技开发有限公司 | 物体识别方法和装置、数据处理装置和终端设备 |
CN108229455B (zh) | 2017-02-23 | 2020-10-16 | 北京市商汤科技开发有限公司 | 物体检测方法、神经网络的训练方法、装置和电子设备 |
CN108230390B (zh) * | 2017-06-23 | 2021-01-01 | 北京市商汤科技开发有限公司 | 训练方法、关键点检测方法、装置、存储介质和电子设备 |
CN107918780B (zh) * | 2017-09-01 | 2021-09-03 | 中山大学 | 一种基于关键点检测的衣服种类和属性分类方法 |
CN107784282B (zh) * | 2017-10-24 | 2020-04-03 | 北京旷视科技有限公司 | 对象属性的识别方法、装置及系统 |
CN108229302A (zh) * | 2017-11-10 | 2018-06-29 | 深圳市商汤科技有限公司 | 特征提取方法、装置、计算机程序、存储介质和电子设备 |
CN108229306A (zh) * | 2017-11-21 | 2018-06-29 | 深圳市商汤科技有限公司 | 服饰检测和神经网络训练的方法、装置、存储介质和设备 |
CN107944457A (zh) * | 2017-11-23 | 2018-04-20 | 浙江清华长三角研究院 | 一种复杂场景下的绘画物体识别与提取方法 |
CN108229559B (zh) * | 2017-12-29 | 2021-05-18 | 深圳市商汤科技有限公司 | 服饰检测方法、装置、电子设备、程序和介质 |
CN108109055B (zh) * | 2018-01-08 | 2021-04-30 | 中国石油大学(华东) | 一种基于图像渲染的跨场景服装检索方法 |
CN108319907A (zh) * | 2018-01-26 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种车辆识别方法、装置和存储介质 |
CN109325952B (zh) * | 2018-09-17 | 2022-07-08 | 上海宝尊电子商务有限公司 | 基于深度学习的时尚服装图像分割方法 |
CN109472205B (zh) * | 2018-10-09 | 2021-07-30 | 深兰科技(上海)有限公司 | 商品识别方法、商品识别装置及存储介质 |
CN109583318A (zh) * | 2018-11-06 | 2019-04-05 | 平安科技(深圳)有限公司 | 药用植物识别方法、装置和计算机设备 |
CN109543700B (zh) * | 2018-11-29 | 2022-12-02 | 中山大学 | 一种抗遮挡的服饰关键点检测方法 |
CN111382612A (zh) * | 2018-12-28 | 2020-07-07 | 北京市商汤科技开发有限公司 | 动物面部检测方法及装置 |
CN110232133B (zh) * | 2019-05-16 | 2022-09-20 | 华中科技大学 | 一种基于特征融合和款式分类的服装图像检索方法和系统 |
CN110188701A (zh) * | 2019-05-31 | 2019-08-30 | 上海媒智科技有限公司 | 基于人体关键节点预测的服饰识别方法、系统及终端 |
CN110264460A (zh) * | 2019-06-24 | 2019-09-20 | 科大讯飞股份有限公司 | 一种目标检测结果的鉴别方法、装置、设备及存储介质 |
CN110379004B (zh) * | 2019-07-22 | 2021-02-09 | 泰瑞数创科技(北京)有限公司 | 一种对倾斜摄影成果进行地物分类及单体化提取的方法 |
CN110852162B (zh) * | 2019-09-29 | 2020-10-23 | 深圳云天励飞技术有限公司 | 一种人体完整度数据标注方法、装置及终端设备 |
CN110752028A (zh) * | 2019-10-21 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备以及存储介质 |
CN110705520A (zh) * | 2019-10-22 | 2020-01-17 | 上海眼控科技股份有限公司 | 目标检测方法、装置、计算机设备和计算机可读存储介质 |
CN111325141B (zh) * | 2020-02-18 | 2024-03-26 | 上海商汤临港智能科技有限公司 | 交互关系识别方法、装置、设备及存储介质 |
CN111340515B (zh) * | 2020-03-02 | 2023-09-26 | 北京京东振世信息技术有限公司 | 一种特征信息生成和物品溯源方法和装置 |
CN111967930A (zh) * | 2020-07-10 | 2020-11-20 | 西安工程大学 | 一种基于多网络融合的服装风格识别推荐方法 |
AU2020294280A1 (en) * | 2020-08-01 | 2022-02-17 | Sensetime International Pte. Ltd. | Method, apparatus and system for identifying target objects |
CN112508127A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 数据标注方法及装置、电子设备、介质和产品 |
CN112784739A (zh) * | 2021-01-21 | 2021-05-11 | 北京百度网讯科技有限公司 | 模型的训练方法、关键点定位方法、装置、设备和介质 |
CN113763569A (zh) * | 2021-08-30 | 2021-12-07 | 之江实验室 | 一种在三维仿真中使用的图像标注方法及装置、电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777116B (zh) * | 2009-12-23 | 2012-07-25 | 中国科学院自动化研究所 | 一种基于动作跟踪的脸部表情分析方法 |
CN102567543B (zh) * | 2012-01-12 | 2015-02-18 | 北京搜狗信息服务有限公司 | 一种服装图片的搜索方法和装置 |
CN102982165B (zh) * | 2012-12-10 | 2015-05-13 | 南京大学 | 一种大规模人脸图像检索方法 |
JP6249638B2 (ja) * | 2013-05-28 | 2017-12-20 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
CN105095827B (zh) * | 2014-04-18 | 2019-05-17 | 汉王科技股份有限公司 | 人脸表情识别装置和方法 |
CN104992179A (zh) * | 2015-06-23 | 2015-10-21 | 浙江大学 | 一种基于精粒度卷积神经网络的衣物推荐方法 |
CN105469087B (zh) * | 2015-07-13 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 识别服饰图片的方法、服饰图片的标注方法及装置 |
CN105117739A (zh) * | 2015-07-29 | 2015-12-02 | 南京信息工程大学 | 一种基于卷积神经网络的服装分类方法 |
CN105512620B (zh) * | 2015-11-30 | 2019-07-26 | 北京眼神智能科技有限公司 | 用于人脸识别的卷积神经网络的训练方法和装置 |
CN106126579B (zh) * | 2016-06-17 | 2020-04-28 | 北京市商汤科技开发有限公司 | 物体识别方法和装置、数据处理装置和终端设备 |
-
2016
- 2016-06-17 CN CN201610440636.7A patent/CN106126579B/zh active Active
-
2017
- 2017-06-16 WO PCT/CN2017/088816 patent/WO2017215669A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017215669A1 (zh) | 2017-12-21 |
CN106126579A (zh) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106126579B (zh) | 物体识别方法和装置、数据处理装置和终端设备 | |
CN108229496B (zh) | 服饰关键点的检测方法和装置、电子设备、存储介质和程序 | |
CN109670591B (zh) | 一种神经网络的训练方法及图像匹配方法、装置 | |
JP6681342B2 (ja) | 行動イベント計測システム及び関連する方法 | |
US9990557B2 (en) | Region selection for image match | |
CN108229559B (zh) | 服饰检测方法、装置、电子设备、程序和介质 | |
US9390315B1 (en) | Image match for featureless objects | |
CA2917256C (en) | Screenshot-based e-commerce | |
WO2018228448A1 (zh) | 搭配服饰的推荐方法和装置、电子设备、存储介质 | |
US10380461B1 (en) | Object recognition | |
CN110427859A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
US11475500B2 (en) | Device and method for item recommendation based on visual elements | |
CN109426831B (zh) | 图片相似匹配及模型训练的方法、装置及计算机设备 | |
CN110909746A (zh) | 一种服饰推荐方法、相关装置和设备 | |
CN111640193A (zh) | 文字处理方法、装置、计算机设备及存储介质 | |
EP3896607A2 (en) | Clothing collocation method and apparatus, and computing device and medium | |
US20210117987A1 (en) | Fraud estimation system, fraud estimation method and program | |
CN108764232B (zh) | 标签位置获取方法及装置 | |
CN108334602B (zh) | 数据标注方法和装置、电子设备、计算机存储介质 | |
CN110110126A (zh) | 查询人物的面部图像的方法、装置和服务器 | |
CN112822393B (zh) | 图像处理方法、装置及电子设备 | |
CN111382747A (zh) | 数据打标方法、计算机装置及计算机可读存储介质 | |
CN113537101B (zh) | 人体属性的识别方法、装置、计算机设备及存储介质 | |
CN113496181A (zh) | 用于衣物识别的方法及装置、设备 | |
CN112270275A (zh) | 基于图片识别的商品搜索方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |