CN113435463A - 物体图像标注方法、系统、设备及存储介质 - Google Patents

物体图像标注方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113435463A
CN113435463A CN202110851854.0A CN202110851854A CN113435463A CN 113435463 A CN113435463 A CN 113435463A CN 202110851854 A CN202110851854 A CN 202110851854A CN 113435463 A CN113435463 A CN 113435463A
Authority
CN
China
Prior art keywords
target object
object image
parent
component
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110851854.0A
Other languages
English (en)
Other versions
CN113435463B (zh
Inventor
王晨羽
刘莉红
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shanghai Co ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110851854.0A priority Critical patent/CN113435463B/zh
Publication of CN113435463A publication Critical patent/CN113435463A/zh
Application granted granted Critical
Publication of CN113435463B publication Critical patent/CN113435463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,尤其涉及一种物体图像标注方法、系统、设备及存储介质,包括:对目标物体图像进行分割,获取目标物体中的每一部件;对每一部件进行特征提取,获取每一部件的特征;根据每一部件的特征,获取每一部件的名称;将目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类获取目标物体的层次结构。本发明对目标物体进行分割,基于特征提取获取部件名称,利用父类识别模型识别出部件的父类,得到目标物体的层次结构,该标注方法可以描述出目标物体本身的几何特征,充分挖掘精细信息,使得物体标注具有更高的鲁棒性。

Description

物体图像标注方法、系统、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种物体图像标注方法、系统、设备及存储介质。
背景技术
汽车是人们日常交通中必不可缺的工具,由于汽车用量的增加和驾驶人员的技能有限,车辆事故时有发生。从时间角度看,早晚高峰期是事故频发的主要时间段。从空间角度,高速路和大中型城市的市区道路的事故发生频率远高于乡镇道路。事故发生后,对受损车辆的保险理赔和维修费用取决于车辆损伤程度的核定(简称“定损”)。传统的定损方法极大依赖于定损人员,这类方法有3个显著的弊端:
(1)等待定损人员到达事故现场并展开定损,事故车辆停在路上占用空间,会造成更严重的交通拥堵;
(2)定损员受限于地点和时间,能完成的定损案件有限,为了应对大量的事故,雇用和培训大量定损员会极大增加保险公司业务成本;
(3)定损程度受定损员的经验,工作状态影响导致定损结果偏差,存在后续纠纷的隐患。
近年来,随着基于深度学习的计算机视觉技术的发展,在车辆定损应用目标检测和图像分割等技术等有效解决人工定损速度慢,定损结果有偏差,定损人员受限于时间空间等问题。因此研究图像识别技术在车险领域的应用有巨大的社会价值,前沿技术的应用不仅能帮助降低保险公司的定损人力成本,更能从整体上提升定损速度,减少事故给道路交通带来的阻塞。
基于深度卷积神经网络(Convolutional Neural Networks,简称CNN)的有监督学习往往需要大量的人工标注的数据集来训练模型。尽管训练出的模型能够满足一定的检测需求,但面对真实世界中的事故场景,仍然有如下几个方面的问题:
收集大量的车辆受损照片,并进行人工标注、数据清洗是极其耗时耗力的。并且,不同人员的标注质量参差不齐,影响后期模型训练结果。此外,随着定损标准和车辆受损情况的变化,不可避免地要对数据集更新,彻底重标旧的数据集更是一件工作量巨大的事。
另外,CNN提取的特征的过程不同于人类理解特征的方式,像素级的特征提取结果依赖于标注方式。当前广泛使用的“扁平式”(每增加一个类别,就单独增加一个标签)的标注方法忽略了图像中物体本身固有的几何特征,也不能有效反映物体整体与部件的语意关系。
以汽车为例:虽然不同车型的轮子略有差异,但轮子总体的几何形状是圆,显著不同于车门;汽车上轮子、方向盘、轮胎都是圆形,与轮子相接的圆形更应该被判断为轮胎而不是方向盘,如果用扁平式的标注方法,为了能精细描述汽车的各部位,标签类别将会变得非常多却依然无法解决“有些相似但又不是同类”的分类问题。
针对现有技术中扁平式的标注方法,该方法忽略了物体本身固有的几何特征,也忽略了物体整体与部件的语义联系,从而使得后续应用的鲁棒性和泛化能力较低。
因此,亟需一种能表示物体本身固有几何特征的物体图像标注方法。
发明内容
本发明实施例提供一种物体图像标注方法、系统、设备及存储介质,以解决现有技术中标签标注时无法表示物体本身固有几何特征而导致鲁棒性低的问题。
第一方面,本发明实施例提供一种物体图像标注方法,包括:
对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
对每一部件进行特征提取,获取每一部件的特征;
根据每一部件的特征,获取每一部件的名称;
将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
优选地,所述父类识别模型的具体计算公式如下:
E(θ,p,c,M)=λcEcsEsdEdmEm-H,
其中,θ表示所述预设特征提取参数,p表示任一物体的任一部件被分类到任一父类的概率,c表示部件的父类中心点,M表示包含所有部件的目标物体的层次结构,λc表示第一预设参数,λs表示第一预设参数,λd表示第一预设参数,λm表示第一预设参数,Ec表示每一部件到每一父类中心的距离,Es表示相同部件之间的距离,Ed表示同一目标物体上不同部件之间的距离,Em表示父类与子类关系的匹配程度,H表示预设阈值。
优选地,所述父类识别模型基于分类样本训练得到,包括:
初始化每一部件的父类中心点;
对于当前迭代,固定p的取值,计算得到θ、c和M的取值;
固定θ、c和M的取值,优化p的取值,并再次固定p的取值,得到θ、c和M的最优解;
重复上述迭代过程,直到Ec、Es、Ed和Em均为最小。
优选地,所述对目标物体图像进行分割,获取每一部件,包括:
将所述目标物体图像输入到分割网络中,获取每一部件,所述分割网络基于分割样本训练得到。
优选地,所述将所述目标物体图像输入到分割网络中,获取每一部件,之前还包括:
对所有样本的名称进行同义词合并,获取所述目标物体的部件,所述部件字典包括所述目标物体中的所有部件及部件标准名称;
将所述部件字典作为所述分割网络训练时的聚类类别。
优选地,所述根据每一部件的特征,获取每一部件的名称,包括:
通过最近邻算法,获取任意两个部件的特征之间的距离;
对于任一部件,获取目标部件,所述目标部件的特征与所述任一部件的特征距离最近;
将所述目标部件的名称作为所述任一部件的名称。
优选地,所述目标物体图像通过有根有向树表示,如下:
Hi={Xi,Ei},
Xi={xij|j=1,…,|Xi|},
其中,Hi表示有根有向树的的第i个类别,Xi表示第i个类别的所有部件,Ei表示第i个类别的所有边,xij表示第i个类别的第j个部件。
优选地,所述特征提取网络为卷积神经网络。
第二方面,本发明实施例提供一种物体图像标注系统,包括:
分割模块,用于对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
特征提取模块,用于对每一部件进行特征提取,获取每一部件的特征;
名称模块,用于根据每一部件的特征,获取每一部件的名称;
类别模块,用于将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体的进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述物体图像标注方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述物体图像标注方法的步骤。
本发明实施例提供一种物体图像标注方法、系统、设备及存储介质,首先对目标物体进行分割出每个部件,并基于特征提取先得出每个部件的名称,为了挖掘目标物体本身固有的几何特征,通过父类识别模型识别出每个部件所属类别,得出每个部件的父类,最终可以得到目标物体每个部件名称以及目标物体不同部件之间的联系。这样就可以描述出目标物体本身的几何特征,充分挖掘目标物体的精细信息,使得物体标注具有更高的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中物体图像标注方法的一应用环境示意图;
图2是本发明实施例提供的一种物体图像标注方法的流程图;
图3是本发明实施例中汽车图像标注的结果示意图;
图4是本发明一实施例提供的一种物体图像标注系统的结构示意图;
图5是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现实生活中,许多物体是分层级的,比如汽车,可以分为车体和轮胎两个大父类别,而车体父类别又可以分为车门、保险杠、车灯和叶子板等几个子类别,轮胎父类别又可以分为外轮胎和钢圈两个子类别。
本发明实施例是针对特定形状物体进行分层级标注,即在已知该特定形状物体由哪些部件组成以及部件与部件之间的几何联系后,可以对一张未标注的特定形状物体进行分层级标注,不仅能标注出物体中各个部件的名称,还能标注出该物体中各个部件之间的几何联系,即可以得知物体的层级关系。以下为了方便说明,以汽车作为目标物体为例进行说明。
该物体图像标注方法可应用在如图1的应用环境中,在具体实施时,客户端采集目标物体图像,并将目标物体图像发送给服务端,服务端执行该物体图像标注方法,实现对该目标物体的分层级标注。
需要说明的是,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器来实现,也可以由多个服务器组成的集群来实现,客户端和服务端可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
本发明实施例提供一种物体图像标注方法,如图2所示,该方法在图1所示的服务端中执行,该方法包括:
S210,对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
采集需要进行标注的目标物体图像,该目标物体图像中包括目标物体,对目标图像进行分割,得到目标物体的每个部件。
具体地,该分割方法可以是传统的图像分割方法,比如基于阈值的分割方法、基于区域生长的分割方法、基于边缘的分割方法、基于小波变换的分割方法和基于神经网络的分割方法等。
本发明实施例中采用基于神经网络的分割方法,将该目标物体图像输入到分割网络中,将目标物体图像分割为几个子图像,每个子图像代表一个部件,分割出目标物体上所有的部件。举例地,该目标物体为汽车,将汽车输入到分割网络中,得出汽车的车顶、车门、轮胎、钢圈、排气管和倒车镜等部件。
该分割网络在进行应用之前,需要对该分割网络进行训练,使得训练后的分割网络具有对汽车图像进行分割的功能。本发明实施例中对分割网络进行训练的样本称之为分割样本,训练方法采用无监督学习方法,通过对每个样本中的部件进行聚类训练,从而使得训练后的分割网络实现分割的功能。
需要说明的是,该分割网络可以是任何可以实现图像分割功能的神经网络,例如全卷积网络(Fully Convolutional Network,简称FCN)、U-net网络、ENet网络等,本发明实施例在此不一一列举。
S220,对每一部件进行特征提取,获取每一部件的特征;
由于网上采集的目标物体图片的标注并不一定完整和准确,常常会存在漏标的情况,比如只标注了高层次的门,却没有标注低层次的门把手。上一步骤中只分割出了汽车的部件,但是有些部件的名称还是未知的,因此本发明实施例中利用特征提取的方法,先提取出每个部件的特征。
常见的特征提取方法包括主成分分析和线性判别分析,还有利用神经网络进行特征提取的方法,本发明实施例中采用神经网络进行特征提取。
具体地,将每个部件输入到特征提取网络中,即可得到每个部件的特征,该特征包括边缘特征、区域特征、角特征及上述任意特征的组合等。该特征提取网络包括AlexNet、vgg、googlenet、resnet等网络,本发明实施例中通过vgg16进行特征提取,将部件编码为一个特征矩阵,然后再映射到一个低维的特征空间。
需要说明的是,vgg16网络是14年牛津大学计算机视觉组和Google DeepMind公司研究员一起研发的深度网络模型。该网络一共有16个训练参数的网络。vgg网络结构简洁,迁移到其他图片数据上的泛化性能非常好。vgg现在依然经常被用来提取图像特征,该网络训练后的模型参数在其官网上开源了,可以用来在图像分类任务上进行在训练,即:提供了非常好的初始化权重,使用较为广泛。
S230,根据每一部件的特征,获取每一部件的名称;
根据每个部件提取的特征,并且基于一些已知的部件名称,根据未知部件与已知名称部件之间的距离关系,推断出每个部件的名称。
举例地,汽车上轮子,方向盘,轮胎都是圆形,与轮子距离相近的圆形更应该被判断为轮胎而不是方向盘。
具体地,通过最近邻算法,获取任意两个部件的特征之间的距离;
对于任一部件,获取目标部件,所述目标部件的特征与所述任一部件的特征距离最近;
将所述目标部件的名称作为所述任一部件的名称。
本发明实施例中通过最近邻算法计算每个部件的特征之间的距离,将距离最近的部件名称作为未知部件的名称。
需要说明的是,最近邻算法(K-Nearest Neighbor,简称KNN)的核心思想是:如果一个样本在特征空间中的k个最相邻的样本中的大多数数是一个类别,则该样本也属于这个类别,并具有该类别上样本的特征。该方法在确定分类决策上,只依据最近邻的一个或者几个样本的类别来决定待分样本所属的类别。
KNN算法没有训练的过程,可以对目标数据直接进行处理,从而节约了计算时间。
S240,将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
接着为了得到目标物体部件与部件之间的几何联系,将每个部件名称、每个部件的中心点、预设特征提取网络的参数输入到父类识别模型中,以联合优化为目标,得到每个部件的父类。
具体地,子图像和部件是一一对应的关系,每个部件的中心点为对应的子图像的像素中心。预设特征提取网络参数可以是预先根据实际情况确定的,本发明实施例中,该预设特征提取网络参数为步骤S220中进行特征提取时特征提取网络的参数。
需要说明的是,以联合优化为目标是指将父类识别模型分割为多个子目标,每个子目标之间是相互独立的,当每个子目标达到最优解的时候,该父类识别模型的目标函数也实现了最优解,即实现了联合优化的最优解目标。每个部件的父类可以看做是每个部件所属的类别,如前所述,汽车可以分为车体和轮胎两个大父类别,而车体父类别又可以分为车门、保险杠、车灯和叶子板等几个子类别,轮胎父类别又可以分为外轮胎和钢圈两个子类别,即车体和轮胎的父类为汽车,车门、保险杠、车灯和叶子板的父类为车体,外轮胎和钢圈的父类为轮胎。得出每个部件的名称和每个部件所属父类后,就可以得到该目标物体的层次结构。如图3所示,汽车的层次结构可以分为轮子、座位、方向盘、门、阻流板、消声器和车体几个父类,轮子父类又可以分为轮胎、轮圈、刹车三个子类,门父类下面包括门把手子类,车体父类包括前灯、仪表盘、方向盘、后备箱、车窗、保险杠、引擎盖、排气管、镜子、车顶、地板和发动机等子类。
还需要说明的是,该父类识别模型在应用之前,需要先利用分类样本进行弱监督学习训练得到,该分类样本中有些部件的父类是已标注出来的,有些部件的父类是未知的,因此采用这些分类样本对父类识别模型进行弱监督学习训练,使得训练后的父类识别模型可以识别出每个部件的父类。
还需要说明的是,在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习。通常,两者都需要从包含大量训练样本的训练数据集中学习预测模型,每个训练样本对应于事件/对象。
本发明实施例中的无监督学习和弱监督学习都属于非监督学习,无监督学习的训练数据只有一个部分:描述事件/对象的特征向量(x),但是没有标签(y)。
聚类学习是非监督学习的代表,对于聚类问题来说,只知道我们有这些样本,x是样本,也许它们有一些不同之处,也许是更好或更不好,也许是更高效或不高效,需要计算机自己去找到一些特征,将这些相似的样本聚成一类,如果有一个新的样本,需要判断它属于哪一类。
弱监督学习可以分为三种典型的类型:不完全监督(Incomplete supervision)、不确切监督(Inexact supervision)和不精确监督(Inaccurate supervision)。
不完全监督是指训练数据中只有一部分数据被给了标签,而另一部分数据是没有标签的。
不确切监督是指,训练数据只给出了粗粒度标签。可以把输入想象成一个包,这个包里面有一些示例,只知道这个包的标签,Y或N,但是不知道每个示例的标签。
不精确监督是指给出的标签不总是正确的,比如本来应该是Y的标签被错误标记成了N。
本发明实施例中输入的目标物体图像从一般网上下载得到,可能有些部件的标注是已知的,但是标注是否正确未知,因此,采用弱监督学习的训练方法,比较符合本方案的实际情况。
本发明实施例提供一种物体图像标注方法,首先对目标物体进行分割出每个部件,并基于特征提取先得出每个部件的名称,为了挖掘目标物体本身固有的几何特征,通过父类识别模型识别出每个部件所属类别,得出每个部件的父类,最终可以得到目标物体每个部件名称以及目标物体不同部件之间的联系。这样就可以描述出目标物体本身的几何特征,充分挖掘目标物体的精细信息,使得物体标注具有更高的鲁棒性。
另外,在机器学习中,一般都需要先利用样本对神经网络模型进行训练之后,才使得该神经网络模型具有应用价值,本发明实施例提供的物体层级标注方法,能自动为物体进行标注,与现有的人工标注方法相比,标注效率大大提高;与现有的扁平式标注方法相比,更能反映目标物体本身的几何联系,充分挖掘目标物体的精细信息,使得通过该方法标注出来的样本对神经网络进行训练后,神经网络的精度和准确度可以大幅度提高。
在车辆定损应用中,通过在网上收集大量车辆照片,采用该物体图像标注方法对车辆照片进行标注,得到标注样本,利用标注样本对车辆定损神经网络模型进行训练,训练后的车辆定损神经网络模型其识别精度更高,免去了人工定损的繁杂和低效。
在上述实施例的基础上,优选地,所述父类识别模型的具体计算公式如下:
E(θ,p,c,M)=λcEcsEsdEdmEm-H,
其中,θ表示所述预设特征提取参数,p表示任一物体的任一部件被分类到任一父类的概率,c表示部件的父类中心点,M表示包含所有部件的目标物体的层次结构,λc表示第一预设参数,λs表示第一预设参数,λd表示第一预设参数,λm表示第一预设参数,Ec表示每一部件到每一父类中心的距离,Es表示相同部件之间的距离,Ed表示同一目标物体上不同部件之间的距离,Em表示父类与子类关系的匹配程度,H表示预设阈值。
具体地,本发明实施例中通过建模得到部件之间的父子关系,用矩阵M∈RD×D来建模父子关系,其中,D表示部件类别的数量,Muv表示部件v的父类是u的概率,学习结束后,M被转化为包含所有部件的层级结构。
本发明实施例中,λc的取值为0.1,λs的取值为1,λd的取值为1,λm的取值为0.05。进行联合优化时,其中Ec、Es、Ed和Em的取值均需要达到最优,其具体计算公式如下:
Figure BDA0003182632460000091
Figure BDA0003182632460000092
Figure BDA0003182632460000093
Figure BDA0003182632460000094
在上述实施例的基础上,优选地,所述父类识别模型基于分类样本训练得到,包括:
初始化每一部件的父类中心点;
对于当前迭代,固定p的取值,计算得到θ、c和M的取值;
固定θ、c和M的取值,优化p的取值,并再次固定p的取值,得到θ、c和M的最优解;
重复上述迭代过程,直到Ec、Es、Ed和Em均为最小。
具体地,在对父类识别模型进行弱监督学习训练时,在初始化时,先随机初始化每个部件的中心点,然后对于一个迭代过程,该迭代过程包括的具体步骤如下:
先假设一个p的取值,然后计算得到其它参数θ、c和M的取值;
接着固定θ、c和M的取值,优化每个部件的概率值p,具体优化目标为:
Figure BDA0003182632460000101
紧接着,固定p的取值,来找到θ、c和M的最优解,如下:
Figure BDA0003182632460000102
重复上述迭代过程,直到直到Ec、Es、Ed和Em均为最小,此时即实现了联合优化。
在上述实施例的基础上,优选地,所述将所述目标物体图像输入到分割网络中,获取每一部件,之前还包括:
对所有样本的名称进行同义词合并,获取所述目标物体的部件,所述部件字典包括所述目标物体中的所有部件及部件标准名称;
将所述部件字典作为所述分割网络训练时的聚类类别。
具体地,在网络上,有大量和车零部件有关的图片,但是不同的车型,零部件的组成和名称会略有不同,因此对于网上收集来的样本,需要先进行预处理,进行同义词合并,即对于同一个部件,给定一个标准名称,最终得到该目标物体的部件字典,比如{汽车:车顶,车门,轮胎,钢圈,排气管,倒车镜..},该部件字典是对目标物体的标准分类。
在分割网络训练过程中,将网上收集来的目标物体的图片作为训练样本,将部件字典的分类作为分割网络训练时的聚类类别,采用无监督学习训练方法,使得训练后的分割网络能实现对图片的分割功能,一般地,常用的分割网络模型有全卷积网络(FullyConvolutional Network,简称FCN)、SegNet、空洞卷积等。
在上述实施例的基础上,优选地,所述目标物体图像通过有根有向树表示,如下:
Hi={Xi,Ei},
Xi={xij|j=1,…,|Xi|},
其中,Hi表示第i个物体的有根有向树,Xi表示第i个物体的所有部件,Ei表示第i个物体的所有边,xij表示第i个物体的第j个部件。
本发明实施例中,通过有根有向树来表示目标物体图像,假设每个目标物体(记为i)由一个场景图表示,通过一棵有根有向树Hi={Xi,Ei},其中节点具有几何特征Xi={xij|j=1,…,|Xi|},每个边(j,k)∈Ei,零部件(i,k)是(i,j)的子代。可以把Xi理解为一棵树的所有的节点,在这个情景下,可以理解为一辆车的所有部件。(i,k)是(i,j)的子类,可以理解为,例如,钢圈是轮胎大类的子类。
本发明一优选实施例提供一种物体图像标注方法,该方法包括如下步骤:
(1)获取从网上收集来的所有分割样本图像,由于同一个部件可能标注不同,需要先进行同义词合并,最后为每个部件给定一个标准名称,即为部件字典。
(2)利用分割样本对分割网络进行无监督训练,将该部件字典中的所有部件类别作为分割网络的聚类类别,得到训练后的分割网络。
(3)将目标物体图像用有根有向树表示,并输入到分割网络中,得到目标物体中的每个部件。
(4)将每个部件输入到vgg16特征提取网络中,对每个部件进行降维处理,得到每个部件的特征。
(5)根据每个部件的特征,采用最近邻算法,计算部件与部件之间的距离,将距离最近部件的名称作为未知部件的名称。
(6)利用分类样本对父类识别模型进行弱监督训练,得到训练后的父类识别模型。
(7)将每个部件、每个部件的中心点、特征提取网络的参数输入到父类识别模型中,以联合优化为目标,得到每个部件的父类。
(8)根据每个部件的名称和每个部件的父类,得到目标物体的层次结构。
综上,本发明实施例提出一种基于无监督学习的物体图像标注方法,该方法法在给定特定类别(例如汽车或飞机)的形状的情况下,可以对目标物体进行分割,标记部件并将部件放置到层次结构中。以车辆为例,这种算法把将整车转换为带有标签的分层部件。这样的的设计可以挖掘复杂的信息,检测人造对象及其组成部分中的层次结构,并获得比人工标注更精细的比例尺细节。此外,这样的标注方式有助于通过使用小样本的有监督学习然后进行迁移,达到比手动标记数据进行有监督学习更好的检测和分割效果。
另外,在机器学习中,一般都需要先利用样本对神经网络模型进行训练之后,才使得该神经网络模型具有应用价值,本发明实施例提供的物体层级标注方法,能自动为物体进行标注,与现有的人工标注方法相比,标注效率大大提高;与现有的扁平式标注方法相比,更能反映目标物体本身的几何联系,充分挖掘目标物体的精细信息,使得通过该方法标注出来的样本对神经网络进行训练后,神经网络的精度和准确度可以大幅度提高。
在车辆定损应用中,通过在网上收集大量车辆照片,采用该物体图像标注方法对车辆照片进行标注,得到标注样本,利用标注样本对车辆定损神经网络模型进行训练,训练后的车辆定损神经网络模型其识别精度更高,免去了人工定损的繁杂和低效,提高了定损效率,降低了定损成本。
本发明实施例还提供一种物体图像标注系统,该系统的结构如图4所示,该系统包括分割模块410、特征提取模块420、名称模块430和类别模块440,其中:
分割模块410用于对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
特征提取模块420用于对每一部件进行特征提取,获取每一部件的特征;
名称模块430用于根据每一部件的特征,获取每一部件的名称;
类别模块440用于将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
具体地,该类别模块430中所述父类识别模型的具体计算公式如下:
E(θ,p,c,M)=λcEcsEsdEdmEm-H,
其中,θ表示所述预设特征提取参数,p表示任一物体的任一部件被分类到任一父类的概率,c表示部件的父类中心点,M表示包含所有部件的目标物体的层次结构,λc表示第一预设参数,λs表示第一预设参数,λd表示第一预设参数,λm表示第一预设参数,Ec表示每一部件到每一父类中心的距离,Es表示相同部件之间的距离,Ed表示同一目标物体上不同部件之间的距离,Em表示父类与子类关系的匹配程度,H表示预设阈值。
具体地,该类别模块430中所述父类识别模型基于分类样本训练得到,包括:
初始化每一部件的父类中心点;
对于当前迭代,固定p的取值,计算得到θ、c和M的取值;
固定θ、c和M的取值,优化p的取值,并再次固定p的取值,得到θ、c和M的最优解;
重复上述迭代过程,直到Ec、Es、Ed和Em均为最小。
具体地,该分割模块410中所述对目标物体图像进行分割,获取每一部件,包括:
将所述目标物体图像输入到分割网络中,获取每一部件,所述分割网络基于分割样本训练得到。
具体地,所述将所述目标物体图像输入到分割网络中,获取每一部件,该物体图像标注系统还包括:预处理模块,该预处理模块位于分割模块之前。
预处理模块,用于对所有样本的名称进行同义词合并,获取所述目标物体的部件,所述部件字典包括所述目标物体中的所有部件及部件标准名称;
将所述部件字典作为所述分割网络训练时的聚类类别。
具体地,该特征提取模块420中所述根据每一部件的特征,获取每一部件的名称,包括:
通过最近邻算法,获取任意两个部件的特征之间的距离;
对于任一部件,获取目标部件,所述目标部件的特征与所述任一部件的特征距离最近;
将所述目标部件的名称作为所述任一部件的名称。
具体地,所述目标物体图像通过有根有向树表示,如下:
Hi={Xi,Ei},
Xi={xij|j=1,…,|Xi|},
其中,Hi表示第i个物体的有根有向树,Xi表示第i个物体的所有部件,Ei表示第i个物体的所有边,xij表示第i个物体的第j个部件。
关于物体图像标注系统的具体限定可以参见上文中对于物体图像标注方法的限定,其实施过程与上述物体图像标注方法的过程相同,详情请参考上述物体图像标注方法实施例,本系统实施例在此不再赘述。上述物体图像标注系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行物体图像标注方法过程中生成或获取的数据,如子图像、部件名称。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种物体图像标注方法,具体如下:
对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
对每一部件进行特征提取,获取每一部件的特征;
根据每一部件的特征,获取每一部件的名称;
将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的物体图像标注方法的步骤。或者,处理器执行计算机程序时实现物体图像标注系统这一实施例中的各模块/单元的功能,例如图4所示的各模块/单元的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中物体图像标注方法的步骤。或者,该计算机程序被处理器执行时实现上述物体图像标注系统这一实施例中的各模块/单元的功能,例如图4所示的各模块/单元的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种物体图像标注方法,其特征在于,包括:
对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
对每一部件进行特征提取,获取每一部件的特征;
根据每一部件的特征,获取每一部件的名称;
将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
2.如权利要求1所述物体图像标注方法,其特征在于,所述父类识别模型的具体计算公式如下:
E(θ,p,c,M)=λcEcsEsdEdmEm-H,
其中,θ表示所述预设特征提取参数,p表示任一物体的任一部件被分类到任一父类的概率,c表示部件的父类中心点,M表示包含所有部件的目标物体的层次结构,λc表示第一预设参数,λs表示第一预设参数,λd表示第一预设参数,λm表示第一预设参数,Ec表示每一部件到每一父类中心的距离,Es表示相同部件之间的距离,Ed表示同一目标物体上不同部件之间的距离,Em表示父类与子类关系的匹配程度,H表示预设阈值。
3.如权利要求2所述物体图像标注方法,其特征在于,所述父类识别模型基于分类样本训练得到,包括:
初始化每一部件的父类中心点;
对于当前迭代,固定p的取值,计算得到θ、c和M的取值;
固定θ、c和M的取值,优化p的取值,并再次固定p的取值,得到θ、c和M的最优解;
重复上述迭代过程,直到Ec、Es、Ed和Em均为最小。
4.如权利要求1至3任一所述物体图像标注方法,其特征在于,所述对目标物体图像进行分割,获取每一部件,包括:
将所述目标物体图像输入到分割网络中,获取每一部件,所述分割网络基于分割样本训练得到。
5.如权利要求4所述物体图像标注方法,其特征在于,所述将所述目标物体图像输入到分割网络中,获取每一部件,之前还包括:
对所有样本的名称进行同义词合并,获取所述目标物体的部件,所述部件字典包括所述目标物体中的所有部件及部件标准名称;
将所述部件字典作为所述分割网络训练时的聚类类别。
6.如权利要求1至3任一所述物体图像标注方法,其特征在于,所述根据每一部件的特征,获取每一部件的名称,包括:
通过最近邻算法,获取任意两个部件的特征之间的距离;
对于任一部件,获取目标部件,所述目标部件的特征与所述任一部件的特征距离最近;
将所述目标部件的名称作为所述任一部件的名称。
7.如权利要求1至3任一所述物体图像标注方法,其特征在于,所述目标物体图像通过有根有向树表示,如下:
Hi={Xi,Ei},
Xi={xij|j=1,…,|Xi|},
其中,Hi表示第i个物体的有根有向树,Xi表示第i个物体的所有部件,Ei表示第i个物体的所有边,xij表示第i个物体的第j个部件。
8.一种物体图像标注系统,其特征在于,包括:
分割模块,用于对目标物体图像进行分割,获取若干子图像,每一子图像表示目标物体中的每一部件;
特征提取模块,用于对每一部件进行特征提取,获取每一部件的特征;
名称模块,用于根据每一部件的特征,获取每一部件的名称;
类别模块,用于将所述目标物体图像中每一部件、每一部件的中心点、预设特征提取参数输入到父类识别模型中,获取每一部件的父类,并根据每一部件的名称和每一部件的父类对所述目标物体的进行标注,其中,每一部件的中心点根据每一部件对应的子图像获得。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述物体图像标注方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述物体图像标注方法的步骤。
CN202110851854.0A 2021-07-27 2021-07-27 物体图像标注方法、系统、设备及存储介质 Active CN113435463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110851854.0A CN113435463B (zh) 2021-07-27 2021-07-27 物体图像标注方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110851854.0A CN113435463B (zh) 2021-07-27 2021-07-27 物体图像标注方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113435463A true CN113435463A (zh) 2021-09-24
CN113435463B CN113435463B (zh) 2023-06-06

Family

ID=77762055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110851854.0A Active CN113435463B (zh) 2021-07-27 2021-07-27 物体图像标注方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113435463B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494711A (zh) * 2022-02-25 2022-05-13 南京星环智能科技有限公司 一种图像特征的提取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150078655A1 (en) * 2013-09-18 2015-03-19 Canon Kabushiki Kaisha Devices, systems, and methods for large-scale linear discriminant analysis of images
CN109325546A (zh) * 2018-10-19 2019-02-12 大连海事大学 一种结合步法特征的成趟足迹识别方法
CN111291803A (zh) * 2020-01-21 2020-06-16 中国科学技术大学 一种图像分级粒度迁移方法、系统、设备和介质
CN112329659A (zh) * 2020-11-10 2021-02-05 平安科技(深圳)有限公司 基于车辆图像的弱监督语义分割方法及其相关设备
CN112926654A (zh) * 2021-02-25 2021-06-08 平安银行股份有限公司 预标注模型训练、证件预标注方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150078655A1 (en) * 2013-09-18 2015-03-19 Canon Kabushiki Kaisha Devices, systems, and methods for large-scale linear discriminant analysis of images
CN109325546A (zh) * 2018-10-19 2019-02-12 大连海事大学 一种结合步法特征的成趟足迹识别方法
CN111291803A (zh) * 2020-01-21 2020-06-16 中国科学技术大学 一种图像分级粒度迁移方法、系统、设备和介质
CN112329659A (zh) * 2020-11-10 2021-02-05 平安科技(深圳)有限公司 基于车辆图像的弱监督语义分割方法及其相关设备
CN112926654A (zh) * 2021-02-25 2021-06-08 平安银行股份有限公司 预标注模型训练、证件预标注方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494711A (zh) * 2022-02-25 2022-05-13 南京星环智能科技有限公司 一种图像特征的提取方法、装置、设备及存储介质
CN114494711B (zh) * 2022-02-25 2023-10-31 南京星环智能科技有限公司 一种图像特征的提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113435463B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
US11475660B2 (en) Method and system for facilitating recognition of vehicle parts based on a neural network
CN113221905B (zh) 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
Yu et al. Fully convolutional networks for surface defect inspection in industrial environment
WO2018188270A1 (zh) 一种图像语义分割方法及装置
CN106557579B (zh) 一种基于卷积神经网络的车辆型号检索系统及方法
Alidoost et al. A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image
CN108877267B (zh) 一种基于车载单目相机的交叉路口检测方法
CN111274926B (zh) 图像数据筛选方法、装置、计算机设备和存储介质
CN113033604A (zh) 一种基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质
CN110781381B (zh) 基于神经网络的数据验证方法、装置、设备及存储介质
Rateke et al. Passive vision region-based road detection: A literature review
CN111898665A (zh) 基于邻居样本信息引导的跨域行人再识别方法
CN113435463B (zh) 物体图像标注方法、系统、设备及存储介质
CN113177528B (zh) 基于多任务学习策略训练网络模型的车牌识别方法及系统
Li et al. A novel approach for vehicle detection using an AND–OR-graph-based multiscale model
de las Heras et al. Notation-invariant patch-based wall detector in architectural floor plans
CN106650814A (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
CN115496948A (zh) 一种基于深度学习的网络监督细粒度图像识别方法和系统
Liu et al. Multi-lane detection via multi-task network in various road scenes
Yin et al. Towards perspective-free pavement distress detection via deep learning
CN114067243A (zh) 自动驾驶场景识别方法、系统、设备及存储介质
Bezawada et al. Modeling lane and road characteristics for drive quality rating
CN112380913A (zh) 基于动态调整和局部特征向量联合的车牌检测识别方法
CN110942179A (zh) 一种自动驾驶路线规划方法、装置及车辆
Goel et al. Enhancement of Potholes Detection using SSD Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231031

Address after: Room 301-2, No. 206 Kaibin Road, Xuhui District, Shanghai, 200000

Patentee after: Ping An Technology (Shanghai) Co.,Ltd.

Address before: 518000 Guangdong, Shenzhen, Futian District Futian street Fu'an community Yitian road 5033, Ping An financial center, 23 floor.

Patentee before: PING AN TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right