CN110222718B - 图像处理的方法及装置 - Google Patents
图像处理的方法及装置 Download PDFInfo
- Publication number
- CN110222718B CN110222718B CN201910386393.7A CN201910386393A CN110222718B CN 110222718 B CN110222718 B CN 110222718B CN 201910386393 A CN201910386393 A CN 201910386393A CN 110222718 B CN110222718 B CN 110222718B
- Authority
- CN
- China
- Prior art keywords
- confidence
- initial
- information
- target
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000012937 correction Methods 0.000 claims abstract description 133
- 238000012545 processing Methods 0.000 claims abstract description 117
- 239000011159 matrix material Substances 0.000 claims description 166
- 239000013598 vector Substances 0.000 claims description 148
- 238000000034 method Methods 0.000 claims description 113
- 238000013528 artificial neural network Methods 0.000 claims description 111
- 230000015654 memory Effects 0.000 claims description 69
- 238000003860 storage Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000013527 convolutional neural network Methods 0.000 description 37
- 238000011176 pooling Methods 0.000 description 37
- 238000004891 communication Methods 0.000 description 26
- 238000012549 training Methods 0.000 description 20
- 210000003128 head Anatomy 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 11
- 230000001537 neural effect Effects 0.000 description 10
- 238000013500 data storage Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000872 buffer Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 241001252601 Blumea Species 0.000 description 2
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- HVVWZTWDBSEWIH-UHFFFAOYSA-N [2-(hydroxymethyl)-3-prop-2-enoyloxy-2-(prop-2-enoyloxymethyl)propyl] prop-2-enoate Chemical compound C=CC(=O)OCC(CO)(COC(=O)C=C)COC(=O)C=C HVVWZTWDBSEWIH-UHFFFAOYSA-N 0.000 description 2
- 238000013386 optimize process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Abstract
本申请属于人工智能领域的计算机视觉领域。本申请提供了一种图像处理的方法,包括:获取待处理图像;对待处理图像进行处理,得到N个第一初始置信度,N个第一初始置信度与待处理图像所对应的N个种类一一对应;获取先验信息;根据先验信息,得到与N个第一初始置信度一一对应的N个第一修正置信度;根据N个第一修正置信度,对N个第一初始置信度中的n个第一初始置信度进行修正,得到待处理图像属于N个种类的N个置信度,n≤N且n为正整数;根据N个置信度,确定待处理图像对应的标签。本申请提供一种图像处理的方法及装置,目的在于显著提高图像识别的准确率。
Description
技术领域
本申请涉及人工智能领域中的计算及视觉领域中的图像处理领域,更具体地,特别涉及一种图像处理的方法及装置。
背景技术
计算机视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分,它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等,从而使计算机能够感知环境,使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。
近年来,神经网络特别是卷积神经网络在图像处理、图像识别类应用上取得了巨大的成功。例如,通过神经网络可以对图像中的人物、场景进行识别,获取图像中人物、场景的统计信息。为了提高识别复杂场景的准确率,需要对现有的识别方法进行优化。
发明内容
本申请提供一种图像处理的方法及装置,目的在于显著提高图像识别的准确率。
第一方面,提供了一种图像处理的方法,包括:获取待处理图像;对所述待处理图像进行处理,得到N个第一初始置信度,所述N个第一初始置信度与所述待处理图像所对应的N个种类一一对应,所述N个第一初始置信度中的任一第一初始置信度用于表征属于所述任一第一初始置信度对应的种类的程度,N为大于1的整数;获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余所有种类的概率,所述第一子信息是所述M个子信息中的任意一个子信息,M为正整数;根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个第一修正置信度;根据所述N个第一修正置信度,对所述N个第一初始置信度中的n个第一初始置信度进行修正,得到所述待处理图像属于所述N个种类的N个置信度,n≤N且n为正整数;根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
在本申请实施例中,通过一些普遍存在的现象、知识等信息,对图像识别结果进行修正,使图像识别结果更加符合常理,避免因环境复杂等因素影响图像识别的准确率,有利于提高图像识别模型的识别准确率。
结合第一方面,在第一方面的某些实现方式中,所述对所述待处理图像进行处理,包括:通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的初始置信度,K为大于1的整数;其中,所述N个第一初始置信度与第一分支对应,所述第一分支为所述K个分支中的任意一个分支。
在本申请实施例中,可以利用多分支神经网络进行图像识别。也就是说,可以利用先验信息修正神经网络计算的中间计算结果。利用先验信息修正图像识别结果的可应用场景较多,具有较强的灵活性。
结合第一方面,在第一方面的某些实现方式中,所述根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个修正初始置信度,包括:根据所述先验信息以及关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度;其中,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述N个第一初始置信度中的任一个,所述目标第二初始置信度为N个第二初始置信度中的一个,所述目标第一初始置信度对应的种类与所述目标第二初始置信度对应的种类相同,所述N个第二初始置信度与所述K个分支中的第二分支对应,所述第二分支与所述第一分支不同。
在本申请实施例中,在利用先验信息的基础上,利用分支与分支之间的关联修正图像识别结果,可以进一步提高图像识别结果的准确性。也就是说,待处理图像被输入至多分支神经网络中,可以得到多个分支。由于分支与分支之间存在某种关联,本申请提供的方法可以利用分支与分支之间的关联修正图像识别结果。
结合第一方面,在第一方面的某些实现方式中,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,其中,所述K-1个初始置信度与所述目标第一初始置信度均对应相同种类。
在本申请实施例中,分支与分支之间的关联可以通过均值、极值等体现,具有较强的灵活性。
结合第一方面,在第一方面的某些实现方式中,所述目标第一修正置信度满足:
其中,为与第l分支、第j个种类对应的目标第一修正置信度,Ql,i为与第l分支、第j个种类对应的关联置信度,Cj,i为同一图像在属于第i个种类的情况下属于所述第j个种类的概率,/>为同一图像在不属于第i个种类的情况下属于所述第j个种类的概率,l为大于等于1小于等于K的正整数,i、j为大于等于1小于等于N的正整数。
在本申请实施例中,通过上述公式可以快速计算出修正置信度,以实现快速修正图像识别结果。
结合第一方面,在第一方面的某些实现方式中,所述对所述待处理图像进行处理,得到N个第一初始置信度,包括:通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的置信度数据,N、K为大于1的整数;汇总所述K个分支,得到所述N个第一初始置信度,所述N个第一初始置信度为所述待处理图像属于所述N个种类中的每个种类的初始置信度。
在本申请实施例中,可以利用先验信息最终的计算结果进行修正。利用先验信息修正图像识别结果的可应用场景较多,具有较强的灵活性。
结合第一方面,在第一方面的某些实现方式中,在所述汇总所述K个分支之前,所述方法还包括:根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,其中,所述关联置信度信息由目标第二初始置信度得到,所述K个分支包括第一分支以及第二分支,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的任一个;所述汇总所述K个分支,包括:根据所述目标第一修正置信度,汇总所述K个分支。
在本申请实施例中,在利用先验信息的基础上,利用分支与分支之间的关联修正图像识别结果,可以进一步提高图像识别结果的准确性。也就是说,待处理图像被输入至多分支神经网络中,可以得到多个分支。由于分支与分支之间存在某种关联,本申请提供的方法可以利用分支与分支之间的关联修正图像识别结果。根据分支关联、先验信息单独修正,可以降低修正难度。
结合第一方面,在第一方面的某些实现方式中,所述获取先验信息,包括:获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,且所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,且所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数;所述根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个第一修正置信度,包括:根据所述第一先验信息矩阵、所述第二先验信息矩阵,通过联合概率公式得到修正置信度矩阵,所述修正置信度矩阵包含第三向量,所述第三向量包含所述N个第一修正置信度;所述根据所述N个第一修正置信度,对所述n个第一初始置信度进行修正,得到所述待处理图像属于所述N个种类的N个置信度,包括:确定修正系数;根据所述修正置信度矩阵以及所述修正系数,对所述n个第一初始置信度进行修正,得到置信度向量,所述置信度向量包括所述N个置信度。
在本申请实施例中,通过矩阵运算可以快速计算出修正置信度,以实现快速修正图像识别结果。
结合第一方面,在第一方面的某些实现方式中,所述修正置信度矩阵满足:
其中,C为所述第一先验信息矩阵,/>为所述第二先验信息矩阵。
在本申请实施例中,通过上述公式可以快速计算出修正置信度,以实现快速修正图像识别结果。
第二方面,提供了一种图像处理的方法,包括:获取待处理图像;通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于N个种类中的每个种类的初始置信度,任一初始置信度用于表征属于与所述任一初始置信度对应的种类的程度,所述K个分支包括第一分支以及第二分支,N为正整数且K为大于1的整数;根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的一个;根据所述目标第一修正置信度,修正所述目标第一初始置信度,得到所述待处理图像属于所述N个种类的N个置信度;根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
在本申请实施例中,利用分支与分支之间的关联修正图像识别结果,可以提高图像识别结果的准确性。也就是说,待处理图像被输入至多分支神经网络中,可以得到多个分支。由于分支与分支之间存在某种关联,本申请提供的方法可以利用分支与分支之间的关联修正图像识别结果。
结合第二方面,在第二方面的某些实现方式中,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,所述K-1个初始置信度对应所述目标种类。
在本申请实施例中,分支与分支之间的关联可以通过均值、极值等体现,具有较强的灵活性。
结合第二方面,在第二方面的某些实现方式中,所述方法还包括:获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息,M为正整数;所述根据关联置信度信息,得到所述目标第一修正置信度,包括:根据所述先验信息以及所述关联置信度信息,得到所述目标第一修正置信度。
在本申请实施例中,在利用分支与分支之间的关联的基础上,利用先验信息修正图像识别结果,可以进一步提高图像识别结果的准确性。通过一些普遍存在的现象、知识等信息,对图像识别结果进行修正,使图像识别结果更加符合常理,避免因环境复杂等因素影响图像识别的准确率,有利于提高图像识别模型的识别准确率。
结合第二方面,在第二方面的某些实现方式中,所述关联置信度信息为关联置信度矩阵,所述关联置信度矩阵包含与所述K个分支一一对应的K个第四向量,所述K个第四向量中的任一第四向量包含与所述N个种类一一对应的N个关联置信度,所述N个关联置信度中的第j个关联置信度由与所述K个第四向量中除所述任一第四向量以外的剩余K-1个第四向量一一对应的K-1个关联置信度的最大值或平均值得到,所述第j个关联置信度以及所述K-1个关联置信度对应相同种类;所述获取先验信息,包括:获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数;所述根据所述先验信息以及所述关联置信度信息,得到所述目标第一修正置信度,包括:根据所述第一先验信息矩阵、所述第二先验信息矩阵以及所述关联置信度矩阵,通过联合概率公式得到修正置信度矩阵,所述修正置信度矩阵包含与所述K个分支一一对应的K个第三向量,所述K个第三向量中的任一个包含与所述N个种类一一对应的N个修正置信度;所述根据所述目标第一修正置信度,修正所述目标第一初始置信度,得到所述待处理图像属于所述N个种类的N个置信度,包括:确定修正系数;根据所述修正置信度矩阵以及所述修正系数,修正所述目标第一初始置信度,得到置信度向量,所述置信度向量包含所述N个置信度。
在本申请实施例中,在本申请实施例中,通过矩阵运算可以快速计算出修正置信度,以实现快速修正图像识别结果。
结合第二方面,在第二方面的某些实现方式中,所述修正置信度矩阵满足:
其中,Q为所述关联置信度矩阵,C为所述第一先验信息矩阵,为所述第二先验信息矩阵。
在本申请实施例中,通过上述公式可以快速计算出修正置信度,以实现快速修正图像识别结果。
结合第二方面,在第二方面的某些实现方式中,所述根据所述目标第一修正置信度,得到所述待处理图像属于所述N个种类的N个置信度,包括:根据所述目标第一修正置信度,汇总所述K个分支,得到所述待处理图像属于所述N个种类中的每个种类的N个初始置信度;获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像在属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息;根据所述先验信息,得到与所述N个初始置信度中的一一对应的N个修正置信度;根据所述N个修正置信度,对所述N个初始置信度中的n个初始置信度进行修正,得到所述N个置信度。
在本申请实施例中,在利用分支与分支之间的关联的基础上,利用先验信息修正图像识别结果,可以进一步提高图像识别结果的准确性。通过一些普遍存在的现象、知识等信息,对图像识别结果进行修正,使图像识别结果更加符合常理,避免因环境复杂等因素影响图像识别的准确率,有利于提高图像识别模型的识别准确率。根据分支关联、先验信息单独修正,可以降低修正难度。
第三方面,提供了一种图像处理的装置,所述装置包括用于执行所述第一方面或者第一方面的任一可能的实现方式中的方法的模块。
可选的,所述装置可以是云端服务器,也可以是终端设备。
第四方面,提供了一种图像处理的装置,所述装置包括用于执行所述第二方面或者第二方面的任一可能的实现方式中的方法的模块。
可选的,所述装置可以是云端服务器,也可以是终端设备。
第五方面,提供了一种图像处理的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面中的任意一种实现方式中的方法。
可选的,所述装置可以是云端服务器,也可以是终端设备。
第六方面,提供了一种图像处理的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第二方面中的任意一种实现方式中的方法。
可选的,所述装置可以是云端服务器,也可以是终端设备。
第七方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面至第二方面中的任意一种实现方式中的方法。
第八方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面至第二方面中的任意一种实现方式中的方法。
第九方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面至第二方面中的任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面至第二方面中的任意一种实现方式中的方法。
附图说明
图1是本申请实施例提供的一种系统架构的结构示意图。
图2为本申请实施例提供的一种神经网络处理器的结构示意图。
图3为本申请实施例提供的一种芯片的硬件结构示意图。
图4为本申请实施例提供的一种系统架构的示意图。
图5为本申请实施例提供的一种人工智能主体框架示意图。
图6为本申请实施例提供的一种应用环境的示意图。
图7为本申请实施例提供的一种应用环境的示意图。
图8为本申请实施例的一种图像处理的方法的示意性流程图。
图9是本申请实施例的一种图像处理的方法的示意性流程图。
图10是本申请实施例的一种图像处理的方法的示意性流程图。
图11是本申请实施例的一种图像处理的方法的示意性流程图。
图12是本申请实施例的一种图像处理的方法的示意性流程图。
图13是本申请实施例的图像处理装置的示意性框图。
图14是本申请实施例的图像处理装置的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……、n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)深度神经网络
深度神经网络(Deep Neural Network,DNN),也称多层神经网络,可以理解为具有很多层隐含层的神经网络,这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,/>是输出向量,/>是偏移向量,W是权重矩阵(也称系数),α是激活函数。每一层仅仅是对输入向量/>经过如此简单的操作得到输出向量/>由于DNN层数多,则系数W和偏移向量/>的数量也就很多了。这些参数在DNN中的定义如下所述:以系数W为例:假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是:第L-1层的第k个神经元到第L层的第j个神经元的系数定义为/>需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
(3)卷积神经网络
卷积神经网络(CNN,Convolutional Neuron Network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是:图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置,都能使用同样的学习得到的图像信息。在同一卷积层中,可以使用多个卷积核来提取不同的图像信息,一般地,卷积核数量越多,卷积操作反映的图像信息越丰富。
卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
下面介绍本申请实施例提供的系统架构。
参见附图1,本发明实施例提供了一种系统架构100。如所述系统架构100所示,目标模型/规则101可以由训练设备(图1未示出)训练得到。在本申请实施例中,目标模型/规则101可以用于识别图像。本申请实施例中的目标模型/规则101具体可以为卷积神经网络、多分支神经网络等。
根据训练设备训练得到的目标模型/规则101可以应用于不同的系统或设备中,如应用于图1所示的执行设备110,所述执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,AR/VR,车载终端等,还可以是服务器或者云端等。在图1中,执行设备110配置有I/O接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:摄像头拍摄的图像、与图像对应的标签等。输入数据可以是用户输入的,也可以是从数据库中导出的。
预处理模块113用于根据I/O接口112接收到的输入数据(例如摄像头拍摄的图像)进行预处理,在本申请实施例中,预处理模块113可以用于执行图像降噪、图像压缩等处理。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果返回给客户设备140,从而提供给用户。
在附图1中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,附图1仅是本发明实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图1中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。
如前文的基础概念介绍所述,卷积神经网络是一种带有卷积结构的深度神经网络,是一种深度学习(deep learning)架构,深度学习架构是指通过机器学习的算法,在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构,CNN是一种前馈(feed-forward)人工神经网络,该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。
如图2所示,卷积神经网络(CNN)200可以包括输入层210,卷积层/池化层220(其中池化层为可选的),以及神经网络层230。
卷积层/池化层220:
卷积层:
如图2所示卷积层/池化层220可以包括如示例221-226层,举例来说:在一种实现中,221层为卷积层,222层为池化层,223层为卷积层,224层为池化层,225为卷积层,226为池化层;在另一种实现方式中,221、222为卷积层,223为池化层,224、225为卷积层,226为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
下面将以卷积层221为例,介绍一层卷积层的内部工作原理。
卷积层221可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的,在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同,再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得卷积神经网络200进行正确的预测。
当卷积神经网络200有多个卷积层的时候,初始的卷积层(例如221)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络200深度的加深,越往后的卷积层(例如226)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此卷积层之后常常需要周期性的引入池化层,在如图2中220所示例的221-226各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络层230:
在经过卷积层/池化层220的处理后,卷积神经网络200还不足以输出所需要的输出信息。因为如前所述,卷积层/池化层220只会提取特征,并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息),卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此,在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像超分辨率重建等等。
在神经网络层230中的多层隐含层之后,也就是整个卷积神经网络200的最后层为输出层240,该输出层240具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成,反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络200的损失,及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。
需要说明的是,如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例,在具体的应用中,卷积神经网络还可以以其他网络模型的形式存在。
下面介绍本申请实施例提供的一种芯片硬件结构。
图3为本发明实施例提供的一种芯片硬件结构,该芯片包括神经网络处理器30。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。
神经网络处理器NPU30可以作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路303,控制器304控制运算电路303提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路303内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路303是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器302中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)308中。
向量计算单元307可以对运算电路303的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算,如池化(Pooling),批归一化(Batch Normalization),局部响应归一化(Local Response Normalization)等。
在一些实现中,向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如,向量计算单元307可以将非线性函数应用到运算电路303的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元307生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路303的激活输入,例如用于在神经网络中的后续层中的使用。
本申请提供的方法的部分或全部步骤可以由运算电路303或向量计算单元307执行。
统一存储器306用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器305(Direct Memory AccessController,DMAC)将外部存储器中的输入数据搬运到输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302,以及将统一存储器306中的数据存入外部存储器。
总线接口单元(Bus Interface Unit,BIU)310,用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。
与控制器304连接的取指存储器(instruction fetch buffer)309,用于存储控制器304使用的指令。
控制器304,用于调用取指存储器309中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器306,输入存储器301,权重存储器302以及取指存储器309均为片上(On-Chip)存储器,外部存储器为私有于该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random AccessMemory,简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory,HBM)或其他可读可写的存储器。
其中,图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。
如图4所示,本申请实施例提供了一种系统架构400。该系统架构包括本地设备401、本地设备402以及执行设备410和数据存储系统450,其中,本地设备401和本地设备402通过通信网络与执行设备410连接。
执行设备410可以由一个或多个服务器实现。可选的,执行设备410可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备410可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备410可以使用数据存储系统450中的数据,或者调用数据存储系统450中的程序代码来实现本申请实施例的搜索神经网络结构的方法。
具体地,执行设备410可以搭建成一个图像识别神经网络,该图像识别神经网络可以用于图像识别或者进行图像处理等等。
用户可以操作各自的用户设备(例如本地设备401和本地设备402)与执行设备410进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备410进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种实现方式中,本地设备401、本地设备402从执行设备410获取到图像识别神经网络的相关参数,将图像识别神经网络部署在本地设备401、本地设备402上,利用该图像识别神经网络进行图像识别或者图像处理等等。
在另一种实现中,执行设备410上可以直接部署图像识别神经网络,执行设备410通过从本地设备401和本地设备402获取待处理图像,并根据图像识别神经网络对待处理图像进行识别或者其他类型的图像处理。
上述执行设备410也可以称为云端设备,此时执行设备410一般部署在云端。
图5示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“信息技术(information technology,IT)价值链”(垂直轴)两个维度对上述人工智能主题框架进行详细的阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。
基础设施可以通过传感器与外部沟通,基础设施的计算能力可以由智能芯片提供。
这里的智能芯片可以是中央处理器(central processing unit,CPU)、神经网络处理器(neural-network processing unit,NPU)、图形处理器(graphics processingunit,GPU)、专门应用的集成电路(application specific integrated circuit,ASIC)以及现场可编程门阵列(field programmable gate array,FPGA)等硬件加速芯片。
基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。
例如,对于基础设施来说,可以通过传感器和外部沟通获取数据,然后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据:
基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理:
上述数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等处理方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力:
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用:
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
本申请实施例可以应用在人工智能中的很多领域,例如,智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市等领域。
具体地,本申请实施例可以具体应用在图像分类、图像检索、图像语义分割、图像超分辨率和自然语言处理等需要使用(深度)神经网络的领域。
下面对相册图片分类和平安城市这两种应用场景进行简单的介绍。
相册图片分类:
具体地,当用户在终端设备(例如,手机)或者云盘上存储了大量的图片时,通过对相册中图像进行识别可以方便用户或者系统对相册进行分类管理,提升用户体验。
利用本申请实施例的图像处理方法能够为图片打上标签,便于用户查看和查找。另外,这些图片的分类标签也可以提供给相册管理系统进行分类管理,节省用户的管理时间,提高相册管理的效率,提升用户体验。其中,该图像处理方法可以在终端设备本地执行。
例如,如图6所示,可以通过神经网络构建系统构建得到适用于相册分类的神经网络。可选的,在构建该神经网络时,可以利用训练图片库的对图像识别网络结构进行优化,得到优化后的网络结构,然后再利用该优化后的网络结构进行图像识别。可选的,在获得适用于相册分类的神经网络之后,可以再根据训练图片对该相册分量神经网络进行训练。接下来,就可以利用相册分类神经网络为待处理图片打上标签,以实现相册分量。如图6所示,相册分类神经网络对输入的图片进行处理,得到图片的标签为女性、双肩包、长发等。
平安城市:
如图7所示,平安城市中的行人识别系统可以包括城市监控摄像机、行人识别模块和标签匹配模块。行人识别系统通过城市监控摄像机采集的图像或视频,通过行人识别模块(该行人识别模块具体可以采用本申请实施例的图像处理的方法对行人的外貌、行为等进行识别)识别出监控视频中行人的各种标签(如男性或女性、衣着、身高等)。可选的,行人识别系统还可以包括标签匹配模块,利用标签匹配模块可以将行人的标签与目标人物的标签进行匹配。当监控视频中的人出现与目标人物类似的属性时,可以向相关部分发出提示或报警信息。
将待处理图像输入至如图2所示的卷积神经网络200,可以对该图像进行识别,获取与该图像对应的标签。以行人为例,图6或图7所示的待处理图像为一个长发少女(年龄在15-30岁之间)的照片,该长发少女穿着长裤、背双肩包。对该待处理图像可以获得如下标签:女性,15-30岁、长发、长裤、双肩包。又以物体为例,待处理图像可以是一辆车的照片,从图中可以获取该车的车牌号、车的颜色、车的品牌型号等相关的标签。
在卷积神经网络200对该待处理图像进行图像识别出来的过程中,可以获取该待处理图像的若干个置信度。置信度可以是指该待处理图像属于某个种类的概率。因此,在本申请中,置信度往往与种类是一一对应的。并且,置信度可以用来表征待处理图像属于某个种类的程度。置信度越大,该待处理图像属于某个种类的可能性越大。
以图6或图7所示的待处理图像为例。种类可以包括男性、女性。该待处理图像属于女性种类的概率为90%,属于男性种类的概率为10%。那么,该待处理图像属于女性种类的置信度为90%,属于男性种类的置信度为10%。也就是说,该待处理图像中的人物更有可能为女性。
而当置信度满足预设条件时,可以根据该置信度确定该待处理图像的标签。仍以图6或图7所示的待处理图像为例,该待处理图像属于女性种类的置信度为90%,属于男性种类的置信度为10%,由于女性种类对应的置信度明显高于男性种类对应的置信度,可以确定该待处理图像的标签为女性,而不是男性。
然而在待处理图像较为复杂的情况下,通过传统的卷积神经网络无法获取准确的标签。因此本申请为了提高待处理图像的识别准确率,本申请提供了一种图像处理的方法。一方面,该方法可以通过先验知识(prior knowledge)或先验分布(prior distribution),对图像识别过程中产生的结果进行修正。另一方面,该方法可以通过多分支神经网络获取多个分支的识别结果,并基于该多个分支的识别结果对图像识别过程中产生的结果进行修正。
其中,先验知识是先于经验的知识,它不依赖感觉或其他类型的经验。另外,先验分布是概率分布的一种,与“后验分布”相对。先验分布与试验结果无关,反映在进行统计试验之前根据其他有关参数口的知识而得到的分布。
为了描述更加清楚,在本申请中,初始置信度为待修正的置信度。例如,通过传统的卷积神经网络可以获取初始置信度,而本申请提供的方法可以对该初始置信度进行修正,以提高图像识别的准确率。对初始置信度修正的目的是得到该待处理图像属于若干种类的置信度。本申请将在修正该初始置信度的过程中可能产生的中间结果称作修正置信度。换句话说,本申请实施例通过修正置信度来修正初始置信度以获取最终的置信度。
下面先结合图8对本申请实施例的图像处理的方法进行详细的介绍。图8所示的方法包括步骤801至806,下面分别对这些步骤进行详细的描述。
801,获取待处理图像。
例如,该待处理图像可以是图1所示的输入数据。又如,该待处理图像可以是图2所示的待处理图像。又如,该待处理图像可以是图3所示的外部存储器输入神经网络处理器30的数据。又如,该待处理图像可以是图4所示的本地设备401/本地设备402获取到的图像。
该待处理图像可以是从摄像头拍摄到的图像,也可以是对该拍摄图像进行修剪、压缩、降噪等处理后的待识别图像。
802,对所述待处理图像进行处理,得到N个第一初始置信度,所述N个第一初始置信度与所述待处理图像所对应的N个种类一一对应,所述N个第一初始置信度中的任一第一初始置信度用于表征属于所述任一第一初始置信度对应的种类的程度,N为大于1的整数。
对待处理图像进行处理的方式,可以是将该待处理图像输入如图2所示的卷积神经网络200中的卷积层/池化层220以及神经网络层230,在神经网络层230中的输出层输出处理后的图像。通过卷积层220提取特征、通过池化层220减少训练参数数量、通过神经网络层230中的隐含层生成并输出该N个第一初始置信度。其中,通过卷积层提取特征、通过池化层减少训练参数数量在图像识别中的应用较为常见,在此不再赘述。
其中,可以通过神经网络层230中的隐含层或输出层确定该N个第一初始置信度。
在一个示例中,该N个第一初始置信度为输出层的上一层(隐含层)的输出结果。即可以将该N个第一初始置信度输入输出层进行修正。换句话说,可以在该输出层对该N个第一初始置信度进行修正。
在一个示例中,该N个第一初始置信度为输出层的前N层(隐含层,N为大于1的整数)的输出结果。即可以将该N个第一初始置信度输入隐含层进行修正。换句话说,可以在该隐含层对该N个第一初始置信度进行修正。
其中,该N个第一初始置信度可以是该待处理图像属于N个种类中的每个种类的初始置信度。
情况1,将由传统神经网络获得的置信度作为初始置信度进行修正。
仍以图6、图7所示的待处理图像为例,通过传统神经网络,可以获得该待处理图像属于女性种类的概率为90%,该待处理图像属于长发种类的概率为70%。那么,可以将与女性种类、长发种类对应的置信度作为初始置信度进行修正。
可选的,通过传统神经网络对所述待处理图像进行处理,可以获得初始置信度矩阵P:
P=[P1 … Pj … PN]
其中,Pj用于表示第j个种类对应的第一初始置信度。
情况2,可以对多分支神经网络获得的置信度数据进行汇总,并将汇总后得到的数据作为初始置信度进行修正。
可选的,通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的置信度数据,N、K为大于1的整数;汇总所述K个分支,得到所述N个第一初始置信度,所述N个第一初始置信度为所述待处理图像属于所述N个种类中的每个种类的初始置信度。
换句话说,待处理图像可以输入多分支神经网络,得到多个分支的置信度数据。仍以图6、图7所示的待处理图像为例,通过多分支神经网络,可以将待处理图像分为头部分支、上身分支、下身分支。因此,可以分别获取头部分支、上身分支、下身分支均属于女性的置信度。之后,可以将对多个分支的置信度数据进行汇总后得到的置信度数据作为初始置信度(即待修正的置信度)。
将多个分支的结果进行汇总较为常见。例如,取多分支的最大值或平均值为汇总后的数据。
可选的,通过对多分支神经网络获得的置信度数据进行汇总,可以获得初始置信度矩阵P:
P=[P1 … Pj … PN]
其中,Pj用于表示第j个种类对应的第一初始置信度。
其中,该N个第一初始置信度为神经网络的中间计算结果。
情况3,该N个第一初始置信度为某个分支属于N个种类中的每个种类的初始置信度。
可选的,通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的初始置信度,K为大于1的整数;其中,所述N个第一初始置信度与第一分支对应,所述第一分支为所述K个分支中的任意一个分支。
将待处理图像输入多分支神经网络,可以得到多个分支,该N个第一初始置信度可以是该多个分支中的一个分支属于N个种类中的每个种类的初始置信度。换句话说,可以对多个分支中的一个或多个分支的初始置信度进行修正。
仍以图6、图7所示的待处理图像为例,通过多分支神经网络,可以将待处理图像分为头部分支、上身分支、下身分支。其中,头部分支属于女性种类的概率为90%,该头部分支属于长发种类的概率为70%。那么,可以将与女性种类、长发种类对应的置信度作为初始置信度进行修正。
可选的,通过多分支神经网络对所述待处理图像进行处理,可以获得初始置信度矩阵P:
其中,Pl,j用于表示第l个分支、第j个种类对应的初始置信度。而由Pl,1至Pl,N表示的初始置信度为所述N个第一初始置信度。
应理解,除上述情况1、情况2、情况3仅是为了帮助本领域技术人员更好地理解本申请的技术方案,而并非是对本申请技术方案的限制。在受益于前述描述和相关附图中呈现的指导启示下,本领域技术人员将会想到本申请的许多改进和其他实施例。
803,获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余所有种类的概率,所述第一子信息是所述M个子信息中的任意一个子信息,M为正整数。
先验信息即为由先验知识或先验分布转换的且可由计算机分析、处理的数据。
下面以一个示例对先验信息进行说明。应理解,该示例仅是为了帮助本领域技术人员更好地理解本申请的技术方案,而并非是对本申请技术方案的限制。
在大多数场景下,有络腮胡的女性在全体女性中的占比很小,穿裙子的男性在全体男性中的占比很小,身高1米以下的未成年人在全体未成年人中的占比很大。假设由卷积神经网络判断某图像属于络腮胡女性或穿裙子男性的概率较高,那么,该判断结果很有可能是有误的。假设由卷积神经网络判断某图像属于未成年人,那么卷积神经网络可以根据身高1米以下的未成年人在全体未成年人中的占比很大判断该图像中的未成年人的身高不足1米的概率较高。因此,可以将“有络腮胡的女性在全体女性中的占比很小”、“穿裙子的男性在全体男性中的占比很小”、“身高1米以下的未成年人在全体未成年人中的占比很大”作为先验信息,对图像识别结果进行修正。
例如,先验信息包括3个子信息。子信息1对应种类组1,种类组1包括(女性,络腮胡);子信息2对应种类组2,种类组2包括(男性,裙子);种类组3包括(未成年人,1米以下)。对于子信息1,同一图像在属于种类组1中的女性的情况下,还属于络腮胡的概率为1%,那么子信息1即为1%。对于子信息2,同一图像在属于种类组2中的男性的情况下,还属于裙子的概率为5%,那么子信息2即为5%。对于子信息3,同一图像在属于种类组3中的未成年人的情况下,还属于1米以下的概率为95%,那么子信息3即为95%。
因此可以推断,如果某待处理图像的识别结果为有胡子的女性,可以通过子信息1对该识别结果进行修正,以降低该识别结果的出错率。
因此可以推断,如果某待处理图像的识别结果为穿裙子的男性,可以通过子信息2对该识别结果进行修正,以降低该识别结果的出错率。
因此可以推断,如果某待处理图像的识别结果为1米以下的未成年人的概率为50%,可以通过子信息3提高该识别结果的概率,以提高该识别结果的准确率。
获取先验信息的方式可以是获取人为输入的数据,也可以是从数据库中获取数据。
此外,该先验信息可以是通过训练模型训练得到。由于先验信息本身可以不断被训练、优化,因此可以提高先验信息修正待处理图像的识别结果的准确度。
本申请对获取先验信息的来源不作限定。
可选的,所述获取先验信息,包括:
获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个第一初始置信度一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应且包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率;获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个第一初始置信度一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应且包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率。
在一个示例中,第一先验信息矩阵C满足:
C=[C1 … Cj … CN]
所述第j个第一向量Cj满足:
Cj=[Cj,1 … Cj,i … Cj,N]T
所述目标第一先验信息元素满足:
Cj,i=Pr(aj|ai)
所述目标第一先验信息元素为所述N个第一先验信息元素中的第i个先验信息元素。其中,Pr(ai|aj)为条件概率,表示同一图像在属于第i个种类的情况下属于第j个种类的概率。
相应地,第二先验信息矩阵满足:
所述第j个第二向量Cj满足:
所述目标第二先验信息元素满足:
所述目标第二先验信息元素为所述N个第二先验信息元素中的第i个先验信息元素。其中,为条件概率,表示同一图像在不属于第i个种类的情况下属于第j个种类的概率。
804,根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个第一修正置信度。
以上文中的子信息1为例。子信息1表示有络腮胡的女性在全体女性中的占比为1%,待处理图像属于络腮胡的概率为30%,属于女性的概率为40%,而该识别结果与先验知识区别较大。因此可以通过子信息1降低待处理图像属于女性和/或络腮胡的概率。
以上文中的子信息3为例。子信息3表示身高1米以下的未成年人在全部未成年人中的比例为95%,待处理图像属于未成年人的概率为30%,属于1米以下的概率为20%,而该识别结果与先验知识区别较大。因此可以通过子信息3提高待处理图像属于未成年人和/或1米以下的概率。
N个第一修正置信度用于修正N个第一初始置信度。因此,N个第一修正置信度可以理解为优化参数。将该优化参数与初始数据进行叠加,即可得到优化后的处理结果。
在本申请中,可以根据先验信息并通过联合概率公式,得到所述N个第一修正置信度。应理解,修正置信度作为优化参数的一种形式,可以通过多种方式确定该修正置信度的大小。在此仅举出一种,以便本领域普通技术人员能够实施本申请提供的方法。
以上文中的第一先验信息矩阵、第二先验信息矩阵为例,通过联合概率公式可以得到修正置信度矩阵,所述修正置信度矩阵包含第三向量,所述第三向量包含所述N个第一修正置信度。
其中,修正置信度矩阵可以仅包含第三向量,也可以包含除第三向量以外的其他向量,该其他向量用于表示修正置信度。
在一个示例中,该第三向量满足:
P+=[P1 + … Pi + … PN +]
其中,P1 +至PN +为所述N个第一修正置信度。
那么根据联合概率公式得到的修正置信度矩阵满足:
其中,A为系数或系数向量,C为上文中的第一先验信息矩阵,为上文中的第二先验信息矩阵。
下面结合上文中的情况1、情况2、情况3分别进行说明。应理解,该示例仅是为了帮助本领域技术人员更好地理解本申请的技术方案,而并非是对本申请技术方案的限制。
对于情况1,可以根据公式得到包含所述N个第一修正置信度的修正置信度矩阵P+。其中,/>
对应情况2,可以根据公式得到包含所述N个第一修正置信度的修正置信度矩阵P+。其中,/>
可选的,在所述汇总所述K个分支之前,所述方法还包括:根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,其中,所述关联置信度信息由目标第二初始置信度得到,所述K个分支包括第一分支以及第二分支,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的任一个;所述汇总所述K个分支,包括:根据所述目标第一修正置信度,汇总所述K个分支。
由于在情况2中,待处理图像被输入至多分支神经网络中,得到多个分支。由于分支与分支之间存在某种关联,这种关联在传统的神经网络中通常被忽视。因此,可以在获取所述N个第一初始置信度之前,根据分支与分支之间的关联,对置信度数据进行修正。
例如,待处理图像输入多分支神经网络中,得到头部分支、上身分支、下身分支。其中,头部分支属于女性的概率为10%,上身分支属于女性的概率为50%,下身分支属于女性的概率为60%。由于分支与分支之间存在关联,在头部分支属于女性的概率较低的情况下,可以参考上身分支和/或下身分支修正头部分支属于的概率。
在情况2中,通过多分支神经网络,可以获取置信度矩阵P′,其中置信度矩阵P′满足:
其中,P′l,j用于表示第l个分支、第j个种类对应的置信度。而由P′汇总得到的初始置信度矩阵P=[P1 … Pj …PN]为所述N个第一初始置信度。其中,Pj用于表示第j个种类对应的第一初始置信度。
可以根据P′1,j至P′l-1,j以及P′l+1,j至P′K,j中的一个或多个,得到与P′l,j对应的关联置信度
可选的,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,所述K-1个初始置信度对应所述目标种类。
例如,可以根据P′1,j至P′l-1,j以及P′l+1,j至P′K,j中的最大值作为与P′l,j对应的关联置信度。即Ql,j=max{P′1,j,…,P′l-1,j,P′l+1,j,…,P′K,j}。
再例如,可以根据P′1,j至P′l-1,j以及P′l+1,j至P′K,j的平均值作为与P′l,j对应的关联置信度。即
因此,可以得到关联置信度矩阵Q,关联置信度矩阵Q满足:
根据该关联置信度矩阵Q,修正置信度矩阵P′。例如根据P=P′+λQ,对多分支神经网络中的置信度矩阵进行修正。其中,λ为修正系数,其形式可以是向量或常数。
对应情况3,可以根据公式得到包含所述N个第一修正置信度的修正置信度向量Pl +。例如,/>Pl +对应第l分支。
可选的,根据所述先验信息以及关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度;其中,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述N个第一初始置信度中的任一个,所述目标第二初始置信度为N个第二初始置信度中的一个,所述目标第一初始置信度对应的种类与所述目标第二初始置信度对应的种类相同,所述N个第二初始置信度与所述K个分支中的第二分支对应,所述第二分支与所述第一分支不同。
与情况2类似,可以根据分支与分支之间的关联,对Pl,j进行修正。
具体的,在情况3中,可以通过多分支神经网络,得到初始置信度矩阵P。
其中,Pl,1至Pl,N为第l分支属于所述N个种类的置信度。
可以根据P1,j至Pl-1,j以及Pl+1,j至PK,j中的一个或多个,得到与Pl,j对应的关联置信度Ql,j。
例如,可以根据P1,j至Pl-1,j以及Pl+1,j至PK,j中的最大值作为与Pl,j对应的关联置信度Ql,j。即Ql,j=max{P1,j,…,Pl-1,j,Pl+1,j,…,PK,j}。
再例如,可以根据P1,j至Pl-1,j以及Pl+1,j至PK,j的平均值作为与Pl,j对应的关联置信度Ql,j。即
因此,关联置信度矩阵Q满足:
再根据该关联置信度矩阵Q、第一先验信息矩阵C、第二先验信息矩阵得到修正置信度P+。
修正置信度矩阵可以满足:
其中,修正置信度满足:
其中,为与第l分支、第j个种类对应的目标第一修正置信度,Ql,i为与第l分支、第j个种类对应的关联置信度,Cj,i为同一图像在属于第i个种类的情况下属于所述第j个种类的概率,/>为同一图像在不属于第i个种类的情况下属于所述第j个种类的概率。
805,根据所述N个第一修正置信度,对所述N个第一初始置信度中的n个第一初始置信度进行修正,得到所述待处理图像属于所述N个种类的N个置信度,n≤N且n为正整数。
换句话说,可以根据N个第一修正置信度,修正N个第一初始置信度的部分或全部。
以上文中的子信息1为例。子信息1表示有络腮胡的女性在全体女性中的占比为1%,待处理图像属于络腮胡的概率为30%,属于女性的概率为40%,而该识别结果与先验知识区别较大。因此可以通过子信息1降低待处理图像属于女性,而不改变待处理图像属于络腮胡的概率。
应理解,根据修正置信度修正初始置信度是一种优化的过程,可以通过多种方式实现该修正。在此仅举出一种,以便本领域普通技术人员能够实施本申请提供的方法。
在一个示例中,可以确定修正系数;根据所述修正置信度矩阵以及所述修正系数,对所述n个第一初始置信度进行修正,得到置信度向量,所述置信度向量包括所述N个置信度。
例如,在上述情况1-3中,可以根据对初始置信度矩阵P进行修正。
其中,λ为修正系数且λ≠0。λ的形式可以是向量或常数。当λ为0,意味着对初始置信度矩阵不作修正。
806,根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
例如,在置信度大于预设阈值的情况下,确定与该置信度对应的种类作为标签。
确定所述待处理图像对应的标签为图像识别领域中的常见手段,实现该步骤的方法在此不再赘述。
如图9所示的图像处理的流程可以对应上文中的情况1或情况2。
如图10所示的图像处理的流程可以对应上文中的情况3。
下面先结合图11对本申请实施例的图像处理的方法进行详细的介绍。图11所示的方法包括步骤1101至1105,下面分别对这些步骤进行详细的描述。
1101,获取待处理图像。
步骤1101的具体实现方式可以参照图8所示实施例中的步骤801,在此就不必赘述。
1102,通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于N个种类中的每个种类的初始置信度,任一初始置信度用于表征属于与所述任一初始置信度对应的种类的程度,所述K个分支包括第一分支以及第二分支,N为正整数且K为大于1的整数。
对待处理图像进行处理的方式,可以是将该待处理图像输入如图2所示的卷积神经网络200中的卷积层/池化层220以及神经网络层230。通过卷积层220提取特征、通过池化层220减少训练参数数量、通过神经网络层230中的隐含层生成并输出该N个第一初始置信度。其中,通过卷积层提取特征、通过池化层减少训练参数数量在图像识别中的应用较为常见,在此不再赘述。待处理图像可以输入如图2所示的卷积神经网络200,在神经网络层230中的输出层输出处理后的图像。该K个分支中的每个分支属于N个种类中的每个种类的初始置信度为输出层的前N层(隐含层,N为大于1的整数)的输出结果。即可以将该K个分支中的每个分支属于N个种类中的每个种类的初始置信度输入隐含层进行修正。换句话说,可以在该隐含层对该K个分支中的每个分支属于N个种类中的每个种类的初始置信度进行修正。
例如,待处理图像输入多分支神经网络中,得到头部分支、上身分支、下身分支。其中,头部分支属于女性的概率为10%,上身分支属于女性的概率为50%,下身分支属于女性的概率为60%。
可选的,通过多分支神经网络对所述待处理图像进行处理,可以获得初始置信度矩阵P:
其中,Pl,j用于表示第l个分支、第j个种类对应的初始置信度。
1103,根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的一个。
由于分支与分支之间存在某种关联,这种关联在传统的神经网络中通常被忽视。因此,可以在获取所述N个第一初始置信度之前,根据分支与分支之间的关联,对置信度数据进行修正。
例如,待处理图像输入多分支神经网络中,得到头部分支、上身分支、下身分支。其中,头部分支属于女性的置信度为10%,上身分支属于女性的置信度为50%,下身分支属于女性的置信度为60%。由于分支与分支之间存在关联,在头部分支属于女性的置信度较低的情况下,可以参考上身分支属于女性的置信度和/或下身分支属于女性的置信度,修正头部分支属于女性的置信度。
可以根据P1,j至Pl-1,j以及Pl+1,j至PK,j中的一个或多个,得到与Pl,j对应的关联置信度Ql,j。
可选的,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,所述K-1个初始置信度对应所述目标种类。
例如,可以根据P1,j至Pl-1,j以及Pl+1,j至PK,j中的最大值作为与Pl,j对应的关联置信度Ql,j。即Ql,j=max{P1,j,…,Pl-1,j,Pl+1,j,…,PK,j}。
再例如,可以根据P1,j至Pl-1,j以及Pl+1,j至PK,j的平均值作为与Pl,j对应的关联置信度Ql,j。即
可选的,所述关联置信度信息为关联置信度矩阵,所述关联置信度矩阵包含与所述K个分支一一对应的K个第四向量,所述K个第四向量中的任一第四向量包含与所述N个种类一一对应的N个关联置信度,所述N个关联置信度中的第j个关联置信度由与所述K个第四向量中除所述任一第四向量以外的剩余K-1个第四向量一一对应的K-1个关联置信度的最大值或平均值得到,所述第j个关联置信度以及所述K-1个关联置信度对应相同种类
因此,关联置信度矩阵Q满足:
在本申请中,修正置信度用于修正初始置信度。因此,修正置信度可以理解为优化参数。将该优化参数与初始数据进行叠加,即可得到优化后的处理结果。因此,可以根据分支与分支之间的关联,得到所述目标第一修正置信度。例如,修正置信度可以满足:
其中,为与第l分支、第j个种类对应的目标第一修正置信度,Ql,i为与第l分支、第i个种类对应的关联置信度。
可选的,还包括获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息,M为正整数;所述根据目标第二初始置信度,得到所述目标第一修正置信度,包括:根据所述先验信息以及所述目标第二初始置信度,得到所述目标第一修正置信度。
例如,有络腮胡的女性在全体女性中的占比很小。假设由卷积神经网络判断某图像属于络腮胡女性的概率较高,那么,该判断结果很有可能是有误的。因此,可以将“有络腮胡的女性在全体女性中的占比很小”作为先验信息,对图像识别结果进行修正。
例如,先验信息包括子信息1,子信息1对应种类组1,种类组1包括(女性,络腮胡)。同一图像在属于种类组1中的女性的情况下,还属于络腮胡的概率为1%,那么子信息1即为1%。因此可以推断,如果某待处理图像的识别结果为有胡子的女性,可以通过子信息1对该识别结果进行修正,以降低该识别结果的出错率。
获取先验信息的具体实现方式可以参照图8所示实施例中的步骤803,在此就不必赘述。
换句话说,可以结合分支与分支之间的关联以及先验信息,对初始置信度进行修正。因此可以明显提高待处理图像的识别准确性。
可选的,所述获取先验信息,包括:获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数。
也就是说,先验信息可以包括第一先验信息矩阵C以及第二先验信息矩阵其中,第一先验信息矩阵C满足:
C=[C1 … Cj … CN]
所述第j个第一向量Cj满足:
Cj=[Cj,1 … Cj,i … Cj,N]T
所述目标第一先验信息元素满足:
Cj,i=Pr(aj|ai)
所述目标第一先验信息元素为所述N个第一先验信息元素中的第i个先验信息元素。其中,Pr(ai|aj)为条件概率,表示同一图像在属于第i个种类的情况下属于第j个种类的概率。
相应地,第二先验信息矩阵满足:
所述第j个第二向量Cj满足:
所述目标第二先验信息元素满足:
所述目标第二先验信息元素为所述N个第二先验信息元素中的第i个先验信息元素。其中,为条件概率,表示同一图像在不属于第i个种类的情况下属于第j个种类的概率。
可选的,根据关联置信度矩阵Q、第一先验信息矩阵C、第二先验信息矩阵得到修正置信度P+。
可选的,修正置信度矩阵满足:
其中,修正置信度P+ l,j满足:
其中,为与第l分支、第j个种类对应的目标第一修正置信度,Ql,i为与第l分支、第i个种类对应的关联置信度,Cj,i为同一图像在属于第i个种类的情况下属于所述第j个种类的概率,/>为同一图像在不属于第i个种类的情况下属于所述第j个种类的概率。
1104,根据所述目标第一修正置信度,修正所述目标第一初始置信度,得到所述待处理图像属于所述N个种类的N个置信度。
例如,待处理图像输入多分支神经网络中,得到头部分支、上身分支、下身分支。其中,头部分支属于女性的置信度为10%,上身分支属于女性的置信度为50%,下身分支属于女性的置信度为60%。在头部分支属于女性的概率较低的情况下,可以参考上身分支属于女性的置信度和/或下身分支属于女性的置信度确定与女性对应的修正置信度,以修正头部分支属于女性的置信度。
应理解,根据修正置信度修正初始置信度是一种优化的过程,可以通过多种方式实现该修正。在此仅举出一种,以便本领域普通技术人员能够实施本申请提供的方法。
在一个示例中,可以确定修正系数;根据所述修正置信度矩阵以及所述修正系数,对所述n个第一初始置信度进行修正,得到置信度向量,所述置信度向量包括所述N个置信度。
例如,根据对多分支神经网络中的初始置信度矩阵进行修正。
其中,λ为修正系数且λ≠0。λ的形式可以是向量或常数。当λ为0,意味着对初始置信度矩阵不作修正。
1105,根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
步骤1105的具体实现方式可以参照图8所示实施例中的步骤806,在此就不必赘述。
图10、12所示的图像处理流程可以对应图11所示的实施例。
以下通过一个示例对图8、图11所示实施例进行进一步阐述。
需要确定待处理图像属于3个种类的置信度。该3个种类分别为男、女、裙子。
获取先验信息。
先验信息可以从数据库中获取。例如,数据库中存储有1000张图片,该1000张图片属于3个属性的频数分别为:
种类 | 男 | 女 | 裙子 |
频数 | 600 | 400 | 200 |
同一张图片同时属于两个种类的频数为:
频数 | 男 | 女 | 裙子 |
男 | 600 | 0 | 5 |
女 | 0 | 400 | 195 |
裙子 | 5 | 195 | 200 |
那么,第一先验信息C可以是:
C | 男 | 女 | 裙子 |
男 | 100% | 0 | 2.5% |
女 | 0 | 100% | 97.5% |
裙子 | 0.83% | 48.75% | 100% |
第二先验信息可以是:
将该待处理图像输入多分支网络,得到3个分支。初始置信度P为:
P | 男 | 女 | 裙子 |
分支1 | 0.6 | 0.55 | 0.2 |
分支2 | 0.6 | 0.45 | 0.5 |
分支3 | 0.5 | 0.55 | 1.0 |
那么关联置信度Q可以是
Q | 男 | 女 | 裙子 |
分支1 | 0.6 | 0.55 | 1.0 |
分支2 | 0.6 | 0.55 | 1.0 |
分支3 | 0.6 | 0.55 | 0.5 |
那么修正置信度可以得到:
P+ | 男 | 女 | 裙子 |
分支1 | 0.35 | 0.48 | 0.65 |
分支2 | 0.35 | 0.48 | 0.65 |
分支3 | 0.43 | 0.40 | 0.49 |
那么根据最终的可以得到:
P+ | 男 | 女 | 裙子 |
分支1 | 0.775 | 0.79 | 0.525 |
分支2 | 0.775 | 0.69 | 0.825 |
分支3 | 0.715 | 0.75 | 1.245 |
可以看出,在初始置信度中,各分支属于男性的概率高于女性。通过分支与分支之间的关联以及先验信息,修正了初始置信度,提高了各分支属于女性的概率。
表1、表2、表3所示为本申请提供的方法在多种数据库(如行人属性(PEdesTrianAttribute,PETA)、丰富注释行人(Richly Annotated Pedestrian,RAP)、行人属性(pedestrian attribute,PA)-100K)中的应用效果。具体的可以参照:
学术会议1:Xihui Liu,Haiyu Zhao,Maoqing Tian,Lu Sheng,Jing Shao,ShuaiYi,Junjie Yan,and Xiaogang Wang.Hydraplus-net:Attentive deep features forpedestrian analysis.In2017 IEEE International Conference on Computer Vision(ICCV),pages 350–359.IEEE,2017.
学术会议2:Zhao X,Sang L,Ding G,et al.Grouping Attribute Recognitionfor Pedestrian with Joint Recurrent Learning[C]//IJCAI.2018:3177-3183.
可以看出,与其他图像识别方法(如上述学术会议中出现的属性卷积网(Attributes Convolutional Net,ACN)、深度多属性识别(Deep Multi-attributeRecognition,DeepMAR)、联合反复学习(Joint Recurrent Learning,JRL)、九头蛇网络(HydraPlus-Net,HP-net)、上下文卷积-循环神经网络(Contextual Convolutional-Recurrent Neural Networks,CTX C-RNN)、语义正则卷积-循环神经网络(SemanticallyRegularised Convolutional-Recurrent Neural Networks,SR C-RNN)、分组反复学习(Grouping Recurrent Learning,GRL))相比,本申请提供的方法具有更高的正确率。
表1本申请提供的方法在PETA、RAP数据库中具有更高的正确率
表2本申请提供的方法在RAP数据库中具有更高的正确率
表3本申请提供的方法在PA-100K数据库中具有更高的正确率
图13是本申请实施例提供的神经网络构建装置的硬件结构示意图。图13所示的神经网络构建装置1300(该装置1300具体可以是一种计算机设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中,存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。
存储器1301可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1301可以存储程序,当存储器1301中存储的程序被处理器1302执行时,处理器1302用于执行本申请实施例中图8所示的处理图像的方法的各个步骤。
处理器1302可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例中图8所示的处理图像的方法。
处理器1302还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例中图8所示的处理图像的方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器1302还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301,处理器1302读取存储器1301中的信息,结合其硬件完成本申请实施例的图像处理装置中包括的单元所需执行的功能,或者执行本申请实施例中图8所示的处理图像的方法。
通信接口1303使用例如但不限于收发器一类的收发装置,来实现装置1300与其他设备或通信网络之间的通信。例如,可以通过通信接口1303获取待构建的神经网络的信息以及构建神经网络过程中需要的训练数据(如图8所示实施例中的待处理图像)。
总线1304可包括在装置1300各个部件(例如,存储器1301、处理器1302、通信接口1303)之间传送信息的通路。
应理解,图像处理装置中的获取模块可以相当于图像处理装置1300中的通信接口1303;图像处理装置中的处理模块可以相当于处理器1302。
图14是本申请实施例提供的神经网络构建装置的硬件结构示意图。图14所示的神经网络构建装置1400(该装置1400具体可以是一种计算机设备)包括存储器1401、处理器1402、通信接口1403以及总线1404。其中,存储器1401、处理器1402、通信接口1403通过总线1404实现彼此之间的通信连接。
存储器1401可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器1401可以存储程序,当存储器1401中存储的程序被处理器1402执行时,处理器1402用于执行本申请实施例中图11所示的处理图像的方法的各个步骤。
处理器1402可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例中图11所示的处理图像的方法。
处理器1402还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请实施例中图11所示的处理图像的方法的各个步骤可以通过处理器1402中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器1402还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1401,处理器1402读取存储器1401中的信息,结合其硬件完成本申请实施例的图像处理装置中包括的单元所需执行的功能,或者执行本申请实施例中图11所示的处理图像的方法。
通信接口1403使用例如但不限于收发器一类的收发装置,来实现装置1400与其他设备或通信网络之间的通信。例如,可以通过通信接口1403获取待构建的神经网络的信息以及构建神经网络过程中需要的训练数据(如图11所示实施例中的待处理图像)。
总线1404可包括在装置1400各个部件(例如,存储器1401、处理器1402、通信接口1403)之间传送信息的通路。
应理解,图像处理装置中的获取模块可以相当于图像处理装置1400中的通信接口1403;图像处理装置中的处理模块可以相当于处理器1402。
应注意,尽管上述装置1300、装置1400仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置1300、装置1400还可以包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置1300、装置1400还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置1300、装置1400也可仅仅包括实现本申请实施例所必须的器件,而不必包括图13、图14中所示的全部器件。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (32)
1.一种图像处理的方法,其特征在于,包括:
获取待处理图像;
对所述待处理图像进行处理,得到N个第一初始置信度,所述N个第一初始置信度与所述待处理图像所对应的N个种类一一对应,所述N个第一初始置信度中的任一第一初始置信度用于表征属于所述任一第一初始置信度对应的种类的程度,N为大于1的整数;
获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余所有种类的概率,所述第一子信息是所述M个子信息中的任意一个子信息,M为正整数;
根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个第一修正置信度;
根据所述N个第一修正置信度,对所述N个第一初始置信度中的n个第一初始置信度进行修正,得到所述待处理图像属于所述N个种类的N个置信度,n≤N且n为正整数;
根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行处理,包括:
通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的初始置信度,K为大于1的整数;
其中,所述N个第一初始置信度与第一分支对应,所述第一分支为所述K个分支中的任意一个分支。
3.根据权利要求2所述的方法,其特征在于,所述根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个修正初始置信度,包括:
根据所述先验信息以及关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度;
其中,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述N个第一初始置信度中的任一个,所述目标第二初始置信度为N个第二初始置信度中的一个,所述目标第一初始置信度对应的种类与所述目标第二初始置信度对应的种类相同,所述N个第二初始置信度与所述K个分支中的第二分支对应,所述第二分支与所述第一分支不同。
4.根据权利要求3所述的方法,其特征在于,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,其中,所述K-1个初始置信度与所述目标第一初始置信度均对应相同种类。
5.根据权利要求4所述的方法,其特征在于,所述目标第一修正置信度满足:
其中,为与第l分支、第j个种类对应的目标第一修正置信度,Ql,i为与第l分支、第j个种类对应的关联置信度,Cj,i为同一图像在属于第i个种类的情况下属于所述第j个种类的概率,/>为同一图像在不属于第i个种类的情况下属于所述第j个种类的概率。
6.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行处理,得到N个第一初始置信度,包括:
通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的置信度数据,N、K为大于1的整数;
汇总所述K个分支,得到所述N个第一初始置信度,所述N个第一初始置信度为所述待处理图像属于所述N个种类中的每个种类的初始置信度。
7.根据权利要求6所述的方法,其特征在于,在所述汇总所述K个分支之前,所述方法还包括:
根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,
其中,所述关联置信度信息由目标第二初始置信度得到,所述K个分支包括第一分支以及第二分支,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的任一个;
所述汇总所述K个分支,包括:
根据所述目标第一修正置信度,汇总所述K个分支。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述获取先验信息,包括:
获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,且所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;
获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,且所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数;
所述根据所述先验信息,得到与所述N个第一初始置信度一一对应的N个第一修正置信度,包括:
根据所述第一先验信息矩阵、所述第二先验信息矩阵,通过联合概率公式得到修正置信度矩阵,所述修正置信度矩阵包含第三向量,所述第三向量包含所述N个第一修正置信度;
所述根据所述N个第一修正置信度,对所述n个第一初始置信度进行修正,得到所述待处理图像属于所述N个种类的N个置信度,包括:
确定修正系数;
根据所述修正置信度矩阵以及所述修正系数,对所述n个第一初始置信度进行修正,得到置信度向量,所述置信度向量包括所述N个置信度。
9.根据权利要求8所述的方法,其特征在于,所述修正置信度矩阵满足:
其中,C为所述第一先验信息矩阵,/>为所述第二先验信息矩阵。
10.一种图像处理的方法,其特征在于,包括:
获取待处理图像;
通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于N个种类中的每个种类的初始置信度,任一初始置信度用于表征属于与所述任一初始置信度对应的种类的程度,所述K个分支包括第一分支以及第二分支,N为正整数且K为大于1的整数;
根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的一个;
根据所述目标第一修正置信度,修正所述目标第一初始置信度,得到所述待处理图像属于所述N个种类的N个置信度;
根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
11.根据权利要求10所述的方法,其特征在于,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,所述K-1个初始置信度对应所述目标种类。
12.根据权利要求10或11所述的方法,其特征在于,所述方法还包括:
获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息,M为正整数;
所述根据关联置信度信息,得到所述目标第一修正置信度,包括:
根据所述先验信息以及所述关联置信度信息,得到所述目标第一修正置信度。
13.根据权利要求12所述的方法,其特征在于,所述关联置信度信息为关联置信度矩阵,所述关联置信度矩阵包含与所述K个分支一一对应的K个第四向量,所述K个第四向量中的任一第四向量包含与所述N个种类一一对应的N个关联置信度,所述N个关联置信度中的第j个关联置信度由与所述K个第四向量中除所述任一第四向量以外的剩余K-1个第四向量一一对应的K-1个关联置信度的最大值或平均值得到,所述第j个关联置信度以及所述K-1个关联置信度对应相同种类;
所述获取先验信息,包括:
获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;
获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数;
所述根据所述先验信息以及所述关联置信度信息,得到所述目标第一修正置信度,包括:
根据所述第一先验信息矩阵、所述第二先验信息矩阵以及所述关联置信度矩阵,通过联合概率公式得到修正置信度矩阵,所述修正置信度矩阵包含与所述K个分支一一对应的K个第三向量,所述K个第三向量中的任一个包含与所述N个种类一一对应的N个修正置信度;
所述根据所述目标第一修正置信度,修正所述目标第一初始置信度,得到所述待处理图像属于所述N个种类的N个置信度,包括:
确定修正系数;
根据所述修正置信度矩阵以及所述修正系数,修正所述目标第一初始置信度,得到置信度向量,所述置信度向量包含所述N个置信度。
14.根据权利要求13所述的方法,其特征在于,所述修正置信度矩阵满足:
其中,Q为所述关联置信度矩阵,C为所述第一先验信息矩阵,为所述第二先验信息矩阵。
15.根据权利要求10或11所述的方法,其特征在于,所述根据所述目标第一修正置信度,得到所述待处理图像属于所述N个种类的N个置信度,包括:
根据所述目标第一修正置信度,汇总所述K个分支,得到所述待处理图像属于所述N个种类中的每个种类的N个初始置信度;
获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像在属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息;
根据所述先验信息,得到与所述N个初始置信度中的一一对应的N个修正置信度;
根据所述N个修正置信度,对所述N个初始置信度中的n个初始置信度进行修正,得到所述N个置信度。
16.一种图像处理的装置,其特征在于,包括:
获取模块,用于获取待处理图像;
处理模块,用于对所述待处理图像进行处理,得到N个第一初始置信度,所述N个第一初始置信度与所述待处理图像所对应的N个种类一一对应,所述N个第一初始置信度中的任一第一初始置信度用于表征属于所述任一第一初始置信度对应的种类的程度,N为大于1的整数;
所述获取模块还用于,获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余所有种类的概率,所述第一子信息是所述M个子信息中的任意一个子信息,M为正整数;
所述处理模块还用于,根据所述先验信息,得到与所述N个第一初始置信度一—对应的N个第一修正置信度;
所述处理模块还用于,根据所述N个第一修正置信度,对所述N个第一初始置信度中的n个第一初始置信度进行修正,得到所述待处理图像属于所述N个种类的N个置信度,n≤N且n为正整数;
所述处理模块还用于,根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
17.根据权利要求16所述的装置,其特征在于,所述处理模块具体用于:
通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的初始置信度,K为大于1的整数;
其中,所述N个第一初始置信度与第一分支对应,所述第一分支为所述K个分支中的任意一个分支。
18.根据权利要求17所述的装置,其特征在于,所述处理模块具体用于:
根据所述先验信息以及关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度;
其中,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述N个第一初始置信度中的任一个,所述目标第二初始置信度为N个第二初始置信度中的一个,所述目标第一初始置信度对应的种类与所述目标第二初始置信度对应的种类相同,所述N个第二初始置信度与所述K个分支中的第二分支对应,所述第二分支与所述第一分支不同。
19.根据权利要求18所述的装置,其特征在于,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,其中,所述K-1个初始置信度与所述目标第一初始置信度均对应相同种类。
20.根据权利要求19所述的装置,其特征在于,所述目标第一修正置信度满足:
其中,为与第l分支、第j个种类对应的目标第一修正置信度,Ql,i为与第l分支、第j个种类对应的关联置信度,Cj,i为同一图像在属于第i个种类的情况下属于所述第j个种类的概率,/>为同一图像在不属于第i个种类的情况下属于所述第j个种类的概率。
21.根据权利要求16所述的装置,其特征在于,所述处理模块具体用于:
通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于所述N个种类中的每个种类的置信度数据,N、K为大于1的整数;
汇总所述K个分支,得到所述N个第一初始置信度,所述N个第一初始置信度为所述待处理图像属于所述N个种类中的每个种类的初始置信度。
22.根据权利要求21所述的装置,其特征在于,所述处理模块还用于:
根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,
其中,所述关联置信度信息由目标第二初始置信度得到,所述K个分支包括第一分支以及第二分支,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的任一个;
所述处理模块具体用于:
根据所述目标第一修正置信度,汇总所述K个分支。
23.根据权利要求16至22中任一项所述的装置,其特征在于,所述获取模块具体用于:
获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,且所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;
获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,且所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数;
所述处理模块具体用于:
根据所述第一先验信息矩阵、所述第二先验信息矩阵,通过联合概率公式得到修正置信度矩阵,所述修正置信度矩阵包含第三向量,所述第三向量包含所述N个第一修正置信度;
确定修正系数;
根据所述修正置信度矩阵以及所述修正系数,对所述n个第一初始置信度进行修正,得到置信度向量,所述置信度向量包括所述N个置信度。
24.根据权利要求23所述的装置,其特征在于,所述修正置信度矩阵满足:
其中,C为所述第一先验信息矩阵,/>为所述第二先验信息矩阵。
25.一种图像处理的装置,其特征在于,包括:
获取模块,用于获取待处理图像;
处理模块,用于通过多分支神经网络对所述待处理图像进行处理,得到K个分支中的每个分支属于N个种类中的每个种类的初始置信度,任一初始置信度用于表征属于与所述任一初始置信度对应的种类的程度,所述K个分支包括第一分支以及第二分支,N为正整数且K为大于1的整数;
所述处理模块还用于,根据关联置信度信息,得到与目标第一初始置信度对应的目标第一修正置信度,所述关联置信度信息由目标第二初始置信度得到,所述目标第一初始置信度为所述第一分支属于目标种类的初始置信度,所述目标第二初始置信度为所述第二分支属于所述目标种类的初始置信度,所述目标种类为所述N个种类中的一个;
所述处理模块还用于,根据所述目标第一修正置信度,修正所述目标第一初始置信度,得到所述待处理图像属于所述N个种类的N个置信度;
所述处理模块还用于,根据所述N个置信度,确定所述待处理图像对应的标签,所述标签用于标注所述待处理图像所属的类别。
26.根据权利要求25所述的装置,其特征在于,所述关联置信度信息由与所述K个分支中除所述第一分支以外的剩余K-1个分支一一对应的K-1个初始置信度的最大值或平均值得到,所述K-1个初始置信度对应所述目标种类。
27.根据权利要求25或26所述的装置,其特征在于,所述获取模块还用于:
获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息,M为正整数;
所述处理模块具体用于:
根据所述先验信息以及所述关联置信度信息,得到所述目标第一修正置信度。
28.根据权利要求27所述的装置,其特征在于,所述关联置信度信息为关联置信度矩阵,所述关联置信度矩阵包含与所述K个分支一一对应的K个第四向量,所述K个第四向量中的任一第四向量包含与所述N个种类一一对应的N个关联置信度,所述N个关联置信度中的第j个关联置信度由与所述K个第四向量中除所述任一第四向量以外的剩余K-1个第四向量一一对应的K-1个关联置信度的最大值或平均值得到,所述第j个关联置信度以及所述K-1个关联置信度对应相同种类;
所述获取模块具体用于:
获取第一先验信息矩阵,所述第一先验信息矩阵包含与所述N个种类一一对应的N个第一向量,所述N个第一向量中的第j个第一向量与第j个种类对应,所述第j个第一向量包含与所述N个种类一一对应的N个第一先验信息元素,所述N个第一先验信息元素中的目标第一先验信息元素用于表示同一图像在属于所述目标第一先验信息元素对应的种类的情况下属于所述第j个种类的概率,j≤N且j为正整数;
获取第二先验信息矩阵,所述第二先验信息矩阵包含与所述N个种类一一对应的N个第二向量,所述N个第二向量中的第j’个第二向量与第j’个种类对应,所述第j’个第二向量包含与所述N个种类一一对应的N个第二先验信息元素,所述N个第二先验信息元素中的目标第二先验信息元素用于表示同一图像在不属于所述目标第二先验信息元素对应的种类的情况下属于所述第j’个种类的概率,j’≤N且j’为正整数;
所述处理模块具体用于:
根据所述第一先验信息矩阵、所述第二先验信息矩阵以及所述关联置信度矩阵,通过联合概率公式得到修正置信度矩阵,所述修正置信度矩阵包含与所述K个分支一一对应的K个第三向量,所述K个第三向量中的任一个包含与所述N个种类一一对应的N个修正置信度;
确定修正系数;
根据所述修正置信度矩阵以及所述修正系数,修正所述目标第一初始置信度,得到置信度向量,所述置信度向量包含所述N个置信度。
29.根据权利要求28所述的装置,其特征在于,所述修正置信度矩阵满足:
其中,Q为所述关联置信度矩阵,C为所述第一先验信息矩阵,为所述第二先验信息矩阵。
30.根据权利要求25或26所述的装置,其特征在于,所述处理模块具体用于:
根据所述目标第一修正置信度,汇总所述K个分支,得到所述待处理图像属于所述N个种类中的每个种类的N个初始置信度;
获取先验信息,所述先验信息包括M个子信息,每个子信息对应一个种类组,每个种类组包括所述N个种类中的至少两个种类,第一子信息用于指示同一图像在属于所述第一子信息对应的第一种类组中的至少一个种类的情况下,所述同一图像属于所述第一种类组中除所述至少一个种类以外的剩余全部的概率,所述第一子信息是所述M个子信息中的任一一个子信息;
根据所述先验信息,得到与所述N个初始置信度中的一一对应的N个修正置信度;
根据所述N个修正置信度,对所述N个初始置信度中的n个初始置信度进行修正,得到所述N个置信度。
31.一种计算机可读存储介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1-9或者10-15中任一项所述的方法。
32.一种芯片,其特征在于,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行如权利要求1-9或者10-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910386393.7A CN110222718B (zh) | 2019-05-09 | 2019-05-09 | 图像处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910386393.7A CN110222718B (zh) | 2019-05-09 | 2019-05-09 | 图像处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222718A CN110222718A (zh) | 2019-09-10 |
CN110222718B true CN110222718B (zh) | 2023-11-03 |
Family
ID=67820925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910386393.7A Active CN110222718B (zh) | 2019-05-09 | 2019-05-09 | 图像处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222718B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI772700B (zh) * | 2019-10-29 | 2022-08-01 | 財團法人資訊工業策進會 | 影像辨識系統及其更新方法 |
DE102019218947A1 (de) * | 2019-12-05 | 2021-06-10 | Robert Bosch Gmbh | Hardwarebeschleunigter Betrieb künstlicher neuronaler Netzwerke |
CN111145097B (zh) * | 2019-12-31 | 2023-09-01 | 华为技术有限公司 | 图像处理方法、装置和图像处理系统 |
CN111507378A (zh) * | 2020-03-24 | 2020-08-07 | 华为技术有限公司 | 训练图像处理模型的方法和装置 |
CN111723872B (zh) * | 2020-06-24 | 2023-04-07 | 浙江大华技术股份有限公司 | 行人属性识别方法及装置、存储介质、电子装置 |
CN115083442B (zh) * | 2022-04-29 | 2023-08-08 | 马上消费金融股份有限公司 | 数据处理方法、装置、电子设备以及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018112783A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳前海达闼云端智能科技有限公司 | 图像识别方法及装置 |
WO2018120740A1 (zh) * | 2016-12-29 | 2018-07-05 | 深圳光启合众科技有限公司 | 图片分类方法和装置、机器人 |
WO2018153322A1 (zh) * | 2017-02-23 | 2018-08-30 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN108804658A (zh) * | 2018-06-08 | 2018-11-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
-
2019
- 2019-05-09 CN CN201910386393.7A patent/CN110222718B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018112783A1 (zh) * | 2016-12-21 | 2018-06-28 | 深圳前海达闼云端智能科技有限公司 | 图像识别方法及装置 |
WO2018120740A1 (zh) * | 2016-12-29 | 2018-07-05 | 深圳光启合众科技有限公司 | 图片分类方法和装置、机器人 |
WO2018153322A1 (zh) * | 2017-02-23 | 2018-08-30 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN108804658A (zh) * | 2018-06-08 | 2018-11-13 | Oppo广东移动通信有限公司 | 图像处理方法和装置、存储介质、电子设备 |
Non-Patent Citations (2)
Title |
---|
基于FTVGG16卷积神经网络的鱼类识别方法;陈英义等;《农业机械学报》;20190228(第05期);第230-238页 * |
基于卷积神经网络和语义信息的场景分类;张晓明等;《软件》;20180115(第01期);第37-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222718A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175671B (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
WO2022083536A1 (zh) | 一种神经网络构建方法以及装置 | |
WO2019228358A1 (zh) | 深度神经网络的训练方法和装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
WO2021043112A1 (zh) | 图像分类方法以及装置 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
US20220215227A1 (en) | Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium | |
WO2022001805A1 (zh) | 一种神经网络蒸馏方法及装置 | |
CN110222717B (zh) | 图像处理方法和装置 | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN111368972B (zh) | 一种卷积层量化方法及其装置 | |
CN111832592B (zh) | Rgbd显著性检测方法以及相关装置 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
US20220148291A1 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
WO2022007867A1 (zh) | 神经网络的构建方法和装置 | |
CN112215332A (zh) | 神经网络结构的搜索方法、图像处理方法和装置 | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
CN113361549A (zh) | 一种模型更新方法以及相关装置 | |
CN113536970A (zh) | 一种视频分类模型的训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |