CN111435457A - 对传感器获取的采集进行分类的方法 - Google Patents
对传感器获取的采集进行分类的方法 Download PDFInfo
- Publication number
- CN111435457A CN111435457A CN202010021215.7A CN202010021215A CN111435457A CN 111435457 A CN111435457 A CN 111435457A CN 202010021215 A CN202010021215 A CN 202010021215A CN 111435457 A CN111435457 A CN 111435457A
- Authority
- CN
- China
- Prior art keywords
- probability value
- acquisition
- probability
- probability values
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000010606 normalization Methods 0.000 claims abstract description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 description 9
- 239000002131 composite material Substances 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20182—Noise reduction or smoothing in the temporal domain; Spatio-temporal filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
对传感器获取的采集进行分类的方法。该方法包括以下步骤:接收由传感器获取的多个采集的序列,各个采集包括多个元素;针对各个采集生成多个原始概率值,各个原始概率值被链接到多个预定类中的一个相应类并指示采集或采集的元素与相应类相关联的概率;针对序列的多个采集中的一个相应采集,根据多个基础概率值和多个上下文概率值来确定多个综合概率值,其中,基础概率值表示相应采集的原始概率值,并且上下文概率值表示序列的除相应采集之外的至少一个另外的采集的原始概率值,上下文概率值根据归一化规则进行归一化;以及基于综合概率值对相应采集或采集的元素进行分类。
Description
技术领域
本发明涉及一种对传感器获得的采集(capture)进行分类的方法。特别地,采集可以是由图像传感器获取的图像。
背景技术
对传感器数据进行电子分类的方法已得到广泛使用。作为一个示例,现今图像分类被用于自主应用中,例如被用于交通工具的自主驾驶中。在这样的应用中,不仅需要对图像数据而且需要对来自其他传感器(例如雷达传感器和激光雷达传感器)的数据进行语义内容的处理和分析。为此,使用分类算法,其中,将整个采集和/或采集中的各个元素(例如,图像的像素)自动分配给一个或更多个类。
由于分类的输出(即,分类结果)形成了自动应用(例如,自动生成用于自主驾驶汽车的指令)的安全关键基础,因此分类结果的高可靠性是必不可少的。
现有技术的分类算法通常输出每个类的概率值,特别是伪概率值或置信度。例如,用于图像分类的算法可以输出图像的各个像素的概率值。然后,基于这些概率值,可以做出关于相应像素代表哪种类型的对象或类的判定。
阻碍分类的高精度的一个问题是单个概率值本身并不总是非常可靠的。为了减少这种问题,已经提出了分析后续采集的概率值,这些采集是诸如视频序列之类的序列的一部分。这种方法允许考虑采集的概率值之间的时间依赖性,其中,就对分类结果的影响而言,可以排除或至少减少不适应系统趋势的单个异常值。作为一个示例,提出了多数表决法(majority voting scheme),其中,选择固定数量的采集中具有最多数量的最大概率值的类作为正确的类。作为另一种选择,可以对若干个采集的概率值进行归一化,以使它们更具可比性。然而,已经发现,考虑到获得最佳分类精度,现有方法仍然不令人满意,或者现有方法太过复杂。
发明内容
本发明的根本目的是改善对采集或采集的元素进行分类的可靠性。然而,处理复杂度应该较低。
根据一个方面,一种对采集进行分类的方法包括以下步骤:接收由传感器获取的多个采集的序列,各个采集包括多个元素;针对所述序列中的各个采集生成多个原始概率值,特别是伪原始概率值,各个原始概率值被链接到多个预定类中的一个相应类并指示所述采集或所述采集的元素与所述相应类相关联的概率;针对所述序列的多个采集中的一个相应采集,根据多个基础概率值和多个上下文概率值来确定多个综合概率值,其中,所述基础概率值表示所述相应采集的原始概率值,并且所述上下文概率值表示所述序列中所述相应采集之外的至少一个另外采集的原始概率值,所述上下文概率值被根据归一化规则进行归一化;基于所述综合概率值对所述相应采集或所述采集的元素进行分类。
在所述采集是由图像形成的示例性情况下,类将图像中所示的对象划分为开发人员预定义的不同类别。例如,如果考虑道路场景,则可能存在针对车辆的类、针对行人的另一个类、针对道路的另一个类和针对建筑物的另一个类。由于在该示例中存在四个预定类,因此对于各个图像生成四个概率值,特别是伪原始概率值。属性“原始”表示直接采用基本概率值(underlying probability value),而不应用如归一化那样的任何实质性的缩放修改。然后,其中一个类的原始概率值表示图像显示该特定类中的对象的(伪)概率。原始概率值也可以表示为原始置信度。例如,“车辆”类的原始概率值表示图像示出车辆或车辆一部分的概率或置信度。此外,可以规定,针对输入图像的各个像素生成多个概率值。然后,其中一个类的给定像素的概率值指示该相应像素与该特定类相关联的概率。然后,在上面给出的示例中,该“车辆”类的给定像素的概率值指示该像素示出车辆一部分的概率。
优选地,通过卷积神经网络来执行采集分类,这通常是本领域技术人员已知的。卷积神经网络是一种人工神经网络,其被设计成模仿从眼睛到视觉皮层的人类视觉处理系统。卷积神经网络是由任意数量的连续层组成的,这些层被一起训练以完成对象分类的视觉任务。卷积神经网络的各个层都学习识别越来越复杂的、与特定任务相关的特征。卷积神经网络的最后一层输出像素数组,其中,将各个类的单个概率值指派给各个像素。尽管优选使用卷积神经网络对采集进行分类,但是要强调的是,也可以使用其他分类方式对采集进行分类,前提是它们适于为各个采集或各个采集的各个元素生成多个原始概率值,如上所述。
所描述的用于对采集进行分类的方法的一个方面是确定综合概率值。属性“综合”意味着与原始概率值相关联的不确定性降低了,即被“综合”了。通常期望综合概率值提供改进的分类准确性。
综合概率值是基于两组不同的概率值(即,基础概率值和上下文概率值)确定的。基础概率值通常代表确定了综合概率值的相应采集的原始概率值。在一个示例中,基础概率值是由相应采集的原始概率值形成的。如上所述,原始概率值也可以表示为原始置信度。基础概率值也可以表示为基础置信度。同样,上下文概率值可以表示为上下文置信度,并且综合概率值可以表示为综合置信度。应当理解,术语“概率”并不一定需要等于所有概率值中与其定义有关一类概率值的和。
上下文概率值通常表示该序列中的至少一个另外的采集的原始概率值。另外的采集可以是该序列中除了相应采集(其原始概率值已由基础概率值表示)之外的任何另外采集。但是,优选地,上下文概率值表示在时间上接近于所述相应采集的采集的原始概率值。例如,另外的采集可以是与所述相应采集相邻的采集。特别地,另外的采集是来自该序列中紧接在所述相应采集之前的采集。鉴于是时间序列,这意味着另外的采集表示过去的采集,即相应采集的“历史”或“历史上下文”。
与原始概率值相反,将上下文概率值归一化,即,将上下文概率值转换为预定义的尺度或范围。为此目的,应用归一化规则,该归一化规则优选地是预定的,但是也可以是自适应的。鉴于上下文概率值,归一化规则的应用允许控制基本原始概率值(underlying rawprobability value)对所得综合概率值的影响。这是因为上下文概率值的原始概率值具有预定义的尺度或范围(即,预定的“标准(yardstick)”),而基础概率值的原始概率值则没有。用更简单的话来说,“基础采集”的原始概率值未被归一化,即它们保持“原始”,而“上下文采集”的原始概率值被归一化。这样,整体分类精度显著提高。
可以理解,原始概率值不服从预定义的尺度(或范围),但原则上可以采用任何数,即,通常在最小值与最大值之间的任何数。因此,它们通常也可以表示为伪原始概率值或伪原始置信度。在实践中,原始概率值通常倾向于落入值的特定范围内和/或原始概率值服从诸如高斯分布之类的分布。但是,分布的范围或特定形式是未知的。然而,有可能对预期范围和/或分布做出粗略假设,并根据预期范围和/或分布(例如,表征分布形状的一个或更多个参数)调整预定义的尺度(或范围)以进行归一化。例如,预定义范围可以小于原始概率值的预期范围。特别地,预定义范围可以具有小于原始概率值的最大期望值的最大值。这确保了相对于其他采集的最大概率值,所述相应采集的高概率值将会是强有力的。另一方面,相应采集的较小值可能会被弱化,因为它们并不会因归一化而“受益”。这些效果提供了对于不同采集之间的概率值的自适应处理。相应采集的相对于预定义尺度具有很大偏差的原始概率值具有特权。在这些情况下,可以将原始概率值假定为具有指示正确类别的高确定性。
在一个实施方式中,针对序列的采集递归地确定综合概率值。这使得该方法具有高效率,其中,一个采集的综合概率值被用于确定另一采集的综合概率值。以这种方式,该序列的历史可以以非常紧凑的方式传播。优选一个采集的递归深度,即,相应采集的综合概率值基于该相应采集之外的仅一个另外采集的综合概率值。应当理解,其他的另外采集的综合概率值仍然可以影响该相应采集的综合概率值(即,凭借“仅一个另外采集”的综合概率值)。这是由于信息传播的递归性质。应该理解,由于综合概率值的递归定义,这些概率值通常可以表示为上下文概率值。
在另一实施方式中,用于确定相应采集的综合概率值的上下文概率值是通过确定另外的采集的综合概率值来形成的。因此,综合概率值在采集之间被重复使用,从而实现了对综合概率值的递归确定。为了节省存储资源,优选的是,将仅一个另外的采集的综合概率被用于确定相应采集的综合概率值。如前一段落所述,由于递归处理,其他另外的采集的综合概率值仍可能影响相应采集的结果。因此,使用“仅一个另外的采集”的综合概率值是从处理的技术意义上来理解的,而不是从排除“仅一个另外的采集”的综合概率值的编码信息的意义上来理解的。
优选地,采集的序列表示时间序列,其中,序列的多个采集中的包括相应采集和另外的采集的至少一些采集对应于不同的时间实例。特别地,另外的采集对应于第一时间实例,并且相应采集对应于第二时间实例,第一时间实例在第二时间实例之前。也就是说,另外的采集表示序列的历史,其被使用以便能够实现该方法的实时处理。但是,也有可能从未来的采集中获取上下文概率值,如果在确定综合概率值之前至少可以获得某些采集,则这很有用。
在另一实施方式中,综合概率值是通过根据合并规则对基础概率值和上下文概率值进行合并来确定的。这意味着将基础概率值和上下文概率值融合在一起,即在数学上进行组合以产生表示这两组概率值的综合概率值。因此,将至少两个不同采集的原始概率值的信息汇总到一个概率值集合中。原则上,任何期望的数学运算都可以用于合并概率值。正如上面已经指出的那样,合并后的新概率值集合有望提供更高的分类精度。
合并规则优选地定义为按照每个类的基本原始概率值将基础概率值与上下文概率值相加。这意味着仅将共享同一类的概率值彼此相加。例如,与链接到类A的原始概率值相关联的基础概率值与链接到同一类A的原始概率值相关联的上下文概率值相加。由此确保了概率值的语义结构得以保持,并且无需对整体分类方法进行任何修改。可以理解,也可以通过使用另一种数学运算来将概率值按类合并。
合并规则可以进一步定义:利用第一加权参数对合并的概率值进行加权。这对于编码所需的处理条件很有用。例如,如果存在给定采集集合的综合概率值通常比另一采集集合的综合概率值可靠的先验信息,则可以在概率值中直接考虑这一点。作为另一个优点,第一加权参数可以用于控制另外的采集的原始概率值对相应采集的综合概率值的影响(当采用递归确定综合概率值时)。加权参数越大,赋予概率值的历史值的权重就越大。这对相应采集的概率值进行了更大的平滑处理。
如上面已经进一步指出的,可以规定,基础概率值是由相应采集的原始概率值形成的,这是非常有效的。然而,在某些情况下希望根据原始概率值来确定基础概率值,其中,利用第二加权参数对原始概率值进行加权,第二加权参数例如可以在范围[0,1]内,即介于零至一之间。由于与综合概率值有关的类似原因,可以对基础概率值应用预定义的加权。例如,可以通过应用第二加权参数(第二加权参数的值小于1)来缩小非常不确定的基础概率值。
在另一实施方式中,利用第三加权参数对上下文概率值进行加权,第三加权参数优选地是第二加权参数的补数(complement)。例如,第三加权参数可以是一减去第二加权参数。这允许进行有益的加权调整,该调整考虑了两组概率值。
通常,可以根据生成的原始概率值的期望范围或分布来设置上述每个或所有加权参数,即第一加权参数、第二加权参数和/或第三加权参数。附加地或另选地,可以根据相应采集的数量来选择加权参数,以使得加权参数相对于序列的采集来说是自适应的。这些措施中的每一个措施都在不会引起大量计算成本的情况下进一步提高了分类精度。
归一化规则可以包括指数归一化,考虑到提高分类精度,指数归一化被认为是非常有效的。特别地,可以使用所谓的softmax归一化,softmax归一化是本领域已知的一种指数归一化类型。
优选地,指数归一化被定义为上下文概率值中的一个相应上下文概率值的指数函数除以上下文概率值中的至少一些上下文概率值的指数函数之和,优选地除以上下文概率值中的所有上下文概率值的指数函数之和。例如,假设有两个上下文概率值p1和p2。然后,第一值p1的指数归一化版本可以表示为p1’=exp(p1)/(exp(p1)+exp(p2)),其中,exp()表示指数函数。同样,第二值p2的指数归一化版本可以表示为p2’=exp(p2)/(exp(p1)+exp(p2))。
在另一实施方式中,未将基础概率值归一化。也就是说,未根据应用于上下文概率值的归一化规则将基础概率值归一化。因此,基础概率值也可以表示为原始基础概率值,因为它们表示不受归一化的影响的原始概率值。优选地,基础概率值也不会以其他方式进行调整,尽管这是可能的,如以上考虑加权因子所进一步指出的那样。
考虑到原始概率值的语义类结构,优选将综合概率值、基础概率值和/或上下文概率值链接到与原始概率值相同的类。换句话说,该方法中使用的所有或至少一些概率值的数量和类指派在所有采集中都是相同的。这简化了方法,并且还提高了可靠性。
如以上进一步指出的,基于综合概率值对相应采集进行分类优选地包括选择链接到综合概率值中的最大值的类。另外,原始概率值可以通过使用神经网络,特别是卷积神经网络来生成。例如,当采集是由两维图像或多维图像形成时,可以使用卷积神经网络。一维采集也是可能的,例如以通过麦克风获取的声音信号的形式。此外,当通过其他或更复杂的传感器(雷达传感器或激光雷达传感器)获取采集时,也可以使用神经网络进行分类。这些传感器的采集也可以被视作图像。
本发明还涉及一种包含指令的计算机程序,所述指令在计算机上执行时使计算机执行根据上述实施方式中的一项所述的方法。
本发明还涉及一种包含计算机程序的指令的存储介质。
此外,本发明涉及一种对传感器获取的特别是图像的采集进行分类的设备,该设备适于执行根据上述实施方式中的一项所述的方法。该设备可以包括用于拍摄视频序列的图像传感器,其中,该设备适配为通过该方法对视频序列的各个图像帧进行分类。该设备可以被配置为影响自主应用(诸如车辆的自主驾驶)的操作。例如,可以根据表示汽车附近区域的一个或更多个采集的分类来自主地控制车辆。在该示例中,图像传感器被安装在汽车上并且适配为获取汽车附近的视频序列。同样,其他传感器(例如雷达和/或激光雷达)可以安装在汽车上,其中,对应的采集被相应地分类。然后,分类结果也可以用于影响该自主应用。可以通过使用神经网络,特别是卷积神经网络来执行分类。
附图说明
下面将参考附图以示例性方式更详细地描述本发明。
图1是图像分类的方法的示例性实施方式的各方面的示意图。
图2是图1所示方法的一个方面的示意图。
具体实施方式
图1示意性地示出了图像分类的方法。该方法开始于通过摄像头10获取多个图像I1、I2、…、IN,即In,n={1,2,…,N}。图像是传感器获取的一种类型的采集。
摄像头10安装在车辆上,并获取车辆前方区域中的图像In。另选地,可以将摄像头10指向车辆后方和/或侧面的区域。
图像In一起形成视频序列,该视频序列利用计算机程序进一步处理。优选地在设备中实现的所述程序首先通过卷积神经网络(CNN)对图像In进行分类,并生成包含图像In中的各个图像和/或图像In中的各个像素的原始概率值pr(即,pr(In))的输出图像(未显示)。各个概率值指示相应图像或像素与多个预定类中的一个类相关联的概率。
为了对图像In进行分类,计算机程序包括由若干个卷积层组成的卷积神经网络CNN。训练不同的卷积层以检测图像In中的不同模式。卷积神经网络CNN的最后一层输出被指派给各个图像In尤其是指派给各个像素的各个概率值pr(In)。各个概率值指示了相应图像In(或像素)与多个预定类(或目标类别)中的一个类相关联的概率。这些类将图像In中示出的对象划分为通常可在道路场景中发现的不同类别。例如,可以存在针对车辆的类、针对行人的另一类、针对道路的另一类和针对建筑物的另一类等。然后,给定图像In(或像素)的针对多个类中的一个类的概率值指示该相应的图像In(或像素)示出来自该特定类的对象的概率。通常,给定图像In的概率值还可能指示图像中存在预定条件,例如,存在由车辆发出的光。
在一个示例中,存在以下的类:车辆、行人、道路和建筑物。针对图像In中的一个图像由卷积神经网络CNN的最后一层输出的原始概率值pr(In)例如为0.1、-2、5和-5,这表示该特定图像示出车辆、行人、道路和建筑物的概率。可以理解,原始概率值的和不是必须等于1。
然后,对于各个图像In,基于至少两个不同图像的原始概率值pr(In)来确定综合概率值pcs(In),参见图1中的步骤12。通常,根据各个图像的基础概率值pb(In)和上下文概率值pcx(In)来确定综合概率值pcs(In),其中,上下文概率值pcx(In)被归一化。可以将其更详细地表示为合并规则,如下所示:
pcs(In)=pb(In)+sm(pcx(In)),
其中,sm()表示归一化函数,优选地定义为softmax归一化。例如,假设存在两个上下文概率值p1和p2,即,pcx(In)=[p1,p2]。然后,第一值p1的softmax归一化版本可以表示为sm(p1)=exp(p1)/(exp(p1)+exp(p2)),其中,exp()表示指数函数。同样,第二值p2的指数归一化版本可以表示为sm(p2)=exp(p2)/(exp(p1)+exp(p2))。可以理解,归一化将概率转换为预定的尺度。在softmax归一化的情况下,此预定义尺度为[0,1],即归一化值在0至1之间。相反,原始概率值覆盖了CNN概率值的最小输出与最大输出之间的较大范围。对于上面概述的示例性原始概率值,该范围为[-5,5]。不同的范围是可能的,例如[-30,30]。最小值和最大值不必具有相同的大小和相反的符号。但是,对于许多分类器,情况就是如此。
基础概率值和上下文概率值都表示原始概率值,但是来自不同的采集。在一个示例中,基础概率值是由相应采集(即,第n个图像)的原始概率值形成的。上下文概率值表示至少一个另外的图像(尤其是先前图像n-1)的其他的原始概率值。这通常可以表示为:
pcs(In)=pr(In)+sm(pr(In-1)),
其中,第n个图像pr(In)的原始概率值形成了基础概率值pb(In),而先前图像(n-1)的原始概率值形成了通过函数sm()归一化的上下文概率值pcx(In)。
在另一个示例中,可以相对于图像和上下文概率值来递归地确定综合概率值。这可以表示为:
pcs(In)=pr(In)+sm(pcs(In-1)),
其中,当前图像In的原始概率值pr(In)形成了基础概率值pb(In),并且先前图像的综合概率值pcs(In-1)形成当前图像的上下文概率值pcx(In)。这些概率值之和形成当前图像的综合概率值。这在图2中针对三个图像I1、I2和I3示意性地示出。第一图像I1的上下文概率值可以被初始化为合适的值,例如0。
可以包括加权因子以控制以下若干项的影响:
pcs(In)=a·(b·pr(In)+sm(pcs(In-1))),
其中,基础概率值pb(In)=b·pr(In)是通过第n个图像的原始概率值乘以因子b形成的。基础概率值pb(In)与上下文概率值pcx(In)=sm(pcs(In-1))之和与因子a相乘。鉴于综合概率值的递归确定,即,pcs(In)=f(pcs(In-1)),可以理解,随着因子a的增加(a>1),过去图像的影响相对于当前图像增加,反之亦然。这是因为pcs(In)形成了下一个值pcs(In+1)的过去部分。在这方面,pcs(In)增大,因此在与下一个相应图像的概率值之和中变得更加重要。因子a也可以被视为平滑参数。
在另一个示例中,可以应用以下规则:
pcs(In)=a'·pr(In)+(1-a')·sm(pcs(In-1))),
其中,a'是加权参数。加权参数a、b、a'中的至少一个加权参数或全部加权参数可以取决于序列中图像的数量,即n。加权因子因此可以是n的函数。以这种方式,可以考虑不同的处理条件。
本文中提出的合并规则(即确定综合概率值的公式)的优点在于,它们可以很容易地并入神经网络的训练中,即它们是可区分的。特别地,用于对图像进行分类的CNN可以适配为直接输出综合概率值。加权参数也可以是训练的一部分,从而避免手动调整这些参数。
参考标记列表
10 摄像头
12 方法步骤
n 图像索引
In 第n个图像
pcs 综合概率值
pr 原始概率值
pb 基础概率值
pcx 上下文概率值
sm 归一化函数
a、a' 加权因子
b 加权因子
Claims (15)
1.一种对传感器获取的采集特别是图像进行分类的方法,所述方法包括以下步骤:
接收由传感器获取的多个采集的序列(S),各个采集包括多个元素;
针对所述序列(S)中的各个采集(I1、I2)生成多个原始概率值(pr),各个原始概率值(pr)被链接到多个预定类中的相应类并指示所述采集或所述采集的元素与所述相应类相关联的概率;
针对所述序列(S)的多个采集中的相应采集(I2),根据多个基础概率值(pb)和多个上下文概率值(pcx)来确定多个综合概率值(pcs),
其中,
所述基础概率值(pb)表示所述相应采集(I2)的原始概率值(pr),并且
所述上下文概率值(pcx)表示所述序列中除所述相应采集之外的至少一个另外的采集(I1)的原始概率值(pr),所述上下文概率值(pcx)根据归一化规则进行归一化;以及
基于所述综合概率值(pcs)对所述相应采集(I2)或所述相应采集的元素进行分类。
2.根据权利要求1所述的方法,其中,针对所述序列的多个采集(I1、I2)递归地确定所述综合概率值(pcs)。
3.根据权利要求1或2所述的方法,其中,用于确定所述相应采集(I2)的所述综合概率值(pcs)的所述上下文概率值(pcx)是通过针对所述另外的采集(I1)确定的综合概率值(pcs)形成的。
4.根据前述权利要求中的一项所述的方法,其中,所述多个采集(I1、I2)的序列表示采集的时间序列,优选是视频序列,并且其中,所述序列中的多个采集(I1、I2)中的包括所述相应采集(I2)和所述另外的采集(I1)的至少一些采集对应于不同的时间实例,
特别地,其中,所述另外的采集(I1)对应于第一时间实例,并且所述相应采集(I2)对应于第二时间实例,所述第一时间实例在所述第二时间实例之前。
5.根据前述权利要求中的一项所述的方法,其中,所述综合概率值(pcs)是通过根据合并规则合并所述基础概率值(pb)和所述上下文概率值(pcx)来确定的。
6.根据权利要求5所述的方法,其中,所述合并规则定义了按照各类的基本原始概率值(pr),将所述基础概率值(pb)和所述上下文概率值(pcx)相加。
7.根据权利要求5或6所述的方法,其中,所述合并规则定义了利用第一加权参数(a)对合并的概率值进行加权。
8.根据前述权利要求中的一项所述的方法,其中,所述基础概率值(pb)是所述原始概率值(pr)的函数,利用第二加权参数(b)对所述原始概率值(pr)进行加权。
9.根据权利要求8所述的方法,其中,利用第三加权参数(c)对所述上下文概率值(pcx)进行加权,优选地,所述第三加权参数(c)是所述第二加权参数(b)的补数。
10.根据前述权利要求中的一项所述的方法,其中,所述归一化规则包括指数归一化,特别是softmax归一化。
11.根据权利要求10所述的方法,其中,所述指数归一化被定义为所述上下文概率值(pcx)中的一个相应上下文概率值的指数函数除以所述上下文概率值(pcx)中的至少一些上下文概率值的指数函数之和,优选是除以所述上下文概率值(pcx)中的所有上下文概率值的指数函数之和。
12.根据前述权利要求中的一项所述的方法,其中,所述基础概率值(pb)未被归一化,和/或
其中,所述综合概率值(pcs)、所述基础概率值(pb)和/或所述上下文概率值(pcx)被链接到与所述原始概率值(pr)相同的类,和/或
其中,基于所述综合概率值(pcs)对所述相应采集(I2)进行分类的步骤包括:选择链接到所述综合概率值(pcs)中的最大值的类。
13.根据前述权利要求中的一项所述的方法,其中,所述原始概率值是通过使用神经网络生成的,特别是使用卷积神经网络生成的。
14.一种包括指令的计算机程序产品,所述指令在计算机上执行时使所述计算机执行根据前述权利要求中的一项所述的方法。
15.一种对传感器获取的采集特别是图像进行分类的设备,所述设备适配为执行根据权利要求1至13中的一项所述的方法,
特别地,其中,所述设备包括用于获取视频序列的图像传感器,其中,所述设备适配为通过所述方法对所述视频序列的各个图像帧进行分类。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19151486.8A EP3680812A1 (en) | 2019-01-11 | 2019-01-11 | Method for classifying an image taken by a sensor |
EP19151486.8 | 2019-01-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111435457A true CN111435457A (zh) | 2020-07-21 |
CN111435457B CN111435457B (zh) | 2023-11-14 |
Family
ID=65019435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010021215.7A Active CN111435457B (zh) | 2019-01-11 | 2020-01-09 | 对传感器获取的采集进行分类的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11403498B2 (zh) |
EP (1) | EP3680812A1 (zh) |
CN (1) | CN111435457B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022523563A (ja) * | 2019-03-04 | 2022-04-25 | アイオーカレンツ, インコーポレイテッド | 機械学習および人工知能を使用する、機械異常の近リアルタイム検出ならびに分類 |
CN112464831B (zh) * | 2020-12-01 | 2021-07-30 | 马上消费金融股份有限公司 | 视频分类方法、视频分类模型的训练方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2554633B (en) * | 2016-06-24 | 2020-01-22 | Imperial College Sci Tech & Medicine | Detecting objects in video data |
IT201700021585A1 (it) * | 2017-02-27 | 2018-08-27 | St Microelectronics Srl | Procedimento di apprendimento, sistema, dispositivo e prodotto informatico corrispondenti |
-
2019
- 2019-01-11 EP EP19151486.8A patent/EP3680812A1/en active Pending
-
2020
- 2020-01-07 US US16/735,978 patent/US11403498B2/en active Active
- 2020-01-09 CN CN202010021215.7A patent/CN111435457B/zh active Active
Non-Patent Citations (1)
Title |
---|
KANG DANG等: "Adaptive Exponential Smoothing for Online Filtering of Pixel Prediction Maps" * |
Also Published As
Publication number | Publication date |
---|---|
EP3680812A1 (en) | 2020-07-15 |
US20200226432A1 (en) | 2020-07-16 |
CN111435457B (zh) | 2023-11-14 |
US11403498B2 (en) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
US20210089895A1 (en) | Device and method for generating a counterfactual data sample for a neural network | |
US20180012082A1 (en) | System and method for image analysis | |
CN112528961B (zh) | 一种基于Jetson Nano的视频分析方法 | |
CN112651995A (zh) | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 | |
CN117157678A (zh) | 用于基于图的全景分割的方法和系统 | |
US20210019620A1 (en) | Device and method for operating a neural network | |
CN111435457B (zh) | 对传感器获取的采集进行分类的方法 | |
US20220230418A1 (en) | Computer-implemented method for training a computer vision model | |
JP7072765B2 (ja) | 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム | |
CN114648633A (zh) | 确定车辆环境的语义分割的方法 | |
JP7230896B2 (ja) | 車載センシング装置及びセンサパラメータ最適化装置。 | |
CN113095351A (zh) | 借助于初始标记的改善生成经标记的数据的方法 | |
US20230260259A1 (en) | Method and device for training a neural network | |
EP3767534A1 (en) | Device and method for evaluating a saliency map determiner | |
Singh et al. | An enhanced YOLOv5 based on color harmony algorithm for object detection in unmanned aerial vehicle captured images | |
CN116664829A (zh) | 一种rgb-t语义分割方法、系统、装置及存储介质 | |
US11908178B2 (en) | Verification of computer vision models | |
US20220262103A1 (en) | Computer-implemented method for testing conformance between real and synthetic images for machine learning | |
WO2018143278A1 (ja) | 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム | |
US20220237897A1 (en) | Computer-implemented method for analyzing relevance of visual parameters for training a computer vision model | |
US20220343641A1 (en) | Device and method for processing data of a neural network | |
JP2021197184A (ja) | 分類器を訓練及びテストするためのデバイス及び方法 | |
Luo et al. | Object detection based on binocular vision with convolutional neural network | |
US20230351741A1 (en) | Method and device for training a neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |