CN111417960A - 信息处理装置、信息处理方法及程序 - Google Patents
信息处理装置、信息处理方法及程序 Download PDFInfo
- Publication number
- CN111417960A CN111417960A CN201980005337.2A CN201980005337A CN111417960A CN 111417960 A CN111417960 A CN 111417960A CN 201980005337 A CN201980005337 A CN 201980005337A CN 111417960 A CN111417960 A CN 111417960A
- Authority
- CN
- China
- Prior art keywords
- class
- candidate
- determination
- information processing
- classes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 105
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 claims abstract description 96
- 238000010801 machine learning Methods 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 35
- 238000001514 detection method Methods 0.000 description 22
- 230000015654 memory Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 238000000605 extraction Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
信息处理装置(100)具备处理器(10),处理器(10)取得输入图像,向执行分类似然性计算处理的机器学习模型输入输入图像,并取得输入图像中的各物体候选的与多个类分别对应的似然性,关于各物体候选,使用与多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至第1类的第1判定,关于在第1判定中判定为不被分类至第1类的物体候选,分别执行判定是否被分类至其他类的第2判定,使用第2判定的结果来输出输入图像中映现的物体的分类结果。
Description
技术领域
本公开涉及信息处理装置、信息处理方法及程序。
背景技术
近年来,需要有效地检测图像内的物体的装置及方法。
例如,在专利文献1中公开了一种检测装置及检测方法,具备:多个单类分类部,从对象图像中识别有无物体;以及多类分类部,在由单类分类部识别出物体的情况下,将图像向其他单类分类部分类。
另外,例如在非专利文献1中公开了如下方法:输入对象图像并通过卷积滤波处理关于全部物体候选执行候选框的探索和分类。
在先技术文献
专利文献
专利文献1:日本特开2016-151805号公报
非专利文献
非专利文献1:Wei Liu et.al.,“SSD:Single Shot MultiBox Detector”,arXiv:1512.02324v5[cs.CV],29Dec.,2016
发明内容
发明所要解决的课题
但是,在现有技术中,用于物体的分类的处理量有时增大。例如,在专利文献1所记载的现有技术中,多次执行分类处理,因此处理量多,耗费时间。另外,在非专利文献1所记载的现有技术中,针对检测出的全部候选框进行Non-Maximum suppression(非极大值抑制:NMS)处理,因此如果候选框多则处理量也增大。
于是,本公开提供能够减少用于物体的分类的处理量的信息处理装置、信息处理方法及程序。
用于解决课题的手段
为了解决上述课题,本公开的一个方式所涉及的信息处理装置是具备处理器的信息处理装置,所述处理器取得输入图像,向执行分类似然性计算处理的机器学习模型输入所述输入图像并取得所述输入图像中的各物体候选的与多个类分别对应的似然性,关于所述各物体候选,使用与所述多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至所述第1类的第1判定,关于在所述第1判定中判定为不被分类至所述第1类的物体候选,分别执行判定是否被分类至所述其他类的第2判定,使用所述第2判定的结果来输出所述输入图像中映现的物体的分类结果。
另外,本公开的一个方式所涉及的信息处理方法是使处理器执行的方法,取得输入图像,向执行分类似然性计算处理的机器学习模型输入所述输入图像并取得所述图像中的各物体候选的与多个类分别对应的似然性,关于所述各物体候选,使用与所述多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至所述第1类的第1判定,关于在所述第1判定中判定为不被分类至所述第1类的物体候选,分别执行判定是否被分类至所述其他类的第2判定,使用所述第2判定的结果来输出所述输入图像中映现的物体的分类结果。
另外,本公开的一个方式能够作为使计算机执行上述信息处理方法的程序实现。或者,还能够作为存放了该程序的计算机可读取的非易失性的记录介质实现。
发明效果
根据本公开,能够减少用于物体的分类的处理量。
附图说明
图1是用于说明物体检测算法的一例的图。
图2是表示各候选框的与各类对应的似然性的计算结果的一例的图。
图3是用于说明现有技术的物体检测方法的流程图。
图4是表示实施方式所涉及的信息处理装置的功能构成的一例的框图。
图5是表示实施方式所涉及的信息处理装置的安装例的框图。
图6是表示实施方式所涉及的信息处理装置的动作的一例的流程图。
图7是表示机器学习模型的离线处理的一例的流程图。
图8是表示机器学习模型的离线处理的其他例的流程图。
图9是表示实施方式的变形例所涉及的信息处理装置的动作的一例的第1流程图。
图10是表示实施方式的变形例所涉及的信息处理装置的动作的一例的第2流程图。
具体实施方式
(得出本公开的知识)
以下,说明以往的物体检测方法。图1是用于说明物体检测方法的一例的图。在物体检测方法中使用的卷积网络(CNN:Convolutional Neural Network、卷积神经网络)例如是SSD(The Single Shot Detector:单发探测器)(参照非专利文献1)。图1的(a)是表示向CNN的输入图像的一例的图。图1的(a)所示的由虚线包围的区域表示物体区域。物体区域是物体被摄像的区域。另外,图1的(b)是表示将输入图像向CNN输入而得到的8×8特征图的图。图1的(c)是表示4×4特征图的图。图1的(b)及(c)所示的由一点虚线包围的区域表示候选框。另外,图1的(d)是表示CNN的一例的图。
在图1所示的物体检测方法中,将图1的(a)所示的输入图像向CNN输入。输入图像通过由不同种类的卷积滤波器构成的CNN被卷积,并被转换为各种尺寸的特征图。然后,如图1的(b)及(c)所示,针对各特征图上的各方格分配多个候选框(在此为4个候选框)。检测全部的特征图上的候选框(以下称为全部候选框),最后,执行最大值检索(例如NMS处理),输出输入图像中的物体的检测结果。此外,如图1的(d)所示,在SSD中,将通过卷积滤波处理得到的特征图进一步向别的卷积滤波器输入并反复进行卷积。像这样,使用多个不同的卷积滤波器对特征图逐渐缩小地进行卷积,从而无论特征的大小如何,都能够检测各种规模的候选框。此外,图中的输出值是将物体区域和默认框的位置的偏移(例如中心的X坐标、中心的Y坐标、宽度及高度的4维的参数)与类型得分(例如与各分类对应的似然性)建立了关联的数据。
图2是表示根据图1中说明的各特征图的输出值的一例的图。在此,以图1的(a)所示的输入图像的2个物体区域为例进行说明。输入图像中的2个物体区域分别对应于图1的(b)所示的8×8特征图上的2个候选框的集合。进而,图1的(c)所示的4×4特征图上的1组的图2所示的1组候选框的集合,对应于图1的(a)所示的汽车的物体区域。在图2中,示出了按每个候选框计算出的与行人、汽车、自行车、摩托车及背景这5类分别对应的似然性。如图2所示,在全部候选框的检测处理中,关于全部候选框计算各类的似然性,得到将各候选框的形状偏移与类型得分建立了关联的数据。此外,在图2所示的例子中,使用了被归一化的似然性,但也可以使用未被归一化的似然性。
接下来,说明NMS处理。NMS处理包含:第1处理,是将上述的处理流程中检测出的全部候选框向各类分类的分类处理;以及第2处理,将被分类的全部候选框之中重合的候选框综合为1个候选框。图3是表示现有技术中的分类处理的一例的流程图。图3所示的步骤S301的处理表示上述的全部候选框的检测处理。在步骤S301的处理中,计算输入图像中的各候选框的与多个类分别对应的似然性。如图3所示,在现有技术中,在步骤S301的处理之后,关于全部候选框执行分类循环的处理。全部候选如图2所示,还包含未映现检测对象的物体的背景的候选框。在现有技术中,关于背景的候选框,也执行与多个类对应的分类处理。例如,判定某个候选框的与汽车类对应的似然性(似然性[候选框])是否为汽车类的阈值(阈值[汽车])以上(步骤S302)。在该某个候选框的与汽车对应的似然性是汽车的阈值以上的情况下(步骤S302:是),该某个候选框被追加至汽车类的列表(列表[汽车])(步骤S303)。另一方面,在该某个候选框的与汽车对应的似然性小于汽车的阈值的情况下(步骤S302:否),该某个候选框不被追加至汽车类的列表。
接下来,判定其他1个候选框的与汽车类对应的似然性是否为汽车类的阈值以上(步骤S302)。在该某个候选框的与汽车对应的似然性是汽车的阈值以上的情况下(步骤S302:是),该某个候选框被追加至汽车类的列表(步骤S303)。另一方面,在该某个候选框的与汽车对应的似然性小于汽车的阈值的情况下(步骤S302:否),该某个候选框不被追加至汽车类的列表。
像这样,关于全部候选框,如果与汽车类对应的分类处理结束,则关于全部候选框,执行与汽车类以外的其他类(例如行人类)对应的分类处理。关于全部候选框,如果与多个类分别对应的分类处理(第1处理)结束,则关于全部候选框,执行第2处理。
在第2处理中,关于被检测出的全部候选框,在某个候选框与检测似然性比该某个候选框更高的候选框重合的情况下,在这些候选框的重合程度超过规定的阈值时,删除该某个候选框。也就是说,删除重合的候选框之中的除了具有最大似然性的候选框以外的候选框,由此将候选框综合为1个。
如上,在以往的物体检测方法中,关于全部候选框执行NMS处理,因此最终阶段的判定处理的处理量多。进而,NMS处理与卷积运算处理不同,难以通过专用的处理器实现高速化,而多由CPU(Central Processing Unit:中央处理单元)执行。另外,物体检测装置大多安装于车载网络等。安装于车载网络的CPU与安装于计算机的CPU相比,处理能力较低,因此NMS处理耗费时间。
本申请发明人鉴于上述课题努力探讨,结果发现了:关于被检测出的全部候选框,基于与下述类(例如背景)对应的似然性,提取映现检测对象的物体的可能性高的候选框,由此能够减少处理量,其中与上述类对应的似然性相对于与其他类对应的似然性具有负相关关系。例如发现了:分类至背景类和背景以外的类,仅关于背景以外的类的候选框,也就是说,映现检测对象的物体的可能性高的候选框,执行判定是否被分类至其他类的判定处理,从而能够减少第2处理中的处理量。由此,想到了能够减少最终阶段的判定处理的处理量的信息处理装置及信息处理方法。
本公开的一个方式的概要如下所述。
本公开的一个方式所涉及的信息处理装置是具备处理器的信息处理装置,所述处理器取得输入图像,向执行分类似然性计算处理的机器学习模型输入所述输入图像并取得所述输入图像中的各物体候选的与多个类分别对应的似然性,关于所述各物体候选,使用与所述多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至所述第1类的第1判定,关于在所述第1判定中判定为不被分类至所述第1类的物体候选,分别执行判定是否被分类至所述其他类的第2判定,使用所述第2判定的结果来输出所述输入图像中映现的物体的分类结果。
像这样,关于各物体候选,使用相对于与其他类对应的似然性具有负相关关系的与第1类对应的似然性来执行第1判定,因此各候选框被高精度地分类至第1类及不是第1类的类中的某一个。仅关于被判定为不是第1类的物体候选,实施判定是否被分类至第1类以外的其他类的第2判定。因此,根据本公开的一个方式所涉及的信息处理装置,能够减少用于物体的分类的处理量。
另外,例如也可以是,所述处理器在所述第1判定中,判定所述各物体候选的与所述第1类对应的似然性是否为第1阈值以上。此时,例如也可以是,所述处理器进而关于所述各物体候选,执行判定是否被分类至所述其他类的第3判定,将比通过所述第3判定判定为被分类至所述其他类的物体候选的与所述第1类对应的似然性更大的值,决定为所述第1阈值。例如也可以是,所述处理器关于多个所述输入图像的所述各物体候选执行所述第3判定,将比通过关于多个所述输入图像的所述各物体候选的所述第3判定判定为被分类至所述其他类的物体候选的与所述第1类对应的全部似然性都更大的值,决定为所述第1阈值。
由此,基于第1阈值实施第1判定,因此在第1判定中被判定为不被分类至第1类的物体候选,包含被分类至第1类以外的其他类的全部物体候选。因此,根据本公开的一个方式所涉及的信息处理装置,通过执行第1判定,能够将输入图像中的全部物体候选高精度地分类至第1类和第1类以外的其他类。
另外,例如也可以是,所述第1类是背景类。
由此,根据本公开的一个方式所涉及的信息处理装置,能够关于映现检测对象的物体的可能性高的物体候选,执行判定是否分类至第1类以外的其他类中的哪一类的判定处理。
另外,例如也可以是,所述处理器从所述机器学习模型进而关于所述各物体候选取得候选框,在所述第2判定中,关于判定为不被分类至所述第1类的物体候选,分别判定与所述其他类对应的似然性是否为与所述候选框的尺寸相应的与所述其他类对应的阈值以上。
像这样,关于各物体候选与被输出的候选框的尺寸相应地使用与第1类以外的其他类对应的阈值,从而能够提高候选框的尺寸较大的物体候选的检测精度,并且关于候选框的尺寸较小的物体候选减少误检测。
另外,本公开的一个方式所涉及的信息处理方法是使处理器执行的方法,取得输入图像,向执行分类似然性计算处理的机器学习模型输入所述输入图像并取得所述图像中的各物体候选的与多个类分别对应的似然性,关于所述各物体候选,使用与所述多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至所述第1类的第1判定,关于在所述第1判定中判定为不被分类至所述第1类的物体候选,分别执行判定是否被分类至所述其他类的第2判定,使用所述第2判定的结果来输出所述输入图像中映现的物体的分类结果。
像这样,关于各物体候选,使用相对于与其他类对应的似然性具有负相关关系的与第1类对应的似然性来执行第1判定,因此各候选框被高精度地分类至第1类及不是第1类的类中的某一个。仅关于被判定为不是第1类的物体候选,实施判定是否被分类至第1类以外的其他类的第2判定。因此,根据本公开的一个方式所涉及的信息处理方法,能够减少判定处理的处理量。
另外,本公开的一个方式能够作为使计算机执行上述信息处理方法的程序实现。或者,还能够作为存放了该程序的计算机可读取的非易失性的记录介质实现。
以下,参照附图具体说明实施方式。
此外,以下说明的实施方式均示出概括性的或者具体性的例子。以下的实施方式中示出的数值、形状、材料、构成要素、构成要素的配置位置及连接方式、步骤、步骤的顺序等是一例,其意图不在于限定本公开。此外,关于以下实施方式中的构成要素之中的在独立权利要求中未记载的构成要素,作为任意的构成要素而被说明。
另外,各图是示意图,不一定严密地图示。从而,例如,在各图中比例尺等不必须一致。另外,在各图中,关于实质上相同的构成赋予相同的标记,省略或者简化重复的说明。
另外,在本说明书中,水平或者垂直等表示要素间的关系性的用语以及数值范围不是仅表示严密的含义的表现,而是意味着也包含实质上等同的范围、例如几%程度的差异的表现。
(实施方式)
[1.概要]
首先,说明实施方式所涉及的信息处理装置的概要。信息处理装置是用于检测图像内的物体的装置。例如,信息处理装置既可以是汽车、摩托车、自行车及电车(火车)等车辆、无人机等飞行体、或者飞机等移动体上搭载的相机系统的一个构成,也可以是防盗相机系统的一个构成。
信息处理装置使用训练完成的机器学习模型,输出图像中映现的物体的分类结果。机器学习模型例如是卷积滤波器网络(CNN),使用教师数据被训练。关于信息处理装置的动作及机器学习模型的训练留待后述。
[2.功能构成]
接下来,关于信息处理装置的功能构成的一例,使用图4进行说明。图4是表示实施方式所涉及的信息处理装置100的功能构成的一例的框图。
如图4所示,信息处理装置100取得输入图像,将输入图像向输入部11输入。输入部11将输入图像向分类似然性计算部12输出。分类似然性计算部12例如是执行分类似然性的计算处理的机器学习模型。分类似然性计算部12计算输入图像中的各物体候选的与多个类分别对应的似然性。更具体而言,如图1的(d)中所说明的那样,分类似然性计算部12通过卷积滤波处理对输入图像进行卷积,提取各种尺寸的特征图。接下来,分类似然性计算部12关于各特征图上的被分配至各特征点的多个候选框,分别计算与多个类分别对应的似然性。即,分类似然性计算部12进行图1的(d)所示的全部候选框的检测处理。
第1提取部13提取多个类之中的被分类至第1类的物体候选(以下称为候选框),将被分类至第1类以外的其他类(以下称为其他类)的候选框向第2提取部14输出。第2提取部14将被分类至其他类的候选框分别分类至各类,并向综合部15输出。即,第1提取部13及第2提取部14中的处理是图1的(d)中说明的Non-Maximum suppression(非极大值抑制:NMS)处理的第1处理。接下来,综合部15取得从第2提取部14输出的被分类至其他类的多个候选框,针对所取得的多个候选框执行NMS处理的第2处理。综合部15删除重合的候选框之中的除了具有最大似然性的候选框以外的候选框,将候选框综合为1个。输出部16将综合后的候选框作为最终的检测结果输出。
[3.安装例]
接下来,说明信息处理装置100的安装例。图5是表示实施方式所涉及的信息处理装置100的安装例的框图。信息处理装置100具备处理器10和存储器20。例如,图4所示的信息处理装置100的多个构成要素由图5所示的处理器10及存储器20实现。
处理器10是能够对存储器20进行存取的电子电路,进行信息处理。例如,处理器10是使用存储器20对图像中的物体进行检测的专用或者通用的处理器。处理器10例如也可以是CPU。
另外,例如既可以由专用的硬件构成,也可以读出存储器20中记录的软件程序来执行。另外,软件程序既可以通过下载等被分发,也可以记录在半导体存储器等记录介质中被分发。
另外,处理器10也可以由多个电子电路构成,还可以由多个子处理器构成。另外,处理器10也可以起到图4及图5所示的信息处理装置100的多个构成要素之中除了用于存储信息的构成要素之外的多个构成要素的作用。
存储器20是存储供处理器10对图像中的物体进行检测的信息的专用或者通用的存储器。存储器20既可以是电子电路,也可以与处理器10连接,还可以被包含在处理器10中。
另外,存储器20也可以由多个电子电路构成,还可以由多个子存储器构成。另外,存储器20也可以是磁盘或者光盘等,也可以表现为存储装置或者记录介质等。另外,存储器20既可以是非易失性存储器,也可以是易失性存储器。
例如,存储器20起到图4及图5所示的信息处理装置100的多个构成要素之中用于存储信息的构成要素的作用。
另外,在存储器20中,既可以存储供物体检测处理使用的动态图像,也可以存储与供物体检测处理使用的动态图像对应的比特串。另外,在存储器20中,也可以存储用于处理器10对图像中的物体进行检测的程序。
另外,在信息处理装置100中,也可以不安装图4及图5所示的多个构成要素中的全部构成要素,也可以不进行上述多个处理中的全部处理。图4及图5所示的多个构成要素的一部分也可以被包含于其他装置,上述多个处理的一部分也可以由其他装置执行。另外,在信息处理装置100中,通过安装图4及图5所示的多个构成要素之中的一部分,进行上述多个处理的一部分,能够减少最终阶段的判定处理的处理量。
如上所述,图5所示的信息处理装置100的处理器10使用信息处理装置100的存储器20对图像中的物体进行检测。
例如,处理器10取得输入图像,向执行分类似然性计算处理的机器学习模型输入输入图像,并取得输入图像中的各物体候选(以下称为候选框)的与多个类分别对应的似然性。接下来,处理器10关于各候选框,使用与多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至第1类的第1判定。更具体而言,处理器10在第1判定中,判定各候选框的与第1类对应的似然性是否为第1阈值以上。
此外,上述的负相关关系,是与第1类对应的似然性和与其他类对应的似然性不同时高的关系。似然性不高,指的是似然性不为阈值以上。因此,关于各候选框,与第1类对应的似然性和与第1类以外的其他类对应的似然性不同时高。更具体而言,关于各候选框,在与第1类对应的似然性为阈值以上的情况下,与第1类以外的其他类对应的似然性比阈值小。因此,处理器10关于各候选框,使用相对于与其他类对应的似然性具有负相关关系的与第1类对应的似然性,进行分类处理,由此各候选框被高精度地分类至第1类及不是第1类的类中的某一个。
此外,第1类可以是与第1类以外的其他类相比在图像中的出现频度高的类。图像中的出现频度高,例如是在图像中被检测出的次数多,或者图像中的全部候选框之中似然性比阈值大的候选框的数量多。
例如,处理器10进而关于各候选框,执行判定是否被分类至其他类的第3判定,将比通过第3判定判定为被分类至其他类的候选框的与第1类对应的似然性更大的值,决定为第1阈值。例如,处理器10关于多个输入图像的各物体候选执行第3判定,将比通过关于多个输入图像的各物体候选的第3判定判定为被分类至其他类的物体候选的与第1类对应的似然性全部都更大的值,决定为第1阈值。由此,在第1判定中判定了各候选框的与第1类对应的似然性是否为第1阈值以上的情况下,通过第3判定判定为被分类至其他类的候选框全部被分类至不是第1类的类。因此,能够减少应该被分类至第1类以外的其他类的候选框被误分类至第1类的情况。
例如,第1类是背景类。在该情况下,处理器10将各候选框分类至背景类和不是背景的类。由此,在全部候选框之中,提取映现着检测对象的物体的可能性高的候选框。由此,关于未映现检测对象的物体的候选框,不需要执行进一步的分类处理,因此减少了分类处理中的处理量。另外,在全部候选框之中,仅关于映现着物体的可能性高的候选框,执行向背景以外的其他类分类的处理,因此分类处理的效率提高。
例如,处理器10关于在第1判定中判定为不被分类至第1类的候选框,分别执行判定是否被分类至其他类的第2判定。在此,在多个类中的第1类是在图像中出现频度高的类的情况下,与判定为不被分类至第1类的候选框的数量相比,判定为被分类至第1类的候选框的数量更多。因此,如果仅关于判定为不被分类至第1类的候选框分别执行第2判定,则与关于全部候选框执行第2判定的情况相比,处理量大幅减小。
接下来,处理器10使用第1判定及第2判定的结果,输出输入图像中映现的物体的分类结果。由此,能够将输入图像中映现的物体的分类结果简便而且迅速地输出。
在此,实现本实施方式的信息处理装置100的软件是如下的程序。
即,该程序也可以使计算机执行如下信息处理方法:取得输入图像,向执行分类似然性计算处理的机器学习模型输入输入图像并取得图像中的各物体候选的与多个类分别对应的似然性,关于各物体候选,使用与多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至第1类的第1判定,关于在第1判定中判定为不被分类至第1类的物体候选,分别执行判定是否被分类至其他类的第2判定,使用第2判定的结果,将输入图像中映现的物体的分类结果输出。
[4.动作]
[4-1.各候选框的分类处理]
接下来,说明信息处理装置100的动作。图6是表示实施方式所涉及的信息处理装置100的动作的一例的流程图。
首先,信息处理装置100取得输入图像(未图示)。接下来,如图6所示,信息处理装置100按输入图像中的每个候选框计算似然性(步骤S601)。更具体而言,信息处理装置100向执行分类似然性计算处理的机器学习模型输入输入图像,使其计算输入图像中的各候选框的与多个类分别对应的似然性。
接下来,信息处理装置100关于全部候选框,使用与多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至第1类的第1判定。关于与第1类相关的定义,在上述的安装例中进行了说明,因此在此省略说明。以下,关于第1类是背景(BG:Background)类的例子进行说明。
信息处理装置100判定各候选框的与背景类对应的似然性是否为背景的阈值以上(步骤S602)。在某个候选框的与背景类对应的似然性为背景的阈值以上的情况下(步骤S602:是),该某个候选框被追加至背景(BG)类的列表。另一方面,在某个候选框的与背景类对应的似然性比背景的阈值小的情况下(步骤S602:否),该某个候选框被追加至不是背景的(not BG)类的列表(步骤S603)。信息处理装置100关于全部候选框,执行上述的处理循环,从而将全部候选框分类至上述的2个类,也就是说背景(BG)类及不是背景的(not BG)类中的某一个。
接下来,信息处理装置100关于在第1判定(步骤S602)中判定为不被分类至背景类的候选框(也就是说,被追加至不是背景的类的列表的候选框),分别执行判定是否被分类至其他类的第2判定(步骤S604)。具体而言,关于各候选框,判定与其他类分别对应的似然性是否为各类的阈值以上(步骤S604)。在某个候选框的与某个类对应的似然性(例如与汽车类对应的似然性)是汽车的阈值以上的情况下(步骤S604:是),该某个候选框被追加至汽车类的列表(步骤S605)。另一方面,在该某个候选框的与汽车类对应的似然性比汽车的阈值小的情况下(步骤S604:否),该某个候选框不被追加至汽车类的列表。
接下来,信息处理装置100例如在其他1个候选框的与汽车类对应的似然性是汽车的阈值以上的情况下(步骤S604:是),该其他1个候选框被追加至汽车类的列表(步骤S605)。另一方面,在该其他1个候选框的与汽车类对应的似然性比汽车的阈值小的情况下(步骤S604:否),该其他1个候选框不被追加至汽车类的列表。
像这样,在关于不是背景的类的列表中的全部候选框,执行了与1个类(在此为汽车类)对应的分类处理之后,执行与别的类(例如行人类)对应的分类处理。反复进行同样的处理,与不是背景的类的列表中的全部候选框对应的分类循环结束。
如上,根据本实施方式所涉及的信息处理装置100,首先,关于输入图像中的全部候选框,分别例如判定是否被分类至图像中出现频度最高的类(也就是说,相对于其他类的似然性具有负相关关系的似然性的类)。由此,例如能够将检测出的全部候选框分类至背景类和不是背景的类这2个类。背景类例如是图像中的出现频度高的类。信息处理装置100关于被分类至不是背景的类的各候选框,进行与背景类以外的其他类对应的分类处理,因此处理量得以减小。
[4-2.第1类的第1阈值的决定处理]
接下来,说明信息处理装置100所执行的作为第1类(在此为背景类)的似然性阈值的第1阈值的决定处理流程的一例。图7是表示实施方式中的机器学习模型的离线处理的一例的流程图。
如图6中所说明的那样,信息处理装置100向执行分类似然性计算处理的机器学习模型输入输入图像,计算输入图像中的各候选框的与多个类分别对应的似然性。机器学习模型被使用教师数据,训练输入图像中的候选框的检测、以及各候选框的与多个类分别对应的似然性的计算。
信息处理装置100例如在离线状态下,将规定的输入图像向机器学习模型输入,机器学习模型关于检测出的全部候选框,分别计算与多个类对应的似然性(未图示)。
接下来,信息处理装置100利用机器学习模型,开始分类循环。首先,信息处理装置100利用机器学习模型,关于全部候选框,针对多个类之中的1个类执行分类处理。例如,判定某个候选框的与背景类对应的似然性是否为背景的阈值以上(步骤S701)。在该某个候选框的与背景类对应的似然性是背景的阈值以上的情况下(步骤S701:是),该某个候选框被追加至背景类的列表(步骤S702)。另一方面,在该某个候选框的与背景类对应的似然性比背景的阈值小的情况下(步骤S701:否),该某个候选框不被追加至背景类的列表。
接下来,关于其他1个候选框,执行步骤S701的处理,在该其他1个候选框的与背景类对应的似然性是背景的阈值以上的情况下(步骤S701:是),该其他1个候选框被追加至背景类的列表(步骤S702)。另一方面,在该其他1个候选框的与背景类对应的似然性比背景的阈值小的情况下(步骤S701:否),该其他1个候选框不被追加至背景类的列表。
如上,关于全部候选框执行了与背景类对应的分类处理之后,关于全部候选框,执行与背景类以外的其他类(例如汽车类)对应的分类处理(第3判定的处理)。同样,在与汽车类对应的分类处理结束之后,关于全部候选框,执行与除了背景类及汽车类以外的其他类(例如行人类)对应的分类处理。像这样,关于全部候选框,执行与全部类对应的分类处理。
虽未图示,信息处理装置100将比通过上述一系列处理追加至背景类以外的其他类的列表中的各候选框的与背景类对应的似然性更大的值,决定为第1阈值。例如,第1阈值既可以是比被追加至其他类的列表中的各候选框的与背景类对应的似然性的平均值更大的值,也可以是比最大值更大的值。由此,信息处理装置100在第1判定中,能够不遗漏有映现物体的可能性的候选框,而分类至不是背景的类。
[4-3.决定的第1阈值的调整]
接下来,信息处理装置100使用通过图7所示的处理决定的第1阈值,针对输入图像中的全部候选框执行第1判定,判定第1阈值是否合适,基于判定结果,调整第1阈值的值。
图8是表示机器学习模型的离线处理的其他例的流程图。在图8所示的处理流程中,信息处理装置100关于输入图像中的全部候选框,执行判定与第1类(在此为背景类)对应的似然性是否为第1阈值以上的第1判定,将全部候选框分类至背景类及不是背景的类中的某一类。第1阈值是第1类(在此为背景类)的阈值。此外,在图7及图8所示的处理流程中,信息处理装置100将相同的输入图像向机器学习模型输入。
如图8所示,信息处理装置100利用机器学习模型,关于全部候选框,判定是否被分类至背景类。例如,判定某个候选框的与背景类对应的似然性是否为背景的阈值以上(步骤S801)。在该某个候选框的与背景类对应的似然性是背景的阈值以上的情况下(步骤S801:是),该某个候选框被追加至背景类。另一方面,在该某个候选框的与背景类对应的似然性比背景的阈值小的情况下(步骤S801:否),该某个候选框被追加至不是背景的(not BG)类(步骤S802)。
接下来,信息处理装置100关于其他候选框,分别执行同样的处理,分类至背景列表及不是背景的列表中的某一个。如果关于全部候选框结束执行了第1判定,则全部候选框的循环结束。
信息处理装置100判定在图7所示的处理流程中被分类至背景类以外的其他类的候选框是否全部通过图8所示的处理被追加至不是背景的类的列表。在被分类至其他类的候选框全部被追加至不是背景的类的列表的情况下,信息处理装置100也可以根据被追加至不是背景的类的列表中的候选框的数量与被分类至其他类的候选框的数量之间的差量,对第1阈值附加规定的余量。另一方面,在被分类至其他类的候选框之中,有未被追加至不是背景的类的列表中的候选框的情况下,信息处理装置100调整第1阈值。此时,信息处理装置100也可以基于判定为被分类至其他类的候选框之中未被追加至不是背景的类的列表中的候选框的数据,来调整第1阈值。
信息处理装置100在调整了第1阈值的情况下,使用调整后的第1阈值,执行图8所示的处理流程。然后,信息处理装置100再次判定在图7所示的处理流程中被分类至其他类的候选框是否全部包含在不是背景的类的列表中。像这样,信息处理装置100在离线状态下,使用规定的训练用数据执行机器学习模型的训练,决定合适的第1阈值。
(变形例)
接下来,说明变形例所涉及的信息处理装置。在此,以与实施方式所涉及的信息处理装置100的不同点为中心进行说明。
变形例所涉及的信息处理装置关于在第1判定中被判定为未分类至第1类(例如背景类)的候选框,分别与各候选框的尺寸相应地与其他类对应的阈值,判定各候选框的与其他类对应的似然性是否为该阈值以上,这点与实施方式所涉及的信息处理装置100不同。
图9是表示变形例所涉及的信息处理装置的动作的一例的第1流程图。图10是变形例所涉及的信息处理装置的动作的一例的第2流程图。
如图9所示,变形例所涉及的信息处理装置计算输入图像中的各候选框的与多个类分别对应的似然性(步骤S901)。接下来,信息处理装置关于全部候选框执行第1判定。例如,信息处理装置执行判定某个候选框的与背景对应的似然性是否为背景的阈值以上的第1判定(步骤S902)。在该某个候选框的与背景对应的似然性是背景的阈值以上的情况下(步骤S902:是),该某个候选框被追加至背景类的列表。另一方面,在该某个候选框的与背景对应的似然性比背景的阈值小的情况下(步骤S902:否),该某个候选框被追加至不是背景的(not BG)列表(步骤S903)。
接下来,执行判定其他1个候选框的与背景对应的似然性是否为背景的阈值以上的第1判定(步骤S902)。在该其他1个候选框的与背景对应的似然性是背景的阈值以上的情况下(步骤S902:是),该其他1个候选框被追加至背景类的列表。另一方面,在该其他1个候选框的与背景对应的似然性比背景的阈值小的情况下(步骤S902:否),该其他1个候选框被追加至不是背景的(not BG)类的列表(步骤S903)。
关于全部候选框,如果结束了上述的处理循环,则开始不是背景的类的列表中的候选框的分类循环处理(参照图10)。
虽未图示,变形例所涉及的信息处理装置与候选框的尺寸相应地决定与其他类对应的阈值。例如,候选框的尺寸越小,则设定越小的值的阈值。由此,能够减少信息处理装置对影像中较小地映现的物体误检测的情况。
如图10所示,首先,信息处理装置判定各候选框的尺寸。例如,信息处理装置判定通过图9所示的处理被追加至不是背景的类的列表中的各候选框的尺寸是否比h1(高度1)大且为h2(高度2)以下(步骤S1001)。此时,在第一个候选框的尺寸比h1大且为h2以下的情况下(步骤S1001:是),判定该第一个候选框的与汽车类对应的似然性是否为汽车的阈值1以上(步骤S1002)。在该第一个候选框的与汽车类对应的似然性是汽车的阈值以上的情况下,该某个候选框被追加至汽车类的列表(步骤S1003)。另一方面,在该第一个候选框的与汽车类对应的似然性比汽车的阈值小的情况下(步骤S1002:否),该第一个候选框不被追加至汽车类的列表。
接下来,判定第2个候选框的尺寸是否比h1大且为h2以下(步骤S1001)。在该第2个候选框的尺寸不是“比h1大且为h2以下”的情况下(步骤S1001:否),判定该第2个候选框的尺寸是否比h2(高度2)大且为h3(高度3)以下(步骤S1004)。此时,在该第2个候选框的尺寸比h2大且为h3以下的情况下(步骤S1004:是),判定该第2个候选框的与汽车类对应的似然性是否为汽车的阈值2以上(步骤S1005)。在该第2个候选框的与汽车类对应的似然性是汽车的阈值2以上的情况下(步骤S1005:是),该第2个候选框被追加至汽车类的列表(步骤S1006)。另一方面,在该第2个候选框的与汽车类对应的似然性比汽车的阈值2小的情况下(步骤S1005:否),该第2个候选框不被追加至汽车类的列表。
接下来,判定第3个候选框的尺寸是否比h1大且为h2以下(步骤S1001)。在该第3个候选框的尺寸不是“比h1大且为h2以下”的情况下(步骤S1001:否),判定该第3个候选框的尺寸是否比h2(高度2)大且为h3(高度3)以下(步骤S1004)。此时,在该第3个候选框的尺寸不是“比h2大且为h3以下”的情况下(步骤S1004:否),判定该第3个候选框的尺寸是否比h3(高度3)大且为h4(高度4)以下(步骤S1007)。此时,在该第3个候选框的尺寸比h3大且为h4以下的情况下(步骤S1007:是),判定该第3个候选框的与汽车类对应的似然性是否为汽车的阈值3以上(步骤S1008)。在该第3个候选框的与汽车类对应的似然性是汽车的阈值3以上的情况下(步骤S1008:是),该第3个候选框被追加至汽车类的列表(步骤S1009)。另一方面,在该第3个候选框的与汽车类对应的似然性比汽车的阈值3小的情况下(步骤S1008:否),该第3个候选框不被追加至汽车类的列表。
像这样,如果关于被分类至不是背景的类的全部候选框,结束了与汽车对应的似然性阈值的判定处理,则关于除了背景类及汽车类以外的其他类,执行上述的分类处理。
(其他实施方式)
以上,关于1个或者多个方式所涉及的信息处理装置及信息处理方法,基于实施方式进行了说明,但本公开不限定于这些实施方式。只要不脱离本公开的主旨,对本实施方式施加了本领域技术人员想到的各种变形而得到的方式、以及组合了不同实施方式中的构成要素而构筑的方式,也包含在本公开的范围中。
例如,在上述的实施方式中说明的处理既可以通过使用单一的装置(系统)集中处理来实现,或者也可以通过使用多个装置分散处理来实现。另外,执行上述程序的处理器既可以是单个,也可以是多个。即,既可以进行集中处理,或者也可以进行分散处理。
另外,本公开的整体性的或者具体性的方式也可以通过系统、装置、方法、集成电路、计算机程序及记录介质的任意组合来实现。
另外,上述的各实施方式能够在权利要求书或者与其等同的范围中进行各种变更、改写、附加及省略等。
工业实用性
本公开能够作为能够减少分类处理中的处理量的信息处理装置等利用,例如,能够利用于自动驾驶的控制或者防盗相机系统中的人检测等。
附图标记说明:
10 处理器
11 输入部
12 分类似然性计算部
13 第1提取部
14 第2提取部
15 综合部
16 输出部
20 存储器
100 信息处理装置。
Claims (8)
1.一种具备处理器的信息处理装置,
所述处理器,
取得输入图像,
向执行分类似然性计算处理的机器学习模型输入所述输入图像,并取得所述输入图像中的各物体候选的与多个类分别对应的似然性,
关于所述各物体候选,使用与所述多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至所述第1类的第1判定,
关于在所述第1判定中判定为不被分类至所述第1类的物体候选,分别执行判定是否被分类至所述其他类的第2判定,
使用所述第2判定的结果来输出所述输入图像中映现的物体的分类结果。
2.如权利要求1所述的信息处理装置,
所述处理器在所述第1判定中,判定所述各物体候选的与所述第1类对应的似然性是否为第1阈值以上。
3.如权利要求2所述的信息处理装置,
所述处理器进而关于所述各物体候选,执行判定是否被分类至所述其他类的第3判定,
将比通过所述第3判定判定为被分类至所述其他类的物体候选的与所述第1类对应的似然性更大的值,决定为所述第1阈值。
4.如权利要求3所述的信息处理装置,
所述处理器,
关于多个所述输入图像的所述各物体候选执行所述第3判定,
将比通过关于多个所述输入图像的所述各物体候选的所述第3判定判定为被分类至所述其他类的物体候选的与所述第1类对应的似然性全部都更大的值,决定为所述第1阈值。
5.如权利要求1~4中任一项所述的信息处理装置,
所述第1类是背景类。
6.如权利要求5所述的信息处理装置,
所述处理器,
从所述机器学习模型进而关于所述各物体候选取得候选框,
在所述第2判定中,关于判定为不被分类至所述第1类的物体候选,分别判定与所述其他类对应的似然性是否为与所述候选框的尺寸相应的与所述其他类对应的阈值以上。
7.一种使处理器执行的信息处理方法,
取得输入图像,
向执行分类似然性计算处理的机器学习模型输入所述输入图像,并取得所述图像中的各物体候选的与多个类分别对应的似然性,
关于所述各物体候选,使用与所述多个类中的第1类对应的、且相对于与其他类对应的似然性具有负相关关系的似然性,执行判定是否被分类至所述第1类的第1判定,
关于在所述第1判定中判定为不被分类至所述第1类的物体候选,分别执行判定是否被分类至所述其他类的第2判定,
使用所述第2判定的结果来输出所述输入图像中映现的物体的分类结果。
8.一种程序,用于使计算机执行如权利要求7所述的信息处理方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862747276P | 2018-10-18 | 2018-10-18 | |
US62/747276 | 2018-10-18 | ||
JP2019-092489 | 2019-05-15 | ||
JP2019092489A JP7311310B2 (ja) | 2018-10-18 | 2019-05-15 | 情報処理装置、情報処理方法及びプログラム |
PCT/JP2019/031587 WO2020079933A1 (ja) | 2018-10-18 | 2019-08-09 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111417960A true CN111417960A (zh) | 2020-07-14 |
CN111417960B CN111417960B (zh) | 2024-07-05 |
Family
ID=70388335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980005337.2A Active CN111417960B (zh) | 2018-10-18 | 2019-08-09 | 信息处理装置、信息处理方法及程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11526708B2 (zh) |
EP (1) | EP3869450A4 (zh) |
JP (1) | JP7311310B2 (zh) |
CN (1) | CN111417960B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3951620A4 (en) * | 2019-03-26 | 2022-04-13 | NEC Corporation | INFORMATION PROCESSING DEVICE, IMAGING DEVICE, INFORMATION PROCESSING METHOD AND STORAGE MEDIA |
JP7490359B2 (ja) * | 2019-12-24 | 2024-05-27 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN111860376B (zh) * | 2020-07-24 | 2023-10-31 | 北京博维航空设施管理有限公司 | 一种舱门的轮廓拟合方法及装置 |
CN111931727A (zh) * | 2020-09-23 | 2020-11-13 | 深圳市商汤科技有限公司 | 点云数据标注方法、装置、电子设备和存储介质 |
CN113361593B (zh) * | 2021-06-03 | 2023-12-19 | 阿波罗智联(北京)科技有限公司 | 生成图像分类模型的方法、路侧设备及云控平台 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038530A (ja) * | 2002-07-03 | 2004-02-05 | Ricoh Co Ltd | 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置 |
US20040091153A1 (en) * | 2002-11-08 | 2004-05-13 | Minolta Co., Ltd. | Method for detecting object formed of regions from image |
CN1983298A (zh) * | 2005-12-06 | 2007-06-20 | 索尼株式会社 | 信息处理设备和方法以及程序 |
JP2013114596A (ja) * | 2011-11-30 | 2013-06-10 | Kddi Corp | 画像認識装置及び方法 |
JP2014515128A (ja) * | 2011-03-04 | 2014-06-26 | エルビーティー イノベーションズ リミテッド | 明細書微生物増殖を分析する方法およびソフトウェア |
CN104331715A (zh) * | 2014-10-08 | 2015-02-04 | 清华大学 | 基于模板学习的指纹姿态矫正方法及系统 |
JP2015219868A (ja) * | 2014-05-21 | 2015-12-07 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
CN106886795A (zh) * | 2017-02-17 | 2017-06-23 | 北京维弦科技有限责任公司 | 基于图像中的显著物体的物体识别方法 |
WO2018003212A1 (ja) * | 2016-06-30 | 2018-01-04 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
CN108307660A (zh) * | 2016-11-09 | 2018-07-20 | 松下知识产权经营株式会社 | 信息处理方法、信息处理装置以及程序 |
CN108629354A (zh) * | 2017-03-17 | 2018-10-09 | 杭州海康威视数字技术股份有限公司 | 目标检测方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7648460B2 (en) * | 2005-08-31 | 2010-01-19 | Siemens Medical Solutions Usa, Inc. | Medical diagnostic imaging optimization based on anatomy recognition |
JP4757599B2 (ja) | 2005-10-13 | 2011-08-24 | 日本電気株式会社 | 音声認識システムと音声認識方法およびプログラム |
US9355337B2 (en) * | 2009-08-25 | 2016-05-31 | Xerox Corporation | Consistent hierarchical labeling of image and image regions |
US9235781B2 (en) * | 2013-08-09 | 2016-01-12 | Kabushiki Kaisha Toshiba | Method of, and apparatus for, landmark location |
JP2016151805A (ja) | 2015-02-16 | 2016-08-22 | 大日本印刷株式会社 | オブジェクト検出装置、オブジェクト検出方法、及びプログラム |
JP6497651B2 (ja) | 2015-03-19 | 2019-04-10 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
US9946951B2 (en) * | 2015-08-12 | 2018-04-17 | International Business Machines Corporation | Self-optimized object detection using online detector selection |
JP2017084006A (ja) * | 2015-10-26 | 2017-05-18 | キヤノン株式会社 | 画像処理装置およびその方法 |
US10657364B2 (en) * | 2016-09-23 | 2020-05-19 | Samsung Electronics Co., Ltd | System and method for deep network fusion for fast and robust object detection |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN108664844A (zh) * | 2017-03-28 | 2018-10-16 | 爱唯秀股份有限公司 | 卷积深度神经网络的图像目标语义识别及追踪 |
US10242294B2 (en) * | 2017-05-01 | 2019-03-26 | Intel Corporation | Target object classification using three-dimensional geometric filtering |
JP7015001B2 (ja) * | 2018-03-14 | 2022-02-02 | オムロン株式会社 | 欠陥検査装置、欠陥検査方法、及びそのプログラム |
US11809998B2 (en) * | 2020-05-20 | 2023-11-07 | Qualcomm Incorporated | Maintaining fixed sizes for target objects in frames |
-
2019
- 2019-05-15 JP JP2019092489A patent/JP7311310B2/ja active Active
- 2019-08-09 EP EP19872900.6A patent/EP3869450A4/en active Pending
- 2019-08-09 CN CN201980005337.2A patent/CN111417960B/zh active Active
-
2020
- 2020-04-27 US US16/859,264 patent/US11526708B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038530A (ja) * | 2002-07-03 | 2004-02-05 | Ricoh Co Ltd | 画像処理方法、同方法の実行に用いるプログラム及び画像処理装置 |
US20040091153A1 (en) * | 2002-11-08 | 2004-05-13 | Minolta Co., Ltd. | Method for detecting object formed of regions from image |
CN1983298A (zh) * | 2005-12-06 | 2007-06-20 | 索尼株式会社 | 信息处理设备和方法以及程序 |
JP2014515128A (ja) * | 2011-03-04 | 2014-06-26 | エルビーティー イノベーションズ リミテッド | 明細書微生物増殖を分析する方法およびソフトウェア |
JP2013114596A (ja) * | 2011-11-30 | 2013-06-10 | Kddi Corp | 画像認識装置及び方法 |
JP2015219868A (ja) * | 2014-05-21 | 2015-12-07 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
CN104331715A (zh) * | 2014-10-08 | 2015-02-04 | 清华大学 | 基于模板学习的指纹姿态矫正方法及系统 |
WO2018003212A1 (ja) * | 2016-06-30 | 2018-01-04 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
CN108307660A (zh) * | 2016-11-09 | 2018-07-20 | 松下知识产权经营株式会社 | 信息处理方法、信息处理装置以及程序 |
CN106886795A (zh) * | 2017-02-17 | 2017-06-23 | 北京维弦科技有限责任公司 | 基于图像中的显著物体的物体识别方法 |
CN108629354A (zh) * | 2017-03-17 | 2018-10-09 | 杭州海康威视数字技术股份有限公司 | 目标检测方法及装置 |
Non-Patent Citations (6)
Title |
---|
JINGYAN WANG等: "The more you look, the more you see: towards general object understanding through recursive refinement", 2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION, pages 1794 - 1803 * |
NYDICK, STEVEN W等: "The Sequential Probability Ratio Test and Binary Item Response Models", JOURNAL OF EDUCATIONAL AND BEHAVIORAL STATISTICS, vol. 39, no. 3, 30 June 2014 (2014-06-30), pages 203 - 230 * |
ROSS GIRSHICK等: "Fast R-CNN", 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, pages 1440 - 1448 * |
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 39, no. 6, pages 1137 - 1149, XP055705510, DOI: 10.1109/TPAMI.2016.2577031 * |
刘涛;吴泽民;姜青竹;胡磊;刘熹;: "基于候选区域的视觉目标识别算法", 军事通信技术, no. 04, 25 December 2015 (2015-12-25), pages 16 - 20 * |
许少榕: "基于 DPM 的图像视觉目标识别改进算法", 济宁学院学报, vol. 39, no. 2, 30 April 2018 (2018-04-30), pages 31 - 38 * |
Also Published As
Publication number | Publication date |
---|---|
US11526708B2 (en) | 2022-12-13 |
CN111417960B (zh) | 2024-07-05 |
EP3869450A1 (en) | 2021-08-25 |
JP2020064604A (ja) | 2020-04-23 |
JP7311310B2 (ja) | 2023-07-19 |
US20200364517A1 (en) | 2020-11-19 |
EP3869450A4 (en) | 2021-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111417960B (zh) | 信息处理装置、信息处理方法及程序 | |
TWI497422B (zh) | 車牌影像辨識系統及方法 | |
WO2019051941A1 (zh) | 车型识别方法、装置、设备及计算机可读存储介质 | |
KR101179497B1 (ko) | 얼굴 검출 방법 및 장치 | |
KR101848019B1 (ko) | 차량 영역 검출을 통한 차량 번호판 검출 방법 및 장치 | |
JP6897335B2 (ja) | 学習プログラム、学習方法および物体検知装置 | |
CN108388879B (zh) | 目标的检测方法、装置和存储介质 | |
JP5127392B2 (ja) | 分類境界確定方法及び分類境界確定装置 | |
WO2017059576A1 (en) | Apparatus and method for pedestrian detection | |
KR102476022B1 (ko) | 얼굴검출 방법 및 그 장치 | |
JP7185419B2 (ja) | 車両のための、対象物を分類するための方法および装置 | |
JP2019061505A (ja) | 情報処理システム、制御システム、及び学習方法 | |
US20130148857A1 (en) | Apparatus for extracting character area in vehicle number plate and method thereof | |
CN112949578B (zh) | 车灯状态识别方法、装置、设备及存储介质 | |
US20210342631A1 (en) | Information processing method and information processing system | |
CN111783665A (zh) | 一种动作识别方法、装置、存储介质和电子设备 | |
CN114387591A (zh) | 车牌识别方法、系统、设备及存储介质 | |
KR20200036079A (ko) | 적응적 비최대억제 방법을 이용하는 딥러닝기반 영상객체 탐지를 위한 장치 및 방법 | |
US11605224B2 (en) | Automated media editing operations in consumer devices | |
KR101821242B1 (ko) | 영상 인식에 기반하여 차량을 계수하는 방법 및 이를 이용한 장치 | |
CN112446375A (zh) | 车牌识别方法、装置、设备及存储介质 | |
KR20130091441A (ko) | 물체 추적 장치 및 그 제어 방법 | |
CN110728229B (zh) | 图像处理方法、装置、设备和存储介质 | |
US20230343082A1 (en) | Encoding of training data for training of a neural network | |
CN113869304A (zh) | 视频的文字检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |