CN117918015A - 自动创建用于多传感器数据融合的机器学习系统的方法和设备 - Google Patents
自动创建用于多传感器数据融合的机器学习系统的方法和设备 Download PDFInfo
- Publication number
- CN117918015A CN117918015A CN202280055921.0A CN202280055921A CN117918015A CN 117918015 A CN117918015 A CN 117918015A CN 202280055921 A CN202280055921 A CN 202280055921A CN 117918015 A CN117918015 A CN 117918015A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- path
- noi
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004927 fusion Effects 0.000 title claims description 9
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 5
- 238000002604 ultrasonography Methods 0.000 claims description 5
- 238000001931 thermography Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 31
- 238000013528 artificial neural network Methods 0.000 description 20
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000005070 sampling Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 230000001276 controlling effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
用于创建可被设置用于分割和对象检测的机器学习系统的方法,包括以下步骤:提供有向图,选择穿过该图的一个或多个路径,其中从子集中选择至少一个附加节点(NOI)并且选择穿过该图从输入节点沿着边经过附加节点(NOI)到输出节点的路径。对于有向图的每个输出,从多个输入节点中寻找最佳输入节点。
Description
技术领域
本发明涉及一种创建例如用于分割和/或对象检测的机器学习系统的方法,其中所述机器学习系统运行多传感器数据融合以确定其输出变量,本发明还涉及对应的计算机程序和具有所述计算机程序的机器可读存储介质。
背景技术
神经网络架构搜索的目标是为预给定的数据集完全自动地找到在性能指标/度量的意义上尽可能好的网络架构。
为了以计算高效的方式来设计自动架构搜索,搜索空间中的不同架构可以共享其操作的权重,例如对于一次性NAS模型而言,这通过Pham,H.、Guan,M.Y.、Zoph,B.、Le、Q.V.和Dean,J.(2018)的“Efficient neural architecture search via parametersharing”,arXiv预印本arXiv:1802.03268展示。
在此,一次性模型典型地被构造为有向图,其中节点表示数据,边表示操作,所述操作表示将边的输入节点转换为输出节点的计算规则。搜索空间在此由一次性模型中的子图(例如路径)组成。由于一次性模型可能非常大,因此可以从一次性模型中提取各个架构来进行训练,特别是随机地提取,例如由Cai,H.、Zhu,L.和Han,S.(2018)的ProxylessNAS:Direct Neural Architecture Search on Target Task and Hardware,arXiv预印本arXiv:1812.00332展示的。这典型地是通过提取从网络的设定输入节点到输出节点的单个路径来完成的,例如由Guo,Z.、Zhang,X.、Mu,H.、Heng,W.、Liu,Z.、Wei,Y.和Sun,J.(2019)的“Singlepath one-shotneural architecture searchwithuniform sampling”,arXiv预印本arXiv:1904.00420展示的。
对于诸如目标检测的特定任务或在多任务网络的情况下,网络必须具有多个输出。在此,可以针对这种情况修改完整的一次性模型的基于梯度的训练,例如由Chen,W.、Gong,X.、Liu,X.、Zhang,Q.、Li,Y.和Wang,Z(2019)的FasterSeg:SearchingforFasterReal-time Semantic Segmentation,arXiv预印本arXiv:1912.10917展示的。然而,这又不具有存储器效率,并且在架构搜索的范围内的训练期间,没有展示提取具有分支和不同输出的架构。
作者Cai等人在他们的出版物ProxylessNAS:Direct Neural ArchitectureSearch on Target Task and Hardware,可在线获取:https://arxiv.org/abs/1812.00332中公开了一种考虑硬件特性的架构搜索。
然而,已知的使用一次性模型的架构搜索具有以下限制:不能在多个可能的输入节点上对这些架构搜索进行优化。然而,令人感兴趣的是多个输入,例如与可以提供补充信息的多个不同传感器关联。
本发明的优点
本发明以双重方式改进了架构搜索,因为一方面本发明使得找到一个或多个最佳输入成为可能。这例如允许融合来自多个传感器的数据并自动学习应当在架构的哪个深度组合来自不同传感器的信息(早期、中期或晚期融合)。
此外,本发明使得可以优化可安置在所谓的感兴趣节点(Nodes of Interest,NOI)上的检测头(detection heads)的结构。由此也可以经由输出来优化架构。
发明内容
在第一方面,本发明涉及一种创建用于传感器数据融合的机器学习系统的计算机实现的方法。为此,机器学习系统包括针对传感器数据的多个输入。传感器数据,特别是在输入处提供的传感器数据,来自多个相同类型的传感器,这些传感器例如从不同的角度捕获传感器数据,和/或来自不同类型的传感器并且因此向机器学习系统提供不同的信息。
该方法包括以下步骤:提供有向图,其中所述有向图具有多个输入节点和至少一个输出节点以及多个另外的节点。输出节点可以是图的不连接到任何另外的后续节点的固定节点。替代地,输出节点还可以是来自图的以下节点的预给定子集的任意节点,这些节点例如由于其数据分辨率而适合作为输出节点。输入节点和输出节点借助于有向边经由所述另外的节点连接。节点可以表示数据并且边可以表示将边的第一节点转换为与相应边连接的另外的节点的操作。应当注意的是,数据和计算规则的这种分配也可以以相反的方式完成。每条边都分配有一个概率,该概率表征提取相应边的概率。应当注意,替代地可以想到向节点分配概率。边的概率应按照以下方式标准化,即来源于共同的节点的边的所有概率加起来得出值1。
每个输入节点也分配有概率。这些概率表征了提取输入节点的概率。优选地对该概率进行标准化,使得输入节点的各个概率加起来得出值1。有向图可以具有多个输出节点。在这种情况下,可以根据相应的节点来定义概率,并且例如对输入节点的子集求和就已经可以得出值1。换句话说,输入节点的概率可以定义为给定输出节点的条件概率。这导致取决于输出节点并非每个输入节点都会被使用。这意味着每个输入节点可以取决于所选择的输出节点而分配有不同的概率。此外,可以想到,也可以为给定的输出节点提取多个输入节点,其中为此可以通过输入节点对/输入节点三元组等来定义概率。
接下来是选择穿过图的一条或多条路径。为此,根据分配给输入节点的概率,从多个输入节点中特别是随机地提取一个或至少两个输入节点。可以想到的是,该提取可以根据输出节点来进行。根据分配给边的概率,选择分别从提取的输入节点沿着边到输出节点的路径。也可以想到,仅提取一个输入节点并因此仅提取一条路径。由此可以从多个输入节点中选择最佳输入节点。
路径的选择可以迭代地进行,其中在每个节点处,从连接到该节点的可能的后续边中根据分配给这些后续边的概率随机选择后续边。该过程在下文中也称为路径提取。因此,该路径表示输入节点与输出节点的直接连接。路径提取可以通过从提取的输入节点开始借助于逐步提取边的向前提取来进行,或者可以通过从输出节点开始借助于沿着边逐步向后提取的向后提取来进行。
路径在这里可以理解为有向图的所选择的节点的序列,在该序列中每两个连续的节点通过一条边连接。在此,如果架构只具有一条穿过有向图的路径,则该路径可以完全表征该架构。还可以想到,该路径仅描述架构的一部分,即当该架构具有穿过该图的多条路径。然后,所述多条路径一起形成一个子图,该子图有效地描述了至少两条相交的路径或一条穿过该图的分成两条路径的路径。然而,该子图也可以只具有一条路径,于是这条路径完整地描述了该子图。
接下来,根据所选择的路径创建机器学习系统,并教导所创建的机器学习系统,其中经过教导的机器学习系统的经过适配的参数存储在有向图的对应边中,并且对所述路径的边的概率和所述路径的所提取的输入节点的概率进行适配。在此情况下,概率的适配可以通过所谓的黑盒优化器来进行,所述黑盒优化器例如应用REINFORCE算法(为此例如参见上面引用的文献“ProxylessNAS”)来估计用于适配概率的梯度。
接下来,多次重复前面的步骤“选择路径”和“创建和教导机器学习系统”。接下来是最终根据有向图创建机器学习系统。在最后步骤中提取路径可以随机地进行,或者可以有针对性地选择具有最高概率的边。
建议从多个另外的节点中确定子集,所述子集全部满足关于数据分辨率的预给定特性,其中从该子集中选择至少一个附加节点(感兴趣节点,NOI),所述至少一个附加节点可以用作机器学习系统的另外的输出节点。对于路径的输入节点和输出节点,提取穿过图从输入节点沿着边到附加节点(NOI)的第一子路径和穿过图从输入节点沿着边到输出节点的第二子路径,或者该路径被提取为穿过图从输入节点沿着边经过附加节点(NOI)到输出节点。对于每个另外的输入节点和输出节点都重复对子路径的确定。
此外,建议当第二路径与已经提取的第一路径相遇时,将第一路径的剩余部分用于第二路径。
进一步建议将节点的子集划分为附加节点(NOI)集。向每个附加节点(NOI)分配概率,该概率表征从该附加节点被划分到的集中提取该节点的概率。当从每个集中选择路径时,分别随机提取一个附加节点(NOI),并且在教导期间也对该概率进行适配。
还建议向每个附加节点(NOI)或附加节点(NOI)集分配多个特定于任务的头(head)。每个特定于任务的头都分配有概率,该概率表征了提取特定于任务的头的概率,其中在选择路径时,针对特定于任务的头根据分配给所述特定于任务的头的概率从多个特定于任务的头中提取特定于任务的头之一。
特定于任务的头可以理解为这些头根据附加节点的输出确定对象分类,特别是对象描述。换句话说,头包括至少一个节点,所述至少一个节点将附加节点(NOI)的输出变换为表征机器学习系统的输入变量(特别是关于机器学习系统的预定任务或使用)的变量。特定于任务的头优选地描述小型神经网络,例如具有2、3或5层的神经网络。
进一步建议,有向图具有第一搜索空间,其中在这里分配给每个节点的数据的分辨率随着一直连接到输入节点之一的节点的数量而不断减小。此外,该图具有第二搜索空间,该第二搜索空间具有附加节点(NOI),其中将附加节点(NOI)集附接到第一搜索空间的每个节点。
在此情况下的优点是由此可以优化所谓的FPN架构。第一搜索空间和第二搜索空间直接彼此连接。搜索空间可以理解为以下节点的集合,这些节点共同描述了大量可能的架构。
进一步建议,机器学习系统的输出可以输出分割、对象检测、深度估计、手势/行为识别,而输入节点可以提供以下数据:相机图像、激光雷达数据、雷达数据、超声数据、热成像数据、显微镜数据,特别是来自不同角度的这些数据。
关于概率优选使用softmax函数,然后根据softmax函数的输出随机提取边或对应的节点。这样做的优点是,softmax函数保证概率的累积始终得出值1。该优点产生了以下有利效果:保留路径提取的概率特征并且因此可以更可靠地找到最佳架构。
还建议,在教导机器学习系统时优化成本函数,其中该成本函数具有第一函数和第二函数,所述第一函数评估机器学习系统在其分割和对象识别/对象描述方面的性能,所述第二函数根据路径的长度和边的操作估计机器学习系统的等待时间等。
特别优选地,待创建的机器学习系统具有至少两个输出,所述输出被设置用于图像的分割和对象检测,其中该机器学习系统具有用于记录图像的一个输入和两个输出,其中第一输出输出图像的分割,而第二输出输出对象检测。第二输出可以替代地输出对图像上的对象的其他对象描述,如对象分类。
附加地或替代地,机器学习系统的任务可以如下:自然语言处理(naturallanguageprocessing)、自动编码器、生成模型(generative model)等,其中不同的输出分别表征输入信号在任务方面的不同特性。
机器学习系统优选地是神经网络。
在另外的方面中,本发明涉及被设置为执行上述方法的计算机程序以及存储有所述计算机程序的机器可读存储介质。
附图说明
下面参考附图更详细地解释本发明的实施方式。在附图中:
图1示意性地示出了具有多个输入节点和一个输出节点以及三个感兴趣节点(NOI)集的一次性模型;
图2示意性地示出了穿过一次性模型的路径的向后和向前的提取;
图3示意性地示出了FPT网络的一次性模型;
图4示意性地示出了具有多个输入节点和输出节点的一次性模型;
图5示出了本发明实施方式的流程图的示意图;
图6示出了致动器控制系统的示意图;
图7示出了用于控制至少部分自主的机器人的实施例;
图8示意性地示出了用于控制制造系统的实施例;
图9示意性地示出了用于控制访问系统的实施例;
图10示意性地示出了用于控制监视系统的实施例;
图11示意性地示出了用于控制个人助理的实施例;
图12示意性地示出了用于控制医学成像系统的实施例;
图13示出了训练设备的可能的结构。
具体实施方式
为了为预给定的数据集找到良好的深度神经网络架构,可以应用自动架构搜索方法,即所谓的神经架构搜索方法。为此,显式或隐式地定义可能的神经网络架构的搜索空间。
为了描述搜索空间,下面将定义一个图(所谓的一次性模型),该图包含搜索空间中的所有架构作为子图。由于一次性模型可能非常大,因此可以从一次性模型中提取各个架构来进行训练。这典型地通过提取从网络的所设定的输入节点到所设定的输出节点的单个路径来实现。
为了从具有分支和多个输出的一次性模型中提取架构,可以使用路径的采样模型,其中向后穿过图地提取路径。为此,可以将图转置或将边的方向反转。这种采样例如由DE102020208309公开。
附加地,可能出现以下情况:所提取的架构应当包含一次性模型的不在网络的全深度处并且在下文中称为NOI(“感兴趣节点”)的一个或多个节点,以及可选的在一次性模型的全深度处的输出。在这种情况下,还可以通过向后提取NOI以将这些NOI与输入连接来创建路径。附加地,还从相应的NOI开始向前提取,以找到至一次性模型的输出的路径片段。与向后提取一样,在向前提取时一旦到达已经通向输入/输出但经由另一NOI的路径,就可以中断提取。
作为从NOI开始向后提取的替代方案,可以通过为每个NOI提取从输入到对应NOI的路径来进行纯粹向前的提取。这是通过仅在对应的子图上执行提取来实现的,该子图由位于从网络的输入至当前NOI的路径上的所有节点以及一次性模型的位于这些节点之间的所有边组成。
为了从应当具有多个输入节点或应当找到最佳输入节点的一次性模型中提取架构,建议一种如下的采样模型。然后可以将该采样模型应用于具有多个输入节点和/或输出节点的图,特别是从图的预给定节点集合中找到一个或多个节点作为输入节点和/或输出节点。
在用于选择穿过具有多个输入节点/输出节点的图的路径的采样模型的第一实施方式中,考虑具有多个固定输入节点的一次性模型,其中在寻找最佳架构时应当找到最佳输入节点或输入节点的最佳组合。固定输入节点可以理解为这些节点在图中始终用作输入并且不能以任何其他方式转换功能。此外,可以通过定义预给定数量的固定输出节点来扩展第一实施方式。固定输出节点可以理解为穿过图的路径在这些输出节点之一处结束或路径在所有输出节点处结束,其中这些输出节点在图中始终用作输出并且不能以任何其他方式转换功能。
因此一次性模型的图中存在输入节点,其中K说明了输入节点的总数。输入节点的特点是它们只连接到后续节点并且没有任何先前节点。
此外定义感兴趣节点(NOI)的集合:在这里N说明了NOI集的数量,Ni是集NOIi中NOI节点的数量,/>表示图中作为NOI的单个节点。这些集可以满足预给定的特性,例如在数据分辨率或节点相对于输入节点的深度方面,以确保预给定的感受野。
此外,对于每个集NOIi,在该集的所有节点上定义概率分布/>附加地,在输入节点上还定义另外的概率分布pinputs|i,i=1,...,M。优选地,向每个输出节点i分配该另外的概率分布pinputs。还可以想到,根据输出节点将可能到达的输入节点限制为输入节点的子集。这意味着可能存在以下输出节点,从这些输出节点出发不能/不应当到达每个输入节点,于是这些输出节点对应地不包含在概率分布pinputs中。
符号描述了受限的一次性模型,该受限的一次性模型包含将输入节点连接到集NOIi中的每个NOI的所有子图。为每个子图/>定义概率分布,所述概率分布描述了从该子图中提取边和/或节点的概率。优选地,通过使用/>从NOI至输入向后提取来根据样本模型从该子图中提取路径。
概率分布pinputs|i和可以任意初始化。这些概率优选地被初始化为,使得输入节点全部通过pinputs|i以相同的概率提取,并且集内的NOI通过/>以相同的概率提取。这种初始化的优点是在架构搜索开始时无偏地提取架构,由此找到原本不会被找到的架构。特别优选地,按照以下方式初始化概率分布,即最初以相同的概率提取从提取NOI和相关联的输入节点开始的所有路径/>这可以通过以下方式来进行,即,将取决于沿着各个节点/边的路径数量除以穿过子图或图的路径总数的概率分布用于初始化。
然后,在迭代过程中通过在NOI集上迭代来产生架构。为此,根据概率分布从第i个集中提取单个NOI。然后根据概率分布pinputs|i提取一个或多个输入节点。随后,对于每个提取的输入节点ninput,提取从来自相应的NOI集中所提取的单个NOI开始向后至对应的输入节点(特别是来自子图g(ninput,NOIi)的输入节点)的路径。然后对每个NOI集重复该过程。
所得到的提取的架构由各个节点组成,每个节点都是从经由一条路径连接到至少一个输入节点的NOI集之一中提取的。
第一实施方式的采样模型具有以下优点:通过在后向图中提取路径,该采样模型明显更节省计算机资源,因为子图可以被重新用于向后提取(例如,对于一个输入和一个NOI集)。
图1示意性地示出了采样模型对具有多个输入节点(1)和多个NOI集(101,102,103)的图G的应用。在此情况下应当从每个NOI集中学习输出节点以及为此所需的输入节点(输入1,输入2,输入3)。
图G是一次性模型的表示,其中点对应于数据,边对应于数据的变换。图G的这种表示的特殊性是给出了多个输入节点(1)和三个可能的输出(NOI1,NOI2,NOI3)选择集。为了提取路径,从相应的NOI集(101,102,103)中随机地、特别是根据概率分布提取输出节点(NOI1,NOI2,NOI3)。然后,为每个输出提取输入(图1中在每个NOI旁边示出了采样输入的示例)。然后,在反转图中依次地针对所有输出节点提取了至其每个输入节点的路径。
优选地,在提取路径时,当到达先前提取的路径时,跟随该先前提取的路径直到输入。例如,从NOI2开始的路径在输入节点输入2之前不久与NOI3的路径相遇,然后沿着NOI3的路径继续延伸到输入节点输入2。
如图1所示,可以针对输出节点(NOI1,NOI2,NOI3)提取一个或多个或甚至所有输入节点。
输入节点(输入1,输入2,输入3)可以提供或记录以下输入数据:相机图像、激光雷达数据、雷达数据、超声数据、热成像数据、显微镜数据,特别是来自不同角度的这些数据。
在第一实施方式的优选扩展中,可以进行以下修改。如果提取的另外的路径到达先前已为另一NOI集提取的路径之一中包含的节点,则提取的另外的路径可以沿着该已经提取的路径继续。优选地,关于是否应当使用已经存在的路径的决策取决于该路径是否也通向为所述另外的路径的NOI选择的输入节点。
在采样模型的第二实施方式中,考虑具有多个固定输出节点和输入节点的一次性模型。
第二实施方式与第一实施方式类似,但不同之处在于子图是在单个输出节点与输入的所有可能选择之间定义的。因此提取的是图中的路径而不是反转子图中的路径。更确切地说,首先从可能输入节点的对应集合中提取一个输入节点,然后扫描一个或多个输出节点,并将该输入节点与这些输出节点中的每一个输出节点连接,其方式是扫描当前输入节点的子图中的路径。
在采样模型的第三实施方式中,考虑其中输入节点和输出节点都可以被提取的一次性模型。
路径提取可以从输入节点或输出节点开始,然后对应地穿过图向前或向后提取路径。
刚刚解释的实施方式的采样模型可以彼此组合以找到具有多个输入和/或输出的复杂架构。
采样模型的一种可能的扩展可以是该采样模型附加地用于搜索特定于任务的头(head)的结构,另请参见图2。这些特定于任务的头可以附加到NOI。为此,可以为所考虑的一次性模型扩展附加节点/边,所述附加节点/边可以安置在每个NOI处并对应于特定于任务的头。路径提取通过从相应NOI开始第一向后提取至输入来进行。特别地,由此得出固定数量的经过扫描的NOI节点。然后针对所有特定于任务的头执行提取以及将路径提取到图的输出。
图2示例性地示出了使用图G提取NOI的特定任务的头,该图具有输入节点和输出节点。
可以如DE102020208309中所描述地来提取穿过图2中图G的路径,特别是通过首先提取从相应NOI向后到输入以及然后到输出的路径。附加地,现在存在进一步的提取步骤,其中为此从每个NOI提取到可以安置在每个NOI处的特定于任务的头的目标。
在图2的另一实施方式中,图G可以具有多个输入节点和输出节点。对于输入节点的提取,这里请参考图1,特别是参考图4。
图3示意性地示出了用于具有多个NOI集(101,102,103)和具有多个特定于任务的头(201,202,203)的机器学习系统的架构搜索的图G。在图3中,示例性地将特定于任务的头(201,202,203)分配给第一NOI集(101)。图3中的图G可以与采样模型一起用于创建所谓的FPN网络,该FPN网络具有例如用于对象检测的骨干网络(12)。FPN网络例如由作者Lin,T.Y.、Dollár,P.、Girshick,R.、He,K.、Hariharan,B.和Belongie,S.的出版物“Featurepyramid networks for object detection”,In Proceedings of the IEEE conferenceon computer vision and pattern recognition(2117-2125页)公开。
图3的图G优选地描述了多个不同的搜索空间。搜索空间之一用于具有一系列不同分辨率的固定或可搜索输出节点的主干网络(12)。搜索空间之一是FPN搜索空间(101-103),该FPN搜索空间附接到骨干网络(12)并且定义输出NOI集。附加地,可以在FPN NOI处安置特定于任务的头(201,202,203)。骨干网中的路径提取可以通过向后提取的方式来进行,并且如果骨干网是单路径网络,则在最低分辨率(骨干网(12)中的最大深度)下仅具有唯一的NOI就足够了。从NOI集(101,102,103)中提取可以通过在考虑骨干网络(12)的情况下向后提取来进行。对于特定于任务的头,可以从相应的NOI开始执行向前提取。
可以说,对于该示例应用了3级提取。
图4示例性地示出了特别是传感器融合架构的架构搜索。
通过考虑对应于不同传感器数据的多个输入节点来实现传感器融合。在最简单的情况下,具有唯一的输出和多个输入的网络可以与上述向前提取一起使用。由此可以学习不同传感器数据在图的什么深度下进行组合,即应当进行早期、中期还是晚期的传感器融合。
具有多个输出的图G可以描述用于对象检测和语义分割的多任务网络。NOI在此是例如进行对象检测/分类的节点。附加地,在网络全深度下的输出处还使用语义分割的输出。附加地,特定任务的头可以附接到NOI。
图5示意性地示出了用于创建机器学习系统的方法的流程图,该机器学习系统具有上述用于寻找具有多个输入的最佳架构的过程。
该方法可以从步骤S21开始,在步骤S21中提供图G。因为自动架构搜索需要搜索空间,搜索空间在这里以一次性模型G的形式构建。
接下来是步骤S22。在该步骤中,如图1所解释的根据概率从图G中提取架构。接下来是教导(S23)所提取的架构的已知步骤,以及通过该教导将优化的参数和概率传输到图G中。
然后可以根据图G创建人工神经网络60(图6中示出)并如下所解释地使用。
图6示出了致动器10在其环境20中与控制系统40交互。以优选规则的时间间隔在传感器30、特别是诸如视频传感器的成像传感器中捕获环境,传感器30也可以通过多个传感器给定,例如立体摄像机。还可以想到其他成像传感器,例如雷达、超声或激光雷达。也可以想到热成像相机。将传感器30的传感器信号S—或者在多个传感器的情况下每个传感器信号S—传送到控制系统40。控制系统40因此接收传感器信号S的序列。控制系统40从中确定操控信号A,将该操控信号A传输到致动器10。
控制系统40在可选的接收单元50中接收传感器30的传感器信号S的序列,该接收单元将传感器信号S的序列转换为输入图像x的序列(替代地,也可以将每个传感器信号S直接作为输入图像x)。例如,输入图像x可以是传感器信号S的片段或进一步处理。输入图像x包括视频记录的各个帧。换句话说,根据传感器信号S来确定输入图像x。将输入图像x的序列输送到机器学习系统,在本实施例中为人工神经网络60,该人工神经网络例如是根据图7的方法创建的。
人工神经网络60优选地由存储在参数存储器P中并且由参数存储器P提供的参数φ参数化。
人工神经网络60从输入图像x中确定输出变量y。这些输出变量y可以特别是包括输入图像x的分类和语义分割。将输出变量y输送到可选的整形单元80,该整形单元从中确定将输送到致动器10以对应地操控致动器10的操控信号A。输出变量y包括关于传感器30已捕获到的对象的信息。
致动器10接收操控信号A,被对应地操控并执行对应的动作。致动器10在此情况下可以包括(不一定在结构上集成的)操控逻辑,所述操控逻辑从操控信号A中确定第二操控信号,然后用该第二操控信号来操控致动器10。
在另外的实施方式中,控制系统40包括传感器30。在另外的实施方式中,控制系统40替代地或附加地还包括致动器10。
在另外的优选实施方式中,控制系统40包括一个或多个处理器45和至少一个机器可读存储介质46,在所述机器可读存储介质上存储有指令,当指令在处理器45上执行时,所述指令促使控制系统40执行根据本发明的方法。
在替代实施方式中,替代或附加于致动器10地设置显示单元10a。
图7示出了控制系统40可以如何用于控制至少部分自主的机器人,这里是至少部分自主的机动车辆100。
传感器30可以是例如优选布置在机动车辆100中的视频传感器。
人工神经网络60被设置为从输入图像x中可靠地标识对象。
优选地布置在机动车辆100中的致动器10可以是例如机动车辆100的制动器、驱动器或转向系统。于是操控信号A可以被确定为,使得按照以下方式操控一个或多个致动器10,即,机动车辆100例如防止与由人工神经网络60可靠标识的对象碰撞,特别是当所述对象是特定类别的对象,例如行人时。
替代地,至少部分自主的机器人还可以是其他移动机器人(未示出),例如是通过飞行、游泳、潜水或步行来移动的机器人。所述移动机器人还可以是例如至少部分自主的割草机或至少部分自主的清洁机器人。在这些情况下,操控信号A也可以被确定为,使得按照以下方式操控移动机器人的驱动器和/或转向系统,即,至少部分自主的机器人例如防止与由人工神经网络60标识的对象碰撞。
替代地或附加地,可以用操控信号A来操控显示单元10a并且例如可以显示所确定的安全区域。例如,在机动车辆100具有非自动转向系统的情况下,也可以用操控信号A来操控显示单元10a,使得如果确定机动车辆100即将与可靠标识的对象之一碰撞,则显示单元10a输出光学或声学的警告信号。
图8示出了一种实施例,其中控制系统40用于操控制造系统200的制造机器11,其方式是操控控制该制造机器11的致动器10。制造机器11可以是例如用于冲压、锯切、钻孔和/或切割的机器。
于是传感器30可以是例如光学传感器,其例如捕获制造产品12a、12b的特性。这些制造产品12a、12b可以是可移动的。可以根据所捕获的制造产品12a、12b的分配来操控控制制造机器11的致动器10,从而制造机器11对应地执行制造产品12a、12b中的正确制造产品的后续加工步骤。还可能的是,通过标识制造产品12a、12b中相同制造产品的正确特性(即,没有错配),制造机器11对应地适配相同的制造步骤以加工后续的制造产品。
图9示出了一种实施例,其中控制系统40用于控制访问系统300。访问系统300可以包括物理访问控制,例如门401。视频传感器30被设置为捕获人员。可以借助于对象标识系统60来解释所捕获的图像。如果同时捕获多个人员,则可以通过将这些人员(即对象)彼此关联来例如特别可靠地确定人员的身份,例如通过分析人员的运动。致动器10可以是锁,其根据操控信号A来解除访问控制或不解除访问控制,例如打开门401或不打开门401。为此,可以根据对象标识系统60的解释来选择操控信号A,例如根据所确定的人员身份。代替物理访问控制,也可以设置逻辑访问控制。
图10示出了一种实施例,其中控制系统40用于控制监视系统400。该实施例与图5所示的实施例的不同之处在于,代替致动器10设置了由控制系统40操控的显示单元10a。例如,人工神经网络60可以可靠地确定由视频传感器30记录的对象的身份以根据该身份例如推断哪些对象是可疑的,然后可以选择操控信号A,使得该对象由显示单元10a彩色地突出显示。
图11示出了一种实施例,其中控制系统40用于控制个人助理250。传感器30优选地是接收用户249的手势图像的光学传感器。
根据传感器30的信号,控制系统40确定个人助理250的操控信号A,其方式是例如由神经网络执行手势识别。然后将所确定的操控信号A传送到个人助理250并且因此对应地操控该个人助理。所确定的操控信号A可以特别是被选择为,使得它对应于由用户249进行的猜测的期望操控。可以根据由人工神经网络60识别的手势来确定所述猜测的期望操控。控制系统40然后可以根据所述猜测的期望操控来选择操控信号A以传送到个人助理250,和/或与所述猜测的期望操控对应地选择操控信号A以传送到个人助理250。
对应的操控例如可以包括:个人助理250从数据库中检索信息并以用户249可以阅读的方式再现所述信息。
代替个人助理250,还可以设置家用电器(未示出),特别是洗衣机、炉子、烤箱、微波炉或洗碗机,以对应地进行操控。
图12示出了一种实施例,其中控制系统40用于控制医学成像系统500,例如MRT设备、X射线设备或超声设备。传感器30可以例如由成像传感器给定,由控制系统40来操控显示单元10a。例如,神经网络60可以确定由所述成像传感器记录的区域是否显眼,然后可以选择操控信号A,使得该区域由显示单元10a彩色地突出显示。
图13示出了用于训练从图G中提取的机器学习系统、特别是对应的神经网络60的示例性训练设备140。训练设备140包括提供器71,其提供例如输入图像x和目标输出变量ys,例如目标分类。将输入图像x输送到待训练的人工神经网络60,人工神经网络60从中确定输出变量y。将输出变量y和目标输出变量ys输送到比较器75,比较器75从中根据相应的输出变量y和目标输出变量ys是否一致来确定新参数φ',将新参数传送到参数存储器P并替换那里的参数φ。
由训练系统140执行的方法可以实现为计算机程序地存储在机器可读存储介质147上并由处理器148执行。
当然,不必对整个图像进行分类。可以使用检测算法例如将图像片段分类为对象,然后剪切掉这些图像片段,必要时产生新的图像片段并将其插入到相关联图像中以代替剪切掉的图像片段。
术语“计算机”包括用于处理可预给定计算规则的任意设备。这些计算规则能够以软件形式或硬件形式或软件和硬件的混合形式存在。
Claims (10)
1.一种创建特别是用于传感器数据融合的机器学习系统的计算机实现的方法,包括以下步骤:
提供(S21)有向图,其中所述有向图(G)具有多个输入节点(1)和至少一个输出节点(11)以及多个另外的节点,其中输入节点和输出节点(1,11)借助于有向边经由所述另外的节点连接,其中每个边都分配有概率,所述概率表征提取相应边的概率,
其中每个输入节点(1)也分配有概率;
选择(S22)穿过所述图的一条路径,特别是多条路径或一个子图,其中根据分配给所述输入节点的概率从所述多个输入节点(1)中提取至少一个输入节点,其中根据分配给边的概率来选择从提取的输入节点(1)沿着所述边一直到所述输出节点(11)的所述路径;
根据所选择的路径创建机器学习系统并教导(S23)所创建的机器学习系统,其中将经过教导的机器学习系统的经过适配的参数存储在所述有向图的对应边中并且适配所述路径的边的概率和所述路径的所提取的输入节点(1)的概率;
多次重复先前的步骤“选择路径”和“创建和教导机器学习系统”;以及
根据所述有向图来创建所述机器学习系统。
2.根据权利要求1所述的方法,其中所述有向图具有多个输出节点,其中在选择(S22)所述路径时,根据分配给所述多个输出节点的概率从所述多个输出节点中选择至少一个输出节点,其中分配给输入节点的概率取决于所提取的输出节点。
3.根据权利要求1或2所述的方法,其中从所述多个另外的节点中确定子集,所述子集全都满足关于数据分辨率的预给定特性,其中从该子集中选择至少一个附加节点(感兴趣节点,NOI),所述至少一个附加节点能够用作所述机器学习系统的另外的输出节点,其中在选择(S22)时提取穿过所述图从所述输入节点(1)沿着边到所述附加节点(NOI)的第一子路径和穿过所述图从所述输入节点(1)沿着边到所述输出节点(11)的第二子路径,或者该路径被提取为穿过所述图从所述输入节点(11)沿着边经过所述附加节点(NOI)到所述输出节点(11)。
4.根据权利要求3所述的方法,其中将节点的子集划分为附加节点(NOI)集,其中向每个附加节点(NOI)分配概率,所述概率表征从该附加节点被划分到的集中提取该节点的概率,其中在选择(S22)所述路径时,从每个集中分别随机提取一个附加节点(NOI),并且其中在教导期间也对该概率进行适配。
5.根据权利要求3或4所述的方法,其中将多个特定于任务的头(head)分配给每个附加节点(NOI)或附加节点(NOI)集,其中每个特定于任务的头都分配有概率,所述概率表征了提取特定于任务的头的概率,其中在选择(S22)所述路径时,针对特定于任务的头之一根据分配给所述特定于任务的头的概率从多个特定于任务的头中提取特定于任务的头之一,
其中在教导期间也对分配给所述特定于任务的头的概率进行适配。
6.根据前述权利要求中任一项所述的方法,其中所述有向图具有第一搜索空间,其中这里分配给节点的数据的分辨率不断减小,其中所述图具有第二搜索空间,所述第二搜索空间具有附加节点(NOI),其中向所述第一搜索空间的每个节点附接附加节点(NOI)集。
7.根据前述权利要求中任一项所述的方法,其中所述机器学习系统的输出能够输出分割、对象检测、深度估计和/或手势/行为识别,所述输入节点能够提供以下数据:相机图像、激光雷达数据、雷达数据、超声数据、热成像数据、显微镜数据,特别是来自不同角度的数据。
8.一种计算机程序,其包括指令,所述指令被设置为当所述指令在计算机上执行时促使所述计算机执行根据前述权利要求中任一项所述的方法。
9.一种机器可读存储元件,其上存储有根据权利要求8所述的计算机程序。
10.一种设备,其被设置为执行根据权利要求1至7中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021208724.8A DE102021208724A1 (de) | 2021-08-10 | 2021-08-10 | Verfahren und Vorrichtung zum automatisierten Erstellen eines maschinellen Lernsystems zur Multi-Sensor-Datenfusion |
DE102021208724.8 | 2021-08-10 | ||
PCT/EP2022/071570 WO2023016843A1 (de) | 2021-08-10 | 2022-08-01 | Verfahren und vorrichtung zum automatisierten erstellen eines maschinellen lernsystems zur multi-sensor-datenfusion |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117918015A true CN117918015A (zh) | 2024-04-23 |
Family
ID=83113076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280055921.0A Pending CN117918015A (zh) | 2021-08-10 | 2022-08-01 | 自动创建用于多传感器数据融合的机器学习系统的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240296357A1 (zh) |
CN (1) | CN117918015A (zh) |
DE (1) | DE102021208724A1 (zh) |
WO (1) | WO2023016843A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296612A (zh) * | 2024-04-24 | 2024-07-05 | 兰州交通大学 | 一种基于序列和图双通道模型的源代码漏洞检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782015B (zh) * | 2019-10-25 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 神经网络的网络结构优化器的训练方法、装置及存储介质 |
DE102020208309A1 (de) | 2020-07-02 | 2022-01-05 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems |
-
2021
- 2021-08-10 DE DE102021208724.8A patent/DE102021208724A1/de active Pending
-
2022
- 2022-08-01 US US18/574,913 patent/US20240296357A1/en active Pending
- 2022-08-01 WO PCT/EP2022/071570 patent/WO2023016843A1/de active Application Filing
- 2022-08-01 CN CN202280055921.0A patent/CN117918015A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023016843A1 (de) | 2023-02-16 |
US20240296357A1 (en) | 2024-09-05 |
DE102021208724A1 (de) | 2023-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697434B (zh) | 一种行为识别方法、装置和存储介质 | |
Molchanov et al. | Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network | |
JP4208898B2 (ja) | 対象物追跡装置および対象物追跡方法 | |
US9111375B2 (en) | Evaluation of three-dimensional scenes using two-dimensional representations | |
US20220100850A1 (en) | Method and system for breaking backdoored classifiers through adversarial examples | |
Gupta et al. | Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural networks | |
US20230244924A1 (en) | System and method for robust pseudo-label generation for semi-supervised object detection | |
US11551084B2 (en) | System and method of robust active learning method using noisy labels and domain adaptation | |
CN114077899A (zh) | 用于在被修改的任务之间进行迁移学习的方法和设备 | |
JP7060762B2 (ja) | 拡充識別器を訓練するための装置および方法 | |
KR102597787B1 (ko) | 멀티스케일 딥 평형 모델들을 위한 시스템 및 방법 | |
US11804026B2 (en) | Device and a method for processing data sequences using a convolutional neural network | |
JP2016081355A (ja) | 異常検知方法、異常検知装置、及びプログラム | |
CN113095350A (zh) | 用于生成尤其用于训练神经网络的加标签的数据的方法 | |
CN117918015A (zh) | 自动创建用于多传感器数据融合的机器学习系统的方法和设备 | |
CN113947208A (zh) | 用于创建机器学习系统的方法和设备 | |
CN108810551B (zh) | 一种视频帧预测方法、终端及计算机存储介质 | |
CN118279638A (zh) | 用于利用教师和学生框架训练机器学习模型的系统和方法 | |
JP2021197184A (ja) | 分類器を訓練及びテストするためのデバイス及び方法 | |
US12086214B2 (en) | Method and device for creating a machine learning system | |
US20240096067A1 (en) | Systems and methods for multi-teacher group-distillation for long-tail classification | |
CN116894799A (zh) | 用于域泛化的数据增强 | |
US20230100765A1 (en) | Systems and methods for estimating input certainty for a neural network using generative modeling | |
US20220101116A1 (en) | Method and system for probably robust classification with detection of adversarial examples | |
JP2021170332A (ja) | 分類器をトレーニングするための装置及び方法並びに分類器の堅牢性を評価するための装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |