CN116457841A - 训练数据生成器和生成训练数据集的方法 - Google Patents

训练数据生成器和生成训练数据集的方法 Download PDF

Info

Publication number
CN116457841A
CN116457841A CN202180077087.0A CN202180077087A CN116457841A CN 116457841 A CN116457841 A CN 116457841A CN 202180077087 A CN202180077087 A CN 202180077087A CN 116457841 A CN116457841 A CN 116457841A
Authority
CN
China
Prior art keywords
symbols
symbol
facility
facility plan
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180077087.0A
Other languages
English (en)
Inventor
M·阿尔马拉斯
T·海因策林
H·赫德
U·赫尔佐格
S·赫斯
J·克尼泰尔
S·利默
T·申克
J·C·韦尔施泰特
K·温德尔伯格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN116457841A publication Critical patent/CN116457841A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种训练数据生成器,包括:接口,所述接口被设置为读入从为技术设施提供的数字设施规划中提取的符号,其中设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的;存储模块,所述存储模块被设置为存储所提取的符号;选择模块,所述选择模块被设置为借助于随机生成器随机选择所存储的符号的符号子集;生成器,所述生成器被设置为根据所选择的符号子集生成至少一个合成设施规划;和输出模块,所述输出模块被设置为输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块,其中可训练的图像识别模块被设置为基于技术设施的模拟设施规划生成数字设施规划。

Description

训练数据生成器和生成训练数据集的方法
技术领域
本发明涉及一种训练数据生成器和一种生成用于训练可训练的图像识别模块的训练数据集的方法,以及一种计算机程序产品。
背景技术
技术设施和系统的建造、设计、运行和/或维护需要示意性的规划/设施规划。对于现有设施而言,这些规划通常仅以纸质形式存在或作为图形文件存在。此外,不存在标准化的交换格式,从而规划通常对相同的技术对象、设备和/或功能具有不同的标志/符号,或者在产生或维护这种规划时遵循不同的约定。
这种技术设施的维护、拆除或改建需要将规划信息作为工程工具中的数字化可编辑模型,即为此必须将现有的纸质规划数字化。在数字化时,对规划文件上描绘的符号的识别和/或分类尤为重要。特别是可以将受监督机器学习的方法用于数字化。这些方法在所谓的训练阶段通过示例规划进行训练,所述示例规划具有对在那里描绘的符号、所述符号的类型及其位置的现有注释,以便能够稍后在所谓的推理阶段在新的未知规划文件上再次识别对应的符号。为了使用这种方法实现高水平的识别准确度,必须基于极大量带注释的规划示例来训练这种方法。然而往往无法保证如此大量的训练数据,即如此大量的设施规划或符号示例。
从US 2019/080164 A1公知一种借助于机器学习方法在P&ID规划(英语:Piping-and-Instrumation-Diagram,管道和仪表图,简称P&ID)中进行文本识别的方法。
发明内容
因此,本发明的任务是实现提供足够数量的训练数据的可能性,以例如对用于数字化这种设施规划的经过训练的方法实现高水平的识别准确度。
该任务通过独立权利要求中描述的措施解决。本发明的有利扩展在从属权利要求中给出。
根据第一方面,本发明涉及一种训练数据生成器,包括:
-接口,所述接口被设置为读入从为技术设施提供的数字设施规划中提取的符号以及为了在设施规划中定位符号而提供的定位规则,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的,其中符号描绘所述技术系统或技术功能,并且其中至少一个定位规则致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性,
-存储模块,所述存储模块被设置为存储所提取的符号,
-选择模块,所述选择模块被设置为借助于随机生成器随机选择所存储的符号的符号子集,
-生成器,所述生成器被设置为根据所选择的符号子集并根据至少一个定位规则生成至少一个合成设施规划,和
-输出模块,所述输出模块被设置为输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块。
在以下描述中,除非另有说明,否则术语“执行”、“计算”、“计算机辅助”、“计算”、“确定”、“生成”、“配置”、“重建”等优选地涉及改变和/或产生数据和/或将数据转换为其他数据的操作和/或过程和/或处理步骤,其中所述数据特别是可以被表示为物理变量或作为物理变量存在,例如作为电脉冲。特别地,表述“计算机”应尽可能广泛地解释,以特别是涵盖所有具有数据处理特性的电子设备。因此,计算机例如可以是个人计算机、服务器、存储器可编程控制器(SPS)、手持计算机系统、袖珍PC设备、移动无线电设备和其他可以计算机辅助地处理数据的通信设备、处理器和其他用于数据处理的电子设备。
结合本发明,“计算机辅助”例如可以理解为方法的一种实施,其中特别是处理器执行该方法的至少一个方法步骤。
根据本发明的训练数据生成器例如可以包括处理器。结合本发明,处理器例如可以理解为机器或电子电路。处理器特别可以是主处理器(英语:Central Processing Unit,CPU)、微处理器或微控制器,例如专用集成电路或数字信号处理器,可能与用于存储程序指令的存储单元等组合。处理器例如也可以是IC(集成电路),特别是FPGA(现场可编程门阵列)或ASIC(专用集成电路),或DSP(数字信号处理器)或GPU(图形处理单元)。处理器也可以理解为虚拟处理器、虚拟机或软CPU。例如,它也可以是可编程处理器,其配备有用于执行所述的根据本发明的方法的配置步骤或者配置有配置步骤,使得可编程处理器实现本发明的方法、组件、模块或其他方面和/或部分方面的根据本发明的特征。
结合本发明,“存储单元”或“存储模块”等可以理解为例如工作存储器(英语:Random-Access Memory,RAM)形式的易失性存储器或诸如硬盘或数据载体的永久存储器。
结合本发明,“模块”可以理解为例如处理器和/或用于存储程序指令的存储单元。例如,处理器被专门设置为执行程序指令,以便处理器执行功能以实施或实现根据本发明的方法或根据本发明的方法的步骤。
结合本发明,“数字设施规划”——在下文中也称为(数字)规划——特别是可以理解为技术系统的连接图、电路图、功能规划或管道图/管道和仪表流图(英语:Piping-and-Instrumation-Diagram,简称:P&ID)。设施规划示意性地描绘了技术系统、其特性、其功能和/或分配给该技术系统的信息。设施规划特别是可以以数字化形式存在,例如作为PDF文件存在。
结合本发明,“技术系统”可以特别是理解为技术设施,例如工业设施/工厂设施、技术设备或机器,或诸如供水网络的基础设施网络、方法技术设施,但也理解为诸如电路图、逻辑图或HVAC的部分方面。
结合本发明,“合成设施规划”特别是可以理解为人工产生的设施规划,其例如不描绘真实的技术系统或者不分配给真实的技术系统。特别地,合成设施规划首先可以被创建为由选择的符号组成的网络列表,即规划元素之间的例如电气连接、方法技术连接和/或逻辑连接的文本描述。换句话说,合成设施规划也可以仅作为网络列表存在。
合成设施规划优选类似于数字化设施规划,即具有可类比的特性和/或符号。例如,合成设施规划在符号数量上不同于技术设施的设施规划。合成设施规划例如可以具有对技术系统的设施规划的补充或修改。
规划/设施规划特别是包括大量符号。结合本发明,“符号”例如可以理解为描述技术系统或技术功能的标记、连接线、图形表示等。例如,管道图的符号可以描绘泵、阀或管道。这些符号优选已经从至少一个设施规划中提取出来。例如,可以读入符号库。特别地,分配给符号并描述这些符号的信息可以存储在符号库中。
结合本发明,“可训练的图像识别模块”例如可以理解为基于机器学习方法的图像识别软件/图像识别程序/图像识别算法。
本发明的一个优点是可以自动生成大量合成设施规划,这些合成设施规划可以用作训练图像识别模块的输入/训练数据。可以产生任意数量的真实训练示例。为此从现有的数字化设施规划中提取出符号。符号的子集被随机选择出来并布置为合成设施规划。特别地,可以从所述子集中创建所选择符号的网络列表,并且可以由此生成合成设施规划,例如以图形表示的方式。
另一优点在于,与对大量竣工图的(手动)描述/分类相比,特别是各个符号实例(及其连接点)的(手动)描述/分类需要明显更少的技术耗费。因此,描述/分类可以从(耗费的)基于实例的过程切换为有效的基于类型的过程。因此实现了更高度的灵活性、伸缩性、吞吐量和自动化。
在训练数据生成器的一种实施方式中,所述接口还可以被设置为附加地读入分配给相应符号的以下附加信息中的至少一个并传送到所述存储模块以存储该附加信息:
-分配给符号的关于到其他符号的连接可能性的信息,
-关于分配给符号的注释的信息,所述注释例如是注记,
-所述符号和/或所述符号的一部分的表示形式,和/或
-所述符号的表示信息。
因此可以实现相应符号的逼真的或常见的设计形式。这些附加信息例如可以存储在符号库中。此外,这使得可以实现符号的更大变化。从而例如可以修改符号的注释或表示形式,以生成不同的符号表示并因此也生成不同的合成设施规划。
在训练数据生成器的一种实施方式中,所述接口还可以被设置用于为注释读入与所述符号的相对位置和/或所述注释的尺寸。
由此可以存储以及由此简单再现符号的常见表示。
在训练数据生成器的一种实施方式中,所述生成器还可以被设置为根据附加信息生成至少一个合成设施规划。
例如,在生成合成设施规划时可以考虑分配给符号的至少一个附加信息。这使得能够生成逼真的合成设施规划。
在训练数据生成器的一种实施方式中,所述接口还可以被设置为读入被提供用于在设施规划中定位符号的至少一个定位规则。
在一种实施方式中,所述至少一个定位规则可以致力于
-所述符号在设施规划上的相对定位,
-所述符号关于注释的相对定位,
-与另外的符号的预给定耦合,和/或
-对至少一个另外的符号的特定于符号的依赖性。
在训练数据生成器的一种实施方式中,所述生成器还可以被设置为根据至少一个定位规则来生成所述合成设施规划。
在考虑定位规则的情况下生成规划使得例如可以防止不允许的或不太希望的符号连接和/或放置。此外,可以提高合成设施规划的可读性和清晰度。
在训练数据生成器的一种实施方式中,所述生成器还可以被设置为在考虑所述设施规划的至少一个预给定边界条件的情况下生成所述合成设施规划。
边界条件例如可以是所述设施规划的预给定大小或预给定格式。此外,边界条件可以涉及连接线的定位,使得连接线例如尽可能短、具有少的交叉点和/或仅由相继连接的水平或垂直线段组成。这可以特别是提高合成设施规划的可读性和清晰度。
在训练数据生成器的一种实施方式中,所述生成器还可以被设置为借助于所提供的伪影补充和/或修改合成设施规划和/或仅所述合成设施规划的至少一个符号。
在训练数据生成器的一种实施方式中,所述输出模块可以被设置为输出所述经过补充的和/或经过修改的合成设施规划作为附加的合成设施规划。
结合本发明,伪影例如可以是旋转、对比度修改、失真或干扰线。这种伪影通常可以在纸质规划和/或数字化设施规划中找到。所述生成器使得可以生成具有类似伪影的合成规划。这使得可以创建逼真的训练示例并增加训练示例的数量。
在一种实施方式中,所述训练数据生成器还可以包括图形模块,所述图形模块被设置为创建所述合成设施规划的图形表示,并且所述输出模块还被设置为输出所述合成设施规划的图形表示。
在此的优点是,对于以这种方式生成的合成规划的图形表示,出现在设施规划上的符号、连接线和/或注释的位置和尺寸是已知的。因此,这种合成设施规划可以有利地用作用于训练图像识别模块的输入数据,因为不需要(手动)提取和/或标记符号。
在一种实施方式中,所述设施规划可以包括电路图、功能图和/或管道和仪表流图。
根据第二方面,本发明涉及一种生成用于训练可训练的图像识别模块的训练数据集的计算机实现的方法,具有以下方法步骤:
-读入从为技术设施提供的数字设施规划中提取的符号以及为了在设施规划中定位符号而提供的定位规则,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的,其中符号描绘所述技术系统或技术功能,并且其中至少一个定位规则致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性,
-存储所提取的符号,
-借助于随机生成器随机选择所存储的符号的符号子集,
-根据所选择的符号子集并根据至少一个定位规则生成至少一个合成设施规划,以及
-输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块。
此外,本发明涉及一种可以直接加载到可编程计算机中的计算机程序产品,包括程序代码部分,当该程序由计算机执行时,所述程序代码部分促使所述计算机执行根据本发明的方法的步骤。
计算机程序产品可以例如在诸如存储卡、USB棒、CD-ROM、DVD、非易失性/永久存储介质(英语:Non-transitory storage Medium)的存储介质上提供或交付,或者也以可从网络中的服务器下载的文件的形式提供或交付。
附图说明
本发明的实施例在附图中示例性示出并且基于以下描述更详细地加以解释。
图1以示意性框图示出了根据本发明的训练数据生成器的实施例;
图2示出了根据本发明的生成用于训练可训练的图像识别模块的训练数据集的方法的实施例;以及
图3示出了根据本发明的生成用于训练可训练的图像识别模块的训练数据集的方法的另一实施例。
在所有附图中彼此对应的部分都设有相同的附图标记。
具体实施方式
特别地,以下实施例仅示出了特别是根据本发明的教导的这种实现可能看起来如何的示例性实现可能性,因为讲述所有这些实现可能性是不可能的并且对于理解本发明也是不方便或不必要的。
特别是了解一个或多个方法权利要求的(相关)专业人员当然也知道现有技术中常见的实现本发明的所有可能性,从而特别是无需在说明书中单独公开。
图1以示意性框图示出了根据本发明的训练数据生成器100的实施例。
训练数据生成器100可以至少部分地以硬件和/或软件设计。优选地,训练数据生成器可以与可训练的图像识别模块耦合,使得可以传送产生的训练数据以用于训练图像识别模块。
训练数据生成器100包括接口101,该接口101被设置为读入从为技术设施提供的数字设施规划中提取的符号,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的。设施规划例如可以是电路图、功能图和/或管道和仪表流图。优选地,仅读入相同类型的设施规划中的符号,例如仅读入电路图,即来自相似规划的符号。
例如,可以经由接口101读入针对设施规划类型的至少一个符号库,所述符号库包括相同类型设施规划的大量符号。从现有设施规划中提取符号特别是可以作为在前步骤来执行。
接口101还可以被设置为附加地读入分配给相应符号的以下附加信息中的至少一个并传送到存储模块以存储该附加信息:
-分配给符号的关于到其他符号的连接可能性的信息,例如现有的接口/端口,
-关于分配给符号的注释的信息,所述注释例如是注记,
-所述符号和/或所述符号的一部分的表示形式,例如旋转或镜像,和/或
-所述符号的表示信息,例如大小。
此外,可以经由接口101针对注释读入相对于符号的位置和/或该注释的尺寸。
接口101还可以被设置为读入为了在设施规划中定位符号而提供的至少一个定位规则。定位规则可以例如致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性。
训练数据生成器还包括存储模块102,所述存储模块被设置为存储所提取的符号。
训练数据生成器还包括选择模块103,所述选择模块被设置为借助于随机生成器随机地选择所存储的符号的符号子集。选择模块103特别是与存储模块102耦合。将所选择的符号子集从选择模块103传送到训练数据生成器100的生成器104。
生成器104被设置为根据所选择的符号子集生成至少一个网络列表或合成设施规划。特别地,生成器104可以根据分配给符号的至少一个读入的附件信息和/或至少一个定位规则来生成网络列表或合成设施规划。附加地,在生成网络列表或合成设施规划时,可以考虑预给定的至少一个边界条件。边界条件例如可以是设施规划的格式。边界条件可以特别是取决于设施规划的类型。
生成器104还可以借助于提供的伪影补充和/或修改合成设施规划和/或仅合成设施规划的至少一个符号。伪影例如可以涉及符号的对比度和/或失真。
训练数据生成器100还包括输出模块105,所述输出模块被设置为输出网络列表、至少一个合成设施规划和/或借助于伪影修改/补充的合成设施规划作为训练数据,用于训练可训练的图像识别模块,其中可训练的图像识别模块被设置为基于技术设施的模拟设施规划生成数字设施规划。
训练数据生成器100还可以进一步包括图形模块106。训练数据生成器100也可以仅与这样的图形模块106耦合。图形模块106被设置为创建合成设施规划的图形表示。例如,可以从网络列表创建图形表示。
图2示出了根据本发明的生成用于训练可训练的图像识别模块的训练数据集的计算机实现的方法的流程图,所述图像识别模块优选被设置为基于技术设施的模拟设施规划来生成数字设施规划。使用该方法可以为图像识别模块生成训练数据,以改进图像识别模块的识别准确度。
首先,在第一步骤S1中读入大量的设施符号。这些设施符号优选地从提供的、已经数字化的设施规划中提取。例如,可以针对预给定设施规划类型(例如电路图)提供符号库。
在接下来的步骤S2中,(临时)存储所提取的符号。
作为下一步骤S3,借助于随机生成器随机地选择所存储的符号的符号子集。随机生成器例如可以输出随机数集合。这些随机数可以用于从符号库中选择符号。
在下一步骤S4中,根据所选择的符号子集生成至少一个网络列表或合成设施规划。优选地,生成大量不同的网络列表或合成设施规划。
生成的合成设施规划可以特别是以图形形式输出。此外,可以借助于伪影修改合成设施规划,使得可以输出另外的合成设施规划。
作为下一步骤S5,将生成的合成设施规划作为训练数据输出,用于训练可训练的图像识别模块。附加地或替代地,也可以仅输出已创建的网络列表。例如,然后可以借助于训练数据训练可训练的图像识别模块,以基于技术设施的模拟设施规划(例如扫描的纸质规划)来生成数字设施规划。
图3以示意图示出了本发明的另一实施例。
示例性示出了包括大量符号SYM的数字设施规划DP。例如,这可以是数字化的纸质规划。符号可以从数字设施规划DP中提取并且例如作为符号库提供给训练数据生成器100。优选提供来自大量数字设施规划DP的大量符号SYM。
除了提取的符号SYM之外,还可以提取并提供分配给该符号的附加信息。附加信息例如可以包括关于到诸如可用接口的其他符号的连接可能性的信息。附加信息也可以是关于分配给符号的注释的信息,例如名字或名称。附加信息还可以涉及符号的表示形式和/或符号的表示信息,例如符号大小、字体大小或格式(例如虚线)。
替代地或附加地,可以为提取的符号提供定位规则。定位规则例如可以涉及符号在设施规划上的相对定位、符号关于注释的相对定位、与另外的符号的预给定耦合和/或对至少一个另外的符号的特定于符号的依赖性。从而例如相应符号的特征可以在于它典型地位于设施规划的预给定边缘区域中,符号名称位于关于符号的预给定相对位置处和/或可以与预给定的另外的符号耦合。
因此,例如可以通过从现有的数字设施规划DP中删除来编辑符号SYM库,所述数字设施规划包含符号SYM的图形表达、连接点的位置(所述连接点用于连接到其他符号的连接点)以及诸如对象或连接名字的注释的位置。此外,可以将关于现有连接线类型的宽度、颜色和表示方式(例如实线、虚线、点线等)的信息以及用于表示交叉点的信息添加到库中。对于注释,还可以确定注释的位置相对于符号或关联的连接点是固定的还是可变的。此外,给定哪些带有相关联参数(大小、字符间距等)的字体用于注释。如果注释中包含的文本遵循特定规则(例如总是由三个字符组成或以大写字母开头),则可以为这样的规则存储正则表达式。还可以存储符号是仅以其原始方向出现还是以旋转的和/或镜像的变体出现,以及哪些注释一起旋转或保留在原始方向上。此外,例如可以定义用于合成规划中符号互连的定位规则。例如,连接点可以具有不同的类型,并且只能与特定表示方式的连接线连接。此外,可以为一组连接点确定,该组连接点必须以总线的方式与其他组连接点并联连接。这些信息/附加信息可以分配给相应的符号SYM并以此方式存储。
将提取的符号SYM和分配的附加信息输入到训练数据生成器100中。在那里从符号集合中随机选择符号子集。例如,可以使用从库中随机选择的符号、符号的连接点的随机的、但遵循所存储的规则的互连以及随机选择的注释(但满足指定的语法/格式)产生网络列表。特别地,这可以独立于所产生的网络列表是否与由符号描述的组件的所描述的互连相关地表示有意义的系统,或者所产生的互连是否在物理上是可能的。
训练数据生成器100基于所选择的符号生成至少一个网络列表,从所述网络列表中创建合成设施规划SP。为此可以使用用于产生网络列表或合成设施规划的算法。在此,特别是考虑分配给符号的定位规则和/或用于要生成的相应设施规划的预给定边界条件。从而该算法可以将网络列表中的符号、连接和注释放置在规划页面上,使得例如连接线尽可能短并且交叉点尽可能少,以及不产生不必要的重叠。作为边界条件,该算法还可以考虑连接线仅由相继连接的水平或垂直线段组成,为了清晰起见,这对于许多示意性规划来说是值得期望的。优选生成大量合成设施规划并以图形表示形式输出。
基于网络列表和生成的布局,可以分别生成合成设施规划的图形表示。在此,由于设施规划是从库中合成的,因此设施规划上出现的符号、连接线和注释的位置和尺寸是已知的。这特别是有助于图像识别模块IRS的训练,因为输入数据和输出数据相应地都为了训练而存在。
此外,可以通过增加向生成的合成设施规划补充另外的典型伪影(例如旋转、对比度、失真、干扰线)。典型地,真实的设施规划具有这种伪影。通过这种修改或补充可以用另外的示例来补充合成设施规划和/或逼真地设计合成设施规划。
生成的合成设施规划SP作为训练数据TD输出。训练数据TD可以优选地用于训练可训练的图像识别模块IRS。训练数据优选地包括合成设施规划以及关于设施规划中包含的符号和所分配的注释的分别分配的信息。可训练的图像识别模块IRS优选地包括用于机器学习的方法,例如人工神经网络。可以借助于训练数据TD来训练该图像识别模块。在训练期间,例如将合成设施规划作为输入数据传递给可训练的图像识别模块IRS。目标值,即图像识别模块IRS的输出数据,例如是符号和所分配的注释。
这种经过训练的图像识别模块IRS可以被设置为基于技术设施的模拟设施规划生成数字设施规划,即例如基于扫描将纸质规划数字化。在此,例如经过训练的图像识别模块IRS可以识别并输出所扫描的设施规划上的符号。
所描述的方法是特别有利的,因为可以以规则的形式描述符号在其使用时所经受的变化。除了符号和连接线本身的图形表达(所述符号和连接线提供用于加性生成合成计划的模块)之外,附加地还可以在符号库中存放这种针对符号和连接的可能使用形式的规则。这些规则例如可以涉及符号注释的放置、连接的使用、相互依赖性等。通过例如也可由领域专家预给定的这种规则,可以在生成的训练示例中产生用于放置符号、连接和注释的各种变体。由此可以在训练过程中使用有助于识别符号的附加信息来优化机器学习方法。可以产生许多可能出现在真实规划中的变体,即使这些变体没有出现在实际存在的规划中。
特别地,对于可以出现在训练示例上的每个符号,只需要数字(真实)设施规划(或这种数字设施规划的符号图例)上的一个实例。如果经过训练的识别算法没有足够准确地识别特定的符号,则可以根据需要产生包含该符号的另外的训练示例。为了识别多个符号、文本和连接的困难星座,也可以通过合成规划生成有针对性地进行调整,并由此丰富训练数据集,以改进识别准确度。合成规划可以组合来自不同符号库的符号,以使得机器学习方法具有更好的通用性。如果将新符号添加到待识别的符号库中,则为此可以简单地生成另外的合成设施规划作为训练数据。合成设施规划还可以与带注释的真实设施规划组合,以进一步补充训练数据。
所有描述和/或示出的特征在本发明的范围内可以有利地相互组合。本发明不限于所描述的实施例。

Claims (11)

1.一种训练数据生成器(100),包括
-接口(101),所述接口被设置为读入从为技术设施提供的数字设施规划中提取的符号以及为了在设施规划中定位符号而提供的定位规则,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的,其中符号描绘所述技术系统或技术功能,并且其中至少一个定位规则致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性,
-存储模块(102),所述存储模块被设置为存储所提取的符号,
-选择模块(103),所述选择模块被设置为借助于随机生成器随机选择所存储的符号的符号子集,
-生成器(104),所述生成器被设置为根据所选择的符号子集并根据至少一个定位规则生成至少一个合成设施规划,和
-输出模块(105),所述输出模块被设置为输出所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块。
2.根据权利要求1所述的训练数据生成器,其中,所述接口(101)还被设置为附加地读入分配给相应符号的以下附加信息中的至少一个并传送到所述存储模块以存储该附加信息:
-分配给符号的关于到其他符号的连接可能性的信息,
-关于分配给符号的注释的信息,
-所述符号和/或所述符号的一部分的表示形式,和/或
-所述符号的表示信息。
3.根据权利要求2所述的训练数据生成器(100),其中,所述接口(101)还被设置用于为注释读入与所述符号的相对位置和/或所述注释的尺寸。
4.根据前述权利要求中任一项所述的训练数据生成器(100),其中,所述生成器(104)还被设置为根据附加信息生成至少一个合成设施规划。
5.根据前述权利要求中任一项所述的训练数据生成器(100),其中,所述生成器(104)还被设置为在考虑所述设施规划的至少一个预给定边界条件的情况下生成所述合成设施规划。
6.根据前述权利要求中任一项所述的训练数据生成器(100),其中,所述生成器(104)还被设置为借助于所提供的伪影补充和/或修改合成设施规划和/或仅所述合成设施规划的至少一个符号。
7.根据权利要求6所述的训练数据生成器(100),其中,所述输出模块(105)被设置为输出经过补充的和/或经过修改的合成设施规划作为附加的合成设施规划。
8.根据前述权利要求中任一项所述的训练数据生成器,还包括图形模块(106),所述图形模块被设置为创建所述合成设施规划的图形表示,并且所述输出模块还被设置为输出所述合成设施规划的图形表示。
9.根据前述权利要求中任一项所述的训练数据生成器(100),其中,所述设施规划包括电路图、功能图和/或管道和仪表流图。
10.一种生成用于训练可训练的图像识别模块的训练数据集的计算机实现的方法,具有以下方法步骤:
-读入(S1)从为技术设施提供的数字设施规划中提取的符号以及为了在设施规划中定位符号而提供的定位规则,其中所述设施规划分别借助于符号描绘技术设施的结构和/或功能并且是相同类型的,其中符号描绘所述技术系统或技术功能,并且其中至少一个定位规则致力于所述符号在设施规划上的相对定位、所述符号关于注释的相对定位、与另外的符号的预给定耦合,和/或对至少一个另外的符号的特定于符号的依赖性,
-存储(S2)所提取的符号,
-借助于随机生成器随机选择(S3)所存储的符号的符号子集,
-根据所选择的符号子集并根据至少一个定位规则生成(S4)至少一个合成设施规划,以及
-输出(S5)所述至少一个合成设施规划作为训练数据,用于训练可训练的图像识别模块。
11.一种能直接加载到可编程计算机中的计算机程序产品,包括适合于执行根据权利要求10所述的方法的步骤的程序代码部分。
CN202180077087.0A 2020-11-16 2021-10-19 训练数据生成器和生成训练数据集的方法 Pending CN116457841A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20207873.9 2020-11-16
EP20207873.9A EP4002221A1 (de) 2020-11-16 2020-11-16 Trainingsdatengenerator und verfahren zum generieren von trainingsdatensätzen
PCT/EP2021/078861 WO2022100965A1 (de) 2020-11-16 2021-10-19 Trainingsdatengenerator und verfahren zum generieren von trainingsdatensätzen

Publications (1)

Publication Number Publication Date
CN116457841A true CN116457841A (zh) 2023-07-18

Family

ID=73452123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180077087.0A Pending CN116457841A (zh) 2020-11-16 2021-10-19 训练数据生成器和生成训练数据集的方法

Country Status (4)

Country Link
US (1) US20230401880A1 (zh)
EP (2) EP4002221A1 (zh)
CN (1) CN116457841A (zh)
WO (1) WO2022100965A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115293282B (zh) * 2022-08-18 2023-08-29 昆山润石智能科技有限公司 制程问题分析方法、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111095296B (zh) * 2017-09-14 2024-07-02 雪佛龙美国公司 使用机器学习对字符串进行分类

Also Published As

Publication number Publication date
US20230401880A1 (en) 2023-12-14
EP4002221A1 (de) 2022-05-25
WO2022100965A1 (de) 2022-05-19
EP4217932A1 (de) 2023-08-02

Similar Documents

Publication Publication Date Title
Arroyo et al. Automatic derivation of qualitative plant simulation models from legacy piping and instrumentation diagrams
Karasneh et al. Extracting UML models from images
CN112632844A (zh) 从工程制图中提取和分析信息
WO2012037721A1 (en) Handwritten character font library
US10997332B1 (en) System and method for computing electrical over-stress of devices associated with an electronic design
Revell Graphical methods for visualizing comparative data on phylogenies
CN108154191A (zh) 文档图像的识别方法和系统
Mohapatra HCR using neural network
CN116457841A (zh) 训练数据生成器和生成训练数据集的方法
JP2006351023A (ja) ブロックベースのモデル形成方法および装置
CN115237410A (zh) 一种用户界面的生成方法及装置
CN117217163B (zh) 一种基于脚本的soc芯片的测试方法
CN109387193B (zh) 一种室内地图的更新方法及装置
US10127333B2 (en) Embedded frequency based search and 3D graphical data processing
JP2006227824A (ja) 図面認識方法および装置
CN103425829A (zh) 一种快速读取版图的方法
CN103838903A (zh) 一种通过用自定义字体库创建Label的方法
JP7165970B2 (ja) 学習データ生成装置および学習データ生成方法
JP7221143B2 (ja) キーワード検出装置、及びキーワード検出方法
JP5163308B2 (ja) Ipモデル生成装置、ipモデル生成方法、およびipモデル生成プログラム
JP2007072718A (ja) 手書き数式の認識装置及び認識方法
CN104536732A (zh) 凿岩台车读取中深孔数据的方法
CN110728114A (zh) 一种分析报告生成方法
JP7430219B2 (ja) 文書情報構造化装置、文書情報構造化方法およびプログラム
KR102041196B1 (ko) 사용자 화면 생성 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination