CN115731561A - 使用视觉箭头关系检测的手绘示图识别 - Google Patents
使用视觉箭头关系检测的手绘示图识别 Download PDFInfo
- Publication number
- CN115731561A CN115731561A CN202111439990.5A CN202111439990A CN115731561A CN 115731561 A CN115731561 A CN 115731561A CN 202111439990 A CN202111439990 A CN 202111439990A CN 115731561 A CN115731561 A CN 115731561A
- Authority
- CN
- China
- Prior art keywords
- shapes
- shape
- edge
- neural network
- arrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 79
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000000007 visual effect Effects 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 10
- 230000003416 augmentation Effects 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
公开了用于将示图转换为数字示图格式的计算机可读介质、方法和系统。示图作为图像文件被接收,并且多个识别级基于来自一个或多个识别级的预测的信息产生最终示图。多个识别级包括用于检测多个形状的形状检测级和箭头被检测为形状对之间的关系的至少一个箭头检测级。最终示图基于预测的信息而生成,并转换为与示图建模语言兼容的数字示图格式。
Description
技术领域
本公开涉及使用视觉箭头关系检测的手绘示图识别。
背景技术
示图(diagram)可以用于表示各种概念,诸如业务过程、算法和软件架构,其中,示图可以包括表示概念和那些概念之间的关系的各种符号、线条和箭头。在许多情况下,可以使用手绘技术创建这样的示图,其中,可能难以将手绘示图转换为数字建模格式。
手绘示图可以使用建模工具手动重新创建或使用示图识别技术自动重新创建。手动重新创建示图是沉闷乏味的,并且通常要求用户投入大量时间在建模软件内重新建模示图,并且因此引入用户错误的可能性。自动示图识别技术已被用于创建手绘示图的数字表示。然而,当前的示图识别技术尽力正确识别和重新创建许多示图特征,诸如初始示图内的箭头,并且通常要求附加的用户输入来纠正识别过程中的错误。
发明内容
本公开的实施例通过提供用于自动示图识别以将示图的初始图像转换为数字格式的系统、方法和计算机可读介质来解决上述问题。在一些实施例中,使用视觉关系检测技术,在绘制的示图内检测一个或多个箭头作为一对检测的形状之间的关系。
第一实施例针对于存储计算机可执行指令的一个或多个非暂时性计算机可读介质,所述计算机可执行指令在由处理器执行时执行用于将示图转换为数字模型的方法,所述方法包括:接收与示图相关联的图像数据,使用计算机视觉技术辨识图像数据内的多个形状,针对所述多个形状中的每一个定义边界框,使用形状度预测神经网络,针对所述多个形状中的每一个预测与来自图像数据内的多个箭头的箭头数量对应的一个或多个形状度,生成与所述多个形状对应的多个边缘候选,使用边缘预测神经网络预测所述多个形状中的一对形状连接的概率,使用边缘预测神经网络辨识所述多个箭头中的箭头,使用边缘预测神经网络将箭头分类为箭头类型,预测包括关键点的序列的箭头的箭头路径;基于预测的概率和预测的形状度确定最终示图,以及将最终示图转换为数字示图格式。
第二实施例针对于用于将示图转换为数字模型的方法,所述方法包括:接收与示图相关联的图像数据,使用计算机视觉技术辨识图像数据内的多个形状,针对所述多个形状中的每一个定义边界框,使用形状度预测神经网络,针对所述多个形状中的每一个预测与来自图像数据内的多个箭头的箭头数量对应的一个或多个形状度,生成与所述多个形状对应的多个边缘候选,使用边缘预测神经网络预测所述多个形状中的一对形状连接的概率,使用边缘预测神经网络辨识所述多个箭头中的箭头,使用边缘预测神经网络将箭头分类为箭头类型,预测包括关键点的序列的箭头的箭头路径,基于预测的概率和预测的形状度确定最终示图,以及将最终示图转换为数字示图格式。
第三实施例针对于识别系统,包括:与形状检测神经网络相关联的形状检测级,与形状度预测神经网络相关联的形状度预测级,边缘候选级,与边缘连接预测神经网络相关联的边缘连接预测级,边缘优化级,以及至少一个处理器,被编程为执行用于将示图转换为数字模型的方法,所述方法包括:接收与示图相关联的图像数据,在形状检测级处使用形状检测神经网络辨识图像数据内的多个形状,针对所述多个形状中的每一个定义边界框,在形状度预测级处,使用形状度预测神经网络,针对所述多个形状中的每一个预测与来自图像数据内的多个箭头的箭头数量对应的一个或多个形状度,在边缘候选级处,生成与所述多个形状对应的多个边缘候选,在边缘连接预测级处,使用边缘预测神经网络预测所述多个形状中的一对形状连接的概率,使用边缘预测神经网络辨识所述多个箭头中的箭头,使用边缘预测神经网络将箭头分类为箭头类型,预测包括关键点的序列的箭头的箭头路径,基于预测的概率和预测的形状度确定最终示图,以及将最终示图转换为数字示图格式。
附加实施例针对于自动识别手绘示图内的符号、线条和箭头以产生数字建模格式中的最终示图的方法。
另外的实施例针对于通过复制训练数据组内的图像并将各种图像增广(imageaugmentation)应用于复制的图像来综合地增加人工神经网络的训练数据组的大小和有效性的方法。在一些这样的实施例中,可以应用图像增广来模拟与摄影和人为错误相关联的自然图像差异。
提供本概述以便以简化形式引入在下面的详细描述中进一步描述的概念的选择。本概述并非旨在辨识要求保护的主题的关键特征或本质特征,也不旨在用于限制要求保护的主题的范围。从实施例的以下详细描述和附图中,本公开的其他方面和优点将是清晰的。
附图说明
下面参考附图详细描述本公开的实施例,其中:
图1描绘了与一些实施例相关的示例性手绘示图;
图2描绘了与一些实施例相关的识别系统;
图3描绘了与一些实施例相关的示例性过程流程;
图4描绘了与一些实施例相关的箭头关系边界框生成技术的示例性比较;
图5A-图5B描绘了与一些实施例相关的用于将示图转换成数字模型的示例性方法;以及
图6描绘了与一些实施例相关的示例性硬件平台。
附图不将本公开限制于本文公开和描述的具体实施例。附图不一定按比例绘制,而是将重点放在清楚地说明本公开的原理。
具体实施方式
以下详细描述参考了附图,附图示出了可以实践本公开的具体实施例。实施例旨在足够详细地描述本公开的各方面以使本领域技术人员能够实践本教导。在不脱离本公开的范围的情况下,可以利用其他实施例并且可以做出改变。因此,不应在限制的意义上进行以下详细描述。本公开的范围仅由所附权利要求连同这样的权利要求有权享有的等效物的全部范围限定。
在该描述中,对“一个实施例”、“实施例”或“多个实施例”的引用意味着引用的一个或多个特征被包括在本技术的至少一个实施例中。在该描述中对“一个实施例”、“实施例”或“多实施例”的分开的引用不一定指代相同的实施例,并且也不是相互排斥的,除非如此说明,和/或除非将对本领域的技术人员来说从描述中将容易清楚。例如,一个实施例中描述的特征、结构、动作等也可以被包括在其他实施例中,但不是必须包括。因此,本技术可以包括本文描述的实施例的各种组合和/或集成。
首先转到图1,描绘了与一些实施例相关的示例性手绘示图100。手绘示图100可以是用于表示概念或概念的组合的示图或流程图,诸如,例如制造过程、业务过程、计算机处理技术、计算机硬件架构或计算机软件架构。在一些实施例中,手绘示图100可以由用户使用钢笔、铅笔、记号笔或一些其他绘图媒介手绘。可替代地,在一些实施例中,手绘示图100可以使用诸如通过使用触摸屏、虚拟白板或交互式白板的计算机辅助绘制技术来创建。在一些实施例中,手绘示图100包括一个或多个缺陷,一个或多个缺陷在将手绘示图100转换为数字示图格式时产生识别挑战,如下面将描述的。
在一些实施例中,手绘示图100包括部分绘制的形状102,如图所示。因此,将所述形状准确地识别(recognize)和辨识(identify)为示图对象可能变得困难。在一些实施例中,手绘示图100包括一个或多个可见的渗透(bleed-through)元素104,元素104是非故意地从纸的背面或其他绘制表面可见。例如,可以使用钢笔在一张已经使用过的纸上绘制手绘示图100,使得纸的背面上的渗透元素104在手绘示图100中可见。另外,在一些实施例中,手绘示图100可以包括多于一张纸,如图所示,使得纸张之间的边缘106在手绘示图100内可见。
在一些实施例中,一个或多个划掉的元素108可以被包括在手绘示图100中。例如,如果用户使用钢笔来创建手绘示图100,则可能难以移除非故意的标记和错误使得用户划掉所述标记。此外,在一些实施例中,如图所示,在手绘示图100中可以包括一条或多条中断线110。例如,如图所示,当在边缘106处接合两张纸时,可以创建中断线110。此外,在一些实施例中,可能存在一个或多个缺失的箭头112。例如,用户可能忘记在手绘示图100内包括示出过程流程的方向的箭头。更进一步地,在一些实施例中,可能存在一条或多条交叉线114,其中,一条线与另一条线交叉产生关于线的方向的一些不明确。
在一些实施例中,额外的缺陷和挑战可以包括纸翘曲、反射、阴影、变化的线条粗细、变化的线条颜色和运动模糊。在一些实施例中,上述缺陷的任何组合可能存在于手绘示图100中。可替代地,在一些实施例中,可能存在本文未描述的另外的缺陷。此外,设想了不存在缺陷的实施例。在一些实施例中,可能期望克服上述识别挑战以生成作为初始手绘示图100的准确表示的数字示图。在一些实施例中,诸如人工神经网络的机器学习算法可能用于克服本文描述的各种识别挑战。因此,神经网络可以被训练以正确辨识各种示图元素,而不管手绘示图中可能存在的识别挑战如何。
现在转向图2,描绘了与一些实施例相关的识别系统200。在这样的实施例中,识别管线202被包括以便示图识别和转换。在一些实施例中,识别管线202包括形状检测级204、形状度(shape degree)预测级206、边缘候选级208、边缘预测级210和边缘优化级212。在一些实施例中,形状检测级204、形状度预测级206、边缘候选级208、边缘预测级210和边缘优化级212中的一个或多个包括机器学习模型。因此,训练数据存储装置(store)214可以通信地耦合到识别管线202以便为机器学习模型供应训练数据。在一些实施例中,可以包括多个分开的训练数据存储装置。
在一些实施例中,可以使用图像捕获设备218来捕获初始手绘示图216。图像捕获设备218可以是诸如数码相机或智能电话的相机的相机,或者图像扫描设备。例如,在一些实施例中,可以使用诸如计算机扫描仪或移动电话或平板电脑上的扫描应用的扫描设备来扫描图像。因此,图像文件220可以从图像捕获设备218供应给识别管线202。可替代地,在一些实施例中,图像文件220可以首先被存储,然后被传送到识别管线202。在一些实施例中,图像文件220可以作为便携式文档格式(PDF)、便携式网络图形(PNG)或联合图像专家组(JPEG)图像文件中的任何一种,以及图像文件类型中的任何其他合适形式被存储。识别管线202接收图像文件220并通过各种识别级识别一个或多个示图对象,如下文将进一步详细描述的。
在由识别管线202进行示图识别之后,识别管线202基于接收的图像文件220产生数字示图文件222。在一些实施例中,数字示图文件222可以是可扩展标记语言(XML)文件或另一数字格式的文件。在一些实施例中,数字示图文件222可以存储在数据存储装置224中,数据存储装置224可以通信地耦合到识别管线202。在一些实施例中,数据存储装置224可以通信地耦合到用户设备,使得数字示图文件222对用户是可访问的。例如,数字示图文件222可以被发送给用户的智能电话,用户使用用户的智能电话捕获初始手绘示图216的图像文件220。此外,设想了数据存储装置224是最初捕获图像的用户设备上的本地存储的实施例。因此,在一些实施例中,识别系统200的整体被包括在诸如智能电话、平板电脑或个人计算机的用户设备上。可替代地,设想了识别系统200的一部分组件是远程的实施例。例如,在一些实施例中,数据存储装置224和图像捕获设备218是用户设备的、与包括识别管线202的远程服务器通信的部分。因此,在这样的示例中,图像文件220可以从用户设备发送给远程服务器,并且在执行识别管线202的级之后从远程服务器返回数字示图文件222。
现在转向图3,描绘了与一些实施例相关的识别管线202的操作的示例性过程流程300。在一些实施例中,包括初始手绘示图216的表示的图像文件220由识别管线202接收。形状检测级204辨识并分类图像文件220内的多个形状。在一些实施例中,形状是可能包括文本或可能不包括文本的示图对象。例如,形状可以是示图符号,诸如示图内的框或决策块。此外,在一些实施例中,形状可以包括各种类型的示图对象,诸如符号、线条或箭头。在一些实施例中,形状检测级204利用形状检测机器学习模型,形状检测机器学习模型可以是被训练以辨识一个或多个形状或其他示图对象的形状检测神经网络。在一些实施例中,可以使用来自训练数据存储装置214的训练数据来训练形状检测神经网络。在一些实施例中,形状检测级204使用计算机视觉技术来辨识并分类形状。因此,可以在形状检测级204处检测和辨识多个形状302。
在一些实施例中,形状度预测级206针对多个形状302中的每一个生成多个度预测304。在一些实施例中,度预测304预测针对多个形状302中的每一个在给定方向的引入箭头和引出箭头的数量。在一些实施例中,可以针对包括上、下、左和右的四个方向中的每一个做出度预测304。在一些实施例中,度预测304是使用形状度神经网络做出的,例如使用来自训练数据存储装置214的训练数据训练形状度神经网络以预测形状的引入箭头和引出箭头的数量。
在一些实施例中,边缘候选级208至少部分地基于来自示图建模语言和度预测304的句法规则来生成包括多个边缘候选的边缘候选图形(graph)306。在这样的实施例中,每个边缘候选与包括多个形状302中的两个形状的形状对相关联并且指示两个形状之间的可能连接。在一些实施例中,边缘预测级210预测指示给定形状对通过特定箭头类型连接的概率的多个边缘概率308。在一些实施例中,边缘预测级210还将多个箭头路径310预测为关键点的序列。在一些实施例中,边缘预测级210使用边缘预测神经网络来预测概率和箭头路径。
在一些实施例中,边缘优化级212基于预测的边缘概率308和度预测304确定最终示图312。在一些实施例中,边缘优化级212通过移除诸如额外的箭头的多余组件来优化最终示图312。这里,边缘优化级212可以通过下述方式确定度惩罚项:比较边缘概率308和形状度预测304,并且如果惩罚项总计为大于预定阈值惩罚值的值,则移除箭头。此外,在一些实施例中,边缘优化级212将最终示图312转换成数字示图格式,诸如业务流程建模标注(BPMN)XML或统一建模语言(UML)以产生数字示图文件222。
现在转向图4,描绘了与一些实施例相关的箭头关系边界框生成技术的示例性比较。在一些实施例中,可以在边缘预测级210生成箭头关系边界框。在一些实施例中,可以使用简单方法402来形成联合边界框404,联合边界框404被生成作为针对一对形状的边界框的最小可能联合。例如,联合边界框404可以被形成为第一形状406的第一形状边界框和第二形状408的第二形状边界框的联合,如图所示。然而,在一些情况下,简单方法402可能产生缺失了从第一或第二形状中的任一个引出的绘制箭头410的部分的联合边界框404。因此,在一些实施例中,可能期望使用基于方向的方法412,使得可以更接近地捕获箭头,如下文将描述的。
在一些实施例中,基于方向的方法412可以用于至少部分地基于预测的形状度来产生基于方向的边界框414。因此,在一些实施例中,联合边界框404可以最初针对形状对(408、406)来生成,然后基于预测的引入和引出形状度中的一个或多个被变换为基于方向的边界框414。例如,形状408在底部方向上具有引出的箭头410。在给定形状408在底部方向的预测引出形状度的情况下,形状对的初始联合边界框404可以通过在底侧填补(pad)边界框来变换,并生成基于方向的边界框414。基于方向的边界框414更有可能包含整个箭头410。在一些实施例中,初始联合边界框404可以被填补预定像素值。例如,在一个实施例中,联合边界框404被填补了形状边界框的高度的一小部分。更进一步地,在一些实施例中,可以相对于整个手绘示图的大小来确定填补量。
现在转向图5A,描绘了与一些实施例相关的用于将示图转换成数字模型的示例性方法500。在一些实施例中,可以使用与识别系统200相关联的处理器来执行关于方法400描述的一个或多个步骤。例如,在一些实施例中,可以使用识别管线202来执行方法400的至少一部分步骤。此外,设想了实施例,其中,使用识别管线202执行本文描述的步骤的第一部分,而使用其他计算机或服务器上的处理器或用户设备执行步骤的第二部分。
在步骤502处,使用来自训练数据存储装置214的一组训练数据来训练识别管线202的一个或多个神经网络。在一些实施例中,神经网络包括形状检测神经网络、度预测神经网络、边缘候选神经网络、边缘预测神经网络和边缘优化过程的任何组合。此外,在一些这样的实施例中,一个或多个神经网络可以是包括卷积核的深度卷积神经网络。在一些实施例中,该组训练数据包括多个图像数据。在一些实施例中,可能期望使用图像增广来增加该组训练数据的大小,以例如通过调整诸如饱和度、明度(value)和对比度的图像参数随机改变图像数据。因此,可以复制和调整给定图像以增加该组训练数据中的图像的数量。在一些实施例中,图像增广可以模拟来自自然摄影的图像效果以创建更稳健的训练数据的网络。此外,在一些实施例中,可以通过将一个或多个附加文本图像和形状添加到训练图像示图中来增广图像数据。此外,图像数据可以通过使图像移位(shift)、缩放图像、旋转图像和翻转图像(其中任何一个都可以以随机变化的幅度应用)来增广。例如,可以使用随机数生成算法来确定0与360之间的随机值,随机值用作旋转图像的角度值。
在一些实施例中,可以应用训练数据的图像增广以附加地或可替代地改进识别管线202的人工神经网络组件的准确度。例如,可以将包括单词的随机文本图像随机添加到训练数据以改进神经网络在文本和箭头之间进行区分的训练。在一个示例中,手写字母“I”可能与箭头混淆。因此,会期望将包括字母“I”的文本插入到训练图像中,使得训练神经网络更准确地在字母“I”和示图箭头之间做出区分。此外,在一些实施例中,可以使用弹性失真增广来增广训练数据以在人绘制示图时模拟手部肌肉的自然不受控制的振动。这里,可以将随机失真应用于训练数据图像内的对象和线条,使得神经网络适于以图表示由手绘示图中的手部肌肉的自然振动引起的特征。
在步骤504处,将图像数据接收到识别管线202中。在一些实施例中,图像数据可以通过用户从智能电话或某一其他移动设备上传或发送捕获的图像来接收。此外,在一些实施例中,图像数据可以包括来自扫描设备的扫描图像。此外,设想了实施例,其中,图像数据可以存储在诸如用户的移动电话或计算机的用户设备上,并且识别管线202在用户设备上执行以使得不需要上传或发送图像数据,并可以直接访问。在一些实施例中,接收的图像数据包括一个或多个图像文件,诸如对应于手绘示图216的图像文件220。在步骤506处,可以对接收的图像数据执行一个或多个预处理操作。在一些实施例中,预处理包括通过缩放图像使得图像的最长边匹配固定像素值来将图像文件重调大小为固定大小。例如,在一些实施例中,可能期望缩放图像直到最长边为1333个像素长。因此,可以保持图像的纵横比,使得图像的长度和高度二者都按等量缩放。
在步骤508处,使用形状检测级204在图像数据内辨识一个或多个形状。在一些实施例中,形状检测级204可以采用各种计算机视觉技术来从图像数据中辨识和分类形状。在一些实施例中,一个或多个形状被检测为一个或多个对象节点。在一些实施例中,可以为每个形状确定概率。例如,概率可以确定为对应于包括给定分类的给定形状的可能性。在一些实施例中,可以通过将来自初始手绘示图的绘制形状与建模语言内的预期符号进行比较来确定该概率。因此,例如,与预期符号完全匹配的绘制形状将接收1.0或100%的概率。在一些实施例中,仅使用具有超过最小阈值的概率的形状。例如,示图中仅保留具有0.7(70%)或更大的概率的形状。
在一些实施例中,形状检测级204确定图像数据内的一个或多个感兴趣区域。在这样的实施例中,每个感兴趣区域指示示图内的潜在对象,诸如符号、线条和箭头。然而,在一些这样的实施例中,感兴趣区域不对对象进行分类。反而,可以在辨识示图内的一个或多个感兴趣区域之后对对象进行分类。此外,在一些实施例中,可以基于过程中的稍后的确定和分类来更新感兴趣区域。在一些实施例中,形状检测级204向每个辨识的感兴趣区域分配对象分数。对象分数可以指示感兴趣区域包含诸如符号、线条或箭头的示图对象的概率。
在一些实施例中,形状检测级204可以根据用于预期建模格式的一组特定建模规则对形状进行分类。例如,如果BPMN建模格式旨在用于最终示图,则形状可以被分类为对应的BPMN分类。因此,例如,辨识出的包括带有字母图标的圆圈的形状可以被分类为BPMN消息事件示图对象。在一些实施例中,设想了多种不同的示图对象分类。例如,分类可以包括诸如任务对象和子过程对象的活动对象,诸如无类型对象、消息对象和计时器对象的事件对象,诸如排他网关对象、并行网关对象和基于事件的网关对象的网关对象,以及诸如数据对象和数据存储对象的数据元素对象中的任何一个。
在步骤510处,针对辨识的形状中的每一个定义形状边界框。在一些实施例中,可以基于确定的针对形状的分类来定义形状边界框。在一些实施例中,可以通过确定表示形状的最外边缘的一组拐角点来定义形状边界框。另外,在一些实施例中,形状边界框可以被填补以使得整个形状适合(fit)在边界框内。例如,在一些实施例中,边界框可以被填补和拉伸以包括与形状相关联的引出箭头。在一些实施例中,可以定义联合边界框和/或基于方向的联合边界框,如图4所示。
在一些实施例中,可能期望辨识和移除一个或多个重复和/或重叠的边界框。例如,如果形状具有重复的边缘,则可以针对每个形状定义多个重复的边界框。因此,可能期望例如通过测试边界框是否重叠或者一个边界框是否与另一个边界框同心来辨识重复的边界框。在一些实施例中,可以保留重复边界框中最大的并且可以移除较小的重复。在一些实施例中,可以比较每个边界框的对象分数并且可以保留具有较高对象分数的边界框,因为它被确定为更可能包含示图对象。
在步骤512处,针对辨识的形状中的每一个预测一个或多个形状度。在一些实施例中,预测的形状度包括在给定方向针对形状的一个或多个出度和一个或多个入度。这里,形状度预测级206可以对应于形状的每个边缘(包括顶部边缘、底部边缘、左边缘和右边缘)的引入箭头和引出箭头的预测数量来预测。例如,引入形状度2.2可以预测在给定边缘处对于给定形状大约有两个引入箭头。在一些实施例中,与形状边界框相关联的二元掩模可以被级联并用作对形状度预测级206的输入。在一些实施例中,可以在所有方向上针对引入形状度预测和引出形状度预测中的每一个计算总和,以估计引入箭头和引出箭头的总数。
在一些实施例中,回归分析可以用于生成度预测网络,度预测网络基于初始手绘中的视觉特征(例如形状边界框内的绘制箭头)预测每个形状的度。在某些情况下,可能难以辨识绘制箭头。例如,在某些情况下,绘制箭头与预期的目标对象或形状之间存在距离。因此,在一些实施例中,可能期望用预定数量的像素填补每个形状边界框。例如,在一些实施例中,形状边界框可以在每个方向上填补50个像素。因此,甚至可以识别未连接到形状的绘制箭头并且形状度预测变得更加准确。
在步骤514处,使用边缘候选级208针对形状生成边缘候选。在一些实施例中,边缘候选的数量对应于来自所有形状的预测形状度的箭头的总数。在一些实施例中,可以至少部分地基于建模语言的一个或多个规则来生成边缘候选。例如,在一些实施例中,建模语言包括管控形状元素和其他对象可以如何组合的句法规则。此外,在一些实施例中,可以仅考虑一部分句法规则来生成边缘候选。在一个示例中,建模软件可以包括网关对象不应与数据元素对象连接的句法规则。因此,可以移除网关对象和数据元素对象之间的边缘候选。更进一步地,在一些实施例中,可以基于在步骤512处预测的形状度来移除边缘候选。例如,如果度小于预定阈值,则可以修剪(例如,移除)边缘候选。在一些实施例中,可以使用预定阈值0.05,使得与小于0.05的形状度预测对应的边缘候选被自动移除。在一些实施例中,可能期望移除一些边缘候选以优化识别系统200的处理,使得处理能力不会浪费在确定无用边缘候选上。
在步骤516处,使用边缘预测级210来预测边缘连接。在一些实施例中,可以将边缘连接预测为给定形状对通过特定箭头类型连接的概率。在一些实施例中,边缘预测级210基于原始手绘图像和来自步骤512的预测形状度对在步骤514处生成的边缘候选进行分类。
现在转向图5B,方法500继续到步骤518。在步骤518处,使用边缘预测级210基于初始手绘图像、预测形状度和边缘候选中的一个或多个来辨识箭头。在一些实施例中,针对每个辨识的箭头定义指示给定形状对的相关箭头区域的箭头边界框。在步骤520处,使用边缘预测级210对箭头类型进行分类。在一些实施例中,可以基于箭头的一个或多个视觉特征来确定箭头的分类。此外,在一些实施例中,可以基于与建模语言相关联的上下文对箭头进行分类。例如,在一些实施例中,对于给定的一对形状类型可能预期特定的箭头类型。在步骤522处,使用示图内的关键点预测箭头路径。在一些实施例中,通过分析初始手绘示图216,箭头路径被预测为等距点的序列。在一些实施例中,可能难以辨识包括虚线的箭头路径。因此,通过将虚线与初始手绘示图中的等距点的序列相关,可以针对具有虚线的困难箭头预测箭头路径。
在步骤524处,使用边缘优化级212确定最终示图。在一些实施例中,通过比较预测的边缘连接和预测的形状度来确定最终示图。在一些这样的实施例中,通过将形状的给定边缘处的预测的引入和引出形状度与该边缘的预测的边缘连接进行比较来确定一组惩罚项。然后惩罚项可以求和并与预定阈值惩罚值进行比较,其中,如果惩罚项的总和超过阈值,则可以移除一个或多个预测的边缘连接。
在步骤526处,最终示图被转换成对应于给定建模语言的数字示图建模格式。在一些实施例中,数字示图建模格式与示图建模语言兼容,使得最终示图可在建模软件内访问。例如,在一些实施例中,最终示图可以被转换为BPMN格式并存储为XML文件。在一些实施例中,将最终示图转换成数字建模格式允许用户使用诸如示图建模软件的建模工具从示图编辑和复制特征。因此,在一些实施例中,用户可能能够在生成最终示图之后编辑最终示图的方面。在一些实施例中,识别系统200可以监视用户做出的改变以改进机器学习组件的训练。例如,如果基于用户修正分类而认为分类是不正确的,则可以更新神经网络以反映改变,使得改进神经网络以便后续使用。
在一些实施例中,识别过程可以在短时间量内执行。例如,设想了方法500可以在100毫秒内执行的实施例。因此,方法500可以用于在期望快速响应时间的环境中从手绘示图生成数字格式的示图。
在一些实施例中,可以使用文本识别过程来识别示图内的文本。设想了实施例,其中,在产生最终示图之后在最终示图内识别文本。可替代地,在一些实施例中,可以在执行示图识别级时预先或同时识别文本。此外,在一些实施例中,文本可以例如在形状检测级204期间被辨识和移除,然后在文本已经被识别并且被转换为数字文本格式之后被添加回到最终示图中。
现在转向图6,描绘了某些实施例的示例性硬件平台。计算机602可以是台式计算机、膝上型计算机、服务器计算机、诸如智能电话或平板电脑的移动设备,或任何其他形状因子的通用或专用计算设备。出于说明的目的,用计算机602描绘了几个组件。在一些实施例中,某些组件可以不同地布置或不存在。也可能存在附加组件。计算机602中包括系统总线604,由此计算机602的其他组件可以彼此通信。在某些实施例中,可以有多个总线或组件可以直接彼此通信。中央处理单元(CPU)606连接到系统总线604。一个或多个随机存取存储器(RAM)模块608也附接到系统总线604,模块608可以存储,尤其是非暂时性形式的计算机可执行指令。图形卡610也附接到系统总线604。在一些实施例中,图形卡610可以不是物理上分开的卡,而是可以集成到主板或CPU 606中。在一些实施例中,图形卡610具有分开的图形处理单元(GPU)612,其可以用于图形处理或通用计算(GPGPU)。图形卡610上还有GPU存储器614。显示器616连接(直接或间接)到图形卡610以便用户交互。在一些实施例中不存在显示器,而在其他实施例中显示器被集成到计算机602中。类似地,诸如键盘618和鼠标620的外围设备连接到系统总线604。像显示器616一样,这些外围设备可以被集成到计算机602中或不存在。本地存储622也连接到系统总线604,本地存储622可以是任何形式的计算机可读介质,并且可以内部安装在计算机602中或外部且可移除地附接。
计算机可读介质包括易失性和非易失性介质、可移除和不可移除介质并设想数据库可读的介质。例如,计算机可读介质包括(但不限于)RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)、全息介质或其他光盘存储、磁带盒、磁带、磁盘存储和其他磁存储设备。这些技术可以临时或永久地存储数据。然而,除非另有明确规定,术语“计算机可读介质”不应该被解释为包括物理但暂时的信号传输的形式,诸如无线电广播、通过电线的电信号或通过光纤电缆的光脉冲。存储的信息的示例包括计算机可用指令、数据结构、程序模块和其他数据表示。
最后,网络接口卡(NIC)624也附接到系统总线604并允许计算机602通过诸如网络626的网络通信。NIC 624可以是本领域已知的任何形式的网络接口,诸如以太网、ATM、光纤、蓝牙或Wi-Fi(即,IEEE 802.11族标准)。NIC 624将计算机602连接到本地网络626,本地网络还可以包括一台或多台其他计算机,例如计算机628,以及诸如数据存储装置630的网络存储。通常,诸如数据存储装置630的数据存储装置可以是可根据需要存储和检索信息的任何库。数据存储装置的示例包括关系或面向对象的数据库、电子制表、文件系统、平面文件、目录服务(诸如LDAP和活动目录(Active Directory))或电子邮件存储系统。可以经由复杂的API(诸如,例如,结构化查询语言),仅提供读取、写入和寻找(seek)操作的简单API或介于两者之间的任何复杂水平来访问数据存储装置。一些数据存储装置另外可以为存储在其中的数据集提供管理功能,诸如备份或版本控制。数据存储装置可以是单个计算机(诸如计算机628)本地的,可在本地网络(诸如本地网络626)上访问,或可通过互联网632远程访问。本地网络626反过来连接到互联网632,互联网632连接许多网络,诸如本地网络626、远程网络634或直接附接的计算机,诸如计算机636。在一些实施例中,计算机602本身可以直接连接到互联网632。
虽然已经参考附图中所示的实施例描述了本教导,但是应当注意,在不脱离如权利要求中记载的本公开的范围的情况下,可以采用等同物并且在本文中进行替换。
已经如此描述了本公开的各种实施例,所要求保护的新的和期望受专利证保护的内容包括所附内容。
Claims (20)
1.一个或多个非暂时性计算机可读介质,存储计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行用于将示图转换为数字模型的方法,所述方法包括:
接收与示图相关联的图像数据;
使用计算机视觉技术辨识图像数据内的多个形状;
针对所述多个形状中的每一个定义边界框;
使用形状度预测神经网络,针对所述多个形状中的每一个预测与来自图像数据内的多个箭头的箭头数量对应的一个或多个形状度;
生成与所述多个形状对应的多个边缘候选;
使用边缘预测神经网络预测所述多个形状中的一对形状被连接的概率;
使用边缘预测神经网络辨识所述多个箭头中的箭头;
使用边缘预测神经网络将箭头分类为箭头类型;
预测包括关键点的序列的箭头的箭头路径;
基于预测的概率和预测的形状度确定最终示图;以及
将最终示图转换为数字示图格式。
2.如权利要求1所述的介质,其中,所述图像数据与从用户接收的手绘示图相关联。
3.如权利要求2所述的介质,其中,所述图像数据通过使用扫描设备扫描手绘示图来产生。
4.如权利要求2所述的介质,
其中,所述图像数据通过使用移动电话上的相机拍摄手绘示图来产生,以及
其中,所述处理器为移动电话的处理器。
5.如权利要求1所述的介质,还包括:
预处理图像数据以产生具有固定大小的图像。
6.如权利要求1所述的介质,还包括:
基于所述多个形状中的两个或更多个形状中的每一个的相应边界框和预测的箭头路径,在所述两个或更多个形状之间定义联合边界框。
7.如权利要求1所述的介质,还包括:
通过比较预测的概率和预测的形状度,针对所述多个形状中的每个形状定义一个或多个度惩罚项;
对每个相应形状的一个或多个惩罚项求和;
确定惩罚项的总和是否超过预定阈值;以及
如果惩罚项的总和超过预定阈值,则移除与所述一个或多个惩罚项相关联的一个或多个箭头。
8.一种用于将示图转换为数字模型的方法,所述方法包括:
接收与示图相关联的图像数据;
使用计算机视觉技术辨识图像数据内的多个形状;
针对所述多个形状中的每一个定义边界框;
使用形状度预测神经网络,针对所述多个形状中的每一个预测与来自图像数据内的多个箭头的箭头数量对应的一个或多个形状度;
生成与所述多个形状对应的多个边缘候选;
使用边缘预测神经网络预测所述多个形状中的一对形状被连接的概率;
使用边缘预测神经网络辨识所述多个箭头中的箭头;
使用边缘预测神经网络将箭头分类为箭头类型;
预测包括关键点的序列的箭头的箭头路径;
基于预测的概率和预测的形状度确定最终示图;以及
将最终示图转换为数字示图格式。
9.如权利要求8所述的方法,其中,所述最终示图的数字示图格式与示图建模语言兼容。
10.如权利要求9所述的方法,其中,所述数字示图格式是XML格式并且示图建模语言是BPMN。
11.如权利要求8所述的方法,还包括:
预处理图像数据以产生具有固定大小的图像,使得图像的最长边缩放到1333个像素的值。
12.如权利要求11所述的方法,其中,以添加到图像的每一侧的50个像素填补针对所述多个形状中的每一个的边界框。
13.如权利要求8所述的方法,还包括:
通过比较预测的概率和预测的形状度,针对所述多个形状中的每个形状定义一个或多个度惩罚项;
对每个相应形状的一个或多个惩罚项求和;
确定惩罚项的总和是否超过预定阈值;以及
如果惩罚项的总和超过预定阈值,则移除与所述一个或多个惩罚项相关联的一个或多个箭头。
14.如权利要求8所述的方法,还包括基于示图建模语言的一个或多个预定句法规则对所述多个形状中的每个形状进行分类,其中,数字示图格式与示图建模语言兼容。
15.一种识别系统,包括:
与形状检测神经网络相关联的形状检测级;
与形状度预测神经网络相关联的形状度预测级;
边缘候选级;
与边缘连接预测神经网络相关联的边缘连接预测级;
边缘优化级;以及
至少一个处理器,被编程为执行用于将示图转换为数字模型的方法,所述方法包括:
接收与示图相关联的图像数据;
在形状检测级处使用形状检测神经网络辨识图像数据内的多个形状;
针对所述多个形状中的每一个定义边界框;
在形状度预测级处,使用形状度预测神经网络,针对所述多个形状中的每一个预测与来自图像数据内的多个箭头的箭头数量对应的一个或多个形状度;
在边缘候选级处,生成与所述多个形状对应的多个边缘候选;
在边缘连接预测级处,使用边缘预测神经网络预测所述多个形状中的一对形状连接的概率;
使用边缘预测神经网络辨识所述多个箭头中的箭头;
使用边缘预测神经网络将箭头分类为箭头类型;
预测包括关键点的序列的箭头的箭头路径;
基于预测的概率和预测的形状度确定最终示图;以及
将最终示图转换为数字示图格式。
16.如权利要求15所述的系统,还包括训练数据存储装置,该训练数据存储装置存储包括训练图像数据的训练数据,其中,形状检测神经网络、形状度预测神经网络和边缘连接预测神经网络中的一个或多个是使用来自训练数据存储装置的训练数据来训练的。
17.如权利要求16所述的系统,其中,训练数据存储装置的训练图像数据包括使用图像增广技术生成的模拟的训练图像数据以增加训练数据的量。
18.如权利要求17所述的系统,其中,所述图像增广技术包括以下中的一项或多项:调整饱和度、调整明度和调整对比度。
19.如权利要求15所述的系统,其中,所述方法还包括移除至少一个重叠的重复边界框。
20.如权利要求15所述的系统,其中,通过预定量填补针对所述多个形状中的每一个的边界框以辨识连接到所述形状的一个或多个箭头。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/411,683 US11663761B2 (en) | 2021-08-25 | 2021-08-25 | Hand-drawn diagram recognition using visual arrow-relation detection |
US17/411,683 | 2021-08-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115731561A true CN115731561A (zh) | 2023-03-03 |
Family
ID=78414491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111439990.5A Pending CN115731561A (zh) | 2021-08-25 | 2021-11-30 | 使用视觉箭头关系检测的手绘示图识别 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11663761B2 (zh) |
EP (1) | EP4141806A1 (zh) |
CN (1) | CN115731561A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12119989B2 (en) * | 2021-10-29 | 2024-10-15 | Keysight Technologies, Inc. | System and method for configuring network elements in a design network topology |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240300B2 (en) * | 2001-02-15 | 2007-07-03 | Nbor Corporation | Method for creating user-defined computer operations using arrows |
US20080104526A1 (en) * | 2001-02-15 | 2008-05-01 | Denny Jaeger | Methods for creating user-defined computer operations using graphical directional indicator techniques |
US7050632B2 (en) * | 2002-05-14 | 2006-05-23 | Microsoft Corporation | Handwriting layout analysis of freeform digital ink input |
JP6038700B2 (ja) * | 2013-03-25 | 2016-12-07 | 株式会社東芝 | 整形装置 |
WO2015189985A1 (ja) * | 2014-06-13 | 2015-12-17 | 株式会社ニコン | 形状測定装置、構造物製造システム、形状測定方法、構造物製造方法、形状測定プログラム、及び記録媒体 |
US10976918B2 (en) * | 2015-10-19 | 2021-04-13 | Myscript | System and method of guiding handwriting diagram input |
US10643067B2 (en) * | 2015-10-19 | 2020-05-05 | Myscript | System and method of handwriting recognition in diagrams |
US10852938B2 (en) * | 2016-01-07 | 2020-12-01 | Myscript | System and method for mixed content digital ink interactivity |
US10956727B1 (en) * | 2019-09-11 | 2021-03-23 | Sap Se | Handwritten diagram recognition using deep learning models |
-
2021
- 2021-08-25 US US17/411,683 patent/US11663761B2/en active Active
- 2021-10-29 EP EP21205525.5A patent/EP4141806A1/en active Pending
- 2021-11-30 CN CN202111439990.5A patent/CN115731561A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230062484A1 (en) | 2023-03-02 |
US11663761B2 (en) | 2023-05-30 |
EP4141806A1 (en) | 2023-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US10685462B2 (en) | Automatic data extraction from a digital image | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
US20210295114A1 (en) | Method and apparatus for extracting structured data from image, and device | |
RU2372654C2 (ru) | Система и способ для распознавания формы рукописных объектов | |
US8923608B2 (en) | Pre-screening training data for classifiers | |
CN111767228B (zh) | 基于人工智能的界面测试方法、装置、设备和介质 | |
CN114641753A (zh) | 使用机器学习从楼层平面图图纸进行合成数据生成和建筑信息模型(bim)要素提取 | |
CN109343920B (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
RU2373575C2 (ru) | Система и способ для обнаружения рукописных объектов в рукописном вводе чернилами | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
US20140313216A1 (en) | Recognition and Representation of Image Sketches | |
CA3225621A1 (en) | Ai-augmented auditing platform including techniques for automated document processing | |
US20170011262A1 (en) | System for recognizing multiple object input and method and product for same | |
CN106663189A (zh) | 用于叠加的笔迹的识别技术的系统和方法 | |
WO2007080642A1 (ja) | 帳票処理プログラムおよび帳票処理装置 | |
Karasneh et al. | Extracting UML models from images | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
JP6989450B2 (ja) | 画像解析装置、画像解析方法及びプログラム | |
CN111008624A (zh) | 光学字符识别方法和产生光学字符识别的训练样本的方法 | |
US11663761B2 (en) | Hand-drawn diagram recognition using visual arrow-relation detection | |
CN118591828A (zh) | 用于分割的双级别模型 | |
CN117859122A (zh) | 包括用于自动化文档处理的技术的ai增强的审计平台 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
JP2020064438A (ja) | 学習データ生成装置および学習データ生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |