CN118334689A

CN118334689A - 流程图处理方法、装置以及电子设备

Info

Publication number: CN118334689A
Application number: CN202410501089.3A
Authority: CN
Inventors: 马茂斐
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2024-04-24
Filing date: 2024-04-24
Publication date: 2024-07-12

Abstract

本申请实施例公开了一种流程图处理方法、装置以及电子设备。所述方法包括：基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对；基于目标网络模型的第一解码器，以及多个第一输出特征向量进行注意力计算，以根据注意力计算的结果对多个第一坐标对进行更新，以得到多个第二坐标对；基于目标网络模型的第二解码器以及多个第一输出特征向量，得到待处理流程图中各个节点对应的边框信息；基于待处理流程图中各个节点对应的边框信息、文本内容以及多个第二坐标对，生成待处理流程图的结构化数据。从而通过上述方式使得实现了更加准确的对待处理流程图进行识别。

Description

流程图处理方法、装置以及电子设备

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种流程图处理方法、装置以及电子设备。

背景技术

现在，越来越多的用户倾向于利用流程图来辅助思考以及技术交流。流程图作为工作学习中一种图形化工具，常用于表示事物或过程中的步骤、决策、操作和流程的顺序和关系。它通过使用不同形状的图形和箭头来表示各个步骤和决策，并按照特定的规则和约定进行连接，以展示信息流动和操作流程。但是，在相关方式中对流程图的识别的准确性还有待提升。

发明内容

鉴于上述问题，本申请提出了一种流程图处理方法、装置以及电子设备，以改善上述问题。

第一方面，本申请提供了一种流程图处理方法，所述方法包括：基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标；基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对；基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息；基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容；基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

第二方面，本申请提供了一种流程图处理装置，所述装置包括：初始处理单元，用于基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标；信息更新单元，用于基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对；目标识别单元，用于基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息；图文识别单元，用于基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容；结构化数据生成单元，用于基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

第三方面，本申请提供了一种电子设备，所述电子设备至少包括处理器、以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的方法。

本申请提出了一种流程图处理方法、装置以及电子设备，在基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量，以及多个第一坐标对后，可以基于第一解码器以及多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。并且，可以基于待处理流程图中各个节点对应的边框信息对待处理流程图进行图文识别，以获取每个节点对应的文本内容，进而基于待处理流程图中各个节点对应的边框信息、文本内容以及多个第二坐标对，生成待处理流程图的结构化数据。从而通过上述方式使得在对待处理流程图的处理过程中，可以先基于编码器对待处理流程图进行处理以得到多个第一坐标对，然后可以再基于第一解码器来对该多个第一坐标对进行优化，以得到最终的多个第二坐标对，从而使得多个第二坐标对具有更高的准确性，进而使得后续基于第二坐标对所生成的结构化数据具有更高的准确性，从而使得实现了更加准确的对待处理流程图进行识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种应用场景的示意图；

图2示出了本申请实施例提出的另一种应用场景的示意图；

图3示出了本申请实施例提供的一种流程图处理方法的流程图；

图4示出了本申请实施例中一种得到结构化数据的的流程图；

图5示出了本申请另一实施例提供的一种流程图处理方法的流程图；

图6示出了本申请实施例中的编码器侧的结构示意图；

图7示出了本申请实施例中的解码器侧的结构示意图；

图8示出了本申请再一实施例提供的一种流程图处理方法的流程图；

图9示出了本申请实施例提出的一种流程图处理装置的结构框图；

图10示出了本申请的用于执行根据本申请实施例的流程图处理方法的一种电子设备的结构框图；

图11是本申请实施例的用于保存或者携带实现根据本申请实施例的流程图处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

流程图是一种用来表示一系列步骤、决策或操作过程的图示化表示方法。它通过图形和符号，直观地描述了某一过程从开始到结束的逻辑顺序和相互关系，使得复杂的过程变得简单易懂。在一些情况下，可以通过电子设备对流程图进行识别，以获取到流程图中的相关数据。

然而，发明人在研究中发现，在相关方式中对流程图的识别的准确性还有待提升。

因此，发明人提出了本申请中的流程图处理方法、装置以及电子设备。在该方法中，在基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量，以及多个第一坐标对后，可以基于第一解码器以及多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对多个第一坐标对进行更新，以得到多个第二坐标对。并且，可以基于待处理流程图中各个节点对应的边框信息对待处理流程图进行图文识别，以获取每个节点对应的文本内容，进而基于待处理流程图中各个节点对应的边框信息、文本内容以及多个第二坐标对，生成待处理流程图的结构化数据。

从而通过上述方式使得在对待处理流程图的处理过程中，可以先基于编码器对待处理流程图进行处理以得到多个第一坐标对，然后可以再基于第一解码器来对该多个第一坐标对进行优化，以得到最终的多个第二坐标对，从而使得多个第二坐标对具有更高的准确性，进而使得后续基于第二坐标对所生成的结构化数据具有更高的准确性，从而使得实现了更加准确的对待处理流程图进行识别。

在对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及一种应用环境进行介绍。

下面先对本申请实施例所涉及的应用场景进行介绍。

在本申请实施例中，所提供的流程图处理方法可以由电子设备执行。在由电子设备执行的这种方式中，本申请实施例提供的流程图处理方法中所有步骤可以均由电子设备执行。例如，如图1所示，本申请实施例提供的流程图处理方法中所有步骤可以均由电子设备执行的情况下，所有步骤均可以通过电子设备100处理器执行。

再者，本申请实施例提供的流程图处理方法也可以由服务器进行执行。对应的，在由服务器执行的这种方式中，服务器可以响应于触发指令而开始执行本申请实施例提供的流程图处理方法中的步骤。其中，该触发指令可以由用户使用的电子设备所发送，也可以由服务器响应于一些自动化事件而在本地触发。例如，在电子设备将流程图文件上传给服务器的情况下，服务器可以响应于接收到流程图文件而开始执行流程图处理方法。

另外，如图2所示，本申请实施例提供的流程图处理方法还可以由电子设备和服务器协同执行。在由电子设备和服务器协同执行的这种方式中，本申请实施例提供的流程图处理方法中的部分步骤由电子设备执行，而另外部分的步骤则由服务器来执行。示例性的，电子设备100可以执行流程图处理方法包括的：基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对。之后，电子设备100将该多个第一输出特征向量以及多个第一坐标对传输给服务器200，然后由服务器200来执行后续的步骤以得到待处理流程图的结构化数据，并将该结构化数据再返回给电子设备100，以便于电子设备100基于结构化数据执行后续的步骤。示例性的，该后续的步骤可以包括对结构化数据进行编辑，然后基于编辑后的结构化数据再生成其他格式的流程图文件。其中，对结构化数据进行编辑包括对流程节点中原本的文本内容进行编辑和/或，对流程节点所在的位置进行编辑。或者，服务器200在得到结构化数据后，也可以仅将结构化数据保留在本地。

需要说明的是，在由电子设备和服务器协同执行的这种方式中，电子设备和服务器分别执行的步骤不限于上述示例中所介绍的方式，在实际应用中，可以根据实际情况动态的调整电子设备和服务器分别执行的步骤。

需要说明的是，其中的电子设备100除了为图1和图2中所示的智能手机外，还可以为平板电脑、智能手表、智能眼镜等设备。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。其中，在本申请实施例提供的流程图处理方法由多个物理服务器构成的服务器集群或者分布式系统执行的情况下，流程图处理方法中的不同步骤可以分别由不同的物理服务器执行，或者可以由基于分布式系统构建的服务器基于分布式的方式执行。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，本申请实施例提供的一种流程图处理方法，方法包括：

S110：基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标。

在本申请实施例中，目标网络模型可以理解为用于对流程图进行处理以得到对应的结构化数据的模型。其中，目标网络模型可以包括有编码器以及两个解码器。其中，两个解码器包括第一解码器以及第二解码器。其中，第一解码器用于获取待处理流程图中不同节点之间的关系，第二解码器则用于对节点进行目标识别。

其中，待处理流程图可以理解为待进行结构化数据生成的流程图。在本申请实施例中，对于待处理流程图的格式不做具体限定。例如，待处理流程图可以为PNG、JPG、BMP等图片格式。

其中，编码器在对待处理流程图进行处理后可以输出多个第一输出特征向量以及多个第一坐标对。其中，多个第一输出特征向量可以表征待处理流程图中内容的特征。

在本申请实施例中，待处理流程图中的节点可以理解为流程节点。例如，该流程节点可以为流程的开始节点、中间节点以及终点节点等。

其中，在本申请实施例中，可以有多种方式得到待处理流程图。

可选的，可以通过对当前正在进行内容显示的流程图文件(或者，可以理解为电子设备打开的流程图文件)进行截图，以得到处理流程图。例如，可以通过屏幕捕获软件或工具对电子设备上呈现的流程图进行实时截取，以得到待处理流程图。可选的，可以在流程图编辑软件中，直接调用内置的图像导出功能，将当前编辑的流程图以指定的图像格式和分辨率导出，进而可以将导出的流程图作为待处理流程图。可选的，可以从各类图库网站(如百度图库、谷歌图库等)中下载或截取所需的流程图图像作为待处理流程图。可选的，还可以通过数字成像设备(例如，数码相机、智能手机)进行图像采集，以得到待处理流程图。

S120：基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。

在本申请实施例中，第一解码器可以理解为节点关系解码器。其中，第一坐标对可以为根据编码器所输出的多个第一输出特征向量所得到。在这种情况下，可以将第一坐标对理解为初始的坐标对，进而可以通过第一解码器再对多个第一坐标对进行进一步的优化，以得到更加准确性的第二坐标对。

S130：基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息。

在本申请实施例中，第二解码器为用于对待处理图像进行目标识别的解码器。其中，进行目标识别的作用则是为了获取到待处理流程图中所包括的节点，以及节点的边框信息。可选的，该边框信息包括边框位置以及边框类别。

S140：基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容。

其中，对待处理图像进行图文识别的作用则是为了得到待处理流程图中每个节点所包括的文本内容。需要说明的是，在流程图中每个流程节点都会有文本内容来表征该流程节点的作用或者要执行的流程动作。例如，有的流程节点对应的文本内容可以为“判断a是否大于b”，有的流程节点对应的文本内容可以为“判断用户是否登录成功”，有的流程节点对应的文本内容可以为“获取用户的帐号信息”等。

在本申请实施例中，可以有多种得到每个节点对应的文本内容的方式。

作为一种方式，可以先对待处理流程图整体进行图文识别，以得到待处理流程图中全部的文本内容。在得到全部的文本内容后，可以再对全部的文本内容进行分配，以得到每个节点对应的文本内容。需要说明的是，通过前述的第二解码器已经获取到了每个节点的边框信息，边框信息中可以包括有边框位置，进而也就获取到了每个节点在待处理流程图中的位置，在对待处理图像进行图文识别的过程中，对于获取到的每个文本内容也会对应有位置，因此，在对全部的文本内容进行分屏的过程中，则可以将识别到的文本内容的位置与边框的边框位置进行比对，进而获取到每个边框对应的文本内容，在得到每个边框对应的文本内容的情况下，也就获取到了每个节点的文本内容。

作为另外一种方式，可以针对每个节点的边框分别进行图文识别，以得到每个边框对应的文本内容。

需要说明的是，对于不同的流程图而言会具有不同程度的复杂程度。例如，有的流程图中的流程节点会较多，进而流程图会相对较为复杂，而有的流程图中的流程节点会较少，进而流程图则会相对更加简单。在这种情况下，可以根据待处理流程图是否复杂来确定对应的文本内容识别方式。

可选的，若检测到待处理流程图复杂，则可以针对每个节点的边框分别进行图文识别，以得到每个边框对应的文本内容。若检测到待处理流程图不复杂，则可以先对待处理流程图整体进行图文识别，以得到待处理流程图的全部的文本内容。在得到全部的文本内容后，可以再对全部的文本内容进行分配，以得到每个节点对应的文本内容。

其中，在通过第二解码器得到待处理流程图中各个节点的边框信息的情况下，则也可以获取到待处理流程图中所包括的节点的数量。在这种情况下，若检测到待处理图中节点的数量小于第一数量阈值，则确定待处理流程图不复杂。若检测到待处理流程图中节点的数量不小于该第一数量阈值，则确实待处理流程图复杂。

S150：基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

示例性的，如图4所示，所获取到的流程图图像则可以理解为本申请实施例中待处理流程图的图像。其中，流程图端到端模型则可以理解为本申请实施例中的目标网络模型。其中，文字识别模型则可以理解为用于获取文本内容的模型，对应的，图4中的文本信息则可以理解为所获取到的文本内容。图4中的流程图结构信息则可以理解为前述通过第一解码器以及第二解码器所获取到的内容。

在本申请实施例中，可以通过对待训练的网络模型进行训练以得到目标网络模型。可选的，可以采集大量流程图图像，并对每张图像中的节点bbox(边框)标注，同时标注节点id为node_id，父节点id为parent_id，以得到训练数据。其中，父节点可以理解为在流程上，相邻在前的一个节点。利用训练数据训练一个基于深度学习的待训练的网络模型，以得到目标网络模型。

本实施例提出了一种流程图处理方法，从而通过上述方式使得在对待处理流程图的处理过程中，可以先基于编码器对待处理流程图进行处理以得到多个第一坐标对，然后可以再基于第一解码器来对该多个第一坐标对进行优化，以得到最终的多个第二坐标对，从而使得多个第二坐标对具有更高的准确性，进而使得后续基于第二坐标对所生成的结构化数据具有更高的准确性，从而使得实现了更加准确的对待处理流程图进行识别。

请参阅图5，本申请实施例提供的一种流程图处理方法，方法包括：

S210：基于目标网络模型的编码器获取待处理流程图对应的多尺寸特征。

其中，多尺寸特征可以理解为包括多个尺寸的特征。也就是说，在多尺寸特征所包括的多个特征中，每个特征的尺寸会有所区别。

S220：基于所述多尺寸特征，得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标。

作为一种方式，可以对所述多尺寸特征中的第一尺寸的特征进行注意力计算，以得到全局特征。其中，全局特征可以理解为用于表征待处理图像的全图级别的特征。然后，将全局特征与第二尺寸的特征进行融合，以根据融合后的特征得到所述编码器所输出的多个初始特征向量。其中，第二尺寸的特征为所述多尺寸特征中，除所述第一尺寸的特征以外的特征，基于所述多个初始输出特征向量，得到多个第一坐标对以及每个第一坐标对对应的置信度，基于所述置信度从所述多个初始输出特征向量中确定多个第一输出特征向量。例如，可以基于置信度从多个初始特征输出相邻中，确定300个第一输出特征向量。

示例性的，如图6所示，可以通过编码器包括的骨干网络对待处理流程图进行处理，以得到多尺寸特征。其中，编码器可以为一种CNN(Convolutional Neural Networks)模型。其中的骨干网络可以为ResNet。

其中，在得到多尺寸特征后，可以通过编码器中的自注意力模块来执行前述的自注意力计算，以得到全局特征。然后，可以通过编码器中的特征融合模块来将全局特征与第二尺寸的特征进行融合，以得到融合后的特征。需要说明的是，在本申请实施例中，所得到的多尺寸特征可以理解为一种特征图。在这种情况下，通过融合所得到的融合后的特征也为一个特征图，进而对于融合后的特征(图)中多个位置的数据各自可以得到一个特征向量，以得到多个初始特征向量。其中，第一尺寸可以为多尺寸特征中，最小的尺寸。

在得到多个初始特征向量后，则可以通过编码器中的特征评估模块来分别对初始特征向量进行评估，以得到多个第一坐标对以及每个第一坐标对对应的置信度。其中，对于确定多个第一输出特征向量，则可以作为第一解码器的查询向量(Queries)。

S230：基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。

作为一种方式，可以基于所述目标网络模型的第一解码器所包括的多个解码器层(例如，可以包括有6个解码器层)，以及所述多个第一输出特征向量进行多次注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。

可选的，所述基于所述目标网络模型的第一解码器所包括的多个解码器层，以及所述多个第一输出特征向量进行多次注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对，包括：

基于当前解码器层以及当前解码器层对应的参考特征向量，进行注意力计算，以得到多个第二输出特征向量，所述当前解码器层为所述多个解码器层中的一个，其中，第一层解码器层的对应的参考特征向量为所述编码器输出的多个第一输出特征向量，第一层解码器层之后的解码器层对应的参考特征向量为相邻在前一层解码器层通过注意力计算所输出的多个第二输出特征向量。

通过所述多个第二输出特征向量，对当前解码器层对应的多个待更新坐标对进行更新，其中，当前解码器层对应的多个待更新坐标对为经过相邻在前一层解码器层所更新得到的多个坐标对，第一层解码器层对应的多个待更新坐标对为所述多个第一坐标对；将最后一层解码器层所更新得到的坐标对作为多个第二坐标对。

可选的，所述基于当前解码器层以及当前解码器层对应的参考特征向量，进行注意力计算，以得到多个第二输出特征向量，包括：基于当前解码器层以及当前解码器层对应的参考特征向量，进行自注意力计算，以得到自注意力计算结果。

其中，所进行的自注意力计算可以为多头自注意力计算，该多头自注意力计算的表达式可以如下：

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O

其中，Q、K、V分别是查询(Query)、键(Key)和值(Value)。

矩阵分别是对应于每个头的查询、键和值的线性变换矩阵。

多头注意力机制允许模型在不同的表示子空间中并行捕获信息，每个头学习到的是不同的表示，然后通过线性变换W^O的拼接，将这些信息整合起来形成最终的输出(即，自注意力计算结果)。

基于所述自注意力计算结果进行可变形注意力计算，以得到多个第二输出特征向量。

完成自注意力模块的计算后，将进行可变形注意力计算。本申请实施例采用的是Deformable DETR中的Multi-scale Deformable Attention Module。该可变形注意力模块可以在多个特征图上进行采样，更好的利用图像的多尺度特征。

其中，m为注意力头的索引。l为特征尺度的索引，k为采样点的索引。

Δp_mlqk为采样点偏移量，A_mlqk为对应的attention weight。代表图像的多尺度特征图，它与后面采样点的运算定为根据采样点的位置，在特征图中进行采样。

示例性的，如图7所示，在第一解码器中，可以通过解码器层中的自注意力模块来进行自注意力计算，以及通过可变形注意力模块进行可变形注意力计算。可选的，对于通过可变形注意力模块所计算得到的特征向量可以再通过FFN(Feed Forward Networks)网络的计算后再进行输出，以得到第二输出特征向量。

在每个解码器层中可以包括有预测头，该预测头则用于根据所在解码器层的输出(多个第二输出特征向量)来得到对应的坐标修正值，进而通过该坐标修正值对当前解码器层对应的多个待更新坐标对进行更新。具体的，从第二个解码器层开始，输入的query由上一层提供，通过同样的计算流程，计算出坐标对的坐标修正值，基于该坐标修正值对上一层输出的坐标对进行更新。

其中，修正过程可以表示为：

其中为第d层解码器层对坐标对的预测，来自d-1层解码器层产生的坐标对，代表当前层模型预测的修正值，σ为sigmoid函数。

在目标网络模型运算过程中，坐标经过了函数g(x)进行了变换，坐标修正值是在此基础上进行修正，这使其值域更适配模型的运算结果。所以计算流程为：原坐标(例如，待更新坐标对中的坐标)经过逆sigmoid函数g(x)，再加上修正值，得到修正后的值，例如随后经过sigmoid函数进行还原得到新的坐标。原坐标部分的梯度，如将被阻隔，不会参与梯度的反向传播。

其中，

S240：基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息。

S250：基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容。

S260：基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

作为一种方式，边框信息包括边框位置以及边框类别，在这种情况下，可以基于匈牙利算法对流程图中的节点以及第二坐标对中的坐标进行配对，以得到配对结果，其中，若第二坐标对中的坐标位于节点的边框位置内，则确定该坐标与该节点成功配对，若存在待处理坐标点，则基于所述待处理坐标点周围的节点的边框位置以及边框类别，确定所述待处理坐标点所配对的节点。

可选的，对于坐标对(第一坐标对或者第二坐标对)中的坐标可以包括有起点坐标以及终点坐标。例如，坐标对中的一个坐标可以表示为：

(score,x1,y1,x2,y2)，其中，socre代表置信度，x1,y1起始点坐标，x2,y2终点坐标。

在这种情况下，第二坐标对中的坐标是否位于边框位置内包括起点坐标是否位于边框位置内，以及终点坐标是否位于边框位置内。其中，在坐标的起点坐标以及终点坐标均位于节点对应的边框位置内的情况下，则表征该坐标位于节点的边框位置内。

若第二坐标对中的坐标为待处理坐标，则说明该坐标的起点坐标或者终点坐标未在任何节点的边框位置内。在这种情况下，若是因为起点坐标未在任何节点的边框位置内，则将该起点坐标所对应的坐标配置给距离最接近的节点。其中，起点坐标所对应的坐标为包括该起点坐标的坐标。

若是因为终点坐标未在任何节点的边框位置内，则可以获取该终点坐标与待处理流程图中每个节点的中心坐标之间的第一距离，以得到多个第一距离，以及该终点坐标与起点坐标之间的第二距离。若第二距离远远小于该多个第一距离，则可以将该终点坐标对应的坐标配置给起点坐标所在的节点。

若多个第一距离中存在多个候选距离与第二距离的差距都不大，则可以根据该多个候选距离所对应的节点的类别，来确定终点坐标所属坐标所分配的节点。例如，可以将终点节点所属坐标分配给候选节点中还未配置坐标的节点。其中，候选节点为所述多个候选距离所对应的节点。

基于所述配对结果以及所述文本内容，生成所述待处理流程图的结构化数据。

需要说明的是，匈牙利匹配算法是一种解决二分图的最小权匹配问题的算法。

标签匹配策略的计算部分采用以下的方案：通过综合坐标对的偏差以及置信度，构建cost matrix，代表每个预测到各个目标的cost。使用匈牙利算法对预测出的坐标对进行分配，每个目标坐标对，将分配到一个唯一的预测坐标对。该过程，以及接下来的损失计算将在解码器的每一层中独立进行。通过分配的结果进行损失计算，坐标对损失将采用下面提到的node relation loss或者MSE进行计算，置信度损失参考Generalized FocalLoss中的设计，使得置信度的预测结果能更好的反映坐标对预测的质量。

下面是针对流程图节点关系预测设计的Node Relation Loss，该损失函数很好的考虑了坐标对与节点之间的关系，使损失函数能对各个尺度的目标都能有不错的表现。

损失函数的计算过程如下：

输入sx,sy,px,py，其中，sx,sy代表模型预测子节点坐标，px,py代表模型预测父节点坐标，分别代表子节点，父节点的真实矩形框。

C代表A，B的最小外接矩形。

将矩形框移动到(sx,sy)，记为S。将矩形框P移动到(px,py)，记为P。

其中，α,β为可调节的缩放因子，对于预测的坐标在节点的边框外的难样本，对其赋予更大的权重。同时α,β之间的比例可以根据模型效果进行调节，使模型更注重父节点坐标或是子节点坐标。

本实施例提出了一种流程图处理方法，从而通过上述方式使得在对待处理流程图的处理过程中，可以先基于编码器对待处理流程图进行处理以得到多个第一坐标对，然后可以再基于第一解码器来对该多个第一坐标对进行优化，以得到最终的多个第二坐标对，从而使得多个第二坐标对具有更高的准确性，进而使得后续基于第二坐标对所生成的结构化数据具有更高的准确性，从而使得实现了更加准确的对待处理流程图进行识别。并且，在本实施例中，第一解码器可以包括有多层编码器层，从而可以通过多次注意力计算来对编码器所输出的多个第一坐标对进行多次的更新，从而使得所得到的多个第二坐标对能够更加准确，也提升了目标网络模型的稳定性和鲁棒性。

请参阅图8，本申请实施例提供的一种流程图处理方法，方法包括：

S310：获取第一格式的流程图文件中的文件内容，以得到待处理流程图。

S320：基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标。

S330：基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。

S340：基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息。

S350：基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容。

S360：基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

S370：基于所述结构化数据，生成第二格式的流程图文件。

本实施例提出了一种流程图处理方法，从而通过上述方式使得在对待处理流程图的处理过程中，可以先基于编码器对待处理流程图进行处理以得到多个第一坐标对，然后可以再基于第一解码器来对该多个第一坐标对进行优化，以得到最终的多个第二坐标对，从而使得多个第二坐标对具有更高的准确性，进而使得后续基于第二坐标对所生成的结构化数据具有更高的准确性，从而使得实现了更加准确的对待处理流程图进行识别。并且，在本实施例中所得到的待处理流程图来源于第一格式的流程图文件，进而在得到结构化数据后，可以再利用该结构化数据生成第二格式的流程图文件，从而实现了不同格式流程图文件之间的互转，克服了格式兼容性的挑战。

请参阅图9，本申请实施例提供的一种流程图处理装置400，所述装置400包括：

初始处理单元410，用于基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标；

信息更新单元420，用于基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对；

目标识别单元430，用于基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息；

图文识别单元440，用于基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容；

结构化数据生成单元450，用于基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

作为一种方式，结构化数据生成单元450，具体用于基于匈牙利算法对流程图中的节点以及第二坐标对中的坐标进行配对，以得到配对结果，其中，若第二坐标对中的坐标位于节点的边框位置内，则确定该坐标与该节点成功配对，若存在待处理坐标点，则基于所述待处理坐标点周围的节点的边框位置以及边框类别，确定所述待处理坐标点所配对的节点；基于所述配对结果以及所述文本内容，生成所述待处理流程图的结构化数据。

作为一种方式，初始处理单元410，具体用于基于目标网络模型的编码器获取待处理流程图对应的多尺寸特征；基于所述多尺寸特征，得到多个第一输出特征向量以及多个第一坐标对。

可选的，初始处理单元410，具体用于对所述多尺寸特征中的第一尺寸的特征进行注意力计算，以得到全局特征；将所述全局特征与所述第二尺寸的特征进行融合，以根据融合后的特征得到所述编码器所输出的多个初始特征向量，其中，所述第二尺寸的特征为所述多尺寸特征中，除所述第一尺寸的特征以外的特征；基于所述多个初始输出特征向量，得到多个第一坐标对以及每个第一坐标对对应的置信度；基于所述置信度从所述多个初始输出特征向量中确定多个第一输出特征向量。

作为一种方式，信息更新单元420，具体用于基于所述目标网络模型的第一解码器所包括的多个解码器层，以及所述多个第一输出特征向量进行多次注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。

可选的，信息更新单元420，具体用于基于当前解码器层以及当前解码器层对应的参考特征向量，进行注意力计算，以得到多个第二输出特征向量，所述当前解码器层为所述多个解码器层中的一个，其中，第一层解码器层的对应的参考特征向量为所述编码器输出的多个第一输出特征向量，第一层解码器层之后的解码器层对应的参考特征向量为相邻在前一层解码器层通过注意力计算所输出的多个第二输出特征向量；通过所述多个第二输出特征向量，对当前解码器层对应的多个待更新坐标对进行更新，其中，当前解码器层对应的多个待更新坐标对为经过相邻在前一层解码器层所更新得到的多个坐标对，第一层解码器层对应的多个待更新坐标对为所述多个第一坐标对；将最后一层解码器层所更新得到的坐标对作为多个第二坐标对。

可选的，信息更新单元420，具体用于基于当前解码器层以及当前解码器层对应的参考特征向量，进行自注意力计算，以得到自注意力计算结果；基于所述自注意力计算结果进行可变形注意力计算，以得到多个第二输出特征向量。

作为一种方式，初始处理单元410，还用于获取第一格式的流程图文件中的文件内容，以得到待处理流程图。在这种方式中，装置400还包括文件生成单元460，用于基于所述结构化数据，生成第二格式的流程图文件。

下面将结合图10对本申请提供的一种电子设备进行说明。

请参阅图10，基于上述的流程图处理方法、装置，本申请实施例还提供的一种可以执行前述的流程图处理方法的电子设备1000。电子设备1000包括相互耦合的一个或多个(图中仅示出一个)处理器105、存储器104、音频播放模块106以及音频采集装置108。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器105可以执行该存储器104中存储的程序。

其中，处理器105可以包括一个或者多个处理核。处理器105利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器105可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器105可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器105中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。

再者，电子设备1000除了前述所示的器件外，还可以包括网络模块110以及传感器模块112。

所述网络模块110用于实现电子设备1000与其他设备之间的信息交互，例如，可以与其他的音频播放设备或者其他的电子设备建立连接，并基于所建立的连接进行信息交互。作为一种方式，电子设备1000的网络模块110为射频模块，该射频模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。所述射频模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。例如，该射频模块可以通过发送或者接收的电磁波与外部设备进行交互。

传感器模块112可以包括至少一种传感器。具体地，传感器模块112可包括但并不限于：压力传感器、运动传感器、加速度传感器以及其他传感器。

其中，压力传感器可以检测由按压在电子设备1000产生的压力的传感器。即，压力传感器检测由用户和电子设备1000之间的接触或按压产生的压力，例如由用户的耳朵与电子设备1000之间的接触或按压产生的压力。因此，压力传感器可以用来确定在用户与电子设备1000之间是否发生了接触或者按压，以及压力的大小。

其中，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备1000姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。另外，电子设备1000还可配置陀螺仪、气压计、湿度计、温度计等其他传感器，在此不再赘述。

音频采集装置108，用于进行音频信号采集。可选的，音频采集装置108包括有多个音频采集器件，该音频采集器件可以为麦克风。

请参考图11，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

其中，通过本申请实施例提供的方法所得到的验证结果如下：

指标	结果
		单图耗时	0.0548s
节点关系预测准确率	94.325％
		节点关系召回率	93.173％
节点检测AP@[IoU＝0.50:0.95]	0.893
		节点检测AP50@[IoU＝0.50]	0.944

综上所述，本申请提出了一种流程图处理方法、装置以及电子设备，在基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量，以及多个第一坐标对后，可以基于第一解码器以及多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。并且，可以基于待处理流程图中各个节点对应的边框信息对待处理流程图进行图文识别，以获取每个节点对应的文本内容，进而基于待处理流程图中各个节点对应的边框信息、文本内容以及多个第二坐标对，生成待处理流程图的结构化数据。从而通过上述方式使得在对待处理流程图的处理过程中，可以先基于编码器对待处理流程图进行处理以得到多个第一坐标对，然后可以再基于第一解码器来对该多个第一坐标对进行优化，以得到最终的多个第二坐标对，从而使得多个第二坐标对具有更高的准确性，进而使得后续基于第二坐标对所生成的结构化数据具有更高的准确性，从而使得实现了更加准确的对待处理流程图进行识别。

并且，本申请实施例中的目标网络模型使用Deformable Transformer进行建模较为巧妙，并且，目标网络模型高度并行，效率极高。另外，目标网络模型具备了很强的准确性和鲁棒性,能够兼容各种各样的图片，例如不同软件制作的风格各异的图片，不同角度不同光照下进行拍摄的图片，亦或是手写的图片，都能进行兼容，并且具备在一个模型中进行预测的能力。该目标网络模型是创新性的深度学习端到端方案，该方案有效克服了传统方法中存在的稳定性不足、准确性较低、处理速度慢及维护困难等问题。使用该目标网络模型能够快速稳定地生成准确的流程图解析结构化数据。在本方案所设计模型的帮助下，流程图解析任务，从只能解析节点数量少，关系简单的图片，发展到可以解析包含大量节点，和复杂节点间关系的图片。并且该目标网络模型可以方便的迁移到任何带有关系结构信息的图文解析任务上，是在此类办公图文解析任务中从0到1的突破。除此之外该目标网络模型是实时模型，具备极佳的运行速度。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种流程图处理方法，其特征在于，所述方法包括：

基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标；

基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对；

基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息；

基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容；

基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

2.根据权利要求1所述的方法，其特征在于，所述基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，包括：

基于目标网络模型的编码器获取待处理流程图对应的多尺寸特征；

基于所述多尺寸特征，得到多个第一输出特征向量以及多个第一坐标对。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多尺寸特征，得到多个第一输出特征向量以及多个第一坐标对，包括：

对所述多尺寸特征中的第一尺寸的特征进行注意力计算，以得到全局特征；

将所述全局特征与所述第二尺寸的特征进行融合，以根据融合后的特征得到所述编码器所输出的多个初始特征向量，其中，所述第二尺寸的特征为所述多尺寸特征中，除所述第一尺寸的特征以外的特征；

基于所述多个初始输出特征向量，得到多个第一坐标对以及每个第一坐标对对应的置信度；

基于所述置信度从所述多个初始输出特征向量中确定多个第一输出特征向量。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对，包括：

基于所述目标网络模型的第一解码器所包括的多个解码器层，以及所述多个第一输出特征向量进行多次注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标网络模型的第一解码器所包括的多个解码器层，以及所述多个第一输出特征向量进行多次注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对，包括：

基于当前解码器层以及当前解码器层对应的参考特征向量，进行注意力计算，以得到多个第二输出特征向量，所述当前解码器层为所述多个解码器层中的一个，其中，第一层解码器层的对应的参考特征向量为所述编码器输出的多个第一输出特征向量，第一层解码器层之后的解码器层对应的参考特征向量为相邻在前一层解码器层通过注意力计算所输出的多个第二输出特征向量；

通过所述多个第二输出特征向量，对当前解码器层对应的多个待更新坐标对进行更新，其中，当前解码器层对应的多个待更新坐标对为经过相邻在前一层解码器层所更新得到的多个坐标对，第一层解码器层对应的多个待更新坐标对为所述多个第一坐标对；

将最后一层解码器层所更新得到的坐标对作为多个第二坐标对。

6.根据权利要求5所述的方法，其特征在于，所述基于当前解码器层以及当前解码器层对应的参考特征向量，进行注意力计算，以得到多个第二输出特征向量，包括：

基于当前解码器层以及当前解码器层对应的参考特征向量，进行自注意力计算，以得到自注意力计算结果；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一格式的流程图文件中的文件内容，以得到待处理流程图；

所述生成所述待处理流程图的结构化数据之后还包括：

基于所述结构化数据，生成第二格式的流程图文件。

8.根据权利要求1所述的方法，其特征在于，所述边框信息包括边框位置以及边框类别，所述基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据包括：

基于匈牙利算法对流程图中的节点以及第二坐标对中的坐标进行配对，以得到配对结果，其中，若第二坐标对中的坐标位于节点的边框位置内，则确定该坐标与该节点成功配对，若存在待处理坐标点，则基于所述待处理坐标点周围的节点的边框位置以及边框类别，确定所述待处理坐标点所配对的节点，其中，待处理坐标点为第二坐标对中没有位于节点的边框位置内的坐标；

9.一种流程图处理装置，其特征在于，所述装置包括：

初始处理单元，用于基于目标网络模型的编码器对待处理流程图进行处理，以得到多个第一输出特征向量以及多个第一坐标对，其中，第一坐标对表征所述待处理流程图中具有连接关系的节点的坐标；

信息更新单元，用于基于所述目标网络模型的第一解码器，以及所述多个第一输出特征向量进行注意力计算，以根据所述注意力计算的结果对所述多个第一坐标对进行更新，以得到多个第二坐标对；

目标识别单元，用于基于所述目标网络模型的第二解码器以及所述多个第一输出特征向量，得到所述待处理流程图中各个节点对应的边框信息；

图文识别单元，用于基于所述待处理流程图中各个节点对应的边框信息对所述待处理流程图进行图文识别，以获取每个节点对应的文本内容；

结构化数据生成单元，用于基于所述待处理流程图中各个节点对应的边框信息、所述文本内容以及多个第二坐标对，生成所述待处理流程图的结构化数据。

10.一种电子设备，其特征在于，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-8任一所述的方法。