CN109344280A

CN109344280A - 一种基于图模型的流程图检索方法及系统

Info

Publication number: CN109344280A
Application number: CN201811192651.XA
Authority: CN
Inventors: 袁河; 王若梅; 周凡
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-10-13
Filing date: 2018-10-13
Publication date: 2019-02-15
Anticipated expiration: 2038-10-13
Also published as: CN109344280B

Abstract

本发明实施例公开了一种基于图模型的流程图检索方法及系统，其中，该方法包括：建立流程图存储数据库，对其流程图进行检测，获得对应的图形化元素及文本信息，进行计算，获得带权无向图的图模型；根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图进行检测，获取对应的图形化元素及文本信息进行转换处理，获得所述用户输入的流程图的带权无向图作为图模型；结合数据库中的图模型进行计算出最优匹配矩阵，获得两者之间的相似度；根据相似度的高低，将结果排序输出给用户。实施本发明实施例，能够提升和扩展了流程图本身的内部的语义内容及其关系，提高了流程图相似性度量方法的精度。当考虑图像所蕴含的上下文语境信息时，可以在信息检索领域，为流程图的检索提供有益的帮助，增强检索的准确度与效率。

Description

一种基于图模型的流程图检索方法及系统

技术领域

本发明涉及数字图像检索技术领域，尤其涉及一种基于图模型的流程图检索方法及系统。

背景技术

流程图是对流程、过程、算法的一种图形描述，在技术设计、交流、科学研究及商业简报等领域有广泛的应用，尤其在科学研究中，流程图作为在研究结论的做出和结论的描述方面的最流行的定性分析工具之一，具有较强的直观性和对科研成果的高概括性，已经成为科研工作者高效地检索、认识及描述研究成果过程的主要手段。面对海量的流程图数据，如何快速地、有效地从海量流程图数据中检索出所感兴趣的流程图及相关信息已经人工智能和模式识别中的研究热点。

流程图检索的基本原理是依据用户所提供的待检索的流程图，搜索与之最相似的

流程图并把检索结果反馈给该用户，因此，流程图检索的核心是流程图的相似性度量技术，并且许多学者相继展开了对流程图相似度的研究工作。

在已有的研究中，流程图的相似性问题或通过流程图元素结构的相似,或通过流程图提取的文本信息的编辑距离来度量,这些方法都只考虑了流程图的部分因素，如流程图本身元素的结构关系或者主题的文本信息等，却忽视了流程图的高层语义信息—上下文信息。

目前图编辑距离方法广泛应用于流程图相似性度量并取得良好的效果，图编辑距离方法主要考虑流程图本身的元素结构关系，用元素之间的结构关系的相似性来计算流程图的相似性，该方法的图编辑距离指两个图相互转变的所需要的最小变形操作次数，其中这些变形是由节点替换、边或者节点的删除和增加等操作完成。

图编辑距离方法只考虑了流程图的部分特征，即流程图本身元素的结构信息，却忽视了流程图的高层语义特征—上下文信息。一般而言，流程图常常与其所在的文献一起存储于数据库中，拥有丰富的上下文信息。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于图模型的流程图检索方法及系统，通过考虑了流程图所在文档的语义上下文(Semantic Context)信息，将其与流程图的结构信息相结合，提供了更丰富和详尽的流程图的高层语义描述，其应用于流程图的图像检索中可以提高检索的效率和准确度。

为了解决上述问题，本发明提出了一种基于图模型的流程图检索方法，所述方法包括：

建立流程图存储数据库，对数据库中的流程图进行检测处理，获得对应的图形化元素及文本信息，存储到数据库中；

根据所述图形化元素及文本信息进行计算处理，获得带权无向图的图模型，存储到数据库中；

根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图，进行检测处理，获取所述用户输入的流程图的图形化元素及文本信息进行转换处理，获得所述用户输入的流程图的带权无向图作为图模型；

将数据库中的图模型和所属用户输入的流程图图模型利用邻接矩阵表示，进行计算两者之间的最优匹配矩阵，获得两者之间的相似性；

根据相似度的高低，将结果排序输出给用户。

优选地，所述进行检测处理的具体步骤包括：

对于所述用户输入的流程图进行检测处理，识别出所述用户输入的流程图中的每个图形元素；

获取所述每个图形元素，利用文档图像包进行识别嵌入在元素区域中的文本信息；

对所述文本信息中每个被识别到的单词进行检索对应的文档，若该单词在文档中处理，则保留单词；反之丢弃；

对所述用户输入的流程图检测其连接线，根据所述连接线的物理位置进行匹配所述对应的图形元素的物理位置，确定对应的图形元素，集成一个边集合；

根据所述图形元素内部的文本信息，进行识别其在源文档中与此节点有关的文本片段，计算全文中每一个句子与某一个节点所含文本的相似性；当相似性超过阈值，则视作其与所述某一个节点存在某种程度的语义关联，将句子加入集合，按此流程，遍历全文，则可得到每一个节点与之相关的句子集合。

优选地，所述获得带权无向图的图模型的步骤包括：

根据所述图形化元素及文本信息进行计算处理，获得带权无向图的权重；

利用带权无向图的权重进行计算处理，获得带权无向图的邻接矩阵。

优选地，所述方法还包括：当用户只输入流程图作为查询条件，而并没有同时输入流程图所在的文档时，在图模型的构建过程中，对于节点N_i文本语义关联的句子集合S_i，我们对节点内部的文本以句号作为分隔符进行分割，将得到的句子加入S_i，其它的图模型构建过程没有变化。

优选地，所述获得两者之间的相似性的步骤包括：

获取数据库中的图模型和所属用户输入的流程图图模型，根据两者的邻接矩阵及语义上下文信息，进行计算获得两个流程图的最优匹配矩阵；

根据所述最优匹配矩阵，进行计算处理，获得两者之间的相似性程度。其表达公式为：

其中，σ_i,j为|N(G₁)|×|N(G₂)|维的矩阵；M为匹配矩阵，有如下约束：第i行和第j列，和

相应地，本发明实施例还提供一种基于图模型的流程图检索系统，该系统包括：

流程图输入模块，用于根据用户自身需求输入流程图或手绘流程图作为查询条件；

图模型构建模块，用于提取现有数据库与当前用户输入的流程图的结构信息、文本信息与所在文档的寓意上下文信息，构建出对应的图模型；

存储模块，用于将所述对应的图模型及对应的相关语义上下文信息合理的信息进行存储处理；

检索模块，用于检索现有数据库中的流程图与当前用户输入的流程图相似的流程图；

相似性计算模块，用于计算当前用户输入的流程图与现有数据库中的流程图之间的相似性，并进行量化处理；

反馈模块，用于将检索结果按照相似程度从高到低排序，并通过信息中枢装置反馈给用户

进一步地，所述系统可通过信息中枢装置如平板电脑、手机等移动终端进行输入用户需求信息，利用无线装置传输至流程图输入模块及将最终检索结果反馈给当前用户。

实施本发明实施例，能够提升和扩展了流程图本身的内部的语义内容及其关系，提高了流程图相似性度量方法的精度。当考虑图像所蕴含的上下文语境信息时，可以在信息检索领域，为流程图的检索提供有益的帮助，增强检索的准确度与效率，可以增强用户在搜索流程图时的体验感受。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的一种基于图模型的流程图检索方法的流程示意图；

图2是本发明实施例中一种基于图模型的流程图检索系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于图模型的流程图检索方法的流程示意图，如图1所示，该方法包括：

S1，建立流程图存储数据库，对数据库中的流程图进行检测处理，获得对应的图形化元素及文本信息，存储到数据库中；

S2，根据所述图形化元素及文本信息进行计算处理，获得带权无向图的图模型，存储到数据库中；

S3，根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图，进行检测处理，获取所述用户输入的流程图的图形化元素及文本信息进行转换处理，获得所述用户输入的流程图的带权无向图作为图模型；

S4，将数据库中的图模型和所属用户输入的流程图图模型利用邻接矩阵表示，进行计算两者之间的最优匹配矩阵，获得两者之间的相似性；

S5，根据相似度的高低，将结果排序输出给用户。

对S1作进一步的说明：

所述进行检测处理的具体步骤包括：

S11，对于所述用户输入的流程图进行检测处理，识别出所述用户输入的流程图中的每个图形元素；

S12，获取所述每个图形元素，利用文档图像包进行识别嵌入在元素区域中的文本信息；

S13，对所述文本信息中每个被识别到的单词进行检索对应的文档，若该单词在文档中处理，则保留单词；反之丢弃；

S14，对所述用户输入的流程图检测其连接线，根据所述连接线的物理位置进行匹配所述对应的图形元素的物理位置，确定对应的图形元素，集成一个边集合；

S15，根据所述图形元素内部的文本信息，进行识别其在源文档中与此节点有关的文本片段，利用Gensim工具包进行计算全文中每一个句子与某一个节点所含文本的相似性；当相似性超过阈值，则视作其与所述某一个节点存在某种程度的语义关联，将句子加入集合，按此流程，遍历全文，则可得到每一个节点与之相关的句子集合。

对S2作进一步的说明：

定义E(i,j)表示流程图中两个节点N_i和N_j有连接关系，且N_i和N_j对应的文本信息集合分别是S_i和S_j。为求得E(i,j)对应的权值w_i,j，首先对S_i和S_j，两个集合中的每一个句子做配对处理，产生|S_i|×|S_j|组句对。

接下来，对于分别属于两个节点的每一组句对s_i,u∈S_i和s_j,v∈S_j，计算句对的语义相关性p_i,up_j,vθ(s_i,u,s_j,v)和相关程度τ(s_i,u,s_j,v,t_i,j)。

其中，p_i,u和p_j,v分别表示句子s_i,u和s_j,v与节点N_i和N_j的相似性程度，其值在构建S_i和S_j时已经求得。θ(s_i,u,s_j,v)表示两个句子s_i,u和s_j,v的关联紧密程度，若两个句子的关联紧密程度越松散，其值越小，计算公式为：其中，dis(s_i,u,s_j,v)表示两个句子的非停用词的数量之和，ave_dis(D)表示一个文档D中，所有句子的非停用词数量的平均值。

s_i,u和s_j,v的相关程度τ(s_i,u,s_j,v,t_i,j)，其值越大，表示两个句子越相关，t_i,j表示流程图的边E(i,j)上的文本标注信息。函数τ(s_i,u,s_j,v,t_i,j)∈[0,1]的定义如下：

τ(s_i,u,s_j,v,t_i,j)＝max{ζ(w_a|w_a∈t_i,j,w_b|w_b∈(s_i,u∪s_j,v))}。

ζ(w_a,w_b)∈[0,1]是根据WordNet::Similarity计算得出的两个单词w_a和w_b的语义相关性。当E(i,j)边上没有任何标注信息时，取τ(s_i,u,s_j,v,t_i,j)＝1。

基于前面所述，便可以得出流程图中边E(i,j)的带权属性，计算公式如下：

其中z是归一化因子，以使带权属性值小于1。经过以上步骤，可以构造一个带权的邻接矩阵W(G)，用以表示流程图中两个节点是否有边的连接，如果有，则联系有多紧密。定义矩阵W(G)如下：W_i,j(G)＝w_i,j，如E_i,j∈E(G)，否则为0。

对S3作进一步的说明：

当用户只输入流程图作为查询条件，而并没有同时输入流程图所在的文档时，在图模型的构建过程中，对于节点N_i文本语义关联的句子集合S_i，我们对节点内部的文本以句号作为分隔符进行分割，将得到的句子加入S_i，其它的图模型构建过程没有变化。

对S4作进一步的说明：

所述获得两者之间的相似性的步骤包括：

S41，获取数据库中的图模型和所属用户输入的流程图图模型，根据两者的邻接矩阵及语义上下文信息，进行计算获得两个流程图的最优匹配矩阵；

S42，根据所述最优匹配矩阵，进行计算处理，获得两者之间的相似性程度。其表达公式为：

相应地，本发明实施例还提供一种基于图模型的流程图检索系统，如图2所示，该系统包括：

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于图模型的流程图检索方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图模型的流程图检索方法，其特征在于，所述方法包括：

根据相似度的高低，将结果排序输出给用户。

2.根据权利要求1所述的一种基于图模型的流程图检索方法，其特征在于，所述进行检测处理的具体步骤包括：

3.根据权利要求1所述的一种基于图模型的流程图检索方法，其特征在于，所述获得带权无向图的图模型的步骤包括：

4.根据权利要求1所述的一种基于图模型的流程图检索方法，其特征在于，所述方法还包括：当用户只输入流程图作为查询条件，而并没有同时输入流程图所在的文档时，在图模型的构建过程中，对于节点N_i文本语义关联的句子集合S_i，我们对节点内部的文本以句号作为分隔符进行分割，将得到的句子加入S_i，其它的图模型构建过程没有变化。

5.根据权利要求1所述的一种基于图模型的流程图检索方法，其特征在于，所述获得两者之间的相似性的步骤包括：

6.一种基于图模型的流程图检索系统，其特征在于，该系统包括：

反馈模块，用于将检索结果按照相似程度从高到低排序，并通过信息中枢装置反馈给用户。

7.根据权利要求6所述的一种基于图模型的流程图检索系统，其特征在于，所述系统可通过信息中枢装置如平板电脑、手机等移动终端进行输入用户需求信息，利用无线装置传输至流程图输入模块及将最终检索结果反馈给当前用户。