CN109344280A - 一种基于图模型的流程图检索方法及系统 - Google Patents
一种基于图模型的流程图检索方法及系统 Download PDFInfo
- Publication number
- CN109344280A CN109344280A CN201811192651.XA CN201811192651A CN109344280A CN 109344280 A CN109344280 A CN 109344280A CN 201811192651 A CN201811192651 A CN 201811192651A CN 109344280 A CN109344280 A CN 109344280A
- Authority
- CN
- China
- Prior art keywords
- flow chart
- graph model
- graph
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明实施例公开了一种基于图模型的流程图检索方法及系统,其中,该方法包括:建立流程图存储数据库,对其流程图进行检测,获得对应的图形化元素及文本信息,进行计算,获得带权无向图的图模型;根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图进行检测,获取对应的图形化元素及文本信息进行转换处理,获得所述用户输入的流程图的带权无向图作为图模型;结合数据库中的图模型进行计算出最优匹配矩阵,获得两者之间的相似度;根据相似度的高低,将结果排序输出给用户。实施本发明实施例,能够提升和扩展了流程图本身的内部的语义内容及其关系,提高了流程图相似性度量方法的精度。当考虑图像所蕴含的上下文语境信息时,可以在信息检索领域,为流程图的检索提供有益的帮助,增强检索的准确度与效率。
Description
技术领域
本发明涉及数字图像检索技术领域,尤其涉及一种基于图模型的流程图检索方法及系统。
背景技术
流程图是对流程、过程、算法的一种图形描述,在技术设计、交流、科学研究及商业简报等领域有广泛的应用,尤其在科学研究中,流程图作为在研究结论的做出和结论的描述方面的最流行的定性分析工具之一,具有较强的直观性和对科研成果的高概括性,已经成为科研工作者高效地检索、认识及描述研究成果过程的主要手段。面对海量的流程图数据,如何快速地、有效地从海量流程图数据中检索出所感兴趣的流程图及相关信息已经人工智能和模式识别中的研究热点。
流程图检索的基本原理是依据用户所提供的待检索的流程图,搜索与之最相似的
流程图并把检索结果反馈给该用户,因此,流程图检索的核心是流程图的相似性度量技术,并且许多学者相继展开了对流程图相似度的研究工作。
在已有的研究中,流程图的相似性问题或通过流程图元素结构的相似,或通过流程图提取的文本信息的编辑距离来度量,这些方法都只考虑了流程图的部分因素,如流程图本身元素的结构关系或者主题的文本信息等,却忽视了流程图的高层语义信息—上下文信息。
目前图编辑距离方法广泛应用于流程图相似性度量并取得良好的效果,图编辑距离方法主要考虑流程图本身的元素结构关系,用元素之间的结构关系的相似性来计算流程图的相似性,该方法的图编辑距离指两个图相互转变的所需要的最小变形操作次数,其中这些变形是由节点替换、边或者节点的删除和增加等操作完成。
图编辑距离方法只考虑了流程图的部分特征,即流程图本身元素的结构信息,却忽视了流程图的高层语义特征—上下文信息。一般而言,流程图常常与其所在的文献一起存储于数据库中,拥有丰富的上下文信息。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于图模型的流程图检索方法及系统,通过考虑了流程图所在文档的语义上下文(Semantic Context)信息,将其与流程图的结构信息相结合,提供了更丰富和详尽的流程图的高层语义描述,其应用于流程图的图像检索中可以提高检索的效率和准确度。
为了解决上述问题,本发明提出了一种基于图模型的流程图检索方法,所述方法包括:
建立流程图存储数据库,对数据库中的流程图进行检测处理,获得对应的图形化元素及文本信息,存储到数据库中;
根据所述图形化元素及文本信息进行计算处理,获得带权无向图的图模型,存储到数据库中;
根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图,进行检测处理,获取所述用户输入的流程图的图形化元素及文本信息进行转换处理,获得所述用户输入的流程图的带权无向图作为图模型;
将数据库中的图模型和所属用户输入的流程图图模型利用邻接矩阵表示,进行计算两者之间的最优匹配矩阵,获得两者之间的相似性;
根据相似度的高低,将结果排序输出给用户。
优选地,所述进行检测处理的具体步骤包括:
对于所述用户输入的流程图进行检测处理,识别出所述用户输入的流程图中的每个图形元素;
获取所述每个图形元素,利用文档图像包进行识别嵌入在元素区域中的文本信息;
对所述文本信息中每个被识别到的单词进行检索对应的文档,若该单词在文档中处理,则保留单词;反之丢弃;
对所述用户输入的流程图检测其连接线,根据所述连接线的物理位置进行匹配所述对应的图形元素的物理位置,确定对应的图形元素,集成一个边集合;
根据所述图形元素内部的文本信息,进行识别其在源文档中与此节点有关的文本片段,计算全文中每一个句子与某一个节点所含文本的相似性;当相似性超过阈值,则视作其与所述某一个节点存在某种程度的语义关联,将句子加入集合,按此流程,遍历全文,则可得到每一个节点与之相关的句子集合。
优选地,所述获得带权无向图的图模型的步骤包括:
根据所述图形化元素及文本信息进行计算处理,获得带权无向图的权重;
利用带权无向图的权重进行计算处理,获得带权无向图的邻接矩阵。
优选地,所述方法还包括:当用户只输入流程图作为查询条件,而并没有同时输入流程图所在的文档时,在图模型的构建过程中,对于节点Ni文本语义关联的句子集合Si,我们对节点内部的文本以句号作为分隔符进行分割,将得到的句子加入Si,其它的图模型构建过程没有变化。
优选地,所述获得两者之间的相似性的步骤包括:
获取数据库中的图模型和所属用户输入的流程图图模型,根据两者的邻接矩阵及语义上下文信息,进行计算获得两个流程图的最优匹配矩阵;
根据所述最优匹配矩阵,进行计算处理,获得两者之间的相似性程度。其表达公式为:
其中,σi,j为|N(G1)|×|N(G2)|维的矩阵;M为匹配矩阵,有如下约束:第i行和第j列,和
相应地,本发明实施例还提供一种基于图模型的流程图检索系统,该系统包括:
流程图输入模块,用于根据用户自身需求输入流程图或手绘流程图作为查询条件;
图模型构建模块,用于提取现有数据库与当前用户输入的流程图的结构信息、文本信息与所在文档的寓意上下文信息,构建出对应的图模型;
存储模块,用于将所述对应的图模型及对应的相关语义上下文信息合理的信息进行存储处理;
检索模块,用于检索现有数据库中的流程图与当前用户输入的流程图相似的流程图;
相似性计算模块,用于计算当前用户输入的流程图与现有数据库中的流程图之间的相似性,并进行量化处理;
反馈模块,用于将检索结果按照相似程度从高到低排序,并通过信息中枢装置反馈给用户
进一步地,所述系统可通过信息中枢装置如平板电脑、手机等移动终端进行输入用户需求信息,利用无线装置传输至流程图输入模块及将最终检索结果反馈给当前用户。
实施本发明实施例,能够提升和扩展了流程图本身的内部的语义内容及其关系,提高了流程图相似性度量方法的精度。当考虑图像所蕴含的上下文语境信息时,可以在信息检索领域,为流程图的检索提供有益的帮助,增强检索的准确度与效率,可以增强用户在搜索流程图时的体验感受。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的一种基于图模型的流程图检索方法的流程示意图;
图2是本发明实施例中一种基于图模型的流程图检索系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种基于图模型的流程图检索方法的流程示意图,如图1所示,该方法包括:
S1,建立流程图存储数据库,对数据库中的流程图进行检测处理,获得对应的图形化元素及文本信息,存储到数据库中;
S2,根据所述图形化元素及文本信息进行计算处理,获得带权无向图的图模型,存储到数据库中;
S3,根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图,进行检测处理,获取所述用户输入的流程图的图形化元素及文本信息进行转换处理,获得所述用户输入的流程图的带权无向图作为图模型;
S4,将数据库中的图模型和所属用户输入的流程图图模型利用邻接矩阵表示,进行计算两者之间的最优匹配矩阵,获得两者之间的相似性;
S5,根据相似度的高低,将结果排序输出给用户。
对S1作进一步的说明:
所述进行检测处理的具体步骤包括:
S11,对于所述用户输入的流程图进行检测处理,识别出所述用户输入的流程图中的每个图形元素;
S12,获取所述每个图形元素,利用文档图像包进行识别嵌入在元素区域中的文本信息;
S13,对所述文本信息中每个被识别到的单词进行检索对应的文档,若该单词在文档中处理,则保留单词;反之丢弃;
S14,对所述用户输入的流程图检测其连接线,根据所述连接线的物理位置进行匹配所述对应的图形元素的物理位置,确定对应的图形元素,集成一个边集合;
S15,根据所述图形元素内部的文本信息,进行识别其在源文档中与此节点有关的文本片段,利用Gensim工具包进行计算全文中每一个句子与某一个节点所含文本的相似性;当相似性超过阈值,则视作其与所述某一个节点存在某种程度的语义关联,将句子加入集合,按此流程,遍历全文,则可得到每一个节点与之相关的句子集合。
对S2作进一步的说明:
定义E(i,j)表示流程图中两个节点Ni和Nj有连接关系,且Ni和Nj对应的文本信息集合分别是Si和Sj。为求得E(i,j)对应的权值wi,j,首先对Si和Sj,两个集合中的每一个句子做配对处理,产生|Si|×|Sj|组句对。
接下来,对于分别属于两个节点的每一组句对si,u∈Si和sj,v∈Sj,计算句对的语义相关性pi,upj,vθ(si,u,sj,v)和相关程度τ(si,u,sj,v,ti,j)。
其中,pi,u和pj,v分别表示句子si,u和sj,v与节点Ni和Nj的相似性程度,其值在构建Si和Sj时已经求得。θ(si,u,sj,v)表示两个句子si,u和sj,v的关联紧密程度,若两个句子的关联紧密程度越松散,其值越小,计算公式为:其中,dis(si,u,sj,v)表示两个句子的非停用词的数量之和,ave_dis(D)表示一个文档D中,所有句子的非停用词数量的平均值。
si,u和sj,v的相关程度τ(si,u,sj,v,ti,j),其值越大,表示两个句子越相关,ti,j表示流程图的边E(i,j)上的文本标注信息。函数τ(si,u,sj,v,ti,j)∈[0,1]的定义如下:
τ(si,u,sj,v,ti,j)=max{ζ(wa|wa∈ti,j,wb|wb∈(si,u∪sj,v))}。
ζ(wa,wb)∈[0,1]是根据WordNet::Similarity计算得出的两个单词wa和wb的语义相关性。当E(i,j)边上没有任何标注信息时,取τ(si,u,sj,v,ti,j)=1。
基于前面所述,便可以得出流程图中边E(i,j)的带权属性,计算公式如下:
其中z是归一化因子,以使带权属性值小于1。经过以上步骤,可以构造一个带权的邻接矩阵W(G),用以表示流程图中两个节点是否有边的连接,如果有,则联系有多紧密。定义矩阵W(G)如下:Wi,j(G)=wi,j,如Ei,j∈E(G),否则为0。
对S3作进一步的说明:
当用户只输入流程图作为查询条件,而并没有同时输入流程图所在的文档时,在图模型的构建过程中,对于节点Ni文本语义关联的句子集合Si,我们对节点内部的文本以句号作为分隔符进行分割,将得到的句子加入Si,其它的图模型构建过程没有变化。
对S4作进一步的说明:
所述获得两者之间的相似性的步骤包括:
S41,获取数据库中的图模型和所属用户输入的流程图图模型,根据两者的邻接矩阵及语义上下文信息,进行计算获得两个流程图的最优匹配矩阵;
S42,根据所述最优匹配矩阵,进行计算处理,获得两者之间的相似性程度。其表达公式为:
其中,σi,j为|N(G1)|×|N(G2)|维的矩阵;M为匹配矩阵,有如下约束:第i行和第j列,和
相应地,本发明实施例还提供一种基于图模型的流程图检索系统,如图2所示,该系统包括:
流程图输入模块,用于根据用户自身需求输入流程图或手绘流程图作为查询条件;
图模型构建模块,用于提取现有数据库与当前用户输入的流程图的结构信息、文本信息与所在文档的寓意上下文信息,构建出对应的图模型;
存储模块,用于将所述对应的图模型及对应的相关语义上下文信息合理的信息进行存储处理;
检索模块,用于检索现有数据库中的流程图与当前用户输入的流程图相似的流程图;
相似性计算模块,用于计算当前用户输入的流程图与现有数据库中的流程图之间的相似性,并进行量化处理;
反馈模块,用于将检索结果按照相似程度从高到低排序,并通过信息中枢装置反馈给用户
进一步地,所述系统可通过信息中枢装置如平板电脑、手机等移动终端进行输入用户需求信息,利用无线装置传输至流程图输入模块及将最终检索结果反馈给当前用户。
实施本发明实施例,能够提升和扩展了流程图本身的内部的语义内容及其关系,提高了流程图相似性度量方法的精度。当考虑图像所蕴含的上下文语境信息时,可以在信息检索领域,为流程图的检索提供有益的帮助,增强检索的准确度与效率,可以增强用户在搜索流程图时的体验感受。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于图模型的流程图检索方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种基于图模型的流程图检索方法,其特征在于,所述方法包括:
建立流程图存储数据库,对数据库中的流程图进行检测处理,获得对应的图形化元素及文本信息,存储到数据库中;
根据所述图形化元素及文本信息进行计算处理,获得带权无向图的图模型,存储到数据库中;
根据当前用户输入的自身需求信息获取对应流程图或当前用户的手绘流程图,进行检测处理,获取所述用户输入的流程图的图形化元素及文本信息进行转换处理,获得所述用户输入的流程图的带权无向图作为图模型;
将数据库中的图模型和所属用户输入的流程图图模型利用邻接矩阵表示,进行计算两者之间的最优匹配矩阵,获得两者之间的相似性;
根据相似度的高低,将结果排序输出给用户。
2.根据权利要求1所述的一种基于图模型的流程图检索方法,其特征在于,所述进行检测处理的具体步骤包括:
对于所述用户输入的流程图进行检测处理,识别出所述用户输入的流程图中的每个图形元素;
获取所述每个图形元素,利用文档图像包进行识别嵌入在元素区域中的文本信息;
对所述文本信息中每个被识别到的单词进行检索对应的文档,若该单词在文档中处理,则保留单词;反之丢弃;
对所述用户输入的流程图检测其连接线,根据所述连接线的物理位置进行匹配所述对应的图形元素的物理位置,确定对应的图形元素,集成一个边集合;
根据所述图形元素内部的文本信息,进行识别其在源文档中与此节点有关的文本片段,计算全文中每一个句子与某一个节点所含文本的相似性;当相似性超过阈值,则视作其与所述某一个节点存在某种程度的语义关联,将句子加入集合,按此流程,遍历全文,则可得到每一个节点与之相关的句子集合。
3.根据权利要求1所述的一种基于图模型的流程图检索方法,其特征在于,所述获得带权无向图的图模型的步骤包括:
根据所述图形化元素及文本信息进行计算处理,获得带权无向图的权重;
利用带权无向图的权重进行计算处理,获得带权无向图的邻接矩阵。
4.根据权利要求1所述的一种基于图模型的流程图检索方法,其特征在于,所述方法还包括:当用户只输入流程图作为查询条件,而并没有同时输入流程图所在的文档时,在图模型的构建过程中,对于节点Ni文本语义关联的句子集合Si,我们对节点内部的文本以句号作为分隔符进行分割,将得到的句子加入Si,其它的图模型构建过程没有变化。
5.根据权利要求1所述的一种基于图模型的流程图检索方法,其特征在于,所述获得两者之间的相似性的步骤包括:
获取数据库中的图模型和所属用户输入的流程图图模型,根据两者的邻接矩阵及语义上下文信息,进行计算获得两个流程图的最优匹配矩阵;
根据所述最优匹配矩阵,进行计算处理,获得两者之间的相似性程度。其表达公式为:
其中,σi,j为|N(G1)|×|N(G2)|维的矩阵;M为匹配矩阵,有如下约束:第i行和第j列,和
6.一种基于图模型的流程图检索系统,其特征在于,该系统包括:
流程图输入模块,用于根据用户自身需求输入流程图或手绘流程图作为查询条件;
图模型构建模块,用于提取现有数据库与当前用户输入的流程图的结构信息、文本信息与所在文档的寓意上下文信息,构建出对应的图模型;
存储模块,用于将所述对应的图模型及对应的相关语义上下文信息合理的信息进行存储处理;
检索模块,用于检索现有数据库中的流程图与当前用户输入的流程图相似的流程图;
相似性计算模块,用于计算当前用户输入的流程图与现有数据库中的流程图之间的相似性,并进行量化处理;
反馈模块,用于将检索结果按照相似程度从高到低排序,并通过信息中枢装置反馈给用户。
7.根据权利要求6所述的一种基于图模型的流程图检索系统,其特征在于,所述系统可通过信息中枢装置如平板电脑、手机等移动终端进行输入用户需求信息,利用无线装置传输至流程图输入模块及将最终检索结果反馈给当前用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811192651.XA CN109344280B (zh) | 2018-10-13 | 2018-10-13 | 一种基于图模型的流程图检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811192651.XA CN109344280B (zh) | 2018-10-13 | 2018-10-13 | 一种基于图模型的流程图检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344280A true CN109344280A (zh) | 2019-02-15 |
CN109344280B CN109344280B (zh) | 2021-09-17 |
Family
ID=65309825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811192651.XA Active CN109344280B (zh) | 2018-10-13 | 2018-10-13 | 一种基于图模型的流程图检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344280B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662644A (zh) * | 2012-02-29 | 2012-09-12 | 浙江大学 | 一种使用流程图生成测试案例的方法 |
CN103714425A (zh) * | 2013-12-24 | 2014-04-09 | 南京师范大学 | 一种电力企业工作流程结构验证方法 |
CN104462414A (zh) * | 2014-12-12 | 2015-03-25 | 中山大学深圳研究院 | 一种基于拓扑结构的流程图相似性方法 |
CN105068862A (zh) * | 2015-09-12 | 2015-11-18 | 中国电子科技集团公司第十研究所 | 统一划分数据链信息处理流程的方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
-
2018
- 2018-10-13 CN CN201811192651.XA patent/CN109344280B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662644A (zh) * | 2012-02-29 | 2012-09-12 | 浙江大学 | 一种使用流程图生成测试案例的方法 |
CN103714425A (zh) * | 2013-12-24 | 2014-04-09 | 南京师范大学 | 一种电力企业工作流程结构验证方法 |
CN104462414A (zh) * | 2014-12-12 | 2015-03-25 | 中山大学深圳研究院 | 一种基于拓扑结构的流程图相似性方法 |
CN105068862A (zh) * | 2015-09-12 | 2015-11-18 | 中国电子科技集团公司第十研究所 | 统一划分数据链信息处理流程的方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
Non-Patent Citations (1)
Title |
---|
余兴华: "一种改进的流程图相似度检索算法及实现", 《计算机应用研究》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109344280B (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023093574A1 (zh) | 基于多级图文语义对齐模型的新闻事件搜索方法及系统 | |
CN102201001B (zh) | 基于倒排技术的快速检索方法 | |
Pivk et al. | Transforming arbitrary tables into logical form with TARTAR | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
CN111222049B (zh) | 语义增强的异构信息网络上Top-k相似度搜索方法 | |
Guo et al. | SOR: An optimized semantic ontology retrieval algorithm for heterogeneous multimedia big data | |
CN108427714A (zh) | 基于机器学习的房源重复记录识别方法及系统 | |
CN102043819A (zh) | Html表格语义脉络分析方法 | |
US9594755B2 (en) | Electronic document repository system | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN113268982A (zh) | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 | |
Wu et al. | Extracting knowledge from web tables based on DOM tree similarity | |
Protasiewicz | A support system for selection of reviewers | |
Vadrevu et al. | Information extraction from web pages using presentation regularities and domain knowledge | |
Xu et al. | Exploring the potential of BERT-BiLSTM-CRF and the attention mechanism in building a tourism knowledge graph | |
CN103377381B (zh) | 识别图像的内容属性的方法和装置 | |
Marcacini et al. | On the use of consensus clustering for incremental learning of topic hierarchies | |
CN109344280A (zh) | 一种基于图模型的流程图检索方法及系统 | |
CN107491524B (zh) | 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 | |
CN107423294A (zh) | 一种社群图像检索方法及系统 | |
Wang et al. | High-level semantic image annotation based on hot Internet topics | |
Simoff et al. | MDM/KDD2002: multimedia data mining between promises and problems | |
CN108573010A (zh) | 关联异构系统同义数据的方法、装置、电子设备及介质 | |
Ribeiro et al. | UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |