CN115376152A - 一种流程图的查重方法 - Google Patents

一种流程图的查重方法 Download PDF

Info

Publication number
CN115376152A
CN115376152A CN202210865838.1A CN202210865838A CN115376152A CN 115376152 A CN115376152 A CN 115376152A CN 202210865838 A CN202210865838 A CN 202210865838A CN 115376152 A CN115376152 A CN 115376152A
Authority
CN
China
Prior art keywords
flow chart
matrix
column
sentences
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210865838.1A
Other languages
English (en)
Inventor
马燕
杨雨雪
周鑫
杨培烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN202210865838.1A priority Critical patent/CN115376152A/zh
Publication of CN115376152A publication Critical patent/CN115376152A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V30/1902Shifting or otherwise transforming the patterns to accommodate for positional errors
    • G06V30/19067Matching configurations of points or features, e.g. constellation matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种流程图的查重方法,包括以下步骤:输入包含流程图的彩色图像文件,将彩色图像转换为二值图像;定义箭头模板;利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;计算待检测流程图与对比流程图之间的文本相似度和结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数。本发明的一种流程图的查重方法,通过分别计算待检测流程图和对比流程图之间的文本相似度和结构相似度,兼顾了文字和框架的查重,提高精度,优化查重效果,节省了大量的人力成本,为图文结合的相似度检测提供了更多的可能。

Description

一种流程图的查重方法
技术领域
本发明涉及图像处理领域,尤其涉及一种流程图的查重方法。
背景技术
一个优秀论文检测系统就需要满足两个条件:一是比对数据库得全面;二要计算相似率的算法合理,能找出论文中真正相似的内容。
传统的查重技术如PaperPass和知网主要针对段落中的文字内容与数据库进行比对,通过界定阈值从而达到查重效果。然而就目前而言,有关流程图的查重系统依旧不是很完善,使学术诚信的建立存在漏洞。
流程图中包含文字与流程框架两部分,在查重过程中不仅需要关注文字部分,还需要关注它的结构性质,这是传统查重方法所不具备的。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是现有的查重方法不适用于流程图的查重,流程图中的文字和结构的查重功能均无法实现。因此,本发明提供了一种流程图的查重方法,通过分别计算待检测流程图和对比流程图之间的文本相似度和结构相似度,兼顾了文字和框架的查重,提高精度,优化查重效果,节省了大量的人力成本,为图文结合的相似度检测提供了更多的可能。
为实现上述目的,本发明提供了一种流程图的查重方法,包括以下步骤:
步骤一、输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像;
步骤二、定义上、下、左、右四个方向的箭头模板;
步骤三、利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;
步骤四、搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;
步骤五、计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列;
步骤六、计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数。
进一步地,输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像,具体包括以下步骤:
(1)输入包含流程图的彩色图像文件,彩色图像文件中每个像素包含R,G和 B三种颜色值;
(2)调用百度AI接口,读取彩色图像文件,提取流程图中文本框内的句子,以及句子所在的区域的左上角和右下角坐标,并对每句句子按其提取顺序依次编号;
(3)用文本框内颜色填充句子所在区域;
(4)将图像中符合R,G和B三种颜色值都大于200的像素用0表示,其余的像素值用1表示,将彩色图像件转换为二值图像。
进一步地,定义上、下、左、右四个方向的箭头模板,具体包括以下步骤:
(1)定义7*7大小的矩阵,将矩阵中位于第1行第4列元素,第2行第3列开始向右3个元素,第3行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向上方向的箭头模板;
(2)定义7*7大小的矩阵,将矩阵中位于第7行第4列元素,第6行第3列开始向右3个元素,第5行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向下方向的箭头模板;
(3)定义7*7大小的矩阵,将矩阵中位于第4行第1列元素,第3行第2列开始向下3个元素,第2行第3列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向左方向的箭头模板;
(4)定义7*7大小的矩阵,将矩阵中位于第4行第7列元素,第3行第6列开始向下3个元素,第2行第5列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向右方向的箭头模板。
进一步地,利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点,具体包括以下步骤:
(1)将步骤一输入的包含流程图的彩色图像转换为灰度图像,利用Harris角点检测法确定灰度图像中的角点;
(2)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向上方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向上方向的汉明距离;
(3)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向下方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向下方向的汉明距离;
(4)以角点向下第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向左方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向左方向的汉明距离;
(5)以角点向下第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向右方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向右方向的汉明距离;
(6)在向上,向下,向左,向右四个方向的汉明距离中取最小的距离值,如果该距离值小于阈值T1,则该角点为位于箭头的角点,否则该角点不是位于箭头的角点。
进一步地,搜索与箭头相邻的文本框,建立文本框间的邻接矩阵,具体包括以下步骤:
(1)对于有n个文本框的流程图,定义n*n大小的零矩阵作为邻接矩阵;
(2)将步骤一得到的二值图像中,所有句子所在区域的像素值均修改为2,从步骤三中得到的位于箭头的角点出发,沿着箭头的连接线的两端搜索,一旦直到找到像素值为2的点,则记录该点所属文本框中包含句子的编号;
(3)对于同一个箭头所关联的两个文本框,按其包含句子的编号i和j,将邻接矩阵中第i行第j列的元素值定义为1,同时,将第j行第i列的元素值也定义为 1,建立文本框间的邻接矩阵。
进一步地,计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列,具体包括以下步骤:
(1)对于待检测流程图P1和对比流程图P2,分别按步骤一至步骤四建立文框间的邻接矩阵;
(2)计算P1和P2中两两句子之间的句子相似分数:
Figure BDA0003759035630000041
其中,Si与Sj为当前对比的两个句子,wk表示为句子中的词组,n、m分别表示句子Si和Sj中词组的数量;
(3)若P1的某个句子与P2的所有句子的句子相似分数中,句子相似分数大于阈值T2的句子数量小于等于1,则将P2中句子相似分数最高的句子编号记录在相似编号序列的最后;
(4)若P1的某个句子与P2的所有句子的句子相似分数中,句子相似分数大于阈值T2的句子数量大于1,则将P2中对应的句子的编号记录在相似编号序列的最后,并将这些句子依次连接为一个新的复合句子,删除复合句子中重复的词组,将P1的句子与该复合句子重新计算句子相似分数;
(5)计算P1所有句子的句子相似分数的平均值,该平均值作为待检测流程图与对比流程图之间的文本相似度。
进一步地,计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数,具体包括以下步骤:
(1)对于待检测流程图和对比流程图的相似编号序列,计算其最长递增子序列长度Ls,序列的总长度为L,将
Figure BDA0003759035630000042
作为待检测流程图和对比流程图的结构相似度;
(2)将结构相似度乘以步骤五得到的文本相似度,从而得到待检测流程图的重复分数。
进一步地,包含流程图的彩色图像文件包括待检测流程图和对比流程图。
技术效果
本发明提供的一种流程图的查重方法,分别计算待检测流程图与对比流程图之间的文本相似度与结构相似度,并通过两者的乘积得到待检测流程图的重复分数,这就同时兼顾了流程图中的文字与框架,进一步提高了重复度计算的准确性,优化了查重效果,并且查重结果简单明了,查重分数越大,说明待检测流图的重复度越高,反之,查重分数越小,说明待检测流图的重复度越低。本发明整个流程图查重过程简洁、准确、高效,不需要人工参与,节省了大量人力成本,丰富了有关查重领域的研究,为图文结合的相似度检测提供了更多的可能性。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的一种流程图的查重方法的操作流程示意图;
图2是本发明的一个较佳实施例的一种流程图的查重方法的待检测流程图的示意图;
图3是本发明的一个较佳实施例的一种流程图的查重方法的对比流程图的示意图;
图4是本发明的一个较佳实施例的一种流程图的查重方法的提取对比流程图中文字所在区域的示意图;
图5是本发明的一个较佳实施例的一种流程图的查重方法的待检测流程图的编号示意图;
图6是本发明的一个较佳实施例的一种流程图的查重方法的对比流程图的编号示意图;
图7是本发明的一个较佳实施例的一种流程图的查重方法的待检测流程图的文本框颜色填充文字区域的示意图;
图8是本发明的一个较佳实施例的一种流程图的查重方法的对比流程图的文本框颜色填充文字区域的示意图;
图9是本发明的一个较佳实施例的一种流程图的查重方法的定义的一个较佳的箭头匹配模板;
图10是本发明的一个较佳实施例的一种流程图的查重方法的利用Harris角点检测到的待检测流程图中的角点;
图11是本发明的一个较佳实施例的一种流程图的查重方法的利用Harris角点检测到的对比流程图中的角点。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下描述中,为了说明而不是为了限定,提出了诸如特定内部程序、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
如图1所示,本发明一较佳实施例提供了一种流程图的查重方法,包括如下步骤:
S1:输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像;其包括如下步骤:
为方便理解,下面只用图2和图3所示的两个流程图作例,输入流程图的彩色图像,其中,图2是待检测流程图,图3是对比流程图;对比流程图可以通过百度搜索并下载。调用百度AI接口提取流程图中文本框内的句子,以及句子所在区域的左上角和右下角坐标,百度AI接口提取的具体步骤如下:
百度AI表格文字识别接口提供了可供Python使用地sdk文件,可根据官网技术文档的说明,创建相应的账号,并在代码中以指定形式调用相应的接口,如表格文字识别需要使用tableRecognitionAsync模块。
百度AI表格文字识别接口支持识别图片/PDF格式文档中的表格内容,返回各表格的表头表尾内容、单元格文字内容及其行列位置信息。该接口可以精确识别流程图中句子与句子所在区域信息,只需在使用时提供jpg、png、bmp等常见图片格式的流程图图片,就可以获得相应的数据,具体如下:
Figure BDA0003759035630000061
Figure BDA0003759035630000071
当导入整个百度AI模块后,依据要求依次填写APPID,AK,SK三个必要的信息,就可以建立实例client以进行表格分析。get_file_img函数用来打开需要处理的图片,参数为图片路径,因此将图片实际的路径填入括号中,获得表示该图片的变量img。最后,需要使用client中的tableRecognitionAsync模块来进行图片的信息提取,参数为图片img,结果为单元格文字内容及其行列位置信息,可以通过字典访问需要的某些数据。
因此,可以利用百度AI提供的表格文字识别接口,将流程图中的每个文本框看作是表格中的每个单元格,提取流程图中句子与句子所在区域的坐标信息。
对图3提取出的句子所在的区域如图4所示,其中,图4中的黑框表示句子所在区域。对图2提取出的句子所在的区域也类似于图4;
对于每句句子按照百度AI接口的提取顺序依次编号,示例流程图的编号顺序如图5和图6所示,其中,图5是图2所示待检测流程图的编号示意图,图6是图3所示对比流程图的编号示意图。
进一步地,由于彩色流程图图像中每个像素包含R,G和B三种颜色值,利用提取到的文本所在区域的左上角和右下角坐标,将该区域中各像素的R,G和B 值分别用区域的左上角或者右下角的R,G和B值表示,从而将句子所在的区域用文本框的像素值填充,填充后的流程图图像如图7和图8所示;
然后,遍历流程图彩色图像,将彩色图像中符合R,G和B值都大于200的像素用0表示,其余的像素值用1来表示,从而将彩色图像转换成二值图像;
为方便理解彩色图像转换成二值图像的过程,这里举例说明。假定一幅3*3*3 的图像,图像中R,G,B颜色值矩阵表示为:
R矩阵:
Figure BDA0003759035630000072
G矩阵:
Figure BDA0003759035630000073
B矩阵:
Figure BDA0003759035630000081
二值图像的矩阵:
Figure BDA0003759035630000082
S2:定义上、下、左、右四个方向的箭头模板;其包括如下步骤:
(1)定义7*7大小的矩阵,将该矩阵中位于第1行第4列元素,第2行第3列开始向右3个元素,第3行第2列开始向右5个元素,第4行第1列开始向右7 个元素的数值设置为1,其余元素设置为0,将该矩阵定义为向上方向的箭头模板,向上方向的箭头模板矩阵如下所示:
Figure BDA0003759035630000083
(2)定义7*7大小的矩阵,将该矩阵中位于第7行第4列元素,第6行第3列开始向右3个元素,第5行第2列开始向右5个元素,第4行第1列开始向右7 个元素的数值设置为1,其余元素设置为0,将该矩阵定义为向下方向的箭头模板,向下方向的箭头模板矩阵如下所示:
Figure BDA0003759035630000084
(3)定义7*7大小的矩阵,将该矩阵中位于第4行第1列元素,第3行第2列开始向下3个元素,第2行第3列开始向下5个元素,第1行第4列开始向下7 个元素的数值设置为1,其余元素设置为0,将该矩阵定义为向左方向的箭头模板,向左方向的箭头模板矩阵如下所示:
Figure BDA0003759035630000091
(4)定义7*7大小的矩阵,将该矩阵中位于第4行第7列元素,第3行第6列开始向下3个元素,第2行第5列开始向下5个元素,第1行第4列开始向下7 个元素的数值设置为1,其余元素设置为0,将该矩阵定义为向右方向的箭头模板,向右方向的箭头模板矩阵如下所示:
Figure BDA0003759035630000092
四个方向的箭头模板的图像如图9所示;
S3:利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;其包括如下步骤:
首先,将S2中用文本框的像素值填充句子所在区域后流程图的彩色图像转换为灰度图像,将该灰度图像记作图像I,计算灰度流程图图像I中各像素点的水平和垂直方向导数Ix和Iy
Figure BDA0003759035630000093
Figure BDA0003759035630000094
其中,
Figure BDA0003759035630000095
是卷积符号;
接着,对图像I中各像素点计算三个自相关参数A、B和C的数值:
Figure BDA0003759035630000096
Figure BDA0003759035630000097
Figure BDA0003759035630000098
其中,Wu,v为高斯滤波器,
Figure BDA0003759035630000099
u、v分别为高斯滤波器的长和宽,σ为方差,本实施例中,采用的高斯滤波器参数为u=3、v=3、σ=2;
然后,计算图像I中各像素点的Harris角点响应值R:
R=(AB-C2)-K(A+B)2 (6)
其中,K为一个常数,取值范围为0.04~0.06,本实施例中,K取值为0.04;
如果像素点(i,j)处的Harris角点响应值R大于阈值TH,并且像素点(i,j)处的R值为该像素点所在8邻域的角点响应值的极大值,则像素点(i,j)成为图像的角点;本实施例中,阈值TH=0.1。
图10和图11分别为利用Harris方法检测到的图2与图3的角点,其中,用“+”标示检测到的角点。
为便于理解Harris角点检测算法,这里举例说明。假定一幅大小为10*10的灰度图像I,图像I中各像素灰度值用下列矩阵表示为:
Figure BDA0003759035630000101
第一步:按式(1)计算图像I中各像素点的水平方向导数Ix,卷积运算方法如下:
Figure BDA0003759035630000102
例如,计算图像I中的第一行第一列(1,1)像素点的水平方向导数,移动卷积核[-2,-1,0,1,2],使其中心0位于图像I的(1,1)像素上,如上面矩阵所示的 100的上标0,再分别将像素值乘以卷积核中的对应数值,因为像素点(1,1)位于第一列,卷积核中的-2,-1没有对应像素值,则认为这些位置的像素值等于0,则 (1,1)像素点的水平方向导数=100*0+100*1+100*2=300;
按上述方法对图像I中所有像素计算水平方向导数Ix,得到以下结果:
Figure BDA0003759035630000111
第二步:按式(2)计算图像I中各像素点的垂直方向导数Iy,卷积运算方法如下:
Figure BDA0003759035630000112
例如,计算图像I中的第一行第一列(1,1)像素点的垂直方向导数,移动卷积核[-2,-1,0,1,2]T,此处的上标T表示矩阵转置,使其中心0位于图像I的(1, 1)像素上,如上面矩阵所示的100的上标0,再分别用卷积核中的对应数值乘以对应位置的像素值,因为像素点(1,1)位于第一行,卷积核中的-2,-1没有对应像素值,则认为这些位置的像素值等于0,则
(1,1)像素点的水平方向导数=100*0+100*1+100*2=300;
按上述方法对图像I中所有像素计算垂直方向导数Iy,得到Iy结果如下:
Figure BDA0003759035630000121
第三步:按式(3)-(5)计算图像I中各像素点的三个自相关参数A、B和C,其中,Wu,v为高斯滤波器,本实施例中,高斯滤波器参数设置为u=3、v=3、σ=2,按
Figure BDA0003759035630000122
计算,得到以下3*3的高斯滤波器:
Figure BDA0003759035630000123
例如,把u=1、v=0、σ=2代入
Figure BDA0003759035630000124
得到
Figure BDA0003759035630000125
等于0.8825,把u=1、v=1、σ=2代入
Figure BDA0003759035630000126
得到
Figure BDA0003759035630000127
等于0.7788,把u=0,v=0,σ=2代入
Figure BDA0003759035630000128
得到
Figure BDA0003759035630000129
等于1.0000,再把上式归一化,归一化就是将上式的9个值求和得到结果为7.6452,再将上式中的9个数值各自除以7.6452,得到归一化以后的3*3高斯滤波器:
Figure BDA00037590356300001210
再计算Ix中的各数值的平方值
Figure BDA00037590356300001211
得到
Figure BDA00037590356300001212
上面矩阵中,a表示90000,b表示40000。
再计算Iy中的各数值的平方值
Figure BDA00037590356300001213
得到
Figure BDA0003759035630000131
上面矩阵中,a表示90000,b表示40000。
再计算Ix*Iy,即计算Ix与Iy对应数值间的乘积,得到
Figure BDA0003759035630000132
上面矩阵中,a表示90000,b表示40000,r表示60000。
计算
Figure BDA0003759035630000133
得到自相关系数A,如下所示:
Figure BDA0003759035630000134
例如,计算
Figure BDA0003759035630000135
中的第一行第一列(1,1)数值与Wu,v的卷积值,移动卷积核,使其中心0.1308位于(1,1)上,如上面矩阵所示的p的上标0.1308,再分别将像素值乘以卷积核中的对应数值,因为(1,1)位于第一行第一列,卷积核中只有位于 0.1308右下角的0.1154,0.1154,0.1019有对应数值,其余则没有对应数值,认为这些位置的数值等于0,则(1,1)位置
Figure BDA0003759035630000136
的卷积结果=90000*0.1308+40000*0.1154+90000*0.1154+40000*0.1019=30850;
按上述方法计算
Figure BDA0003759035630000141
得到以下结果,其中,为节省空间,A矩阵中的每个数值保留一位小数:
Figure BDA0003759035630000142
类似的计算
Figure BDA0003759035630000143
得到以下结果:
Figure BDA0003759035630000144
按类似的计算
Figure BDA0003759035630000145
得到以下结果:
Figure BDA0003759035630000146
第四步:按式(6)计算图像I中各像素点的Harris角点响应值R;
例如,计算图像I中第一行第一列(1,1)的Harris角点响应值,R=(AB-C2)-K(A+B)2=(31000*31000-300002)-0.06(31000+31000)2=-1.7*108,这里的 K取值为0.06。
以此类推,可用矩阵表示图像I中各像素点的Harris角点响应值R如下,其中,为节省空间,R矩阵中的每个数值保留一位小数:
Figure BDA0003759035630000151
第五步:如果像素点(i,j)处的R大于阈值TH,并且像素点(i,j)处的R值是其所在8邻域的角点响应值的极大值,则像素点(i,j)成为图像的角点;本实施例中,阈值TH=0.1;把R中符合上面条件的用方框表示,得到:
Figure BDA0003759035630000152
对照上面的R矩阵,图像I中对应的角点用方框表示,得到:
Figure BDA0003759035630000153
然后,将角点记录在Corner矩阵中。
进一步地,遍历S3中记录的角点矩阵Corner中的角点,对于每个角点取邻域并识别箭头的具体步骤如下:
为方便理解,以下面的10*10大小的像素值矩阵为例,对箭头识别过程作详细解释:
Figure BDA0003759035630000161
其中,第4行第4列加下划线的像素点为角点;
以角点向右第3个像素为中心,得到7*7大小的矩阵:
Figure BDA0003759035630000162
将该矩阵与向上与向下的箭头矩阵计算汉明距离,与向上的箭头模板矩阵之间有18个位置上的像素值不同,汉明距离Sup=18,该矩阵与向下的箭头模板矩阵每个位置上的像素值都相同,汉明距离Sdown=0;
以角点向下第3个像素为中心,得到7*7大小的像素矩阵:
Figure BDA0003759035630000163
将该矩阵与向右与向左的箭头矩阵计算汉明距离,该矩阵与向右的箭头模板矩阵之间有18个位置上的像素值不同,汉明距离Sright=18,该矩阵与向左的箭头模板矩阵之间有24个位置上的像素值不同,汉明距离Sleft=24;
在向上,向下,向左,向右四个方向的汉明距离中取最小的距离值为Smin=0,阈值设置为T2=5,Smin小于T2,则该角点位于向下箭头部分。
S4:搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;其包括如下步骤:
首先,对于图2和图3所示的两幅流程图,分别建立大小为5*5和6*6的零矩阵;
然后,将S2得到的二值图像的文本框部分的像素值修改为2,以S3记录的箭头部分的角点为起点,定义一个先进先出的空队列Q,将起点加入空队列Q中,定义四个搜索方向:
gox=[-1,1,0,0]
goy=[0,0,-1,1]
例如,在二值图像对应的矩阵中,起点在该矩阵中的第sx行第sy列,则将起点的sx与sy分别加上gox与goy的第一个值,则下一个点在该矩阵中的第sx-1 行第sy列,该点位于起点的上方;
(1)从队列中取出一个点作为起点,若此时队列为空则结束搜索;否则,将起点分别加上方向值,得到搜索的下一个像素点的坐标nx=sx+gox[i],ny=sy+goy[i],其中i 为1~4;
(2)判断下个坐标点(nx,ny)的像素值:
a)若为0,则加入队列Q;
b)若为2,则找到与箭头相邻的一个文本框,记录文本框的编号;
c)若为1,则放弃该点不做任何处理;
重复上述操作,直到队列为空;
最后,对于同一个箭头所记录的两个文本框,按其记录的文本框的编号i和j,将邻接矩阵中第i行第j列的元素值定义为1,同时,将第j行第i列的元素值也定义为1,类似的,对所有箭头部分的角点都做相同操作,从而建立文本框间的邻接矩阵;
对于图2所示的流程图,得到的邻接矩阵如下:
Figure BDA0003759035630000181
对于图3所示流程图,得到的邻接矩阵如下:
Figure BDA0003759035630000182
S5:计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列;其包括如下步骤:
首先,对于图2所示待检测流程图,将其记作P1,对于图3所示对比流程图,将其记作P2,根据S1所述提取到的P1的所有句子为:
{S11:输入电子地图;S12:确定最小包围盒;S13:在最小包围盒内生成数值为0、1的点;S14:利用Prim算法生成最小生成树并提取主骨架线;S15:沿主骨架线标注文字};
提取到的P2的所有句子为:
{S21:输入电子地图确定最小包围盒;S22:在最小包围盒内生成数值为0、1 的均匀点;S23:提取区域骨架;S24:利用Prim算法生成最小生成树;S25:提取主骨架线;S26:沿主骨架线标注文字};
然后,计算待检测流程图P1所有句子分别与对比流程图P2的每个句子的相似分数:
为了便于理解,这里举例说明具体实施过程:
首先,对于待检测流程图P1与对比流程图P2中的各个句子中的文字内容进行关键词提取。
其中,Python的第三方中文分词库jieba提供了关键词提取功能,通过输入要提取关键词的文本就可获取文本中的关键词信息,基本方法如下:
import jieba.analyse
text='待检测的文本'
Key=jieba.analyse.extract_tags(text,topK)
当导入整个jieba.analyse模块后,依据要求填写text信息,其中第二个参数topK返回关键词的最大数量,默认为20,返回的关键词Key按照重要性从高到低排序。
例如,使用jieba.analyse分别对P1和P2中第一个结点文字进行关键词提取:
import jieba.analyse
Key1=jieba.analyse.textrank(“输入电子地图”,topK=20)
Key2=jieba.analyse.textrank(“输入电子地图确定最小包围盒”,topK=20)
得到P1中第一个结点提取出的关键词Key1为['输入','电子地图'],P2中第一个结点提取出的关键词Key2为['输入','确定','电子地图','包围']。
其次,计算P1和P2中两两句子之间的句子相似分数:
Figure BDA0003759035630000191
其中,Si与Sj为当前对比的两个句子,wk表示句子中的词,那么,分子部分的意思是同时出现在两个句子中的相同词的个数,分母是对句子中词的个数求对数之和。如:P1与P2第一个节点中相同词组为['输入','电子地图'],则同时出现在两个句子中的相同词的个数等于2,n=2,m=4,带入上式得Similarity(S11,S21)=0.6667,其余句子的比对相类似。
进而得到待检测流程图P1中的每个句子与P2中所有句子的句子相似分数:
Figure BDA0003759035630000192
其中,为节省空间,矩阵中的每个数值都乘以100后保留一位小数,矩阵中的第一行表示P1的第一个句子S11与P2的所有6个句子分别进行对比后的句子相似分数,其余行类似;
进一步地,如上匹配结果显示,待检测流程图P1中的第一个句子S11与P2的 S21的句子相似分数为66.7,且该值为同一行中最大值,并且该值超过阈值T2,这里,阈值T2等于50,则将序号1记录在相似编号序列的最后;
P1中的第二个句子S12只与P2的S21句子相似分数超过阈值T2,所以取S12与 P2的句子相似分数中的最大值66.7作为S12的匹配分数,因为66.7是S12与S21的句子相似分数,所以将序号1记录在相似编号序列的最后;
P1中的第三个句子S13只与P2的S22句子相似分数超过阈值T2,所以取S13与P2的句子相似分数中的最大值100作为S13的句子相似分数,并将序号2记录在相似编号序列的最后;
特别的,P1中的第四个句子S14与P2的多个句子S24和S25的句子相似分数超过阈值T2,然后我们进一步处理,将超过阈值的S24,S25两句句子中的关键词组提取出来后,去除其中的重复部分并将它们合成,再重新将S14与合成后的复合句子进行匹配,得到句子相似分数107.7作为S14的匹配分数,并将序号4,5记录在相似编号序列的最后;
P1中的第五个句子S15只与P2的S26句子相似分数超过阈值T2,所以取S15与 P2的句子相似分数中的最大值94.6作为S15的匹配分数,因为94.6是S15与S26的句子相似分数,所以将序号6记录在相似编号序列的最后;
最后,P1所有句子相似分数的平均值=(66.7+66.7+100+107.7+94.6)/5=87.14,将87.14作为流程图P1的文字相似度,且得到相似编号序列{1;1;2;4;5;6}。
S6:计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数;其包括如下步骤:
首先,根据上一步骤得到相似编号序列{1;1;2;4;5;6},先建立一个长为L的元素全为0的标记数组m{0;0;0;0;0;0};
然后,选取6与它之后的元素进行比较,因为6是队尾,所以它只与自己比较,数组m无改变;
接着选取5与它之后的元素分别比较,因为5小于6,并且此时m中第五个元素等于m中第六个元素,所以m中第五个元素更新为1,此时m为{0;0;0; 0;1;0};
然后选取4,分别与6和5进行比较,因为4小于6,并且m中第四个元素等于m中第六个元素,所以m中第四个元素更新为1,此时m为{0;0;0;1;1; 0},因为4小于5,并且m中第四个元素等于m中第五个元素,所以m中第四个元素更新为2,此时m{0;0;0;2;1;0};
再接下来选取2,分别与6、5、4进行比较,得到m{0;0;3;2;1;0};
同理选取1,分别与6、5、4、2进行比较,得到m{0;4;3;2;1;0};
最后,选取队首的1分别与6、5、4、2、1进行比较,得到m{4;4;3;2; 1;0};
进一步地,对于例子中的相似编号序列{1;1;2;4;5;6}和它的标记数组 m{4;4;3;2;1;0},max{m}是4,所以将4所对应的相似编号序列中的元素1 放入最长递增子序列,接着从max{m}之后的位置(即第二个4所在的位置)开始寻找max{m}-1=3,并将它所对应相似编号序列中的元素2记录在最长递增子序列的最后,然后从3之后的位置开始寻找2,并将2所对应相似编号序列中的元素4 记录在最长递增子序列的最后,再从2之后的位置开始寻找1并将1所对应相似编号序列中的元素5记录在最长递增子序列的最后,最后从1之后的位置开始寻找0,并将0所对应相似编号序列中的元素6记录在最长递增子序列的最后,就得到了相似编号序列的最长递增子序列{1;2;4;5;6};
得到L等于6,Ls等于5,
Figure BDA0003759035630000211
等于5/6为P1和P2的结构相似度;
将结构相似度乘以文本相似度,从而得到待检测流程图的重复分数,所以两张流程图的重复分数为
Figure BDA0003759035630000212
由此可判断实施例中的待检测流程图和对比流程图的重复度偏大,与人工对比的结果基本一致。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种流程图的查重方法,其特征在于,包括以下步骤:
步骤一、输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像;
步骤二、定义上、下、左、右四个方向的箭头模板;
步骤三、利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;
步骤四、搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;
步骤五、计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列;
步骤六、计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数。
2.如权利要求1所述的一种流程图的查重方法,其特征在于,输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像,具体包括以下步骤:
(1)输入包含流程图的彩色图像文件,所述彩色图像文件中每个像素包含R,G和B三种颜色值;
(2)调用百度AI接口,读取所述彩色图像文件,提取流程图中文本框内的句子,以及句子所在的区域的左上角和右下角坐标,并对每句句子按其提取顺序依次编号;
(3)用文本框内颜色填充句子所在区域;
(4)将图像中符合R,G和B三种颜色值都大于200的像素用0表示,其余的像素值用1表示,将彩色图像件转换为二值图像。
3.如权利要求2所述的一种流程图的查重方法,其特征在于,定义上、下、左、右四个方向的箭头模板,具体包括以下步骤:
(1)定义7*7大小的矩阵,将所述矩阵中位于第1行第4列元素,第2行第3列开始向右3个元素,第3行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向上方向的箭头模板;
(2)定义7*7大小的矩阵,将所述矩阵中位于第7行第4列元素,第6行第3列开始向右3个元素,第5行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向下方向的箭头模板;
(3)定义7*7大小的矩阵,将所述矩阵中位于第4行第1列元素,第3行第2列开始向下3个元素,第2行第3列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向左方向的箭头模板;
(4)定义7*7大小的矩阵,将所述矩阵中位于第4行第7列元素,第3行第6列开始向下3个元素,第2行第5列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向右方向的箭头模板。
4.如权利要求3所述的一种流程图的查重方法,其特征在于,利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点,具体包括以下步骤:
(1)将步骤一输入的包含流程图的彩色图像转换为灰度图像,利用Harris角点检测法确定灰度图像中的角点;
(2)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将所述像素矩阵与向上方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为1,并将7*7矩阵上的所有位置的汉明距离相加,得到向上方向的汉明距离;
(3)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将所述像素矩阵与向下方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为1,并将7*7矩阵上的所有位置的汉明距离相加,得到向下方向的汉明距离;
(4)以角点向下第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将所述像素矩阵与向左方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为1,并将7*7矩阵上的所有位置的汉明距离相加,得到向左方向的汉明距离;
(5)以角点向下第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将所述像素矩阵与向右方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为1,并将7*7矩阵上的所有位置的汉明距离相加,得到向右方向的汉明距离;
(6)在向上,向下,向左,向右四个方向的汉明距离中取最小的距离值,如果该距离值小于阈值T1,则该角点为位于箭头的角点,否则该角点不是位于箭头的角点。
5.如权利要求4所述的一种流程图的查重方法,其特征在于,搜索与箭头相邻的文本框,建立文本框间的邻接矩阵,具体包括以下步骤:
(1)对于有n个文本框的流程图,定义n*n大小的零矩阵作为邻接矩阵;
(2)将步骤一得到的二值图像中,所有句子所在区域的像素值均修改为2,从步骤三中得到的位于箭头的角点出发,沿着箭头的连接线的两端搜索,一旦直到找到像素值为2的点,则记录该点所属文本框中包含句子的编号;
(3)对于同一个箭头所关联的两个文本框,按其包含句子的编号i和j,将邻接矩阵中第i行第j列的元素值定义为1,同时,将第j行第i列的元素值也定义为1,建立文本框间的邻接矩阵。
6.如权利要求5所述的一种流程图的查重方法,其特征在于,计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列,具体包括以下步骤:
(1)对于待检测流程图P1和对比流程图P2,分别按步骤一至步骤四建立文本框间的邻接矩阵;
(2)计算P1和P2中两两句子之间的句子相似分数:
Figure FDA0003759035620000031
其中,Si与Sj为当前对比的两个句子,wk表示为句子中的词组,n、m分别表示句子Si和Sj中词组的数量;
(3)若P1的某个句子与P2的所有句子的句子相似分数中,句子相似分数大于阈值T2的句子数量小于等于1,则将P2中句子相似分数最高的句子编号记录在相似编号序列的最后;
(4)若P1的某个句子与P2的所有句子的句子相似分数中,句子相似分数大于阈值T2的句子数量大于1,则将P2中对应的句子的编号记录在相似编号序列的最后,并将这些句子依次连接为一个新的复合句子,删除复合句子中重复的词组,将P1的句子与该复合句子重新计算句子相似分数;
(5)计算P1所有句子的句子相似分数的平均值,该平均值作为待检测流程图与对比流程图之间的文本相似度。
7.如权利要求6所述的一种流程图的查重方法,其特征在于,计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数,具体包括以下步骤:
(1)对于待检测流程图和对比流程图的相似编号序列,计算其最长递增子序列长度Ls,序列的总长度为L,将
Figure FDA0003759035620000041
作为待检测流程图和对比流程图的结构相似度;
(2)将结构相似度乘以步骤五得到的文本相似度,从而得到待检测流程图的重复分数。
8.如权利要求2所述的一种流程图的查重方法,其特征在于,所述包含流程图的彩色图像文件包括待检测流程图和对比流程图。
CN202210865838.1A 2022-07-22 2022-07-22 一种流程图的查重方法 Pending CN115376152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210865838.1A CN115376152A (zh) 2022-07-22 2022-07-22 一种流程图的查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210865838.1A CN115376152A (zh) 2022-07-22 2022-07-22 一种流程图的查重方法

Publications (1)

Publication Number Publication Date
CN115376152A true CN115376152A (zh) 2022-11-22

Family

ID=84061363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210865838.1A Pending CN115376152A (zh) 2022-07-22 2022-07-22 一种流程图的查重方法

Country Status (1)

Country Link
CN (1) CN115376152A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227907A (zh) * 2023-05-06 2023-06-06 安徽思高智能科技有限公司 基于对齐的多维度rpa流程相似度计算方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227907A (zh) * 2023-05-06 2023-06-06 安徽思高智能科技有限公司 基于对齐的多维度rpa流程相似度计算方法

Similar Documents

Publication Publication Date Title
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN108805076B (zh) 环境影响评估报告书表格文字的提取方法及系统
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111090990B (zh) 一种医疗体检报告单文字识别及纠正方法
CN112347284B (zh) 一种组合商标图像检索方法
CN111753120B (zh) 一种搜题的方法、装置、电子设备和存储介质
CN113326797A (zh) 一种pdf文档提取的表格信息转换为结构化知识的方法
CN111666937A (zh) 一种图像中的文本识别方法及系统
Van Phan et al. A nom historical document recognition system for digital archiving
CN112560849A (zh) 基于神经网络算法的文理分割方法及系统
CN109635808A (zh) 一种在自然场景图像中对中文关键词及上下文的提取方法
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN116912865A (zh) 表格图像识别方法、装置、设备及介质
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN115376152A (zh) 一种流程图的查重方法
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN111612045B (zh) 一种获取目标检测数据集的通用方法
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN113128509A (zh) 一种图像语义要素提取方法
CN116092100A (zh) 文本内容提取方法及装置
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination