CN109191407A - 一种基于极限学习机的碎纸片拼接复原方法及系统 - Google Patents
一种基于极限学习机的碎纸片拼接复原方法及系统 Download PDFInfo
- Publication number
- CN109191407A CN109191407A CN201811102654.XA CN201811102654A CN109191407A CN 109191407 A CN109191407 A CN 109191407A CN 201811102654 A CN201811102654 A CN 201811102654A CN 109191407 A CN109191407 A CN 109191407A
- Authority
- CN
- China
- Prior art keywords
- scrap
- paper
- neural network
- network model
- spliced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000011084 recovery Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Databases & Information Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于极限学习机的碎纸片拼接复原方法及系统。方法包括:获取待拼接的碎纸片训练样本;提取训练样本的左右边界特征数据;根据左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型;获取待拼接的碎纸片测试样本;提取测试样本的左右边界特征数据;选取首张待拼接碎纸片;通过训练好的神经网络模型选取与首张待拼接碎纸片吻合度最高的碎纸片;判断吻合度最高的碎纸片与首张待拼接碎纸片是否拼接正确;若是,对碎纸片进行拼接直至所有碎纸片拼接复原;若否,采用人工标记,继续通过训练好的神经网络模型选取与首张待拼接碎纸片吻合度最高的碎纸片。采用本发明的方法或系统能够快速、良好的实现碎纸片拼接复原效果。
Description
技术领域
本发明涉及人工智能中机器学习领域,特别是涉及一种基于极限学习机的碎纸片拼接复原方法及系统。
背景技术
随着计算机的普及和迅猛发展,大量复杂劳累的工作被计算机取而代之,尤其是最近这几年基于神经网络的人工智能的兴起,计算机已经影响着我们生活的方方面面。人工智能的快速发展得益于互联网产生的大数据以及计算机性能的提升,目前业界常用的卷积神经网络CNN,循环神经网络等都需要大量的数据对模型进行大量的训练来使得模型的泛化能力更强,但是现实生活中存在很多样本数量极少的例子,无法使用常规的神经网络进行大量训练,所以寻找一种小样本且具备一定泛化性能的算法具有重要的研究意义。
碎纸片的拼接复原模型在文档安全保护、司法物证复原、历史文献修复以及军事情报获取等领域都有着十分重要的应用。碎纸片复原问题两种情况,一种是撕毁方式下的边缘不规则碎纸片,这种情况下通过边缘不规则轮廓匹配进行拼接和复原,复原难度较低还原率较高,本文不做讨论。另一种是碎纸机切割的边缘规则的破碎纸片,由于边缘形状一样无法通过轮廓进行匹配只能提取边缘特征进行匹配,只能通过图形边缘特征提取进行匹配,找到匹配程度较高的纸条进行拼接。传统地,由人工完成的碎纸片拼接与复原工作效率是很低的,从而,研究如何利用计算机技术准确快速地完成碎纸片的拼接与复原成为一项十分重要且有意义的工作,对该场景的研究和实践对小样本机器学习以及图片特征提取提供了一种可行的具有创新性的想法,对类似场景算法实现提供了参考依据。
传统神经网络中的所有参数都需要调整以达到目标输出解最优,但这种调整需要以基于梯度下降误差反向传播算法不断迭代,显然,这种方法的学习速度非常缓慢。
发明内容
本发明的目的是提供一种基于极限学习机的碎纸片拼接复原方法及系统,能够快速、良好的实现碎纸片拼接复原效果。
为实现上述目的,本发明提供了如下方案:
一种基于极限学习机的碎纸片拼接复原方法,所述方法包括:
获取待拼接的碎纸片训练样本;
提取所述碎纸片训练样本的左右边界特征数据;
根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型;
获取待拼接的碎纸片测试样本;
提取所述碎纸片测试样本的左右边界特征数据;
根据首张拼接原则选取一张碎纸片作为首张待拼接碎纸片;
通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片;
判断所述吻合度最高的碎纸片与所述首张待拼接碎纸片是否拼接正确;
若是,则对碎纸片进行拼接直至所有所述碎纸片拼接复原;
若否,则采用人工标记,继续通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片。
可选的,所述提取所述碎纸片训练样本的左右边界特征数据,具体包括:
对所述碎纸片训练样本进行二值化处理,得到一序列像素矩阵;
将所述像素矩阵信息和所述碎纸片训练样本的文字信息进行组合,得到所述碎纸片的左右边界特征数据;
所述碎纸片的左右边界特征数据用公式表示,其中,ai表示边缘像素值,ai等于0或者255。
可选的,所述根据首张拼接原则为选择左边界为白边的碎纸片作为拼接行的首张碎纸片。
可选的,所述根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型,具体包括:
将所述左右边界特征数据作为极限学习机神经网络模型的输入,得到输出数据;
判断所述输出数据是否在误差范围阈值内;
若是,确定所述神经网络模型为训练好的神经网络模型;
若否,调整所述神经网络模型的参数权值,使所述输出数据在所述误差范围阈值内,得到训练好的神经网络模型。
为实现上述目的,本发明提供了如下方案:
一种基于极限学习机的碎纸片拼接复原系统,所述系统包括:
训练样本获取模块,用于获取待拼接的碎纸片训练样本;
训练样本特征提取模块,用于提取所述碎纸片训练样本的左右边界特征数据;
训练模块,用于根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型;
测试样本获取模块,用于获取待拼接的碎纸片测试样本;
测试样本特征提取模块,用于提取所述碎纸片测试样本的左右边界特征数据;
首张拼接碎纸片选取模块,用于根据首张拼接原则选取一张碎纸片作为首张待拼接碎纸片;
吻合度计算模块,用于通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片;
判断模块,用于判断所述吻合度最高的碎纸片与所述首张待拼接碎纸片是否拼接正确;
若是,则对碎纸片进行拼接,直至所有所述碎纸片拼接复原;
若否,则采用人工标记,继续通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片。
可选的,所述训练样本特征提取模块,具体包括:
二值化处理单元,用于对所述碎纸片训练样本进行二值化处理,得到一序列像素矩阵;
左右边界特征数据提取单元,用于将所述像素矩阵信息和所述碎纸片训练样本的文字信息进行组合,得到所述碎纸片的左右边界特征数据;
所述碎纸片的左右边界特征数据用公式表示,其中,ai表示边缘像素值,ai等于0或者255。
可选的,所述根据首张拼接原则为选择左边界为白边的碎纸片作为拼接行的首张碎纸片。
可选的,所述训练模块,具体包括:
输出数据获取单元,用于将所述左右边界特征数据作为极限学习机神经网络模型的输入,得到输出数据;
判断单元,用于判断所述输出数据是否在误差范围阈值内;
若是,确定所述神经网络模型为训练好的神经网络模型;
若否,调整所述神经网络模型的参数权值,使所述输出数据在所述误差范围阈值内,得到训练好的神经网络模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供一种基于极限学习机的碎纸片拼接复原方法,采用极限学习机神经网络模型,只需将模型中的部分参数进行调整,而是通过随机初始化输入层权值和偏置值开固定部分参数使问题转化为一元问题通过函数的方式进行求解,通过将上述极限学习机神经网络模型应用到碎纸片拼接复原中,能够迅速、良好的实现碎纸片的拼接。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于极限学习机的碎纸片拼接复原方法流程图;
图2为本发明实施例设计极限学习机神经网络模型图;
图3为本发明实施例边缘不规则的碎纸片示意图;
图4为本发明实施例边缘规则的碎纸片示意图;
图5为本发明实施例边缘特征特征展示
图6为本发明实施例碎纸片特征分布可视化图;
图7为本发明实施例文字类碎纸片组合特征示意图;
图8为本发明实施例基于极限学习机的碎纸片拼接复原系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例基于极限学习机的碎纸片拼接复原方法流程图。如图1所示,一种基于极限学习机的碎纸片拼接复原方法,所述方法包括:
步骤101:获取待拼接的碎纸片训练样本;
步骤102:提取所述碎纸片训练样本的左右边界特征数据;
步骤103:根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型;
步骤104:获取待拼接的碎纸片测试样本;
步骤105:提取所述碎纸片测试样本的左右边界特征数据;
步骤106:根据首张拼接原则选取一张碎纸片作为首张待拼接碎纸片;
步骤107:通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片;
步骤108:判断所述吻合度最高的碎纸片与所述首张待拼接碎纸片是否拼接正确;
步骤109:若是,则对碎纸片进行拼接直至所有所述碎纸片拼接复原;
步骤110:若否,则采用人工标记,继续通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片。
所述提取所述碎纸片训练样本的左右边界特征数据,具体包括:
将碎纸片信息扫描并为每张纸条编号依次为0,1,2,…,n-1。
按照编号读取图片矩阵信息,由于图片信息为rbg值,需要将图片矩阵按照公式(1)转换为灰度图。
Gray=(R*299+G*587+B*114+500)/1000 (1)
对于文字类型的碎纸片通过设定阈值将图片进行一个二值化处理,设置一个阈值,本模型将非255(白色)部分全部处理为0(黑色),即阈值为255放大文字在纸条边界上的特征效果。
式中:qij为二值化前的图像的像素值
Pij为二值化后的图像的像素值
通过对每一张图像进行公式(2)的二值化处理后,得到一序列像素矩阵信息,所述像素矩阵信息用于图像的特征提取,其能够反映碎纸片的层次结构。
获取文字能容碎纸片的结构特征,通过遍历图片矩阵的行内容,如果有元素非255(白色),就将该行内容全置0(黑色)。结构特征可以在匹配中帮助自动区别碎片所在列的碎纸片组,省去了聚类分类的麻烦。
所述像素矩阵信息能够和所述碎纸片训练样本的文字信息进行组合获得碎纸片组合特征。
每张所述碎纸片的左右边界特征数据用公式表示,其中,ai表示边缘像素值,ai等于0或者255。
对于文本类碎纸片可以选择左边界为白边的碎纸片作为拼接行的首张碎纸片。
拼接过程遵循左右相配原则,即当前匹配的碎纸片的左边界特征只和剩余碎纸片的右边界特征匹配,反之当前匹配的碎纸片的右边界特征只和剩余碎纸片的左边界特征匹配。
步骤103,具体包括:
将所述左右边界特征数据作为极限学习机神经网络模型的输入,得到输出数据;
判断所述输出数据是否在误差范围阈值内;
若是,确定所述神经网络模型为训练好的神经网络模型;
若否,调整所述神经网络模型的参数权值,使所述输出数据在所述误差范围阈值内,得到训练好的神经网络模型。
在神经网络模型的参数权值确定的过程中采用下列方法确定:
给定激活函数g(x),和N个任意不同的样本(xi,ti),其中xi=[xi1,xi2,...,xin]T∈Rn且ti=[ti1,ti2,...,tim]T∈Rm,即给定训练集 激活函数g(x)和隐含神经元数
(1)确定隐含层数为1,初始化隐含层神经元个数为l。
(2)分配任意输入权重wi和偏置bi,其中其中wi=[wi1,wi2,...,win]T是连接第i个隐含神经元和输入神经元的权向量,bi是第i个隐藏神经元的阈值。wi·xj表示wi和xj的内积。
(3)计算隐藏层输出矩阵H。H称为神经网络的隐层输出矩阵;H的第i列是关于输入x1,x2,...,xN的第i个隐藏神经元的输出向量。
(4)根据Hβ=T通过Moore-Penrose广义逆计算
其中,βi=[βi1,βi2,...,βim]T是连接第i隐藏神经元和输出神经元的权向量,为H的Moore-Penrose广义逆矩阵。
通过上述方法能够得到神经网络所有参数即:wi,bi,βi;
极限学习机特征匹配模型输出层定义:
(1)训练样本标签
本模型训练样本输出采用跟输入层维度相同的常数矩阵作为神经网络的输出,是已知数据,不需要计算,用来计算神经网络输出层权值β。实验中使用的是ti=[ti1,ti2,...,tim](本实验选取ti=i,ti的值可以任选,一般取正整数即可);
(2)检测输出列
根据训练计算出的wi,bi,βi,解过,将数据输入模型计算得出,跟输入层维度相同。
本发明的极限学习机神经网络模型使用协方差作为吻合度计算,协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。根据协方差公式和匹配结果计算匹配误差,误差越小匹配程度越高。
在拼接过程可能出现边缘相似但拼接错误的情况,需要进行很少量的人工干预,通过对模型设置拼接检测阈值(本模型设置为0.01,),吻合度大于等于0.01的拼接结果将会通过CUI控制界面反馈出来,如果拼接错误通过人工标记改变协方差计算结果增大其值交由系统进行二次筛选,实验结果显示在最坏的情况下一般不超过三次标记就能获得正确的匹配结果。
图2为本发明实施例设计极限学习机神经网络模型图;图3为本发明实施例边缘不规则的碎纸片示意图;图4为本发明实施例边缘规则的碎纸片示意图;图5为本发明实施例边缘特征特征展示图6为本发明实施例碎纸片特征分布可视化图;图7为本发明实施例文字类碎纸片组合特征示意图。
本发明的上述方法均是对于文本类碎纸片的拼接复原来实现的,对于彩色图片的拼接复原方法是类似的,只不过对于彩色图片在进行左右边界特征提取时不需要进行二值化处理,因为彩色图片的碎纸条切割比较碎,相似度极高,特别是带高斯模糊效果的图像,不便于做二值化处理。所以只需直接提取碎纸片的左右边界特征即可。而且对于彩色图片一般通过模型随机选取一张碎纸片作为拼接行的首张碎纸片即可,不需要遵循左边界为白边的原则。
图8为本发明实施例基于极限学习机的碎纸片拼接复原系统结构图。如图8所示,一种基于极限学习机的碎纸片拼接复原系统,所述系统包括:
训练样本获取模块201,用于获取待拼接的碎纸片训练样本;
训练样本特征提取模块202,用于提取所述碎纸片训练样本的左右边界特征数据;
训练模块203,用于根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型;
测试样本获取模块204,用于获取待拼接的碎纸片测试样本;
测试样本特征提取模块205,用于提取所述碎纸片测试样本的左右边界特征数据;
首张拼接碎纸片选取模块206,用于根据首张拼接原则选取一张碎纸片作为首张待拼接碎纸片;
吻合度计算模块207,用于通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片;
判断模块208,用于判断所述吻合度最高的碎纸片与所述首张待拼接碎纸片是否拼接正确;
若是,则对碎纸片进行拼接,直至所有所述碎纸片拼接复原;
若否,则采用人工标记,继续通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片。
所述训练样本特征提取模块,具体包括:
二值化处理单元,用于对所述碎纸片训练样本进行二值化处理,得到一序列像素矩阵;
左右边界特征数据提取单元,用于将所述像素矩阵信息和所述碎纸片训练样本的文字信息进行组合,得到所述碎纸片的左右边界特征数据;
所述碎纸片的左右边界特征数据用公式表示,其中,ai表示边缘像素值,ai等于0或者255。
所述根据首张拼接原则为选择左边界为白边的碎纸片作为拼接行的首张碎纸片。
所述训练模块,具体包括:
输出数据获取单元,用于将所述左右边界特征数据作为极限学习机神经网络模型的输入,得到输出数据;
判断单元,用于判断所述输出数据是否在误差范围阈值内;
若是,确定所述神经网络模型为训练好的神经网络模型;
若否,调整所述神经网络模型的参数权值,使所述输出数据在所述误差范围阈值内,得到训练好的神经网络模型。
具体实施例1:
本发明的采用了8组不同切割程度的碎纸片进行测试,其中一部分数据采用公开数据,另一部分采用仿真数据,具体情况如下:
(1)2013年全国大学生数学建模B题附件一、二中的中文碎纸片数据分别为25.4mm*698.5mm共19片,附件一为中文,附件二为英文;
(2)仿真数据彩色图像集442mm*3.5mm共191片;
(3)2013年全国大学生数学建模B题附件三、四中的碎纸片数据分别为25.4mm*63.5mm共209片,附件三为中文,附件四为英文;
(5)仿真数据彩色图像集5.29mm*47.63mm共96片;
(6)仿真数据彩色图像集2mm*47.63mm共96片;
(7)仿真数据彩色图像集1.85mm*11.38mm共64片;
因为模型是模拟人工拼接纸片的过程所以需要选取一张碎纸片作为拼接的开始,对于文字类的可以选取左边界为空白的碎纸片作为拼接的开始,对于彩色图片类的碎纸片无法简单确定出起始行的碎纸片序号,故采用随机选取两端拼接的方式进行复原;
提取每一张碎纸片的的左右边界特征数据,对1.4.1步骤中设置阈值为255,获取到后碎纸片的左右边界分别记为和(其中i对应纸片编号,l和r分别代表左边界和右边界);
根据选定的初始碎纸片,将选定的碎纸片边界特征数据 输入1.8总的极限学习机模型,根据1.8.3的方法和标签训练神经网络,计算β计算出当前碎纸片对应的神经网络参数wi,bi,βi;
对除选定碎纸片的剩余碎纸片进行匹配,将每一张碎纸片左边界特征输入选定碎纸片左边界特征训练出来的神经网络模型,将输出结果与对应的训练标签输入1.9的吻合度协方差计算公式,每一张碎纸片计算得到的值记为Zi,从Zi序列中选择最小值进行拼接并用此时选定碎纸片进项步骤3的下一步训练,重复步骤4,便完成了行序列的拼接工作。
对于拼接过程会存在少量误差,通过人工标记的方法对系统进行反馈,系统根据反馈对错误序列进行负激励即将协方差计算值设置为一个极大的数值,对步骤4中Zi序列进行重排选择获得正确系列,实验结果表明在碎纸片加密程度不高的情况下需要人工标记的情况极低,对拼接效率造成的影响可忽略。
对于横纵切割的碎纸片在完成步骤4的行排列后可以将行碎纸片序列上下边界特征转化为做右边界特征转继续使用本发明的模型进行拼接即可完成复原,展示数据的拼接结果见附图8。结果展示对于比较碎的彩色图像拼接正确率普遍较高,而彩色图像单块碎纸片相似度高人工拼接非常困难,该专利提出的模型可以大大提高拼接的效率。
参与测试的8组数据在非人工干预下的还原率情况如下表:
表1各样本类型的还原率表
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于极限学习机的碎纸片拼接复原方法,其特征在于,所述方法包括:
获取待拼接的碎纸片训练样本;
提取所述碎纸片训练样本的左右边界特征数据;
根据所述左右边界特征数据,训练极限学习机神经网络模型,得到训练好的神经网络模型;
获取待拼接的碎纸片测试样本;
提取所述碎纸片测试样本的左右边界特征数据;
根据首张拼接原则选取一张碎纸片作为首张待拼接碎纸片;
通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片;
判断所述吻合度最高的碎纸片与所述首张待拼接碎纸片是否拼接正确;
若是,则对碎纸片进行拼接直至所有所述碎纸片拼接复原;
若否,则采用人工标记,继续通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片。
2.根据权利要求1所述的基于极限学习机的碎纸片拼接复原方法,其特征在于,所述提取所述碎纸片训练样本的左右边界特征数据,具体包括:
对所述碎纸片训练样本进行二值化处理,得到一序列像素矩阵;
将所述像素矩阵信息和所述碎纸片训练样本的文字信息进行组合,得到所述碎纸片的左右边界特征数据;
所述碎纸片的左右边界特征数据用公式表示,其中,ai表示边缘像素值,ai等于0或者255。
3.根据权利要求1所述的基于极限学习机的碎纸片拼接复原方法,其特征在于,所述根据首张拼接原则为选择左边界为白边的碎纸片作为拼接行的首张碎纸片。
4.根据权利要求1所述的基于极限学习机的碎纸片拼接复原方法,其特征在于,所述根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型,具体包括:
将所述左右边界特征数据作为极限学习机神经网络模型的输入,得到输出数据;
判断所述输出数据是否在误差范围阈值内;
若是,确定所述神经网络模型为训练好的神经网络模型;
若否,调整所述神经网络模型的参数权值,使所述输出数据在所述误差范围阈值内,得到训练好的神经网络模型。
5.一种基于极限学习机的碎纸片拼接复原系统,其特征在于,所述系统包括:
训练样本获取模块,用于获取待拼接的碎纸片训练样本;
训练样本特征提取模块,用于提取所述碎纸片训练样本的左右边界特征数据;
训练模块,用于根据所述左右边界特征数据训练极限学习机神经网络模型,得到训练好的神经网络模型;
测试样本获取模块,用于获取待拼接的碎纸片测试样本;
测试样本特征提取模块,用于提取所述碎纸片测试样本的左右边界特征数据;
首张拼接碎纸片选取模块,用于根据首张拼接原则选取一张碎纸片作为首张待拼接碎纸片;
吻合度计算模块,用于通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片;
判断模块,用于判断所述吻合度最高的碎纸片与所述首张待拼接碎纸片是否拼接正确;
若是,则对碎纸片进行拼接,直至所有所述碎纸片拼接复原;
若否,则采用人工标记,继续通过所述训练好的神经网络模型选取与所述首张待拼接碎纸片吻合度最高的碎纸片。
6.根据权利要求5所述的基于极限学习机的碎纸片拼接复原系统,其特征在于,所述训练样本特征提取模块,具体包括:
二值化处理单元,用于对所述碎纸片训练样本进行二值化处理,得到一序列像素矩阵;
左右边界特征数据提取单元,用于将所述像素矩阵信息和所述碎纸片训练样本的文字信息进行组合,得到所述碎纸片的左右边界特征数据;
所述碎纸片的左右边界特征数据用公式表示,其中,ai表示边缘像素值,ai等于0或者255。
7.根据权利要求5所述的基于极限学习机的碎纸片拼接复原系统,其特征在于,所述根据首张拼接原则为选择左边界为白边的碎纸片作为拼接行的首张碎纸片。
8.根据权利要求5所述的基于极限学习机的碎纸片拼接复原方法,其特征在于,所述训练模块,具体包括:
输出数据获取单元,用于将所述左右边界特征数据作为极限学习机神经网络模型的输入,得到输出数据;
判断单元,用于判断所述输出数据是否在误差范围阈值内;
若是,确定所述神经网络模型为训练好的神经网络模型;
若否,调整所述神经网络模型的参数权值,使所述输出数据在所述误差范围阈值内,得到训练好的神经网络模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102654.XA CN109191407A (zh) | 2018-09-20 | 2018-09-20 | 一种基于极限学习机的碎纸片拼接复原方法及系统 |
US16/562,574 US11132572B2 (en) | 2018-09-20 | 2019-09-06 | Method and system for splicing and restoring shredded paper based on extreme learning machine |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102654.XA CN109191407A (zh) | 2018-09-20 | 2018-09-20 | 一种基于极限学习机的碎纸片拼接复原方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109191407A true CN109191407A (zh) | 2019-01-11 |
Family
ID=64909171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811102654.XA Pending CN109191407A (zh) | 2018-09-20 | 2018-09-20 | 一种基于极限学习机的碎纸片拼接复原方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11132572B2 (zh) |
CN (1) | CN109191407A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112653751A (zh) * | 2020-12-18 | 2021-04-13 | 杭州电子科技大学 | 物联网环境下基于多层极限学习机的分布式入侵检测方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6898684B1 (ja) * | 2020-11-17 | 2021-07-07 | 株式会社シンカ・アウトフィットNq | 解析装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011087807A2 (en) * | 2009-12-22 | 2011-07-21 | Health Discovery Corporation | System and method for remote melanoma screening |
CN103679678A (zh) * | 2013-12-18 | 2014-03-26 | 山东大学 | 一种矩形文字特征碎纸片的半自动拼接复原方法 |
CN103714343A (zh) * | 2013-12-31 | 2014-04-09 | 南京理工大学 | 线激光器照明条件下双线阵相机采集的路面图像拼接及匀化方法 |
CN104102913A (zh) * | 2014-07-15 | 2014-10-15 | 无锡优辰电子信息科技有限公司 | 腕部静脉认证系统 |
CN105809623A (zh) * | 2016-03-04 | 2016-07-27 | 重庆交通大学 | 一种碎纸片拼接复原方法 |
CN108320372A (zh) * | 2018-01-22 | 2018-07-24 | 中南大学 | 一种折叠纸币识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295019B (zh) * | 2013-05-21 | 2016-06-01 | 西安理工大学 | 一种基于概率统计的中文碎片自适应恢复方法 |
-
2018
- 2018-09-20 CN CN201811102654.XA patent/CN109191407A/zh active Pending
-
2019
- 2019-09-06 US US16/562,574 patent/US11132572B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011087807A2 (en) * | 2009-12-22 | 2011-07-21 | Health Discovery Corporation | System and method for remote melanoma screening |
CN103679678A (zh) * | 2013-12-18 | 2014-03-26 | 山东大学 | 一种矩形文字特征碎纸片的半自动拼接复原方法 |
CN103714343A (zh) * | 2013-12-31 | 2014-04-09 | 南京理工大学 | 线激光器照明条件下双线阵相机采集的路面图像拼接及匀化方法 |
CN104102913A (zh) * | 2014-07-15 | 2014-10-15 | 无锡优辰电子信息科技有限公司 | 腕部静脉认证系统 |
CN105809623A (zh) * | 2016-03-04 | 2016-07-27 | 重庆交通大学 | 一种碎纸片拼接复原方法 |
CN108320372A (zh) * | 2018-01-22 | 2018-07-24 | 中南大学 | 一种折叠纸币识别方法 |
Non-Patent Citations (3)
Title |
---|
张国林: "基于汉字识别的碎纸片拼接复原模型研究", 《科技广场》 * |
段宝彬、韩立新: "改进的深度卷积网络及在碎纸片拼接中的应用", 《计算机工程与应用》 * |
潘斌 等: "规则切割碎纸片的复原", 《辽宁石油化工大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112653751A (zh) * | 2020-12-18 | 2021-04-13 | 杭州电子科技大学 | 物联网环境下基于多层极限学习机的分布式入侵检测方法 |
CN112653751B (zh) * | 2020-12-18 | 2022-05-13 | 杭州电子科技大学 | 物联网环境下基于多层极限学习机的分布式入侵检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200097748A1 (en) | 2020-03-26 |
US11132572B2 (en) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871851B (zh) | 一种基于卷积神经网络算法的汉字书写规范性判定方法 | |
CN111652332A (zh) | 基于二分类的深度学习手写中文字符识别方法及系统 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN106339984A (zh) | 基于k均值驱动卷积神经网络的分布式图像超分辨方法 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN109191407A (zh) | 一种基于极限学习机的碎纸片拼接复原方法及系统 | |
CN110659599A (zh) | 一种基于扫描试卷的离线笔迹鉴定系统以及使用方法 | |
CN110705400A (zh) | 一种试卷版面题目自动拆分的方法 | |
CN113673622B (zh) | 激光点云数据标注方法、装置、设备及产品 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN106060172A (zh) | 判断试题答案的方法和服务器 | |
De Nardin et al. | Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding | |
CN109063670A (zh) | 基于字头分组的印刷体满文单词识别方法 | |
Loresco et al. | Filipino Braille One-Cell Contractions Recognition Using Machine Vision | |
Jenckel et al. | Training LSTM-RNN with imperfect transcription: limitations and outcomes | |
Vigliensoni et al. | An Environment for Machine Pedagogy: Learning How to Teach Computers to Read Music. | |
Lu et al. | Automatic scoring system for handwritten examination papers based on YOLO algorithm | |
US11893784B2 (en) | Assessment of image quality for optical character recognition using machine learning | |
CN108764068A (zh) | 一种图像识别方法和装置 | |
Gao et al. | An English Handwriting Evaluation Algorithm Based on CNNs | |
Manimozhi | An efficient translation of Tulu to Kannada south Indian scripts using optical character recognition | |
CN113111869A (zh) | 提取文字图片及其描述的方法和系统 | |
CN111914683A (zh) | 一种基于仿生图像增强算法和fpga硬件加速的手写成绩录入系统 | |
Lubis et al. | Image processing method in implementation of handwriting identification for Japanese katakana characters | |
Ahmed et al. | Offline handwrit-ten character recognition including compound character from scanned document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |
|
RJ01 | Rejection of invention patent application after publication |