CN111639664A - 一种基于多策略模式的线条痕迹批量比对系统 - Google Patents

一种基于多策略模式的线条痕迹批量比对系统 Download PDF

Info

Publication number
CN111639664A
CN111639664A CN202010266567.9A CN202010266567A CN111639664A CN 111639664 A CN111639664 A CN 111639664A CN 202010266567 A CN202010266567 A CN 202010266567A CN 111639664 A CN111639664 A CN 111639664A
Authority
CN
China
Prior art keywords
comparison
strategy
data
algorithm
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010266567.9A
Other languages
English (en)
Inventor
潘楠
赵成俊
沈鑫
钱俊兵
魏举伦
夏丰领
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010266567.9A priority Critical patent/CN111639664A/zh
Publication of CN111639664A publication Critical patent/CN111639664A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Complex Calculations (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

本发明公开了一种基于多策略模式的线条痕迹批量比对系统,属于痕迹对比自动对比领域,所述的基于多策略模式机器学习的线条痕迹批量比对系统处理流程步骤为,步骤1.对检测数据预处理,步骤2.建立样本库,步骤3.样本对比,步骤4.相似比对策略合并输出。本发明提出了一种基于多策略模式机器学习的线条痕迹批量相似度比对方法,对激光检测痕迹信号进行降噪和平滑后,利用优化动态时间规整算法、变化速率梯度识别等多比对策略批量实现痕迹特征相似比对。

Description

一种基于多策略模式的线条痕迹批量比对系统
技术领域
本发明属于痕迹对比领域,更具体的说涉及一种基于多策略模式的线条痕迹批量比对系统。
背景技术
根据统计,犯罪分子在作案时,多使用断线钳、线缆剪、破坏钳等大型钳剪工具剪切线缆,形成的断头表面线条痕迹是案发现场中最为常出现的一种痕迹,犯罪嫌疑人使用工具加载于承痕体,相对滑动过程中因粗糙在接触部位形成的局部物质的连续形态变化。线条痕迹反映的是钳剪工具接触部位的外部形态结构,据此通过推断分析作案工具,起到提供侦查线索、缩小侦查范围的作用。其具有不易破坏、难以伪装、出现率频繁,鉴定价值高等特点,对于办案人员认定案件性质,确定作案工具,进而证实犯罪嫌疑人有着十分重要的意义。
相较于传统通过显微镜观察、人为比对形态特征的方式,近年来兴起的图像识别及三维扫描技术,为线型线条痕迹的无损定量测试提供了一些新的解决方案。这些方法虽然都在一定程度上实现了线条痕迹的自动比对,但仍存在以下问题:
以上方法虽然在一定程度上实现了线条痕迹数据的快速筛选比对,但仍存在以下几个问题。
(1)利用二维图片作为数据样本进行比对,对拍照设备的要求较高,反光、拍摄角度及对焦的不一致,将直接导致原始数据的失真,从而影响进一步数据分析;
(2)利用三维扫描(显微)方式,虽较二维图片能更为有效的反映线条痕迹细节特征,但由于其硬件成本高昂、形成3D文件体积过大造成的计算量级呈几何倍数增长等不利因素限制,无法有效应用于案件侦破的实战之中;
(3)使用的信号及图像处理算法限定条件太理想化,对于犯罪现场发现的复杂且随机性较大的钳剪类线条痕迹的检测工作,实用性较为有限。
发明内容
本发明对以上问提出了一种CST-Boosting算法,利用优化动态时间规整算法、变化速率梯度识别等多比对策略批量实现痕迹特征相似比对,基于Boosting融合多策略比对结果,利用机器学习得到最优比对,建立痕迹特征快速比对模型,最终通过实际实验测试验证了算法的有效性。
为了实现上述目的,本发明是通过以下技术方案实现的:所述的多策略模式的线条痕迹批量比对系统应用于刑事侦查、枪弹痕迹检测以及其他需要进行痕迹比对的场景,所述的比对系统处理流程为,步骤1.检测数据预处理,步骤2.建立样本库,步骤3.样本对比,步骤4.相似比对策略合并输出。
优选的,所述的步骤1对检测数据预处理步骤包括(1)检测异常数据处理,(2)数据降噪,(3)旋转校正。
优选的,所述的步骤2.建立样本库包括参数训练以及样本库建立,参数训练采用图卷积神经网络算法进行训练。
优选的,所述的步骤2中的参数训练有以下基本步骤为(1)建立训练集,(2)调参、建立图卷积神经网络模型,(3)引入待测数据,得到相似度计算结果。
优选的,所述的(2)调参、建立图卷积神经网络模型具体方式为,G=(V,E).V表示节点集合,即
Figure BDA0002441465560000021
E表示边集合,即
Figure BDA0002441465560000022
所述的参数训练由两部分组成:负责采样K阶邻域中所有节点信息的GCN组件,编码器(AE)组件,用于提取由GCN组件学习到的激活值矩阵A的隐藏特征,并结合拉普拉斯特征映射(LE)保留节点团簇结构;
在参数训练中GCN组件利用图卷积神经网络以节
Figure BDA0002441465560000023
为中心采样K步的所有节点的结构和特征信息,即编码K阶邻域信息,结合节点的标签训练生成作为自编码器组件输入的激活值矩阵A,GCN通过基于节点标签的有监督学习,可同时编码网络的局部结构和特征信息,略去K阶邻域外对生成节点的低维向量影响较小的次要结构信息,利用GCN习得的激活值矩阵A作为自编码器的输入,自编码器通过无监督学习的方式对A进一步提取特征信息,并结合拉普拉斯特征映射,将原网络映射到一个较低维的空间。
优选的,所述的步骤(1)建立训练集,包括以下步骤,1)确定需要鉴别的工具种类,范围,类型,用统一规则每个工具进行编号,详细记录其参数信息;2)为了排除检测时的偶然性,单个断头痕迹需要至少检测两次,两次的信号数据重合度能够达到99%,认定为合格数据;3)完成所有数据的采集后,同时采用此样本库的数据作为测试数据,针对每个特征进行测试,测试结果应当是每个样本数据和自己组别数据的数据相似程度明显高于其他组别,如果数据混杂,则数据无效,重新进行1)2)步骤。
优选的,所述的步骤3样本对比,包括对比样本预处理,多线程并行对比计算;所述的对比样本预处理,是在针对降噪后的痕迹的信号进行相似度比对之前,首先需要处理长度不定和部分重叠问题:1)设输入的数据分别为A和B,;2)设定一个比对的最小长度L,即二者如果重合必须要满足的最小重合长度,从A中选择最长长度到最短长度的部分到B中进行比对;3)迭代执行每个位置的对比,如果最小就记录当前状态;4)完成了3)的功能后,交换A、B的角色,继续完成一次2、3、5)计算方差最小的差异度,输出比对结果。
优选的,所述的多线程并行对比计算是将一个输入痕迹的一条测试样本,同样本库里一个样本的组合认为是一个Task,即在一个Task里面正好有一个已有样本和一个测试样本,每个测试样本随机的放入一个线程池当中;线程池的数量和并发数量是通过当前运行环境的可用CPU核心合数计算出来的,一般情况下能够正好充分利用当前机器的所有核心数量;每一个Task的计算结果计算得到之后将会在后续的步骤中进行合并。
优选的,所述的步骤4.相似比对策略合并输出,采用线性模型将多个策略计算得到多个策略后,对相似度进行打分后结合;假设有n个算法策略,计算得到的结果向量
Figure BDA0002441465560000031
那么我们这里同样给出一个各策略的权值
Figure BDA0002441465560000032
Figure BDA0002441465560000033
最后的结果为:
Figure BDA0002441465560000034
其中、
Figure BDA0002441465560000035
表示算法策略的结果相连,
Figure BDA0002441465560000036
表示各算法策略的权值。
优选的,所述的算法对比策略包括基于梯度分布的比较策略、基于差异值方差的比较策略、基于阈值的序列的对比策略、基于小波变换的序列对比策略。
优选的,为每一个比较的Task构造一个比较器,每一个具体的算法比较策略都实现了一个统一接口的算法比较器,任务生成Task的时候统一调用了工厂构造一个对应具体算法的比较器,由Task工厂生成的比较器在后续的运算过程中,其使用的方式是完全一致的,具体的算法策略细节已经被屏蔽,需要修改或者新增新的算法策略的时候,不需要改动其他策略算法代码。
本发明有益效果:
本发明提出了一种基于多策略模式的线条痕迹批量相似度比对方法,对激光检测痕迹信号进行降噪和平滑后,利用优化动态时间规整算法、变化速率梯度识别等多比对策略批量实现痕迹特征相似比对,基于Boosting融合多策略比对结果,利用机器学习得到最优比对。多用例多策略的Boosting思路能够不断的增加新的算法技术进入到CST-Boosting框架当中,随着进一步深入研究,其算法性能也会随之增长。
附图说明
图1为本发明CST-Boosting算法处理流程图;
图2为本发明CST-Boosting算法并行机制图;
图3为本发明CST-Boosting算法模式图;
图4为本发明对比样本预处理匹配计算模式图;
图5为本发明比对预处理流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图与实例对本发明作进一步详细说明,但所举实例不作为对本发明的限定。
如图1-5所示,所述的多策略模式的线条痕迹批量比对系统应用于刑事侦查、枪弹痕迹检测以及其他需要进行痕迹比对的场景,所述的比对系统处理流程步骤为,步骤1.检测数据预处理,步骤2.建立样本库,步骤3.样本对比,步骤4.相似比对策略合并输出。
所述的步骤1对检测数据预处理步骤包括(1)检测异常数据处理,(2)数据降噪,(3)旋转校正。所述的检测异常数据处理是由于异常数据是由输入时的过分反光造成,同周边的数据有明显差异,因为可被确定为异常的数据都是不符合既定趋势的数据,即过分的低或过分的高。首先根据坡度变化的临界平均值计算原始激光扫描波形点与点之间的临近差异和变化幅度,随后根据临近差异和变化幅度情况判断是否进行参数的动态估计,如是,则对当前临近差异执行K-Means聚类,估算当前差异阈值,然后判断当前的数据是否异常,通过对数据异常的检查来确定异常的区域,接着通过正常的数据来不断的修正异常的数据区域,最终使整个检测数据达到可被正常使用的状态。
所述的数据降噪针对痕迹激光检测信号随机性较强、易受背景噪声干扰等显著特点,引入LOWESS算法进行时域数据平滑,以期最大程度的消除数据当中的细小锯齿,获取一个相对稳定的粗大连贯波峰趋势。同时引入具有近似的平移不变性、良好的方向选择性、有限的冗余和高效的阶数、完全重构性等特性的双树复小波算法对信号进行降噪,优化特征数目并提取其多尺度小波系数特征,抑制大数据量对后续比对运算复杂度带来的影响。
所述的旋转校正在我们的实际使用当中,在激光扫描的过程中,虽然进行了找平的操作,但是我们实际得到的图像仍然具有一定的倾斜,这种倾斜会对我们后续的比较工作造成较大的干扰,所以需要在预处理这个过程中,对其进行旋转校正。
假设扫描得到长度为n的痕迹信号为S={s1,s2,…,smid,…,sn},其中mid为其中位点,那么倾斜可以作如下的定义:
Figure BDA0002441465560000051
一般情况下RotateRange的都不为0,因此对于每一个输入的痕迹信号,一般都需要做相应的旋转校正工作。旋转校正的工作将根据RotateRange的取值对输入的信号进行相应的旋转处理工作,旋转校正在已知RotateRange的基础上,根据痕迹位置不同做不同幅度的修正,其中针对针对每一个点的修正方式如下:
Figure BDA0002441465560000052
其中newsi为修正后的取值,在远离中间端的取值将会被做较大幅度的修正,而接近于中间的取值收到的修正幅度则有限。
所述的步骤2.建立样本库包括参数训练以及样本库建立,参数训练采用图卷积神经网络算法进行训练。
所述的步骤2中的参数训练有以下基本步骤(1)建立训练集,(2)调参、建立图卷积神经网络模型,(3)引入待测数据,得到相似度计算结果。当样本库改变或使用场景改变时,使用一个更加具有针对性的训练集进行参数的训练。分别根据输入的样本痕迹检测信号变化梯度、小波系数特征DTW、差异方差、阈值序列等比对策略进行相似度的计算,计算得到的相似度数据后进行相应的分组识别并溯源推断可能归属的工具。相似度计算需要计算样本与输入样例的相似程度大小,相似程度的大小可以映射到0到1的区间范围之内,最小值0代表完全不相同,最大值1代表完全相同。
所述的(2)调参、建立图卷积神经网络模型具体方式为,G=(V,E).V表示节点集合,即
Figure BDA0002441465560000061
E表示边集合,即
Figure BDA0002441465560000062
所述的训练模型由两部分组成:1)负责采样K阶邻域中所有节点信息的GCN组件,2)自编码器(AE)组件,用于提取由GCN组件学习到的激活值矩阵A的隐藏特征,并结合拉普拉斯特征映射(LE)保留节点团簇结构。
在参数训练中GCN组件利用图卷积神经网络以节
Figure BDA0002441465560000063
为中心采样K步的所有节点的结构和特征信息,即编码K阶邻域信息,结合节点的标签训练生成作为自编码器组件输入的激活值矩阵A.GCN通过基于节点标签的有监督学习,可同时编码网络的局部结构和特征信息,略去K阶邻域外对生成节点的低维向量影响较小的次要结构信息,利用GCN习得的激活值矩阵A作为自编码器的输入,自编码器通过无监督学习的方式对A进一步提取特征信息,并结合拉普拉斯特征映射,将原网络映射到一个较低维的空间。
使用集成学习中的堆叠法(Stacking)将两个组件线性组合并联合训练组,这样整个模型习得的节点低维向量表示既能保留节点的特征信息又能保留结构息,借助Stacking,线性组合GCN组件和AE组件,并使用两个超参数α和β控制这两个组件损失函数,
最终将训练模型的损失函数定义为:
Figure BDA0002441465560000064
其中,yi为节点真是标签,
Figure BDA0002441465560000065
为GCN的预测标签,
Figure BDA0002441465560000066
为一个激活值矩阵,K为节点vi的邻域阶数,
Figure BDA0002441465560000067
为重构的激活值矩阵,
Figure BDA0002441465560000068
为AE自编码器第l层的隐层表示,L为AE的隐层层数。
其中,节点采样组件的损失函数为:
Figure BDA0002441465560000069
α为节点采样组件损失函数的权重。
自编码器组件AE的损失函数为:
Figure BDA0002441465560000071
β为自编码器组件AE损失函数的权重。
使用TensorFlow框架借助显卡(GPU)加速模型训练模型优化部分使用TensorFlow提供的AdamOptimizer优化器更新模型参数,通过使用动量(即参数的移动平均数)改善传统梯度下降,促进超参数动态调整,使模型可以快速有效的训练.为了能更好地处理大规模网络,将网络数据集随机划分为若干个等大的批处理样本(Batch)。每次只在一个batch上更新模型参数,进一步降低模型训练时的内存占用。
所述的步骤2中的样本库建立作为鉴别痕迹信号所属工具的根本依据,样本库的质量与建立方式直接影响最终结果采用以下步骤(1)确定需要鉴别的工具种类,范围,类型,用统一规则每个工具进行编号,详细记录其参数信息;(2)为了排除检测时的偶然性,单个断头痕迹需要至少检测两次,当两次的信号数据重合度能够达到99%以上时,才能认定为合格数据;(3)完成所有数据的采集后,同时采用此样本库的数据作为测试数据,针对每个特征进行测试,测试结果应当是每个样本数据和自己组别数据的数据相似程度明显高于其他组别,如果是混杂在一起的,则数据无效,重新进行(1)(2)步骤。
所述的步骤3样本对比包括对比样本预处理,多线程并行对比计算;所述的对比样本预处理,是在针对降噪后的痕迹的信号进行相似度比对之前,首先需要处理长度不定和部分重叠问题:如图5所示,1)设输入的数据分别为A和B,二者均是已经符合上述要求的数据;2)设定一个比对的最小长度L,即二者如果重合必须要满足的最小重合长度,从A中选择最长长度到最短长度的部分到B中进行比对,相当于选择不同的位置进行多次比对;3)迭代执行每个位置的对比,每次比对都比对二者对应位置差异度(对应位置的)的方差大小,如果最小就记录当前状态;4)完成了3)的功能后,交换A、B的角色,继续完成一次2、3、5)计算方差最小的差异度,输出比对结果。
图4中痕迹A和痕迹B都是来自于某一个共有痕迹的一部分,痕迹B对齐到痕迹A的1/4位置后,可以同痕迹A开始匹配,直到A的匹配结束。在对齐AB后,二者的匹配是一直持续着的,直到有一方结束。
在CST-Boosting当中,默认情况下我们选择的重合方式是两方痕迹长度里面最小的哪一个的70%的长度,选择70%的原因是因为如果不进行裁剪,会因为局部的差异对最终的造成较大的差异,而进行了裁剪后则能够自动选择其最有价值的70%的部分进行相似度衡量。同时,需要注意的是,这70%的位置并不是固定的,其70%的意思是每次比时,只选择70%的长度,而这70%长度的痕迹则可能是断头上的任意位置,而最终输出的也只是最相似的那70%的位置。
如何选择这70%的位置,我们假设测试样本为A,其信号为SA,而在样本库中的已鉴别的样本为B,其信号为SB,那么A的某个位置下70%的信号为SAi,而B的70%为SBj
此时,假设相似度计算的算法为一个函数H(x,y)∈[0,1]。
那么i和j的确定方式就是让如下函数取值最大的i,j的取值。
Maximumi,j H(a*SAi+b,SBj)
即对于任意一个相似度计算方式,都要找到A中70%的数据SAimax与B中某70%的数据SBimax,此时SAimax经过线性变换后可以得到H(x,y)认为与B中SBimax相似程度最大的结果,只要A、B中选择的位置不是SAimax,SBimax,那么最后得到的结果不会大于它。
如图2所示,所述的多线程并行对比计算是将一个输入痕迹的一条测试样本,同样本库里一个样本的组合认为是一个Task,即在一个Task里面正好有一个已有样本和一个测试样本,每个测试样本随机的放入一个线程池当中;线程池的数量和并发数量是通过当前运行环境的可用CPU核心合数计算出来的,一般情况下能够正好充分利用当前机器的所有核心数量;每一个Task的计算结果计算得到之后将会在后续的步骤中进行合并。在CST-Boosting当中,通过结合实际的使用场景,其使用的较为粗粒度的多线程的运行方式完美的避开了资源共享和共享锁这两个问题,并且不需要设计太多专门的多线程代码,可以直接使用效率较高的经典算法库。在图2中,假设共有3个输入和n个样本,其中为了简单描述,我们这里只画出了12和n这三个编号的图示。因为在这张图上共计有3*3个需要比对的Task,并且分散在了四个线程池当中(可以假定认为是在一个4核心的CPU上),四核线程池随机分配到计算任务Task,不同线程池内的Task互不干扰,并统一由所在线程池自己调度,如果运行处结果则会将数据暂存在某个地方。
所述的步骤4.相似比对策略合并输出,将不同的计算策略得到的结果都映射到H(x,y)∈[0,1]这样的形式。由于不同的算法,计算的可能是差异程度、差异度、或者是相似度,其得到的结果取值也不会全部都落在0到1之间,因此这里针对不同类型的算法制定了相关的结果映射方法。
其中假若计算的是已经规范化的单位向量的距离di,j,考虑到di,j的取值本身就在0-1之间,且完全相同时距离为0,那么有:H=1-di,j假若是诸如是重叠比率pi,j等同样取值落在0和1之前,且和1为最为相似的取值那么H=1-pi,j假若计算的结果是无法分布在0-1之间的vi,j,那么有:
Figure BDA0002441465560000091
其中w为经验权值,b为偏置,具体的参数由具体的程序决定。
采用线性模型将多个策略计算得到多个策略后,对相似度进行打分,然后结合起来;假设有n个算法策略,计算得到的结果向量
Figure BDA0002441465560000092
那么我们这里同样给出一个各策略的权值
Figure BDA0002441465560000093
那么我们认为最后的结果为:
Figure BDA0002441465560000094
其中、
Figure BDA0002441465560000095
表示算法策略的结果相连,
Figure BDA0002441465560000096
表示各算法策略的权值。
所述的算法对比策略包括基于梯度分布的比较策略、基于差异值方差的比较策略、基于阈值的序列的对比策略、基于小波变换的序列对比策略。
基于梯度分布的比较策略,梯度特征是根据工具痕迹刃口深浅的变化速率的特性去鉴别工具种类的。不同的工具,具有不同的刀口纹路,这些不一样的纹路使得剪切出来的痕迹的形状等都不一样。该方法的原理在于不同类型工具的痕迹,其刀口的梯度(也就是刀口纹路的变化率)的分布存在一定的规律,根据一个剪切痕迹上变化率的一个分布可以辅助判断痕迹的工具类型。对于输入长度为m的样本I={i1,i2,…,im},则它两两之间的梯度变化为D={d1,d2,…,dm-1},长度为m-1,其中:
dj=|ij-ij+1|
基于差异值方差的比较策略在使用基于方差策略的时候,并不能直接使用,因为我们给定的是两个信号,而方差却是用来衡量一组数据的。为此,我们做如下的工作:假设输入I1={i11,i12,…,i1m},I2={i21,i22,…,i2m}两个信号,然后做两个信号的差值绝对值,并在此基础上计算得到方差(var方程就是方差纠求解方程),那么其基本公式是:
var(g((I1-I2)v)),
v一般取2表示差异功率,g(x)为一个映射函数
为了防止少部分未完全过滤的异常值,或个别极大的单独点对最终的结果造成较大的干扰,g(x)会对数据做一个映射,一般情况下,当差值大于一定幅度后,降低改点对整体结果的干扰。g(x)一般可以选择对数函数或其他非线性的形式的函数。通过上式计算出来的结果,就是一个最终的两个输入的偏离程度,一般来说如果两个信号的差异程度不大,那么即便在不做变换的前提下,其得到的方差数值一般来说是要更小的。这个式子衡量的是两个输入之间形态的偏离程度,如果他们的差值恒定不变,那就证明二者其实形态上是完全一样的,缺的只是一个上下位移而已,而如果两个相差很大,则证明二者本身形态的偏离是很大的。
基于阈值的序列的对比策略,一般情况下,最简单的对比两个曲线相似程度的方式是计算二者的差值,并将所有差值进行累加,最终结果越大的则偏离程度越大,相似度也越低。考虑到实际机器扫描存在误差,并且过于细小的差异一般可以忽略的经验,可以在此基础上加入一个阈值,两条曲线在某一个位置的差异在一定范围内的,可以近似的认为是相等的,而在范围之外的,则需要计入偏离。
而在痕迹的比对当中,依然可以借鉴这种方式,在相似度计算当中已经介绍了如下的公式:
Maximumi,j H(a*SAi+b,SBj)
即我们会考虑进行一定的变换,在这个基础上,可以在不同的变化下,按照这种方式,计算基于阈值差异的相似度。我们所要做的,就是在一个给定的变换范围内寻找一个差异程度最小的变换方式。此时,我们依然假设截取痕迹A和痕迹B,经过变换后的输入为I1={i11,i12,…,i1m},I2={i21,i22,…,i2m}两个信号。
那么差异程度的计算方式为:
Figure BDA0002441465560000111
其中:
Figure BDA0002441465560000112
c为给定阈值,cost(x)为一个代价函数,且cost(x)>0
context(k)为一个结合了之前匹配情况的权值,其主要是连续考虑位置k之前的匹配情况,一般来说如果前面的匹配情况一直很好,到了位置k突然下降,那么可以认为是一种偶然的误差,context(k)计算得到一个较小的权值,降低最后的影响,而如果前面的匹配一直很糟,位置k变成0了,我们也应该考虑认为其是偶然因素,同样给定一个较小的权值。
如图3所示,为每一个比较的Task构造一个比较器,核心代码并不需要针对某一个特定的算法设计一个比较类,也不需要为每一个Task分别设定不同参数,调用不同方法;每一个具体的算法比较策略都实现了一个统一接口的算法比较器,并且任务生成Task的时候都统一的调用了工厂构造一个对应具体算法的比较器,由Task工厂生成的比较器在后续的运算过程中,其使用的方式是完全一致的,具体的算法策略细节已经被屏蔽,当我们需要修改或者新增新的算法策略的时候,不需要改动其他策略算法代码。
本发明提出了一种基于多策略模式的线条痕迹批量相似度比对方法,对激光检测痕迹信号进行降噪和平滑后,利用优化动态时间规整算法、变化速率梯度识别等多比对策略批量实现痕迹特征相似比对,基于Boosting融合多策略比对结果,利用机器学习得到最优比对。多用例多策略的Boosting思路能够不断的增加新的算法技术进入到CST-Boosting框架当中,随着进一步深入研究,其算法性能也会随之增长。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本案进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本案的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本案技术方案的精神,其均应涵盖在本案请求保护的技术方案范围当中。

Claims (11)

1.一种基于多策略模式的线条痕迹批量比对系统,其特征在于:所述的多策略模式的线条痕迹批量比对系统应用于刑事侦查、枪弹痕迹检测以及其他需要进行痕迹比对的场景,所述的比对系统处理流程为,步骤1.检测数据预处理,步骤2.建立样本库,步骤3.样本对比,步骤4.相似比对策略合并输出。
2.根据权利要求1中任意一条权利要求所述的一种基于多策略模式的线条痕迹批量比对系统,其特征在于:所述的步骤1对检测数据预处理步骤包括(1)检测异常数据处理,(2)数据降噪,(3)旋转校正。
3.根据权利要求1和2所述的一种基于多策略模式的线条痕迹批量比对系统,其特征在于:所述的步骤2.建立样本库包括参数训练以及样本库建立,参数训练采用图卷积神经网络算法进行训练。
4.根据权利要求1和2所述的一种基于多策略模式的线条痕迹批量比对系统,其特征在于:所述的步骤2中的参数训练有以下基本步骤为(1)建立训练集,(2)调参、建立图卷积神经网络模型,(3)引入待测数据,得到相似度计算结果。
5.根据权利要求4所述的一种基于多策略模式的线条痕迹批量比对系统,其特征在于:所述的(2)调参、建立图卷积神经网络模型具体方式为,G=(V,E).V表示节点集合,即
Figure FDA0002441465550000011
Figure FDA0002441465550000012
表示边集合,即
Figure FDA0002441465550000013
所述的参数训练由两部分组成:负责采样K阶邻域中所有节点信息的GCN组件,编码器(AE)组件,用于提取由GCN组件学习到的激活值矩阵A的隐藏特征,并结合拉普拉斯特征映射(LE)保留节点团簇结构;
在参数训练中GCN组件利用图卷积神经网络以节
Figure FDA0002441465550000014
为中心采样K步的所有节点的结构和特征信息,即编码K阶邻域信息,结合节点的标签训练生成作为自编码器组件输入的激活值矩阵A,GCN通过基于节点标签的有监督学习,可同时编码网络的局部结构和特征信息,略去K阶邻域外对生成节点的低维向量影响较小的次要结构信息,利用GCN习得的激活值矩阵A作为自编码器的输入,自编码器通过无监督学习的方式对A进一步提取特征信息,并结合拉普拉斯特征映射,将原网络映射到一个较低维的空间。
6.根据权利要求4所述的一种基于多策略模式的线条痕迹批量比对系统,其特征在于:所述的步骤(1)建立训练集,包括以下步骤,1)确定需要鉴别的工具种类,范围,类型,用统一规则每个工具进行编号,详细记录其参数信息;2)为了排除检测时的偶然性,单个断头痕迹需要至少检测两次,两次的信号数据重合度能够达到99%,认定为合格数据;3)完成所有数据的采集后,同时采用此样本库的数据作为测试数据,针对每个特征进行测试,测试结果应当是每个样本数据和自己组别数据的数据相似程度明显高于其他组别,如果数据混杂,则数据无效,重新进行1)2)步骤。
7.根据权利要求1所述的一种基于多策略模式的线条痕迹批量比对系统:其特征在于:所述的步骤3样本对比,包括对比样本预处理,多线程并行对比计算;所述的对比样本预处理,是在针对降噪后的痕迹的信号进行相似度比对之前,首先需要处理长度不定和部分重叠问题:1)设输入的数据分别为A和B,;2)设定一个比对的最小长度L,即二者如果重合必须要满足的最小重合长度,从A中选择最长长度到最短长度的部分到B中进行比对;3)迭代执行每个位置的对比,如果最小就记录当前状态;4)完成了3)的功能后,交换A、B的角色,继续完成一次2、3、5)计算方差最小的差异度,输出比对结果。
8.根据权利要求7所述的一种基于多策略模式的线条痕迹批量比对系统:其特征在于:所述的多线程并行对比计算是将一个输入痕迹的一条测试样本,同样本库里一个样本的组合认为是一个Task,即在一个Task里面正好有一个已有样本和一个测试样本,每个测试样本随机的放入一个线程池当中;线程池的数量和并发数量是通过当前运行环境的可用CPU核心合数计算出来的,一般情况下能够正好充分利用当前机器的所有核心数量;每一个Task的计算结果计算得到之后将会在后续的步骤中进行合并。
9.根据权利要求1、2、6、7、8中任意一条权利要求所述的一种基于多策略模式的线条痕迹批量比对系统:其特征在于:所述的步骤4.相似比对策略合并输出,采用线性模型将多个策略计算得到多个策略后,对相似度进行打分后结合;假设有n个算法策略,计算得到的结果向量
Figure FDA0002441465550000021
那么我们这里同样给出一个各策略的权值
Figure FDA0002441465550000022
最后的结果为:
Figure FDA0002441465550000023
其中、
Figure FDA0002441465550000024
表示算法策略的结果相连,
Figure FDA0002441465550000025
表示各算法策略的权值。
10.根据权利要求9所述的一种基于多策略模式的线条痕迹批量比对系统:其特征在于:所述的算法对比策略包括基于梯度分布的比较策略、基于差异值方差的比较策略、基于阈值的序列的对比策略、基于小波变换的序列对比策略。
11.根据权利要求9和10所述的一种基于多策略模式的线条痕迹批量比对系统:其特征在于:为每一个比较的Task构造一个比较器,每一个具体的算法比较策略都实现了一个统一接口的算法比较器,任务生成Task的时候统一调用了工厂构造一个对应具体算法的比较器,由Task工厂生成的比较器在后续的运算过程中,其使用的方式是完全一致的,具体的算法策略细节已经被屏蔽,需要修改或者新增新的算法策略的时候,不需要改动其他策略算法代码。
CN202010266567.9A 2020-04-07 2020-04-07 一种基于多策略模式的线条痕迹批量比对系统 Pending CN111639664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010266567.9A CN111639664A (zh) 2020-04-07 2020-04-07 一种基于多策略模式的线条痕迹批量比对系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010266567.9A CN111639664A (zh) 2020-04-07 2020-04-07 一种基于多策略模式的线条痕迹批量比对系统

Publications (1)

Publication Number Publication Date
CN111639664A true CN111639664A (zh) 2020-09-08

Family

ID=72330624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010266567.9A Pending CN111639664A (zh) 2020-04-07 2020-04-07 一种基于多策略模式的线条痕迹批量比对系统

Country Status (1)

Country Link
CN (1) CN111639664A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381108A (zh) * 2020-04-27 2021-02-19 昆明理工大学 一种基于图卷积神经网络深度学习的枪弹痕迹相似度识别方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105674887A (zh) * 2016-01-19 2016-06-15 昆明理工大学 一种现场残缺线性痕迹特征重合度比对方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105674887A (zh) * 2016-01-19 2016-06-15 昆明理工大学 一种现场残缺线性痕迹特征重合度比对方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NAN PAN .ETC: "Airport Cable-cutting ToolMark Rapid Tracing Based on Single-point Laser Sensing", 《SENSORS AND MATERIALS》 *
潘楠等: "非线性线条痕迹小波域特征快速溯源算法研究", 《电子测量与仪器学报》 *
王杰等: "基于图卷积网络和自编码器的半监督网络表示学习模型", 《模式识别与人工智能》 *
阚立峰: "工具线形痕迹单点激光检测特征自适应匹配技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381108A (zh) * 2020-04-27 2021-02-19 昆明理工大学 一种基于图卷积神经网络深度学习的枪弹痕迹相似度识别方法和系统

Similar Documents

Publication Publication Date Title
US11113505B2 (en) Palm print image matching techniques
Yang et al. A constant-space belief propagation algorithm for stereo matching
US6882958B2 (en) System and method for curve fitting using randomized techniques
AU2009246750B2 (en) Fingerprint representation using gradient histograms
KR101183391B1 (ko) 메트릭 임베딩에 의한 이미지 비교
CN113033549B (zh) 定位图获取模型的训练方法和装置
CN113569903A (zh) 数控机床刀具磨损预测方法、系统、设备、介质、终端
US20030053696A1 (en) System and method for performing edge detection in an image
CN110717687A (zh) 一种评价指数获取的方法及系统
El-Khatib et al. Theoretical and experimental evaluation of hybrid ACO-k-means image segmentation algorithm for MRI images using drift-analysis
CN110956613B (zh) 基于图像质量的目标检测算法性能归一化评价方法及系统
Ukwuoma et al. Image inpainting and classification agent training based on reinforcement learning and generative models with attention mechanism
CN113392241B (zh) 测井图像清晰度的识别方法、装置、介质及电子设备
CN111639664A (zh) 一种基于多策略模式的线条痕迹批量比对系统
Ma et al. Denoised labels for financial time series data via self-supervised learning
US10346716B2 (en) Fast joint template machining
CN113407425A (zh) 基于BiGAN与OTSU的内部用户行为检测方法
CN113255927A (zh) 逻辑回归模型训练方法、装置、计算机设备和存储介质
Heizmann et al. Imaging and analysis of forensic striation marks
KR102470856B1 (ko) 인공지능을 이용한 크라우드 아웃소싱 작업 검수 방법 및 그 장치
JPWO2009151002A1 (ja) パターン識別方法、装置およびプログラム
Liu et al. A selective quantization approach for optimizing quantized inference engine
Privezentsev et al. Development of fuzzy fractal representation of the image
CN116109627B (zh) 基于迁移学习和小样本学习缺陷检测方法、装置及介质
KR102480575B1 (ko) 인공지능을 이용한 크라우드 아웃소싱 작업 분배 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200908