CN115389607A

CN115389607A - 一种墨水分类和溯源的方法

Info

Publication number: CN115389607A
Application number: CN202210875523.5A
Authority: CN
Inventors: 陈晓红; 杨旭; 张敬伟; 汤昊; 张清华; 王雅晨
Original assignee: Academy Of Forensic Science
Current assignee: Academy Of Forensic Science
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-11-25

Abstract

本发明公开一种墨水分类和溯源的方法，包括：建立一个全彩色喷墨打印墨水质谱数据库，墨水质谱数据库为通过实时直接分析质谱方法在大气压下对物质的原始状态进行快速和直接的分析获得；通过实时直接分析质谱方法获得待溯源样品的墨水质谱数据；两质谱数据均是按照质谱图像上的每个像素点为最小数据单元，将墨水质谱数据库和样品墨水质谱数据一起进行质谱对齐和标准化预处理后形成质谱峰矩阵；对质谱峰矩阵进行降维处理，将降维处理后的数据作为质谱特征数据，质谱成像技术对降维数据进行可视化，直接呈现墨水之间的不同，或者进一步使用卷积神经网络(CNN)模型对质谱特征数据进行分类和溯源。经本申请实现对墨水品牌和型号进行稳健的高准确率的溯源。

Description

一种墨水分类和溯源的方法

技术领域

本发明涉及司法笔迹鉴定的技术领域，特别是涉及一种墨水分类和溯源的方法。

背景技术

在司法笔迹鉴定中，墨水分析是法庭科学领域的重要工作之一，通常包含区分两种或多种墨水是否相同，以及预测墨水的来源，如品牌、型号、种类等。针对区别两种或几种墨水及区分墨水是否相同的技术任务学术界的研究较多，其中质谱分辨率高、定性能力好，是一种有效的墨水区分方法，主要解决的是两种或多种墨水之间的鉴别问题，主要是墨水的分类。墨水的质谱成像技术能够在同一视场内，对不同墨水的质谱或处理后的质谱进行分析和可视化，在墨水分析中具有独特的优势。目前的研究具有局限性，即墨水需要在同一载体上小区域进行一次性检测后成像，尚未有直接应用于同一载体不同区域、不同载体(分离载体)等不能一次性检测成像的情况。

而当前墨水的溯源研究较少，尚不能满足法庭科学墨水溯源的实际需求。预测墨水的来源(如品牌、型号、种类等)任务需要建立一个庞大的数据库，采用质谱法和质谱技术是墨水分析的有效手段，但质谱数据是一种高维数组，在海量数据库种检索和匹配的分析工作量巨大，无论人工视觉观察判断还是计算机自动化辅助判断难度都很大。

墨水溯源需要一个庞大的墨水数据库和高效的溯源方法，当前的技术方法普遍缺少一个高质量的墨水数据库作为背景数据，没有对同一墨水和不同墨水质谱数据的变化规律进行系统的研究，因此解决这项任务的技术还不够成熟。在法庭科学实践中，无法有效提供墨水的溯源信息，在应用上存在严重的瓶颈问题。

发明内容

本发明的目的是提供一种墨水分类和溯源的方法，能够实现对海量高维质谱数据进行降维和可视化，质谱成像是一种快速、直观的墨水分类方法，具有高度的溯源准确性，实现科学、准确的判断墨水的来源。

为实现上述技术目的，本发明提供一种墨水分类和溯源的方法，其包括：建立一个全彩色喷墨打印墨水质谱数据库，其中：所述墨水质谱数据库为通过实时直接分析质谱方法在大气压下对物质的原始状态进行快速和直接的分析获得；通过所述实时直接分析质谱方法获得待溯源样品的墨水质谱数据；所述墨水质谱数据库和所述样品墨水质谱数据均是按照质谱图像上的每个像素点为最小数据单元，将所述墨水质谱数据库和所述样品墨水质谱数据一起进行质谱对齐和标准化预处理后形成质谱峰矩阵；对所述质谱峰矩阵进行降维处理，将所述降维处理后的数据作为质谱特征数据；采用质谱成像技术对所述质谱特征数据进行可视化后并进行如下方法分类和溯源：直接观察质谱成像图上墨水之间的不同，以作为法庭科学墨水分析中一种快速、直观的分类方法；对于质谱成像未发现差异的墨水，进一步使用卷积神经网络模型以对所述待溯源样品中的墨水品牌和型号分别进行分类和溯源。

本发明提供一种墨水溯源方法，其创造基于一个全彩色(黑色、品红、黄色、蓝色)喷墨打印墨水的实时直接分析质谱(DART－MS)数据库，同时对样品墨水建立样品墨水质谱数据，对两数据利用降维技术帮助对海量高维质谱数据进行降维，质谱成像技术对降维数据进行可视化，直接呈现墨水之间的不同，可作为法庭科学墨水分析中一种快速、直观的分类方法；对于质谱成像未发现差异的墨水，进一步使用卷积神经网络模型对所述质谱特征数据进行分类和溯源，对同一墨水、不同墨水、墨水品牌和型号质谱的变化进行了系统的研究，以质谱数据库为背景信息，为科学、准确的判断墨水的来源提供了坚实的基础。

作为进一步的改进，所述待溯源样品包括：背景材料和所述背景材料上的墨水材料。

作为进一步的改进，所述墨水材料在所述背景材料上呈现为文字、线条、色块或图案中的至少一种形式。

作为进一步的改进，所述样品墨水质谱数据的获得过程为：在相同条件和相同质谱方法下分别获得：包括所述背景材料和所述墨水材料在内的整体样品质谱数据，和排除所述墨水材料而获得的背景材料质谱数据；在所述整体样品质谱数据中扣除背景材料质谱数据，以获得所述样品墨水质谱数据。

作为进一步的改进，所述降维处理采用：主成分分析方法、非负矩阵分解方法和概率潜在语义分析方法中的至少一种进行降维处理。

作为进一步的改进，在采用所述主成分分析方法、非负矩阵分解方法和概率潜在语义分析方法进行降维处理时，概率潜在语义分析方法参数选择包括：变化阈值等于0.01。

作为进一步的改进，在同时采用所述主成分分析方法、所述非负矩阵分解方法和所述概率潜在语义分析方法进行降维处理时，分别选取所述主成分分析方法降维处理后的300个维度数据，所述非负矩阵分解方法降维处理后的前300个维度数据，和所述概率潜在语义分析方法降维处理后的前300个维度数据，以形成共3×300维度的融合数据作为所述质谱特征数据。

作为进一步的改进，所述分类和溯源中，其中80％的数据作为训练集，剩余20％的数据作为测试集。

作为进一步的改进，在质谱成像比较上，所述主成分分析方法和所述非负矩阵分解方法的成像效果接近，但所述非负矩阵分解方法在成像的层次上更丰富；所述概率潜在语义分析方法与所述主成分分析方法和所述非负矩阵分解方法在成像效果上存在差异，三种方法之间存在成像效果优势互补的关系，所述主成分分析方法和所述非负矩阵分解方法对不同品牌的墨水显示明显的区别，所述概率潜在语义分析方法对相同品牌不同型号墨水显示区别。

作为进一步的改进，在所述实时直接分析质谱方法中，采用实时直接分析离子源、高分辨质谱仪、实时直接分析软件、Xcalibur软件、赛默飞QExactive软件。

作为进一步的改进，在所述实时直接分析质谱方法中的参数包括：45°角吹扫模块，离子源解离气体为氦气，温度为250℃，X－Y图像测试模式，X轴速度为1毫米/秒，Y轴速度为1毫米/秒，X轴的测试时间设定为0.25分，所述Xcalibur软件建立方法的参数为：正离子模式全扫描，扫描范围为50～750m/z，分辨率为35000FWHM，网格电压为150V。

作为进一步的改进，在所述实时直接分析质谱方法中包括样品检测步骤序列，所述样品检测步骤序列包括：对所述待溯源样品的确定标准样品区域，在所述样品区域中进行序列步进。

作为进一步的改进，所述样品区域的长度为1.5厘米，高度0.5厘米，所述序列步进的顺序是在所述样品区域内沿所述高度内平均分成5个检测行，自最低检测行逐行并与上一行首尾相连直至上升到最高检测行，且每一行检测100个点。

作为进一步的改进，所述质谱图像包括：一次性检测成像的情况和无法一次性检测成像的情况，所述无法一次性检测成像的情况包括：同一载体的不同区域成像和不同载体成像，对于所述无法一次性检测成像墨水，先分别进行检测然后融合成一个质谱图像，所述墨水质谱数据库和所述样品墨水质谱数据采用的所述质谱图像的格式为imzML格式并保存，以进行所述进行质谱对齐和标准化预处理。

作为进一步的改进，所述质谱对齐和标准化预处理的步骤依次包括：导入所述墨水质谱数据库和所述样品墨水质谱数据，强度转化和平滑，基线调整，强度校准和提取质谱峰，对齐和形成所述质谱峰矩阵。

作为进一步的改进，所述墨水质谱数据库包含市场占有率前三品牌的黑色喷墨打印墨水型号，所述全彩色包括：黑色、品红、黄色、蓝色。

作为进一步的改进，所述卷积神经网络模型的训练模型包括一个输入层，两个卷积层和一个输出层共四层，所述输入层为初始层并包含设计的CNN模型中的油墨信息；两个所述卷积层分别包含64个和32个可优化过滤器，相应用于转换输入或输入之前的第一个隐藏层；最后一层是输出层，代表墨水来源的分类。

作为进一步的改进，针对不同墨水量和墨水不同空间分布情况，采取大面积扫描和所述质谱图像多像素集体决策提高方法的适用范围和准确率。

作为进一步的改进，所述卷积神经网络基于每个质谱像素进行溯源，当待检测样品的墨水量和墨水空间分布变化时，通过多像素集体决策以提高溯源准确率。

作为进一步的改进，选取250个或更多像素，对溯源结果进行硬投票作为最后的结果。

本发明所述的墨水溯源方法，自带背景数据库，包含三大品牌全彩色(黑色、品红、黄色、和蓝色)墨水，提供了墨水品牌溯源和型号溯源的基础数据，采用主成分分析方法、非负矩阵分解方法和概率潜在语义分析方法进行降维处理，特别是三种方法联用能够更好的把多种型号的墨水进行分类，显著提升了墨水溯源的准确率。

附图说明

图1为本发明样品检测步骤序列示意图。

附图标记：1－样品区域、2－检测行。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种墨水分类和溯源的方法，其包括：建立一个全彩色喷墨打印墨水质谱数据库，其中：所述墨水质谱数据库为通过实时直接分析质谱方法在大气压下对物质的原始状态进行快速和直接的分析获得；通过所述实时直接分析质谱方法获得待溯源样品的墨水质谱数据；所述墨水质谱数据库和所述样品墨水质谱数据均是按照质谱图像上的每个像素点为最小数据单元，将所述墨水质谱数据库和所述样品墨水质谱数据一起进行质谱对齐和标准化预处理后形成质谱峰矩阵；对所述质谱峰矩阵进行降维处理，将所述降维处理后的数据作为质谱特征数据；采用质谱成像技术对所述质谱特征数据进行可视化后并进行如下方法分类和溯源：直接观察质谱成像图上墨水之间的不同，以作为法庭科学墨水分析中一种快速、直观的分类方法；对于质谱成像未发现差异的墨水，进一步使用卷积神经网络模型以对所述待溯源样品中的墨水品牌和型号分别进行分类和溯源。

作为进一步的改进，在所述实时直接分析质谱方法中包括样品检测步骤序列，所述样品检测步骤序列包括：对所述待溯源样品的确定标准样品区域1，在所述样品区域1中进行序列步进。

作为进一步的改进，所述样品区域1的长度为1.5厘米，高度0.5厘米，所述序列步进的顺序是在所述样品区域内沿所述高度内平均分成5个检测行2，自最低检测行逐行并与上一行首尾相连直至上升到最高检测行，且每一行检测100个点。

作为进一步的改进，所述质谱图像包括：一次性检测成像的情况和无法一次性检测成像的情况，所述无法一次性检测成像的情况包括：同一载体的不同区域成像和不同载体成像，对于所述无法一次性检测成像墨水，先分别进行检测然后融合成一个质谱图像，所述墨水质谱数据库和所述样品墨水质谱数据采用的所述质谱图像的格式为imzML格式并保存，以进行所述进行质谱对齐和标准化预处理。在优选的实施例中，对于同一载体不同区域、不同载体(分离载体)等不能一次性检测成像的情况，进行了优化处理，更适应该类特殊情况的墨水分类和溯源。

本发明所述的墨水溯源方法，自带背景数据库，包含三大品牌黑色墨水，提供了墨水品牌溯源和型号溯源的基础数据，采用主成分分析方法，非负矩阵分解法和概率隐语义分析方法进行降维处理，特别是三种方法联用能够更好的把多种型号的墨水进行分类，显著提升了墨水溯源的准确率。

本发明创造基于一个全彩色(黑色、品红、黄色和蓝色)喷墨打印墨水的实时直接分析质谱DART－MS数据库，利用主成分分析、非负矩阵分解和概率隐语义分析技术，帮助对海量高维质谱数据进行降维和可视化，形成一个高质量的墨水数据库作为背景数据，对同一墨水和不同墨水质谱数据的变化规律进行系统的研究。本发明创造包含一个106种的全彩色(黑色、品红、黄色和蓝色)喷墨打印墨水数据库(惠普、佳能、爱普生)，对同一墨水和不同墨水质谱的变化进行了系统的研究，数据库提供了同一墨水和不同墨水质谱特征作为背景信息，为科学、准确的判断墨水的来源提供了坚实的基础。

实时直接分析质谱(DART－MS)实现在大气压下对物质的原始状态进行快速和直接的分析，几乎不需要的样品制备。DART－MS通过质谱分析油墨，通过大面积扫描喷墨打印字符，获得优秀的质谱数据。同时检测纸张的空白质谱，将墨迹质谱减去纸张空白质谱的数据提供后续分析。将上述的质谱数据，按照质谱图像的格式“imzML”保存。

实时直接分析质谱(DART－MS)中，检测是仪器和参数为：

仪器：实时直接分析离子源(Ion Sense公司)，Q－Exactive Obitrap高分辨质谱仪(Thermo Scientific公司)。采用DART软件、Xcalibur 3.0软件、Thermo Q Exactive软件。DART参数为：45°角吹扫模块，离子源解离气体为氦气、温度为250℃。X－Y Imaging测试模式，X轴速度为1mm/sec，Y轴速度为1mm/sec。X轴的测试时间设定为0.25min。Xcalibur建立方法的参数为：正离子模式，全扫描(Full Scan)，扫描范围为50～750m/z，分辨率为35000FWHM，网格电压为150V。

将上述扣除背景的质谱数据经过质谱对齐和标准化预处理，预处理包括：导入所述墨水质谱数据库和所述样品墨水质谱数据、强度转化、平滑、基线调整，强度校准、提取质谱峰对齐、质谱峰矩阵。预处理后使用主成分分析、非负矩阵分解和概率隐语义分析方法对数据进行降维处理。概率潜在语义分析方法参数选择：变化阈值等于0.01预处理后也可单独或者同时采用主成分分析、非负矩阵分解和概率隐语义分析方法进行降维。主成分分析方法和所述非负矩阵分解方法比较接近，非负矩阵分解方法的成像层次更丰富；所述概率潜在语义分析方法与上述两种方法存在较大差异。三种方法之间存在优势互补的关系。

在同时采用主成分分析、非负矩阵分解和概率隐语义分析进行降维处理时，融合主成分分析、非负矩阵分解和概率隐语义分析溯源的步骤：

分别选取主成分分析、非负矩阵分解和概率隐语义分析降维处理后的前300个维度的数据融合成为作为特征数据(共900个维度)，对于每个质谱通过PCA和UMAP降维，提取出了900个特征。最后用卷积神经网络模型，对墨水的质谱特征数据进行分类和溯源，其中80％的数据作为训练集，剩余20％的数据作为测试集，(是按照质谱图像上的每个像素点为最小数据单元)，对墨水的品牌和型号分别进行分类和溯源。将质谱图像上的每个像素点900维数据重塑成30＊30的矩阵作为卷积神经网络的输入数据，结果显示，黑色、品红和黄色三种墨水溯源测试准确率维100％，蓝色墨水维99.6％。

和传统方法相比，本发明是一种基于主成分分析、非负矩阵分解和概率隐语义分析技术和卷积神经网络的墨水溯源方法，主成分分析、非负矩阵分解和概率隐语义分析方法联用能够成功的将106种型号的墨水进行分类和溯源。自带背景数据库，包含三大品牌(惠普、佳能、爱普生)106种全彩色(黑色、品红、黄色和蓝色)墨水，提供了墨水品牌溯源和型号溯源的基础数据。待溯源样品的样品最小面积尺寸可在0.15mm²，对墨水的品牌和型号的溯源准确性高。利用质谱数据预测墨水来源，可直接应用于司法笔迹鉴定的技术领域。

应了解本发明所要保护的范围不限于非限制性实施方案，应了解非限制性实施方案仅仅作为实例进行说明。本申请所要要求的实质的保护范围更体现于独立权利要求提供的范围，以及其从属权利要求。

Claims

1.一种墨水分类和溯源的方法，其包括：建立一个全彩色喷墨打印墨水质谱数据库，其特征在于：

所述墨水质谱数据库为通过实时直接分析质谱方法在大气压下对物质的原始状态进行快速和直接的分析获得；

通过所述实时直接分析质谱方法获得待溯源样品的墨水质谱数据；

所述墨水质谱数据库和所述样品墨水质谱数据均是按照质谱图像上的每个像素点为最小数据单元，将所述墨水质谱数据库和所述样品墨水质谱数据一起进行质谱对齐和标准化预处理后形成质谱峰矩阵；

对所述质谱峰矩阵进行降维处理，将所述降维处理后的数据作为质谱特征数据；

采用质谱成像技术对所述质谱特征数据进行可视化后并进行如下方法分类和溯源：

(1)直接观察质谱成像图上墨水之间的不同，以作为法庭科学墨水分析中一种快速、直观的分类方法；

(2)对于质谱成像未发现差异的墨水，进一步使用卷积神经网络模型以对所述待溯源样品中的墨水品牌和型号分别进行分类和溯源。

2.根据权利要求1所述的一种墨水分类和溯源的方法，其特征在于：所述待溯源样品包括：背景材料和所述背景材料上的墨水材料。

3.根据权利要求2所述的一种墨水分类和溯源的方法，其特征在于：所述墨水材料在所述背景材料上呈现为文字、线条、色块或图案中的至少一种形式。

4.根据权利要求3所述的一种墨水分类和溯源的方法，其特征在于：所述样品墨水质谱数据的获得过程为：

在相同条件和相同质谱方法下分别获得：包括所述背景材料和所述墨水材料在内的整体样品质谱数据，和排除所述墨水材料而获得的背景材料质谱数据；

在所述整体样品质谱数据中扣除背景材料质谱数据，以获得所述样品墨水质谱数据。

5.根据权利要求1所述的一种墨水分类和溯源的方法，其特征在于：所述降维处理采用：主成分分析方法、非负矩阵分解方法和概率潜在语义分析方法中的至少一种进行降维处理。

6.根据权利要求5所述的一种墨水分类和溯源的方法，其特征在于：在采用所述主成分分析方法、非负矩阵分解方法和概率潜在语义分析方法进行降维处理时，概率潜在语义分析方法参数选择包括：变化阈值等于0.01。

7.根据权利要求6所述的一种墨水分类和溯源的方法，其特征在于：在同时采用所述主成分分析方法、所述非负矩阵分解方法和所述概率潜在语义分析方法进行降维处理时，分别选取所述主成分分析方法降维处理后的300个维度数据，所述非负矩阵分解方法降维处理后的前300个维度数据，和所述概率潜在语义分析方法降维处理后的前300个维度数据，以形成共3×300维度的融合数据作为所述质谱特征数据。

8.根据权利要求7所述的一种墨水分类和溯源的方法，其特征在于：所述分类和溯源中，其中80％的数据作为训练集，剩余20％的数据作为测试集。

9.根据权利要求8所述的一种墨水分类和溯源的方法，其特征在于：在质谱成像比较上，所述主成分分析方法和所述非负矩阵分解方法的成像效果接近，但所述非负矩阵分解方法在成像的层次上更丰富；所述概率潜在语义分析方法与所述主成分分析方法和所述非负矩阵分解方法在成像效果上存在差异，三种方法之间存在成像效果优势互补的关系，所述主成分分析方法和所述非负矩阵分解方法对不同品牌的墨水显示明显的区别，所述概率潜在语义分析方法对相同品牌不同型号墨水显示区别。

10.根据权利要求9所述的一种墨水分类和溯源的方法，其特征在于：在所述实时直接分析质谱方法中，采用实时直接分析离子源、高分辨质谱仪、实时直接分析软件、Xcalibur软件、赛默飞Q Exactive软件。

11.根据权利要求10所述的一种墨水分类和溯源的方法，其特征在于：在所述实时直接分析质谱方法中的参数包括：45°角吹扫模块，离子源解离气体为氦气，温度为250℃，X－Y图像测试模式，X轴速度为1毫米/秒，Y轴速度为1毫米/秒，X轴的测试时间设定为0.25分，所述Xcalibur软件建立方法的参数为：正离子模式全扫描，扫描范围为50～750m/z，分辨率为35000FWHM，网格电压为150V。

12.根据权利要求11所述的一种墨水分类和溯源的方法，其特征在于：在所述实时直接分析质谱方法中包括样品检测步骤序列，所述样品检测步骤序列包括：对所述待溯源样品的确定标准样品区域，在所述样品区域中进行序列步进。

13.根据权利要求12所述的一种墨水分类和溯源的方法，其特征在于：所述样品区域的长度为1.5厘米，高度0.5厘米，所述序列步进的顺序是在所述样品区域内沿所述高度内平均分成5个检测行，自最低检测行逐行并与上一行首尾相连直至上升到最高检测行，且每一行检测100个点。

14.根据权利要求13所述的一种墨水分类和溯源的方法，其特征在于：所述质谱图像包括：一次性检测成像的情况和无法一次性检测成像的情况，所述无法一次性检测成像的情况包括：同一载体的不同区域成像和不同载体成像，对于所述无法一次性检测成像墨水，先分别进行检测然后融合成一个质谱图像，所述墨水质谱数据库和所述样品墨水质谱数据采用的所述质谱图像的格式为imzML格式并保存，以进行所述进行质谱对齐和标准化预处理。

15.根据权利要求14所述的一种墨水分类和溯源的方法，其特征在于：所述质谱对齐和标准化预处理的步骤依次包括：导入所述墨水质谱数据库和所述样品墨水质谱数据，强度转化和平滑，基线调整，强度校准和提取质谱峰，对齐和形成所述质谱峰矩阵。

16.根据权利要求15所述的一种墨水分类和溯源的方法，其特征在于：所述墨水质谱数据库包含市场占有率前三品牌的黑色喷墨打印墨水型号，所述全彩色包括：黑色、品红、黄色、蓝色。

17.根据权利要求16所述的一种墨水分类和溯源的方法，其特征在于：所述卷积神经网络模型的训练模型包括一个输入层，两个卷积层和一个输出层共四层，所述输入层为初始层并包含设计的CNN模型中的油墨信息；两个所述卷积层分别包含64个和32个可优化过滤器，相应用于转换输入或输入之前的第一个隐藏层；最后一层是输出层，代表墨水来源的分类。

18.根据权利要求17所述的一种墨水分类和溯源的方法，其特征在于：针对不同墨水量和墨水不同空间分布情况，采取大面积扫描和所述质谱图像多像素集体决策提高方法的适用范围和准确率。

19.根据权利要求18所述的一种墨水分类和溯源的方法，其特征在于：所述卷积神经网络基于每个质谱像素进行溯源，当待检测样品的墨水量和墨水空间分布变化时，通过多像素集体决策以提高溯源准确率。

20.根据权利要求19所述的一种墨水分类和溯源的方法，其特征在于：选取250个或更多像素，对溯源结果进行硬投票作为最后的结果。