CN115389689A

CN115389689A - 一种处理代谢组学质谱数据鉴定化合物结构的方法

Info

Publication number: CN115389689A
Application number: CN202211033291.5A
Authority: CN
Inventors: 徐勇将; 雷元洛; 刘元法
Original assignee: Wuxi Food Science And Technology Park Development Co ltd; Jiangnan University
Current assignee: Wuxi Food Science And Technology Park Development Co ltd; Jiangnan University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-25
Anticipated expiration: 2042-08-26
Also published as: CN115389689B

Abstract

本发明公开了一种处理代谢组学质谱数据鉴定化合物结构的方法，属于代谢组学分析技术领域。本发明方法包括：获取质谱数据并对数据转换的步骤；获得数据库文件和正负模式得加合离子文件；工作流程a中处理基于MS1处理质谱数据不同功能节点的连接，得到数据集1；工作流程b中基于MS2(依赖MS1)的质谱信息对化合物的鉴定，得到数据集2；对数据集1和数据集2依据RT和MZ将两个数据集合并，得到用于鉴定化合物的数据库。采用本发明方法能够对质谱数据进行处理，基于MS1和MS2对化合物进行鉴定，同时可以对数据进行简单的统计分析。

Description

一种处理代谢组学质谱数据鉴定化合物结构的方法

技术领域

本发明属于代谢组学分析技术领域，特别是涉及一种处理代谢组学质谱数据鉴定化合物结构的方法。

背景技术

代谢组学是通过考察生物体受到外界刺激或扰动后，其代谢产物的变化或者随时间的变化，来研究生物体系的一种方法。基于质谱技术的代谢组学，分析原始数据的过程需要多个步骤和不同的软件程序来整合大文件，从而进行化合物的鉴定。这些步骤为数据转换、峰检测、峰对齐、统计分析和代谢物鉴定。为了简化此工作流程的步骤，目前开发了一些软件和平台。在线处理质谱数据的平台主要有MetaboAnalyst、XCMS Online和MetDNA。但是将原始数据上传到这些网站时间需要很长，比较耗时。此外，考虑到临床数据信息的私密性，有泄露临床信息的风险。其次，处理LC-MS数据的软件有MSDIAL、MZmine、CompoundDiscoverer和OpenMS。这些软件处理质谱数据步骤多，单一的软件不能满足研究者的需求。

OpenMS是一个用于处理LC-MS数据的开源软件。KNIME是一个开源集成平台，可以实现多个需要重复步骤集成为一个简化的工作流程，基于KNIME/OpenMS的工作流程是一个自动化的用于处理质谱数据的工作流程。通过执行工作流可以得到化合物的初步鉴定，但是也存在一些问题，如得到基于MS1信息(一级质谱碎片信息)鉴定的的化合物重复多，同一个保留时间和质荷比对应多个化合物；基于MS2信息(二级质谱信息，一级碎片再碰撞为更小的碎片)鉴定的化合物来自于一个样本信息，一些样本的化合物可能被遗漏。对最终的结果不能十分明确具体是哪个化合物，尤其对于研究者较关心的差异代谢物，这个问题尤其突出。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种高通量快速的处理质谱数据的方法，用于大样本量代谢组学数据处理。

为实现上述目标，本发明提供一种处理代谢组学质谱数据鉴定化合物结构的的分析方法，所述方法基于OpenMS/KNIME工作流程数据处理，包括以下步骤：

(1)基于LC-MS采集化合物的含MS1信息和MS2信息的质谱数据，形成数据集；

(2)工作流程a：将正、负模式下的加合离子文件、数据库HMDB和LIPID MAPS化合物的分子质量文件、结构文件输入到四个Input File节点，形成不同功能节点；将步骤(1) 所得数据集输入Input Files节点，并经过质谱峰追踪、质谱峰检测，循环处理数据集中的每个样本，对所有样本检测的特征峰RT对齐；在每个样本经过质谱峰追踪和保留时间校正对齐后，经过不同功能节点对质谱数据转换，得到MS1信息数据；该MS1信息数据对照数据库，得到包含RT、MZ的化合物的注释数据；结合统计分析的峰面积、化合物名称信息，得到的基于MS1的数据集1；

(3)工作流程b：将步骤(1)的数据集输入SiriusAdapter节点，并设置SiriusAdapter 节点的参数选择feature_only；经过质谱峰追踪、质谱峰检测后，得到MS2信息数据；该 MS2信息数据对照数据库识别化合物，循环后生成了包含所有样本的保留时间、质荷比和化学式的数据集2；

(4)转换统一数据集1和数据集2的数据格式，并根据保留时间RT和质荷比MZ两个要素将数据集1和数据集2进行合并，得到测试数据库，用于代谢组学化合物的鉴定。

在本发明的一种实施方式中，所述步骤(2)、(3)中涉及的质谱峰检测步骤包括：追踪质荷比，保留时间校正和峰对齐。

在本发明的一种实施方式中，所述步骤(2)所述的正、负模式下的加合离子包括：[M+H]⁺，[M-H]^-，[M+NH4]⁺，[M+H-H2O]⁺，[M+Na]⁺，[M+H-NH3]⁺，[M-H-H2O]^-， [2M-H]^-和[M-2H]^2-等形式的加合离子。

在本发明的一种实施方式中，所述步骤(2)中，是将MS1信息数据与HMDB或LIPIDMAPS数据库的化合物分子质量文件对照，得到MS1信息数据。

在本发明的一种实施方式中，所述步骤(3)中，是将MS2信息数据与BIO或 PUBMED数据库对照识别化合物，循环后生成了包含所有样本的保留时间、质荷比和化学式的数据集2。

在本发明的一种实施方式中，工作流程b中，在SiriusAdapter节点的参数设置中选择 feature_only，是指在工作流程b中经过对MS1提取后选择依赖于MS1质谱的MS2碎片对每个样本MS2质谱信息进行检测。

在本发明的一种实施方式中，所述步骤(4)中，在MZ偏差为±10ppm、RT偏差为±0.5min下合并数据集1和数据集2。

详细描述：

在本发明的一种实施方式中，在步骤(1)中，提供的数据集含有MS1和MS2的质谱信息。

在本发明的一种实施方式中，在步骤(2)、(3)中，研究者需要根据数据集是小分子代谢物或脂质，分别选择对应的数据库(HMDB和LIPID MAPS)，目的是为了能够准确地去鉴定更多的化合物。

在本发明的一种实施方式中，在工作流程a和工作流程b中需要设置参数，较重要的为峰检测节点；质谱峰检测节点处理数据步骤有：质量追踪，流出峰检测，整合同位素化合物，噪音阈值，如设置2000，低于2000则认为是噪音；因仪器不同和实验环境等差别，噪音阈值设定需要研究者根据自己数据的特点去设置；特别地，如果要鉴定脂质，对于脂质组学推荐选择C13为同位素质量M/Z的移动，对于代谢组学则弃用，设定的参数为：化合物识别的保留时间窗口为正负0.5分钟，化合物识别的质量精度偏差为10ppm。需要注意地是在工作流程b中，参数与工作流程需要一致。

在本发明的一种实施方式中，步骤(2)中工作流程a包括以下步骤：

1)对输入的数据集进行质谱峰追踪、检测，对每个样本进行循环；

2)循环后对每个样本的质谱进行保留时间的对齐；

3)将包含四个文件的节点与经过前两个步骤处理的质谱数据进行比对，在精确质量搜索后输出为有化合物注释的数据(表1)；其中，允许的质量精度偏差和保留时间参数由用户自定义。一般地，质量偏差为10ppm，保留时间偏差为0.5min。

在本发明的一种实施方式中，在工作流程a中执行统计分析流程可以筛选出两组间的差异代谢物数据集4和PCA分析；数据经过标准化和归一化后进行PCA分析，如图8所示为两组的PCA图，图标星号为经过t值检验和FC值筛选条件为P值小于0.01和logFC绝对值大于1过滤后的筛选的化合物。需要注意的是筛选条件可以根据数据的结果适当调整，差异化合物较多，将筛选值提高。

在本发明的一种实施方式中，在获得基于MS1的表1和基于MS2的表2中，需要添加节点将数据集中字符或列表格式转为excel能够识别的字符。同时，添加节点删除不感兴趣的列，最后输出为excel表。具体操作步骤为：1)进行缺失值填充处理的方法采用excel进行，按实验设计进行调整：针对样本检出率低于设定百分数(如50％)的色谱峰，采用所有峰值中最小值的一半插补的方式进行处理，或2)按实验设计分组，分别对每一个分组按每组的仪器检出下限进行定值插补；或3)采用定值插补的方式进行处理，插补的值为仪器检出下限的五分之一。

如上所述，本发明处理质谱数据的工作流程具有以下优点：

本发明的一种用于处理质谱数据的方法分别对质谱数据MS1和MS2的信息进行化合物注释和化合物结构的预测。本方法将功能不同的节点结合为工作流程用来实现对质谱峰的预处理、数据转换、化合物鉴定，提供了下游分析的数据集。在工作流程a中没有进行鉴定的数据经过简单的统计分析可以筛选出差异代谢物和PCA分析。同时，作为桌面应用的程序，不需要将大文件上传于网页浏览器，加快了数据的分析过程，确保了本地计算机上机密临床数据的安全性。同时，该工作流程正确连接以后，可以分享，增加了数据处理的重复性，因为节点设置的参数是一致的。

本发明方法中工作流程a和工作流程b的组合能进一步对化合物进行鉴定，进一步确定研究者感兴趣的化合物，在工作流程a中，经过精确质量搜索与数据库对比出的化合物会出现同一个保留时间和质荷比有多个化合物的情况，对化合物的鉴定增加了极大的挑战，在工作流程b中，经过工作流程b循环每个样本，将质谱信息MS2(依赖于MS1)组合为化合物。经过与工作流程a的结果合并从而进一步鉴定出化合物。经过两个工作流程的组合对化合物进行确认。提高了处理质谱数据的效率和减少了人工比对数据库的工作时间。

附图说明

图1为本发明一实施例中代谢组质谱数据处理方法的流程图。

图2为本发明一实施例中涉及质谱数据处理方法步骤的具体步骤流程图。

图3为本发明一实施例中质谱数据处理结果：质谱数据处理过程(图3(a))，质谱峰对齐，保留时间校正结果(图3(b))。

图4为参照样本的一级全扫描色谱图(色谱图，质谱图，二维相对丰度图)，以总离子流图形式展示。

图5为MZmine和工作流程a对样本质谱数据运行时间的比较。

图6为MZmine和工作流程b对样本MS2质谱信息的比较。

图7为MZmine和工作流程a对样本MS1质谱峰的数量比较。

图8为统计分析结果，两组的PCA图和代谢物的散点图。

具体实施方式

本申请涉及一种对质谱数据进行质谱峰追踪和保留时间对齐并综合MS1和MS2的质谱信息进一步鉴定化合物的数据处理方法。

液相色谱(LC)，依据化合物极性的不同分离样品中复杂混合物的组分，不同的化合物流出的时间不同，极性较大的先流出。各化合物流经质谱检测器在色谱图上显示为特征峰 (检测出的连续信号)，质谱仪(MS)检测每个特征峰对应的化合物质荷比(m/z)和特征峰信号强度(intensity)。由保留时间(rt)、质荷比(MZ)和信号强度(intensity)组合定义的特征峰是色谱峰。本申请中的质谱数据采集模式是数据依赖采集指的是质谱仪器进行全扫描后，然后对全扫描中的母离子(强度依赖)二级扫描获得的原始数据。

正离子模式和负离子模式指的是在质谱仪器中，雾化的液滴经过离子源后因自身性质不同带正电荷和负电荷。

本发明所需要的液相-质谱数据为mzML格式，需要将原始的质谱数据经MSConvert转化为mzML格式。质谱数据采集模式为数据依赖采集(DDA)。

代谢组数据集，是指质谱数据经本申请处理后最终产出的与诸多代谢物质(化合物)相关的信息，其为由化合物ID、化合物名称和在样本中检出的峰强度构成的数据集。

总离子流色谱图(TIC)是将扫描后质谱峰的强度相加而产生的色谱图，如图3中就有TIC。

质荷比指的是带电离子的质量与电荷的比值，用MZ表示。质量精度偏差是测量的离子质荷比与理论离子质荷比之间的差异，用ppm表示。

主成分分析(PCA)是一种统计分析、对大量数据降维的方法。通过对变量的观测值正交变换，使多维数据降为几个主要的不相关的变量，用这些较少的新变量来解释数据的方差。对数据方差贡献最大的为PC1，第二成分为PC2。

KNIME能够将各个节点组合成工作流程，该平台集成了多个插件，通过插件里的不同功能的节点可以实现数据的处理。集成于KNIME里的插件通过各个输入、输出、循环、合并和拆分等节点实现对数据的处理。

OpenMS/KNIME即KNIME平台的一个插件，该插件中包含了各个几点可用于处理质谱数据生成文件，如AccurateMassSearch节点，与数据库对比后对化合物进行注释；SriusAdapter节点，通过MS2的质谱信息(依赖于MS1)候选出可能的化合物，该化合物的信息包括化学式，保留时间和质荷比。

在工作流程a中，输入的四个tsv格式的文件：参照的正负加合离子、化合物的质量和化合物的结构，由数据转换得到的tsv格式，在数据库中下载文件(SDF格式)，经过数据转换可以得到相应的tsv文件。正负加合离子一般有常见的[M+H]⁺，[M-H]^-还包含了 [M+NH4]⁺，[M+H-H2O]⁺，[M+Na]⁺，[M+H-NH3]⁺，[M-H-H2O]^-，[2M-H]^-和[M-2H]^2-等形式的加合离子。

经数据库的匹配，同一个色谱峰可能有多个化合物的注释，被注释的化合物需要根据自身数据特性筛选。

以下通过一个具体实施例说明本发明的实施方式，本领域研究人员可以通过本说明书内容了解本发明工作流程其他优点与效果。本发明还可用于其他的具体实施方式加以实施或应用，本说明书的各个细节可以基于不同观点与应用，在没有背离本发明的精神下进行修饰或改变。

需要说明的是，实施例中所提供的图示以示意方式说明本发明的基本构想，图示的基本步骤显示与实际的工作流程实施的步骤，其具体的工作流程节点，步骤，数量可能更多，形式也更复杂。

实施例1

以一个用于人类血清代谢组学的数据为例，说明本发明工作流程处理质谱数据的步骤。

本实施例数据从MetaboLights平台下载，是人类代谢组学血清数据，包含了正负模式的 (mzML)数据，注册编号为MTBLS549。下载的数据为四个志愿者血清正、负模式下共24个数据。数据扫描模式为全扫描模式，扫描范围为100-1000m/z，自动依赖数据的MS/MS分段扫描。样本使用Paradigm MS4高效液相色谱系统和LTQ轨道阱(Orbitrap)质谱系统采集信息。同时下载了正负模式下共132个已知化合物的信息，保留时间、质荷比和峰强度，用于检验化合物鉴定的准确性。其它详细信息可以从(http://www.ebi.ac.uk/metabolights)查询。

下面参照图1至图4说明本发明的处理质谱数据的方法。

对LC-MS检测的质谱数据(mzML)处理具体包括如下步骤，是由图2所示的质谱数据工作流程执行的。具体为：

(1)首先，将下载的人类血清代谢组质谱文件集通过MSconvert转换为格式为.mzML 的文件，得到数据集，备用；

(2)执行工作流程a：将四个.tsv的文件(正、负模式下的加合离子、数据库HMDB 和LIPID MAPS化合物的分子质量文件、结构文件)输入到四个Input File节点，形成不同功能节点；将步骤(1)所得数据集输入Input Files节点，并经过质谱峰追踪(工作流程识别质谱峰并将数据转换为质心模式，避免运行出错)，质谱峰检测(步骤：追踪质荷比，保留时间校正和峰对齐)，循环处理数据集中的每个样本，对所有样本检测的特征峰RT对齐；在每个样本经过质谱峰追踪和保留时间校正对齐后，经过不同功能节点对质谱数据转换，得到MS1信息数据；该MS1信息数据与数据库(HMDB或LIPIDMAPS化合物分子质量文件) 对照，得到包含RT、MZ的化合物的注释数据；结合统计分析的峰面积，化合物名称信息，得到的基于MS1的数据集1，如表1所示。工作流程a中需要的四个tsv文件可以通过 https://github.com/OpenMS网站下载。

表1

图3中对工作流程a执行的结果进行评价，对于参数设置是否需要改变。图3(a)表明了质谱数据的峰检测、峰对齐的过程，依次经过峰检测节点，保留时间校正和峰对齐结果后，在工作流程a中分别导出结果，在TOPPView查看每一步的效果。如图3(b)所示，mzML峰强度、峰检测(featureXML)和峰对齐(consensusXML)的结果。mzML数据在图3(b)中峰的强度为正方形形状，在经过峰检测后，峰强度用三角形表示，在经过保留时间校正和峰对齐后，用黑色圆圈表示样本中峰的对齐结果。从图3(b)中可以看到峰检测出的三角形在不同的MZ和RT都出现，说明对mzML格式的数据提取特征峰的数量较多；在对齐的结果中黑色圆形和三角形基本在一块，说明峰对齐的参数设置对数据合适，可以进行后续的与数据库匹配的节点。

(3)执行工作流程b：将步骤(1)的数据集输入SiriusAdapter节点，并设置SiriusAdapter节点的参数选择feature_only(即选择了MS2依赖的MS1质谱信息对检测的MS2离子碎片信息进行化合物的鉴定)；经过质谱峰追踪，追踪质荷比，保留时间校正和峰对齐后，得到MS2信息数据；该MS2信息数据与数据库(BIO或PUBMED)对照识别化合物，循环后生成了包含所有样本的保留时间、质荷比和化学式的数据集2，如表2所示。执行工作流程b，即是对数据集中的每个样本MS2质谱信息进行检测。

表2

化合物序号	化学式	RT	MZ
				Row0	H7N7S	9.22	138.0547
Row100	C9H20N8O7S	11.24	385.1284
				Row1002	C7H13NO2	7.94	144.1015
Row1025	C7H13N13O9	16.12	424.1021
				Row1026	C7H12NO	24.16	127.0975
此处省略1245个	……	……	……
				Row994	C7H13NO3	9.78	160.0964

对于表2的结果因为对每个样本进行了检测，所覆盖的化合物避免了单一样本执行时，可能会造成有些化合物遗漏。但同时也造成了重复，因此需要对表2中重复检测到的化合物筛选，最后筛选到451个化合物。

(4)按照质量误差10ppm，保留时间误差0.5min分别将表1和表2中化合物进行合并，最后得到基于MS1和MS2鉴定根据保留时间和质荷比合并的数据集3，可用作检测人类代谢组学类化合物的数据库。

本实施例方法节省了人工比对化合物的时间，提高了化合物鉴定的效率，是非靶向代谢组学化合物的鉴定的方法。

合并的数据集3部分结果展示：

化合物ID

化学式

化合物注释

RT

MZ

峰面积

加合离子

HMDB0000214

C5H12N2O2

Ornithine

20.53

131.0831

3122523

M-H；1-

HMDB0000289

C5H4N4O3

Uric acid

10.74

167.0215

43271

M-H；1-

HMDB0000767

C9H12N2O6

Pseudouridine

6.80

243.0624

4091938

M-H；1-

HMDB0000562

C4H7N3O

Creatinine

6.75

112.0524

20617710

M-H；1-

HMDB0003148

C6H13N3O3

Argininic acid

13.19

174.0889

5349398

M-H；1-

HMDB0012304

C15H22N2O18P2

UDP-L-iduronate

16.25

579.0279

3659071

M-H；1-

HMDB0014581

C5H4N4O

Allopurinol

7.22

135.0304

45698

M-H；1-

HMDB0061115

C14H18N2O2

Lenticin

6.09

247.1438

113699

M+H；1+

HMDB0000043

C5H11NO2

Betaine

8.67

118.0859

24240260

M+H；1+

HMDB0004827

C7H13NO2

Proline betaine

8.02

144.1015

82584600

M+H；1+

HMDB0003357

C7H14N2O3

N-Acetylornithine

11.23

175.1075

1371250

M+H；1+

在工作流程a中，两组数据统计分析的结果如图8所示，在散点图中带*号的为两组间经过P值小于0.01和logFC的绝对值大于1筛选出的差异代谢物，同时PCA图中可以看出，两组之间化合物有差异，此结果为删除有缺失值的统计分析结果质谱数据不是本实施例的数据。

对比例1

MZmine处理mzML的质谱数据步骤为：在进行峰值检测后，移除同位素峰，并使用相应的m/z和保留时间值对齐单个样品的峰列表。一些重要的参数选择如：噪音阈值，质量误差，保留时间误差根据质谱数据的自身情况修改参数，在质量误差，噪音阈值设置和工作流程是一致的。质量误差为10ppm，强度低于2000则过滤。

在正离子模式下41个化合物和负离子模式下91个化合物(如表3所示)将工作流程a 的数据集与MZmine处理得到的数据集进行比较。

表3

在MZ误差为0.005amu，保留时间0.2min的误差的条件下对MZmine和工作流程a的结果进行比较。在正负模式下，以已知的标准化合物对两个结果进行比较，表4表明，在工作流程a中正负模式下化合物覆盖率比MZmine的结果高，并且由表5可知，在这些已知的化合物中，检测到的特征峰工作流程a中每个样本都有检测到，MZmine中有样本被遗漏。图6可知，工作流b的结果和MZmine的结果没有差异。下面以具体的一种化合物为例说明这种情况。

表4：MZmine和OpenMS中峰检测结果的比较

表5MZmine峰检测结果

如表5所示，正模式下，RT为9.97min和MZ为170.0921的化合物中，在11个样本中有三个样本MZmine没有检测到该特征峰，而在OpenMS中11个样本均检测到。同时对于保留时间比较接近的同分异构体，工作流程a能够分别将特征峰提取到，而MZmine需要手动辅助检测特征峰。

Claims

1.一种处理代谢组学质谱数据鉴定化合物结构的方法，所述方法基于OpenMS/KNIME工作流程数据处理，包括以下步骤：

(2)工作流程a：将正、负模式下的加合离子文件、数据库HMDB和LIPID MAPS化合物的分子质量文件、结构文件输入到四个Input File节点，形成不同功能节点；将步骤(1)所得数据集输入Input Files节点，并经过质谱峰追踪、质谱峰检测，循环处理数据集中的每个样本，对所有样本检测的特征峰RT对齐；在每个样本经过质谱峰追踪和保留时间校正对齐后，经过不同功能节点对质谱数据转换，得到MS1信息数据；该MS1信息数据对照数据库，得到包含RT、MZ的化合物的注释数据；结合统计分析的峰面积、化合物名称信息，得到的基于MS1的数据集1；

(3)工作流程b：将步骤(1)的数据集输入SiriusAdapter节点，并设置SiriusAdapter节点的参数选择feature_only；经过质谱峰追踪、质谱峰检测后，得到MS2信息数据；该MS2信息数据对照数据库识别化合物，循环后生成包含所有样本的保留时间、质荷比和化学式的数据集2；

2.根据权利要求1所述的方法，其特征在于，步骤(2)中质谱峰检测包括：追踪质荷比，保留时间校正和峰对齐。

3.根据权利要求1所述的方法，其特征在于，步骤(2)中正模式下的加合离子包括：[M+H]⁺，[M+NH₄]⁺，[M+H-H₂O]⁺，[M+Na]⁺，[M+H-NH₃]⁺。

4.根据权利要求1所述的方法，其特征在于，步骤(2)中负模式下的加合离子包括：[M-H]^-，[M-H-H2O]^-，[2M-H]^-和[M-2H]^2-。

5.根据权利要求1所述的方法，其特征在于，步骤(2)中，是将MS1信息数据与HMDB或LIPIDMAPS数据库的化合物分子质量文件对照，得到MS1信息数据。

6.根据权利要求1所述的方法，其特征在于，步骤(3)中，是将MS2信息数据与BIO或PUBMED数据库对照识别化合物，循环后生成包含所有样本的保留时间、质荷比和化学结构式的数据集2。

7.根据权利要求1所述的方法，其特征在于，步骤(3)中质谱峰检测包括：追踪质荷比，保留时间校正和峰对齐。

8.根据权利要求1所述的方法，其特征在于，步骤(1)中，化合物的质谱数据通过MSconvert转换为格式为.mzML的文件，得到数据集。

9.根据权利要求1所述的方法，其特征在于，工作流程b中，在SiriusAdapter节点的参数设置中选择feature_only是指在工作流程b中经过对MS1提取后选择依赖于MS1质谱的MS2碎片对每个样本MS2质谱信息进行检测。

10.根据权利要求1所述的方法，其特征在于，步骤(4)中，在MZ偏差为±10ppm、RT偏差为±0.5min下合并数据集1和数据集2。