CN108920897B

CN108920897B - 一种用于人工智能检测dna的硅基sers芯片dna数据库构建和训练的方法

Info

Publication number: CN108920897B
Application number: CN201810817521.4A
Authority: CN
Inventors: 何耀; 王后禹; 史华意
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2022-03-22
Anticipated expiration: 2038-07-24
Also published as: CN108920897A

Abstract

本发明公开了一种用于人工智能检测DNA的硅基SERS芯片DNA数据库构建和训练的方法，包括以下步骤：通过氢氟酸辅助刻蚀方法制备银纳米颗粒修饰的硅基SERS基底；构建DNA的SERS数据库；对于所述SERS数据库，提取用于深度神经网络的主要特征值，并训练所述深度神经网络。本发明的检测方法可在常室温下进行，操作安全，对DNA靶标的识别率可达到86.11％，且具有很好的特异性，重现性，检测过程方便。

Description

一种用于人工智能检测DNA的硅基SERS芯片DNA数据库构建和训练的方法

技术领域

本发明属于人工智能和DNA检测结合的技术领域，具体涉及一种通过硅基SERS芯片构建数据库应用于深度神经网络的DNA传感技术。

背景技术

在2006年提出的深度信念网络，成为了人工智能(artificial intelligence，AI)发展史上的突破之一(参见：Nature 2015，521，436-444；Neural Comput.2006，18，1527-1554)。自此，深度学习在许多领域的发展都取得了重要进展，如自动驾驶、图像识别、语音识别、机器翻译、药物行为预测、基因突变和疾病的预测等。甚至在棋类博弈游戏(如围棋)领域，深度学习也发挥着重要作用。例如，谷歌深度学习软件AlphaGo在围棋对弈比赛中击败了几乎所有的人类玩家(参见：Nature 2016，529，484-489)。值得注意的是，深度学习技术可以通过对有效数据的学习和训练来获取像人脑一样的概括和归纳的能力(参见：Nature 2015，518，529-533；Science 2015，350，1332-1338)。在这一过程中，输入数据的质量决定了机器学习最终的性能表现，如训练准确性、语义索引和数据标记等(参见：Cell2018，172，1122-1131；Adv.Mater.2016，28，9175-9181)。尽管取得了巨大的成就，仍需要开发新的策略用于收集和构建适用于人工智能的数据库，从而提高机器收集数据的质量和处理数据的性能。

表面增强拉曼是基于拉曼光谱学的一种信号放大检测技术，粗糙的金属表面产生局部电磁场，使拉曼信号产生放大，极大提高了拉曼检测的灵敏度。一系列液相金、银纳米颗粒材料被用作SERS基底以实现拉曼信号的放大(参见：Angew.Chem.，Int.Ed.2014，53，4756-4795；Anal.Bioanal.Chem.2009，394，1729-1745)。值得注意的是，SERS技术在数据库的收集和构建中具有以下优势：(1)SERS峰位置(拉曼位移)不受入射光频率的影响；(2)SERS可以直接地采集气体、液体和固体样品的信息而无需样品的预处理过程，因此样品在检测期间不会遭到破坏；(3)SERS光谱几乎不受水峰的干扰，因此适用于生物样品的分析；(4)SERS峰的半峰宽(full width at half maximum，FWHM)仅为1～2nm，可以提供目标检测物丰富的本征指纹信息(参见：Angew.Chem.Int.Ed.2015，54，7308-7312；J.Am.Chem.Soc.2015，137，13698-13705)。尽管这些特性很吸引人，但SERS技术仍存在以下问题，包括：化学方法制备的纳米颗粒的表面性质不稳定；纳米颗粒在液相中存在随机运动和不可控团聚；靶标分子和金属纳米颗粒表面的相互作用较弱。这些问题导致了SERS信号的强度较弱或信号重现性较差。

为了获取高强度和可重现的SERS信号，科学家们已经作出了许多努力，包括制备高度有序的SERS基底、对金属纳米颗粒表面进行修饰、以及调节金属表面电荷以增强靶标分子和金属表面之间的相互作用等(参见：Anal.Bioanal.Chem.2009，394，1729-1745)。其中，硅基纳米杂化物基底由金属纳米颗粒原位生长在硅片表面制备而成，可以产生具有良好重现性的SERS信号(参见：Small2014，10，4455-4468；Analyst 2016，141，5010-5019)。在硅基纳米杂化物中，金属纳米颗粒散射的等离子体激元共振与半导体硅表面反射的等离子体激元共振有效耦合，共同实现了增强的SERS效应(参见：Appl.Phys.Lett.2014，104，243104)。因此，基于硅基纳米杂化物的SERS技术可以得到可靠的SERS数据库，帮助AI快速准确地做出决策。

发明内容

为了解决以上问题，本发明公开了一种通过硅基SERS芯片构建数据库应用于深度神经网络的DNA传感技术。本发明首次将表面增强拉曼(SERS)技术与深度神经网络技术相结合，建立了一种人工智能传感方法。

根据本发明的一个方面，提供了一种用于人工智能检测DNA的硅基SERS芯片DNA数据库构建和训练的方法，包括：

步骤1、通过氢氟酸辅助刻蚀方法制备银纳米颗粒修饰的硅基SERS基底；

步骤2、构建DNA的SERS数据库；

步骤3、对于所述SERS数据库，提取用于深度神经网络的主要特征值，并训练所述深度神经网络。

在本发明具体实施方式中，步骤1为：

步骤1.1、将单晶硅片切割成适当的大小，依次使用去离子水、丙酮、去离子水进行超声清洗，再放入浓硫酸和过氧化氢混合溶液中进一步清洗，得到干净的硅片；

步骤1.2、将洗净的硅片浸入氢氟酸溶液中进行硅-氢化反应，得到表面Si-H键修饰的硅片；

步骤1.3、将上述表面Si-H键修饰的硅片放入硝酸银和氢氟酸的混合溶液中，缓慢振荡反应，在硅片原位生长出均匀的银纳米颗粒，从而得到银纳米颗粒修饰的硅基SERS基底，最后用氮气吹干。

其中，作为优选，所述单晶硅片为0.01～20Ω*cm的p型或n型硅晶片；所述浓硫酸和过氧化氢混合溶液中过氧化氢的质量百分比浓度为40％，浓硫酸和过氧化氢体积比＝1∶(0.01～100)；所述氢氟酸溶液的氢氟酸质量百分比浓度为1～40％；所述硅-氢化反应的时间为1～60分钟；所述硝酸银和氢氟酸的混合溶液中硝酸银溶液浓度为1M，氢氟酸溶液质量百分比浓度为40％，硝酸银溶液和氟化氢溶液体积比＝1∶(0.01～100)；所述步骤1.3振荡反应时间为1～60分钟。

在本发明具体实施方式中，步骤2为：

步骤2.1、将碘化钾溶液滴加在制备完成的硅基SERS基底反应一段时间；

步骤2.2、将需要检测的非等位基因的DNA片段分成2个以上不同碱基长度的片段并溶解在MgSO₄溶液中制成DNA检测液滴加在碘化钾修饰的硅基SERS基底表面并晾干；

步骤2.3、使用共聚焦拉曼光谱仪进行拉曼的mapping检测，将采集的SERS光谱数据整理成数据库。

其中，作为优选，所述非等位基因的DNA片段为抑癌基因片段；进一步地，所述抑癌基因选自p16、p21和p53中的一种或两种以上；在本发明具体实例中，选择抑癌基因p16、p21和p53三种抑癌基因片段，每种抑癌基因片段分成3个不同碱基长度(15bp、30bp和50bp)的片段，分别为p16-15bp(SEQ ID NO：1所示)、p16-30bp(SEQ ID NO：2所示)、p16-50bp(SEQID NO：3所示)、p21-15bp(SEQ ID NO：4所示)、p21-30bp(SEQ ID NO：5所示)、p21-50bp(SEQID NO：6所示)、p53-15bp(SEQ ID NO：7所示)、p53-30bp(SEQ ID NO：8所示)和p53-50bp(SEQ ID NO：9所示)；

作为优选，步骤2.1为将浓度为0.01～0.1mM的碘化钾溶液液滴加在制备完成的硅基SERS基底反应10min；，所述DNA检测液的浓度为1-10μM。在本发明具体实施方式中，步骤3为：

从所述SERS光谱数据中提取主要特征值，作为训练函数的输入数据；其中，每个光谱数据被分为三个部分，每个部分单独提取出一组峰数和峰强的特征值，每个光谱数据产生六个特征值，作为所述主要特征值；

根据所述主要特征值构建矩阵，包括训练组和验证组；在所述矩阵中，每个矢量由相应的归一化参数定义；

在训练过程中，通过使用Sigmoid函数作为传递函数，将测试数据中的特征值转换为0到1范围内的相应值。

作为更优选的方案，本发明所述方法在所述步骤3深度神经网络训练结束后，通过所述验证组中的数据来测试所述数据库的识别率。

本发明的优点在于：本发明的检测方法可在常室温下进行，操作安全，对DNA靶标的识别率可达到86.11％，且具有很好的特异性，重现性，检测过程方便。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1a是本发明基于硅基SERS基底构建数据库用于人工智能DNA检测的技术的原理图。

图1b是本发明通过硅基SERS芯片构建数据库的方法的流程图。

图2是本发明制备得到银纳米颗粒修饰的硅基SERS基底的扫描电镜表征照片。

图3是本发明制备得到的硅基SERS基底检测不同DNA片段的SERS光谱图。

图4是应用本发明的方法对不同DNA靶标的检测数据。

图5是应用本发明的方法对DNA混合物靶标的检测数据。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明公开了一种通过硅基SERS芯片构建数据库应用于深度神经网络的DNA传感技术。如图1a所示，本发明首次将表面增强拉曼(SERS)技术与深度神经网络技术相结合，建立了一种人工智能传感方法。如图1b所示，具体步骤如下：

S1、氢氟酸辅助刻蚀方法制备银纳米颗粒修饰的硅基SERS基底

将单晶硅片切割成适当的大小，依次使用去离子水、丙酮、去离子水进行超声清洗，再放入浓硫酸和过氧化氢混合溶液中进一步清洗，得到干净的硅片。将洗净的硅片浸入氢氟酸溶液中进行硅-氢化反应，得到表面Si-H键修饰的硅片。将上述方法处理的硅片放入硝酸银和氢氟酸的混合溶液中，缓慢振荡反应，根据电化学反应原理，银离子被Si-H键还原，在硅片原位生长出均匀的银纳米颗粒，从而得到银纳米颗粒修饰的硅基SERS基底，最后用氮气吹干。

S2、DNA的SERS数据库的构建

将碘化钾溶液滴加在制备完成的硅基SERS基底反应一段时间，再将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在MgSO₄溶液中制成DNA检测液滴加在碘化钾修饰的硅基SERS基底表面并晾干，使用共聚焦拉曼光谱仪进行拉曼的mapping检测，将采集的SERS光谱数据整理成数据库。

S3、用于深度神经网络的主要特征值的提取和神经网络的训练

在训练之前，通过数据的预处理步骤从SERS光谱数据中提取出主要特征值，作为训练函数的输入数据。在本实验中，首先对所有DNA分子的SERS光谱数据进行多项式拟合，以调整X轴数据(拉曼位移/cm^-1)。然后，每个拉曼光谱数据沿X轴被分成三个区域(即600～800、800～1200、1200～1800cm^-1)。接下来，通过使用matlab软件中的“寻峰(peak search)”函数计算出每个拉曼光谱数据的拉曼峰数量(峰数定义为“pksN”)和最高峰强度(峰强定义为“pksV”)，作为主要特征值。

DNA分子是由四种不同碱基的核苷酸组成，每个DNA分子的序列和其中四种碱基的核苷酸相对含量不同，这些化学差异使得不同的DNA分子的本征拉曼信号之间存在微弱差异。在本实验中，从不同DNA样品的拉曼光谱数据中提取出的拉曼峰数量和拉曼峰强度存在一定差异。因此，提取的峰数和峰强可以用作样本的特征值。按照上述原则，每个光谱数据被分为三个部分，每个部分可以单独提取出一组峰数和峰强的特征值，因此整个光谱共产生六个特征值。在该模型中，“pksN1”，“pksV1”被定义为在600～800cm-1范围内的峰数和峰强。类似地，“pksN2”和“pksV2”是指在800～1200cm-1区域内的峰数和峰强，而“pksN3”和“pksV3”是指在1200～1800cm-1区域内的峰数和峰强。

根据反向传播(BP)算法，该模型中的输入层输入矢量为(pksN1、pksV1、pksN2、pksV2、pksN3、pksV3)。隐藏层输出矢量为(h₀、h₁、...、h₁₁)；训练样本中的输出矢量为(d₀、d₁、...、d₈)，最终输出矢量为(p16-15、p16-30、p16-50、p21-15、p21-30、p21-50、p53-15、p53-30、p53-50)。由所提取的特征值所构建的矩阵由训练组(80％)和验证组(20％)组成。在矩阵中，每个矢量由相应的归一化参数定义。这些在-1至0.5范围内的归一化值是通过使用premnmx公式(公式1)获得的，如下所示：

在训练之前，DNN模型中的主要参数(如隐藏层神经元个数，学习速率和目标误差等)需要经过优化以达到理想的性能。在本发明中，隐藏神经元数(HNN)设置为“3”，学习率(Lr)和目标误差分别为“0.1”和“0.01”。

在训练过程中，通过使用Sigmoid函数(公式2)作为传递函数，将测试数据中的特征值转换为0到1范围内的相应值：

其中，“net”是网络中神经元之间的转移值。

基于公式(2)，隐藏层中神经元的输出进一步定义为以下公式：

其中，v_ij表示输入层神经元“i”到隐层神经元“j”的连接权值；θ_j代表相应的阈值。

类似地，输出层神经元的输出被定义为以下等式：

其中，w_jk是指隐藏层神经元“j”到输出层神经元“k”的连接权重；θ_j代表相应的阈值。

为了定义输出值，九种DNA靶标分子使用关联矢量进行编码。通常，在公式(3)和(4)中获得的值“1”用于定义存在一种特定的DNA分子。例如，p16-15bp和p21-15bp分别被标记为矢量(1，0，0，0，0，0，0，0，0)和(0，1，0，0，0，0，0，0，0，0)。

为了提高识别率，BP算法通过迭代修改或调整权值和阈值，可以使目标矢量与预测矢量之间的误差(E)达到最小值。在DNN中，当E传递至隐藏层时，可以通过下面的公式(公式(5))来计算：

当E返回到输入层时，可以通过以下公式(公式(6))得到：

其中，dk是输出层中神经元“k”的E值。

在DNN训练结束后，通过验证组中的数据来测试系统的识别率。

实施例1

取0.5cm²大小单晶硅片3-6片，放入干净的烧杯中于超声仪中用去离子水、丙酮分别进行超声清洗15分钟，随后放入40mL浓硫酸和过氧化氢的混合溶液中去除表面难溶的杂质，最后用去离子水清洗，得到干净的硅片。

将处理干净的硅片置入氢氟酸溶液(质量浓度：5％)中进行硅氢化反应，反应时长30分钟，使得硅片表面覆盖大量Si-H键。将经过处理的硅片置于培养皿中，光面朝上，加入硝酸银(1M)和氟化氢(质量浓度：40％)的混合溶液(体积比＝1∶50)中还原反应60分钟，根据电化学反应的原理，银离子被Si-H键还原，在硅片表面原位还原一层均匀的银纳米颗粒，从而制备得到银纳米颗粒修饰的硅基SERS基底(AgNPs@Si)，最后用氮气吹干表面待用。

将10μL的0.01mM碘化钾溶液滴加在制备好的硅基SERS基底上反应10min，以确保银纳米颗粒表面修饰上了碘离子，使得表面性质进一步稳定。将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在0.01M MgSO₄溶液中配制成1μM DNA检测液滴加在碘化钾修饰的硅基SERS基底上，并将其放置在通风环境中晾干，用以采集并构建DNA的SERS数据库。

将构建好的SERS数据库按比例分成训练组(80％)和验证组(20％)，分别输入到matlab软件的深度神经网络模型中进行训练和验证。

实施例2

将10μL的0.01mM碘化钾溶液滴加在制备好的硅基SERS基底上反应10min，以确保银纳米颗粒表面修饰上了碘离子，使得表面性质进一步稳定。将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在0.01M MgSO₄溶液中配制成5μM DNA检测液滴加在碘化钾修饰的硅基SERS基底上，并将其放置在通风环境中晾干，用以采集并构建DNA的SERS数据库。

实施例3

将10μL的0.01mM碘化钾溶液滴加在制备好的硅基SERS基底上反应10min，以确保银纳米颗粒表面修饰上了碘离子，使得表面性质进一步稳定。将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在0.01M MgSO₄溶液中配制成10μM DNA检测液滴加在碘化钾修饰的硅基SERS基底上，并将其放置在通风环境中晾干，用以采集并构建DNA的SERS数据库。

实施例4

将10μL的0.01mM碘化钾溶液滴加在制备好的硅基SERS基底上反应10min，以确保银纳米颗粒表面修饰上了碘离子，使得表面性质进一步稳定。将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在0.01M MgSO₄溶液中配制成15μM DNA检测液滴加在碘化钾修饰的硅基SERS基底上，并将其放置在通风环境中晾干，用以采集并构建DNA的SERS数据库。

实施例5

将10μL的0.01mM碘化钾溶液滴加在制备好的硅基SERS基底上反应10min，以确保银纳米颗粒表面修饰上了碘离子，使得表面性质进一步稳定。将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在0.01M MgSO₄溶液中配制成20μM DNA检测液滴加在碘化钾修饰的硅基SERS基底上，并将其放置在通风环境中晾干，用以采集并构建DNA的SERS数据库。

实施例6

将处理干净的硅片置入氢氟酸溶液(质量浓度：5％)中进行硅氢化反应，反应时长30分钟，使得硅片表面覆盖大量Si-H键。将经过处理的硅片置于培养皿中，光面朝上，加入硝酸银(1M)和氟化氢(质量浓度：40％)的混合溶液(体积比＝1：50)中还原反应60分钟，根据电化学反应的原理，银离子被Si-H键还原，在硅片表面原位还原一层均匀的银纳米颗粒，从而制备得到银纳米颗粒修饰的硅基SERS基底(AgNPs@Si)，最后用氮气吹干表面待用。

将10μL的0.01mM碘化钾溶液滴加在制备好的硅基SERS基底上反应10min，以确保银纳米颗粒表面修饰上了碘离子，使得表面性质进一步稳定。将不同碱基长度的三种抑癌基因片段(p16-15bp、p16-30bp、p16-50bp、p21-15bp、p21-30bp、p21-50bp、p53-15bp、p53-30bp和p53-50bp)溶解在0.01M MgSO₄溶液中配制成30μM DNA检测液滴加在碘化钾修饰的硅基SERS基底上，并将其放置在通风环境中晾干，用以采集并构建DNA的SERS数据库。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

序列表

<110> 苏州大学

<120> 一种用于人工智能检测DNA的硅基SERS芯片DNA数据库构建和训练的方法

<160> 9

<170> SIPOSequenceListing 1.0

<210> 1

<211> 15

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

cacaggctgg ttttc 15

<210> 2

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

agtccttcac aggctggttt tcaggaataa 30

<210> 3

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

ctctctgagg agtccttcac aggctggttt tcaggaataa gtctaaatga 50

<210> 4

<211> 15

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

ccctaatccg cccac 15

<210> 5

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gaggaagccc taatccgccc acaggaagcc 30

<210> 6

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

tcttctccaa gaggaagccc taatccgccc acaggaagcc tgcagtcctg 50

<210> 7

<211> 15

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

cctggtgcag tagct 15

<210> 8

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

aaattggcct ggtgcagtag ctcaggcctg 30

<210> 9

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

caacattcaa aaattggcct ggtgcagtag ctcaggcctg taatcccaac 50

Claims

1.一种用于人工智能检测DNA的硅基SERS芯片DNA数据库构建和训练的方法，其特征在于，包括：步骤1、通过氢氟酸辅助刻蚀方法制备银纳米颗粒修饰的硅基SERS基底；步骤2、构建DNA的SERS数据库；步骤3、对于所述SERS数据库，提取用于深度神经网络的主要特征值，并训练所述深度神经网络；

步骤2为：步骤2.1、将碘化钾溶液滴加在制备完成的硅基SERS基底反应一段时间；步骤2.2、将需要检测的非等位基因的DNA片段分成2个以上不同碱基长度的片段并溶解在MgSO₄溶液中制成DNA检测液滴加在碘化钾修饰的硅基SERS基底表面并晾干；步骤2.3、使用共聚焦拉曼光谱仪进行拉曼的mapping检测，将采集的SERS光谱数据整理成数据库；

步骤3为：步骤3.1、从所述SERS光谱数据中提取主要特征值，作为训练函数的输入数据；其中，每个光谱数据被分为三个部分，每个部分单独提取出一组峰数和峰强的特征值，每个光谱数据产生六个特征值，作为所述主要特征值；步骤3.2、根据所述主要特征值构建矩阵，包括训练组和验证组；在所述矩阵中，每个矢量由相应的归一化参数定义；步骤3.3、在训练过程中，通过使用Sigmoid函数作为传递函数，将测试数据中的特征值转换为0到1范围内的相应值。

2.根据权利要求1所述的方法，其特征在于，步骤1为：步骤1.1、将单晶硅片切割成适当的大小，依次使用去离子水、丙酮、去离子水进行超声清洗，再放入浓硫酸和过氧化氢混合溶液中进一步清洗，得到干净的硅片；步骤1.2、将洗净的硅片浸入氢氟酸溶液中进行硅-氢化反应，得到表面Si-H键修饰的硅片；步骤1.3、将上述表面Si-H键修饰的硅片放入硝酸银和氢氟酸的混合溶液中，缓慢振荡反应，在硅片原位生长出均匀的银纳米颗粒，从而得到银纳米颗粒修饰的硅基SERS基底，最后用氮气吹干。

3.根据权利要求2所述的方法，其特征在于，所述单晶硅片为0.01～20Ω*cm的p型或n型硅晶片。

4.根据权利要求2所述的方法，其特征在于，所述浓硫酸和过氧化氢混合溶液中过氧化氢的质量百分比浓度为40％，浓硫酸和过氧化氢体积比＝1∶(0.01～100)。

5.根据权利要求2所述的方法，其特征在于，所述氢氟酸溶液的氢氟酸质量百分比浓度为1～40％。

6.根据权利要求2所述的方法，其特征在于，所述硅-氢化反应的时间为1～60分钟。

7.根据权利要求2所述的方法，其特征在于，所述硝酸银和氢氟酸的混合溶液中硝酸银溶液浓度为1M，氢氟酸溶液质量百分比浓度为40％，硝酸银溶液和氟化氢溶液体积比＝1∶(0.01～100)。

8.根据权利要求2所述的方法，其特征在于，所述步骤1.3振荡反应时间为1～60分钟。

9.根据权利要求1所述的方法，其特征在于，所述非等位基因的DNA片段为抑癌基因片段。

10.根据权利要求9所述的方法，其特征在于，所述抑癌基因选自p16、p21和p53中的一种或两种以上。

11.根据权利要求1所述的方法，其特征在于，步骤2.1为将浓度为0.01～0.1mM的碘化钾溶液液滴加在制备完成的硅基SERS基底反应10min。

12.根据权利要求1所述的方法，其特征在于，所述DNA检测液的浓度为1-10μM。

13.根据权利要求1-12任意一项所述的方法，其特征在于，还包括：在所述步骤3深度神经网络训练结束后，通过所述验证组中的数据来测试所述数据库的DNA检测识别率。