CN116441554A

CN116441554A - 一种基于强化学习的金纳米棒AuNRs合成方法、系统

Info

Publication number: CN116441554A
Application number: CN202310426195.5A
Authority: CN
Inventors: 柳泽明; 李宏强; 陈光需; 高繁
Original assignee: Zhuhai Fengze Information Technology Co ltd
Current assignee: Zhuhai Fengze Information Technology Co ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-18
Anticipated expiration: 2043-04-19
Also published as: CN116441554B

Abstract

本发明提供了一种基于强化学习的金纳米棒AuNRs合成方法、系统。通过将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比；通过将CTAB‑NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取；将生长溶液加入至晶种溶液，并在热水浴中保存一定时间，得到金纳米棒AuNRs。相比于现有技术，通过利用强化学习进行最佳模型架构和参数的搜索，动态地调整生产流程中的参数组，自动选择最优参数配比，提高材料合成的速度和生产的智能化程度。

Description

一种基于强化学习的金纳米棒AuNRs合成方法、系统

技术领域

本发明涉及材料生成技术领域，具体而言，涉及一种基于强化学习的金纳米棒AuNRs合成方法、系统。

背景技术

纳米材料是指在三维空间中至少有一维处于纳米尺寸(0.1-100nm)或由它们作为基本单元构成的材料，这大约相当于10～1000个原子紧密排列在一起的尺度。金纳米即指金的微小颗粒，其直径在1～100nm，具有高电子密度、介电特性和催化作用，能与多种生物大分子结合，且不影响其生物活性。由氯金酸通过还原法可以方便地制备各种不同粒径的金纳米，其颜色依直径大小而呈红色至紫色。

强化学习(Reinforcement Learning,RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

现有技术中对于金纳米材料的合成大多采用如下方法：1、利用模板法、电化学还原法、光化学法、湿化学法等合成纳米材料，这些方法都非常依赖人工；2、传统生产过程中，需要根据人的专业知识和经验，尝试特定的几种配比。因此，传统材料合成面临的主要挑战，包括传统材料生成过程，过度依赖人工，合成速度很慢，自动化程度低；传统材料生成过程，智能化程度低，人工很难找到最佳的组合参数。

发明内容

有鉴于此，本发明实施例的目的在于针对传统材料生成过程，智能化程度低，过度依赖人工的问题，人工很难找到最佳的组合参数的问题，我们提出利用强化学习进行最佳模型架构和参数的搜索，动态地调整生产流程中的参数组合，直到合成的金纳米符合预期或发现有价值的新材料

本发明的第一方面提供了一种基于强化学习的金纳米棒AuNRs合成方法，所述方法包括：

将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，所述晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比；

通过将CTAB-NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；其中，所述生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取；

将所述生长溶液加入至所述晶种溶液，并在热水浴中保存一定时间，得到所述金纳米棒AuNRs。

进一步，所述第一比例、第二比例是基于DQN网络的强化学习模型获取，包括：

确定强化学习模型代理Agent，其中Agent部分使用DQN网络；所述Agent会根据环境的当前t时刻状态St采取动作At，环境的状态也会根据所采取的动作发生变化；

当前状态St表示为St＝(C,W,B)；其中，C表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比，表示为C＝(c1,c2,c3,c4,c5,c6,c7)；其中，晶种溶液制备中的CTAB,HAuCl4,NaBH4配比为c1,c2,c3；生长溶液制备中的CTAB,NaOL,AgNO3,HAuCl4,配比为c4,c5,c6,c7；W表示当前金纳米棒波形图特征；W表示为W＝(w1,w2,w3)，其中w1表示所述金纳米棒波形图是否有Y1,Y2双峰,w1∈(0或1；w2表示双峰Y2与Y1的比值，w3表示Y2的峰宽；B表示目标金纳米棒尺寸；当前2号峰出峰位置X,与目标出峰位置X^′，即B＝(X,X^′)；

动作At表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比C的改变量，其中At＝(a1,a2,a3,a4,a5,a6,a7)；

每种溶液改变量有三种取值(-Δa_i,0,Δa_i),Δa_i表示第i种溶液的最小改变单位。

进一步，所述DQN网络包含1层输入层，2层中间层，和1层输出层；其中输入层包含12个神经单元，对应输入t时刻状态St；中间隐层每层包括64个神经元；输出层包含21个神经单元，对应表示不同动作At对应的累积奖励；

损失函数表示为:

L＝E[(r+γmax_a′Q(s^′,a^′)-Q(s,a))²]

其中，r表示进行At后得到的及时反馈值，γ表示一个常数，这里取0.99；maxQ(s^′,a^′)表示当前状态下选取的最大的Q值对应的动作At后的Q值，Q(s,a)表示当前状态的Q值；

所述奖励函数r定义为：

r(-α₁)×(1w₁)+α₂×w₂+α₃×w₃-α₄×(X-X^′)²

其中，α₁,α₂,α₃,α₄分别表示加权系数。

此外，本发明的第二方面提供了一种基于强化学习的金纳米棒AuNRs合成系统，所述系统包括第一混合模块、第二混合模块以及合成模块；

第一混合模块，将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，所述晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比；

第二混合模块，通过将CTAB-NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；其中，所述生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取；

合成模块，将所述生长溶液加入至所述晶种溶液，并在热水浴中保存一定时间，得到所述金纳米棒AuNRs。

本发明的方案中，通过将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，所述晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比；通过将CTAB-NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；其中，所述生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取；将所述生长溶液加入至所述晶种溶液，并在热水浴中保存一定时间，得到所述金纳米棒AuNRs。相比于现有技术，通过利用强化学习进行最佳模型架构和参数的搜索，动态地调整生产流程中的参数组，自动选择最优参数配比，提高材料合成的速度和生产的智能化程度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例公开的基于强化学习的金纳米棒(AuNRs)合成方法流程图示意图；

图2是本发明实施例公开的金纳米棒(AuNRs)紫外吸收光谱图；

图3是本发明实施例公开的金纳米棒(AuNRs)紫外吸收光谱评价标准图；

图4是本发明实施例公开的基于强化学习的金纳米棒(AuNRs)制备算法示意图；

图5是本发明实施例公开的金纳米棒(AuNRs)制备流程图；

图6是本发明实施例公开的基于强化学习的金纳米棒(AuNRs)合成系统结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

本发明实施例提供了一种基于强化学习的金纳米棒AuNRs合成方法，如图1所示，该方法包括如下步骤：

S100,将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比。

S200,通过将CTAB-NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；其中，生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取。

具体地，本实施例，步骤S200中pH范围为2-4；所述金纳米棒(AuNRs)采用biotek酶标仪批量测试紫外吸收光谱结果，如图2所示。

正常金纳米棒(AuNRs)会有类似于如图3所示的1、2的两组信号峰。1号峰反映信息：球状颗粒以及金纳米棒两端的球形截面；2号峰反映信息：棒状。

本实施例，对于金纳米棒(AuNRs)评价标准包括：

(1)有1、2两组峰，且峰2强度Y2>峰1强度Y1；注：Y1、Y2为吸光度(与产物颜色深浅有关)，具体大小不作为衡量产物好坏标准。

(2)Y2/Y1的值表示金纳米棒的产率，粗略估算，Y2/Y1>2纳米棒的产率较好。

(3)2号峰的峰宽W反映金纳米棒尺寸是否均一，W越小表示该样品中的金纳米棒间尺寸越接近。

(4)2号峰出峰位置X2反映的金纳米棒尺寸，尺寸越大，X2值(波长)越大，2号峰越往后出峰。通常情况下，我们需要生产指定尺寸的金纳米棒。

通过调整1中生成AuNRs的不同参数配比，可以得到不同金纳米棒的波形图。为了得到更优质的金纳米棒，本实施例采用以下基于强化学习的金纳米棒制备算法设计来自动选择最优参数配比。如图4所示为本实施例的基于强化学习的金纳米棒制备算法流程图。

进一步，所述第一比例、第二比例是基于DQN网络的强化学习模型获取，包括：确定强化学习模型代理Agent，其中Agent部分使用DQN网络；所述Agent会根据环境的当前t时刻状态St采取动作At，环境的状态也会根据所采取的动作发生变化。当前状态St表示为St＝(C,W,B)；其中，C表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比，表示为C＝(c1,c2,c3,c4,c5,c6,c7)；其中，晶种溶液制备中的CTAB,HAuCl4,NaBH4配比为c1,c2,c3；生长溶液制备中的CTAB,NaOL,AgNO3,HAuCl4,配比为c4,c5,c6,c7；W表示当前金纳米棒波形图特征；W表示为W＝(w1,w2,w3)，其中w1表示所述金纳米棒波形图是否有Y1,Y2双峰,w1∈(0或1；w2表示双峰Y2与Y1的比值，w3表示Y2的峰宽；B表示目标金纳米棒尺寸；当前2号峰出峰位置X,与目标出峰位置X^′，即B＝(X,X^′)；动作At表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比C的改变量，其中At＝(a1,a2,a3,a4,a5,a6,a7)；每种溶液改变量有三种取值(-Δa_i,0,Δa_i),Δa_i表示第i种溶液的最小改变单位。

具体地，本实施例，如图4所示，本实施例所提出了基于强化学习的材料合成方法(NanoAuRL)，优化AuNRs的生产工艺。主要包含3个部分：

(1)代理Agent，即学习的行为模型。在Agent部分，我们使用Deep Q network(DQN，深度Q网络)。深度Q网络是指基于深度学习的Q学习算法，主要结合了值函数近似与神经网络技术。Agent会根据环境的当前t时刻状态St采取动作At(Action)，环境的状态也会根据所采取的动作发生变化。

当前状态St，表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比C，以及当前金纳米棒波形图特征W,和目标金纳米棒尺寸B，即St＝(C,W,B)。其中C，表示晶种溶液制备中CTAB,HAuCl4,NaBH4配比c1,c2,c3；生长溶液制备种CTAB,NaOL,AgNO3,HAuCl4,浓盐酸配比为c4,c5,c6,c7；C＝(c1,c2,c3,c4,c5,c6,c7)。

W可以表示为W＝(w1,w2,w3)，其中w1表示是否有Y1,Y2双峰,w1∈(0或1；w2表示双峰Y2与Y1的比值，w3表示Y2的峰宽。B表示当前2号峰出峰位置X,与目标出峰位置X^′，即B＝(X,X^′)。动作At可表示为不同溶液的配比C的改变量，其中A＝(a1,a2,a3,a4,a5,a6,a7)，每种溶液改变量有三种取值(-Δa_i,0,Δa_i),Δa_i表示第i种溶液的最小改变单位。

DQN网络包含1层输入层，2层中间层，和1层输出层。其中输入层包含12个神经单元，对应输入t时刻状态St；中间隐层每层64个神经元；输出层包含21个神经单元，对应表示不同Action对应的累积奖励。

损失函数Loss function可表示为：

L＝E[(r+γmax_a′Q(s^′,a^′)-Q(s,a))²]

其中，r表示进行At后得到的及时反馈值，γ表示一个常数，这里取0.99，maxQ(s^′,a^′)表示当前状态下选取的最大的Q值对应的action后的Q值，Q(s,a)表示当前状态的Q值。

具体地，本实施例，Q值是一种用于衡量在某个状态下执行某个动作代价的函数值。在强化学习中，Q值指示了在当前状态下采取某个动作能够获得的长期回报(或折扣奖励和)。换言之，Q值反映了机器学习在当前状态下选择某个动作对未来累积奖励的影响。因此，Q值函数可以被视为一种基于状态-动作对的策略评估函数，它可以被用来指导智能体的决策，并且在不断迭代更新中逐步收敛到最优策略。在Q-learning算法中，我们通过迭代更新Q值函数，使其不断逼近真实的Q值，并且最终得到一个近似最优的策略。

累积奖励(cumulative reward)是指从当前状态开始，经过一系列动作后所获得的总奖励和。累积奖励是指从当前状态开始，经过一系列动作后所获得的总奖励和。在实践中，由于不可能枚举所有可能的动作序列，因此通常使用神经网络函数逼近方法估计。这里的期望值是基于所有可能的动作序列计算得到的。在实践中，由于不可能枚举所有可能的动作序列，因此通常使用神经网络函数逼近方法估计Q(s,a)。

具体来说，DQN网络通过采样、探索和利用等方式收集训练数据，并使用带有经验回放缓存和目标Q网络的Q-learning算法进行学习和优化，以最大化累积奖励的期望值。总之，累积奖励是DQN网络训练中的重要目标，通过最大化累积奖励的期望值来优化模型，从而实现对环境动作Q值映射关系的学习和优化。

(2)Environment，即实验环境。在实验过程中，影响金纳米合成的因素有很多，为了简化分析过程，我们这里只考虑不同溶液的配比，即使用finite element analysis(FEA)，即有限元分析，作为评估所合成的金纳米材料的特性的分析工具。

(3)Reward，即奖励函数。Agent通过尝试最大化从环境中获得的累积回报(Reward)来决定其行为。奖励函数r定义为

r(-α₁)×(1w₁)+α₂×w₂+α₃×w₃-α₄×(X-X^′)²

其中，α₁,α₂,α₃,α₄分别表示加权系数，这里根据实际情况设置。此外，在回报/奖励(Reward)部分，我们采用后验经验回放技术，即Hindsight Experience Replay(HER)，解决稀疏奖励的问题，从而提升训练速度。

具体地，本实施例，累积奖励的计算需要依赖于奖励函数的反馈。具体来说，假设在时刻t，代理(agent)执行了某个动作α_t，并且根据环境(environment)反馈的奖励函数获得了即时奖励。那么，在下一个时刻t+1，代理将处于新的状态s_(t+1)，并且可以再次决策出一个新的动作α_(t+1)。此时，本实施例可以利用折扣因子γ来计算累积奖励，γ为折扣因子(Discount Factor)，是介于[0，1]的常数。对于距离当前时间步越远的奖励，其重要性就越低。

在DQN(Deep Q-Network)网络中，累积奖励是通过计算Q值函数来确定的。Q值表示在某个状态下执行某个动作所能获得的预期回报，因此可以用于估计累积奖励。具体来说，根据奖励反馈计算累积奖励的过程如下：

1.首先，代理从当前状态输入DQN网络，并输出每个可能动作的Q值；

2.然后，代理根据Q值选择一个动作，并执行该动作；

3.代理从环境中接收即时奖励，并进入下一个状态；

4.代理根据新状态再次输入DQN网络，并输出下一个状态下所有可能动作的Q值；

5.代理通过对下一个状态的Q值和即时奖励进行加权和来计算下一个状态的累积奖励，公式为：

target＝reward+γ*max(Q(s',a'))

其中，reward表示即时奖励，s'表示下一个状态，a'表示下一个状态下可执行的所有动作，Q(s',a')表示下一个状态下执行动作a'所能获得的最大Q值，γ表示折扣因子。

6.最终，代理使用上述公式计算出的target值与当前状态下选择的动作的Q值进行比较，以更新当前状态下选择的动作的Q值。

7.重复上述过程，直到代理完成了所需的步骤或达到了某个终止状态。

总之，在DQN网络中，根据奖励反馈计算累积奖励的过程是通过将即时奖励和下一个状态的最大Q值进行折扣加权来实现的。对于距离当前时间步越远的奖励，其重要性就越低的意思是，在计算累积奖励时，后续的奖励将被折扣，以考虑时间对奖励的影响。这里的折扣是指使用折扣因子γ来将未来奖励的价值减少一定比例，使得距离当前时间步越远的奖励所占的权重越小。这种方法可以帮助代理在决策过程中考虑未来的奖励，并优化其行动方案以获得更高的长期奖励。

具体地，本实施例的，可以用算法表示流程如下：

1、初始化回放的数据集D，随机初始化DQN网络权重；

2、重复M轮，对每一轮

1)重复T次，对每一次

i.选择a_t＝max_aQ(s_t,a)，执行a_t后得到反馈奖励r_t，状态转移到s_t+1；

ii.将样本(s_t,a_t,r_t,s_t+1)加入到数据集D；

iii.从数据集D中随机采样batch大小样本(s_j,a_j,r_j,s_j+1)，这里

batch＝64；

iv.设置

v.计算损失函数L＝(y_j-Q(s_j,a_j))²，更新网络参数。

具体地，本实施例，由于DQN网络是一种深度神经网络，用于逼近Q值函数。在训练DQN网络时，我们需要优化网络的参数以使其可以更好地拟合真实的Q值函数。具体来说，可以采用以下方法来得到最优的DQN网络参数：

1.定义损失函数：通常使用均方误差(MSE)损失函数，其中目标值为当前估计的Q值和真实Q值之间的差距。

2.采用随机梯度下降(SGD)算法或者其变种(例如Adam)来求解损失函数的最小值，从而更新网络的参数。

3.在训练过程中，可能会遇到过拟合问题，即模型在训练集上表现良好，但在测试集上表现不佳。为了避免过拟合，可以采用一些正则化技术，例如L1、L2正则化或者dropout等。

4.另外，由于DQN网络的输出往往对应着多个动作的Q值，因此还需要选择合适的策略来选择执行哪个动作。

5.最后，需要根据实验结果对超参数进行调整，以达到最好的性能。常见的超参数包括学习率、批量大小、隐藏层大小、滑动平均系数和经验回放缓冲区大小等。

通过上述方法，本实施例可以不断调整DQN网络的参数，从而逐步提高其拟合能力和预测精度，达到最优策略的目标。

确定DQN(Deep Q-Network)强化学习网络模型代理Agent的最优参数配比可以采用以下方法：

1.网格搜索法：将需要调整的超参数(例如神经网络结构中的层数和节点数、DQN算法中的折扣因子、学习速率等)按照一定范围进行组合，建立网格搜索模型，并在训练过程中对模型进行评估和比较，找出表现最好的超参数组合。

2.随机搜索法：与网格搜索法相似，不同之处在于随机搜索法会在超参数空间内随机选取一些点进行训练和评估，并根据结果进行调整和优化。

3.贝叶斯优化法：基于贝叶斯统计学原理，通过构建超参数的后验分布，优化目标函数，实现更加高效的超参数搜索和优化。

4.梯度优化法：对某些可以求导的超参数，可以使用梯度下降或其他优化算法，直接对目标函数进行优化，找到最优的超参数值。

需要注意的是，在确定最优的参数配比时，可能需要根据具体问题和数据情况进行调整和选择，并且要避免过拟合和欠拟合等问题。同时，还需要采用适当的评价指标对模型进行评估和比较，例如平均奖励、训练时间、模型复杂度等。

此外，通常情况下，训练神经网络是一个迭代的过程。在每一次迭代中，都会计算出损失函数(loss function)的值，并根据其更新神经网络参数。在神经网络收敛时，损失函数的值会逐渐趋近于最小值或者收敛到某个固定的范围内。

然而，在实际应用中，仅仅依靠损失函数的值是否最小来判断模型是否达到最佳状态并不总是可行的，因为损失函数的最小值并不一定对应着最优的模型参数。

在机器学习领域中，通常使用交叉验证(cross-validation)、测试集误差等指标来评估模型的泛化能力和性能。交叉验证可以帮助我们更好地衡量模型在不同数据集上的表现，并从中选择最佳的模型参数组合。测试集误差则可用于评估模型是否过拟合或欠拟合，并确定是否需要进行调整或改进。

S300,将生长溶液加入至晶种溶液，并在热水浴中保存一定时间，得到金纳米棒AuNRs。

本实施例，通过调整1中生成AuNRs的不同参数配比，可以得到不同金纳米棒的波形图。采用如上强化学习的方法来自动选择最优参数配比，得到最优配比的生长溶液、晶种溶液，而后，将生长溶液加入至晶种溶液，并在热水浴中保存一定时间，得到金纳米棒AuNRs。

优选地，如图5所示为本实施例的在NaOL-CTAB双表面活性剂体系下的晶种生长法制备金纳米棒(AuNRs)的制备流程图。在确定好最后的配比参数后执行制备金纳米棒(AuNRs)。其中，包括(1)晶体溶液配制；(2)生长溶液配制；(3)晶种生长。

晶体溶液配制过程中，通过5ml 0.2mol/L CTAB溶液以及5ml0.5mmol/L HAuCl4溶液进行混合成混合液1，并再经过0.65Ml 0.0006mol/LNaBH4溶液还原得到晶种溶液。

生长溶液配制过程中，通过2.8g CTAB以及0.4936g NaOL进行50°热水浴后形成混合液3(CTAB-NaOL溶液)，待水温降至30°加入AgNO3形成混合液4，在与7ml 0.5mmol/LHAuCl4溶液形成混合液5后，加入0.042mL浓盐酸混合成混合液6，继续加入0.035mL0.064mmol/L AA溶液，还原得到生长溶液。

晶种生长过程中，将生长溶液与0.0112mL晶体溶液形成混合液8，而后在30°热水浴中保存一定时间(12h)，得到所述金纳米棒(AuNRs)。

本实施例，通过将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，所述晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比；通过将CTAB-NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；其中，所述生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取；将所述生长溶液加入至所述晶种溶液，并在热水浴中保存一定时间，得到所述金纳米棒AuNRs。相比于现有技术，通过利用强化学习进行最佳模型架构和参数的搜索，动态地调整生产流程中的参数组，自动选择最优参数配比，提高材料合成的速度和生产的智能化程度。

此外，本实施例的第二方面提供了一种基于强化学习的金纳米棒AuNRs合成系统，如图6所示，所述系统包括第一混合模块10、第二混合模块20以及合成模块30。

第一混合模块10，将CTAB溶液与HAuCl4溶液等体积混合，再经过NaBH4溶液还原得到晶种溶液；其中，所述晶种溶液中具有第一比例的CTAB、HAuCl4、NaBH4配比；

第二混合模块20，通过将CTAB-NaOL溶液与AgNO3溶液以及HAuCl4溶液在热水浴中进行混合，再加入浓盐酸调解混合液pH，最后加入AA还原得到生长溶液；其中，所述生长溶液中具有第二比例的CTAB、NaOL、AgNO3、HAuCl4配比；第一比例、第二比例是基于DQN网络的强化学习模型获取；

合成模块30，将所述生长溶液加入至所述晶种溶液，并在热水浴中保存一定时间，得到所述金纳米棒AuNRs。

第一比例、第二比例是基于DQN网络的强化学习模型获取，包括：

确定强化学习模型代理Agent，其中Agent部分使用DQN网络；所述Agent会根据环境的当前t时刻状态St采取动作At，环境的状态也会根据所采取的动作发生变化；当前状态St表示为St＝(C,W,B)；其中，C表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比，表示为C＝(c1,c2,c3,c4,c5,c6,c7)；其中，晶种溶液制备中的CTAB,HAuCl4,NaBH4配比为c1,c2,c3；生长溶液制备中的CTAB,NaOL,AgNO3,HAuCl4,配比为c4,c5,c6,c7；W表示当前金纳米棒波形图特征；W表示为W＝(w1,w2,w3)，其中w1表示所述金纳米棒波形图是否有Y1,Y2双峰,w1∈(0或1；w2表示双峰Y2与Y1的比值，w3表示Y2的峰宽；B表示目标金纳米棒尺寸；当前2号峰出峰位置X,与目标出峰位置X^′，即B＝(X,X^′)；动作At表示当前晶种溶液和生长溶液制备过程中的不同溶液的配比C的改变量，其中At＝(a1,a2,a3,a4,a5,a6,a7)；每种溶液改变量有三种取值(-Δa_i,0,Δa_i),Δa_i表示第i种溶液的最小改变单位。

所述DQN网络包含1层输入层，2层中间层，和1层输出层；其中输入层包含12个神经单元，对应输入t时刻状态St；中间隐层每层包括64个神经元；输出层包含21个神经单元，对应表示不同动作At对应的累积奖励；

损失函数表示为:

L＝E[(r+γmax_a′Q(s^′,a^′)-Q(s,a))²]

所述奖励函数r定义为：

r(-α₁)×(1w₁)+α₂×w₂+α₃×w₃-α₄×(X-X^′)²

其中，α₁,α₂,α₃,α₄分别表示加权系数。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的金纳米棒AuNRs合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于强化学习的金纳米棒AuNRs合成方法，其特征在于，所述第一比例、第二比例是基于DQN网络的强化学习模型获取，包括：

3.根据权利要求2所述的基于强化学习的金纳米棒AuNRs合成方法，其特征在于，所述DQN网络包含1层输入层，2层中间层，和1层输出层；其中输入层包含12个神经单元，对应输入t时刻状态St；中间隐层每层包括64个神经元；输出层包含21个神经单元，对应表示不同动作At对应的累积奖励；

损失函数表示为:

L＝E[(r+γmax_a′Q(s^′,a^′)-Q(s,a))²]

所述奖励函数r定义为：

r(-α₁)×(1w₁)+α₂×w₂+α₃×w₃-α₄×(X-X^′)²

其中，α₁,α₂,α₃,α₄分别表示加权系数。

4.一种基于强化学习的金纳米棒AuNRs合成系统，其特征在于，所述系统包括第一混合模块、第二混合模块以及合成模块；