CN113782111B - 一种基于药物研发模型的协同训练方法、系统及存储介质 - Google Patents

一种基于药物研发模型的协同训练方法、系统及存储介质 Download PDF

Info

Publication number
CN113782111B
CN113782111B CN202111086396.2A CN202111086396A CN113782111B CN 113782111 B CN113782111 B CN 113782111B CN 202111086396 A CN202111086396 A CN 202111086396A CN 113782111 B CN113782111 B CN 113782111B
Authority
CN
China
Prior art keywords
learning
node
model
local model
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111086396.2A
Other languages
English (en)
Other versions
CN113782111A (zh
Inventor
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Chuangke Technology Beijing Co ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111086396.2A priority Critical patent/CN113782111B/zh
Publication of CN113782111A publication Critical patent/CN113782111A/zh
Priority to PCT/CN2022/071434 priority patent/WO2023040149A1/zh
Application granted granted Critical
Publication of CN113782111B publication Critical patent/CN113782111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Medicinal Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于药物研发模型的协同训练方法、系统及存储介质,该方法包括接收区块链网络平台分发的局部模型学习任务;依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新局部模型;将更新的局部模型及对应模型参数发送至区块链网络平台,其中,区块链网络平台接收来自不同学习节点的更新局部模型并进行汇总得到全局共享模型及相关模型参数;接收区块链网络平台共享的全局共享模型及相关模型参数。本发明实施例能够实现多个制药机构协同建模,效果显著优于单个机构仅使用其私有数据的本地建模,多个制药机构在模型开发协作上不需要彼此共享敏感的实验数据及个人隐私等。

Description

一种基于药物研发模型的协同训练方法、系统及存储介质
技术领域
本发明涉及人工智能技术领域,特别是一种基于药物研发模型的协同训练方法、系统及存储介质。
背景技术
药物开发是一个昂贵且耗时的过程,其需要测试数千种化合物以找出安全有效的药物。传统上,药物发现过程漫长而艰巨,平均花费超过10亿美元,耗时12-15年。现代药物开发旨在利用药物开发的机器学习工具来加速中间步骤并因此降低成本。化合物分子通过一系列渐进的试验进行过滤,这些试验确定了它们在后期阶段的性质、有效性和毒性。机器学习越来越多地被用于更好地助力早期智能筛选,可以显著减少后期过程失败的负荷,节省大量资源和时间。目前的药物开发应用系统需要经过数年时间,才能将新开发的药物推向市场。
机器学习尤其是深度学习算法的突破已经改变了各行各业的生产和工作方式,但是,常见的监督学习算法很大程度上依赖标于特定的大量的标注数据,这一定程度上限制了在某些场景下的应用,数据集质量和规模严重不足导致人工智能预测模型在实际应用中捉襟见肘。
同样,AI(人工智能,Artificial Intelligence)药物的发现面临的最大痛点在于,该行业领域复杂的知识产权、相关的经济利益竞争等,使得制药机构之间进行数据直接共享和合作几乎不可能。因为隐私和法规的原因,药物研发相关的绝大部分数据完全是彼此孤立无法使用的。无论是人工智能企业,或是正在使用人工智能的医疗机构都只能依赖手头仅有的数据来源。高质量训练数据的严重匮乏,严重阻碍了AI药物研发的更进一步。各类制药机构所积累的不同数量的药物发现基础数据,通常是零散且规模有限的数据源,对于AI技术的潜力发挥显得非常有限,因为深度学习等技术是显著的数据驱动方法,通常基于更全面丰富的数据资料能够训练得到更符合我们预期的预测模型,目前尚难于保证制药机构在保障自身药物数据隐私安全的前提下进行协同药物发现。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于药物研发模型的协同训练方法、系统及存储介质,能够实现多个制药机构协同建模,效果显著优于单个机构仅使用其私有数据的本地建模,多个制药机构在模型开发协作上不需要彼此共享敏感的实验数据及个人隐私等,能够解决目前AI遇到的数据困境。
根据本发明实施例的一方面,提供了一种基于药物研发模型的协同训练方法,应用于不同制药机构的学习节点,且一个制药机构对应一个学习节点,所述方法包括:
接收区块链网络平台分发的局部模型学习任务;
依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新所述局部模型;
将更新的局部模型及对应模型参数发送至所述区块链网络平台,其中,所述区块链网络平台接收来自不同学习节点的更新局部模型并进行汇总得到全局共享模型及相关模型参数;
接收所述区块链网络平台共享的全局共享模型及相关模型参数。
可选地,所述区块链网络平台包含多个网络节点,且各网络节点间使用区块链机制交互,接收区块链网络平台分发的局部模型学习任务之前,还包括:
向所述区块链网络平台中符合预设规则的一个网络节点发送携带注册信息的注册请求,其中,所述符合预设规则的网络节点依据注册信息对相应学习节点注册,并将注册信息和注册成功的消息同步至其他网络节点;
接收所述符合预设规则的网络节点反馈的注册成功或注册失败的消息。
可选地,所述注册信息包含学习节点的账户名称、账户密码、IP地址、制药机构的机构概要信息中的至少一项;
所述预设规则包含从所述区块链网络平台依据负载均衡原理选择网络节点和/或选择距离最近的网络节点。
可选地,依据接收到的局部模型学习任务对局部模型进行训练之前,还包括:向所述区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求,其中,所述任意网络节点从所述指定学习节点或者其他网络节点获取所述指定学习节点的局部模型及其参数信息;接收所述任意网络节点反馈的所述指定学习节点的局部模型及其参数信息;
依据接收到的局部模型学习任务对局部模型进行训练,包括:依据接收到的局部模型学习任务,并结合所述指定学习节点的局部模型及其参数信息,对本地局部模型进行训练;
其中,所述任意网络节点包含发出请求的学习节点对应注册的网络节点或所述区块链网络平台的其他网络节点。
可选地,所述学习节点包含至少一个文件服务器,
向所述区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求,包括:所述至少一个文件服务器通过命令行接口向所述区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求;
接收所述任意网络节点反馈的所述指定学习节点的局部模型及其参数信息,包括:所述至少一个文件服务器通过命令行接口接收所述任意网络节点反馈的所述指定学习节点的局部模型及其参数信息。
可选地,将更新的局部模型及对应模型参数发送至所述区块链网络平台之前,还包括:
向所述区块链网络平台的任意网络节点发送局部模型训练进度信息,所述任意网络节点将所述局部模型训练进度信息同步至其他网络节点;
从所述任意网络节点获取全局训练状态信息和/或其他学习节点的其他局部模型训练进度信息;
其中,所述全局训练状态信息包含由网络节点依据各网络节点的训练进度分析得到的全局训练进度信息、与全局预设目标的差距信息。
可选地,接收区块链网络平台分发的局部模型学习任务之前,还包括:
向斯皮尔服务器发送可验证身份文件获取请求,其中,所述斯皮尔服务器用于将学习节点对应的制药机构的基本信息与预设标准进行比对,达到预设标准则生成可验证身份文件;
接收来自所述斯皮尔服务器提供的可验证身份文件。
根据本发明实施例的另一方面,还提供了一种基于药物研发模型的协同训练系统,包括:
区块链网络平台,向不同学习节点分发局部模型学习任务,其中,一个制药机构对应一个学习节点;
所述学习节点,接收所述区块链网络平台分发的局部模型学习任务,依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新所述局部模型,并将更新的局部模型及对应模型参数发送至所述区块链网络平台;
所述区块链网络平台,接收来自所述学习节点的更新局部模型及对应模型参数并进行汇总得到全局共享模型及相关模型参数,将所述全局共享模型以及相关模型参数共享给所述学习节点;
所述学习节点,接收所述区块链网络平台共享的全局共享模型以及相关模型参数。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行上文任意实施例的基于药物研发模型的协同训练方法。
根据本发明实施例的另一方面,还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行上文任意实施例的基于药物研发模型的协同训练方法。
本发明实施例实现多个制药机构协同建模,效果显著优于单个机构仅使用其私有数据的本地建模,区块链网络平台共享的全局共享模型接触到的数据范围比任何一个制药机构内部拥有的数据范围都要大得多。并且,由于制药机构只需共享训练完成的局部模型及其参数信息,无需共享训练的原始数据,因此既保证了制药机构自身药物数据隐私,也降低了网络传输带宽的要求。此外,全局模型的训练并不依赖于特定的数据,即使其中一家制药机构离开模型训练团队也不会影响模型的训练。同样,一家新的制药机构也可以随时选择加入以加速模型训练,并共享群体学习带来的性能优良的全局共享模型。本发明方案可以应用在药物小分子领域进行药物协同开发,在保护药物小分子结构隐私的前提条件下,直接整合多制药机构的小分子数据进行AI建模得到的相同或者类似的模型预测效果,有效地实现制药机构的数据共享和合作互利共赢。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了现有的对模型训练的四种不同训练方式的结构示意图;
图2示出了根据本发明一实施例的基于药物研发模型的协同训练方法的流程示意图;
图3示出了根据本发明一实施例的群体智能学习过程中各组件的交互示意图;
图4示出了根据本发明一实施例的基于人工智能的制药模型协同训练系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
目前,对于模型训练过程可以采用不同学习方法。例如,参见图1示出的四种学习方法。本地学习方法是数据和计算过程分别在不同的机构且彼此隔离的情况下实现。中心学习方法是将来自不同机构的数据和参数被集中到云上实现模型训练,但存在数据重复、数据流量增加以及数据隐私、数据安全等方面的问题。联邦学习方法中,数据和模型训练过程仍然位于本地,但全局模型的参数设置和模型共享在中心实现,中心专用参数服务器负责聚合和分发。群体智能学习中,数据和参数实现去中心化,且彼此互联,不需要中心。
联邦学习方法虽然解决了数据隐私问题,数据保存在数据所有者本地,保密性问题得到解决,但全局模型及参数调节仍然由特定机构的中心服务器处理协调,并没有完全实现去中心化,全局模型及参数调节由特定机构的中心服务器处理,必然造成了权力集中,此外,这种星形结构容错性较低。
群体智能作为一个新兴理念,是指在集体层面表现的分散的、去中心化的自组织行为。社会性昆虫或动物个体遵循简单的行为规则,就能在集体层面展现出高级的群体智能。比如蚁群、蜂群构成的复杂类社会系统,鸟群、鱼群为适应空气或海水而构成的群体迁移。群体智能不是简单的多个体的集合,而是超越个体行为的一种更高级表现,更具有鲁棒性、灵活性和经济上的优势。蜂群学习不再需要中心服务器交换数据或全局建模,允许参数合并,从而实现所有成员权利平等,并通过去中心化很好地保护机器学习模型免受攻击。群体学习是一种去中心化的、加密的分布式机器学习框架,目标是在保证数据隐私安全及合法合规的基础上对AI模型进行训练的手段。
由此,本发明实施例结合联邦学习和蜂群学习(Swarm Learning)范式,将边缘计算和基于区块链的对等网络结合,用于不同制药机构之间药物研发数据的整合。通过采用分布式数据源所在学习节点的计算能力来运行训练模型的机器学习算法。借助区块链技术以安全可靠的方式与对等节点协作学习。在群体智能学习中,只有学习到的知识和模型与对等学习节点共享,而无需共享学习节点的原始数据,这极大地增强了数据安全性和隐私性,还可通过私有许可区块链技术保证数据的所有权、安全性和机密性,可以用于不同制药机构之间药物研发数据的整合。
该实施例可以在药物小分子领域引入群体学习范式,进行药物协同开发,从而在保护药物小分子结构隐私的前提条件下,整合多个制药机构小分子数据进行AI建模相同或者类似的模型预测效果,有效地实现资源共享和合作互利共赢。
本发明实施例提供了一种基于药物研发模型的协同训练方法,该方法可以应用于不同制药机构的学习节点,且一个制药机构对应一个学习节点,即群体智能学习(SwarmLearning,SL)节点。图2示出了根据本发明一实施例的基于药物研发模型的协同训练方法的流程示意图。参见图2,该方法包括步骤S102至步骤S108。
步骤S102,接收区块链网络平台分发的局部模型学习任务。
该步骤可以根据各制药机构的实力分配模型训练任务,例如,对实力较强的制药机构分配较难的局部模型训练任务,对实力较弱的制药机构分配较容易的局部模型训练任务。
步骤S104,依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新局部模型。
步骤S106,将更新的局部模型及对应模型参数发送至区块链网络平台,其中,区块链网络平台接收来自不同学习节点的更新局部模型并进行汇总得到全局共享模型及相关模型参数。
该步骤中,将局部模型发送至区块链网络平台,指的是将局部模型的元数据写入区块链,而模型本身不存储在区块链中。
步骤S108,接收区块链网络平台共享的全局共享模型及相关模型参数。
在该步骤后,各个学习节点可以利用区块链网络平台共享的全局共享模型继续对本地数据进行高效的本地训练。
由此,本发明实施例可以将整个模型划分为多个局部模型,由区块链网络平台将各局部模型分发至不同制药机构,各制药机构在各自本地完成分配的局部模型训练任务,随后将训练结果和模型参数上传至区块链网络平台,由区块链网络平台进行汇总。因为局部模型训练过程在制药机构本地完成,且上传数据只涉及模型训练所需的必要数据,不涉及隐私数据,从而防止了数据泄露。
本发明实施例通过联邦群体学习的范式,整合各家机构获取的高质量和标准化的数据,使得联邦群体学习更有效地运用于药物研发的机器学习算法,并有助于建立有效、通用的算法评价基准,提升未来机器学习在药物研发领域中的应用推广。
在本发明一实施例中,每个学习节点可以包含一个或多个文件服务器,若一个学习节点包含有多个文件服务器,那么多个文件服务器共同执行训练局部模型的过程。文件服务器可以运行用户定义的Swarm学习机器学习算法。该算法可以使用Python3实现的基于Keras或PyTorch的机器学习算法,以迭代方式训练和更新局部模型,支持在英伟达图形处理器NVIDIA GPU(graphics processing unit)上运行。
当然,还可以在多个文件服务器中选择一个作为代理,该代理可以作为对应学习节点的中心服务器。例如,某制药机构包含3个文件服务器,将其中一个服务器设置为代理文件服务器,该代理文件服务器可以将另外两个文件服务器的训练结果反馈至区块链网络平台,或者将区块链网络平台中的全局共享模型信息提供给另外两个文件服务器。利用一个代理文件服务器与区块链网络平台直接进行沟通,提高了数据交互效率。
在本发明一实施例中,在执行步骤S102之前,任意学习节点启动文件服务器,并通过文件服务器向区块链网络平台发送请求分发任务的信息,此后,在接收到区块链网络平台分发的局部模型学习任务时,可以直接依据接收到的局部模型学习任务对局部模型进行训练。这里,任意学习节点的文件服务器发送的请求分发任务的信息是向区块链网络平台宣布已准备好运行训练程序的信息。
在本发明一实施例中,区块链网络平台包含有多个网络节点(Swarm Network,SN),这些网络节点构成区块链网络,且各Swarm网络节点间使用区块链机制交互。本发明实施例的Swarm学习使用以太坊(有智能合约功能的公共区块链平台)作为底层区块链网络平台。区块链具备可信任性、安全性和不可篡改性。分布式账本上写的任何记录都不可以删除或者更改,这意味着用户不能删除记录,也不能在区块链中插入记录,有效保证了制药机构的权益。
在执行步骤S102之前,学习节点还可以向区块链网络平台中符合预设规则的一个网络节点发送携带注册信息的注册请求,从而由符合预设规则的网络节点依据注册信息对相应学习节点注册,并将注册信息和注册成功的消息同步至其他网络节点,进而,学习节点接收符合预设规则的网络节点反馈的注册成功或注册失败的消息。
这里的预设规则可以是学习节点从区块链网络平台依据负载均衡原理选择网络节点,例如,选择负载小的网络节点。预设规则也可以是选择与学习节点距离最近的网络节点。当然,还可以为不同学习节点指定网络节点,本发明实施例对此不作具体限定。
注册信息可以包含学习节点的账户名称、账户密码、IP地址、制药机构的机构概要信息(如制药机构的历史成就、以前的制药项目内容)等等中的至少一项。
本发明实施例的学习节点对局部模型进行训练之前,还可以向区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求。所请求网络节点可以从指定学习节点或者其他网络节点获取指定学习节点的局部模型及其参数信息,学习节点接收任意网络节点反馈的指定学习节点的局部模型及其参数信息。这里,若指定学习节点与所请求网络节点直接数据交互,则直接从所请求网络节点获取指定学习节点的局部模型及其参数,若其他网络节点与指定学习节点直接数据交互,则需要所请求网络节点从其他网络节点获取指定学习节点的局部模型及其参数。
进而,在学习节点依据接收到的局部模型学习任务对局部模型进行训练时,可以依据接收到的局部模型学习任务,并结合指定学习节点的局部模型及其参数信息,对本地局部模型进行训练。
该实施例中的任意网络节点包含发出请求的学习节点对应注册的网络节点或区块链网络平台的其他网络节点,通常在后续学习节点会与对应注册的网络节点进行数据交互。
由此,本发明实施例可以实现各个学习节点之间的协同工作,任意学习节点可以定期与其他学习节点分享其学习成果并整合其他学习节点的学习结果,与其他学习节点的协同训练过程可以一直持续到学习节点将局部模型训练到期望的状态,以提高训练效率。
在一可选实施例中,学习节点包含至少一个文件服务器,学习节点在向区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求时,由至少一个文件服务器通过命令行接口SWCI(Swarm Learning Command Interface)向区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求。该SWCI节点作为Swarm学习框架的命令行工具,文件服务器通过SWCI节点可以连接到区块链网络平台中的网络节点,并与任意网络节点交互模型参数,从网络节点中获取其他局部模型的模型参数信息。
在本发明一实施例中,学习节点可以向区块链网络平台的任意网络节点发送局部模型训练进度信息,由对应网络节点将局部模型训练进度信息同步至其他网络节点。并且,学习节点还可以从任意网络节点获取全局训练状态信息和/或其他学习节点的其他局部模型训练进度信息。
该实施例中,全局训练状态信息包含由网络节点依据各网络节点的训练进度分析得到的全局训练进度信息、与全局预设目标的差距信息。
全局训练状态信息还可以包括各网络节点对各自局部模型训练的工作状态,停止工作表示已经完成训练,工作中表示正在进行训练。各网络节点的训练进度信息包含各学习节点已经训练了多少数据、训练到哪个环节,全局训练进度信息包含全局的整体进度到了哪个环节,一共训练了多少数据等。
本发明实施例的网络节点还可以利用全局状态信息来协调各个学习节点的工作。例如,可以根据各个学习节点的训练进度调节局部模型学习任务,将承载任务量大的学习节点的学习任务分配到已经完成训练任务的其他学习节点。或者,如果几个学习节点的学习任务完成失败,还可以针对各个学习节点重新分配学习任务。
在本发明实施例中,在执行步骤S102之前,学习节点还可以向斯皮尔(SPIRE)服务器发送可验证身份文件(SVID)获取请求。由斯皮尔服务器将学习节点对应的制药机构的基本信息与预设标准进行比对,若达到预设标准则生成可验证身份文件。从而,学习节点可以接收到来自斯皮尔服务器提供的可验证身份文件。
在该实施例中,制药机构的基本信息包括制药机构的历史制药成就、用于训练局部模型的制药数据规模、制药的实验条件、制药机构的资历等等信息。
本发明实施例的SPIRE服务器为整个模型训练过程提供安全保障。本发明实施例可以包括一个或多个SPIRE服务器。若包含多个SPIRE服务器,这些SPIRE服务器连接在一起形成一个联邦,而且,还可以在设置一个SPIRE代理工作负载证明插件,该插件与本联邦中的SPIRE服务器通信,从SPIRE服务器获取学习节点的可验证身份文件并反馈至相应的学习节点,还可以管理各个学习节点的可验证身份文件。本发明实施例中,SPIRE服务器生成的可验证身份文件符合SPIFFE规范。任意学习节点获取到的可验证身份文件可以作为秘钥与区块链网络平台建立连接。
当然,本发明实施例的Swarm网络节点也可以从SPIRE服务器获取可验证身份文件,其获取可验证身份的方式与学习节点的方式类似,此处不再赘述。
在本发明一实施例中,在执行步骤S102之前,任意学习节点还会向许可证服务器发送携带有学习节点的私有数据格式信息的运行许可证获取请求。许可证服务器将学习节点的私有数据格式信息与标准数据格式进行匹配,匹配一致后生成运行许可证。学习节点接收来自许可证服务器的运行许可证,并安装运行许可证。
本发明实施例中,各个Swarm学习节点还需要使用相同的深度学习框架。例如,各个学习节点可以使用Keras框架或者PyTorch框架,但是,不支持对某些学习节点使用Keras框架,其他学习节点使用PyTorch框架。
当然,区块链网络平台包含的多个网络节点也可以从许可证服务器获取许可证,本发明实施例对此不作限定。
对于上文实施例的各节点、服务器之间的不同信息的交互过程可以通过不同的端口实现,结合图3所示,下面介绍整个模型训练系统中不同端口的功能。
网络节点包括Swarm Network Peer-to-Peer Port(网络节点的点对点端口,即端口1),各个网络节点之间通过Swarm Network Peer-to-Peer Port端口共享区块链网络平台自身的数据。例如,在不同网络节点之间通过该端口共享以太坊(有智能合约功能的公共区块链平台)的内部状态信息。
此外,网络节点还包括Swarm Network File Server Port(网络文件服务器端口,即端口2),每个网络节点还通过Swarm Network File Server Port端口进行数据交互,并在该端口运行文件服务,该端口用于共享Swarm学习节点的状态信息,如局部模型训练的进度信息。例如,学习节点1将局部模型训练结果发送给网络节点1,网络节点1可以通过该端口将学习节点1的局部模型训练结果共享给网络节点2。
网络节点还包括Swarm Network API Port端口(端口3),网络节点在该端口运行REST(Representational State Transfer,表现层状态转移)API(ApplicationProgramming Interface,应用程序接口)。Swarm学习节点通过REST API可以向对应注册的Swarm网络节点发送局部训练进度信息,并接收其他局部模型训练的进度信息。而且,通过命令行接口(SWCI)节点可以通过Swarm Network API Port端口来管理和查看学习节点集群的状态。
学习节点包括Swarm Learning File Server Port端口(端口4),并通过该端口定期与其他学习节点的服务器分享其学习成果。当然在与其他学习节点的服务器分享其学习成果的过程中,也需要通过区块链网络平台进行学习成果的分享。
斯皮尔(SPIRE)服务器包含SPIRE Server API Port端口(端口5),SPIRE服务器通过SPIRE Server API Port端口运行gRPC服务。Swarm网络节点和Swarm学习节点通过该端口连接到SPIRE服务器以获取可验证身份文件SVID。SPIRE服务器还包括SPIRE ServerFederation Port端口(端口6),SPIRE服务器通过该端口与联邦中的其他SPIRE服务器连接并发送和接收信任包。
许可证服务器包含License Server API Port端口(端口7),许可证服务器在该端口运行REST(Representational State Transfer,表现层状态转移)服务和管理界面。Swarm网络节点和Swarm学习节点通过License Server API Port端口连接到许可证服务器并获取许可证。Swarm学习平台管理员可以使用浏览器访问许可证服务器并管理许可证。
本发明实施例的各制药机构之间药物协同发现的方案,可以实现多个制药机构协同建模,效果显著优于单个机构仅使用其私有数据的本地建模,多个制药机构在模型开发协作上不需要彼此共享敏感的实验数据及个人隐私等,能够解决目前AI遇到的数据困境,从而使得不同的制药机构互相合作创建出一个可以使所有人受益的模型。本发明实施例打破了传统建模方式中不同制药机构之间无法直接共享数据的壁垒,能够在隐私保护的前提条件下进行协同药物发现。而且本发明实施例还可以通过对模型的不断优化,在保护药物小分子结构隐私的前提条件下,获得与直接整合多机构小分子数据进行学习建模相同或者类似的模型预测效果。
基于同一发明构思,本发明实施例还提供了一种基于人工智能的制药模型协同训练系统,图4示出了根据本发明一实施例的基于药物研发模型的协同训练系统的结构示意图。参见图4,该系统至少包含区块链网络平台410和多个学习节点(如图4示出了三个学习节点,学习节点421、学习节点422学习节点423)。
区块链网络平台410,向不同学习节点分发局部模型学习任务,其中,一个制药机构对应一个学习节点。
各个学习节点,接收区块链网络平台410分发的局部模型学习任务,依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新局部模型,并将更新的局部模型及对应模型参数发送至区块链网络平台410。
区块链网络平台410,接收来自学习节点的更新局部模型及对应模型参数并进行汇总得到全局共享模型及相关模型参数,将全局共享模型以及相关模型参数共享给学习节点。
各个学习节点,接收区块链网络平台410共享的全局共享模型以及相关模型参数。
在本发明一实施例中,区块链网络平台410包含多个网络节点,且各网络节点间使用区块链机制交互,学习节点向区块链网络平台410中符合预设规则的一个网络节点发送携带注册信息的注册请求,其中,符合预设规则的网络节点依据注册信息对相应学习节点注册,并将注册信息和注册成功的消息同步至其他网络节点;接收符合预设规则的网络节点反馈的注册成功或注册失败的消息。
在本发明一实施例中,注册信息包含学习节点的账户名称、账户密码、IP地址、制药机构的机构概要信息中的至少一项;预设规则包含从区块链网络平台410依据负载均衡原理选择网络节点和/或选择距离最近的网络节点。
在本发明一实施例中,学习节点还向区块链网络平台410的任意网络节点发送获取指定学习节点的局部模型及其参数请求,其中,任意网络节点从指定学习节点或者其他网络节点获取指定学习节点的局部模型及其参数信息;接收任意网络节点反馈的指定学习节点的局部模型及其参数信息。进而,学习节点依据接收到的局部模型学习任务,并结合指定学习节点的局部模型及其参数信息,对本地局部模型进行训练。其中,任意网络节点包含发出请求的学习节点对应注册的网络节点或区块链网络平台410的其他网络节点
在本发明一实施例中,学习节点包含至少一个文件服务器,学习节点中的至少一个文件服务器通过命令行接口向区块链网络平台410的任意网络节点发送获取指定学习节点的局部模型及其参数请求,并由至少一个文件服务器通过命令行接口接收任意网络节点反馈的指定学习节点的局部模型及其参数信息。
在本发明一实施例中,学习节点向区块链网络平台410的任意网络节点发送局部模型训练进度信息,任意网络节点将局部模型训练进度信息同步至其他网络节点;学习节点从任意网络节点获取全局训练状态信息和/或其他学习节点的其他局部模型训练进度信息;其中,全局训练状态信息包含由网络节点依据各网络节点的训练进度分析得到的全局训练进度信息、与全局预设目标的差距信息。
在本发明一实施例中,基于人工智能的制药模型协同训练系统还包括斯皮尔服务器。学习节点向斯皮尔服务器发送可验证身份文件获取请求。斯皮尔服务器用于将学习节点对应的制药机构的基本信息与预设标准进行比对,达到预设标准则生成可验证身份文件。学习节点接收来自斯皮尔服务器提供的可验证身份文件。
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,计算机存储介质存储有计算机程序代码,当计算机程序代码在计算设备上运行时,导致计算设备执行上文任意实施例的基于药物研发模型的协同训练方法。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当计算机程序代码被处理器运行时,导致计算设备执行上文任意实施例的基于药物研发模型的协同训练方法。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。

Claims (8)

1.一种基于药物研发模型的协同训练方法,其特征在于,应用于不同制药机构的学习节点,且一个制药机构对应一个学习节点,所述方法包括:
接收区块链网络平台分发的局部模型学习任务;
依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新所述局部模型;
将更新的局部模型及对应模型参数发送至所述区块链网络平台,其中,所述区块链网络平台接收来自不同学习节点的更新局部模型并进行汇总得到全局共享模型及相关模型参数;
接收所述区块链网络平台共享的全局共享模型及相关模型参数;
所述区块链网络平台包含多个网络节点,且各网络节点间使用区块链机制交互,接收区块链网络平台分发的局部模型学习任务之前,还包括:
向所述区块链网络平台中符合预设规则的一个网络节点发送携带注册信息的注册请求,其中,所述符合预设规则的网络节点依据注册信息对相应学习节点注册,并将注册信息和注册成功的消息同步至其他网络节点;
接收所述符合预设规则的网络节点反馈的注册成功或注册失败的消息;
将更新的局部模型及对应模型参数发送至所述区块链网络平台之前,还包括:
向所述区块链网络平台的任意网络节点发送局部模型训练进度信息,所述任意网络节点将所述局部模型训练进度信息同步至其他网络节点;
从所述任意网络节点获取全局训练状态信息和/或其他学习节点的其他局部模型训练进度信息;
其中,所述全局训练状态信息包含由网络节点依据各网络节点的训练进度分析得到的全局训练进度信息、与全局预设目标的差距信息。
2.根据权利要求1所述的方法,其特征在于,
所述注册信息包含学习节点的账户名称、账户密码、IP地址、制药机构的机构概要信息中的至少一项;
所述预设规则包含从所述区块链网络平台依据负载均衡原理选择网络节点和/或选择距离最近的网络节点。
3.根据权利要求1所述的方法,其特征在于,
依据接收到的局部模型学习任务对局部模型进行训练之前,还包括:向所述区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求,其中,所述任意网络节点从所述指定学习节点或者其他网络节点获取所述指定学习节点的局部模型及其参数信息;接收所述任意网络节点反馈的所述指定学习节点的局部模型及其参数信息;
依据接收到的局部模型学习任务对局部模型进行训练,包括:依据接收到的局部模型学习任务,并结合所述指定学习节点的局部模型及其参数信息,对本地局部模型进行训练;
其中,所述任意网络节点包含发出请求的学习节点对应注册的网络节点或所述区块链网络平台的其他网络节点。
4.根据权利要求3所述的方法,其特征在于,所述学习节点包含至少一个文件服务器,
向所述区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求,包括:所述至少一个文件服务器通过命令行接口向所述区块链网络平台的任意网络节点发送获取指定学习节点的局部模型及其参数请求;
接收所述任意网络节点反馈的所述指定学习节点的局部模型及其参数信息,包括:所述至少一个文件服务器通过命令行接口接收所述任意网络节点反馈的所述指定学习节点的局部模型及其参数信息。
5.根据权利要求1-4任一项所述的方法,其特征在于,接收区块链网络平台分发的局部模型学习任务之前,还包括:
向斯皮尔服务器发送可验证身份文件获取请求,其中,所述斯皮尔服务器用于将学习节点对应的制药机构的基本信息与预设标准进行比对,达到预设标准则生成可验证身份文件;
接收来自所述斯皮尔服务器提供的可验证身份文件。
6.一种基于药物研发模型的协同训练系统,其特征在于,包括:
区块链网络平台,向不同学习节点分发局部模型学习任务,其中,一个制药机构对应一个学习节点;
所述学习节点,接收所述区块链网络平台分发的局部模型学习任务,依据接收到的局部模型学习任务对局部模型进行训练,基于训练结果更新所述局部模型,并将更新的局部模型及对应模型参数发送至所述区块链网络平台;
所述区块链网络平台,接收来自所述学习节点的更新局部模型及对应模型参数并进行汇总得到全局共享模型及相关模型参数,将所述全局共享模型以及相关模型参数共享给所述学习节点;
所述学习节点,接收所述区块链网络平台共享的全局共享模型以及相关模型参数;
所述区块链网络平台包含多个网络节点,且各网络节点间使用区块链机制交互,所述学习节点向区块链网络平台中符合预设规则的一个网络节点发送携带注册信息的注册请求,其中,符合预设规则的网络节点依据注册信息对相应学习节点注册,并将注册信息和注册成功的消息同步至其他网络节点;接收符合预设规则的网络节点反馈的注册成功或注册失败的消息
所述区块链网络平台包含多个网络节点,且各网络节点间使用区块链机制交互,所述学习节点向所述区块链网络平台中符合预设规则的一个网络节点发送携带注册信息的注册请求,其中,所述符合预设规则的网络节点依据注册信息对相应学习节点注册,并将注册信息和注册成功的消息同步至其他网络节点;接收所述符合预设规则的网络节点反馈的注册成功或注册失败的消息;
所述学习节点向所述区块链网络平台的任意网络节点发送局部模型训练进度信息,所述任意网络节点将所述局部模型训练进度信息同步至其他网络节点;所述学习节点从所述任意网络节点获取全局训练状态信息和/或其他学习节点的其他局部模型训练进度信息;其中,所述全局训练状态信息包含由网络节点依据各网络节点的训练进度分析得到的全局训练进度信息、与全局预设目标的差距信息。
7.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行权利要求1-5中任一项所述的基于药物研发模型的协同训练方法。
8.一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行权利要求1-5中任一项所述的基于药物研发模型的协同训练方法。
CN202111086396.2A 2021-09-16 2021-09-16 一种基于药物研发模型的协同训练方法、系统及存储介质 Active CN113782111B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111086396.2A CN113782111B (zh) 2021-09-16 2021-09-16 一种基于药物研发模型的协同训练方法、系统及存储介质
PCT/CN2022/071434 WO2023040149A1 (zh) 2021-09-16 2022-01-11 一种基于药物研发模型的协同训练方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111086396.2A CN113782111B (zh) 2021-09-16 2021-09-16 一种基于药物研发模型的协同训练方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN113782111A CN113782111A (zh) 2021-12-10
CN113782111B true CN113782111B (zh) 2023-07-18

Family

ID=78851509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111086396.2A Active CN113782111B (zh) 2021-09-16 2021-09-16 一种基于药物研发模型的协同训练方法、系统及存储介质

Country Status (2)

Country Link
CN (1) CN113782111B (zh)
WO (1) WO2023040149A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782111B (zh) * 2021-09-16 2023-07-18 平安科技(深圳)有限公司 一种基于药物研发模型的协同训练方法、系统及存储介质
CN114462082A (zh) * 2022-01-20 2022-05-10 盐城矩阵运营管理有限公司 一种模型构建方法及装置、存储介质、计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111180061A (zh) * 2019-12-09 2020-05-19 广东工业大学 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统
CN111966698A (zh) * 2020-07-03 2020-11-20 华南师范大学 一种基于区块链的可信联邦学习方法、系统、装置及介质
CN113011602A (zh) * 2021-03-03 2021-06-22 中国科学技术大学苏州高等研究院 一种联邦模型训练方法、装置、电子设备和存储介质
CN113052331A (zh) * 2021-02-19 2021-06-29 北京航空航天大学 一种基于区块链的物联网个性化联邦学习方法
US11081219B1 (en) * 2020-01-15 2021-08-03 Ledgerdomain Inc. Secure messaging in a machine learning blockchain network

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11966818B2 (en) * 2019-02-21 2024-04-23 Hewlett Packard Enterprise Development Lp System and method for self-healing in decentralized model building for machine learning using blockchain
US20200272945A1 (en) * 2019-02-21 2020-08-27 Hewlett Packard Enterprise Development Lp System and method of decentralized model building for machine learning and data privacy preserving using blockchain
CN113239404B (zh) * 2021-06-04 2022-07-19 南开大学 一种基于差分隐私和混沌加密的联邦学习方法
CN113782111B (zh) * 2021-09-16 2023-07-18 平安科技(深圳)有限公司 一种基于药物研发模型的协同训练方法、系统及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111180061A (zh) * 2019-12-09 2020-05-19 广东工业大学 融合区块链与联邦学习的共享医疗数据智能辅助诊断系统
US11081219B1 (en) * 2020-01-15 2021-08-03 Ledgerdomain Inc. Secure messaging in a machine learning blockchain network
CN111966698A (zh) * 2020-07-03 2020-11-20 华南师范大学 一种基于区块链的可信联邦学习方法、系统、装置及介质
CN113052331A (zh) * 2021-02-19 2021-06-29 北京航空航天大学 一种基于区块链的物联网个性化联邦学习方法
CN113011602A (zh) * 2021-03-03 2021-06-22 中国科学技术大学苏州高等研究院 一种联邦模型训练方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2023040149A1 (zh) 2023-03-23
CN113782111A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN112737916B (zh) 一种基于区块链网络的数据处理方法及相关装置
CN113782111B (zh) 一种基于药物研发模型的协同训练方法、系统及存储介质
CN112511611B (zh) 节点集群的通信方法、装置、系统及电子设备
CN106209947B (zh) 一种去中心化自治组织的数据处理方法及系统
US8255409B2 (en) Systems and methods for generating a change log for files in a managed network
CN111901309B (zh) 一种数据安全共享方法、系统及装置
CN111698322A (zh) 一种基于区块链和联邦学习的医疗数据安全共享方法
CN109361555A (zh) 云网业务开通的方法和装置
DE112016001075T5 (de) Verteiltes speichern und abrufen von datensätzen
JP2020515092A (ja) ブロックチェーン監視及び管理
CN106911648B (zh) 一种环境隔离方法及设备
CN105765901A (zh) 智能防火墙访问规则
DE202023100535U1 (de) Systeme für Multi-Blockchain- und Multi-Token-Interoperabilität durch gemeinsame Blockchain-Integration
KR20130114575A (ko) 프로비저닝 서비스를 위한 리더 중재
AU2020101466A4 (en) BLOCKCHAIN TECHNOLOGY BASED IoT CONSENSUS PROTOCOL FOR SMART HOME
US9911004B2 (en) Cloud-based hardware architecture
EP3785416B1 (de) Verfahren zur anbindung eines endgerätes in eine vernetzbare rechner-infrastruktur
CN108347450A (zh) 一种远程登录的方法及设备
US20200127975A1 (en) Cloud computing architecture with secure multi-cloud integration
JP2021005231A (ja) 制御システム、制御装置、および管理方法
CN116070253A (zh) 驾驶数据处理方法、装置和存储介质
EP4154070A1 (de) Digital-twin basierte prozesssteuerung in einem iot-netzwerk
CN114650144B (zh) 基于区块链的文件分享方法及系统、电子设备及存储介质
US11943211B2 (en) Device monitoring in accessing network
CN113632437B (zh) 工业物联网中的安全远程连接

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231010

Address after: Unit 1201, 12th floor, Block B, 101, 3rd to 24th floors, Xinyuan South Road, Chaoyang District, Beijing, 100016

Patentee after: Ping An Chuangke Technology (Beijing) Co.,Ltd.

Address before: 23rd floor, Ping'an financial center, 5033 Yitian Road, Fuan community, Futian street, Shenzhen, Guangdong 518000

Patentee before: PING AN TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right